ロイロノート・スクールのサーバー過負荷状況のご報告と改善の見通し(2020/5/11追記)

ロイロノート・スクールのサーバー過負荷状況のご報告と改善の見通し(2020/5/11追記)

4月13日(月)より午前中の数時間サーバー接続への遅延が発生しており、大変ご迷惑をおかけしております。安定したサービスをご提供できず大変申し訳ございません。

現在の調査状況と改善の見通しをご報告させていただきます。

大きな原因としては2つあります。
急激なアクセス数の増大と利用方法がこれまでと大きく変わったことです。

原因1:急激なアクセス数の増大
これまでの最大のアクセス数は、今年2月の6千7百万回/日でした。
それが4月13日に入り、2億7千万回/日と4倍以上のアクセスに増大しています。

4月に入り新規に利用し始める学校が増えているのもありますが、コロナウイルスによる休校継続によって既存導入校での利用方法が大きく変化したことが大きな原因だと分析しています。

原因2:利用方法の大きな変化
特定の時間帯に負荷が集中する
毎日8:30、9:45、10:00、10:45、11:00、12:00ごろにピークがきます。
毎日の健康観察や起床確認、宿題の提出などが、これらの時刻に設定されていることが多いのではないかと推測しています。
切りのいい時刻は全国でタイミングが合いやすいため、可能であれば提出期限をこれらの時間を避ける、時間に幅を持たせるなどして負荷の分散にご協力いただけると大変助かります。

学年単位での授業や全校クラス
300人以上のクラスの利用自粛にご協力いただきありがとうございます。

オンライン授業になり40人クラスの縛りがなくなったことで学年単位などで授業を行うことが増えています。提出箱や送信機能は40人程度での利用を標準と考えて作っていた機能だったため、これも想定外の負荷になりました。
2000人の全校生徒を1つのクラスにして、学校連絡で利用するケースなども想定外でした。

イベント的に多人数で利用することがあったためクラスの上限人数を機能的に制限していなかったのが裏目に出てしまったと反省しています。
今後、最適化を行い大規模クラスでの利用も順次解禁していきたいと考えております。

学校からでなく家庭から使われるようになった
これまで学校一括で導入されたiPadやChromebookなどで利用されることが多かったのが、スマートフォンや自宅の共用パソコンなどさまざまな環境で利用されるようになりました。
利用されるプラットフォームが多岐にわたるようになったのも問題を特定するのに時間がかかっている要因の1つです。

問題が長引いている原因
問題が長引いてしまい大変申し訳ございません。
ロイロノート・スクールのサーバーシステムは、負荷に応じてサーバーの数が自動的に増え、アクセスが増えても分散されて耐えられるような作りになっています。現在も日中は200台程度のサーバーが動いています。
しかしながら、データが集まるデータベースは複数台に分散するのが難しいため、サーバー自体のスペックをあげる形で負荷に対応しています。

実際にデータベースが4月13日からのアクセス数に対して耐えられない状況でしたので、データベースサーバーのスペックアップを行いました。
現在はAWS(Amazon Web Services)で利用できる最高スペック(96vCPU)のものを利用しております。
しかし、その後も問題が発生し続けていました。

問題が起きる直前まではCPU負荷が10%前後とだいぶ余裕があるのですが、前述のアクセスが集中するタイミングで突如CPUへの負荷が上がり、すべての通信が遅延するという問題が発生しています。
この問題の究明に時間がかかっておりましたが、分析を続けて原因が見えてきました。

改善の見通し
4月29日(水)にようやくデータベースの負荷が突然上がる原因が見えてきたため、その対策を5月1日(金)未明 0:00~1:00のメンテナンスで適用しました。
しかし、まだアプリケーション側にもこの問題が起きやすいコードがあることも判明しているため、引き続き対策を講じております。

5月1日の午前中は前述の問題は発生せず安定しておりました。
一歩一歩ですが、解決に近づいております。

※その後の見通しについてはこちらをご覧ください サーバー過負荷対応の最新情報(6/9更新)

再発防止対策
すでにAPM(アプリケーションパフォーマンス管理)の本格的な導入を行っています。
またアクセスログの監視を強化し、利用方法の変化やそれに伴う負荷などにも迅速に対応できる体制を整えていきます。

現在のサーバーの稼働状況は下記からご確認いただけます。

現在、サーバー過負荷を抑える為に一時的に機能制限を行っております。
制限されている機能については下記をご確認ください。

(5/11追記)
5/1の未明に行った改善以降、5/11現在まで連続して安定稼働しております。
GW明けからオンライン授業を本格的に開始している学校も多いためか、5/11にはGW前に比べてアクセス数が1.5倍に伸びました。
引き続き更なるユーザー増加に対応できるように対策を進めてまいります。
Powered by Helpfeel