西田宗千佳のイマトミライ
第155回
KDDIの大規模障害はなぜ起きたのか。「告知」に課題
2022年7月4日 00:00
7月2日深夜に起きたKDDIの通信障害は、3日夜になっても完全回復に至らず、長期的かつ影響範囲の多いものとなった。3日にはKDDIが会見を開き、髙橋誠社長自身が謝罪し、障害の詳細と復旧状況の説明が行なわれた。
「KDDI創業以来最大の障害」(髙橋社長)はなぜ起きたのか、そして、この障害はなにを示しているかを考えてみよう。
個人のスマホにも業務端末にも大きな影響
被害対象端末数は、全国で最大約3,915万回線。それがほぼ2日に渡って影響を受けた。筆者の契約している端末も、アンテナピクトが立たず、通話もできない状態になった。
携帯電話で通話ができない、特に緊急通報も難しいというのは、インフラとしては非常に危険な状態だ。
通話機能の障害に伴い、SMSも使えなくなった。ウェブサービスの認証では、SMSを使った多要素認証が採用されることが増えているが、SMSが使えないと、認証ができないのでサービスが使えなくなる。
のちほど解説するが、今回のトラブルは主に音声通話の接続に関するものだったが、結果として、KDDIが扱うデータトラフィック全体に影響した。復旧の段階で利用できる帯域が絞られたため、通信に関しても一部トラブルが起きた。
KDDI自身の回線もそうだが、MVNO回線や、一部エリアでKDDIの回線を使っている楽天モバイルも影響を受けた。
個人だけでなく、企業の使っている端末も同様に影響を受けている。宅配業者や空港係員など、スマートフォンや専用端末などを業務に使っている人の業務が滞る結果となったし、主にSMSの不通により、業務用の端末でデータのやり取りができないこともあったという。
KDDIの携帯電話ネットワークはまさに日本を支えるインフラの1つであり、その影響の大きさが改めて明確なものとなった。
通信障害の流れは判明、だが「本当の原因」はまだ未解明
今回の通信障害はなぜ起きたのか?
実は根幹的な話をすれば「まだ最終的な原因はわかっていない」と、筆者は理解した。
3日11時から開かれた会見は2時間に渡った。しかし、この時点では完全な復旧には至っていない。KDDIとしても最優先事項は「復旧」であって、完全な原因究明はそのあとになるから、あくまで「現状でわかっていること」が説明されたに過ぎない。
KDDI髙橋社長が「au通信障害」謝罪、現時点で判明している経緯
現在わかっているのは次のような流れだ。
通信障害は7月2日午前1時35分に発生した。
メンテナンスの一環として、KDDIネットワークのモバイルコア・ネットワークへと中継するコアルーターのうち1つを、旧製品から新製品へ切り替え作業をしていたという。この作業に際して、トラフィックがどう流れるか(ルーティング)の切り替えが行なわれる。
その過程で、音声通話を担当する「VoLTE交換機」でアラームが鳴った。作業の過程でルーターになんらかの不具合が発生し、音声トラフィックの一部が不通になったのだ。
すぐに音声トラフィックを元に戻す「切り戻し処理」を実施したが、そこでまたトラブルが起きる。
VoLTEでは、通信が行なわれていなくても、50分に1度、携帯電話端末の位置登録が起きる。そうすると、切り戻し作業に多数の端末からの「再接続要求」が発生し、「少なくとも通常の2倍以上、数倍程度」(KDDI・吉村和幸 取締役執行役員専務技術統括本部長)のトラフィックが生まれる。
結果として、VoLTE交換機で通信が集中して不具合が発生する「輻輳(ふくそう)」が全国で発生する。
携帯電話網には、その番号がどのような契約に伴うものでどこにあるのかを記録した「加入者データベース(DB)」がある。VoLTE交換機で輻輳が起きると、その結果、加入者DBに正しい情報が書き込めなくなり、データベースの不一致が発生した。
加入者DBの内容が正しくないと、多くの人の通信・通話が正しく行なえなくなる。そのまま負荷増大による輻輳を放置するとさらに大変なことになる。
そこで2日午前3時、VoLTE交換機の負荷軽減を目的とした「流量制御」が始まり、全国規模で音声通話・データ通信が行ないづらくなった。
最初のメンテナンスから玉突き状にトラフィックが増大、輻輳によるトラブルが拡大した……。
これが全体の流れだ。
結局最初のトリガーは、7月2日午前1時30分頃に行なわれた「コアルーター交換」というメンテナンス作業である。それが問題では……ということになるのだが、このメンテナンス自体は特別なものではないようだ。
吉村専務は「あくまで通常の作業で、毎月あるようなもの。ただ今回は、いつもは起きないことが起きた。なのでしっかり原因を調査したい」と話す。
まず現状は復旧優先だが、その後、同じようなトラブルが起きないように状況の解析が進められることになる。
輻輳の対応は困難。「どうアナウンスすべきか」に大きな課題
ただ、今回のようなトラブルには「輻輳の拡大」という困難がつきまとう。たくさんの人が使っているサービスを回復していくには時間もかかり、大変なものだ。
トラブルの発端や影響範囲は異なるが、2021年10月に起きた、NTTドコモの大規模障害も、輻輳の影響で多くの人に影響が出た。
「トラブル時には、他の通信会社にローミングを依頼しては」との意見もあるが、これも難しい。他の事業者も、自社顧客の何倍ものネットワークを持っているわけではない。そこに接続しても、入り口に殺到して輻輳が起きたり、ネットワーク自体のキャパシティを超えたりして、正常な事業者のサービスに悪影響を与えてしまう可能性が高い。
帯域制限をかけている最中は、どうしても利用に制限がかかる。そこで慌てて繰り返し使うと、さらに負荷が大きくなる。しかし、消費者目線で見れば繰り返してしまうのは仕方ないところがある。
今回にしても、どのような流れでアナウンスを出すべきかは、非常に大きな課題だったと言える。技術的に難しい内容になりやすく、伝えるのが難しいのも事実なのだ。
KDDIは初期、シンプルに「利用しづらい状況が続いている」とだけ公開していた。ウェブやSNSでの情報発信が中心で、それらのメディアに接するのが難しい人には、なにが起きていたのか分かりづらかっただろうと思う。
auショップの対応も色々だ。
7月2日夕方、東京都内のauショップ店頭をチェックすると、手書きで「システム障害」「復旧未定」の張り紙がされていた。彼らの元にも、詳しい情報が降りてきていたわけではないようだ。
・3日0時まではあまり情報量のない告知が続いた7/3 0時時点、引き続き復旧作業に努めておりますが、長時間にわたりau携帯電話サービスがご利用しづらい事象が続き大変申し訳ございません。
— au (@au_official)July 2, 2022
お客さまには多大なるご迷惑をおかけし深くお詫び申し上げます。
今後も定期的に状況をご案内していきます。https://t.co/LadoNhzNzf
7月3日早朝になり、帯域制限の状況や復旧作業終了の時間が含まれるようになってきたが、こうした措置はもっと早く行なえただろうし、auショップへのアナウンスもまとまった形で正式にできたのではないか、とは思う。髙橋社長も「初動対応については反省すべきところがある」と話す。
・7月3日午前3時のアナウンス。復旧率の数字が入るようになった(7/3 3時現在)
— au (@au_official)July 2, 2022
長時間にわたりau携帯電話サービスがご利用しづらい事象が発生し、深くお詫び申し上げます。
データ通信を中心に徐々に回復してきております。3時には全国の15%程度回復し、4時には全国の35%程度の回復見込みです。引き続き復旧に取り組んでまいります。https://t.co/ovgu24U9jK
一方、輻輳対策の難しさもあり、回復を「何時に確実に」と言いづらい、という事情もあるようだ。
今回についても、「西日本で11時」「東日本で17時30分」とされた時間も、あくまで復旧作業の終了時間とされている。そこから検証作業などがさらに行なわれ、ゆっくりと「完全復旧」に至る。
・7月3日17時30分を過ぎた後も「ネットワーク試験中」とされている(7/3 18時現在)
— au (@au_official)July 3, 2022
ご利用しづらい状況が継続し、深くお詫び申し上げます。
西日本は11時、東日本は17時半に復旧作業を終了しましたが、
作業終了後も、ネットワーク試験の検証中につき、
流量制御などの対処を講じているため、ご利用しづらい状況が継続しております。https://t.co/qRD8e2yW8B
こうした流れを多くの人々に理解してもらうことは、状況の改善にも、人々の安心にもつながるはずだ。
そのためのプロセスは明確ではない。昨年のNTTドコモの際も、今回のKDDIの件でも、理想的なリスク対策コミュニケーションができていたとは言えない。
これは、メディア側にも課せられた課題だ。ニュースやSNSでどう伝えるかは、筆者にも明確な答えがない。テレビなどの緊急通報などをどう使うか、ということも考えるべき事象かとも思う。携帯電話以外の通信手段による回避策がない人の多くは、ネットでのアナウンスに接するのが難しい。そこにどう周知するのかは大きな課題である。
筆者は「アナウンス」を優先し、「会見」は復旧の後、原因検証がある程度終わってからがよかったのでは、と考えているが、そう思わない人もいるだろう。
このような点も含め、通信事業者・メディア・行政が共に「適切なアナウンスのあり方」を考えるべきだと考える。