西田宗千佳のイマトミライ
第158回
KDDI大規模障害からなにを学ぶべきか
2022年8月1日 08:15
7月2日に発生したKDDIの通信障害は、復旧までに61時間25分という記録的な長さとなった。その原因と対策について、7月29日、KDDIは詳細を説明する記者会見を開いた。
3日の障害発生中の会見ではまだ見えていなかった「明確な原因」もわかり、対策も始まっている。筆者も説明会に参加したが、そこで感じたことをまとめてみたい。
根源的な原因は「ヒューマンエラー」 9月末までに対策完了へ
まず気になるのは「原因はなんだったのか」ということだ。
原因は、2つのフェーズに分けて考えるべきかと思う。
1つは、障害が発生した直接の原因であり、もう1つは障害が長期化した原因である。
障害長期化の原因は、初期の説明からある程度見えていた。輻輳による予想外に巨大な影響から加入者データベースの復旧が必要になったためだ。影響の減少には時間がかかり、検証にも同様に時間がかかってしまった結果、復旧作業が終わったにも関わらず、最終的には61時間を超えるトラブルになった。特に今回は、音声を担当するVoLTEでの障害だったが、リセットをしながら直す段階でバックアップファイルが壊れて生成され、それがなかなか発見できなかったことで障害の長期化につながったようだ。
そもそもトラブルが発生した発端はどうか?
メンテナンスに伴うルータ交換作業があり、そこから15分間の通信断があり、その結果として輻輳が広がった。なぜ「日常的に行なわれるメンテナンス」でトラブルが発生したのだろうか?
原因は結局ヒューマンエラーだった。
KDDI側で作ったメンテナンスの指示書について、間違って古いバージョンのものが使われ、設定内容に間違いが発生したのだ。
「手順書の承認作業はあったが、その過程では間違いに気づくことはできなかった。目視だけでなく、システム的なもので確認できるようなかたちも考えていきたい」
KDDI・取締役執行役員専務 技術統括本部長の吉村和幸氏はそう説明する。
まさか、というようなことがミスとして起こり、そこから玉突き式にトラブルが拡大したわけだ。あってはならないのだが、起きがちなミスであるのも事実だ。
KDDIはすでに対応に取り組んでおり、作業手順書のチェックについては、すでに承認ルールや手順の改訂を行なったという。
輻輳対策についても、ツールの導入を含めた再検討を行なっており、8月・9月中には全体的な再発防止策と告知改善を行なう。
金額よりも「信頼をつなぐ」ことが重要
今回の件について、もしかすると一般の注目はすでに「補償」に移っているのかもしれない。新聞などは特に、そこに集中した質問を行なっていた。
今回の場合、トラブルは主に音声通話に集約されていた。初期の通信総量制限やSMSのトラブルもあって、「通信・通話が全く使えない時間が長かった」ように思う人も多いようだが、実際のトラブルの中心は音声で、データについては通信が可能だった時間の方が多い。今回も、約款上必須となる返金が発生するのは音声契約の顧客であり、対象外の顧客の方が多い。こちらは今後、月額基本料の2日分に相当する額の返金対応、という形になる。
一方、約款の定めの外ではあるが、同社のスマートフォン・携帯電話などの全顧客に対し、「おわび」名目で請求額から200円(税抜)の減算が行なわれる。
総額では73億円と巨額だが、3,589万人で分割すればたいした額にはならない。だから「返金よりもその額をサービスの拡充に充ててほしい」という声も聞こえるし、逆に「この額でいいのか。もっと高く」という話もあるようだ。
なお、返金・おわびについては新聞広告やSMSで告知されるが、SMSでの告知については「リンク先のURLはなく、個人情報も入力を求めない」形だという。KDDI側の事務手続きで終了するものなので、個人での対応は一切不要だ。関連してフィッシング詐欺が発生する可能性があるが、「リンクがあったり個人情報の入力を求めるものはすべてニセモノ」なので、ご注意を。周囲にもその点を周知していただきたい。
正直筆者は、あまり「額」には興味はない。重要なのは、KDDIにとってこの「おわび」がどのような意味を持つのか、という点だ。
回線のトラブルによって解約が起きたか、という質問に対し、KDDIの髙橋誠社長は次のように答えた。
「解約の数字はそれほど大きくなっていないが、新規ユーザーに関しては影響が出ている。再発防止をしっかりやって、長年お付き合いいただいているお客さまの信頼回復を優先しながら、新しいお客さまにも来ていただくということに、全社を挙げて取り組んでいきたい」
実際問題、トラブルが何度も継続しているわけではない。対応に不満がある人よりも、「あのようなトラブルを起こしたところと契約していいのだろうか」という事後への影響の方が大きいのは事実だろう。
だとするならば、顧客に対する誠意を見せつつ、対策を進めて信頼回復をする方が近道。そこで「おわび返金」などをしないというわけにもいかない……というのが本音ではないかと思う。
「緊急通報ローミング」導入のきっかけに
今回の障害の本質から得られる教訓はなにか?
筆者は2つあると思っている。
1つ目は「緊急通報ができない期間が生まれることのリスクが認識されたこと」だ。
大規模障害時に全部の通信をローミングするのは現実的でないと思うが、緊急通報だけでもローミング対応ができないか、という議論が始まったことはプラスに捉えたい。
金子総務大臣、大規模通信障害時の事業者間ローミング「速やかに検討する」
大規模障害での緊急通報ローミング「各社前向き、KDDIも積極的に取り組む」
通話に必須である加入者データベースまで含めたトラブルが起きているとき、緊急通報を含めたローミングが本当にできるのか、技術的な検討は必要だとは思う。
だが髙橋社長は「例えば加入者交換機だけ分けるとか、仮想化の世界なので可能性はあるのではないか」と話す。具体的にどうするかは明確ではないが、「仮想化」というキーワードを含めて実現の可能性に向けた検討が行なわれているのは興味深い。
また、緊急通報については、通話してきた人への「呼び返し連絡」が課題である。
海外では呼び返しを前提とせず、どんな通信端末からでも緊急通報にはつながる仕組みになっているが、日本の場合はそうではない。
髙橋社長は「呼び返しができなくてもローミングを提供しようとか、様々な選択肢の中で議論が進むのではないか。われわれとしてもこれは積極的に実現したい」とも話す。
実際にやろうとすると、費用なども含めた各論には、もっともっと課題があるだろうと予想される。だが、ここは早急に各事業者を含めて擦り合わせを行ない、実現してほしいところだ。
同様に、総務大臣側との認識の違いは気になるところだが、ここも現場での擦り合わせを前提に認識合わせを進めていただきたく思う。
IoTとコネクテッド・カーの「未来」のために今回のトラブルから学ぼう
2つめの課題は「産業利用への影響」だ。
今回は個人の通話だけでなく、企業が利用する回線にも影響が出た。通話トラブルはもちろん、各種のIoT機器にも障害が出ている。
髙橋社長は「頭では理解していたことではあるのだが、スマートフォン以外でもたくさんの機器が通信をしていて、社会に大きな影響を与えていることを痛感した。より信頼性の高いネットワークを作らないといけない」と話す。
確かにこれは課題だ。だが、「今回の件で自動運転車などに暗雲」と煽るのは違うと感じる。
今回のトラブルは不幸中の幸いとして、音声を中心としたトラブルだった。業務用回線での影響も音声が中心であり、データ回線は「トラブルがあったが次のデータ所得時にリトライできた場合が多い」という。IoTへのトラブルとしては致命的なものではなかった、と言える。
ただし、それは今回たまたま助かっただけだ。
現状、IoT機器の利用は始まったばかりだ。その上でこのようなトラブルが起きたことは、まさに「不幸中の幸い」と捉えるべきだろう。今回深刻な影響が出たら何が起きる可能性があったのかを、今のうちに検証しておくべきだろう。
だから、回線のトラブルがあった時にどのような対処がありうるべきか、IoT機器でもしっかりと考えておくべきなのだ。
すでに機器としては、複数回線に対応できるものも存在する。どうしても接続が切れては困るものは、コストが上がってもそうした機器の導入と適切な契約への移行を進めるべきだ。また機器によっては、「通信が止まった時に安全に運用する仕組み」を改めて考えておくべきだろう。
IoTやコネクテッド・カーの利用が始まった今だからこそ、そうしたことを見直す契機として、今回のトラブルを活用してほしい。