ニュース

NTT東西、4月3日朝の通信障害は「未知のバグ」

NTT東日本とNTT西日本は、2023年4月3日の朝に発生した通信障害について、原因と対策を明らかにした。原因はソフトウェアのバグで、サイバー攻撃の痕跡はみられなかった。NTT東西で5年、納入したメーカーにとっては発売から10年で初めて現れた、未知のバグだったとしている。

左からNTT東日本 執行役員 ネットワーク事業推進本部 副本部長の島 雄策氏、NTT西日本 執行役員 設備本部 サービスエンジニアリング部長の桂 一詞氏

通信障害は4月3日午前7時10分~8時53分(NTT西は8時49分)にかけて発生し、通信サービスやひかり電話などが利用できない、または利用しづらい事象が発生した。

影響エリアは16都道府県、影響数は最大で44.6万回線(NTT東35.9万回線、NTT西8.7万回線)に及んだ。このうちひかり電話は最大23.3万回線(NTT東18.6万回線、NTT西4.7万回線)だった。また影響を受けた光コラボレーション事業者は最大324事業者に上った。

一部地域でひかり電話の復旧に時間がかかったことから重大事故に該当、総務省に報告も行なった。

全体概要

原因は、加入者収容装置のうち、特定機種において、内部処理にソフトウェアのバグが存在していたこと。非常に稀と考えられる特定の条件が重なったことで、今回の不具合発生と通信障害につながった。

措置として、問題の内部処理の設定を複数あるうちの別のモードに変更、有効性が確認されたため、この回避策が同一機種の加入者収容装置に適用された。NTT東は4月10日に約600台に、NTT西は4月7日に約500台に対して適用し、完了している。

加入者収容装置などのネットワーク構成図

加入者収容装置は各都道府県にあるNTTのビルに設置されている。各インターネットサービスプロバイダー(ISP)と契約しているユーザーでも、NTTの光回線を採用しているサービスの場合、この加入者収容装置を経由する。通信経路としては比較的ユーザー宅に近い側にあり、ひかり電話を含め、すべての通信サービスが経由する装置となる。

マルチキャスト通信にメーカーも未知のバグ

問題となった加入者収容装置の機種は、2018年度から導入していたもの。コンテンツ配信などに使われるマルチキャスト通信の内部処理に、メーカーも認識していなかった未知のバグがあり、「NTT東西としても初めて発生した事象」(NTT東日本 執行役員 ネットワーク事業推進本部 副本部長の島 雄策氏)だったとしている。

また、当該機種はNTT東西として導入してから5年が経過しているだけでなく、メーカーにとっては発売から10年が経過している製品といい、今回の不具合は初めての事象で、メーカーにとっても未知のバグだったという。

バグのトリガーとなったのは、コンテンツ事業者の配信などで利用されるRFC準拠の通信パケットで、すでに一般的に利用されているものだった。パケット自体は規格に準拠した内容だったものの、「さまざまな条件」が重なった状態で受信した結果、装置内のパケット転送部で障害が発生、再起動を繰り返す挙動になった。

通信障害発生時、NTTが装置に作業を行なっていたわけではなく、工事や作業時の設定ミスといったヒューマンエラーの可能性は排除されている。

NTTのビル内では冗長化としてハードウェアが二重化されていたものの、同じソフトウェアのため、切り替わった2番目のハードウェアでも同じ不具合と再起動が発生。ハードウェアの切り替え、再起動、切り替えが繰り返され、手動の再起動では対処できない状態に陥った。

不具合の発生とメカニズム

複数の装置にパケットが同報されるマルチキャスト通信の特性上、問題のパケットを特定条件が重なった状態で受け取った同一機種では、同時多発的に不具合が発生、NTT東西で導入した約1,000台のうち、1割程度でバグが誘発されることになった。

問題が発生した4月3日、通信障害が収まったのは、直接的にはコンテンツ事業者からのパケットが止まったことが理由だった。その後に暫定的な処置が施され、有効性が確認された回避策を対象機種すべてに適用した形になる。

セキュリティとリスクの観点から、RFC準拠のパケットに重なった「特定の条件」の内容は非公表。当該の加入者収容装置はNTTの特注品ではなく市販されている汎用品で、国内外のほかの事業者でも幅広く使われているとみられることから、同様の事象は起こりうるとして、メーカーを通じて回避策の共有やソフトウェアの改善が検討されている。

非常に稀なケースと思われる今回のパターンを事前に把握できなかったことについて「忸怩たる思い」(NTT西日本 執行役員 設備本部 サービスエンジニアリング部長の桂 一詞氏)と悔しさを滲ませた。

NTT東西では今回の事象を受けて、再発防止策として通信機器メーカーと新たな連携体制を構築していく方針。利用実態を考慮した共同検証や、今回起こった再起動の繰り返しを防ぐ機能などを共同検討していく。このほか検証内容について開発部門以外の第三者組織でリスク評価を行なう体制も強化。マルチキャスト通信はその仕組み上、不具合発生時に影響範囲が拡大しやすいという今回の教訓を踏まえて、コンテンツ配信サーバーからの通信状況を確認するといった仕組みも導入を検討していく。

さらに持株会社であるNTTでも大規模な通信障害への対策をさらに強化する方針で、グループを横断して総点検を実施、NTT東西やドコモ、NTTコムの技術担当者が参加する「システム故障再発防止委員会」で議論を進めていく。