ニュース

NTT、音の波を見える化 ハイスピードカメラとAIで高精細に

今回の成果の枠組み

NTTは、ハイスピードカメラとレーザー光およびAI処理を用いた音の見える化技術を開発した。光を用いて音をセンシングする光学的音響計測技術において、音の物理特性を考慮した独自の深層学習モデルを用いた高精細な音の見える化は世界初としている。

空気中を伝わる音の波を動画像として観測できる技術。音の研究開発における新たなセンシング手段として活用でき、騒音の評価や新たな音響デバイスの開発、従来技術の高効率化などを見込む。

ある地点で発生した音は、水面に投げ入れられた石が作る波紋が周囲に一定の速度で広がっていくように、波として空気中を伝わっている。しかし、音は水面とは異なり目で直接見ることができないうえ、反射や回折をともなって空間中を複雑に伝搬するため、音がどのように発生し伝わっていくかを把握することは困難とされる。

これに対しNTTは、誰にとっても心地のよい最適な音環境を創出するための研究開発の一環として、音を聞くのではなく「見る」ことを可能とする、光を用いて音場を見える化する技術「光学的音場イメージング」の研究を進めている。

光学的音場イメージングは、目に見えない音を光の明るさに変換する特殊なイメージング装置を用いることで、ある瞬間の音の波紋の形を写真を取るようにそのまま画像として記録する技術。一般に音の空間特性の測定に用いられるマイクロホンアレイと比較すると光学的音場イメージングは約100倍の空間分解能を有しているという。

マイクロホンアレイと光学的音場イメージングの比較

これによって音の波がどこからどのように伝わっていくのかを、「見る」ことができるようになるが、一方で光学的音場イメージングでは非常に小さな信号の変化を検出する必要があるため相対的に光学的なノイズの影響が大きく、これまで高感度かつ高精細に音を見える化することは困難だった。

今回の研究では、光学的音場イメージングおよび独自の深層学習モデルを用いて、音を動画像として捉える光学的音場イメージングの大幅な高精度化に成功。従来技術では検出できなかった微弱な音の波を、高精細にイメージングできることを示した。

ハイスピードカメラにより撮影されたノイズを多く含む画像に対して、画像中に含まれる微弱な音波成分のみを高感度に抽出するニューラルネットワークを適用し、高精細な音の画像化を実現。光学的音場イメージングにより撮影された音場画像を60マイクロ秒ごとに示した、左から右に向かって音波が伝搬している様子の図を公表した。今回の成果によるAI処理によって音の波が空気中を伝わる様子が鮮明に捉えられているとしている。

音場イメージング結果。各画像はある瞬間の音場を表しており、色が音の大きさに対応している。AI処理なしの画像に含まれているカメラノイズがAI処理によって除去されている

1つ目のポイントとして、音を動画像として捉える光学的音場イメージング技術を挙げている。同技術では光を用いて空気中の音を検出する。音は空気中を粗密波として伝わるが、音響光学効果と呼ばれる現象により、音がある空気中を光が通過する際に気体の粗密に応じて光の速さが僅かに変化する。レーザー光を測定したい音場内に伝搬させ、音によって生じた光の微弱な変化を高感度に検出することにより音が測定される。測定には、干渉計などの光学技術を用いている。

このような光の変動をハイスピードカメラを用いて毎秒数千~数十万フレームの速さで撮影することで、音波を動画像として捉えられるという。

2つ目のポイントとして、独自の深層学習モデルによる雑音除去を挙げている。前述のとおり光学的なノイズが高精細化のハードルとなっていたが、不要なノイズを除去し、音波のみを見える化する独自の深層学習モデルを新たに考案し、高精細な光学的音場イメージングを実現した。

深層学習モデルと処理のプロセス

独自のモデルでは、音の物理的な性質に基づいた演算により人工的に生成した訓練画像を用いて、ニューラルネットワークの学習を実施。さらに、動画像を周波数毎に独立して処理する独自アルゴリズムにより、従来手法を大幅に上回る高精度なノイズ除去処理を実現したとしている。

実験結果

NTTはIOWN構想の中でデジタルツインコンピューティングを提唱し、その研究開発を進めている。今回の成果は、音を見える化するだけではなく、空間に存在する音を余すところなくデジタル化する「音のデジタルツイン」技術への活用を見込む。今後さらに研究進め、誰にとっても心地のよい最適な音環境の創出への貢献を目指す。