ニュース

Turing、自動運転の認識能力を高速化する視覚データ圧縮技術

Turingは、動画や画像のデータを効率的に圧縮しながら、AIに適した形式で高精度に保持できる技術を開発した。局所的に重要情報を集約する学習時の工夫と、重要度に応じたデータの割り当てを組み合わせることで、自動運転AIやマルチモーダルAIなどにおけるデータ活用を可能にする。

画像やテキストなど複数種類のデータを同時に扱うマルチモーダル大規模言語モデル(MLLMs)においては、大量のデータを入力するニーズが高まっているが、従来の画像データ埋め込み技術では、AI向けに最適化された形で効率良く情報を受け渡すことが難しいという課題があった。

今回開発された技術では、膨大なデータを効率良く圧縮しながら必要な情報を高精度で保持できる仕組みを提供。テキストや画像など多様な情報を、トークン(AIが処理するための最小単位)の列に変換し、それらを必要に応じて増減できる仕組み(可変長圧縮)を導入している。これにより、必要な画質や解析精度を維持しながら、データ容量を大幅に削減可能になった。

さらに、学習の段階でトークン列の末尾をランダムに削除し、その差異を比較してモデルを最適化する手法「Tail Token Drop」を導入することで、重要情報をデータ列の先頭に集約。これにより、圧縮率を高めても肝心な部分を損ないにくい設計を実現している。

また、トークン列から画像を再構成可能で、従来のJPEGやWebPなどの画像フォーマットと比較して小さいバイト数で視覚的に自然な画像を再構成できる。

本技術により、自動運転では、車載カメラからの映像を圧縮することで自動運転基盤モデルに視覚データを効率的に入力可能になる。これにより大きなデータを入力した際の計算時間の増大を防ぐことで、大規模AIモデルがリアルタイムで高速に周囲の情報を認識・判断できるようにする。