ニュース

NTT、LLMでスライドなどの理解を高める視覚読解技術

NTTは、大規模言語モデル(LLM)による視覚読解の強化に向け、同社のLLM「tsuzumi」のアダプタ技術を開発・導入する。tsuzumiと連携して利用することで、文書に含まれる図表を含めて理解し、自然言語での指示に従った応答を可能にする。

レシートやWebサイト、スライドなどのテキストだけでなく図版や写真を伴うデータにおける「機械読解」を実現するための技術。

人々が扱う文書は、テキストだけでなく視覚要素(アイコンや図表など)を含み、多様な種類・形式が存在している。一方、従来のLLMは、テキストの理解には優れているが、図などを含む視覚文章の理解・抽出を苦手としている。今回開発した「アダプタ」をLLMと組み合わせることで、文書に含まれるテキスト・レイアウト・視覚情報などをLLMが理解しやすくし、そのうえでLLMの推論能力を活用していく。

テキストベース読解と視覚読解の比較

今回の研究では、文書画像をLLMの表現に変換可能な新たなアダプタ技術を開発したほか、多様な視覚読解タスクを対象とした指示遂行データセットの構築を行なった。このアダプタは、文書に含まれるテキスト・レイアウト・視覚情報をTransfomerモデルを活用して、LLMに解釈できる形に変換。LLM自体で視覚読解を行なうよりも軽い処理で、視覚読解を実現可能とする。

これにより、オフィスシーンで多用される文書を人間のように、視覚から情報を理解可能とし、カスタマーサポートや自然言語指示による作業自動化、AIと人とのペアワークなどに活用していく。