ニュース

NTT版LLM「tsuzumi」 図表読解、GPU不要の超軽量版も

NTTは、軽量で世界トップレベルという日本語処理性能を持つ大規模言語モデル「tsuzumi」(つづみ、鼓)を開発、2024年3月から法人向けに提供を開始する。

大規模言語モデル(LLM)はさまざまな製品が登場しているが、学習に要するデータが大きいと莫大な電気エネルギーが必要になることや、運用する際に大規模なGPUが必要で、必要なチューニングにも高いコストがかかるなど、サステナビリティや企業が負担するコスト面が大きな課題とされている。

大規模化したLLMは学習に膨大なエネルギーが必要と指摘

NTTが開発したLLM「tsuzumi」は、こうした課題の解決を念頭に、「軽量かつ高性能」を実現したのが最大の特徴。NTTの研究所が保有する40年以上におよぶ自然言語処理研究の蓄積を活用するほか、世界トップレベルのAI分野の研究力を活かし、NTTグループの各社が商用サービスに組み込んで提供していく。また商用サービスに先駆けて、2023年10月からは京都大学医学部附属病院や東京海上日動火災保険などのパートナーとトライアルも開始している。

「tsuzumi」の特徴
「tsuzumi」を発表するNTT代表取締役社長の島田 明氏(左)、NTT執行役員 研究企画部門長の木下真吾氏

GPU不要の6億パラメータモデルが登場

「tsuzumi」はパラメータサイズが6億の「超軽量版」(超小型版)と、70億の「軽量版」(小型版)の2種類が開発されている。OpenAIのGPT-3が1,750億パラメータであることなどと比較して、大幅に軽量化されたモデルとなる。

70億の「軽量版」はGPUが1つ、6億の「超軽量版」はCPUのみで高速な推論動作が可能としており、チューニングや推論に必要なコストを抑えることが可能になっている。一般的な用途には軽量版を用い、端末側が高機能でなくても動作させられる超軽量版は“尖った用途”にも向くとしている。

一方、130億パラメータの「中型版」も開発中で、2024年4月以降に提供予定。このモデルは高い性能に挑戦するものとなり、言語以外の要素の入力を理解する「マルチモーダル」に最適なモデルとして開発する。

ハードウェアが低廉なものですみ、導入コストを下げられる
学習コスト
推論コスト
ラインナップ

日本語処理性能に注力

「tsuzumi」は日本語と英語に対応する。日本語処理性能は、長年の研究で得た知見を活かし、言語の質と量を徹底的に向上させたという1兆以上のトークン(≒単語)を用いて学習することで高い性能を備えた。

生成AI向けのベンチマークテスト「Rakuda」(評価にGPT-4を使用)では、GPT-3.5や、同クラスの国産トップのLLM群を上回る性能が確認されている。

また英語性能も世界トップクラスのLLMと同程度で、今後は多言語対応も進める。英語の性能が高かったのは想定外だったともしており、「より上位の言語の概念を獲得している可能性がある」(木下氏)としている。

法人向けとして柔軟なチューニングに対応できるのも特徴で、効率的に知識を学習させられる「アダプター」により、特定の業界、あるいは企業に特有の言語表現や知識に対応するチューニングを、少ない追加学習コストで実現する。

図や音声といった、言語化されていない要素の入力にも「マルチモーダル」として対応可能。視覚や聴覚といった言語以外からユーザーの状況を理解するというもので、すでに図やグラフを理解する能力を獲得済み。質問に応じて、表やグラフから必要な要素だけを抽出・計算して回答するといったことができるようになっている。今後は、相談者の声のニュアンスを認識して対応を変えるといった、人と協調するような稼働も可能になるとしている。

図表の読解能力も備える

将来的には、ひとつの巨大なLLMを目指すのではなく、(他社の製品を含めた)専門性を持った小さなLLMが集合して意見交換し、集合知として最適解を導き出すようなAI群を形成する「LLMコンステレーション」も構想している。

こうした連携システムの通信基盤には高速で安全、低遅延な環境としたIOWNが有効とし、すでにtsuzumiの開発段階でも、IOWNのAPN(オールフォトニクスネットワーク)を利用して、数百km離れたデータセンター間でGPUとストレージを接続、LLMの学習環境を構築して活用している。

開発段階でIOWN APNを活用
LLMコンステレーションの構想

NTTはすでにAIを活用したサービスを各社に提供しており、これをアップグレードするような形で、「tsuzumi」の導入を働きかけていく方針。中期経営計画である2027年度までに、年間1,000億円の売上が目標としている。

ターゲット市場
ロードマップ

チャットボットの進化などサービス展開例

「tsuzumi」を活用できる具体的な利用シーンもいくつか紹介されている。医療現場では電子カルテの導入が進む一方で、そのフォーマットはシステムを開発した企業ごとに異なり、また医師の記入の仕方もそれぞれ異なることから、構造化したデータに置き換えるのに手間がかかっていたという。「tsuzumi」では電子カルテで示される表組みなども理解できることから、自動で必要な情報を構造化でき、ビッグデータとしての活用がより簡単にできるようになる。

コールセンターでは会話内容を録音・データ化し要約しているが、「tsuzumi」の要約を導入することで、会話の後の業務や事務稼働時間を大幅に削減できる。こうしたコンタクトセンター向けでは、業界大手のアバイアやジェネシスとも連携していく。

NTTドコモでは、ユーザーからの相談を受け付けるチャットボットを稼働させているが、ボットの回答内容の作成には手間がかかっているほか、複雑な相談内容には何度も画面を往復する必要がある。「tsuzumi」を導入すると回答までの画面往復回数や時間が大幅に短縮されるほか、図表入りのマニュアルをボットに学習させることも可能になる。

このほか著作権などAI関連のリスクに対してもAIガバナンスのサポートを表明している

図表読解から恋愛相談まで動作デモ

tsuzumiの紹介動画のストーリー作成を依頼
純文学とライトノベルの違いについて。表を使った回答例
高齢化社会の影響について
日本語から英語への翻訳
英語から韓国語への翻訳
動画投稿チャンネルの開設に関する相談
恋愛相談
図表を提示して、読み上げ内容を質問。tsuzumiの回答は右下「A」の赤枠。図表中のテキストに含まれない内容も言語化されている
複雑なグラフを含む図表に対する質問
tsuzumiの認識内容を色付けしたもの。図表のテキストで赤色になっているのが、内容の把握において重視している部分