西田宗千佳のイマトミライ
第219回
NTT版LLM「tsuzumi」に見る国産LLMの意義と戦略
2023年11月6日 08:20
生成AI技術のベースとなる「大規模言語モデル(Large Language Model、LLM)」を日本国内でも作ろう、という動きが活発化している。
日本電信電話(NTT)は、かねてから開発してきたLLM「tsuzumi」を、2024年3月より商用展開すると発表した。
ソフトバンクも、8月に子会社を作って開発を始めていた日本語特化LLMの開発を本格化した、と発表している。
通信会社以外の動きとしては、サイバーエージェントが日本語LLMのモデルを、今年5月に続き再び公開している。
日本語LLMはなぜ必要なのか? なにが重要とされているのかを考えて見よう。
良質な日本語情報から学んだ「コンパクトなtsuzumi」
まず、NTTの「tsuzumi」から見ていこう。
tsuzumiはNTTが独自にゼロから学習して作り上げたLLM。特徴は、パラメータサイズが小さくとも日本語出力の精度が高いことにある。
LLMの性能を比較する方法は複数あるが、その1つが「パラメータ」と呼ばれる、LLMのモデルパラメータ数だ。これはLLMに使われている深層学習技術ではとても重要なものなのだが、簡単に言ってしまうと「次に続くデータの確率的な可能性の幅」のことだ。といってもやっぱりわかりにくいのだが、結果だけをいうなら、パラメータ数が多いほど推論の幅が広がり、より賢い答えが返ってくる可能性が高まる。
そのため、昨今のLLMはパラメータ数を競う傾向にあった。OpenAIはあえてパラメータ数を隠す傾向にあり、GPT-4のパラメータ数は不明なままだが、GPT-3が1,750億パラメータ、Googleが今年春まで使っていたPaLMが5,400億パラメータとなっている。非常に大きな数字になるので、ビリオン(10億=B)を1つの単位とすることも多いくらいだ。
今回発表されたtsuzumiは、70億パラメータの「軽量版」と、6億パラメータの「超軽量版」。さらに130億パラメータの「中量版」を2024年4月に向けて開発中だという。文字通りGPTシリーズとは「桁違い」にパラメータ数が少ない。
だが、会見で公開されたデモでは、非常に自然な日本語が素早く表示された。画像の読み解きもかなり精度が高そうだ。
つまりtsuzumiは、あえて少ないパラメータ数でも精度の高い日本語処理が行なえるように開発されたLLMである、ということである。
ちなみに、「tsuzumi(鼓)」という名前も「日本語特化のLLMに相応しい名前の候補」をtsuzumi自身にリストアップしてもらい、そこから名付けたのだという。
その背後にあるのは、NTTグループが40年手がけてきた日本語処理技術。tsuzumiはその知見と蓄積を使っているという。例えばNTTグループ内のサポートセンターで集められた文書データベースや、翻訳サービス「みらい翻訳」構築に使われたデータなどだ。
NTT・執行役員で研究企画部門長の木下真吾氏は、「過去に蓄積したノウハウだけでなく、処理済みの日本語データなども活用している。今回のためにゼロからデータを集めたわけではないし、処理したわけでもない。ここは非常に優位なところ」と説明する。
ITには「Garbage In, Garbage Out」という原則がある。ゴミを入れたらゴミが出てくる、すなわち「良い結果を得るには良いデータを集める必要がある」という警句でもある。
生成AIでも同じ原則が通用すると言われており、多くの生成AI企業が良質なデータ集めに奔走している。
しかしネット上からは良質なデータが払底し始めている(必要なものが乏しくなっている)。tsuzumiにしてもネットからの情報を使い、さらにその上でNTTグループが持つ「良質で前処理がある程度行なわれた日本語データ」を使うことで独自性を出そうとしているわけだ。
さらに、6億パラメータの最軽量版であれば、推論動作にGPUを必要とせず、普通のPCで動作させられる。
木下氏は、「スマートフォンでの操作も念頭に研究している。さらに小型化し、音声認識だけに特化したものであれば、Apple Watchの上でもすでに動作している」と話す。
先週の本連載でも述べたが、現在インテルやクアルコムは、PC向けやスマートフォン向けのプロセッサーに「AIを処理するためのコア」を搭載する方向に動いている。AppleシリコンやGoogleのTensor Gシリーズはすでに搭載済みだ。
Googleの「PaLM 2」やMetaの「Llama 2」もスマホを意識した超小型モデルを用意しており、「オンデバイス生成AI」は1つのトレンドでもある。
サステナビリティにも企業にも「コンパクトLLM」は有効
パラメータ数の少ないLLMを作る狙いは「省エネルギー」と「学習速度向上」だ。
NTTの島田明社長は、「弊社としてもサステイナビリティーを追求していく必要がある。それにはいかに電力消費を落としていくかが大切であり、機能をいかに社会的課題解決に活かすかが重要でもある。NTT版LLMは、社会的課題を解決するLLMとして出していきたい」と語る。
パラメータ数が小さいということは、それだけ学習に必要な演算処理も小さいということでもある。
GPT-4のパラメータ数が公開されていないことなどから、NTTはGPT-3クラスのLLMと、費用の比較を公開している。軽量版の学習で25分の1、超軽量版では約300分の1まで小さくなる。学習後のLLMを日常的に運用するための機材コストでは、軽量版が20分の1、超軽量版で70分の1と大幅に少なくなる。
LLMの学習コストが低いということは、なにかあって最初から学習し直すとしてもコストが低いということであり、各企業などに導入する際の追加学習コストも低くなる……ということにつながる。
GPTクラスになると、高価で大量の電力を使う高性能GPUを大量に使う。調達コストで最低数百億円単位・使用電力で発電所一基分、という世界だから、そうそうすぐに手を出せるものではないし、ビジネスとして回収するにも大きな絵を描く必要がある。
だが、コンパクトで性能を上げられるLLMを作れれば話は別だ。
島田社長は「2027年には年間1,000億円規模の売り上げを目指す」と話す。
こうした売り上げのベースになるのは、多くの企業への導入だ。日本語での反応・判断に優れたLLMは、文書作成の効率化やヘルプデスク業務など、いわゆる「デジタルトランスフォーメーション」が求められている要素そのものであり、企業向けの展開は容易だ。
また、LLMの性質上、その企業に合わせた追加学習や、企業のデータベースと連携してそれを「外部の知見」として使う処理が必須になる。
後者は最近「Retrieval Augmented Generation(RAG)」と呼ばれるようになったやり方だが、LLM自体に学習された知見に頼るのではなく、外部の知見をLLMで活かすのに向いている。文書作成効率化やヘルプデスク業務には特に有効と言われており、まさに企業での活用にうってつけだ。
ただし、独自の追加学習やRAGなどの手法を使うには、独自のデータが大量にあることが重要になってくる。つまり、個人や中小企業ではなく「大企業」で有利なのだ。
マイクロソフトがOpenAIとともに提供する生成AIサービスにしても、Microsoft Officeとの連携は現状「大企業用のライセンス向け」であり、個人・中小企業には提供されていない。
NTTも、ChatGPTやBingチャット検索のように個人に広くサービスを提供する「プラットフォーム型」の可能性は否定しないものの、「当面は企業中心でやっていく」(島田社長)としている。
それは小規模なLLMを活用すると判断した時点である意味必然であり、最適なビジネス判断でもある。
国内LLM提供企業の1つであるサイバーエージェントの提供するLLMも、規模は70億パラメータと大きくない。
これは、彼らの持つ演算資源(GPUを備えたサーバーなど)の制限もあるだろうが、それ以上に、自社で広告事業に特化した生成AI活用をやっていること、そしてパートナーがやはり「企業である」ことも関係していそうだ。
それでも「超大規模」を狙うソフトバンク 将来はフェデレーション型も
ただ、巨大なLLMに取り組む企業もある。
ソフトバンクは200億円を投じて生成AI向けの巨大なデータセンターを構築、2024年内に3,500億パラメータ規模の日本語LLMを構築する。
パラメータ数の大きなLLMを作るのはある意味「LLMの王道」でもある。単純な出力品質ではなく「賢さ」を目指すなら、大規模なものを作るのは1つの道。NTTもその方向を捨てているわけではないようだ。
巨大なLLMにも作るためのノウハウはある。それを海外だけに任せていると、日本はそのノウハウ構築のタイミングを失う。
ソフトバンクの計画では、経済産業省から53億円の助成を受ける計画になっている。国としてもこうした大規模LLMを作り得る基盤整備に対して費用負担することが「最終的には国益につながる」と判断したのだろう。
当然、ソフトバンクとしては自社で大規模LLMを運用するのだろうが、それだけでなく、計算基盤は早期に大学・研究機関や企業などへも早期に提供することになっている。
とはいうものの、巨大なLLM以外から「賢さ」を目指す方法論もある。
tsuzumiの開発を担当した、NTT・思考処理研究プロジェクト 上席特別研究員の西田京介氏は、「私見の部分もあるが」としつつ、「フェデレーション型のLLMが広がる可能性がある」と話す。
フェデレーション型LLMとは、比較的規模が小さく専門性の高いLLM同士がつながり、総体でより高い知識と判断力をもつLLMを作ろう……という発想だ。
現状では、LLMが結果として提供したテキストや画像を他のLLMが読み込んで処理をする、というやり方だが、「LLM同士の対話に向いた手法」が用意され、より効率的な連携ができる時期が来るかもしれない。
LLM自体の方向性がどうなるかは日進月歩で、未来を見通すのは難しい。
だがLLMを道具として考えるなら、滑らかな文章生成や多数の知見は必要でも、単純な「賢さ」は求められない可能性がある。いわゆるAGI(Artificial General Intelligence、汎用人工知性)を目指すのが正解ではなく、また別の道の可能性も考慮しておくべきかもしれない。