西田宗千佳のイマトミライ

第264回

Meta AI開発者に聞く「オープンなAI」と「認識のためのAI」

10月8日、Metaは日本国内でプレス関係者向けに、同社が開発しているAI技術を紹介・解説する記者向けのイベントを開催した。

テーマとなったのは、オープンな生成AIである「Llama」と、画像・動画・音声などを処理するAI群だ。本誌でもその内容はお伝えしている。

イベントとは別に、それぞれの担当者に単独インタビューした。その内容から、Metaの考える「これからのAIの姿」を探ってみたい。

「オープンウェイトモデル」Llamaの可能性

まずLlamaの話から行こう。

LlamaはMetaが提供している「オープン」な生成AIだ。OpenAIはGPT-4などの自社生成AIを公開していないが、Metaは初期から生成AIを公開する形を採ってきた。

Meta 生成AI部門 バイスプレジデントのManohar Paluri氏は、「GoogleもオープンモデルのGemmaを公開するようになった。ソフトウェアの発展を促す上では、オープンなモデルが望ましいという流れだ」と説明する。

Meta 生成AI部門 バイスプレジデントのManohar Paluri氏

説明イベントでも、リコーやELYZAが日本国内でLlamaをベースに独自の生成AIを開発・提供している話が語られたのだが、同じような動きは世界中で起きている。

Llamaも常に進化している。先日は最新の「Llama 3.2」が公開された。単に賢くなるだけでなく、いわゆる多国語対応も進んでいる。ただ、オープンなモデルであることが各国やそれぞれの国の事情への最適化を進める上でプラスになる点も多い。

Llamaの沿革

Paluri氏(以下敬称略):オープンモデルであるからこそ、基盤モデルに対してさらに、各国や各企業での最適化が進められます。そうして、多様性のある独自モデルを増やしていけることこそが強みです。

このことは、9月末に公開された「Llamaビジョンモデル」においても重要な点です。Llamaビジョンモデルは、世界中にある何十億もの公開画像でトレーニングされており、デフォルトでも、世界中の幅広い映像を理解しています。

ただそれは、すべての文化や画像を理解して動作することを意味するものではありません。オープンウェイトの微調整を続ける必要があります。

生物医学画像、衛星画像、X線のような様々な種類のデータセットを使いカスタマイズできます。特定の国であろうと、特定の地域であろうと、衛星画像など特定の用途であろうと、モデルをカスタマイズすれば、よりうまく機能します。

Llamaはオープンな生成AIとして幅広く使われている。ここでは「オープンソース」と表記されているが、このことには議論も

細かい話だが、Llamaのような形態で公開される生成AIを「オープンソース」と表記している例が多い。ただこれは正確ではなく、「そう呼ぶべきでない」という議論もある。Paluri氏もその点に同意する。

Paluri:オープン「ウェイト(重み)」モデルと呼ぶべきです。すべてをオープンに学習できるようにするには、複雑な学習ツールまで全てを公開しなくてはいけません。我々は学習のために専用のハードウェアを利用していますが、「オープンソース」とするなら、そこまですべて公開する必要があります。

この手のモデルにはオープンソースは向いていないと思います。Llamaには実際に使えるモデルが多数あり、推論し、カスタマイズするために使用します。Llamaの利用には特定のライセンスがありますが、研究に幅広く活用してイノベーションを加速しています。我々にとっては、そのことがなによりも重要です。

他方で、生成AIを増やしていく上では、推論にかかるコストの課題もある。この点について、Paluri氏は2つの観点から説明する。

Paluri:性能と効率を考えた場合、「効率はすぐに良くなる」という考え方もあります。

学習の初期には用途や機能を限定できません。そこで効率を求めると、最大の価値を探求するのにはマイナスです。大前提として、まずは「失敗のコスト」も盛り込む必要があります。

しかし、その先でモデルを実行するコストは、特殊なハードウェアや特殊なルーチン、デバイス上の小さなモデル、量子化などを含む最適化によって、時間の経過とともに減少します。「機能とコストの発想を固定せずに作り、その後機能させるときに最適化していく」というのは、私がAI開発で学んできた大きな成果の1つです。

データを蒸留(Distillation)することは、コストを下げるためには重要な方法です。小さなモデルをゼロからトレーニングするのではなく、大きなモデルの出力の上に小さなモデルをトレーニングするわけですが。

Pruning(枝刈り)とQuantize(量子化)も重要です。

大きなモデルは過剰にパラメーター化されていますから、切り詰めることができます。最初は80億パラメータのモデルとしてトレーニングするかもしれませんが、正確さを損なうことなく50%の重みを落とすことで、技術的には40億モデルにできます。

学習は高い精度で行なわれていますが、推論ではそこまで高い精度は必要ない。将来のハードウェアではFP4をサポートし、推論効率をさらに上げます。

結果として、過去2年間を見ると、トークンあたりの価格を2桁下げることができました。これは、すべてのスタートアップ、すべての企業にとって大きなインパクトを持っているはずです。

Llamaは競合に対して効率を上げており、そのことが多くの企業にインパクトがある、と主張

推論という意味では、OpenAIが「深い推論」をする「o1」を提供し、差別化を図っている。こうしたアプローチについては、Metaも「十分に可能であり、大きな可能性がある」と考えているようだ。

Paluri:推論計算を増やすと実際に解決できることが拡大していく、という可能性にはワクワクしています。どんな基盤モデルにも適用できます。私たちのコア開発の中でも、(OpenAIがo1で示した結論と)同様の動きを観察してきました。

このことはAIのトレーニングだけでなく、コンピューティングのあり方について新しい考え方を生み出します。特定のプロンプトで処理した後により良い答えを得るために、「もっと大きなモデルを使えないですか?」と考えるだけでなく、「より深く考えてもらう」という方向でもいいわけです。

今は「80億パラメータのものを使うか700億パラメータのものを使うか」と考えているわけですが、80億パラメータで10回考えてもいいわけですからね。

Llamaもさらに進化していくが、その過程では「何度も推論する」ことによる使い方の変化も想定される

リアルタイムに「映っているものを見分ける」技術も

イベントの中では、生成AIだけでなく「認識のためのAI」の可能性も示された。

どちらも演算自体に差があるわけではないが、道具としてAIを見た際には使い方が異なる。どうしても生成AIに注目が集まりがちだが、生成AI以外にも興味深いAIの活用方法は多々ある。

中でも面白いのが、Metaが「SAM(Segment Anything Model)」と呼ぶ技術だ。

画像に映っているものを「セグメント分け」するSAM

これは画像に含まれるものを認識して領域に分ける(セグメント化)するもの。例えば人のシルエットやボールなどの認識がそれに当たる。

その最新モデル「SAM2」では、ビデオの中の映像を自由に、リアルタイムでセグメント化可能になった。要は、「サッカーをするビデオ」の中で、人や足、ボールを認識して活用できるのだ。

SAM2での処理例。足の向こうに犬が移動してもちゃんと認識している

しかも面白いのは、ビデオのある瞬間に「ボールが見えなくなった」としても、後のタイミングで見えるようになれば、その間はちゃんと一貫性を持って「認識し続ける」ことができる。人間も同じように状況を把握しているが、SAM2でも似たように把握している。これは、ビデオ編集や加工にはきわめて有用な仕組みと言える。

SAM2はウェブでデモが公開されており、誰もが一定の範囲内で自由に試せる。皆さんも実際に試してみてほしい。

SAM2 デモ

デモサイトで実際にセグメント認識をした様子を動画で

Meta Fundamental AI Research(FAIR)でリサーチャーを務めるNikhila Ravi氏は、SAM2の機能を次のように説明する。

Meta Fundamental AI Research(FAIR) リサーチャーのNikhila Ravi氏

Ravi:セグメンテーションはクリックするだけです。映像の長さなどに制限があるわけでもないです。唯一の制約は、「指定したオブジェクトが画面に映っていない時間は5秒以内である」こと。それを超えると一貫性を認識できなくなります。

精度はもちろん、映像の解像度などに依存します。

デモではボールや人を題材にしているが、実際にはどんなものでも把握できる。赤外線映像や顕微鏡画像、X線写真など、医学・化学の分野でのリサーチにも使える。

どんなものでも認識できるので、医療や研究の分野での応用も期待されている

Ravi:医学や研究などの用途であれば、追加学習をすべきですね。しかし逆に言えば、追加学習をしさえすればいいわけで、応用の幅は非常に広いです。

さらに、3D化やHDR対応などを進めることで、クオリティをさらに高めることは可能だという。

Ravi:奥行き情報があれば、1つのオブジェクトが他のオブジェクトの前に移動した際も、その深度がわかるので、それを追跡できます。iPhoneの一部ではすでに実際に深度情報の一部をキャプチャしています。カメラのセンサーがさらに増えれば、SAMのような手法にはプラスです。

さらに将来は、いわゆる「スマートグラス」にもつながる。

Ravi:スマートグラスは、コンピュータービジョンにとって完璧なフォームファクターです。このことについて非常に興奮しています。

視線にアクセスできれば、なにを見ているかを知り、情報を提供できます。

対象が何であるかを知っていれば、それに関する情報を提供したり、道順を教えたりできます。これは、世界との関わり方にまったく新しい道を開くものだと思います。

そして、ストリーミングのリアルタイム性が非常に重要です。なぜなら、遅延があると、体験に影響を与えるからです。

どのように効率化するか、どのようにリアルタイム化するか、必要なときに実際にフィードバックが返され、それに応じて行動を起こせるようにするか、といったことを考えていく必要があります。

西田 宗千佳

1971年福井県生まれ。フリージャーナリスト。得意ジャンルは、パソコン・デジタルAV・家電、そしてネットワーク関連など「電気かデータが流れるもの全般」。主に、取材記事と個人向け解説記事を担当。朝日新聞、読売新聞、日本経済新聞、AERA、週刊東洋経済、週刊現代、GetNavi、モノマガジンなどに寄稿する他、テレビ番組・雑誌などの監修も手がける。 近著に、「生成AIの核心」 (NHK出版新書)、「メタバース×ビジネス革命」( SBクリエイティブ)、「デジタルトランスフォーメーションで何が起きるのか」(講談社)などがある。
 メールマガジン「小寺・西田の『マンデーランチビュッフェ』」を小寺信良氏と共同で配信中。 Xは@mnishi41