ニュース

オープンで全面展開するMetaのAI戦略 認知の土台や次世代Llama

Metaは8日、同社のAIへの取り組みについて報道関係者向けの説明会を開催した。AIを専門とする研究部門「Fundamental AI Research(FAIR)」と大規模言語モデル(LLM)「Llama」を中心に、MetaによるAI開発のこれまでと今後について説明した。Llamaについては先日、Llama 3.2を公開しているが、次世代のLlamaの展開についても言及された。

Metaは、2013年にFAIRを立ち上げ。2016年には機械学習のフレームワークである「PyTorch」をリリース、2023年にはオープンなLLM「Llama」を立ち上げるなど、10年以上に及ぶAI開発の歴史を有している。その特徴は「オープンであること」と強調しており、Llamaなど1,000以上のプロジェクトを公開している。こうしたオープンな取り組みにより、コミュニティやエコシステムを構築。「社会にAIが価値をもたらせることを示す」という。

イメージ・動画を認識 AIが「認知の土台」に

FAIRの研究者である、Pascale Fung氏は、ChatGPTの登場など、「AIを取り巻く状況は昨年から大きく変わった。人々が直接AIを使うようになったことで、責任をもってAIを使うことが重要になる」と説明。その上で、“SFの世界にもなかった”多くのことが、AIにより実現可能になったとする。

自転車に乗ったキリンをAIで生成した絵の進化。1年強で「AIでできること」は飛躍的に進歩した
パラメータ数も比較的に伸びている。

LLMのパラメータ数も飛躍的に増大しており、様々な基盤モデルが登場。AIにより「できること」がどんどん増えている。その例として示されたのが、リアルタイムのセグメンテーションモデル「SAM(Segment Anyting Model)」と「SAM2」、音声翻訳などだ。

「SAM(Segment Anything Model)」は、画像におけるオブジェクトを選択、抽出できる技術。2023年にリリースされた、画像の中のオブジェクトを特定するセグメンテーションを行なう専用AIモデルで、ざっくりいうと、画像の任意の物体(オブジェクト)を選ぶだけで、その領域を切り抜いたりできる。

従来も、特定のユースケースに優れたモデルはあったが、用途や画像タイプが限定されていた。しかしSAMは、どんなオブジェクトでも機能する点が特徴となっている。

AI開発プラットフォームの「roboflow」は従来、画像データへのアノテーション(注釈)を付与するため、合計5万人が1,300万の画像にラベル付けを行なっていた。SAMを導入することで、大幅な省力化が図られ、「21年分の時間節約」を実現できたという。

さらに、'24年7月には動画に応用した「SAM2」もリリースされた。「写真はスナップショットだが、ビデオになると現実世界に近い」とし、動画対応は「現実の理解により役に立つ」と説明。アノテーションだけでなく、自動運転や背景削除、ビデオ編集などでの活用も期待できる。

SAM2のデモはMeta AiのWebサイトでも体験できるが、発表会中のデモでは、サッカーボールのクローズアップ動画で、左足と右足でのタッチを間違わずにオブジェクトが選択できていることを紹介。選択が誤っている場合も、すぐに修正できることなどが紹介された。

膨大なデータセットがMetaの強み
奥行き情報も認識している

SAM/SAM2は、すでにMetaのプロダクトにも実装されている。例えばInstagramで画像のシーンや背景を変更する「Backdrop」で利用されているほか、Instagramのカスタムステッカーでも活用されている。開発成果は公開されているため、自動運転への取り組みにも応用できるとした。

様々な業種やジャンルでAI活用の機会はあるが、Metaの特徴はこれらをオープンに公開することにあり、直接的な収益化は行なわない。「オープンサイエンス、コミュニティ、オープンソース、クロスコラボレーションを重視していく」とする。

オープンがMetaの特徴
AGIに向けたWORLD MODELに取り組む
AIインフラの進化

SAMの活用の次の段階としては、科学・医療の分野での利用を想定。また、オブジェクトセグメンテーション10年の振り返りとして、「タスクごとに特化したモデルを用意するのではなく、統合されたモデル」が基本方針で、「ビジョンタスクを実行可能にする『認知の土台』」を目指すという。

ARグラスで自動翻訳を実現する「Seamless」

音声関係のプロジェクトでは、音声入力とプロンプトによる音声生成を組み合わせて利用できる「Audio box」のほか、今後のAI活用の方向性として「Seamless Communication」を紹介した。

Seamlessは、リアルタイムで多言語翻訳できる機能となり、将来的にはMetaのARグラス「Ray-Ban Metaスマートグラス」などへの搭載を見込む。

すでに100以上の言語の翻訳に対応し、多くの言語を「同時通訳者相当」の速度で翻訳でき、万能翻訳を可能にする架空の魚「バベルフィッシュ」をイメージしている。

Seamless

基盤となるのは、多言語翻訳モデルの「SeeamlessM4T」。実際に、日本語や英語、ドイツ語、ロシア語など様々な言語に対応している。ただし、英語への翻訳では、ロシア語やイタリア語は遅延(レイテンシ)が少ないものの、日本語や韓国語はレイテンシが多くなるという。

SeeamlessM4T

これは言語による語順の違いで、日本語や韓国語では文章の後半まで聞かないと、文意を取れないため。ただし、翻訳品質においては言語間で顕著な差は無いとのこと。

語順の違いがレイテンシに影響する
イタリア語やロシア語はレイテンシが短い
Seamless

会場では、Meta Questを被り、Seamlessの翻訳言語を字幕と音声で紹介するデモも実施。現時点では、クラウド経由での翻訳を行なっているが、今後はオンデバイスでの翻訳の実現を目指す。

オープンを重視するMetaのAI戦略 次世代Llamaも

大規模言語モデルの「Llama」は、9月に最新の「Llama 3.2」を公開。テキストだけでなく、画像に対応したパラメータ数90Bの大規模モデルのほか、モバイルやエッジ向けの軽量テキストモデルなど、用途に合わせた選択肢を拡充している。

オープンにLLMを提供
Llamaの歴史
Vision Models

オープンなLLMとして提供することで、開発者が自由に活用できるほか、Metaとしても成長するコミュニティと連携したサービス展開が可能なこと、多くのクラウドプロバイダが初日からLlama 3.2に対応するなどのメリットがあるという。

実際に、ZoomやSpotify、Shopifyなど様々なサービスにおいてLlamaが実装され、既に使われている。

Llamaエコシステム
APIやツールチェーンなど開発者向け環境Llama Stack

また、オープンだからこそ地域や業種などにあわせたLLMのカスタムが進んでおり、日本でもELYZAのなどのパートナーが推進。こうした「エコシステム」がMetaのオープン戦略の強みとした。

次世代のLlamaでは、GPUやオンデバイス以外でのハードウェア対応、コンテクスト長の拡大、テキスト・画像以外のモーダル対応、Llama Stack以外の開発環境対応などを予定している。

次世代Llama