ニュース

Meta、画像推論に対応したLLM「Llama 3.2」

Metaは、大規模言語モデル(LLM)「Llama 3.2」を発表した。小中規模のビジョンLLM(11Bと90B)と、エッジやモバイルデバイス向けの軽量テキストモデル(1Bと3B)が含まれ、事前学習(pre-trained)版と指示調整(instruction-tuned)版が用意される。

最も大きい2つのモデル(11Bと90B)は、グラフを含むドキュメントの理解、画像のキャプション付け、自然言語記述に基づき画像内のオブジェクトの位置関係を理解するなどの画像推論が可能。

例えば、小規模ビジネスにおいて、前年のどの月が最高の売上だったかを質問すると、利用可能なグラフに基づいて推論し、回答を提供する。地図を使った推論では、ハイキングのルートを地図から読取り、いつ道が急になるか、特定のトレイルの距離などの質問に答えることができる。

軽量の1Bと3Bモデルは、128Kトークンの長文脈をサポートし、多言語テキスト生成とツール呼び出し機能を搭載。これらにより、開発者はデータがデバイス内で完結する、プライバシーの高いアプリケーションを構築できる。例えば、受信した最後の10件のメッセージを要約し、アクションアイテムを抽出し、ツール呼び出しによってフォローアップミーティングの予定を直接送信できる。モデルをデバイス内で動作させるため、応答が素早いこともメリット。

また、モバイル向けの1Bと3Bモデルは、Qualcomm and MediaTekのArmプロセッサに最適化され、オンデバイスのユースケースで活用できる。

性能評価においては、Llama 3.2ビジョンモデルは、画像認識や様々な視覚理解タスクで、Claude 3 HaikuやGPT4o-miniなどの主要な基盤モデルと競争力があるという。3Bモデルは、指示に従う、要約、プロンプトの書き換え、ツール使用などのタスクでGemma 2 2.6BとPhi 3.5-miniモデルを上回り、1BはGemmaと競争力があるとしている。