ニュース

Meta、ネイティブなマルチモーダルLLM「Llama 4」

Metaは5日、オープンウェイトでマルチモーダル対応の大規模言語モデル(LLM)「Llama 4」を公開した。「Scout」、「Maverick」、「Behemoth」の3種類のモデルを用意し、ScoutとMaverickはllama.comとHugging Faceからダウンロードできる。また、WhatsApp、Messenger、Instagram DirectなどのMeta AIでLlama 4を活用している。

Llama 4は、ネイティブなマルチモーダルモデルとなり、MoE(mixture of experts)アーキテクチャを採用。トレーニングや推論の計算効率が高く、高い品質につながるという。また、Llama 4では、100言語以上を含む200言語で事前トレーニングを行ない、Llama 3よりも10倍多い多言語トークンを使用し、オープンソースのファインチューニングに対応する。

Llama 4 Scoutは、16のエキスパートを持つ170億のアクティブパラメータモデル。1基のNVIDIA H100 GPUに収まるサイズだが、従来のすべてのLlamaモデルよりも強力としている。コンテキストウィンドウは10Mで、ベンチマークにおいて、Gemma 3、Gemini 2.0 Flash-Lite、Mistral 3.1を上回っている。

Llama 4 Maverickは、128のエキスパートを持つ170億のアクティブパラメータモデルとなる。ベンチマークでは、GPT-4oやGemini 2.0 Flashを上回り、推論とコーディングでは、アクティブパラメータ数が半分以下にもかかわらず、DeepSeek v3と同等の結果としている。

Llama 4 Behemothは現在もトレーニング中で、まだリリースしていないが、MATH-500やGPQA DiamondなどSTEMを重視したベンチマークで、GPT-4.5、Claude Sonnet 3.7、Gemini 2.0 Proを上回る性能としている。

セーフガードと保護も重視しており、開発者向けの「AI プロテクション」におけるベストプラクティスに基づいてLlama 4を構築している。

加えて、LLMによるバイアス(偏見)についても対策したという。「主要なLLMすべてにバイアスに関する問題がある」とし、特に、政治や社会的な論争の的となるトピックでは、歴史的に「左寄り」の傾向があるとする。

これは、インターネット上で利用可能なトレーニングデータに起因するものだが、MetaではLlamaにおいて、異なる視点に判断を下さず、ある見解を他の見解よりも優先せずに応答する作業を進めているという。これにより、Llama 4はLlama 3よりも大幅に改善し、Grokと同等の性能となった。特に、政治的・社会的トピックを拒否する割合が低くなり、Llama 3.3では7%が拒否だったが、Llama 4では2%未満に減少した。