ニュース

xAI、図や写真を理解する「Grok-1.5V」

イーロン・マスク氏率いるAI企業のxAIは、同社初となる、マルチモーダルモデル「Grok-1.5V」を発表した。テキストプロンプトに加え、文書や図、チャート、スクリーンショット、写真などの視覚情報を処理できる。同時に、マルチモーダルモデル向けのベンチマーク「RealWorldQA」も発表している。Grok-1.5Vは、初期のテスターや既存のGrokユーザー向けにまもなく提供される予定。

多分野の推論から文書、科学図表、チャート、スクリーンショット、写真の理解が可能で、RealWorldQAによるベンチマークでは、競合他社の製品を上回る能力があるという。例えば、図からコードを記述することが可能で、フローチャートを読み込ませて、Pythonコードに変換することを指示すれば、フローチャートを元にしたコードを出力できる。そのほか、食品の成分表から1食カロリーを計算したり、子供が書いた落書きからストーリーを作り出す、などのサンプルも公開されている。

フローチャートからPythonコードを生成
子供の落書きからストーリーを生成

現実世界を理解する実用的なAIアシスタントの開発には、物理・世界についてのモデルの理解を高めることが重要とし、その目標に向けたベンチマークが「RealWorldQA」としている。マルチモーダルモデルの基本的な現実世界の空間理解機能を評価するように設計され、現在のベンチマークに含まれる例の多くは人間にとっては比較的簡単だが、最先端のモデルにとっては課題となることがあるという。

RealWorldQAの初回リリースには700枚以上の画像を含み、各画像には質問と容易に確認可能な回答が付属している。

RealWorldQAの画像とQAのサンプル