ニュース
グーグル「Gemini 2.0」公開 「エージェント時代のAIモデル」
2024年12月12日 01:48
Googleは11日(米国時間)、最新のAIモデル「Gemini 2.0」を発表した。画像や音声出力などのマルチモーダル対応のほか、Googleが目指す「ユニバーサルアシスタント」としての新たなAIエージェント構築をもたらすという。
11日からは軽量なGemini 2.0 Flashの試験モデルを全てのGeminiユーザーに提供開始。また、高度な推論と、長文の文脈理解により調査アシスタントとして機能し、レポートを代行作成できる新機能「Deep Research」も開始する。この機能は11日からGemini Advanced(月額2,900円)で利用できる。
Google 検索におけるAI活用「AI Overviews」は、すでに10億人が利用しているが、ここにもGemini 2.0を活用。高度な推論機能を備えたGemini 2.0をAI Overviewsに展開することで、より複雑なトピックや、高度な数学、マルチモーダルなクエリ、コーディングを含む複数ステップの質問などに対応可能とする。今週からテストを開始し、2025年には広範囲に展開。さらに多くの国や言語でAI Overviewsを導入していく。
GoogleとAlphabetのスンダー・ピチャイCEOは、マルチモーダル対応のGemini 1.0/1.5は情報を理解・処理するためのものと言及。このGemini上での開発成果から、ローカルのデータとLLMを組み合わせる「NotebookLM」のような、マルチモーダルとロングコンテクストを活用する製品も生まれてきた。
Gemini登場からの1年間で、Googleでは、「エージェンティックなモデル」の開発に投資を拡大。ユーザーの周囲の世界についてより深く理解し、複数のステップ先まで考え、ユーザーに代わって行動を起こすことができるAIを目指してきた。ピチャイ氏は、Gemini 1.0が情報の整理と理解を目的としたのに対し、「Gemini 2.0は情報をより有用なものにすることが目的」と述べている。
Googleによれば、公開した軽量版のGemini 2.0 Flashでも、多くのベンチマークでGemini 1.5 Pro 002の性能を上回っている。Gemini 2.0 Flashは、デスクトップやモバイルWebで11日から利用可能となっており、Geminiアプリでもまもなく対応予定。2025年には対応製品を拡大していく。
ほぼ人間と遜色ない応答のAIアシスタントに「Project Astra」
また、Gemini 2.0 Flashを活用したユニバーサルAIアシスタントのプロトタイプ「Project Astra」のアップデートなども紹介している。
Gemini 2.0 Flashは、ユーザーインターフェース操作機能と、マルチモーダル推論、長文脈理解、複雑な指示への追従と計画、複合的な関数呼び出し、ネイティブなツール利用、レイテンシの改善などを実現。これにより、新しい「エージェント体験」を可能としている。
5月のGoogle I/Oで発表した「Project Astra」もGemini 2.0をベースにした最新バージョンを紹介している。
Project Astraは、人間とテキストや音声だけでなく、画像や動画などを介して、対話して、ともに作業などを進められるエージェントのプロトタイプ。新たに、複数の言語と、混合言語での会話が可能になり、アクセントや珍しい単語の理解も向上しているという。
また、Project AstraがGoogle 検索、Google レンズ、Google マップを利用できるようになったため、日常生活のアシスタントとしての利便性を高めている。また、最大10分間の記憶保持が可能となり、過去の対話を参照しながら、ユーザーに最適化された体験を提供できるようになる。Gemini 2.0により応答速度も向上し、人間の会話と“ほぼ遜色ない応答速度”で言語を理解できるようになった。
Project Astra自体を直接製品化する訳では無いが、 Gemini アプリなどのGoogle 製品や、ARグラスなどのデバイスに導入する取り組みを進める。また、テスター プログラムを拡大し、プロトタイプのメガネを用いたProject Astraのテストを小規模なグループで実施する。
AIがWeb作業を代行する「Project Mariner」
また、WebブラウザがAIエージェントになる「Project Mariner」も発表した。Gemini 2.0で構築された初期の研究プロトタイプだが、テキストやコード、画像、フォームなど、ブラウザの画面情報を理解し、推論できる。試験版のChrome拡張機能を使ってユーザーのかわりにタスクを実行できる。
プロンプトで指示を出すだけで、Web上の作業をGeminiが代行してくれるもので、例えば、Spreadsheetの企業リストから「連絡先をまとめて」と指示すると、Webサイトから問い合わせ先メールアドレスを取得し、ユーザーに確認を要請する。文字入力やスクロール、クリックなどはAI側で行ない、購入・決済などの操作については必ずユーザーに確認を求める。
開発者向けには、GitHubのワークフローに直接統合されたAIコードエージェント「Jules」を開発。ゲーム分野においては、3D世界を生成するAIモデル「Genie 2」を発表したほか、ゲーム用のエージェントも開発。Supercell のような大手ゲーム開発者と協力し、ゲーム分野でのエージェント応用を進めていく。
AIエージェント時代の「安全性」
AIエージェントの推進に伴い、安全性とセキュリティに関する取り組みも紹介。社内レビューを強化しているほか、Project Astraに新たなプライバシーコントロールやセッションの削除機能などを追加。Project Marinerでは外部からの悪意ある指示を識別、防止できるような取り組みなどを進めている。
Googleでは、モデルとエージェントを進化させていく中で、安全性と責任をモデル開発プロセスの重要な要素として今後も重視すると説明。「AGI(汎用人工知能)の実現に向けた開発を進めながら、今後も安全性を最優先に可能性を追求していく」としている。