ニュース

グーグル、Gemini時代に突入　Google I/Oで新モデルやエージェントを披露

臼田勤哉

2024年5月15日 06:36

Googleの開発者会議「Google I/O 2024」が14日に開幕した。AIモデルの「Gemini」はマルチモーダル性能を強化し、より長い文章に対応するほか、Flashなど新たなバリエーションを発表。また、検索でのGemini活用(米国)のほか、GmailやWorkspaceでの活用、AndroidにおけるGemini導入などについて説明した。

スンダー・ピチャイCEOは、「Googleは完全にGeminiの時代に入った」と述べ、2時間弱にわたる発表のほぼ全編がAI関連のものとなっていた。

Gemini 1.5 Proが強化高速な1.5 Flashも

Googleは、10年以上にわたりAIに投資してきたが、ピチャイ氏はまだ「初期段階」と言及。それでも、クリエイター、開発者、スタートアップ、すべての人にとって、多くのチャンスがあると語り、「その機会を手助けをすることが、Gemini時代」と述べる。

スンダー・ピチャイCEO

Google – Welcome to the Gemini era

Geminiは、テキスト、画像、ビデオ、コードなどを横断して推論できるマルチモーダルなAIモデル。発表した「Gemini 1.5 Pro」は、最大100万トークンを一貫して実行できる点が特徴で、150万以上の開発者が扱っている。

2023年12月にGemini 1.0が発表され、大きい順からUltra、Pro、Nanoの3つのモデルを展開。2カ月後には100万トークンに強化されたGemini Pro 1.5がリリースされ、長いコンテキストウィンドウやマルチモーダル推論機能という特徴が多くのユーザーに使われているとする。

今回のGoogle I/Oでは、1.5 Proを200万トークンまで拡大することを発表。コード生成、論理的推論とプランニング、マルチターン会話、音声と画像の理解などを強化した。これにより、複雑で微妙な指示に従うことができるようになり、チャットエージェントのペルソナや応答スタイルを作成したり、複数の関数を呼び出してワークフローを自動化するなどの制御を改善した。

How developers are using Gemini 1.5 Pro’s 1 million token context window

さらに、1.5 Proよりも軽量で、スケーラブルなサービスを高速かつ効率的に提供可能とする「Gemini 1.5 Flash」も提供開始する。

1.5 Flashは、Geminiモデルファミリーの新たなモデルで、APIで提供される中で最速のモデルとなる。大量で高頻度のタスクに最適化されており、コスト効率よく提供できる。1.5 Flashは、要約や、画像やビデオのキャプション付け、長い文書や表からのデータ抽出などに優れているという。

また、デバイス搭載向けのGemini Nanoは、テキストのみの入力だけでなく、画像も扱えるように拡張。Pixelシリーズを皮切りに順次搭載していく。AndroidにおけるGemini新機能は別記事で紹介している。

また、次世代のオープンモデルとして「Gemma 2」を発表したほか、画像キャプション、ビジュアルQ&A、画像ラベリングタスク用の「PaliGemma」もリリースした。

Gemma 2

検索やフォトでもGemini活用

Google 検索でもAI導入を強化。検索結果に生成AIを活用する取り組みとして、「Search Generative Experience(SGE)」をテスト展開してきたが、米国で新たに「AI Overviews」を開始する。

生成AIを活用することで、長いクエリや複雑な質問、写真を使った質問などを可能にするもので、米国では今週から導入開始する。その後さらに多くの国に拡大していく。

Google フォトでもGeminiを活用した「Ask Photo」を開始。画像を解析して、例えば自分のクルマのナンバープレートがわからない場合、そのものが写った写真を探すのではなく、自分のクルマを選んで、ナンバープレートを尋ねて見つけられるようになる。

また、「子どもがいつ泳げるようになったか」を知りたい場合、「ルシアはいつ泳げるようになりましたか? ルシアの泳ぎがどのように上達したかを教えてください」などと聞くと、Geminiは、プールでの画像や、海でのシュノーケリング、水泳の証明書の日付など、さまざまな文脈を認識し、パッケージ化。その写真を見ながら欲しい情報を探したり思い出を楽しめるようにする。Ask Photosは今夏から開始予定。

Gemini Advancedを強化

新バージョンのGemini Pro 1.5ではトークンコンテキストウィンドウの拡大により、更に多くの画像データを扱えるようになった。また、15日からはGemini Pro 1.5が35言語で「Gemini Advanced」(2,900円)から利用可能になる。

今後数カ月で、Gemini Advanced向けに「Live」を展開。Geminiとの自然な会話が特徴となり、自分のペースで話したり、応答の途中で質問を挟んだりすることもできる。例えば、就職面接の準備として、Geminiとの自然な会話で練習できるようになるという。

また、Gemini Advancedでは、旅行日程の作成を強化。提案されたアクティビティのリストを表示するだけでなく、フライト時間や、食事の好み、訪問先の場所と各アクティビティ間の移動にかかる時間などから、ユーザーのニーズを把握して、カスタム旅程を作成する。

加えて、Gemini AdvancedではGeminiをパーソナライズする「Gems」を開始。「私のランニングコーチとして、毎日のランニングプランを教えて。前向きで明るく、やる気を引き出して」などと指示して、自分のニーズに沿ったGemini応答を得られるようにする。

Google WorkspaceでのGemini利用も拡大し、例えばGmailの要約に対応。学校からの最近のメールを集約・要約して、必要な情報を把握できるほか、PDFなどの添付ファイル情報も確認し、重要なポイントやアクションを知ることができる。また、会議の録画の要約やハイライトなどもGoogle Meetで行なえるようになる。

マルチモーダルエージェント「Project Astra」

また、マルチモーダルな対話型エージェントの開発に向けて「Project Astra」を開始する。Geminiとスマートフォン等のカメラとマイクを使ったAIエージェントで、リアルタイムな会話と視覚情報により、ユーザーの行動をアシストする。

Google I/Oのデモにおいては、机上のスピーカーをカメラに映して「これはなに?」と聞くと、「ツィーター。高域用のスピーカー」などと音声で説明してくれる。屋外にカメラを向けるとロンドンの駅舎が写っていることを説明する。

さらに「グラス(メガネ)はどこ」と尋ねると、「机の上のりんごの横」など過去にカメラが把握した位置情報を案内し、探しものにも使える。スマートグラスでProject Astraを活用すると、音声情報だけでなくグラスに視覚情報を表示して、アシストを行なう。

このデモは、リアルタイムで1テイクで撮影されたとのこと。Project Astraの主要機能は、2024年後半にGeminiに導入予定。

Project Astra: Our vision for the future of AI assistants

テキストから動画を作成する「Veo」も発表した。テキストプロンプトから1080pで60秒までの動画を生成できる機能で、フォトリアリスティックな動画生成に対応。OpenAIによるSoraに類似したサービスといえる。

Googleの「VideoFX」でウェイトリスト登録を受け付けており、今後数週間で米国のユーザーは利用可能になる。

✍️ Prompt: “A golden retriever walks on a winding mountain trail, its tail wagging excitedly as it explores the sights and scents of the wilderness.”pic.twitter.com/CeJ5VKfAaM
— Google DeepMind (@GoogleDeepMind)May 14, 2024