西田宗千佳のイマトミライ
第244回
グーグル「Geminiの時代」宣言の意味 OSやサービスを持つ強さ
2024年5月20日 08:20
今年も現地を訪れ、Googleの開発者会議「Google I/O」を取材した。ニュースはすでに多数伝えられているので、以下の記事もご参照いただきたいが、今回は現地取材で得た感触について語ってみたい。
筆者もGoogleのツールは日常的に使っている。そして、それらは確かに取材にとって便利なものだ。GoogleのAIツールを使ってGoogleを取材しながら、同社の未来を色々と考えてみた。
「Geminiの時代」をGoogleが宣言
今年のGoogle I/OはGemini一色だった。
Androidデバイスの発表すら前倒しにし、基調講演では触れなかった。あくまで「GeminiというAIをコアにしたGoogleの施策を説明する場」に徹している。
それをよく表しているのが「The Era of Gemini(Geminiの時代)」という言葉だ。
GoogleのあらゆるサービスがGeminiとその派生技術によって構成されていく……という宣言であり、極めて大きな意味を持つ。
1年前、Googleは「生成AIで遅れている」「検索ビジネスとの兼ね合いで弱腰だ」と批判されていた。昨年のGoogle I/Oで生成AIシフトを見せていたものの、今年は中核技術を定め、本格的な活用に向けて姿勢を明確にした。
こうした動きは、ライバルであるOpenAIやマイクロソフトがいち早く生成AIシフトを敷いてきたからでもある。OpenAIはGoogle I/O開催前日である5月13日に「GPT-4o」を発表している。
OpenAIとも共通する重要ポイントは「即応性」
OpenAIとGoogleの発表は、それぞれの事業分野が異なるので同じものとはいかない。しかし、生成AI技術が向かうべき方向性としてはかなり似通っている。
ポイントは2つある。
1つは即応性だ。
筆者はOpenAIが発表を行なっていた時間、アメリカへ移動するために機内にいた。だから発表内容についてはアメリカ到着後、改めて確認したことになる。もっと正直な話をすれば、発表動画をすべてチェックし終わる前にChatGPT Plusを開き、GPT-4oに触れたくらいである。
そして、その速度に驚いた。細かいベンチマークをとったわけではないが、いままでとは、回答が返ってくるまでの速度が大違いである。
同様に、Gemini Advancedで利用可能になっている「Gemini 1.5 Pro」の応答速度も速くなっている。Gemini 1.5については、さらに応答速度にこだわった「Gemini 1.5 Flash」もある。
双方が応答速度にこだわるのは、生成AIの一般化と大いに関係がある。
技術をわかっている人は生成AIの処理が「重い」こともよく知っている。だから、従来のネット検索に比べて応答速度が遅くてもある程度許容できる。
しかしより一般的な人々の利用が増えるとそうはいかない。応答の遅さはサービスからの離脱につながる。
生成AIによって、人々はネットでより複雑な質問をするようになってきた。Googleの検索担当バイスプレジデントであるエリザベス・リード氏は、5月15日(現地時間)に記者団とのQ&Aセッションに登壇し、以下のようにコメントしている。
「利用者は他の人から詳細な話を直接聞きたいという欲求を持っている。AIを使えば、より深くウェブにアクセスし、より個人的な質問をするようになるでしょう」
だとするならば、生成AIの利用量はどんどん多くなる可能性が高い。ただそのためには、人々の期待に応えられるサービスであることが望ましい。多くの人はまず賢さを求めるだろうが、同時に「快適」であることも求めるものだ。
だから、即応性は必須の要件でもある。
マルチモーダルの先にある「Project Astra」
もう1つの共通点は「マルチモーダル性」だ。
GPT-4oは音声で人と滑らかに対話することが特徴だ。テキストだけでなく音声や画像など、複数の情報形態を扱えるからこそ、音声でスムーズに対話できる。
同様に、Googleが発表したのが「Project Astra」もまた、人間との対話に近い感覚を抱かせる。
Project Astraについては、Google I/O会場でちょっとしたデモを体験できた。
例えば以下の動画は、手書きで描いた「橋っぽい絵」に「名所」というヒントを与え、Astraが「ゴールデンゲートブリッジである」と答える様子を撮影したものだ。
そのほかにも、ぬいぐるみやおもちゃを見せ、「それがなにか」「名前はなにか」を話していき、「最初のおもちゃの名前は?」と聞くと、ちゃんと覚えていて、名前や色などを回答したりする。
GoogleはProject Astraを将来のAIエージェントに向けた技術開発として開発している、と説明する。
目で状況を見て把握し、時系列に沿って理解し、論理的な回答を返す。人間ならば造作もないことだが、AIにとってはなかなかハードルが高いことだ。さらに、人が自然に対話するエージェントとして開発を進めるのなら即応性も重要になる。
すなわち、マルチモーダル性と即応性は「来るべきAIエージェント」にとってどちらも必須の機能であり、だからこそ各社同様に追求を始めている……ということになるわけだ。
スマホを含めた「多数のサービス」がGoogleの強み
Googleは今回、検索やAndroidへの組み込み、ウェブ検索連動など多数のサービスを発表した。
OpenAIとGoogleの最大の違いは、生成AI技術を持っていることではなく「多数のサービスを持っていること」だ。OpenAIとマイクロソフトの連携によって行なわれていることを、Googleは一社で提供しているとも言える。
生成AIの技術は重要だが、それを色々な人々が使うには、シンプルなチャットボットだけでは成り立たない。ChatGPTですら相当に作りこまれていて技術むきだしというわけではないのだが、より様々な形のサービスが必要になってくる。Androidへの統合は最たるものだろう。
普段から筆者は、Pixel Foldのボイスレコーダー機能を使って取材を録音している。自動的にテキスト起こしをしてくれて便利だからだ。
今回については、取材出発前に貸し出された「Pixel 8a」の試用機材で、テストがてら取材していた。すべての機能を検証し終わったわけではないが、コストパフォーマンスのいいスマホだと感じる。
今回も録音しつつ英語で書き起こしをしていた。ふとその後、Gemini Advancedに最新のGemini 1.5 Proが搭載されたことを思い出し、書き起こしたテキストを読み込ませて質問してみた。
読み込ませたテキストは、ピチャイCEOを含むGoogleのエクゼクティブメンバーが揃って記者の質問に答えるQ&Aセッションに関するものだった。
英語の場合、Pixelのレコーダーは、話者を認識して書き起こす。だが、話者を聞き分けるだけで「話者1」「話者2」のように表現される。
そのテキストをGemini 1.5 Proに読み込ませ、質問ごとに要約と翻訳をさせると、自動的に「回答者は誰なのか」、会話から読み取って名前を補完してくれた。これは便利だ。
他社の生成AIでもちゃんと命令を与えれば同じようなことはできるようになっているから「Gemini 1.5 Proが特別賢い」とまでは言えない。しかし、以前のGeminiよりはずいぶん進化したし、確実に便利になった。
Pixelでの書き起こし機能も、Geminiでの翻訳・まとめ機能も、同様のものは他社にもある。だが前述のように、すべてを持っているのがGoogleの強みであり、そのうち各機能の連携はさらに強くなるだろう。AIエージェントはその先にある。
Googleの強さは結局、技術だけでなくサービスの多様性にある。それらすべてで「Geminiを基本に」据える戦略を進めていることが面白い。
今回のGoogle I/Oで「The Era of Gemini(Geminiの時代)」という宣言があったのは、そういう強みを最大限にアピールするための施策だと感じる。