ニュース

「専門家を超えるAI」 グーグルの次世代生成AIモデル「Gemini」登場

12月6日(米国時間)、Googleはかねてより開発意向を表明していた次世代生成AIモデル「Gemini(ジェミニ)」を発表した。現状は英語ながら、一部サービスは本日より利用開始。提供地域には日本も含まれる。

また、Pixel 8 Pro向けには、OSに組み込まれた「AICore」のアップデートとして、Gemini由来の「オンデバイスAI」が搭載される。

5月発表の「次世代」AIを年内に投入

Geminiは、今年5月に開催されたGoogleの開発者向けイベント「Google I/O 2023」の中で「現在開発中である」とだけ公開されていたもの。

Gemini自体は5月に発表されていた

当時はチャットAIサービスである「Bard」も提供が開始されたばかりで、基盤となる新AIとして「PaLM 2」も発表されたところだった。「GeminiはPaLM 2のスーパーセットになる」とGoogle側も説明していたし、一部では「開発遅延説」も出ていたくらいなので、まさかここまで急に発表になると予想していた人は少ないのではないだろうか。

Geminiの特徴は、「マルチモーダルかつ論理的な判断に優れている」という点にある。

マルチモーダルとは、画像だけ・テキストだけといった形ではなく、人間と同じように「画像」「文字」「音声」「動画」といった複数の要素を同時に扱う能力のこと。最近の生成AIでは大きなテーマとなっているが、Geminiは「ゼロから、マルチモーダルであることを前提に学習した」ことが特徴だ。

Geminiは「画像」「文字」「音声」「動画」などを並列に扱う「マルチモーダル」が特徴

Googleはもちろん自社のサーバー群を使って学習を行なっている。

同社は「Cloud TPU」というAIに特化した半導体を開発して活用している。最新のものは、高性能で汎用性の高い「Cloud TPU v5e」と、AIモデルのトレーニングに最適な「同 TPU v4」だ。

Googleは今回、AI学習に向けた「Cloud TPU v5p」を開発した。Cloud TPU v5pはAI、特に生成AIで使う大規模言語モデル(LLM)において、TPU v4の2.8倍の速度が出るという。今回はこれをGeminiの学習に全面展開したという。

学習には新たなデータセンター向け半導体の「Cloud TPU v5p」が使われたという

文字以外も正確に把握しつつ「論理的」に判断

ではなにができるのか?

ここでは、Googleが公開した2つのビデオを例にとって説明してみよう。どちらも英語だが、説明されていること自体はシンプルなので、映像をみるだけでもなにが起きたかはわかると思う。

最初のビデオは、マルチモーダルによるGeminiの能力を示したものだ。

ペンで描いたものが「アヒル」だと認識し、その近くに持ってきたおもちゃが「同じ青い色のラバーダッグ」だと認識する。

アヒルの絵やラバーダックもちゃんと把握

道の上に熊とアヒルを描き、ラバーダックを置いて「どちらにいくべき?」と聞くと、アヒルの方を指示する。

どちらに進むべきか、絵から論理的に判断

ただギターの絵を描いた場合にはアコースティックギターだと判断するが、そこにアンプをつなげばエレキギターだと判断し、音を鳴らす。さらに椰子の木を描けば南洋風の音楽に変わる。

描いた絵に合わせ、流れるべき音楽が生成されて聞こえてくる

さらに自動車を2台描くと、「片方が空力的に優れていそうなので速く走る」と推測を語る。

自動車の絵から「どちらが空力的に有利か」を理解

これはなにを示しているのか?

ポイントは「声や絵、手などを正確に認識していること」、そして「認識しているものが含まれた設問に対し、論理的な回答をしている」ことにある。

次のビデオでまた例を示そう。

こちらは理科教育にGeminiを使った例だ。

デモの中では

  • 手書きのテストを判読する
  • 回答を理解し、正しい答えと間違いを判別する
  • 間違いの場合、どの部分で間違ったかを指摘する

ということが行なわれている。

手書きの回答を認識、正誤判定もちゃんと行なってくれる

これも、「画像の中の文字を認識する」「認識した文字内の回答が正しいか理解する」ということが同時に行なわれている。

もちろん、どこまでハルシネーション(間違い)などの影響が出ないのかは、ちゃんと検証しないといけない。だがビデオを見る限り、これはまさに「マルチモーダル」で「論理的な思考」を得意とするAI、と言えるだろう。

Googleは、最上位モデルの「Gemini Ultra」を使った場合、生成AIのモデルを評価するために使われているベンチマーク32種類のうち「30で既存の最高水準の結果を上回っている」(ニュースリリースより抜粋)とする。

また、MMLU(大規模マルチタスク言語理解)と呼ばれる、数学・物理学・歴史・法律・医学・倫理など57科目の組み合わせで知識や問題解決能力を測るテストでは「90.00%」のスコアを出している。そのため「人間の専門家を上回るパフォーマンスを示した初のモデル」(同じくニュースリリースより)とも主張する。

3つのモデルを用途で使い分け

Geminiは現在も開発中だ。

だが、3つ用意されるモデルのうち、中規模な「Pro」と小規模な「Nano」は。今年のうちに公開がスタートする。

Geminiはモデルの規模にあわせて3バリエーションが用意される

最も大規模で性能の高い「Ultra」については、テストののち、2024年初めから、一部のパートナーに向けて公開を予定している。

また2024年にGemini Ultraが公開されるタイミングで、同社のチャットAIサービスにより最先端の機能を組み込んだ「Bard Advanced」を提供するとしている。

当面、もっとも広く使われることになるのは「Pro」だろう。Gemini Proは当面同社の基盤AIになると見られており、検索サービスや広告、Chrome、Duet AIなど、幅広く展開していくという。ただし、その展開には数カ月かかる模様だ。

まずGemini ProはBardに組み込まれる。170以上の国と地域で「英語による利用」がスタートし、その後に多言語対応・マルチモーダル機能などが拡大される。すなわち、BardのベースはPaLM 2からGemini Proになり、その上に上位版としてGemini UltraベースのBard Advancedが用意される……という形だ。

また、12月13日には開発者向けのイベントが用意され、Gemini Proを使うためのAPIなどが公開されるという。

スマホ向けの「オンデバイスAI」で差別化するGoogle

Gemini Nanoは、サイズが小さくスマートフォン内で使う「オンデバイスAI」としての活用を前提としたモデルである。

現在もPixelシリーズには独自のオンデバイスAIが搭載されている。ボイスレコーダーに搭載された「音声文字起こし」機能では、オンデバイスAIを使って通信をせずに文字起こしを実現している。

また日本語では実現していないが、メールやメッセージングなどの「生成AIによるインスタントリプライ」も搭載が予定されていた。

そうした機能は、今後Gemini Nanoを使ったものに置き換えられていく。まずはPixel 8 Pro限定でGemini Nanoを使ったアップデートが行なわれる。まず搭載されるのは、音声文字起こしに「要約」を追加する機能だ。

現状、Gemini NanoはPixel 8 Proのプロセッサーである「Tensor G3」に最適化されている。Pixel 8も同じプロセッサーを使っているが、Googleによれば「メインメモリーの量の問題」で、現状はProのみの対応になる。

しかしGoogleは「より幅広く最適化を進めていく」としており、他のPixelや他社の「オンデバイスAIを意識したスマホ向けプロセッサー」への対応も可能性はある。

スマホとの連携は、ある意味ライバルが持っていない強みだ。OpenAI+マイクロソフト連合よりも有利だし、アップルはそこまで大きな手を見せていない。GoogleがGemini Nanoをアピールするのは、自らの強みをアピールするため……というところがあるのではないだろうか。