トピック
Gemini Liveのマルチモーダルが凄い スマホはすでに「エージェント」
2025年2月21日 08:20
グーグルのAIアシスタント「Gemini Live」は、Geminiに話しかけて対話しながら、AIを使った情報収集や会話を楽しめます。Androidスマートフォンの標準機能といえるGemini Liveですが、「音声」だけでなく、「画像」「テキスト」「動画」なども並行して扱えるマルチモーダル対応が進行しています。
日本でも2月14日から発売開始したサムスン「Galaxy S25シリーズ」の特徴は、AI機能を大幅に強化していること。その中でも注目だったのが、Gemini Liveを使ったマルチモーダル機能です。
これまでのスマートフォンはユーザーの要求に対し、アプリや音声アシスタントがそれぞれ独立して作業を行なっていました。Gemini Liveのマルチモーダル対応により、複数の作業を一度の指示で実行してくれます。実際にどのように便利なのか、実例を交えて紹介します。
ちなみに、Gemini Liveのマルチモーダル機能は、Galaxy S25シリーズ以外にもGalaxy S24シリーズや、Google Pixel 9など順次利用できる機種が拡大しています。
マルチモーダルAIとは、テキスト、画像、音声、動画といった複数の情報を組み合わせて理解し、処理できるAIを指します。従来のAIは主にテキスト入力に限定されていましたが、マルチモーダルAIは画像を見ながら質問に答えたり、音声と文字を同時に分析して最適な結果を提示したりすることが可能です。スマートフォン向けAIアシスタントがマルチモーダル化することで、AIがより身近な存在になると期待されます。
電源ボタンの長押しでGemini Liveが起動
Gemini Liveは、電源ボタンの長押しで起動します。画面下部にテキスト入力ボックスが表示され、右側には音声ボタンがあります。左側の「+」ボタンを押すと「カメラ」と「ギャラリー」を選択できます。Gemini Liveは、
- 文字入力
- 音声入力
- 写真撮影
- ギャラリーからの写真
を使った指示が可能です。特に便利なのは音声入力です。
たとえば、お気に入りのスポーツチームの今後の試合スケジュールを知りたい場合、通常はGoogleなどの検索エンジンや音声アシスタントで検索を行なうでしょう。しかし、検索結果をカレンダーアプリに登録するには、カレンダーアプリを開いて自分で入力しなければなりません。Gemini Liveなら、スマートフォンに向かって2つの指示を話すだけで済みます。以下は3つの事例です。
- 「ミラノサローネ(展示会)の日程を調べて、カレンダーに保存して」
- 「3月に東京で行われるマラソンイベントを調べて、Kento氏にメッセージして」
- 「明日の午後香港発東京行きの全日空便を調べて、2時間前にアラームを設定して」
上記のような指示で、「検索」と「アプリ操作」を一度の音声指示で済ませることができます。現在、連携できるアプリは限られていますが、今後はショッピング、チケット予約、デリバリーサービスなどと連携が進み、Gemini Liveは生活に欠かせない機能になっていくでしょう。
カメラを使った検索も便利に
また、カメラを利用するとさらに便利です。Gemini Liveを起動して「+」をタップし、カメラを起動して撮影したものを使い、同様の指示が可能です。たとえば、以下のような事例があります。
「海外の街中で美味しそうなものを見つけたが、料理の名前が分からず、為替レートも不明でいくらくらいなのか検討がつかない。手持ちの現金を考えると高いものは食べたくない。その場合、どうすればいいか?」
一般的には、メニューの写真を撮影し、翻訳ソフトで日本語に変換した後、通貨を換算するという流れになります。翻訳画面と為替アプリを行き来して調べる手間がかかりますが、Gemini Liveなら、まずメニューを撮影し、音声で「日本円に変換して、600円以下のメニューを教えて」と話すだけで、当日の概算為替レートを計算し、600円以下で食べられるメニューを日本語で表示してくれます。もちろん、メニューの翻訳のみも可能ですが、予算に合わせた計算や為替変換も行なえるのが魅力です。
このように、カメラを使用するGemini Liveの機能は、特に文字が読めない海外で役立ちます。たとえば、海外では韓国で知らずに激辛の料理を注文して後悔することもあります。その際、写真を撮影して「辛くないメニューを教えて」と指示すれば、日本語訳とともに適切なメニューを教えてくれます。基本的に、Gemini Liveは外国語の写真に対して指示を出すと、日本語への翻訳もほぼ自動で行なってくれます。
海外旅行中などに気になったことがあれば、Gemini Liveで写真を撮るとかなり的確な回答や指示が得られます。ただの検索ではなく、画像の解析や付加情報まで教えてくれる点がGemini Liveの優れているところです。
アメリカで開催されたGalaxy S25の新製品発表会の会場では、航空券のチケットを撮影してカレンダーにフライト日程を入力させたり、冷蔵庫の中を撮影して「この食材から作れる料理を検索して」と指示するデモも行なわれました。
Gemini Liveのマルチモーダル機能は、これまでスマートフォンで行なっていた「検索」と「検索結果の処理」を一括して行えるようにしており、日常生活で「本当に知りたいこと、やりたいこと」を実現するAIエージェントとして、スマートフォンの使い方を大きく変えていくでしょう。