西田宗千佳のイマトミライ
第184回
マイクロソフト新Bingが示す「検索」新時代 チャットUIとGoogleの憂鬱
2023年2月13日 08:20
マイクロソフトが検索技術でGoogleに先制パンチを加えた。
2月7日(アメリカ時間)、マイクロソフトは検索エンジン「Bing」、ウェブブラウザー「Edge」の大規模アップデートを発表した。Open AIの大規模言語モデルを使った「チャット」「要約」などの機能を搭載し、従来のサービスとは大きな変化を遂げた。
検索の巨人であるGoogleは、6日にチャットAIを活用した「Bard」を発表。8日にはパリで大々的な発表会を開き、検索系技術をまとめて発表した。
しかし、Googleの発表はあまり話題にならず、新Bingは48時間で1,000万人以上が利用のための「ウェイティングリスト」に登録し、SNS上には利用した人の感想があふれている。
マイクロソフトの意図はどこにあるのだろうか? そして、Googleが「遅れた」理由はどこにあるのか? それを少し考察してみよう。
索引つきで検索を「文章でまとめ直す」Bing
新しいBingを使ってみると、かなりの衝撃を受ける。たしかに、いままでの検索エンジンとはまったく異なっている。
チャットベースなので、こちらの文章による質問に対し、きちんと質問で答えてくれる。
回答はちゃんとした文章になっており、自分で1つ1つのリンクを辿って内容を確認するよりもシンプルだ。
場合によっては、文章でなく表などが入ってくることもある。以下の例は、「ネットフリックスの過去の業績について」聞いてみた例だ。文章で説明されているだけでなく、業績が表になっているのに注目していただきたい。
これはどういうことか? 要は、ネットで検索した情報を下に、文章や表を再構成しているということなのだ。
ここがまさに「ジェネレーティブAI」(生成系AI)そのものである。
こうした回答は、2022年11月に公開されたジェネレーティブAI「ChatGPT」などと変わりない。
同じ質問をChatGPTに投げかけてみても、回答は同じように出てくる。
しかしBingに尋ねた結果で大きく違うのが、内容に「索引」のようにリンクが付いていることだ。
ChatGPTのようなジェネレーティブAIの欠点は、「答えの根拠がどこにあるかわからない」ことにある。
答えが正しいかどうかを判断するのは、結局人間であることに違いはない。それは、今の検索であろうが、チャットベースであろうが変わらない。しかし、正しさの根拠が示されていないと判断しようがない。
そこでBingでは、生成した文章のもとになった情報・根拠をリンクの形で埋め込むことで、人に判断の材料を与えている。
こういう機能が搭載されていることが、「文章生成のためのジェネレーティブAI」と「検索のためのジェネレーティブAI」の違いである。
ChatGPTはOpenAIの「GPT-3.5」をベースにしているが、Bingはさらに、マイクロソフト自身の技術である「Prometheus」を加えて実現している。
また、ChatGPTは2021年以降の情報は加えていないものの、検索エンジンであるBingは常にウェブをクロールしており、最新の情報も加味される。
チャット検索の本質は「UIの大変革」
検索がチャットベースになることの本質はなんだろうか?
AI、という言葉から「知的」というイメージを持ちそうだが、実際にはあまり関係ない。ジェネレーティブAIは知性ではなく、統計的な処理による文章生成にすぎない。
ひとことで言えば、本質は「検索のためのユーザーインターフェースの変化」なのだ。
まず、単語区切りで入力する(従来の検索)ことと、文章で入力する(チャット検索)ことは大きく違う。
ちゃんと回答が得られる質問を考えるのは大変なことだ。特に「単語」だと、質問を考えてから「それを単語に分けて質問した場合、どういう形が適切か」を考えた上で、検索に使う単語を選んでいく必要がある。しかし、文章でいいなら、もう少し質問を考えるのは楽になる。
実のところ、「文章で検索する」という点は珍しい行動ではない。日本では単語で検索する人が主流だが、欧米では文章で入力する人も増えている。
日本で「文章による検索」があまり使われてこなかったのは、そのことで検索精度が下がってしまうからだろう。
例えば英語の場合、文章として書いても単語単位でスペースが入っており、従来通りの検索エンジンのままでも、さほど精度は下がらない。しかし日本語には「わかち書き」がないため、入力された文章の意味を解析して単語を抽出する技術がないと、「文章で快適な検索」はできない。
以下の例をよくみていただこう。文章で検索しているわけだが、その前に、文章から「検索に使うキーワード」を抽出しているのがわかる。
すなわち、ネットからウェブを検索するという部分は、いままで通りの「キーワード検索」な訳だが、その前のキーワードを抽出する部分と、検索結果から文章を生成する部分にジェネレーティブAIの要素が生きているわけだ。
もちろん、文章で答えが出てくる、というのも大きな変化だ。
従来の検索エンジンは「答えにつながるかもしれないサイト」を出してくれたが、チャットベースの検索エンジンの生み出すものは、「答えかもしれない文章」であるわけで、最終的なレイヤーが1つ減り、楽に使える。
さらに情報を精査していく場合の感覚も変わっている。
従来はまた検索キーワードを考えて別の答えを探していく必要があったわけだが、チャットベースの検索では、直前にチャットしていた内容をサービス側が覚えているので、その内容を踏まえて質問していく。「その部分をもう少し詳しく」とか「じゃあその点を別の方向から聞くとすれば」というふうに煮詰めていけるので、これはとてもありがたいことではある。
対話しつつ情報をまとめてくれる「アシスタント」としての姿が、新しいBingの変化である。情報が変わっているのではなく、そこへのアクセスの仕方や見せ方が変わっているわけで、まさに「ユーザーインターフェースの変化」なのだ。
マイクロソフトが新しいBingを「副操縦士(Co-Pilot)」と称しているのは、人の作業を補助する姿を示してのものだろう。
「チャットでの検索結果表示」はウェブメディアや広告に打撃を与える
もちろん課題もある。ウェブメディアに記事を書いている人間には深刻な点である。
現在のウェブにおいては、ウェブメディアが検索を入口として「読まれる」から、広告価値や媒体価値が生まれるし、メディアや著者の名前も認識される。
しかし、検索した結果が文章になって答えが示されるということは、その先まで読んでくれない可能性が高まるということでもある。ウェブ上に広がった情報の価値が、結果的にジェネレーティブAIの生成に吸い上げられてしまう可能性が出てくる。
ネット上のコンテンツの多くは、広告を原資に作られている。ページが表示され、広告が読み込まれないと価値は生まれない。
それだけでなく、チャットの結果として提示された内容に「広告」を絡めていくのが難しい、という点もある。
Bingでは従来のような検索もできる。そちらの方が現在は動作も早く、別の利点があるからだ。
一方、従来の検索であれば、長く使われてきた「リスティング広告」(検索キーワードに連動して検索結果に表示されるテキスト広告)はそのまま使われるわけだが、チャットではなかなか難しい部分がある。チャットの中に広告を混ぜられると情報の信頼性が失われるし、チャットの内容と別に広告を入れると単純に使いづらくなる。チャットに関連する内容を端に出すことはできるだろうが、チャット中、わざわざ端に注目する人は少なく、広告価値は減る可能性が高い。
今後もネットが広告を軸に進んでいくとした場合、チャットが検索の主軸になることは、「ウェブの記事を読まない」「リスティング広告の効果が下がる」という課題を抱えることになる。現状、Bingにはその問題についての答えは入っていないように見える。
一方で、マイクロソフトとしてはそれでもいいのかもしれない。
なぜなら、ジェネレーティブAIとの連動については「Microsoft 365」という強い武器があるからだ。
オフィスとTeamsを組み込んだMicrosoft 365は、基本的には有料ツールだ。WordやExcel、PowerPointなどのツールで検索結果とジェネレーティブAIが活用できるとすれば、課金する要素は増えていく可能性は高まる。
昨年Microsoft DesignerというジェネレーティブAIを発表した。表示される空欄に作りたい文書のイメージを「文章で」書くと、適切と思われる画像とデザインを生成してくれるものだが、これもまたツールとAIの組み合わせである。
そこにさらに検索や情報をまとめ直す作業が関わってくると考えると、マイクロソフトは他社よりも「課金モデル」への組み合わせ方が多彩である、と考えることはできないだろうか。
チャット検索の可能性は「スマホ」で爆発する
そして、これらの「ジェネレーティブAIが生み出したユーザーインターフェース」の変化には、おそらくまだ先がある。
現在はPCの上でキーボードを叩いているが、スマートフォンやスマートスピーカーに検索エンジンとして組み込まれた時、もっと劇的な変化がやってくる。
現在の音声入力技術を使えば、文字をタイプしなくても検索はできる。ただし、そこでキーワードを使うのはやはり不自然だ。もし、機械に話しかけるように検索ができるとしたらどうだろう? Bingのチャット検索がスマホに実装され、音声認識で検索するようになると、情報の探し方も変わるだろう。
回答が文章で出てくるのも、スマホやスマートスピーカーに向いている。合成音声で読み上げてくれればいいからだ。
そこまで行けば、「ジェネレーティブAIによる検索エンジンの変革」の本質がユーザーインターフェース(UI)である、というイメージはもっとわかりやすくなるだろう。先日アマゾンを取材した際にも、そうした試みへの可能性が語られていた。
Googleはビジュアルサーチで「過去からの秩序」を重視したが……?
Googleは、検索へのジェネレーティブAIの組み込みで、マイクロソフトに先行を許している。
「ジェネレーティブAIによる検索エンジンの変革」がスマートフォンに有効なのは明白だが、Googleはそこにまだ踏み込んではいない。
理由はおそらく2つある。
1つは、ジェネレーティブAIで検索を「まとめる」ことの危険性への対応だ。Googleは検索結果の引き起こす問題にずっと直面してきた。コロナ禍で医療情報をどう出すか、ということはその好例である。
彼らもAIは熱心に開発しているが、そこではジェネレーティブAIではなく、多言語・多形態情報を扱う「MUM(Multitask Unified Model)」であったりする。
8日の発表で、Googleは「カメラはスマホにとっての検索窓である」「今はビジュアルサーチの時代である」という言い方をした。文字を入力するのでも話すでもなく、目の前で見えているものを撮影し、その中に含まれるものを検索のキーとして使うことに、この数年、Googleは注力してきた。
チャットという変化は新しいもので、より進んでいるように見える。しかし、ビジュアルサーチも同様に新しく、困難なアプローチである。スマホを考えた場合には確かに、音声と同じくらい価値があるはずだ。
だが、ジェネレーティブAIが持っている「答えがネットから生まれる」ような変化はない。あくまで、検索結果をリストアップする形だ。その方がある意味安全であり、ネットのビジネスモデルを崩すこともない。
Googleは検索の巨人なので、過去のモデルを壊すことに躊躇した。そこがマイクロソフトとの違いだ。
当然、その方向性の違いに、Googleも危機感を感じているのだろう。だから、従来から開発していた「LaMDA」のスモールモデルを使った「Bard」を発表することになった。
Bardはまだ「信頼できる人々へのテスト」の段階で、機能や価値は見えてきていない。Googleが発表ないで例示したものの中に間違いがあったことで若干炎上したが、それで本質が見えるわけでもない。
Googleが提示するチャットベースの環境はどうなるのだろうか? さらには、そのスマホの上での実装はどうだろう?
そういう意味では、アップルがどう対応するのかも気になる。
マイクロソフトがBingで仕掛けた戦いは、大きな変化が起きる可能性を秘めた、インパクトのある先制パンチだったのだ。