西田宗千佳のイマトミライ
第254回
「SearchGPT」から考える検索新時代 「AI検索」の可能性と課題
2024年7月29日 08:20
OpenAIは、検索に特化したサービスである「SearchGPT」をスタートすると発表した。
生成AIといえばOpenAIがリードしているように思えるかもしれないが、ことネット検索については後発。マイクロソフトが初手から「Bing Chat検索」(現Copilot)をし、GoogleはSGE=AI Overview(生成AI による検索体験)の開発を進めている。
そして、検索特化型の生成AIサービスをPerplexityは日本でソフトバンクと組んでサービスを展開し始めている。
一方で、検索と生成AIの間には難しい問題もある。先日新聞協会は、検索連動型生成AIについて著作権侵害の可能性を指摘する声明も出している。
今回は、生成AIにおける検索の意味とここから先の展開について考えてみよう。
生成AI≠検索 だから「新しいサービス」が必要に
生成AIと検索は、非常に微妙な関係のままやってきた。
多くの人にとって、生成AIに対してまずやることは「なにかを尋ねる」ことではないだろうか。新しいバージョンが出るたびに「これを訊いてみた」という話が盛り上がる。
ただ、これは生成AIのベストな使い方からはほど遠い。
生成AIの背後にあるLLM(大規模言語モデル)は大量の文章から学習されたものであり、結果的に、モデルの中に多数の知識の断片が含まれる。
しかし、その仕組み上、回答の正しさは担保されない。学習の結果として「言葉の連なり」を生み出すが、あくまで文章としてよくまとまっている、という話に過ぎない。いわゆる「ハルシネーション」が起きるのはその結果だ。
また、回答の根拠がどこにあるかも示さないし、LLMに蓄積された情報は学習時のものであり、最新のものではない。
そう考えると、生成AI自体を使うなら、本来は質問ではなく別のことに使う方が有用である。
とはいえ、「チャット欄に文章を入れる」UIだと、やはり人はネット検索を思い出す。それに、なにかを訊ねるという行為は一般的なもので、それだけにニーズもある。
では、どう使えばいいのか?
そこで出てきたのが、「質問の文章を生成AIに解釈させ、検索に必要なキーワードを導き出す」ということであり、「出てきた検索結果を生成AIがまとめ直す」という要素だ。こうすれば、チャットで質問するというUIは生かしつつ、検索結果という形で「新しい情報に対応する」「情報のソースがなにかを示す」という課題に対応できる。
生成AIが質問を解釈すること、生成AIが情報をまとめることから、間違いやハルシネーションを排除できてはいない。
だが、単語でなく自然な文章で質問できるため、より複雑な質問をしやすいこと、回答をとりあえず理解するには1つの文章を読めば済むこと、というメリットは、間違いなく存在する。
各社の「AIによる検索」はどのようなものか
詳細な仕組みや結果は異なるものの、生成AIを使った検索サービスは、基本的にはこのような構造で動いている。
最初にこのやり方をサービスとして導入したのはマイクロソフトだ。'23年2月に「Bing」をアップデートして導入したが、その後「Copilot」と改称し、現在の戦略の主軸となっている。
「生成AIでGoogleが遅れをとった」と言われるのはこの流れによるものである。
Copilotでの検索はまさに「チャット」だ。ただ、その結果として見え方は「検索」には見えづらい。生成される答えがどのウェブを元にしたものか提示されるので、本質として「ネット検索なのだ」ということはわかるのだが。Copilotは故意にネット検索と「文章の生成」を混ぜた1つのサービスを指向しており、初期の生成AIが持っていた「とにかくチャットで聞けばいい」という思想を色濃く反映した形になっている。
その後Googleは「Gemini」を開発、これを基盤技術として、生成AIを使った検索である「SGE」こと「AI Overview」の準備を始める。日本での導入は年内を予定している。
AI OverviewはGoogle検索の中に組み込まれる機能で、現在のGoogle検索でも使われる「強調スニペット」に似た位置付けだ。ネット検索によるある種の結果がリストの冒頭に表示され、「たくさんのページを読みたくない場合にはこちらから概要を知れる」というニュアンスが強い。
Googleとしては「ネット検索の結果」というエコシステムはできるだけ崩さず、検索自体をより高度にしようと考えているのだ。動画からの検索など、マルチモーダルな方向に進むのも差別化のためと言える。
Perplexityは、ある意味で「チャットでなんでも解決」という、生成AIブーム以降のトレンドに沿ったサービスと言える。質問を解析し、そこから検索してさらに回答を生成する、という意味ではCopilotに近い。
ただ違うのは、最初から「利用者が求めているのは検索である」と考え、検索に特化したものを作ってきたことだ。筆者も日々使っているが、確かに非常に便利である。回答の質では、現状トップクラスなのではないかと感じている。
では話題のSearchGPTがどうなるのか?
まだ「プロトタイプ」と銘打たれており、実際にサービスを使えていないからよくわからない、というのが正直なところだ。だがおそらく、目指すところはPerplexityに近いのだろう。
というよりも、それはChatGPTでもやっていることなのだ。
2023年5月、有料プランの「ChatGPT Plus」に、プラグインの1つとしてWebブラウジング機能が搭載され、まさに「ネットを検索して最新の情報をまとめ直す」ことが行なわれていた。
ただ、その後幾度かの再開を経て、公開は停止されている。
おそらくSearchGPTは、この機能をベースにまとめなおしたものであり、より使いやすくなっていると予想される。
先のページは読まない「AIによる検索」の課題
OpenAIが1年以上前に行なっていたものを停止し、改めてSearchGPTとして提供する理由は、おそらく、他社が提供するサービスが抱える課題と同じものであるだろう。
それは「ウェブの秩序を破壊しかねない」ということだ。
検索がAIでまとめられることになると、人はその「まとめられたもの」しか読まなくなる可能性が高い。
前出のように、生成AIには正確性の問題がある。だから根拠となるウェブサイトを示してまとめる、という機能が必須だ。
だが、実際に「情報ソース」までたどって内容を確かめる人は多くない。調べることを仕事として行なっている筆者ですら、「仕事と関係ないざっくりしたこと」ですべてソースまで調べるかというとそうではない。「その方が楽」である中で、皆に「ちゃんと調べなさい」というのは無理がある。
検索サービスではなく、ハルシネーションが回避しづらいChatGPTですら、その特性を理解して使う人は少数派だ。SNSには「ChatGPTで調べてみたのですが」というコメントがあふれている。それは決して「調べたことにはなっていない」のだが、そう考える人は、残念ながら多くない。
結果として、ウェブサイトを直接読む人は減ってき、ウェブサイトにお金や労力をかけてコンテンツ(記事)を作る人には不利な状況が出てくるのでは……と予測できる。
その議論は2023年にマイクロソフトが「生成AIで検索」を導入すると同時に巻き起こった。
だからこそ現在は、「生成AIを使った検索サービスを作るなら、そこで利用されるコンテンツにはライセンス料を支払うべきではないか」という議論がある。
Perplexityはそうした交渉の可能性を口にしているし、OpenAIも同様だ。SearchGPTもその方向性に向かうだろう。
「著作権」で戦うことは良い作戦ではない
ライセンス料設定の議論が出ているのは、こうした「AI検索まとめ」に対し、著作権上の課題があるのでは、という指摘があるためだ。
1つの本質として、「著作者の利益を侵害する形で利用する」ことになると、これはやはり防ぐべきものだ。
一方、単に「学習したから」「まとめたから」著作権侵害、とするのは難しい。
ポイントは「著作物に表現された思想又は感情の享受を目的としない利用」の範囲内であるか、そして、利用する行為が「著作物の利用が軽微な範囲」にとどまるか、という点だ。おそらく多くのAIまとめはこの条件を満たすが、すべてではない。そして、前出のように「元の記事を参照するが読まない人が増える」ことで、著作者の利益を侵害する可能性はある。
ただ筆者として、「侵害の可能性がある」「現在の秩序に影響を与える」からNG、という話には賛成しにくい。
なぜなら、過去から似たような話はあるし、論点は他にもあるからだ。
そもそも、検索をAIが「まとめてくれた」からと言っても、それは新しい現象ではない。
見方を変え、「ニュースなどを、元のサービスではなく別の形で見せる」という意味なら、ヤフーニュースなどのニュースアグリゲーターがやっていることに近しい。「メディアスキップ」という話をするなら、ニュースアグリゲーターとAIの違いを論じる必要が出てくるし、そこでの報酬体系の問題にも関わってくる。
今のウェブメディアはニュースアグリゲーターに依存している。だが、その報酬自体が適切で、公平な交渉ができているかというと疑問だ。
ニュースアグリゲーターが出てくる時からちゃんと影響力を考えて交渉すればこうはなっていなかった。生成AIと検索がくっついて同じような課題が生まれるなら、今度こそちゃんと交渉していくべきだ。
だから、新聞が「AI検索」を単純に敵であるかのような論陣を張るのは間違っている。海外の大手メディアのように、自分たちの記事を最大の武器として有利な交渉をいち早く行なう立場に入るべきだ。
「ライセンシング」が混乱を生み出す可能性も
もう一つ、頭の痛い問題がある。それは「AIがまとめる情報はメディアだけでいいのか」「メディアとはどこからどこまでを指すのか」という点だ。
メディアの記事が知見なら、研究論文はもっと「高度な知見」であり、在野の個人が書いたブログも高度な情報である場合が多い。SNSの書き込みだって立派なメディアだ。さらに言えば、組織ではない、フリーランスの個人記者はメディアではないのだろうか。
新聞が怒るのはわかるが、そこで怒る権利は新聞にだけあるわけではないし、報酬分配も新聞だけに与えられる特権ではない。
もちろん、良いソースという意味ではオールドメディアの方が「平均的な質」は良い。だから交渉は必要になってくるし、団体があるからまとまって話ができるという点はある。
ネットで見つかるソースは、一般論で言えば「大きい組織から出てくる情報優位」になっている。
情報の正しさよりも量を優先し、検索結果を「荒らす」メディアが増え、その悪影響を排除するためにGoogleの検索が方向性を変えたためだ。現在も、広告出稿や文言、ページ構成などを武器にハックし、「本来は出てくるべき情報よりも先に出てくる」質の良くない情報はたくさんある。
正しい情報を出すべき、という話が絡むため、ここは非常に難しい議論がつきまとう。
ただ、AI検索でライセンシングモデルを、という話になると。この辺の秩序構成が非常に難しくなる。
少数のメディアだけを優位にはできない一方で、誰にでもライセンスの門戸を開くと、インプレゾンビやまとめブログのような「数でハックする」という課題が出てくることも避けられない。
ネットにとって検索は重要である。一方で、今後AIを組み込んでいく場合の「新秩序」はまだまだ見えていない。SNSのように「頭から混乱に突っ込む」のは避けたいが、各社はどう考え、どのような世界を思い描いているのだろうか。
各社のサービスを使う時には、そうしたことも頭の片隅に置きながら試してみてほしい、と考えている。