トピック
ChatGPT、Gemini、Perplexity、Grokの「ディープリサーチ」を比較してみた
2025年3月14日 08:20
矢継ぎ早に賢いAIモデルがリリースされ、まさに日進月歩の進化を見せているAIプラットフォーム。ですが、それとは少し異なる流れでここ最近のトレンドとなっているのが「Deep Research(ディープリサーチ、もしくはディープサーチ)」という機能です。
プラットフォームによって機能名は若干異なるものの、Web上にある多数の文献(もしくはユーザーがアップロードしたデータ)を元に多角的な視点から推論、洞察などを行ない、従来よりも詳細に回答する機能、という点で共通しています。
代表的なAIプラットフォームの多くが実装しており、OpenAIのChatGPT、Google Gemini、Perplexity、xAIのGrokなどで利用できます。今回はこれら4つのプラットフォームでディープリサーチを使い、それぞれの回答の仕方や特徴的なところを見てみることにしました。
通常の使い方とディープリサーチで回答はどう変わる?
まずは各プラットフォームにおいて、ディープリサーチをどのプランで使えるのか表にまとめました。2025年3月上旬の時点では、ChatGPTとGeminiは有料会員向けに提供しており、PerplexityとGrokは無料会員でも使えます。
ChatGPTは月10回であれば20ドル(3,500円)のChatGPT Plusへの加入が、100回になると200ドル(3.5万円)のChatGPT Proが必要です。Geminiも月2,900円のプランへの加入が必要となります。
とりあえずどんなものか試してみたい、ということであれば、最初は無料のもので使い勝手を確かめてみるといいかもしれません。
通常のAIチャットの回答と、ディープリサーチによる回答ではどのように変わってくるのでしょうか。ChatGPTでディープリサーチを使った場合とそうでない場合の回答を比べました。ちなみにAIモデルはどれを選んでもかまいませんが、ChatGPTでは「o3」がベースとなっているようです。
プロンプト
現在一般のユーザーが使えるAIチャットサービスについて、それぞれの機能、特徴、利用料金などを調べて分かりやすくまとめてください。
ディープリサーチなしの場合、各サービスの概要を箇条書きで書き連ねた単純な内容になっています。全体が出力されるまでの時間は約18秒と高速です。
とはいえ、ざっと情報を得たいのならこれでもいいかもしれませんが、AIモデルの把握している情報が古いためか、パッと見たところでもCopilotではなくBing Chatだったり、GeminiではなくBardだったりと、正確性に欠けていることに気付きます。これらを鵜呑みにするのは避けた方が良さそうです。
一方、ディープリサーチを有効にした場合、たいていは収集する情報を絞り込むための前提条件に関する質問が最初に挟まります。それに答えることでネット上のコンテンツから情報収集して分析が始まり、数分待つと各サービスの特徴が表形式で提示されます。
表内の文章量が多いので見にくいところもありますが、最新の情報に基づいて丁寧に調べ上げており、正確性もより高まっているようです。これだけの情報量のレポートを(見やすさは別として)人力で整理するとなると数時間はかかるでしょうから、それがわずか数分で完成してしまうのは驚きです。
各プラットフォームのディープリサーチの結果を3パターンで比較
それでは、ディープリサーチによる回答がAIプラットフォームごとにどんな風に変わってくるのかチェックしてみたいと思います。
今回は「買い物の検討」「社会情勢の分析」「明確な正解がない質問」という3タイプのプロンプトを用意して、4つのAIチャットサービスに投げてみました。
プロンプト例1:買い物の検討
ノートPCの購入を検討しています。下記の条件を前提に、最適と思われるノートPCをメーカーごとに1機種ずつ、合計4、5機種程度の候補を挙げ、各機種ごとの詳細スペック、特徴、価格が分かりやすいように表にまとめてください。
・ビジネス向けモデル
・2024年以降に発売されたもの
・ディスプレイサイズは14型前後
・メモリは16GB以上
・CPU内蔵GPUを搭載する
・USB4ポートまたはThunderbolt 4ポートを備える
・通常サイズのSDカードスロットを備える(必須ではない)
ChatGPTはノートPCの基本スペックや特徴的な点を表にまとめて簡潔に答えてくれました。機種ごとの重量も記載されているので持ち運びの頻度を考えながら選べます。参考価格はほぼ市場の実勢価格に則っていて、ここも大いに参考になりそうです。
Geminiは候補となるノートPCの情報を個別に整理しつつ、後半で全機種のスペック等を表にまとめたうえで総括するという、まさにレポートに近い仕上がりに。ただし、目安価格がドルベースになっており、国内メーカーモデルについては価格が表記されていないことから、日本向けにはまだ最適化されていないようです。
PerplexityはGeminiに似た構成となりました。部分的になぜか中国語らしき文字が混じっていたり、参考価格が明らかに低く出てしまっていたりなど多少の違和感はあるものの、表の美しさは抜群。用途別のおすすめ提案をしてくれているのも助かります。
Grokは全体の比較の後に個別の解説が付く、という構成。こちらも重量と価格の表記が米国スタイルで、日本人にとってはなじみにくい感じです。このあたりはプロンプトの中で追加で指示を入れて回避するのがいいかもしれません。
プロンプト例2:社会情勢の分析
2024年後半から日本では主食の米が品不足になり、高値となって入手しにくくなる「令和の米騒動」が発生しました。その根本的な原因を分析するとともに、解決するために国としてどのような施策が必要か、さらには1消費者が米不足に備えてどのような対策が取れるのか、レポートにまとめてください。
社会情勢の分析については、特にPerplexityが、事実に基づき、要因分析から今後の対策まで多面的に、かつ分かりやすく解説してくれているように感じます。政府がとるべき施策もそうですが、消費者ができる対策についても具体的で、説得力があります。1つの読み物として楽しめて、勉強になりました。
ChatGPTはおよそ13,000文字におよぶ長大で詳細な、まさにレポート。これを数分で出力するのはすごいなと思いつつも、文字数稼ぎをしているようにも見えてしまい、正直なところ全部読むのはつらい感じです(「10ページで」と追加指示をしたことが原因の可能性もあります)。
Geminiも詳細ではありますが、若干不確かな情報を織り交ぜているのが気になります。後半、マークダウンで表を作ろうとして失敗している部分があるのも惜しいところ。Grokは広く・浅くといった感じで、大まかに問題や対策を把握するのには向いているかもしれません。
プロンプト例3:明確な正解がない質問
人類史上、最も面白いジョークが何なのか、調べてください。
どのAIプラットフォームも複数の観点から説明を試みていますが、「面白いかどうかの基準はその人による」というありきたりな結論だけにしなかったChatGPTが個人的には好ましく思いました。「面白さ」の理論を学べるようになっているGeminiも参考になります。
Perplexityは実際のネタがどういうものかを省いてしまっており、元ネタを知らないと意味がわからない部分があるのが残念な点。Grokは架空のジョーク、あるいは事実と異なるものを出力してしまっているうえに、あまりディープ感のない短い回答となってしまいました。
回答結果の出力方法にも注目
AIチャットサービスそれぞれで得意・不得意分野があるようですが、今回試した範囲では、わずかな差ではあるものの、総合的にはChatGPTがリードしているかな、というところ。GeminiやPerplexityは情報のまとめ方が上手な印象で、こちらも実用性は高いと思われます。Grokは創作してしまう可能性があることから、少なくとも現段階では利用には注意が必要です(ただし、Grok以外もいわゆるハルシネーションが発生する可能性はあります)。
ちなみに、回答結果の出力方法にも各サービスで違いがあります。どのサービスも回答全体を(マークダウン形式で)クリップボードにコピーできますが、Perplexityはそれに加えてPDFとマークダウン(.md)のファイル形式でエクスポートでき、Perplexity Pageやスペース(編集・共有機能のようなもの)にも保存できます。また、GeminiはGoogle ドキュメントに出力可能です。
できあがった内容をレポートとして活用することまで考えたときには、こうしたエクスポート機能が充実しているかどうかもポイントになってきます。どのディープリサーチを使っていくか決める際には、回答の精度だけでなく、それら付加機能も考慮に入れてみてはいかがでしょうか。