トピック

Googleが目指す「一言で答えられない問題」に答える検索。「MUM」開始

西田宗千佳

2021年7月1日 08:15

Googleでの新型コロナウイルス感染症ワクチンについての検索結果。この情報提供には新技術「MUM」が使われている

Googleは今年の年次開発者会議「Google I/O 2021」で、新しい検索技術「MUM」を発表した。そして先日から、新型コロナウイルス感染症(COVID)ワクチンの情報提供に活用し始めている。

今までの検索技術とMUMはどこが違うのだろうか? GoogleのFellow and VP of SearchであるPandu Nayak氏に聞いた。

MUMはGoogle I/Oの基調講演で発表された

新型コロナワクチン情報の検索に使われる新技術「MUM」

そもそも、MUM(Multitask Unified Model)とはどんな技術なのか? Nayak氏は次のように話す。

MUMとは「Multitask Unified Model」の略

Nayak氏(以下敬称略)：1年半前、我々は検索に関し「BART」という技術を導入しましたが、MUMは次の大きなステップです。

MUMの一つの特徴は、本質的に多言語モデルである、という点です。

MUMの学習には、現状はウェブ全体ではなく、一部を抽出した、ウェブのサブセットをコーパス(学習用データ)として使っています。要は、高品質なドキュメントだけを集めたものですが。75の言語全てで同時に学習していますが、データが豊富な言語から、文書数が少ない言語のデータまで一般化することができます。

MUMの研究開発に携わっている、Google・Fellow and VP of SearchのPandu Nayak氏

MUMのもう一つの優れた点は、本質的にマルチモーダルであり、本質的にマルチタスクでもあります。ここで言うタスクとは、自然言語でできる様々なことを指します。例えば、文書のレビューは分類タスクです。そのほかに、文書を並べるランキングタスクであったり、テキストの断片から名前付きエンティティ(識別情報)を抽出する情報抽出であったりと、さまざまな種類の自然言語タスクがあります。MUMは、それらを数多くこなすことができます。

MUMは多数の用途に使えるマルチタスク・マルチモーダルな技術

一般には「英語は情報量が多く、日本語は少ない」と言われる。これは正しいようで正しくない。英語が頭抜けて多いのは間違いないが、日本語だって「言語全体」で見れば情報が多いほうだ。もっと話者が少ない言語は多数ある。ネットの世界では、話者数や経済力・人口の差による有利・不利がより拡大される傾向にある。

だが、新型コロナウィルス感染症(COVID)ワクチンのような情報は、言語や経済力で極端な不均衡が起きるべきではない。誰もが求めているものだ。

Nayak：昨年、私たちはパンデミックの発生を受けてプロジェクトをスタートしました。「COVIDワクチンとは何か」「どこで入手できるのか」「どのようにして接種するのか」「接種率はどのくらいか」など、ユーザーがワクチンに関して求めている有益な情報を提供しています。

このサービスを開始するにあたり、重要な点として「トリガーの問題」がありました。どんな言葉がCOVIDワクチンを指しているのか、と言うことです。

当然ながら人々はCOVIDワクチンを様々な方法で参照しています。言語によっても地域によっても、どんな言葉で検索するのかは、バラバラです。ですからまずは、人々がCOVIDをどのように呼んでいるかをすべて把握する必要がありました。

新型コロナウィルス感染症ワクチンを示す言葉は世界中で使われているが、それぞれバラバラで、単純な処理では正しい情報をピックアップできない

Nayak：MUMはその課題を簡単に解決することができました。どの情報が実際にCOVIDワクチンのことを指しているのかを確認し、COVIDワクチン体験のきっかけにすることができます。

これは非常に素晴らしいことです。スライドには様々な名前が表示されていますが、私が特に気にいっている名前は「mRNA-1273」ですね。これは何を示しているのかわからない、ワクチンとは思えないような名前ですが、人々がワクチンを参照する際には、多かれ少なかれ専門的な用語が含まれます。

しかしMUMを使うことで、ちゃんとこれもCOVIDワクチンの名前である、と抽出できています。

「mRNA-1273」で検索した時の例。この言葉はモデルナ製ワクチンの候補を示す言葉だが、モデルナ製ワクチン以外に関する「ワクチンに関連する公式情報」がちゃんと出てくる

実際、新型コロナウイルス感染症ワクチンの情報は、どんな言語でもかなり正確に、重要な情報が優先して表示されるようになっている。過去、医療情報についてはデマサイトや検証が不完全なサイトが先に表示されてしまうことがある、と言う課題があったが、こと新型コロナウイルス感染症ワクチンについては、ちゃんと優先して「公式な情報」が出る。しかもちゃんとサマリーが読める形で、だ。

この表示を支えているのが「MUM」、ということのようだ。

MUMが目指す「検索情報の改善」

では、MUMはどのように使われていくのだろうか? もちろん、ネット検索に使われる。新型コロナウイルス感染症ワクチンの情報はその一例だ。

Nayak氏は「今後数カ月の間に、検索のさまざまな側面を改善するためにMOMが使用されることになるでしょう」と話す。だが、単純に「Googleの検索エンジンがMUMになる」という話でもないようだ。

Nayak：私たちはMUMを単一の検索エンジンとして考えてはいません。様々なチームがそれぞれのユースケースに応じて利用するためのものだと考えています。

例えば、あるチームがMUMを使って分類を改善したり、ランキングを改善したり。別のチームがMUMを使って情報を抽出したり、さらに別のチームが全く新しいアプリケーションを作ったりすることができます。

その上でNayak氏はMUMの狙いを「短期的」「中期的」「長期的」なものに分けて説明する。

GoogleはMUMの開発を3つの段階に分けて考えている

Nayak：複数のチームがそれぞれの目的に合わせて使う、ということは短期的な目的になるでしょう。検索における一般的なユースケースはこれにあたります。より良い「分類」を行なうことも短期的なメリットです。

前述の新型コロナウイルス感染症ワクチン情報は、まさに短期的なメリットを活かしたもの、といっていいだろう。

では中期的な目標・メリットはどういうものになるのだろうか?

Nayak：ここまで私は、MUMをテキストベースで利用し、文書やテキストから学習するものとして話してきました。

しかし私たちは、MUMが画像にも使えるかどうか、特にテキストと画像が混在している場合に使えるかどうか、また、それらの間でモード切り替えを伴わずに使えるかどうかを考えています。

MUMが目指すのは、マルチ言語・マルチモーダル(モード切り替えを伴わない)検索技術だ

Nayak：そこで、まずは相互に関連性のあるテキストと画像のペアを使ってトレーニングを行なってみました。テストに使ったのはシベリアンハスキーのことだったと思いますが、MUMは学習結果を元に、シベリアンハスキーの画像を生成しました。これは、訓練によって、画像とインデックスの関係について知見を得られた、という自信につながりました。

次のスライドは、あくまでも概念的なものです。しかし、このようなことが可能になる……と考えてください。

ハイキングブーツについての質問があったとします。例えば「このハイキングブーツを使って富士登山はできますか?」といった内容です。

MUMが目指しているのは、写真と「この靴で富士山に登れますか?」という質問を一緒に送ると、その回答が出てくる……といった世界だ

Nayak：その時にはこの画像をアップロードし、テキストで質問も入力できるインターフェースがあったとしましょう。そうすると、MUMに対して「その質問の文脈」で画像を分析するように指示できる、ということになります。

この画像を手がかりに検索すると、富士山登山に必要な足首の高いブーツについて書かれた文書が見つかります。そしてその文書をユーザーに示して、「足首の高いブーツがあること」そして「富士山に行くのにこれで大丈夫だ」ということを伝えます。

私たちが構築したいのは、このように、テキストの一部、つまり画像の中の何かを参照するテキストクエリーをアップロードして、興味のあるものを特定することができるような体験なのです。

「一言で答えられない問題」に答える検索エンジン

では、長期的目標はどんなものになるのだろうか? それは「一言で言えない質問に対し、いかに回答するか」ということに関連している。

Nayak：MUMの長期的展望は、情報を深く理解し、ユーザーを本当に助けることにあります。

ユーザーがGoogleに来て検索する場合、頭の中で完全に構成された質問を用意できることは稀です。もっと曖昧な意図を持っています。例えば、「子供のために学校を見つけたい」とか「チームでサッカーができる場所を探している」とか、「富士山をハイキングしたい」とか。幅広く曖昧な意図・複雑な意図が頭の中にあって、Googleにアクセスしたときには、それを一つ以上の「クエリー(質問)」に変換して、探しているものを捉えようとしているのです。

しかし、クエリーを作成することは、それほど簡単ではありません。もちろん、オートコンプリートやクエリーの絞り込みなどで手助けはしていますが、それにしても大変です。

複雑なニーズをそのままGoogleに入力することができたらいいと思いませんか?

例えば「以前アダムス山をハイキングしたので、今度は富士山をハイキングしたいです。秋になったら、富士山を登るのに、なにか準備が必要ですか?」という質問があったとしましょう。

今日、このようなクエリーをGoogleに入力したとしても、有益な結果は得られません。有益な結果が得られるとしても、多くの理由から、一つのWebページで全てを満たせる可能性は低いでしょう。得られるのは「特定の質問に対する答え」です。答えはいくつかの異なるウェブページに分散していて、自分で慎重にまとめなければなりません。

MUMが目指すのは登山に関する複合的で複雑な問いに「ちゃんと答える」ための対応だ

Nayak：では、MUMではどうか? 曖昧で複雑なクエリーをMUMが分析して必要なクエリーの集合体を見つけ出し、それらのクエリーがどのように関連しているのかを考えてくれます。

例えばMUMはこう返答するでしょう。

「富士山とアダムス山の地形とはかなり違うので、富士山の今月の地形に合わせてフィットネストレーニングをした方がいいかもしれません」とか、「富士山はアダムス山よりずっと寒いので、秋の天候に合わせたハイキング用の衣服が必要です」とか。

MUMは、ネットの中の多数の情報から、問いが求めている情報を見つけ出そうとする。

Nayak：この例はあくまで概念的な話です。実際にはすべてのクエリーが存在し、それぞれへの情報を提供するさまざまなリンクがあり、さらに、「なぜこの一連のクエリーが実際にあなたの求める質問に答えているのか」を説明するテキストがあります。

MUMでの回答には、元のクエリーから導き出されたそれぞれの個別クエリーと、その根拠となる情報のリンクが示される

このようなことが実現できれば、本当に素晴らしい体験になるでしょう。MUMでは整理された一連の情報が提示し、それをつなぎ合わせて自分が望む質問に答えることができるようになるのです。

「大規模言語モデル」が抱える課題とGoogleの対応

たしかに、こうしたことが可能になれば素晴らしい。

ただ、現状では課題もあるし、慎重に行なわねばならないこともある。

Nayak：「光の速度は時速何キロか?」といったシンプルな質問には、シンプルな答えで回答できます。しかし、たいていのことはそんなにシンプルではありません。

私たちは、皆さんが疑問をどのように解決したいかを「自分で決められる」ようにしたい。ウェブ上のソースを通して、問題を深く掘り下げたり、議論を提供したりすることが重要です。ですから、「質問すれば必ず単純な答えが返ってくる」だけのものにしようという意図はまったくありません。

Googleが始まって以来、毎年、前年よりも多くのトラフィックをオープンなウェブに送っています。私たちは、ユーザーが複雑なことを知りたいと思ったときに「オープンなウェブこそが最高の情報源になる」と考えているので、引き続きオープンウェブをサポートします。

一方で、MUMは非常に大規模な情報モデルを必要とします。このような大規模モデルにはいくつかの課題があります。

偏りは重要な問題の一つです。学習データに含まれるすべての偏りを学習してしまいますが、それが「望ましくない偏り」であれば、問題が発生します。これは絶対に避けなければなりません。

そこで私たちは、このような問題に対処するために、いくつかの異なる手法を用意しました。MUMはアダルトや内容に疑問があるコンテンツなど、ウェブの低品質なサブセットに含まれる望ましくないバイアスのすべてにさらされることなく、したがって学習することもありません。このことは、質の低いコンテンツを排除するには十分な効果があると思います。

2つ目は、評価方法に関するものです。これは初期の頃からGoogleの重要な部分でした。私はGoogleに入社して16年になりますが、私がGoogleに入社する前から、Googleには評価手法があり、それは年々、より包括的で広範囲なものになっています。

BURTを1年半前に発表したときにも、システムに気になるパターンがないかどうかを確認するために、これまでにないほどの時間をかけて評価を行なっていました。このような分析は、今後も継続して行なう予定です。

もう一つの課題は、モデルのトレーニングにコストがかかるということです。

時間的にも、エネルギー的にも、そして環境への影響、つまりカーボンインパクトについても話題になっていますが、私たちの研究チームは最近、大規模な言語モデルのトレーニングがカーボンインパクトに与える影響について、包括的で洞察に満ちた論文を発表しました。

この論文では、「T5」などの、Googleが独自に開発したいくつかのモデルと「GPT-3」のような外部で構築されたモデルを分析し、実に多くの興味深い洞察を得ました。

Googleは2007年頃からカーボンニュートラルを実現しており、環境への影響は確実に軽減されています。そして、今後数年のうちに、Googleはカーボンフリーを実現するでしょう。

Googleは企業として、気候への影響について非常に熱心に取り組んできましたが、言語モデルについても環境への影響を最小限に抑えるべく取り組んでいます。

そしてもう一つ気になるのが、こうしたMUMのような技術が「言語に依存しないのか」ということだ。マルチ言語とは謳われているが、英語以外の言葉でも利用可能になるのだろうか?

答えは「イエス」だ。

Nayak：私はそのように考えています。

クエリー自体が言語に依存しているというのは重要なことだと思います。独自のイディオムがあるし、スタイルも何もかもがオンリーワンですから。

しかし言語のニュアンスを効果的に把握するためには「言語に依存しない」ほうがいいのです。私が「MUMは多言語的」と説明したのは、言語の基礎となる概念を持つ中間的な表現であり、それらは共有することができるためです。

世界中に多言語やバイリンガルの人々がいるのは、彼らが「異なる言語であっても、共通している表現」を持っているからです。それによって一方の言語と他方の言語を翻訳することができ、実際に、自分の経験にある種の豊かさを加えることができます。