ニュース

グーグル、生成AIの“幻覚”対策で前進 統計データなど統合

Googleは、生成AIの大規模現モデルの課題のひとつとされる「ハルシネーション」対策で有望とする研究成果を発表し、それを実現するオープンモデルの「DataGemma」を発表した。研究者・開発者向けに提供が開始されている。

生成AIのハルシネーション(幻覚)とは、不正確な内容を本当のことのように回答してしまう現象で、生成AIが世に出た当初から主要な課題に挙げられてきた。

Googleはまず、国連や世界保健機関、国税調査局といった信頼できる組織が公開しているデータを取得する「Data Commons」を構築した。Data Commonsでは、AIの自然言語インターフェースを介して、自由な視点でデータを取り出すことが可能。例えば、「アフリカで電気へのアクセスが最も増加した国」といった検索で、データに基づく回答が得られる。

このData CommonsをGemma内に統合し、回答に根拠付けすることを目指すのが「DataGemma」プロジェクトとなる。

具体的には2つのアプローチで構成される。ひとつは「RIG」(Retrieval-Interleaved Generation)で、Gemma 2の機能を強化、信頼できるソースを積極的に探し、Data Commonsの情報と照合して事実確認を行なうというもの。

もうひとつは「RAG」(Retrieval-Augmented Generation)で、言語モデルが訓練データを超えた関連情報を組み込み、より多くのコンテキスト(背景、文脈)を吸収、包括的で有益な出力を可能にするとしている。

DataGemmaでは、「Gemini 1.5 Pro」の長いコンテキスト・ウィンドウを活用することでこれを実現。モデルが応答生成を開始する前にData Commonsから関連するコンテキスト情報を取得し、これにより幻覚のリスクを最小化して応答の精度を高める。

このRIGとRAGを採用した初期の調査結果は、初期段階と断っているものの、奨励的(encouraging)としており、「数値的事実を扱う際の精度の著しい向上」が見られたという。これらは、使用する上でハルシネーションに出会う頻度が少なくなることを示唆するとしている。