ニュース

NTT、“デジタル分身”のための個人性再現対話技術

NTTは、大規模言語モデルに個人の発話を効率よく再現させる個人性再現対話技術を開発した。今後、NTT版LLMの「tsuzumi」に適用し、デジタル空間内に自分の“分身”を低コストで作れるようにしていく。

今回開発したのは、少量のデータからでも高い本人再現性を実現する「個人性再現対話技術」と、数秒~数分程度の音声から本人の音声を合成できる「Zero/Few-shot 音声合成技術」。

NTTでは、独自の大規模言語モデル(LLM)「tsuzumi」の研究開発を進めているが、今回の技術はtsuzumiとの連携を視野に入れて開発。NTTでは、IOWN構想の柱の1つとして、本人のように行動し本人と経験を共有する分身のようなAIエージェント「Another Me」の研究開発を進めており、その一環として取り組む。「個人性再現対話技術」と、「Zero/Few-shot 音声合成技術」により、Another Meにおける「本人らしさ」の向上を目指す。

LLMを使って、「個人」の特徴を表現するためには、大量のデータで学習したファインチューニングが必要となる。しかし、高コストでデータ量も多くなってしまう。個人性再現対話技術は、比較的少量のデータによりLLMを効率的に追加学習させる方法として「アダプタ技術」を活用。アダプタ技術と、ペルソナ対話技術を組み合わせ、ペルソナ対話技術によりベースとなるLLMにペルソナ機能を付加し、LLMの応答において、再現したい本人の大まかな“個人性”を反映するようになる。

少ないデータでも効率的な学習が可能で、アダプタの学習データと全く異なるような対話においても、ペルソナを反映した妥当な応答を返し、個人の再現性が高まるとする。tsuzumiのアダプタ技術を個人性の再現に適用した個人アダプタは、エピソードを交えた発話や口癖など、対象の個人に特化した発話生成が行なえる。

Zero/Few-shot音声合成技術も、少ない音声データですぐに特徴を再現する声色を再現できる技術。従来は、声を作りたい話者・口調ごとに数十分程度の音声データを用意するなど、時間もコストもかかっていた。

今回、Zero Shoto/Few-shotの2つの技術を用意。

Zero-shot 音声合成技術では、話者の数秒程度の音声から声色の特徴を抽出。音声合成モデルの学習は不要で、特徴を再現した音声を生成し、声を失った人を含め、極少量の音声しか得られない場合でも、音声を再現できるという。

一方のFew-shot 音声合成技術は著名人や有名キャラクタ等の声色・口調をより高い再現度で反映させることをめざし、再現したい口調の音声を含む数分〜10分程度の音声データから音声合成モデルを学習。従来より必要な音声データ量を大きく削減しながら、再現性の高い音声を合成可能とする。一般的なスペックのCPUで動作可能で、音声合成サービスの運用コストを低く抑えられるという。

これらの技術により、自分の代わりに他人とコミュニケーションをする「デジタル分身」を誰もが持てるようにし、メタバースなどで活用。物理空間では会えない人との交流などを図れるようにする。また、デジタル分身は、ユーザ自身がログインしていなくても自律的に活動するNPC(Non-Player Character)として他のユーザ(デジタル分身)とコミュニケーションし、その内容をユーザ本人に持ち帰って共有する。そのため、全く知らない人に話しかける心理的障壁や仕事・家事などの時間的制約に縛られず、興味関心や気心の合うユーザと友達になるきっかけが得られるという。

なお、今回使用したLLMのベースはtuzumiそのものではないが、「tsuzumiの超軽量版(6億パラメータ)に近い」とのこと。

17日に開幕する「docomo Open House‘24」では関連技術を紹介。ペルソナ学習+アダプタ学習とFew-shot音声合成を使った「アニメキャラの再現」や「著名人の再現」などを展示。また、個人のAnother Meのペルソナ対話/Zero Shot音声合成のデモを行なう。

事業化については、ドコモのメタコミュニケーションサービス「MetaMe」を皮切りにデジタルヒューマンの活用事例拡大を目指す。また、tsuzumiによる個人性再現機能の提供へ向けた精度向上も2024年度内に実施予定。