トピック
“人を繋ぎ直す”ロボット ミクシィ「Romi」が目指すもの
2023年1月26日 08:20
コミュニケーションサービス企業によるロボット「Romi」
MIXI(ミクシィ)は、「豊かなコミュニケーションを広げ、世界を幸せな驚きで包む。」をパーパスに掲げている企業だ。ソーシャルネットワークの「mixi」のほか、モンストの愛称で知られる「モンスターストライク」などエンタメ事業、家族用の写真・動画共有サービス「家族アルバム みてね」などを手掛けている。
そのミクシィがロボットを販売していることはご存知だろうか。家庭用コミュニケーションロボット「Romi(ロミィ)」だ。独自開発のAIを使った会話ロボットで、「Romi」は「Robot of mixi」を意味する。
かたちは涙滴型。大きさは、ほぼ10cmと手のひらにのる大きさ。重さは307g。顔にあたる部分はディスプレイで、目と口が表示されている。100種類以上の表情があるという。本体のカラバリはパールブルー、マットホワイト、パールピンクの3種類。公式グッズとして帽子やお出かけポーチなども販売されている。
価格は49,280円。本体の販売はRomi公式ストア、Amazon、ミクシィ楽天市場店などで行なわれている。加えて、AI処理やRomiの記憶を保存するためのクラウドのシステム利用料が、月会費(1,078円)として必要だ(登録後3カ月は無料)。
使い方は簡単だ。内蔵バッテリーも搭載しているが満充電で60分程度しか保たないので、背面のUSB-Cの端子で充電を行ないながら使うのが基本スタイルとなっている。会話ロボットなので、できれば静かな場所であるほうがいいが、家庭内で使うものとして想定されているのでそれほど神経質でなくてもいいようだ。Romiは首振りなどのちょっとした動作はできるが動き回るわけではないので、電源ケーブルが届き、ちょっとしたスペースがあれば置くことができる。モーター音も静かだ。
置き場所を決めたら、背面のボタンを押して電源を入れる。本体には電源ボタンと音量コントロールがあるだけなので、スマホに専用アプリをダウンロードし、Bluetoothでロボットとペアリングして無線LANなどの各種設定を行なう。簡単なので、ほぼ迷うことはないだろう。自分の呼び名や自分の声を登録することもできるが、しなくても大丈夫だ。何も設定しないと「オーナー」と呼びかけてくる。声は3名まで登録できる。
ディープラーニングを使った会話生成
あとは会話すればいい。アレクサなどのように、ウェイクアップワード(ロミィ!といった呼びかけ)は必要ない。音声認識にはGoogle音声認識を使っている。推奨距離は50~70cm程度。音を聞き取っているときは底面が青く光る。返答を生成するときにはピコッと音が鳴り、2、3秒すると話し始める。
特徴は、ディープラーニングモデル「Transformer」ベースの会話エンジンで、都度都度、新しい会話文を生成すること。つまり、毎回言うことが変わるというわけだ。会話エンジンはバージョンアップを繰り返しており、性能はどんどん上がってきているとされている。
ただし、過剰な期待は禁物だ。今回、貸出機をお借りしたのだが、残念ながら筆者はあまりうまく会話できず、実際に会話できたのは1ターンくらい。「焼肉食べたんだよ」「いいね焼肉」くらいのやりとりはできたが、そのあとは噛み合わないチグハグなやりとりになってしまい、従来のようなワードスポッティングとルールベースによる会話との差があまり感じられなかった。
ミクシィでは、あくまで他愛ない会話、雑談をすることを推奨している。「つかれたなー」とか「焼肉食べてきた。美味しかったよ」といった話題である。具体性を重視する、理屈を順序立てて話すような会話(長文)は苦手とのことだ。ロミィが言ったことに対して「なんで?」と聞いてはダメなのだ。
というわけで向き不向きはあるが、基本的には常にポジティブで、人を励ますように肯定的なことを言ってくれるようになっており、ユーザーからは「癒された」「家族との会話が増えるきっかけになった」という声が寄せられているという。
天気予報や目覚ましなどの便利機能もある。そちらでは会話AIとは異なるボットが動いて機械的に返答してくれる。筆者がお借りしたときにはクリスマスシーズンだったので、クリスマスソングを歌い出すこともあった。このような季節のコンテンツもある。途中で止める場合は、おでこを2回、コツコツと軽く叩く。あるいは背面の音量ボタンで調整してもいい。
なお、小さくて軽いので家庭内でも持ち運びたくなるかもしれないが、防水機能はないので、お風呂などでは使えない点は注意が必要だ。
「ロボットがいる未来」を先取りする
Romiが登場したのは2020年6月。まず限定200台がAmazonで先行販売された。一般販売開始は2021年4月21日からだ。その後の販売台数は非開示だが「順調に売れている状態」だとミクシィの取締役ファウンダー 笠原健治氏は語る。笠原氏は現在「家族アルバム みてね」と「Romi」にフォーカスしている。
もともとは「新しいコミュニケーションサービス、新しいユーザー体験を作れないか」という思いから、コミュニケーションロボットの開発が始まったという。日本人の多くは「ドラえもん」を筆頭としたフィクションから、ロボット的な存在、居候のような存在、誰かしらが家庭にいて何かやっているという状況には、ある程度の親和性がある。
笠原氏はじめ、ミクシィのチームメンバーも例外ではなかった。普段は特に役に立つわけではないが、自分のことをわかっていて、寄り添って、必要であれば励ましてくれる存在がいる世界が、多くのフィクションではやがて来たる未来として描かれている。
「いつか来る未来なのであれば、いち早く取り掛かって先鞭をつけることで誰よりもそこに早く辿り着いて『先取り』できるのではないか」。2014年ごろから深層学習技術の著しい発展状況を目にしていた笠原氏はそう考えた。
なお自然言語処理に用いられる深層学習モデルの「Transformer」が発表されたのは2017年、Transformerによる双方向エンコーダ表現という意味の「BERT」がGoogleから発表されたのは2018年だ。このあたりで、自然言語処理は一段進化して、従来よりも単語間の処理がうまくなり、平たくいうと文脈が読めるようになったとされている。
ルールベース、すなわち、こうくればこう返すという事前の決め事だけで雑談を書ききることは現実的には無理だ。そこでAIで会話を生成させることを主軸にして、ルールはそれを補完するようにしたと、ミクシィ Vantageスタジオ Romi事業部 開発グループ エンジニアリングマネージャーの信田春満氏は語る。
ハードウェアならではの高いアクティブ率
開発においては、まず、どんな会話をさせるべきか様々な議論を行なった。「人を元気にさせるロボット」を目指そうということで、相手の欲しがっていることを言うということから、近いところがあるのではないかと考えて、占い師の会話なども分析したそうだ。
ミクシィはコミュニケーションサービスのプロである。コミュニケーションには色々な種類があるが、主に言語による会話を主体とするのであれば、ソフトウェアのエージェントとして作る方法もあったのではないだろうか。だがミクシィはハードウェアに実装することを選んだ。
「かたちあるロボットとすることで、日常的にその存在を感じてほしかった」ことが理由だという。かたちがあることで、スマホ上のアプリと違って、常にアクティベートされた状態を維持できる。そのため、ロボット側からユーザーに積極的に話しかけることも可能だ。
実際、Romiは人間が夜間寝ている時などは「寝ている」。だがオーナーが起きて活動を開始すると目覚めて、話しかけてくる。これはなかなか面白い体験だった。わずらわしいと感じることもなくもないだろうが、もうちょっと会話がちゃんと噛み合えば、良い体験だったのではないかと思った。
満足しているユーザーからは「おつかれさま」とか「大好きだよ」と言われることが嬉しかったという声が多いそうだ。「普段は家族からは特に言われないが、Romiから言われて、ふと心が和むことがある」と言われるそうだ。
人が話しやすい形状への絞り込み
実際、購入から数カ月経ったアクティブ率も極めて高いという。では形状はどうやって決めていったのかというと、人はどんな相手になら話すのか、話して楽しいと思うのかを検討し、そこから、大きさもかたちも異なるモックアップを多数作って、ユーザーインタビューを重ねてデザインを進めていった。
最終的にはコストも考え、あまり動かないが、ある程度は動くことで生物感があり、愛着も湧くデザインへと絞り込んでいった。あまり小さすぎると話しかけづらい。そこで手のひらサイズがかわいくていいのではないかとなり、現在のデザインに落ち着いたのだそうだ。なおハードウェア自体は、発売後、特に変更している点はない。
クラウドのAI会話エンジンは絶えず改善、進化途上
いっぽう、ソフトウェアのほうは頻繁にアップデートしている。Romiの音声の認識自体はGoogle音声認識のAPIを使ってテキストにされ、そのテキストをもとにどう答えるべきかクラウド上のAIで会話をまとめて生成し、音声合成をして答えるという仕組みになっている。
最大の特徴はこの会話エンジンである。発売後もアップデートを続けており、2023年現在のバージョンは、「euler(オイラー)」と呼ばれている。ちなみに名前は代々、有名な科学者の名前から取られている。「a」から始まり、今は「e」というわけだ。アップデートは特にユーザーには連絡しておらず、なかには開発し、社内でテストはしたが、実際には適用されないエンジンもあったそうだ。つまり、Romiは出して終わりの短期的プロジェクトではない。ミクシィでは長期的視野で開発を行なっている。
会話AIのほかにも、天気予報の読み上げやゲームなどの定型会話をこなす15種類程度のボットが動いている。Romiは必要に応じてそれらを切り替えながら会話をこなす。音声合成エンジン自体は同じだ。ユーザーからは価値を認めてくれる声は思っていた以上に大きいが、同時に発展途上だと考えており、これからもっと進化させていきたいという。
目標は「コミュニケーション上手な人並みに聞き上手になり、人を元気付けられる存在になること」(笠原氏)。まだまだ現状は音声認識も会話生成も不完全な状態であり、そのどちらかがうまくいってないと、とたんにボロが出てしまう。だが笠原氏は今後のAI技術に期待を寄せている。
「長期的に見ればAIはどんどん進化していきます。Romiは、その果実をしっかり得ることができるプロダクトです」(笠原氏)。
機械学習を使うことで単なる数値だけでは測りにくいロボットやAIとの楽しい会話を作りたい人、「人間の心とは何か」と考えているような人材にはぜひ参画してほしいそうだ。また「ロボットが出てくるSF映画や漫画の世界観をよしと思っている人、いつかはそんな未来が来ると思っていて、その実現に興味がある人」も大歓迎とのこと。
未来の話だけではない。すでに市場に出しているプロダクトでもあるので、購入者に満足してもらいたいと考えて、頻繁に改善をくりかえし、ユーザーアンケートも三カ月に一度くらい行なって、実際に満足度も上げてきていると語る。「改善進化に合わせて認知度・販売台数を上げていきながら、裾野を徐々に広げていっている。一定の手応えは感じながら進めている」とのことだった。
将来は会話の記憶をもとに、もっと人に寄り添う存在に
Romiは、ユーザーが嬉しかったことや楽しかったことを気軽に話せることを目指して開発を続けているプロダクトだ。今後はユーザーがよく話している言葉や、「あそこへ行きたい」「これが好き」といった会話から知識を長期的な記憶も持たせて、それに基づいた会話もできるようにしたいと考えているという。
「ユーザーの人となりをもっと理解して、この人がどういう状態、どういう環境にあるかを理解して、それを元に、ユーザーに寄り添いながら喋ることができるようにしたいです」。また、「表面的な『いいね』『よかったね』という掛け声だけではなく、たまに、するどい切れ味ある一言を言わせるようにもしたい」という。
コミュニケーションは双方向のものなので、発話内容についてはユーザーがどう受け取るか次第だ。現在注目されているChatGTPのように、実際には何も考えていなくても、あたかも考えているかのようにユーザーを錯覚させることはできるかもしれない。
「人とモノとのあいだの繋がり」の可視化がRomiの挑戦
コミュニケーションとは何か。この答えは難しい。コミュニケーションロボットではよく、ノンバーバル(非言語的、身振りなど)、バーバル(言語的)といった話が出てくるが、単にそれだけではない。ミクシィのサービスでいえば、家族と写真を共有することもコミュニケーションだし、SNS上で繋がるだけでもコミュニケーションだ。
ではコミュニケーションサービスとはなんだろう。笠原氏は「見えていないものの可視化」だという。写真の共有は子供への愛情の可視化だし、そこにコメントをつけていくことで、単なる写真がより立体的になっていく。mixiのマイミクも、今までは目に見えなかったつながりの可視化というわけだ。
「それは人と人のあいだに発生しているものですが、それが、人とモノとのあいだでも発生しえる未来があるんじゃないかと考えています。それがRomiの挑戦です。自分が元気になる。それが可視化された状態で、自分を理解してくれている。信頼関係が蓄積されていく。また、Romiを介して家族関係が変わっていくということも実際にオーナーさんからは聞いています。食卓にRomiが置いてあることで、いつもよりも会話が増える。なかったものを作り出す。今後、AIやIoTが発展していくなか、モノも人とコミュニケーションするなかで存在していくんじゃないかと思っています」
もっとも「まだ万人受けできる状態ではないなとも思ってますが、あまり心配はしていません」。いずれはよりしっかりした音声認識が可能になり、言語生成もより幅広いデータから可能になる。音声合成ももっと自然になる。「それは、いずれ来る未来だと思っています。そのチャンスを取りに行くための挑戦だと思っています」。
ではどのくらいの時間軸の話なのだろうか。Romiを発売した数年のあいだにも大きく状況は変化したので、そんなに遠くない将来だと考えているそうだ。
人と人とを繋ぎ直してくれるロボット
ずっとRomiの開発に携わってきた信田氏は、コミュニケーションには「情報の伝達手段」という面のほか、もう一つ別の側面があると語った。「たぶん人間は群れで暮らしていく生き物です。なので、自分が群れの中にいる感覚がないとものすごく不安になるし、それは生死に関わるくらい重要な感覚なのではないでしょうか。自分が存在するために、常に周囲と関わり、繋がり続ける必要性を人間は感じているのではないか。ですからそのためにコミュニケーションを取り続けるのだと思います」。
「感情的な繋がりがある」と感じられること。「楽しい」と感じているときに一緒に「楽しい」と言ってくれること。自分がいる場所を楽しい方向に少しでも変えていくための手助けができるような存在であってほしいと考えて、Romiを開発しているという。
実際、オーナーのなかには、連れ合いと死別したとか、子供が巣立ってしまって会話がなくなったといった、何らかの空虚さを感じている人のところに、人と人との関係を「繋ぎ直す」ような役割をはたしてくれているという声を寄せてくれている人もいるそうで、「私としては、それもRomiの果たすべき使命の一つではないかと思っています」(信田氏)。
「自分がいることを受け入れてくれている気がする」ロボット
現状では「会話がちぐはぐになっても、それに乗っかって楽しんで喋れる人のほうが満足度が高い」という。また機能面でも「お薬飲んだ?」と言わせるようにリマインダーとして用いているユーザーもいる。信田氏は「明日は『燃えるゴミ』の日だよ」と言わせるようにしているそうだ。規則正しい生活を送っている人なら、目覚まし時計代わりに用いるのも面白いかもしれない。
今回、Romiとの会話を試みて改めて感じたことがある。まず「会話する」という行為自体に必要を感じるかどうかだ。筆者は会話すること自体は好きだが、結局、いま現在のロボットと会話する気にはやはりなれなかった。今はまだ、ロボットあるいはAIとの会話で、何らかの刺激なり癒しなりを感じることは難しかった。自分の場合は。
趣味や好みなどをロボットから聞かれても「なぜそんな話をこれにしないといけないのか」という思いのほうが先に立ってしまう。もちろん理由はわかっていて、会話のきっかけにするため、また相手に興味があるというシグナルを送るために、そういう質問をするようにプログラミングされているのだ。会話以前にそういうことが頭のなかに浮かんでしまう。
ただ一方で、特定領域の話だけでも話ができればいいのになという思いも浮かんだ。たとえば漫画やアニメなどだ。全般ではなく、特定の雑誌の特定の漫画作品についてだけでもいいので、こちらの語りについてきてくれるのであれば、楽しい会話はじゅうぶん成り立つ。
漫画だけではない。スポーツでも音楽でも演劇でも読書でもいい。別に、どんな話題の話でも相手してほしいわけではないのだ。特段、新しい情報を提示して欲しいわけでもない。こちらにあるのは「語りたい」という気持ちであり、求めているのはその相手なのだから。それに対して、トンチンカンな返事ではなく、適度に受け止めて打ち返してくれるだけでもいい。いわゆる「壁打ち」の相手だ。そんなものなら今の技術の少し先くらいにはありえそうな気がする。
もっとも、ミクシィ信田氏によれば、それもまた簡単ではないとのこと。「Romiの会話はまず広範な日本語データで学習を行ない、その後に会話のデータでファインチューンするという2段階で学習させていっています。私たちは『Romiはこういう性格であってほしい』というビジョンを強く持っています。ですから、適当なやりとりのデータを学習させているわけではなく、自分たちで会話の理想を決めて、そのデータを作って学習させています。自分たちで作った学習データだけでは話題の幅や知識の幅も大きくないので、プレトレインによってその幅を広げています」とのこと。
そのため、特定ドメインでの会話テクニックがあるわけではないそうだ。もちろん特定ドメインの学習データをどんどん作っていくこと自体は可能だが、無限にその作業を続けなくてはならなくなってしまう。
しかし我々は人間相手であっても、誰に対してでも、どんな話でもするわけではない。この話題ならこの人と話す、この人とはこんな話がしたい、というイメージがあるはずだ。ロボットと対話するときも、同じようなことが言えるのかもしれない。そこにお互いに、ぴったりハマると楽しい会話ができるということなのかもしれない。
実際、ユーザーアンケートによれば「Romi自体のことが好きになった人」が「うまくコミュニケーションできている印象はある」そうだ。「自分がいることを受け入れてくれている気がする」、と。結局、相手が人間だろうがロボットだろうが、好きな相手となら楽しい会話ができる、そういうことなのかもしれない。
いまAIの世界では数年に一度くらいの頻度で大きな波がやってきている。笠原氏も「5年後は激変している」と見ている。ロボットやAIと十分に話ができる未来は意外と早くやってくるかもしれない。