西田宗千佳のイマトミライ
第3回
行動データとローカル処理。Google、MSの音声アシスタント進化
2019年5月13日 08:15
5月の初めにはIT関連イベントが集中する。今年も、マイクロソフトの開発者会議「Build 2019」(5月6日から8日)とGoogleの開発者会議「Google I/O 2019」(5月7日から9日)が続けて開催された。双方をチェックしている人は、深夜の基調講演のストリーミングを連日視聴することになる。例年のこととはいえ、筆者も大変な思いをした。
今年のBuild・Google I/Oともに、ひとつのテーマは「音声認識とエージェント機能の進化」だったように思う。その背景にあるものを考察してみよう。
音声アシスタントの進化には「行動履歴とその分析」が必須
音声アシスタントがUIのトレンドになってから、もうずいぶん経つ。主要プラットフォーマーは皆独自の音声アシスタントをもっており、それらを使った製品群もある。
一方で、音声アシスタントの使い勝手はなかなか上がらない。問題は、すでに音声認識の精度ではなく、認識した言葉をどう解釈して動くのが適切か、というレベルになっているからだ。
音声アシスタントの現在の問題点として、「なにができるのかがわからない」というものが挙げられる。これは、人間がまず「なにを命令するか」を考え、適切にコマンドを与えねば動かない、という限界に関連している。要は、「決まった命令を聞いてくれるのはわかっているけれど、どの命令が通じるのかが分からない」からそういう問題が起きるのである。
では、どう改善すべきなのか?
各社の発想は共通だ。音声アシスタントに入力された命令を「その命令だけ」で捉えるのではなく、前後や過去の行動履歴・命令履歴から、命令の意味をどう解釈すべきか、という発想を導入するのだ。
今回マイクロソフトやGoogleが改善に導入したのはその手法だが、Amazonも同様である。昨年9月、筆者が取材した記事の中にある「Natural Skill Interaction」(NSI)もその一つだ。NSIの場合、過去にどんなSkillを使ったか、という情報を使うことで、特定のSkillを呼び出すために必要な「コマンド」をなくすことができている。
マイクロソフトの場合がもっともわかりやすいだろう。
マイクロソフトは、2018年に買収したSemantic Machines社の技術を使い、命令をどうタスクに割り振るかを定めている。また、マイクロソフトはWindowsやOffice 365上での各機能へ透過的なアクセスを提供し、行動を記録して生産性向上に活かす「Microsoft Graph」という技術を持っている。両者を組み合わせることで、「命令の文脈を読み、これまでの経緯から適切な作業をする」という形でのアシストが可能になる。具体的にどのようなことが出来るかは、以下のビデオを見ていただくのがわかりやすい。
Googleが「デバイス内処理」を進めるもうひとつの理由
どのようなアプローチであるにしろ、音声アシスタントの能力を高めていくために必要なのは、「どのような行動にはどのような音声コマンドが紐付いているか」「人はどの行動とどの行動を関連付けて動くのか」といったデータである。
人間が「なんとなく」でこなしている作業の背後にある、言語化されていない関係を解きほぐし、サービスが使うある種の常識に育てていく必要がある。
ただ、人の行動データはプライバシーそのものだ。使いようによっては、非常に危うい世界に突入しかねない。
そこで筆者が注目したのはGoogleの動きだ。
Googleは「Googleアシスタント」を、スマホの中だけで動くものにしようとしている。ローカル動作が可能になるとレスポンスがぐっと速くなる……ということがアピールされていたが、利点はそれだけに止まらない。行動データに類するセンシティブな情報を処理する際にも、ローカルで処理することで、クラウド上のサービスにアップロードする情報を最小限に減らせる。
同様の発想を、Googleはカメラにおいても導入している。昨年発売された「Pixel 3」は、AI処理を用いてカメラの撮影画質を向上させていることでよく知られている。今回発表された「Pixel 3a」も同様だ。これらのカメラでも、デバイス内だけで動くAIが使われており、その理由は「プライバシー保護」だった。
アップルも同様に、カメラやSiriによるサジェスチョン処理のほとんどを、プライバシー保護を理由に、デバイス内だけで処理している。
音声アシスタントやカメラの能力は今後も進化する。一方で、「プライバシー保護を優先にしない機能」のあり方は許されない。過去に比べても、そうした空気は強まっているだろう。
だからこそ、いかに「必要なデータを、プライバシー保護処理をした上で扱うか」「研究結果をデバイスに提供し、デバイス内で個人のための処理を行なうか」が重要になってくるのだ。