トピック

英語音声がそのままテキストになる「Otter」。高精度の秘密と日本語は?

Otter.ai。英語を軸にしたサービスだが、日本語のトップページも用意されている。利用にはウェブ経由の他、スマホアプリ経由がある

「Otter.ai」(以下Otter)というサービスがある。筆者も日常的に使っていて、手放せないものだ。

スマートフォンやPCで会議や取材、カンファレンスなどの様子を録音すると、その内容を自動的に「書き起こし」してくれる。その精度は驚異的。回りが騒音だらけの場所で録音した音声からも、ほぼ正確な書き起こしを実現する。しかも、複数の話者がいる場合には、ちゃんと自動的に区別する。

Otter社からいただいたぬいぐるみ。「Otter」とはカワウソのことなので、キャラクターはカワウソだ

音声認識というと、GoogleやAmazon、マイクロソフトなどの大手プラットフォーマーの姿が思い浮かぶが、Otterの精度はそれらをしのぐ。サービスとしてちゃんとまとまっており使い勝手も良い。他の大手の一歩も二歩も先を行っている。

ただ、Otterは「英語」のみを対象としたサービスだ。英語での取材には本当に便利で、いまや知人のライター・ジャーナリストで海外に行く人間はほぼ100%使っているのではないか、と思えるほどである。だが、やっぱり、便利であると身に染みるほどに「日本語で使えればな……」と思うものだ。

1月22日、NTTドコモ・ベンチャーズは、Otterに出資し、日本展開に向けた協業開始を発表した。同日から1月24日まで開催された「DOCOMO Open House 2020」にもOtterがブースを構え、イベント内での英語のプレゼンテーションはOtterで書き起こしが行われた。

「日本展開に向けた協業」とはなにを指すのだろうか? 待望の日本語対応か! と期待したくなる。

「DOCOMO Open House 2020」に合わせて来日した、Otter.ai社CEOのSam Liang氏と、同・Revenue&Partnership General ManagerのSemus McAtter氏に、詳細を聞いた。

Otter.ai社CEOのSam Liang氏(左)と、同・Revenue&Partnership General ManagerのSemus McAtter氏(右)

まずは翻訳サービス。日本語の直接書き起こしは「年内になんらかの成果」

冒頭で述べたように、Otterは「英語」において、音声からの書き起こしを高い精度で実現するサービスだ。英語向けということもあり、これまではアメリカを中心にサービスを展開していた。今回発表されたのは、NTTドコモの子会社であり、スタートアップ企業との窓口と投資を担当する「NTTドコモ・ベンチャーズ」によるOtterへの出資と、日本でのビジネス展開に向けた検討の開始だ。

まず気になることを聞こう。ドコモとの間では、どのようなビジネスが行なわれるのだろうか?

Otter.ai社CEOのSam Liang氏

Liang CEO(以下敬称略):やるべきことは複数ありますね。

まず、英語の書き起こしを使ったビジネスが考えられます。今回の「DOCOMO Open House 2020」でも、英語でのカンファレンス・スピーチについては、Otterで自動書き起こししています。さらに、「みらい翻訳」を使って、そこからリアルタイムでの日本語翻訳が行なわれました。この形でのビジネスが、まずは最初になるでしょう。

「みらい翻訳」は、株式会社みらい翻訳が提供している多言語翻訳技術だが、NTTドコモは同社の株式の50.9%をもっている。みらい翻訳は、特に英語>日本語、日本語>英語の翻訳について、Googleやマイクロソフトなどの提供するサービスに勝るとも劣らないクオリティである、と評価が高い。それをOtterと組みあわせることで、英語のスピーチからのテキスト翻訳を実現する、というアプローチだ。これは「DOCOMO Open House 2020」にもブースとして展開されていた。

「DOCOMO Open House 2020」での展示。英語のスピーチをOtterで書き起こし、そこから「みらい翻訳」で日本語に自動翻訳している

そして、もうひとつが「日本語での直接書き起こし」の可能性だ。Otterとドコモの提携、と聞いて、こちらの期待を抱いた人も多いはずだ。筆者もそのひとりだ。

結論からいえば、Otterは「日本語での直接書き起こし」を実現しようとしている。ただし、その姿勢は慎重なものだ。

Liang:英語と日本語では多くの点で違います。やらなければいけないこと、解決しないといけないことは多数あります。

私は中国出身です。中国語と日本語には似ている部分があり、その部分を精度向上に活かすことができる、と思っています。

言葉の書き起こしに必要な技術を「音響モデル」と「言語モデル」に分けると、音響モデルの面では、英語や中国語で使われた技術の多くがそのまま、日本語でも使えます。

一方、課題も多い。例えば、日本語にも中国語にも共通の問題として、「文章の中の言葉に、スペースなどの区切りがない」ということがあります。英語は単語ごとに区切りがありますが、日本語や中国語にはない。これをどう解決していくか、という課題が存在します。

そうしたことから、現状我々は、「いつまで」という明確なタイムラインを示してはいません。今年の終わりまでにはなんらかの成果をお目にかけたい、とは考えているのですが、正式に「いつ」とは明言できないのです。

しかし、日本語での音声書き起こしについて、非常に、非常に大きな需要があることは理解しています。ドコモとの関係は、それを加速することでしょう。ドコモは素晴らしいパートナーであり、彼らの助力によって、開発も加速されるでしょう。

Otter、高品質の秘密

何度も述べているように、Otterは英語においてはすばらしい書き起こし精度を誇る。筆者が他社技術と比較してOtterの利点だと考える点は、主に2つある。

ひとつは、ノイズと言葉の分離の精度が非常に高いことだ。

人間はうるさい場所でも言葉とノイズをうまく分離して話を続けられるが、ソフトウェアには難しい。多くの音声認識でも、ノイズが少なく声が明瞭に入ってくる条件では精度が高いものの、ノイズが増えると急速に品質が下がる。高品質なマイクで、ノイズが入らないように録音することが精度アップの近道だ。

だがOtterの場合には、そこまで神経質になる必要はない。スマホやPCのマイクでカンファレンスを録音した場合にも、ガヤガヤした場所での立ち話でも、もちろん静かな会議室でも、ちゃんと音声を聞き取ってくれる。なぜ他と、ここまで違うのだろうか?

Liang:ノイズに対する許容性は、音声認識にとって非常に、非常に大切な技術です。この課題は、多くの科学者が30年・40年の時間をかけて取り組んできた古典的なものといえます。そのくらい難しいものです。

我々はその課題に、ディープラーニングとニューラルネットワークの力を使いました。機械学習によって、バックグラウンドノイズと会話の分離を行なったのです。これは、過去に使われてきた、ガウス混合分布モデル(GMM)や隠れマルコフモデル(HMM)といったアプローチとは大きく異なるやり方でした。

当然そのためには、長く大量の学習が必要になります。我々は色々な場所の音声をそれぞれ分けて、学習に使いました。カフェでの会話から大きなカンファレンス、会議室に車の中での会話に至るまで、です。その結果として、ノイズと音声を分ける精度が格段に向上しました。

さらに、品質を上げている理由について、Liang CEOは「文脈理解がある」と話す。

Liang:機械学習はノイズ分離だけでなく、会話の文脈理解にも使われています。こうして話している間も、Otterはその会話の内容を分析し、「どのような話題について話しているのか」を理解しようとします。音的にはなにを話しているのか明確でない単語があったとしても、文脈から「この単語に違いない」ということを推測し、文章を遡って訴求していきます。現状では、それでもまだ「この単語はなにを言っているのかわからない」ということはありますし、解釈のミスもあります。しかし将来的に、Otterの文脈理解がより高精度になれば、そうした部分も解決していく可能性がある、と考えています。

Otterと他のサービスを比較して感じるのは、「無駄な部分が少ない」ことだ。「えーっと」「あのー」といった言葉を人間は発しがちだが、そうした言葉は書き起こされない。結果として文章として完成度が高く、読みやすいものになっている。

これは、ここで説明された「文意解析」により、文意に関係ない言葉を削っているからだ。もちろんまだ認識の間違いはあり、筆者も「単語の取り違えで意味が逆になった文」に行き当たったこともある。今後の進化で、そうしたトラブルも減ってくるだろう。

もうひとつ、Otterが他のサービスに比べ優れているのは、「誰が話しているのか」をちゃんと区別してくれる、ということだ。

その要素をもった音声認識技術はOtterだけ、というわけではないが、Otterは「サービス」として洗練されている。

Otterでの「話者判別」の例。複数の登場人物がいるカンファレンスでも、ちゃんと話者の違いを聞きわける

Liang:Otterでは話者を見分けることができます。そこでは、それぞれの人々の声が持つ「音紋」を活用しています。指紋のように、その人がもつ特徴ですね。それを認識することで、会話を誰と誰がやっているか、ということを分離しているのです。

その上で、あとから「その人が誰か」を記録すれば、自動的に「音紋」をベースに、残りの会話についても、自動的に誰がしゃべったか、名前が「ボイスラベル」として反映されるようになっています。その状態で他人とシェアすることもできるので、議事録の共有などには有効です。5人や10人といった、多くの人々が参加する会議でも大丈夫です。

「音紋」は個人や企業など、ひとつのグループに属する人々の間だけでシェアされ、サービス全体でシェアされるわけではありません。

Otterでは、自分の声を覚えさせて、録音した会話の中で「自分を聞きわける」助けにすることができる

狙うは「エンタープライズ市場」

Otterが話者の分離にこだわるのは、音声書き起こしの品質が上がるから、という部分がある。しかしそれだけが理由ではない。なぜならOtterは、「音声書き起こしだけ」をビジネスにしようとしているわけではないからだ。

Liang:多くのカンファレンスでOtterが採用されています。音声で書き起こしが行なわれると、検索も後からのチェックも容易になります。会議も同様です。内容を見ながらアンダーラインを引いたり、写真を付け加えたりして、レポートの形にしてシェアできます。そうすることで、より対話が促進され、日々の仕事が楽になるはずです。

すなわち、書き起こすことそのものだけでなく、それに付随する記録やシェア、分析など、企業が必要とする、共同作業のためのサービス全体を提供することが、同社としてのビジネスの根幹なのだ。

Liang:ビジネスモデルとしては、DropboxやSlack、Zoomに近いと考えてください。あくまでエンタープライズ市場にフォーカスしています。

個人向けに無料・有料のサービスを提供しているが、それはある種のプロモーションであり、付加的なビジネス。Otterとしては、エンタープライズ市場が主戦場なのである。

そして、Liang CEOはもうひとつ付け加える。

Liang:もうひとつ、有望なのが学生向けです。すでに多くの学生がOtterを授業の記録に使っています。日本でもぜひ、多くの学生に使ってほしいと考えています。

これは、板書の大変さや重要な部分の検索が持つ学習効果の高さを考えても、非常に有用なジャンルだ。特に大学以上の専門教育では、より有用性が高いのではないか、と筆者は考えている。

「ベンチャー投資」としてドコモが出資した意味とは

そもそも、OtterはなぜNTTドコモをパートナーとして選んだのだろうか? その点については、パートナーシップ担当のMcAtter氏が詳しく話してくれた。

McAtter:とてもありがたい関係だと思い、リスペクトし合ってビジネスを進めています。ドコモとのビジネスは1年ほど前から始まったものです。

正直にいえば、最初は非常に懐疑的だったんです。多くの通信会社が我々にアプローチしてくるのですが、満足いく関係に発展するのは難しいものです。なぜなら、彼らは大きな企業で、判断を下すのも決して容易ではないからです。

ドコモとの関係についても、正直、最初は懐疑的でした。しかし、彼らは我々のようなサービスに大きなニーズがあることを理解していました。東京でドコモの仲立ちにより、多くの企業関係者に会い、実際にOtterの機能を説明しました。彼らは機能について高く評価して、導入を熱望してくれました。

すでに述べたように、Otterは企業向けのビジネスを指向している。そのため、NTTドコモ・ベンチャーズが窓口となり、日本の企業顧客との関係が出来上がることは、非常に大きな価値を持つ。

McAtter:我々はビジネス拡大の準備を整えています。その中で、すでに会った日本の顧客の中には、NTTドコモを介さず、弊社に直接契約を望んでいるところもあります。しかし、そういう形でも問題はない、という契約になっています。Otterと顧客の関係が長く続くことがなにより重要です。我々の側でもやるべきことは多数ありますが、NTTドコモと、こうしたところを出発点としてビジネスができることをうれしく思います。

今回、NTTドコモ側の窓口になっているのは、ベンチャー投資とその関係拡大を目的とした「NTTドコモ・ベンチャーズ」だ。ということは、単にNTTドコモを介した契約が増えるだけでなく、Otterの企業価値があがれば、結果としてIPOなどに際し、ドコモに利益が生まれる。そういう意味でも、「ドコモとエクスクルーシブ(独占的)に契約した」のとは違う価値があるのだ。