西田宗千佳のイマトミライ

第237回

「AIでの音声書き起こし」はどこまで進化したのか

ソースネクストの「AutoMemo」

AIをビジネスに活用する手段として「音声文字起こし」が急速に実用性を増している。先日も、ソースネクストの文字起こしAI「AutoMemo」が要約機能を搭載した、と発表した。

音声文字起こしは、筆者のようなライターにとっても重要な要素。毎日のように、いくつかのサービスを使い分けながら使っている。

今回は、意外と知られていない「音声文字起こし」の違いについて解説してみたい。

AIの進化とともに実用度がアップ

AIを使った音声文字起こしはずいぶん昔からある技術だ。ニーズは明確にあったが、品質が急激に上がったのは2010年代後半になってからである。

変化のきっかけとなったのは、いわゆるディープラーニングを活用したAIが登場してからだ。「Alexa」「Googleアシスタント」「Siri」といった音声アシスタントが登場、拡大したのもこの頃だ。

音声アシスタントがすぐに認識精度を上げられたのに、音声書き起こしはなかなか精度が上がらなかった。

その難しさについては、2020年に、英語での音声書き起こしで定評がある「Otter」への取材で詳しく聞いている

理由はいくつもある。

1つは、会話に「ノイズ」が多いことだ。会議室などで話した言葉を書き起こす場合、スマホの音声アシスタントの音声認識よりも「部屋の騒音」などの影響が大きい。

また、会話は「命令」と違い、自由な会話だ。話し言葉は書き言葉よりラフで、言葉のつながりを認識するのが難しい。

そんなことから、まずはデータもニーズも多い英語から先に進み、その後日本語での認識が実用的になってきた。今も精度は英語の方が高いのだが、日本語でも実用上問題は少なくなっている。

音声書き起こしは、GPT-4に代表される生成AIの登場により、さらに大きく変化する。

OpenAIの提供するAPIを使い、言葉の連なりを生み出すのに長けた生成AIを活かした音声書き起こしが増えてきたのだ。

日本語化されていないものも含めると、すでに無数の「生成AIベースの書き起こしツール」が出てきている。特に、OpenAIが「Whisper」という書き起こし用の生成AIを公開してから、これを使うものが劇的に増えた。前出のソースネクスト「AutoMemo」も、Whisperを使っている。

一般論で言えば、「生成AIを使っている」という触れ込みの音声書き起こしの方が得られる文章の質は高い。

ただ、日本語は特に話し言葉と書き言葉の乖離が大きい。そのため、書き起こしをそのまま商業用文章や議事録にするとかなり読みづらくなる。そこで一定の修正が必要になる、という点には留意が必要だ。

書き起こしにもいくつかの「特徴」が

筆者も複数の書き起こしツールを使っている。ツールによって特性がかなり異なるので、実際はその点を理解して使う必要がある。

1つ目の要素は「書き起こし専用のAI」か「生成AI」か、だ。

前出のように、書き起こしの品質は生成AIベースのものの方が良い。

一方で、書き起こしにかかるスピードや、書き起こし自体にかかるコストの点で言うと、生成AIを使ったものは不利にはなる。

2つ目の要素は「オンデバイス」か「クラウド処理か」。

一般的に、音声書き起こしはクラウドで処理されるものがほとんどだ。料金体系も、「クラウド側で何分のデータを書き起こしたのか」、という点で決まる。現状、生成AI型はほぼすべてがクラウド処理である。

オンデバイス処理だと、デバイス内で書き起こし処理が行なわれるので、通信が使えない状態でも書き起こしができる。

守秘の観点から、音声をクラウドにアップロードできない場合もあるだろう。そうした場合、オンデバイス処理の書き起こしが向く。

主要書き起こしツールを紹介してみる

では、主要なツールを少し紹介してみたい。

「AutoMemo」は、前述のようにWhisperを使っている。スマホアプリや専用デバイスで録音し、それをクラウド上のWhisperで処理してテキスト化する。料金は文字起こし時間で決まる仕組みだ。

品質はなかなか良い。複数人の会話で話者を認識する機能があるので、非常に使いやすい。

個人的には、「別途録音したファイルを用意し、それを読み込んで書き起こす」機能が欲しいのだが、それがないので常用してはいない。

GoogleのPixelシリーズが搭載している「レコーダー」の書き起こし機能も強力だ。オンデバイスAIによる書き起こしであり、通信費などはかからない。ウェブからの確認も簡単で、ライター界隈ではかなり使っている人が多い。

Pixel Foldでの「レコーダー」での書き起こし。オンデバイスで精度が高い

現状での欠点は、日本語の場合「話者認識」ができないこと。英語ではできているので、アップデートに期待したい。また、別途録音したファイルからの書き起こしにも対応していない点が、筆者のニーズからは外れている。

コストの点で有利で、使える人も多いであろう機能が「Microsoft Wordのトランスクリプト」機能だ。

実は、Microsoft 365の契約者であれば、Wordで文字起こしができる。しかも現状、どれだけ長く使っても追加料金は発生しない。つまり、Wordの利用者なら実質無料で書き起こしができるのだ。

Wordから書き起こしが可能。今はどれだけ使っても無料であるところが大きい

Windows版はWordアプリ内から「トランスクリプト」を選んで書き起こしができるし、ウェブ版のWordでも同様。Mac版には搭載されていないが、ウェブ版を併用すれば問題ない。書き起こしはクラウド側で行なわれ、データは一旦OneDriveにアップロードされる仕組みとなっている。

日本語の書き起こし品質は他に比べちょっと劣る。特に「あー」「えー」などの「けば」「フィラー」と呼ばれる言葉の排除が弱い。ただ、話者特定機能もあるし、実用性に問題があるほどではない。

詳しい使い方は、笠原一輝氏の記事に詳しいので、そちらをお読みいただきたい。

意外と侮れないのが、OpenAI「Whisper」を使った「ローカルアプリ」群だ。前述のように、AutoMemoはWhisperを使っているが、同じモデルを使い、PC上でローカルな文字起こしができるものが結構ある。ローカル動作なので、アプリ自体は買い切りもしくは無料のものが多い。いくら使っても追加費用が発生しないのがなによりのメリットだ。

筆者はMac上で「Whisper Transcription」というアプリを使っている。こちらは先日の記事で、MacにおけるオンデバイスAI活用の例としても紹介した。

Macアプリ「Whisper Transcription」での書き起こし。話者特定はないが、精度は結構高い

Microsoft Storeを検索すると、Windows用にも似たアプリがあった。同じモデルを使うので、おそらく同じような使い勝手だろう。

Microsoft StoreにもWhisperを使った書き起こしツールが。画像の「Whisper UI」もその1つ

録音したファイルを読み込ませて書き起こす、という形で、処理には実時間の数分の1くらいかかる。時間は書き起こしに使うPCの性能に依存する。

このほかにもいくつかあるが、まずはこの辺から使ってみて、実用性を確かめてみてほしい。

西田 宗千佳

1971年福井県生まれ。フリージャーナリスト。得意ジャンルは、パソコン・デジタルAV・家電、そしてネットワーク関連など「電気かデータが流れるもの全般」。主に、取材記事と個人向け解説記事を担当。朝日新聞、読売新聞、日本経済新聞、AERA、週刊東洋経済、週刊現代、GetNavi、モノマガジンなどに寄稿する他、テレビ番組・雑誌などの監修も手がける。 近著に、「生成AIの核心」 (NHK出版新書)、「メタバース×ビジネス革命」( SBクリエイティブ)、「デジタルトランスフォーメーションで何が起きるのか」(講談社)などがある。
 メールマガジン「小寺・西田の『マンデーランチビュッフェ』」を小寺信良氏と共同で配信中。 Xは@mnishi41