ニュース
OpenAI、自然で感情豊かに文章読をみ上る音声合成モデル 書き起こしも強化
2025年3月21日 13:38
OpenAIは20日(米国時間)、音声エージェントを強化する新しいオーディオモデル群を開発者向けに提供開始した。音声認識の新モデルとなる「gpt-4o-transcribe」と「gpt-4o-mini-transcribe」と音声合成の新モデル「gpt-4o-mini-ttsをAPIで提供開始したほか、音声合成デモ用のWebアプリ「openai.fm」を公開した。
音声認識の新モデル(gpt-4o/gpt-4o-mini-transcribe)では、従来の音声モデル「Whisper」と比較して、単語誤り率の改善、言語認識と精度の向上を実現している。これにより、開発者はより性格で堅牢な音声認識システムと、表現力豊かで個性ある合成音声を利用可能になる。
gpt-4o-transcribeは、既存のWhisperモデルよりもWord Error Rate(WER)のパフォーマンスが向上。強化学習における的を絞った取り組みや、多様で高品質なオーディオデータセットを用いた広範な中間トレーニングにより性能向上している。これにより、“話し言葉”のニュアンスをより正確に捉え、誤認識を減らし、書き起こしの信頼性を高められる。特に、アクセント、雑音の多い環境、話し言葉の速度が変化するなどの難しい状況において、その効果を発揮するという。
音声合成のgpt-4o-mini-ttsモデルも発表。開発者がモデルに「指示」できるようになった。内容だけでなく、“どのように言うか”を指定し、カスタマーサービスからストーリーテリングまで、ユースケースにあわせた音声を利用可能になる。
OpenAIの発表リリースでは、「Calm(穏やか)」「サーファー」「プロフェッショナル」「中世の騎士」「True crime buff(真の犯罪マニア)」「ベッドタイムストーリー」の各音声をタイプを紹介している。
また、gpt-4o-mini-ttsを活用したデモアプリ「openai.fm」もWeb上で公開。Alloy、Ash、Echoなどの声質だけでなく、Emo Teenager、Sympathetic、Old Timeyなど声の“雰囲気”を選んで音声合成を試せるようになっており、作成した音声のダウンロードも可能。
いずれも、GPT‑4o/GPT‑4o-miniのアーキテクチャを基に構築。また、蒸留技術を強化し、より小型で効率的なモデルとした。これにより、小型モデルでも優れた会話品質と応答性を実現できるという。