ニュース

映像から「自動文字起こし」するパナソニックの新サービス「P-VoT」

パナソニック システムソリューションズ ジャパンは、音声処理・音声認識技術を活用した文字起こしサービス「P-VoT」をマスメディア業界(放送、新聞、出版等)向けに11月13日より提供開始する。価格は1コンテンツあたりの時間長を基準とした従量制で、20円/10秒。

P-VoTは、動画・音声ファイルをパナソニックのクラウドサービスにアップロードするだけで、文字起こしを自動化することができるソフトウェア。番組制作業務のなかで、時間と手間がかかる文字起こし作業を、約3分の1の時間に短縮。「1時間のコンテンツの文字起こし作業が、約5時間から約1.5時間に短縮できる」とする。

例えば、取材現場で撮影・録音したデータをその場でアップロードして文字起こしを進めておけば、放送局にいるメンバーがすぐに確認・編集作業に取り掛かれ、チーム全体で効率よく作業を進められる。

多層のニューラルネットワーク(DNN)を用いた高精度音声認識により、幅広いジャンルの文字起こしに対応。グループデータ管理により複数人での修正・編集が行なえ、Webブラウザ経由で利用できる。

編集画面では文字をクリックすると、文字起こしした音声の位置から頭出し、プレビュー再生を開始。再生中はプレビュー動画/音声に追従して音声認識結果にマーキングできる。

P-VoTは、6月13日からベータ版を提供していたが、11月13日から商用サービス化。ベータ版からの強化点は、動画・音声ファイルの複数アップロード対応で、同時に最大5ファイルまでアップロードできる。

また、編集画面でタイムコードの設定に対応したほか、ユーザーインターフェースを改善。編集画面では30秒おきの時間区切り(セクション)にレイアウトを変更、メモ情報欄を設けることで申し送り事項、補足情報などを追記できるようにした。複数人での作業時の編集ロックにも対応した。