ニュース

感情に合わせて字幕のフォントを変える「感情表現字幕システム」。DNPとNHK

大日本印刷(DNP)は、NHKテクノロジーズと共同で、映像と音声をAIで解析し、内容や感情に合わせた最適なイメージのフォントで字幕を表示する「感情表現字幕システム」のプロトタイプを開発した。

2018年にDNPが開発した、文章の内容に合うフォントを自動で判別して表示する「DNP感情表現フォントシステム」を活用。耳の不自由な人や音が出せない環境でも、番組の臨場感を伝えることができる。

NHKテクノロジーズが聴覚障がいの人を対象に行なった調査によると、従来の字幕では、フォントに抑揚がない、タイミングがずれる、発話者がわかりにくいなどの課題があったという。その一方、映像効果としてテロップに使われるユニークなフォントは印象深くなるという意見があった。しかし、番組制作側では、番組に文字を入れる作業は大きな負担となっており、自動的に精度が高い字幕を付与できる技術のニーズがあった。

本システムでは、映像と音声をAIで解析して、字幕を自動的に付与するほか、最適なフォントへ自動変換可能。録画やライブ放送の音声を解析し、リアルタイムで自動的に付与できる。

字幕の内容や発話者の表情を解析して感情を把握し、その感情表現に最適なフォントを12種類の中から自動選択。楽しい内容は丸みのあるフォント、怒っている内容は角張ったフォントで表示するなど、直感的な内容で表現する。

同じ言葉でも表情に合わせて文字を付与できる。たとえば「やばい」という言葉を発した際、不安な表情で発話された場合には、不安そうな表現のフォントを、楽しそうな表情の場合は楽しい表現のフォントが選択される。

また、複数の発話者のうち、誰が喋っているのかをわかりやすくするため、映像内の人物の顔を認識し、発話者の口元近くに字幕を自動表示することもできる。

両社は今後、「感情表現字幕システム」の開発を継続し、字幕放送(オープンキャプション)での実用化を目指す。また、音声認識や感情認識のAIの精度を向上させ、リアルタイム性の向上も進め、生放送やインターネット同時配信サービスの字幕(クローズドキャプション)への展開も目指していく。

DNPは、デジタルサイネージ等の動画の字幕に応用するほか、誰でも利用できる映像編集用ソフトウェアとして提供していく。