ニュース

古文書の“くずし字”を読めるOCR「ふみのはゼミ」。凸版印刷

凸版印刷は、高精度のくずし字AI-OCRを搭載し、古文書・古典籍をオンライン上で簡単に解読できるシステム「ふみのはゼミ」を開発した。授業やイベントでの活用を想定したグループワーク支援機能も搭載し、歴史的資料のデジタルアーカイブ化を推進。コロナ禍における学習・研究の拡大に貢献する。

江戸時代以前に使用されていた「くずし字」は現代人には難読で、当時の記録・文献を解読する際の大きな障壁になっている。また、大規模災害による資料アーカイブ手法の見直しや、資料の経年劣化、専門家の減少による文化継承の危機的状況などをふまえ、歴史的資料をデジタルデータ化することが求められている。

これらを解決する新手法として、凸版印刷は2015年より国文学研究資料館との共同研究により、くずし字OCR技術の開発・実証を重ねてきた。今回開発した、くずし字解読支援システム「ふみのはゼミ」は、くずし字OCRをさらに発展。くずし字で書かれた歴史的資料が容易に読める環境を提供し、オンライン上でのグループワークを可能にしたことで、コロナ禍における学習・研究等にも活用できる。PCやタブレットなどのブラウザ上で動作し、複数人での同時解読作業が可能。

90%以上の精度で文字認識が可能。AI-OCRは、解読済みの古文書・古典籍から字形を採集し、くずし字の形をAIに学習させることで生成。「ふみのはゼミ」の画面上で、解読したい範囲を指定するだけで、AIが学習した大量の画像から、文字の区切り位置も含めて解読する。

グループワーク機能としては、参加者が編集している箇所をリアルタイムで表示し、編集結果を即時反映する画面共有機能や、チャット機能、解読した文字や単語に対して質問やコメントをつける機能などを備える。講師への質問や、参加者同士の交流をスムーズに行なえ、授業や各種イベント・ワークショップなどの活性化を促進する。また、授業やイベントでの利用を想定した、開始・終了の制御、採点機能なども搭載している。

目視による解読と、AI-OCRによる文字認識の協調作業により、高い精度での解読を実現。初心者から上級者まで練度に応じた方法で使用できる。また、目視による入力・校正の結果をAI-OCRへ再学習させることで、AI-OCRの精度が向上していく。

「ジャパンナレッジLib」が提供するオンライン辞書・辞典の検索APIと連携し、「ふみのはゼミ」からジャパンナレッジの辞書を検索することが可能。文字を読むだけではなく、用例や背景を調べることにより、内容の理解を促進する。調べた用語を画面内にメモとして記録するクリップ機能も搭載する。

所蔵資料の画像をもとに、独自の学習コンテンツの作成も可能。既存の地域資料を利用したワークショップや翻刻会等の開催が容易になり、貴重史料の保全・解読活動を活性化する。IIIF形式に対応し、IIIF形式で公開されている資料は、簡単な操作で解読を開始できる。

価格は使用ケースによって異なり、授業での利用が10万円(税別/以下同)から/半期(教育機関限定、週1利用)。ワークショップ・イベント等での利用が20万円から/1回。翻訳会等での利用は7万円から/月額等。

まずは教育機関、博物館・資料館、地方自治体などへ向け販売し、2021年9月までに一般利用に向けての開発を進める。2023年までに関連事業を含め、約10億円の売上を目指す。