ニュース
凸版、明治~昭和初期の手書き文字を解読するAI-OCR。日本初
2022年11月11日 13:38
凸版印刷は、明治期から昭和初期(近代)の、くずし字を含む手書き文字に対応したAI-OCRを、日本で初めて開発した。大学や研究機関との実証実験を実施し、2023年4月よりサービスを開始する。
近代の手書き資料には、くずし字で記されているものが多く、江戸時代の資料より解読が困難な場合もあるという。開発したAI-OCRでは、凸版印刷が古文書解読とくずし字資料の利活用サービス「ふみのは」として提供している江戸時代のくずし字を対象としたAI-OCRをもとに、近代の多様な筆跡の手書き文字にまで対応の範囲を拡張させた。
近代に作成されたくずし字を多く含む手書き資料の解読は、手書きの謄本類を取り扱う業務において日常的に行なわれているが、専門家にとっても難易度が高く手間のかかる作業で、実用レベルのOCR技術も開発されていなかった。
解読が困難な理由として、書き手によるくずし方のバラつきが大きい、筆記用具の多様化、カタカナ語が混在、旧字旧仮名遣い表記などの特性を挙げる。これに対して凸版印刷では、様々なパターンの文字をAIに学習させて、難読文字の解読を実現した。開発にあたって、神戸大学経済経営研究所附属企業資料総合センターおよび三井文庫との共同研究を行なっている。
想定する利活用シーンは、地方自治体、教育研究機関、企業などが所蔵する難読資料の解読補助、難読資料の利活用を目的とした検索機能付きデータベースの構築補助、謄本類など日常的に難読資料の解読が必要な企業・機関の作業補助など。
今後は、神戸大学経済経営研究所附属企業資料総合センターと11月より実証実験を開始し、'23年4月にふみのはゼミシステムの追加サービスとして正式リリースする。開発中の古文書解読スマホアプリの追加サービス、API形式での提供も順次リリース予定。'23年度のサービス開始初年度は売上2億円、'25年度には売上17億円を目指す。