ニュース

2.2億枚の国会図書館資料をLINE「CLOVA OCR」でテキスト化

LINEは、国立国会図書館が保有する247万点、2億2,300万枚を超えるデジタル化資料のOCRテキストデータ化プロジェクトに「CLOVA OCR」が採用されたと発表した。

国立国会図書館は、デジタルで全ての国内出版物が読める未来を目指し、「ビジョン2021-2025 国立国会図書館のデジタルシフト」として、2021年3月までに247万点のデジタル化資料をテキストデータ化する取り組みを行なっている。

国立国会図書館のデジタル化資料を、検索で簡単に探して利用できるようするほか、視覚障がい者や高齢者などにとってもバリアフリーで利便性の高い環境の提供を目指す。そのためのOCRテキストデータ化プロジェクトに、CLOVA OCRが採用された。

今回テキストデータ化する資料の多くは、昭和前期以前のもので、レイアウトも複雑という。そのため、学習機能のない既存のOCRでは必要な精度に達せず、2億2,300万枚以上のデジタル化資料の処理に時間を要する点が課題だったという。

CLOVA OCRでは、今回のデータに対し、ルビ、割注、割書きといった特殊な文書に関しても人手を介さず読み取れる最適なOCRを構築。今回のデジタル化資料に対応する。

国立国会図書館コメント

今回の事業により当館が入手するテキストデータは、「全文検索」という資料の発見を助けるための検索が主目的ですが、大規模データセットとしてのAI領域での活用や、視覚障害者等の方々の読み上げ利用への期待も高まっています。御社のこれまでの経験を活かして当館のデジタル化資料に最適化させたCLOVA OCRのテキスト化精度に期待しています