富士通(6702)の富士通研究所は、OCR(光学式文字読み取り装置)で使う単語認識の辞書容量を従来の50分の1にまで減らして、単語を一括して認識する新技術を開発した。辞書の容量と認識率は比例するのが一般的だが、容量を減らしてシステムを軽減化しOCRの認識精度はアップさせた。同研究所ではこの技術は「世界でも初めて」としており、12月に開催される国際会議DAS'2000(Fourth IAPR International Workshop on Document Analysis Systems)で発表する。
新技術は、文字の特徴から単語特徴をその場で動的に合成して単語を一括認識するもの。辞書容量を大幅に削減しても、認識率は上げることに成功した。 特にユーザの違いによる単語の字形変動を吸収するために、文字パターンそのものではなく字形変動に強い文字特徴から単語の文字の位置や幅のゆらぎを自動推定して、単語特徴を自動合成することに成功した。
従来技術と比べてほぼ同等の認識精度を達成し、辞書単語の約4万6千単語に対して辞書容量は従来技術の約50分の1に削減。また従来技術では、単語の追加や変更により新しく単語辞書を作成し直す必要があったが, 新技術によって単語リストだけの追加と変更で済み、システムの運用が容易になった。
■URL
・富士通研究所
http://www.fujitsu.co.jp/hypertext/flab/index-j.html
・富士通
http://www.fujitsu.co.jp/
(市川徹)
2000/11/30
13:14
|