ニュース

センター試験の英語筆記で偏差値64.1達成。NTT CS研のAI

日本電信電話コミュニケーション科学基礎研究所(NTT CS研)は、同社開発のAIが、2019年センター試験の英語筆記本試験において、185点、偏差値64.1を達成したと発表した。

NTTが取り組んできた、センター試験の英語試験の自動回答技術に加え、ディープラーニングを用いた自然言語処理に関する知見を適用した。最新のディープラーニングによる機械読解技術を単純に適用した場合に比べ、30点以上の改善を実現している。

これは、NTTグループのAI関連技術corevoの研究開発、NII(国立情報学研究所)の人口知能プロジェクト「ロボットは東大に入れるか」の一環として実施したもの。

「東ロボ」プロジェクトは、NIIが中心となり発足したプロジェクト。センター試験や東京大学の2次試験の問題を使い、「人工知能が、人間が実際に解く問題をどこまで解けるのか」を明らかにするため研究活動を進めている。

これらの問題の中で、英語問題は自然言語処理、知識処理が統合された問題を多く含んでいるという。NTT CS研では、東ロボプロジェクトを自然言語処理、知識処理の基礎研究を進めるベンチマークと捉え、センター試験に含まれる多様な英語問題に対応する、自動解答に関する知見を積み重ねたという。

また、近年ディープラーニングを用いた文章読解技術が急速に進展している。その最新技術であるXLNetは、あるデータで学習したモデルを別のデータで利用可能にする「転移学習」を施し、異なる種類の問題を少量のデータから効率的に解くことを可能にしている。センター試験など特定の問題を解くために利用することは、転移学習の良い例であるという。

しかしながら、学習に利用できるデータが大きく不足する問題や、解答に辞書的な情報が必要な問題では、十分な精度で解答することが出来ないという問題点があるという。

NTT CS研では、XLNetでは解答が困難だった、不要文除去・段落タイトル付与・発音問題に関して、NTT CS研を中心とした東ロボ英語チームの独自技術を適用。その結果、適用前は154点だった、2019年本試験では点数が大幅に伸び185点を達成した。また、受験者中の偏差値に関しても、57.0から64.1に大幅に向上している。そのほか、過去3年間のセンター本試験・追試験に対しても、安定して偏差値60以上を達成した。

不要文除去問題の例。通常の文章では不要文が含まれず、学習用データを集めるのが困難だった
アクセント・発音問題の解答手法。あえてディープラーニングを利用せず、発音辞書を地道に調べる方法を採用した

NTTによると、「チラシや広告など、複数の情報からなる文書の理解や、グラフや表の理解、会話の流れの理解については、安定した自動解答が実現できていない」という。今後はこのような、言語以外の情報や、実世界の常識的知識が強くかかわる問題に対応するため、関連する基礎研究の推進とその統合を進めていくという。