ニュース

江戸時代の言葉や世界観で回答するチャットボット「からまる」 Sakana AI

Sakana AIは、江戸時代の古文風テキストで会話できるチャットボット「からまる」を公開した。江戸時代の書物など数千点以上から構築した江戸テキストデータセットを継続学習させることで、現代日本語で質問すると江戸時代の古文風テキストで回答する。回答の内容には江戸時代の世界観が反映され、過去の文化への没入感がより高い会話を楽しめる。

江戸時代は多くの人々に書物が普及した時期だったが、過去の文化遺産は、現代ではなじみ深い存在ではない。現代の大規模言語モデルは多言語を扱う能力を備えているが、英語を中心に学習しているため、学習データの規模が小さい古文を扱う能力は限られている。「からまる」は、こうした学習データ等のリソースが少ない言語に対する大規模言語モデルの能力を強化し、文化の再生につなげる取り組みで、江戸時代の古文を集中的に学習させることで、江戸時代の古文に強いチャットボットを作製した。

まず、江戸時代の書物を現代の文字でテキスト化する「翻刻」を行ない、人間による翻刻とAIによる翻刻とを合わせ、約2,500万文字の江戸テキストデータセットを構築。この文字数は、大規模言語モデルの学習データセットとしては大きなものではないが、規模が小さなデータセットでも効率的に学習できるよう、日本語に特化した大規模言語モデルに対して継続学習を行なった。

表層的に古文風テキストを生成できるだけでなく、その内容が江戸時代の世界観を反映しているように見えるのが特徴。江戸時代の人々が送っていた生活や接していた情報などを当時の書物から学んでいるため、会話から江戸時代の雰囲気や文化の記憶を感じることができる。

ベースとして使用した大規模言語モデルが学習した現代の知識も記憶しているため、江戸時代には存在しなかった事物にも回答できる。その際には当時からあった言葉を組み合わせて説明するため、独特な表現が生まれるという。

例えば、「あなたの名前はなんですか」と聞くと、「其が名はからまるにて候」、「AIにとって大事なものはなんですか」と聞けば「AIにとりて大切なるものはデータなりこれによりて己が身を成長せしむる所以也」と答えるなど、現代知識も織り交ぜながら古風な会話を楽しめる。

なお、学習データの大半が書籍に由来するため、回答は当時の話し言葉よりも書き言葉に近い。また、「からまる」の学習データには句読点が含まれていないテキストが多いため、回答には句読点がない。

「からまる」という名前は、江戸時代に活躍した版元・蔦屋重三郎が戯作を制作する際に、「蔦唐丸(つたのからまる)」と号していたことに由来する。「からまる」が江戸時代の書物を学習した大規模言語モデルであることを踏まえ、江戸時代を代表する出版人にちなんだ命名とした。また「からまる」という名前は、大規模言語モデルが膨大な数の単語や概念が複雑に「絡まる」テキストを学習していることも表している。

山東京伝作、歌川豊国画「箱入娘面屋人魚」、国立国会図書館デジタルコレクションより。画像中央の人物は蔦屋重三郎であり、画像左下に「蔦唐丸」という名前が見える

「からまる」は、研究及び教育を目的に、HuggingFaceサイトでモデルが公開されているほか、デモ版も公開済みで自由に利用できる。