ニュース

Stability AI、70億パラメータの日本語向け言語モデル

Stability AI Japanは、70億パラメータの日本語向け汎用言語モデル「Japanese StableLM Base Alpha 7B」と、指示応答言語モデル「Japanese StableLM Instruct Alpha 7B」を一般公開した。

同モデルはベンチマークスイート「lm-evaluation-harness」による複数の日本語タスクを用いた性能評価で、「一般公開されている日本語向けモデルで最高の性能」としている。

「Japanese StableLM Base Alpha 7B」は、ウェブを中心とした大規模なデータを用いてテキスト生成を学習したモデル。学習データは主に日本語と英語で、加えてソースコードが約2%含まれる。学習データは、オープンデータセットに加え、Stability AI Japanが作成した独自データセットや、EleutherAI Polyglot projectの日本語チームとStable Community Japanのメンバーが作成したデータが含まれる。学習にはEleutherAIの GPT-NeoX を発展させたソフトウェアを利用。学習はのべ7,500億トークンで行なわれた。

「Japanese StableLM Instruct Alpha 7B」は、上記の汎用言語モデルに対し追加学習を行ない、ユーザーの指示に受け答えできるようにしたモデル。追加学習には Supervised Fine-tuning(SFT)を採用しており、複数のオープンデータセットを利用した。

モデルは Hugging Face HubにおいてHugging Face Transformersに準拠する形式で公開。Japanese StableLM Base Alpha 7Bは商用利用可能なApache License 2.0で、Japanese StableLM Instruct Alpha 7Bは、研究目的での利用に限定した公開となる。