ニュース

Stability AI、画像にキャプションを付ける言語モデル 商用利用可能

Stability AIは、商用利用可能な日本語画像言語モデル「Japanese Stable VLM」をリリースした。

「Japanese Stable VLM」は、入力した画像を文字で説明する画像キャプショニング機能や、画像についての質問に回答できる日本語画像言語モデル。VLMはVision-Language Modelの略。

ベースモデルは「Japanese Stable LM Instruct Gamma 7B」で、商用利用可能なライセンスで提供されるほか、最新手法「LLaVA-1.5」のモデル構造・学習手法を適用した。Stability AIが開発した、出力キャプションで使ってほしい単語を入力することが可能な「タグ条件付きキャプショニング」機能にも対応する。

これらを利用することで、画像についてチャット形式で応答できるチャットボットを利用可能。動画のフレームからキャプション付けを行なうことも可能になっている。

社内評価では、最初のバージョン「Japanese InstructBLIP Alpha」と比べ、同等レベルの性能を達成したとしている。商用利用可能なライセンスになっている点が、この初期バージョンと異なる。