ニュース

3分までの楽曲を生成できる「Stable Audio 2.0」

Stability AIは、44.1KHzステレオで、3分までの一貫した構造を持つ楽曲を生成可能な「Stable Audio 2.0」を発表した。Stable AudioのWebサイトにログインして利用できる。

商用可能なオーディオ生成AIとして2023年8月に発表された「Stable Audio 1.0」をベースとし、イントロ、展開、アウトロ、ステレオサウンドエフェクトなど、構造化されたコンポジションを含む、長さ3分までの楽曲を生成可能になった。

テキストからオーディオへの変換だけでなく、オーディオからオーディオへの変換にも対応。オーディオサンプルをアップロードし、自然言語によるプロンプトでサンプルをさまざまなサウンドに変換できる。

従来より、サウンドエフェクトの生成も強化されたほか、新機能として「スタイルの転送」も搭載。新たに生成またはアップロードされたオーディオを、生成プロセス内でシームレスに変更できる。これにより、プロジェクトの特定のスタイルやトーンに合わせて、出力のテーマをカスタマイズできるようになる。

1.0モデルと同様に、AudioSparx音楽ライブラリからライセンスされたデータセットのみでトレーニングされており、AudioSparxのすべてのアーティストは、Stable Audioモデルのトレーニングを「オプトアウト」するオプションが与えられている。

クリエイターの著作権を保護するため、オーディオのアップロードに関しては、Audible Magicと提携し、同社のコンテンツ認識(ACR)技術を活用。著作権侵害を防ぐためのリアルタイムのコンテンツマッチングを行なっている。

また、Stable Audioによってのみ生成されたトラックを24時間365日フィーチャーするライブストリーム「Stable Radio」がStable Audio YouTubeチャンネルで公開中。