Stability AIは、9月10日、エンタープライズ向けに特化したオーディオ生成モデル「Stable Audio 2.5」をリリースした。
Stable Audio 2.5は、カスタマイズ可能な高品質オーディオを大規模に作成するという課題に特化して開発された。高品質な音楽構成(musical composition)、高速な推論(GPU上で2秒未満)、およびオーディオインペインティングによる高度な制御が特徴。
モデルは現在、StableAudio.comやStability AIのAPIを通じて、さらにfal、Replicate、ComfyUIといったパートナープラットフォームでも利用可能である。エンタープライズライセンスを取得すればオンプレミスでの導入およびカスタマイズオプションが提供される。
本バージョンでは、音楽的構造の改善がなされており、イントロ・展開・アウトロを含むマルチパート構成や、ムードやジャンルを指定した生成プロンプトへの応答性も改善されている。
Stable Audio 2.5は、これまでのバージョンと同要員、すべて商用安全(commercially safe)にライセンスされたデータセットでトレーニングされており、著作権保護された素材のアップロードには制限が存在する。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です