米Stability Aiは、画像生成AI「Stable Diffusion」をオープンソース化し、8月22日(現地時間)に一般公開した。モデルの配布に関しては、商用および非商用の使用を許可する、寛容なライセンスを採用している。
今回、オープンソースでリリースされた「Stable Diffusion」は、人類の視覚情報を数GBに圧縮して単一のファイルを作成するための、莫大な時間をかけた共同作業の集大成であり、モデルは広範なインターネットスクレイピングによって取り込まれた画像とテキストのペアによってトレーニングされており、社会的なバイアスによって安全ではないコンテンツを生成する可能性がある。
まもなく、ローカルGPUサポートやアニメーション、ロジックベースのマルチステージワークフローなどの追加を予定しており、APIやその他のプログラムのサポートも、近日中に追加される。
推奨されるモデルの重みはv1.4 470kで、研究者が利用可能なv1.3 440kモデルからいくつかの追加のトレーニングステップを加えたものであり、モデルのリリース時には最終的に6.9GBのVRAMが必要となる。
今後は、今回公開されたモデルを最適化したバージョンと、パフォーマンスと品質を向上したバリアントおよびアーキテクチャのリリースを予定している。また、AMD、Apple M1/M2などのチップで動作するよう最適化したリリースを予定する。なお、現在はNVIDIAチップが推奨されている。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です