英Stability AIは、画像生成AIであるStable Diffusionの最新バージョンとなる、「Stable Diffusion 2.0」を11月24日(現地時間)にリリースした。
Stable Diffusion 2.0には、Stability AIからサポートを受けてLAION(Large-scale Artificial Intelligence Open Network)が開発した、最新のテキストエンコーダであるOpenCLIPを使用してトレーニングされたテキストから画像への変換モデルが含まれており、バージョン1.0と比較して生成される画像の品質を大幅に向上している。具体的には、デフォルトで解像度512×512ピクセルと768×768ピクセルの画像を生成できる。
これらのモデルは、Stability AIのDeepFloydチームによって作成されたLAION-5Bデータセットのサブセットでトレーニングされており、LAIONのNSFWフィルタを使用してアダルトコンテンツを削除するためにフィルタ処理が行われる。
また、画像の解像度を4倍に向上するUpscaler Diffusionモデルも含まれており、テキストから画像への変換モデルと組み合わせることで、2048×2048ピクセルまたはそれ以上の解像度での画像生成が可能となっている。
さらに、depth-guided stable diffusionモデルのdepth2imgが、入力画像の深度を推測し、テキストと深度情報の両方を使用して新しい画像を生成できるようになったほか、元の画像とは根本的に異なるように見えるものの、その画像の一貫性と深さを保持する変換を行うDepth-to-Image、画像の一部をインテリジェントかつ迅速に切り替えられるtext-guided inpaintingモデルが追加された。
そのほか、モデルを単一のGPUで実行可能にするための最適化も、バージョン1.0に引き続き行われている。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です