Phil Wang氏は、GoogleのText-to-ImageニューラルネットワークであるImagenの、Pytorchにおける実装である「Imagen-Pytorch」をリリースしている。
Imagen-Pytorchは、テキストから画像への合成を行うための、最先端レベルのパフォーマンスを実現しており、事前にトレーニングされた大規模なT5モデル(アテンションネットワーク)からのテキスト埋め込みを条件とするカスケードDDPMで構成され、改善されたclassifier free guidanceのための動的クリッピング、ノイズレベルの調整、メモリ効率の高いunet設計も含まれている。
現在は、まだ開発段階であり、今後は動的なしきい値の追加や、DALLE2とvideo-diffusionリポジトリの動的しきい値処理の追加、DALLE2からのトレーニングコードの移植などを予定する。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です