Imagen-Pytorchは、テキストから画像への合成を行うための、最先端レベルのパフォーマンスを実現しており、事前にトレーニングされた大規模なT5モデル(アテンションネットワーク)からのテキスト埋め込みを条件とするカスケードDDPMで構成され、改善されたclassifier free guidanceのための動的クリッピング、ノイズレベルの調整、メモリ効率の高いunet設計も含まれている。
現在は、まだ開発段階であり、今後は動的なしきい値の追加や、DALLE2とvideo-diffusionリポジトリの動的しきい値処理の追加、DALLE2からのトレーニングコードの移植などを予定する。