Phil Wang氏は、GoogleのText-to-ImageニューラルネットワークであるImagenの、Pytorchにおける実装である「Imagen-Pytorch」をリリースしている。
Imagen-Pytorchは、テキストから画像への合成を行うための、最先端レベルのパフォーマンスを実現しており、事前にトレーニングされた大規模なT5モデル(アテンションネットワーク)からのテキスト埋め込みを条件とするカスケードDDPMで構成され、改善されたclassifier free guidanceのための動的クリッピング、ノイズレベルの調整、メモリ効率の高いunet設計も含まれている。
現在は、まだ開発段階であり、今後は動的なしきい値の追加や、DALLE2とvideo-diffusionリポジトリの動的しきい値処理の追加、DALLE2からのトレーニングコードの移植などを予定する。
この記事は参考になりましたか?
- この記事の著者
- 
                    CodeZine編集部(コードジンヘンシュウブ) CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。 ※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です 

 
              
               
                          
                           
                          
                           
                          
                           
                          
                           
                          
                           
                          
                           
                          
                           
                          
                           
                          
                           
                          
                           
                          
                           
                          
                           
                              
                               
                              
                               
                              
                               
                              
                               
                              
                               
                      
                     
                      
                     
                      
                     
                      
                     
                      
                     
                      
                     
                      
                     
															
														 
															
														.png) 
     
     
     
     
     
													 
													 
													 
													 
													 
										
									
 
                    