米OpenAIは、ユーザーがプロンプトから入力したテキストに基づいて、最長1分間のビデオを生成可能な「Sora」を2月15日(現地時間)に発表した。
Soraの開発にあたっては、モデルをクリエイティブの専門家にとって役立つよう成長させるべく、数多くのビジュアルアーティスト、デザイナ、映画制作者が関与しており、複数のキャラクタ、特定の種類のモーション、被写体と背景の詳細をはじめとする、複雑なシーンを生成できる。
モデルは、言語への深い理解によってプロンプトを正確に解釈するのはもちろん、指定されたキャラクタや背景などが、物理世界においてどのように存在するかも理解することで、生き生きと感情を表現する魅力的なキャラクタの生成を可能にしている。また、生成されるビデオの中でキャラクタやビジュアルスタイルを正確に保持する、複数のショットを作成できる。
現時点では、複雑なシーンを物理的な正確さを保ちつつ再現することが難しい場合があるほか、プロンプトによる空間的な詳細が明らかでない場合に、左右の混同などの混乱が発生してしまう可能性があるという。
Soraは拡散モデルであり、静止ノイズのように見えるビデオから生成を開始して、多くのステップでノイズを除去することで、徐々にビデオを変換していく。
モデルに対して、一度に多くのフレーム先見性を与えることによって、被写体が一時的に見えなくなってしまった場合でも同じ状態を保てるようにしたほか、GPTモデルと同様にトランスフォーマアーキテクチャを使用することで、優れたスケーリングパフォーマンスを実現した。
ビデオと画像はパッチと呼ばれる小さなデータ単位の集合として表され、データの表現方法を統一することによって異なる継続時間、解像度、アスペクト比にわたる、従来よりも広範囲の視覚データに対して拡散トランスフォーマのトレーニングを可能にしている。
さらに、ビジュアルトレーニングデータに対して非常に説明的なキャプションを生成する、DALL-E 3の再キャプション技術を使用した結果、生成されたビデオ内のユーザーによるテキスト指示に、より忠実に従えるようになったという。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です