米Amazon Web Servicesは、「Amazon Titan Image Generator v2」モデルの、「Amazon Bedrock」での一般提供を、8月6日(現地時間)に開始した。
Amazon Titan Image Generator v2は、テキストプロンプトとともに参照画像を提供することで、参照画像のレイアウトと構図に従った出力を生成する。テキストプロンプトとともに16進コードによるリストを提供すれば、生成される画像のカラーパレットを正確に制御できる。
また、複数のオブジェクトを含む画像から、背景を自動的に削除することが可能で、生成された画像内の犬や靴、ハンドバッグといった特定の被写体を保持するような、モデルの微調整に対応している。
参照画像によるレイアウトや構図などの指定は、画像コンディショニング機能として提供され、ユーザーが提供した参照画像におけるエッジ、オブジェクトのアウトライン、構造要素といった特定の視覚特性や、参照画像内の個別の領域とオブジェクトを定義する、セグメンテーションマップに焦点を合わせるよう、モデルに指示できる。
同機能は、参照画像内の目立つエッジを抽出して、モデルが生成プロセスをガイドするために用いられるマップを作成するためのCannyエッジアルゴリズムと、参照画像内の特定の領域またはオブジェクトを定義して、モデルにそれらの定義された領域に一致するコンテンツを生成するよう指示するセグメンテーションによって実現されている。
16進コードによるリストを用いたカラーパレットの制御では、カラーブランディングガイドラインに準拠した入力の一部として提供される、16進数のカラーリストに基づいて色調整された画像の生成を可能にし、あわせて参照画像を提供すれば参照画像からスタイルを継承しつつ、提供された16進数カラーの画像を生成することもできる。
背景の削除では、複数の前景オブジェクトをインテリジェントに検出してセグメント化することによって、要素が重なり合う複雑なシーンでもきれいに背景を分離することが可能になっている。
モデルの微調整では、参照画像を通じてブランドの製品、会社のロゴ、家族の愛するペットといった被写体を、視覚的に魅力的なシーンにシームレスに埋め込めるようになった。微調整後に、テキストプロンプトから被写体の一貫性を保持しつつ、コンテキスト内に自然に配置されるよう画像が生成されるので、マーケティングや広告、視覚的なストーリーテリングの可能性が広がる。
Amazon Titan Image Generator v2は、提供開始時点で米国東部(バージニア北部)および米国西部(オレゴン)のAWSリージョンにて、Amazon Bedrockを通じて利用できる。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です