Google Cloudの生成AIで「ファッションにコメントするアプリ」を作成
まず中井氏は、生成AIを含むGoogle Cloudのさまざまなサービスを利用して作ったデモアプリの動作について説明を行った。このアプリは、チャット風のインターフェイスを備え、画像をアップロードすると、その画像について生成AIが適切なコメントをテキストで返す機能を持っている。
このアプリは、アップロードされた写真からファッションに関する情報を読み取り、その内容を褒めるコメントを生成する仕組みである。中井氏は自身の写真をアップロードしてアプリの動作を説明し、その際、ストライプのシャツ、時計、スウェットシャツに小さなGoogle Cloudのロゴがあることなどを認識して、それに関するポジティブなコメントが返される動作を披露した。
GoogleはGeminiという新しい基盤モデルを発表した。Geminiは画像とテキストを同時に処理することが可能になるが、中井氏が本アプリを開発した時には、Geminiはまだ公開されていなかったため、別の方法で作っている。Google CloudにあるVertex AIのVisual CaptioningやVisual Q&Aというサービスを使って、画像内の内容に関する情報を抽出し、大規模言語モデルのPaLM APIを使って、コメントの文章を生成している。
中井氏は、Google Cloudのコンソール画面を開いて各サービスの動作を説明した。Visual Captioningは、画像の内容を分析して、どんな要素が含まれているかを示すもの。中井氏は、バスケットに盛られたフルーツや野菜、飲料、食材などが混在する写真をアップロードしVisual Captioningによって「a basket filled with fruits and vegetables sits on a table」などの説明文が表示される様子を見せた。
Visual Q&Aは、画像に対して質問ができる。同じ画像に対して「names of fruit in this picture」という質問を投げかけると、「apples, grapes, lemons, oranges」との回答を得られた。フルーツの情報だけを抜き出すことができた。
先に中井氏が紹介した、写真に写った人のファッションを褒めるアプリの処理に置き換えると、Visual Captioningでどんな写真なのかの説明を出力し、Visual Q&Aによってその中からファッションアイテムを抜き出すこととなる。