Developers Summit 2024 セッションレポート（AD）

生成AIで実現する未来のアプリ開発～Google Cloudの生成AIサービスとコーディング支援機能

【15-A-5】Google Cloudで始める生成AIアプリ開発入門

2024/03/19 12:00

ポスト

　生成AIは世界に大きな変化をもたらす可能性を秘めており、多くのデベロッパーが生成AIを活用したアプリ開発に挑戦しようとしている。Developers Summit 2024にてグーグル・クラウド・ジャパンの中井悦司氏が行ったセッションでは、Google Cloudが提供する大規模言語モデルのPaLM APIや、画像から情報を抽出するVisual Captioning／Visual Q&Aなどのサービスを紹介し、これらを使って実際に動作するアプリの裏側を解説。加えて、コード生成やテスト作成を自動化するDuet AI for Developersの使い方も披露した。

ポスト

Google Cloudの生成AIで「ファッションにコメントするアプリ」を作成

グーグル・クラウド・ジャパン合同会社 Solutions Architect, Google Cloud 中井悦司氏

　まず中井氏は、生成AIを含むGoogle Cloudのさまざまなサービスを利用して作ったデモアプリの動作について説明を行った。このアプリは、チャット風のインターフェイスを備え、画像をアップロードすると、その画像について生成AIが適切なコメントをテキストで返す機能を持っている。

　このアプリは、アップロードされた写真からファッションに関する情報を読み取り、その内容を褒めるコメントを生成する仕組みである。中井氏は自身の写真をアップロードしてアプリの動作を説明し、その際、ストライプのシャツ、時計、スウェットシャツに小さなGoogle Cloudのロゴがあることなどを認識して、それに関するポジティブなコメントが返される動作を披露した。

　GoogleはGeminiという新しい基盤モデルを発表した。Geminiは画像とテキストを同時に処理することが可能になるが、中井氏が本アプリを開発した時には、Geminiはまだ公開されていなかったため、別の方法で作っている。Google CloudにあるVertex AIのVisual CaptioningやVisual Q&Aというサービスを使って、画像内の内容に関する情報を抽出し、大規模言語モデルのPaLM APIを使って、コメントの文章を生成している。

　中井氏は、Google Cloudのコンソール画面を開いて各サービスの動作を説明した。Visual Captioningは、画像の内容を分析して、どんな要素が含まれているかを示すもの。中井氏は、バスケットに盛られたフルーツや野菜、飲料、食材などが混在する写真をアップロードしVisual Captioningによって「a basket filled with fruits and vegetables sits on a table」などの説明文が表示される様子を見せた。

　Visual Q&Aは、画像に対して質問ができる。同じ画像に対して「names of fruit in this picture」という質問を投げかけると、「apples, grapes, lemons, oranges」との回答を得られた。フルーツの情報だけを抜き出すことができた。

　先に中井氏が紹介した、写真に写った人のファッションを褒めるアプリの処理に置き換えると、Visual Captioningでどんな写真なのかの説明を出力し、Visual Q&Aによってその中からファッションアイテムを抜き出すこととなる。

次のページ
大規模言語モデル「PaLM 2」を使ってチャットの返答文を自動生成

この記事は参考になりましたか？

印刷用を表示

ポスト

Developers Summit 2024 セッションレポート連載記事一覧: 『システム障害対応実践ガイド』著者が語る、1000件の事例から学んだ障害対応のベストプラ...

「どこか他人ごと」な防災DX、実際どれだけ進んでいる？国・自治体が提供しているシステムと...

ソフトウェアテストは「段階」ではなく「活動」である──ブロッコリー氏が問う、プロダクトに求...

もっと読む

この記事の著者: 森英信（モリヒデノブ）

就職情報誌やMac雑誌の編集業務、モバイルコンテンツ制作会社勤務を経て、2005年に編集プロダクション業務やWebシステム開発事業を展開する会社・アンジーを創業。編集プロダクション業務においては、IT・HR関連の事例取材に加え、英語での海外スタートアップ取材などを手がける。独自開発のAI文字起こし・...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事; 丸毛透（マルモトオル）

インタビュー（人物）、ポートレート、商品撮影、料理写真をWeb雑誌中心に活動。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事; CodeZine編集部（コードジンヘンシュウブ）

CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事