米GoogleはAndroid向けのスクリーンリーダー「TalkBack」(Googleが開発、提供)に、大規模言語モデル「Gemini」シリーズを利用した機能を組み込んだと9月3日(現地時間)に発表した。
TalkBackは、弱視などの視覚障害がある人に向けたアプリケーションであり、表示したWebページの文字を音声で読み上げるなどの機能を持つ。Webページ内の画像については、HTMLの「alt」属性の内容を読み上げることで画像の説明とするが、alt属性の内容が十分でないことは少なくない。そのようなときは小規模な機械学習モデル「Garcon」を端末で動作させて、短い説明を生成させていた。
そして、今回の改良ではGoogle Deepmindが開発した大規模言語モデル「Gemini Nano」を端末で動作させるようにした。この改良によって、画像についてより詳細で分かりやすい説明を得られるようになった。例えば、オーストラリア・シドニーの海岸の夜景について説明させると、Garconでは「海の上に満月が浮かんでいる」程度の説明しか得られないが、Gemini Nanoは「シドニーのノース・ショアから、シドニー・オペラ・ハウスとシドニー・ハーバー・ブリッジを捉えた写真」という具合に、建造物などを具体的に説明してくれる。
Gemini Nanoは512ピクセル四方の画像と、768ピクセル四方の画像のどちらかを受け付ける。512ピクセル四方の画像を与えると、反応が比較的早く返ってくるが、それほど詳細な説明は得られない。768ピクセル四方の画像を与えると、反応が2秒ほど遅れるが、比較的詳細な説明が返ってくる。今回は詳細な説明を得ることを重視して、768ピクセル四方の画像を与えるようにしたという。そして、反応が返って来始めたら、順次音声合成ソフトウェアに送り、読み上げさせるようにした。反応がすべて返って来てから読み上げを始めては、ユーザーの待ち時間が長くなってしまうからだ。
そして、今回の改良では、端末上で動作するGemini Nanoだけでなく、サーバーで動作する「Gemini 1.5 Flash」も利用している。より詳細な説明を求めるユーザーには、サーバーで動作し、高い能力を発揮するGemini 1.5 Flashで生成した答えを返すわけだ。ユーザーが画像の上で3本指でタップし、現れたメニューで「Describe Image」をタップすると、画像をGemini 1.5 Flashが動作しているサーバーに送信し、サーバー側で生成した答えを受け取って読み上げる。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です