米Googleは、実験的に提供しているAIサービス「NotebookLM」に、動画と音声を解釈する機能を9月26日(現地時間)に追加した。
NotebookLMは、ユーザーが提供した資料を解釈し、内容を自動的に要約したり、想定問答集を作成したりするサービス。Google Deepmindの大規模言語モデル「Gemini 1.5 Pro」の能力を利用したサービスだ。2024年6月から実験的にサービスの提供を始めている。
ユーザーは、テキストファイル、PDFファイル、Googleドキュメント、Googleスライド、WebページのURLといった形で情報を提示できる。NotebookLMは、ユーザーが提示した情報のみを取り込んで解釈し、ユーザーの求めに応じて整理した情報を返す。ファイル内にある写真や図も解釈する。返答の生成にはユーザーが提示した情報のみを使うため、誤った解答を返したり、物事をでっち上げる可能性は低くなる。
そして、返答を返す際には、返答の根拠となる資料を引用元として付け加える。この機能により、返答の検証が容易になっている。
今回の改良では、YouTube動画のURLと音声ファイルも受け付けるようになった。動画を受け取ったら、その動画で流れている音声を書き起こして解釈する。音声ファイルも内容を書き起こして解釈し、回答の材料として利用する。
引用元を提示する機能は動画や音声にも働く、動画からの引用を示す部分をクリックすると、根拠となった部分をNotebookLMの画面内で、再生できる。音声も同じように、引用を示す部分をクリックすると、その部分の音声が流れるようになっている。
Googleは、ユーザーがNotebookLMに提示したデータは、そのユーザーへの回答の作成のみに使用し、LLMの訓練など、他の目的では使わないと宣言している。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です