SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

Developers Summit 2024 セッションレポート(AD)

AIエンジニア必見! 実践から見る、マルチモーダルRAG最前線

【16-C-5】マルチモーダルRAGの社会実装への技術アプローチ

  • X ポスト
  • このエントリーをはてなブックマークに追加

 昨今、注目が高まっているマルチモーダルRAG(Retrieval-Augmented Generation)。ギブリーの法人向け生成AI活用ツール「法人GAI」では、すでにテキストベースのRAGが実装されているが、今後マルチモーダルRAGへとさらなる進化を遂げるべく、目下、技術開発に取り組んでいる最中だ。そのようななか、Developers Summit 2024(デブサミ2024)では同社AIエンジニアの鈴木岳之氏と、取締役 兼 株式会社Resola 代表取締役社長 奥田栄司氏が登壇。マルチモーダル技術の進化の歴史を振り返るとともに、マルチモーダルRAGの具体的な応用事例について語った。

  • X ポスト
  • このエントリーをはてなブックマークに追加

マルチモーダルRAGとは何か

 「HR Tech」「Marketing DX」「Operation DX」と、異なるDX領域で複数のSaaSを展開しているギブリー。2023年4月には、企業が安心・安全にChatGPTを利用できる法人向けGPTプラットフォーム「法人GAI」もリリースしており、認知度が高まっているところだ。

 今回のテーマであるマルチモーダルRAGとは、そもそも何なのか。これを解説する前にRAGとは何かについて、鈴木氏は次のように語った。「日本語訳すると検索拡張生成。LLMだけでは足りないようなドキュメントや外部情報を取り込むことでハルシネーションを抑える効果がある」。

株式会社ギブリー AIエンジニア 鈴木岳之氏
株式会社ギブリー AIエンジニア 鈴木岳之氏

 RAGの実装フローとしては、まず外部テキストをベクトル化してデータベースに入れておく。その後、実際にユーザーからクエリが入力されると、ベクトルの中で類似度の高いものとクエリそのものをインプットとして、GPT4(LLM)に入れ、アウトプットをユーザーに返す。

 次に、マルチモーダルとは何か。これは、複数のデータ形式(ドキュメント・画像・動画・音声・表など)が混在している状態を指す。鈴木氏はマルチモーダルの例として、以下の図(出典:労働力調査の結果(総務省統計局))を示した。

テキスト・表・図の3つのモーダリティを持ったマルチモーダルPDFの例
テキスト・表・図の3つのモーダリティを持ったマルチモーダルPDFの例

 これらを踏まえて、マルチモーダルRAGとは何かをフローで見ると、最初に外部テキストを取り込んでいたところに画像や表といったものが加わることで、インプットされる場所がGPT4からGPT4v(マルチモーダルLLM)へと置き換わる。

 マルチモーダルRAGの構成要素は、「画像の特徴量抽出」「テキストの特徴量抽出」「OCR/Document Layout Analysis/Table to Text」「テキスト生成」「Open AIのモデル」となっている。

 鈴木氏の解説を受け、「お客様から『PDFを読み込んで回答させたい』という依頼をよくいただくが、画像や表が多いものは精度が低いと感じていた。マルチモーダルRAGに対応できれば、こうした問題も解決できそうだ」と感想を述べた奥田氏。加えて、「構成要素を見てみると、昔からある技術も使われているようだが、マルチモーダルRAGの技術が発展してきた背景には、どんなブレイクスルーがあったのかを知りたい」と語り、次に話を進めた。

株式会社ギブリー 取締役 兼 株式会社Resola 代表取締役社長 奥田栄司氏
株式会社ギブリー 取締役 兼 株式会社Resola 代表取締役社長 奥田栄司氏

次のページ
技術の積み重ねでたどり着いたマルチモーダルRAG

関連リンク

この記事は参考になりましたか?

  • X ポスト
  • このエントリーをはてなブックマークに追加
Developers Summit 2024 セッションレポート連載記事一覧

もっと読む

この記事の著者

野本 纏花(ノモト マドカ)

 フリーライター。IT系企業のマーケティング担当を経て2010年8月からMarkeZine(翔泳社)にてライター業を開始。2011年1月からWriting&Marketing Company 518Lab(コトバラボ)として独立。共著に『ひとつ上のFacebookマネジメント術~情報収集・人脈づくり...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

川又 眞(カワマタ シン)

インタビュー、ポートレート、商品撮影写真をWeb雑誌中心に活動。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

CodeZine編集部(コードジンヘンシュウブ)

CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

提供:株式会社ギブリー

【AD】本記事の内容は記事掲載開始時点のものです 企画・制作 株式会社翔泳社

この記事は参考になりましたか?

この記事をシェア

  • X ポスト
  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/article/detail/19126 2024/04/08 12:00

おすすめ

アクセスランキング

アクセスランキング

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング