Developers Summit 2024 セッションレポート

LLMの日本語能力は？リーダーボード「Nejumi.ai」の開発・運営から見えてきた課題

【15-B-7】LLMの日本語能力はいかほど？日本最大級のLLMリーダーボードNejumi.aiの開発と運営

2024/08/26 11:00

ポスト

LLM評価の課題とわかったこと

　LLMの評価手法について整理したところで、話題は「LLM評価の大変なポイント」へと移った。代表的な困難は「モデルがカンニングしたり、ヤマを張ったりすること」だ。本来知り得ない情報がモデルの学習プロセスで混入してしまう、いわゆるリーケージの問題が発生すると、妥当な評価結果が得られなくなるのだ。

本来知り得ないターゲットの情報が学習データに混入（リーケージ）すると、「未知の問題に対応する」というテストの前提が崩れてしまう

　「従来の機械学習では、モデルは基本的に学習データ以外のものを学習していない蓋然性が高いという前提があった。そのため、学習に用いるデータと評価に使うデータをしっかりと切り分けていれば、モデルのカンニング問題は防止できた。しかしLLM時代になった今、状況は変わった」

　LLM時代のモデルは膨大なデータを用いており、事前学習を行って基盤モデルを構築してファインチューニングするなど、プロンプトエンジニアリングなどによってダウンストリームタスクに個別に適合させていくのが一般的だ。そしてダウンストリームタスクでの評価データは、データ自体は未知であっても、それが本当に未知のタスクであるという前提が崩れやすく、正当な評価が難しいのだ。

　「膨大な情報による事前学習があると情報自体は既知であるというケースも多い。そのため、タスクの型にファインチューニングで適応すると、今まで見たことがないタスクにゼロショットで対応するという前提が崩れてしまい、教師あり学習の枠組みに入ってしまう。しかも、侵害確認も非常に困難だ。それならデータを切り分ければいいのかというと、前述の通りに巨大なモデルが既にあり、良質なデータをすべて食らい尽くさんとしている状況で、果たしてそれは現実的なのか疑問が残る。リーケージ自体の定義が問い直されている状況だ」

　続けて山本氏は「新しい評価から分かったこと」として、これまでに紹介した一問一答形式、会話形式という異なる側面の能力を二軸プロットで展開し、それぞれのモデルにどのような傾向があるのかを一目瞭然で確認できる散布図を紹介した。

　横軸が一問一答形式での評価、縦軸が会話形式での評価とした場合、右上の領域には、両方が強いGPT-4を筆頭とした商用モデルが分布している。一方オープンLLMは、その能力が一問一答形式、会話形式いずれかの領域に寄っていることが読み取れる。

　この中で山本氏は、右下にあるLLM-jp13Bについて「Jasterでファインチューニングされているもので、いわゆる『ヤマが当たっちゃった』モデル」と説明する。そのうえで、「一つの側面だけで評価すると、モデルの実力を過剰に評価してしまうリスクがある。二軸で見ることで、正当な実力を見抜くのが重要だ。『一問一答はこんなに強いのに、会話形式ではまだまだ伸び悩んでいる』という側面にも気づける」と、二軸プロットによる分析のメリットを解説した。

　またNejumiリーダーボードは、可視化にも力を入れており、確認したいモデルをレーダーチャートのようなグラフでインタラクティブに確認できるのだ。これを活用することで、結果をさらに深掘りすることが可能だ。

　深掘り例の一つとして山本氏は、東京工業大学が開発したSwallowと、Meta（旧Facebook）によるLlama2のレーダーチャートを比較した。

　比較によると、SwallowはLlama2からの継続事前学習によって日本語能力を獲得しており、一問一答形式で非常に高い能力が見られる一方で、会話形式では一部にカタストロフィック・フォーゲッティング（忘却）も見られることが確認できる。すなわちSwallowは、「大きなトレードオフなく強化できているものの、減点もゼロではないモデル」と評価できる。

　さらに山本氏はもう一つの深掘り例として、一問一答形式、会話形式のいずれにも強い商用モデル群のいくつかを抜粋し、同じ質問を投げかけた際の答えを比較した表を紹介した。

　「田中さんは非常に健康ですが、毎日病院に行かなければなりません。何が理由でしょうか？」という質問に対して、gemini-pro、anthropic.claude-v2:1、gpt-3.5-turbo、gpt-4-0613の回答を比較したのが以下だ。

　「gemini-proの回答は、『病院に行く必要はない』とあっさりしたものだ。それに対してgpt-4は『もしかしたら田中さんは医療従事者ではないか』と鋭い推論をしている。私はそこまで考えなかったので、GPT-4に負けた。スコアだけ見ると僅差でも、中身を深掘りすることで、モデルの実力を肌感覚でつかめる」。ユニークな回答を見回しながら、山本氏はそうまとめる。

次のページ
オリジナルのリーダーボードを作ってみよう

この記事は参考になりましたか？

印刷用を表示

ポスト

Developers Summit 2024 セッションレポート連載記事一覧: 『システム障害対応実践ガイド』著者が語る、1000件の事例から学んだ障害対応のベストプラ...

「どこか他人ごと」な防災DX、実際どれだけ進んでいる？国・自治体が提供しているシステムと...

ソフトウェアテストは「段階」ではなく「活動」である──ブロッコリー氏が問う、プロダクトに求...

もっと読む

この記事の著者: 丸毛透（マルモトオル）

インタビュー（人物）、ポートレート、商品撮影、料理写真をWeb雑誌中心に活動。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事; CodeZine編集部（コードジンヘンシュウブ）

CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事; 水無瀬あずさ（ミナセアズサ）

　現役エンジニア兼フリーランスライター。PHPで社内開発を行う傍ら、オウンドメディアコンテンツを執筆しています。得意ジャンルはIT・転職・教育。個人ゲーム開発に興味があり、最近になってUnity（C＃）の勉強を始めました。おでんのコンニャクが主役のゲームを作るのが目標です。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事