LLM評価の課題とわかったこと
LLMの評価手法について整理したところで、話題は「LLM評価の大変なポイント」へと移った。代表的な困難は「モデルがカンニングしたり、ヤマを張ったりすること」だ。本来知り得ない情報がモデルの学習プロセスで混入してしまう、いわゆるリーケージの問題が発生すると、妥当な評価結果が得られなくなるのだ。
「従来の機械学習では、モデルは基本的に学習データ以外のものを学習していない蓋然性が高いという前提があった。そのため、学習に用いるデータと評価に使うデータをしっかりと切り分けていれば、モデルのカンニング問題は防止できた。しかしLLM時代になった今、状況は変わった」
LLM時代のモデルは膨大なデータを用いており、事前学習を行って基盤モデルを構築してファインチューニングするなど、プロンプトエンジニアリングなどによってダウンストリームタスクに個別に適合させていくのが一般的だ。そしてダウンストリームタスクでの評価データは、データ自体は未知であっても、それが本当に未知のタスクであるという前提が崩れやすく、正当な評価が難しいのだ。
「膨大な情報による事前学習があると情報自体は既知であるというケースも多い。そのため、タスクの型にファインチューニングで適応すると、今まで見たことがないタスクにゼロショットで対応するという前提が崩れてしまい、教師あり学習の枠組みに入ってしまう。しかも、侵害確認も非常に困難だ。それならデータを切り分ければいいのかというと、前述の通りに巨大なモデルが既にあり、良質なデータをすべて食らい尽くさんとしている状況で、果たしてそれは現実的なのか疑問が残る。リーケージ自体の定義が問い直されている状況だ」
続けて山本氏は「新しい評価から分かったこと」として、これまでに紹介した一問一答形式、会話形式という異なる側面の能力を二軸プロットで展開し、それぞれのモデルにどのような傾向があるのかを一目瞭然で確認できる散布図を紹介した。
横軸が一問一答形式での評価、縦軸が会話形式での評価とした場合、右上の領域には、両方が強いGPT-4を筆頭とした商用モデルが分布している。一方オープンLLMは、その能力が一問一答形式、会話形式いずれかの領域に寄っていることが読み取れる。
この中で山本氏は、右下にあるLLM-jp13Bについて「Jasterでファインチューニングされているもので、いわゆる『ヤマが当たっちゃった』モデル」と説明する。そのうえで、「一つの側面だけで評価すると、モデルの実力を過剰に評価してしまうリスクがある。二軸で見ることで、正当な実力を見抜くのが重要だ。『一問一答はこんなに強いのに、会話形式ではまだまだ伸び悩んでいる』という側面にも気づける」と、二軸プロットによる分析のメリットを解説した。
またNejumiリーダーボードは、可視化にも力を入れており、確認したいモデルをレーダーチャートのようなグラフでインタラクティブに確認できるのだ。これを活用することで、結果をさらに深掘りすることが可能だ。
深掘り例の一つとして山本氏は、東京工業大学が開発したSwallowと、Meta(旧Facebook)によるLlama2のレーダーチャートを比較した。
比較によると、SwallowはLlama2からの継続事前学習によって日本語能力を獲得しており、一問一答形式で非常に高い能力が見られる一方で、会話形式では一部にカタストロフィック・フォーゲッティング(忘却)も見られることが確認できる。すなわちSwallowは、「大きなトレードオフなく強化できているものの、減点もゼロではないモデル」と評価できる。
さらに山本氏はもう一つの深掘り例として、一問一答形式、会話形式のいずれにも強い商用モデル群のいくつかを抜粋し、同じ質問を投げかけた際の答えを比較した表を紹介した。
「田中さんは非常に健康ですが、毎日病院に行かなければなりません。何が理由でしょうか?」という質問に対して、gemini-pro、anthropic.claude-v2:1、gpt-3.5-turbo、gpt-4-0613の回答を比較したのが以下だ。
「gemini-proの回答は、『病院に行く必要はない』とあっさりしたものだ。それに対してgpt-4は『もしかしたら田中さんは医療従事者ではないか』と鋭い推論をしている。私はそこまで考えなかったので、GPT-4に負けた。スコアだけ見ると僅差でも、中身を深掘りすることで、モデルの実力を肌感覚でつかめる」。ユニークな回答を見回しながら、山本氏はそうまとめる。