GMOメディアは3月22日、同社のシニアエンジニア、羽中田将氏が執筆した「大規模言語モデルの日本語実践的評価:JGLUEとIT パスポート試験を用いた比較分析」の研究論文が、「2024年度 人工知能学会全国大会」に採択されたことを発表した。
「人工知能学会全国大会」は、国内の研究者が一堂に集い、人工知能に関連する最新の技術動向や研究成果が発表される大規模な学会。
本研究では、大規模言語モデル(LLM)が持つ推論能力や問題解決能力の特徴を分析し、各LLMにおけるIT分野の能力差を解明した。
現在、ChatGPTをはじめとするLLMの評価が各方面で進められている。この研究では、IT分野におけるLLMの能力を評価するために、公開されているLLMにITパスポート試験を解答させた。
その結果、LLMのモデル間には解答の正確さに差異があり、IT分野での利用にある程度有用なLLM(「gpt-3.5-turbo-1106」「gpt-4-11-6-preview」「ELYZA-japanese-Llama-2-7b-instruct」)と、注意が必要なLLMがあることが分かった。
最も解答の精度が高かったのは「ELYZA-japanese-Llama-2-7b-instruct」で、正答率は72.3%だった。また、LLMに補助的にITパスポート試験に関するヒント(プロンプト)を与えると、ほとんどのLLMで解答の精度が上がった。
専門分野に特化したチューニングを施していない汎用的なLLMでも、一定の精度で正確な解答を期待できるため、学習への活用が期待できる。特に「分からない単語や概念について質問する」「練習問題を作成する」などの活用方法で、一定の効果があるとみられている。ただし、学習者はLLMの生成する回答に、誤りが発生する可能性を考慮する必要がある。
今後も同社では、他の資格試験を用いてLLMの評価分析を行う予定。また、それらの結果に基づき、LLMを活用した授業の提案や試験対策講座の開発を進めるとしている。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です