理化学研究所 革新知能統合研究センター言語情報アクセス技術チームの関根聡チームリーダーらの研究グループは、国立情報学研究所の呼びかけで発足したLLM勉強会の協力のもと、より安全で信頼性の高い大規模言語モデル(LLM)の実現を目指す日本語データセット「AnswerCarefully」を開発し、バージョン1.0を4月30日に公開した。Citadel AIは、同データセットの開発に協力している。
今回、バージョン1.0が公開されたAnswerCarefullyデータセットには、日本語で書かれた有害なコンテンツやバイアスが含まれるテキストデータと、それに対してLLMに求められる適切な回答例が収集されており、LLMの学習や評価に使用できる。
AnswerCarefullyデータセットをオープンソースで公開し、LLM開発者による研究用途、商業用途を問わない活用を可能にすることで、成果を広く社会に還元していく。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です