情報・システム研究機構 国立情報学研究所(NII)における大規模言語モデル研究開発センター(LLMC)は、プレビュー版「LLM-jp-3 172B beta1」を9月17日に公開した。
プレビュー版「LLM-jp-3 172B beta1」は、同センターの主宰するLLM勉強会(LLM-jp)の成果として、これまでのデータ活用社会創成プラットフォーム「mdx」での130億パラメータモデルの学習、産業技術総合研究所の「第2回大規模言語モデル構築支援プログラム」によるAI橋渡しクラウド(ABCI)での1750億パラメータモデルの学習トライアルの成果を踏まえて、パラメータ数約1720億(GPT-3級)の大規模言語モデル(LLM)のフルスクラッチ学習を行ったもので、学習データを含めすべてオープンにしたモデルとしては、世界最大となる。
経済産業省・NEDOのGENIACプロジェクトの支援によるクラウド計算資源(グーグル・クラウド・ジャパン)を利用して、約0.4兆トークンまでの事前学習を実施するとともに、文部科学省の補助金によって調達したクラウド計算資源(さくらインターネット)を利用して、約0.7兆トークンまでの事前学習およびチューニングを実施した。
WebアーカイブCommon Crawl(CC)全量から抽出・フィルタリングした日本語テキスト、国立国会図書館インターネット資料収集保存事業(WARP)で収集されたWebサイトのURL(当該URLリストは同館から提供)を基にクロールしたデータ、日本語Wikipedia、KAKEN(科学研究費助成事業データベース)における各研究課題の概要テキストで構成される日本語約5920億トークンをはじめ、英語約9500億トークン、その他の言語約10億トークン、プログラムコード約1140億トークンの約1.7兆トークンに加えて、日本語コーパスのうち約0.4兆トークンは2回学習することで合計約2.1兆トークンでの学習が行われている。
さらに、日本語インストラクションデータおよび英語インストラクションデータの和訳データ13種類を用いたチューニングが実施され、既存の日本語言語資源に基づく22種類の評価データを用いて横断的な評価を行うフレームワーク「llm-jp-eval v1.3.1」(LLM-jp開発)による評価では、今回公開する0.7兆トークン学習時点の事前学習モデルは0.548を達成した。また、GENIAC事業にて性能評価に用いられるフレームワーク「llm-leaderboard(g-leaderboardブランチ)」による評価では0.529を達成している。
なお、今回公開されたモデルは、安全性の観点に基づくチューニングを行ったものではあるもののプレビュー段階であり、そのまま実用的なサービスに用いることが想定されていない。プレビュー版は、利用申請者に限定的なライセンスのもと提供される。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です