東京工業大学 学術国際情報センターの横田理央教授による研究チームと東北大学 大学院情報科学研究科の坂口慶祐准教授、富士通 人工知能研究所の白幡晃一シニアプロジェクトディレクター、理化学研究所のMohamed Wahib(モハメド・ワヒブ)チームリーダー、名古屋大学 大学院工学研究科の西口浩司准教授、サイバーエージェント AI事業本部AI Labの佐々木翔大リサーチサイエンティスト、Kotoba Technologiesの小島熙之CEOは、理化学研究所のスーパーコンピュータ「富岳」を用いて学習した日本語能力に優れた大規模言語モデル「Fugaku-LLM」を、5月10日に公開した。
Fugaku-LLMの開発にあたっては、深層学習フレームワークを富岳に移植して、Transformerの性能を富岳上で最適化するとともに、並列分散学習手法を開発し適用することで、富岳を用いて大規模言語モデルの学習を行う際の演算速度を6倍に高速化している。さらに、富岳向けにTofuインターコネクトD上での集団通信の最適化を行うことによって、通信速度を3倍高速化することに成功し、富岳のCPUを用いて現実的な時間内での大規模言語モデルの学習を可能にした。
Fugaku-LLMは、国内で多く開発されている70億パラメータより一般に高性能、かつ現在の計算機環境下で扱いやすい130億パラメータのモデルとなっており、今回の学習ではサイバーエージェントが収集した独自の日本語学習データと英語のデータなどを用いているため、透明性と安全性を確保しつつ日本語性能にも優れている。国産かつ独自のデータで学習を行っているオープンなモデルとしては、日本語ベンチマークJapanese MT-Benchで最高の性能を達成し、とりわけ人文社会系のタスクでは高いベンチマーク性能を発揮した。
なお、Fugaku-LLMはGitHubやHugging Faceを通じ公開しており、ライセンスに従う限り研究および商業目的で利用できる。さらに富士通は、Fugaku-LLMを同社の先端技術を無償で試せる「Fujitsu Research Portal」を通じて、5月10日から提供している。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です