楽天グループは、Mixture of Experts(MoE)アーキテクチャを採用した新しい日本語大規模言語モデル(LLM)である「Rakuten AI 2.0」と、楽天初の小規模言語モデル(SLM)となる「Rakuten AI 2.0 mini」の、2つのAIモデルを12月18日に発表した。どちらも、AIアプリケーションを開発する企業や技術者といった専門家を支援することを目指しており、来春を目途にオープンソースコミュニティに向けて公開を予定している。
Rakuten AI 2.0は、3月に公開された日本語に最適化した高性能なLLMの基盤モデル「Rakuten AI 7B」を基に開発された、8x7BのMoE基盤モデルで、8つの70億パラメータで構築した「エキスパート」と呼ばれるサブモデルで構成される。トークンは、ルータによって選定されたもっとも適した2つのエキスパートに処理され、それぞれのエキスパートとルータはともに高品質な日本語と英語の言語データを用いた継続的な学習を行っている。また、8倍規模の高密度モデルに匹敵する性能を発揮するにもかかわらず、消費計算量は4分の1程度に抑えられる。
LM-Harnessを使って、日本語と英語の能力測定を行うモデル評価を実施したところ、Rakuten AI 2.0の平均日本語性能は、Rakuten AI 7Bと比較して8つのタスクで62.93から72.29に向上した。
Rakuten AI 2.0 miniは、15億パラメータの基盤モデルであり、内製の多段階データフィルタリング、アノテーションプロセスを通じてキュレーションおよびクリーンアップされた広範な日本語と英語のデータセットで最初から学習されているため、テキスト生成において高性能かつ高精度な処理を実現している。
コンパクトなモデルなので、モバイル端末への導入が可能となっており、データをリモートサーバに送信することなく、自社で運用できる。汎用アプリケーションに使用される大規模モデルと比較して、SLMはプライバシーの保護、低遅延、コスト効率が求められる特定のアプリケーションに適した形で使える。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です