rinnaは、「Qwen2.5」と「DeepSeek R1」を利用して、高い日本語テキストの生成能力を備えた「Qwen2.5 Bakeneko 32B」シリーズを開発して、2月13日にApache-2.0 Licenseで公開している。
これまで同社は、日本語のタスクに適したGPT・BERT・HuBERT・CLIP・Stable Diffusionといった、テキスト・音声・画像に関する基盤モデルを公開してきた。
今回、より使いやすく高性能な日本語LLMを目指して、中国・Alibabaが公開しているLLMのQwen2.5 32Bに対して日本語継続事前学習を行なった「Qwen2.5 Bakeneko 32B」、対話形式で指示を遂行するよう学習を行なった「Qwen2.5 Bakeneko 32B Instruct」、DeepSeek R1の出力を用いて蒸留学習を行なった「DeepSeek R1 Distill Qwen2.5 Bakeneko 32B」の開発に至っている。
Qwen2.5シリーズは0.5Bから72Bまでの複数のモデルサイズ、コーディング・数学特化、マルチモーダル対応といった多様なモデルを公開しており、とりわけ32Bモデルサイズは性能とモデルサイズのバランスがよく、有用な派生モデルがいくつも存在することから、rinnaはQwen2.5 32Bに対して日本語と英語の学習データを使用して継続事前学習した「Qwen2.5 Bakeneko 32B」を開発した。
「Bakeneko」のモデル名は「化け猫」に由来し、「Qwen2.5 Bakeneko 32B」をベースに他の有用な派生モデルとモデルマージなどによって組み合わせることで、高い日本語性能を持った応用モデルの作成が期待される。一方、「Qwen2.5 Bakeneko 32B Instruct」は「Qwen2.5 Bakeneko 32B」をベースに、モデルマージと指示学習を行なったモデルであり、対話形式での利用に適している。
DeepSeek R1から蒸留学習を行なった「DeepSeek R1 Distill Qwen 32B」が公開されているものの、同モデルは英語と中国語がメインであり日本語の性能は劣っていることから、「Qwen2.5 Bakeneko 32B」をベースにモデルマージとDeepSeek R1から生成した思考過程を含むテキストデータ1200件を利用して蒸留学習を行なった「DeepSeek R1 Distill Qwen2.5 Bakeneko 32B」が開発された。蒸留学習のために生成したデータは1200件に留まるものの、効率的に高い日本語思考能力を備えたモデルの学習に成功している。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です