LINEは、日本語による大規模言語モデル「japanese-large-lm」をオープンソースソフトウェア(OSS)として、8月14日に公開した。36億パラメータ(3.6Bモデル)と17億パラメータ(1.7Bモデル)のモデルがそれぞれ公開されている。
「japanese-large-lm」は、同社が以前から取り組んでいる日本語の大規模言語モデル「HyperCLOVA」の研究開発プロジェクトと並行して、Massive LM開発ユニットにより開発された。
なお、本モデルのライセンスは、商用利用が可能な「Apache License 2.0」となっている。
同モデルの訓練には、同社独自の大規模日本語Webコーパスが利用され、Web由来のテキスト特有のノイズを除去するために、同社NLPチームのメンバーが開発したOSSの「HojiChar」によるフィルタリング処理が適用されている。また、最終的な学習には約650GBのコーパスが利用されている。加えて本モデルでは、「3D Parallelism」「Activation Checkpointing」などの手法を用い、学習を高速化している。
学習したモデルの性能評価には、Perplexityスコア(PPL)および、質問応答・読解タスクの正解率を活用した。他の日本語言語モデルと比較した性能評価では、1.7Bモデルでは「OpenCALM-7B」と、3.6Bモデルでは「Rinna-3.6B」と同等以上の性能を示した。
今後同社では、指示文に対して適切な出力を行えるようにチューニングしたモデルを公開する予定。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です