米Databricksは、研究および商用利用のためにライセンス供与された、人間が生成した命令データセットで微調整されている、オープンソースの命令追従型LLM「Dolly 2.0」を、4月12日(現地時間)にリリースした。
「Dolly 2.0」は、EleutherAI pythiaモデルファミリーに基づいた12Bパラメータの言語モデルであり、同社の従業員の間でクラウドソーシングされた、人間が生成した新しい高品質の命令追従データセットのみで微調整されている。
トレーニングコード、データセット、モデルの重みなど、すべてが商用利用可能な形でオープンソース化されており、APIアクセスに料金を支払ったり、サードパーティとデータ共有したりすることなく、人々と会話できる強力なLLMを作成、所有、カスタマイズできる。
databricks-dolly-15kデータセットには、LLMのチューニング用として特別に設計された、人間が生成した高品質のプロンプト/レスポンスのペアが15000個含まれており、databricks-dolly-15kライセンスの下で商用アプリケーションを含む、あらゆる目的で使用、変更、拡張することが可能となっている。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です