オルツは、LLM開発企業を対象にした日本語LLMインストラクションデータサービスの提供を、3月13日に開始した。
インストラクションデータは、LLMの学習に使用されるデータセットであり、特定のタスクを遂行するための指示と、それに対応する出力のペアで構成され、LLMがユーザーの指示に正確に従って適切な応答を生成する能力を向上させるために重要な役割を果たす。
今回、提供が開始された日本語LLMインストラクションデータサービスでは、経済産業省とNEDO(新エネルギー・産業技術総合開発機構)が推進する国内生成AIの開発力強化プロジェクト「GENIAC(Generative AI Accelerator Challenge)」における、オルツによるプロジェクトを通じて開発したLLMのノウハウを活かした、高品質な日本語インストラクションデータを提供する。日本語のネイティブスピーカーによるデータ作成、日本特有の敬語表現や文化的背景への配慮、AI開発に最適化されたデータ構造設計、自然な日本語での指示や応答パターンの網羅によって、LLMの精度を大きく向上させる。
あわせて、業界・業態、職種や顧客属性を問わない多様な用途に対応し、金融機関における窓口対応や製造業における技術やノウハウの承継といった、コミュニケーションが重要なカギとなる問題を、データソースから最適なデータを抽出することで解決する。ビジネスレベルでのLLM活用を目指した、業界別の専門性の高いデータセット、用途に応じたシングル・マルチターンでのカスタマイズ、特定のユースケースに特化したシーン別データ制作に対応している。
制作されたインストラクションデータは、複数段階の品質チェック、言語専門家による監修、定期的な品質レビューを通じて、データの一貫性と多様性が確保される。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です