ヤフーは、AI・自然言語処理技術の1つである分散表現の学習時間を短縮する技術「yskip」を、4月18日にオープンソースソフトウェア(OSS)として公開した。
分散表現は、単語をベクトルで表現する自然言語処理領域のAI技術の1つで、大量のテキストデータからさまざまな単語の関係性を機械学習して、単語同士の意味の相違を機械的に推定でき、同社はユーザーの興味関心情報と記事や広告のマッチングに活用している。
より大量のテキストデータを用いて学習することで、精度向上が期待される一方で、インターネットサービス上のテキストデータを活用する場合は分散表現の学習モデルを頻繁に更新する必要があり、その際には新しいデータとともに、すでに学習したデータもあわせて最初から学習し直す必要があるため、その都度学習時間がかかるなど、非効率だった。
「yskip」は、こうした課題を解決すべく、代表的な分散表現学習法である「skip-gram model with negative sampling(SGNS)」を拡張して開発されており、新たなデータのみの学習で全データを学習する場合と比較して学習時間を短縮しつつ、同等の精度を維持する分散表現技術。同社ではTwitterに投稿されたつぶやきを検索可能な「リアルタイム検索」にて使用し、サービス品質の向上に役立てている。
なお、ヤフーが「yskip」とSGNSを、分散表現の精度を測定するために使われている5種のデータセットで検証したところ、同等の精度で学習できることが実証された。
「yskip」は、導入後の特許侵害の発生リスクを抑え、安心して使えるよう特許権を取得している。研究用途および商業利用において、その特許権のライセンスを無償提供するかたちでOSSとして公開した。
今回のOSSでの公開を通じて、「yskip」のさらなる利便性向上を図るとともに、データサイエンス領域の研究者・エンジニアコミュニティへの貢献を行っていく。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です