SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

CodeZineニュース

ヤフー、分散表現の学習時間を短縮化するAI技術「yskip」をOSSで公開

  • X ポスト
  • このエントリーをはてなブックマークに追加

  • X ポスト
  • このエントリーをはてなブックマークに追加

 ヤフーは、AI・自然言語処理技術の1つである分散表現の学習時間を短縮する技術「yskip」を、4月18日にオープンソースソフトウェア(OSS)として公開した。

 分散表現は、単語をベクトルで表現する自然言語処理領域のAI技術の1つで、大量のテキストデータからさまざまな単語の関係性を機械学習して、単語同士の意味の相違を機械的に推定でき、同社はユーザーの興味関心情報と記事や広告のマッチングに活用している。

 より大量のテキストデータを用いて学習することで、精度向上が期待される一方で、インターネットサービス上のテキストデータを活用する場合は分散表現の学習モデルを頻繁に更新する必要があり、その際には新しいデータとともに、すでに学習したデータもあわせて最初から学習し直す必要があるため、その都度学習時間がかかるなど、非効率だった。

 「yskip」は、こうした課題を解決すべく、代表的な分散表現学習法である「skip-gram model with negative sampling(SGNS)」を拡張して開発されており、新たなデータのみの学習で全データを学習する場合と比較して学習時間を短縮しつつ、同等の精度を維持する分散表現技術。同社ではTwitterに投稿されたつぶやきを検索可能な「リアルタイム検索」にて使用し、サービス品質の向上に役立てている。

 なお、ヤフーが「yskip」とSGNSを、分散表現の精度を測定するために使われている5種のデータセットで検証したところ、同等の精度で学習できることが実証された。

Word Similarityタスクのデータセット3種類(WordSim353、MEN、SimLex999)とAnalogyタスクのデータセット2種類(GoogleデータとMSRデータ)を用いた結果
Word Similarityタスクのデータセット3種類(WordSim353、MEN、SimLex999)とAnalogyタスクのデータセット2種類(GoogleデータとMSRデータ)を用いた結果

 「yskip」は、導入後の特許侵害の発生リスクを抑え、安心して使えるよう特許権を取得している。研究用途および商業利用において、その特許権のライセンスを無償提供するかたちでOSSとして公開した。

 今回のOSSでの公開を通じて、「yskip」のさらなる利便性向上を図るとともに、データサイエンス領域の研究者・エンジニアコミュニティへの貢献を行っていく。

関連リンク

この記事は参考になりましたか?

  • X ポスト
  • このエントリーをはてなブックマークに追加
この記事の著者

CodeZine編集部(コードジンヘンシュウブ)

CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

  • X ポスト
  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/article/detail/11502 2019/04/18 16:51

おすすめ

アクセスランキング

アクセスランキング

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング