ビズリーチは、ビズリーチAI室で利用しているHR領域に適した「単語ベクトル」を3月13日に公開し、データセットを提供した。
今回公開したのは、2018年1月に求人検索エンジン「スタンバイ」に掲載されていた約276万件の求人情報(のべ約10億単語)から獲得した、「単語ベクトル」と呼ばれる言語研究用データ。
求人情報に含まれる単語について、周辺の単語群との傾向を機械学習を用いて学習し、その特徴をword2vecによって数値化(ベクトル化)したもので、単語の特徴が数値化されることで自然言語処理の精度が向上し、さまざまな目的に利用可能となる。
なお、単語ベクトルのデータセットは、100次元、200次元の2種類を用意している。
【関連リンク】
・ビズリーチ
・単語ベクトルデータセット(GitHub)
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です