開発者のための情報メディア

ニュース

新規
会員登録

CodeZineニュース

AWS、日本語自然言語処理の語彙データ「SudachiDict」と単語ベクトル「chiVe」をOpen Dataに追加

CodeZine編集部[著]

2020/10/16 08:00

ポスト

ポスト

　アマゾンウェブサービスジャパンは、日本語自然言語処理の形態素解析器である「Sudachi」の語彙「SudachiDict」と、単語ベクトル「chiVe」のデータが、「Open Dataset」に追加されたことを、10月9日に発表した。

　「Sudachi」は、オープンソースの形態素解析器で、主に文章のテキスト分割、品詞の付与、そして正規化処理を行う。従来の形態素解析器と比較して、複数のテキスト分割単位を併用することが可能で、UniDicやNEologdをベースとした多数の語彙を収録しており、プラグインによりさまざまな機能を追加できる。

　その語彙データである「SudachiDict」は、UniDicの収録語とその正規化表記、分割単位を収録した「Small」、基本的な語彙を収録した「Core」、雑多な固有名詞まで収録した「Full」の3種類が提供されており、用途に合わせて利用することができる。

　「chiVe」は大規模コーパスと複数粒度分割に基づく、日本語単語ベクトル。オープンソースの日本語自然言語処理ライブラリであるGiNZAと組み合わせて利用することで、より高精度なモデル開発が可能。

　データはAmazon S3上でホストされているので、AWSで日本語自然言語処理モデルの開発を行う際に、すばやくデータをダウンロードして、利用が可能になっている。

関連リンク: ブログポスト

Amazon Web Services

「Sudachi」

この記事は参考になりましたか？

印刷用を表示

ポスト

この記事の著者: CodeZine編集部（コードジンヘンシュウブ）

CodeZineは、株式会社翔泳社が運営する開発者のための情報メディアです。日々の開発に取り組むエンジニアやテクノロジーを学びたい方に向けて、プログラミングやAI活用、開発ツール、エンジニアの学びとキャリアに関する記事をお届けしています。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事

この記事は参考になりましたか？

この記事をシェア

ポスト

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

・全ての過去記事が閲覧できます
・会員限定メルマガを受信できます

メールバックナンバー

新規会員登録無料