SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

CodeZineニュース

AWS、Pythonから「MeCab」を利用する際の語彙データをOpen Dataとして公開

  • X ポスト
  • このエントリーをはてなブックマークに追加

  • X ポスト
  • このエントリーをはてなブックマークに追加

 アマゾンウェブサービスジャパンは、日本語自然言語処理で定番の形態素解析器である「MeCab」を、ラッパーライブラリである「fugashi」経由でPythonにて使用する際の語彙データ「UniDic」が、「Open Dataset」に追加されたことを、10月9日に発表した。

 「MeCab」は、オープンソースの形態素解析器で、日本語の形態素解析において幅広く用いられており、言語、辞書、コーパスに依存しない汎用的な設計を基本とし、高速に動作する。

 「fugashi」は、「MeCab」をPythonから使用する際のラッパーライブラリで、unidic-pyとの連携によって「UniDic」を簡単に読み込んで使用できる。

 「UniDic」は、国立国語研究所によって構築された、日本語テキストを単語に分割し、形態論情報を付与するための電子化辞書。

 データはAmazon S3上でホストされているので、AWSで日本語自然言語処理モデルの開発を行う際に、すばやくデータをダウンロードして、利用が可能になっている。

関連リンク

この記事は参考になりましたか?

  • X ポスト
  • このエントリーをはてなブックマークに追加
この記事の著者

CodeZine編集部(コードジンヘンシュウブ)

CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

  • X ポスト
  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/article/detail/13033 2020/10/12 14:00

おすすめ

アクセスランキング

アクセスランキング

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング