ポータルサイト「goo」を運営するNTTレゾナントは12月3日、gooで培った技術やノウハウを「gooラボ」で順次公開していくと発表。その第一弾として、4種類の日本語解析APIを公開した。gooのWeb検索サービスは、2005年より日本語自然文での検索が可能になっている。
公開された4種類の日本語解析APIは次のとおり。
「語句類似度算出」API
2つの語句に対して、構成単語や音素の情報を踏まえ、その類似度合いを算出。「トーキョー」と「東京」、「phablet」と「ファブレット」など、発音は似ているが表記が異なる語句を、類似度合いにより同じ語句と見なす。この機能を活用すると、目視や辞書を使って行っていたデータの統合作業を自動化し、データ分析の精度と生産性を向上させることができる。
「固有表現抽出」API
トレンドや評判の解析に必須となる人名や地名、組織名などを抽出。「鈴木さんがきょうの9時30分に横浜に行きます。」という文字列から、人名として「鈴木」、地名として「横浜」、日付表現として「きょう」、時刻表現として「9時30分」を抽出する。抽出された言葉を分類・集計することにより、SNS上の投稿からホットトピックを発見するといった分析が容易になる。
「ひらがな化」API
漢字混じりで書かれた文字列を”ひらがな”もしくは“カタカナ”による記載に変換。「漢字が混ざっている文章」という文字列を「かんじが まざっている ぶんしょう」と変換する。変換後の文字列には、文中の適当な位置に半角スペースが挿入されるため、子供向けコンテンツの作成などにも便利。
「形態素解析」API
日本語の文字列を、形態素と呼ばれる単位に分割。「この商品が大好きです」という文字列を「この」「商品」「が」「大好き」「です」というように分割する。解析結果を集計することにより、レビュー記事でよく用いられている表現の分析といったことが容易になる。
同社は、API公開に踏みきった理由として、自社コンテンツを提供する企業やビッグデータ解析技術を求める企業においても活用が見込まれることを挙げている。今後も、ビッグデータ解析に役立つ技術の公開など、企業や大学などにニーズが高い技術を公開していくという。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です