はじめに
自然言語で書かれた文章をその言語で意味を持つ最小の単位(形態素)に分割する技術を形態素解析と言います。形態素解析はインターネットの世界ではWebページ上のキーワードの出現頻度を調べたり、出現するキーワード同士の関連性を調べ検索結果に反映させる、といった使われ方をしています。
オープンソースの形態素解析エンジンの1つにMeCab(和布蕪)というソフトウェアがあり、phpからMeCabを利用する拡張モジュールにMeCab extensionがあります。MeCabは品詞などの情報付きの単語リストである辞書をMeCab本体とは別にインストールする形式のソフトウェアであり、辞書の精度によって形態素解析結果のレベルをコントロールできるという特徴があります。話題になっている言葉やネットで生まれた流行語が集まっているメディアの1つにはてなキーワードがあります。はてなキーワードではユーザーが自由にキーワードを登録できるため、日々新しいキーワードが蓄積されています。
本記事では、はてなキーワードのRSSを用いて新着キーワードを収集して形態素解析の際に新しい言葉を検出できるようにmecabの辞書を再構築し、Ajaxの中からphp-mecabを呼び出してHTML上の文章の中にあるキーワードをハイライトさせ、はてなキーワードのページへリンクを貼る方法をサンプルを交えながら説明します。
対象読者
- PHPでのWebアプリケーション開発について基本的なことを理解している方
サンプルアプリケーションの概要
サンプルアプリケーションのファイル構成は、以下の表のとおりとなります。すべて同じディレクトリに配置しています。
ファイル名 | 概要 |
---|---|
config.php | MySQLデータベース接続情報を設定するファイル |
keyword_get.php | はてなキーワードを収集してDBに保存するPHP |
keyword_dic.php | 収集したはてなキーワードからMeCab辞書ファイルを作成するPHP |
Util.class.php | ファイル出力やはてなキーワード検出を行うクラス |
index.html | ハイライトさせる文章とAjaxを記載するファイル |
replace.php | Ajaxにより呼び出され、文章内のはてなキーワードを検出するPHP |
表の上のファイルより順を追って説明していきます。
動作確認環境
- CentOS 5.3
- Httpd 2.0.61
- PHP 5.3.0
- MySQL 5.1.14
- MeCab-0.98
- prototype.js 1.6.1