SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

目的に応じて適材適所で使うPHPライブラリ

文章の中のはてなキーワードをハイライトさせる

目的に応じて適材適所で使うPHPライブラリ(5)

  • このエントリーをはてなブックマークに追加

 本記事では、オープンソースの形態素解析エンジン「Mecab」を使って、はてなキーワードのRSSから新着キーワードを収集し、形態素解析の際に新しい言葉を検出できるようにmecabの辞書を再構築する方法や、Ajaxからphp-mecabを呼び出してHTML文章内のキーワードをハイライトさせ、はてなキーワードのページへリンクを貼る方法を説明します。

  • このエントリーをはてなブックマークに追加

はじめに

 自然言語で書かれた文章をその言語で意味を持つ最小の単位(形態素)に分割する技術を形態素解析と言います。形態素解析はインターネットの世界ではWebページ上のキーワードの出現頻度を調べたり、出現するキーワード同士の関連性を調べ検索結果に反映させる、といった使われ方をしています。

形態素解析の概要
形態素解析の概要

 オープンソースの形態素解析エンジンの1つにMeCab(和布蕪)というソフトウェアがあり、phpからMeCabを利用する拡張モジュールにMeCab extensionがあります。MeCabは品詞などの情報付きの単語リストである辞書をMeCab本体とは別にインストールする形式のソフトウェアであり、辞書の精度によって形態素解析結果のレベルをコントロールできるという特徴があります。話題になっている言葉やネットで生まれた流行語が集まっているメディアの1つにはてなキーワードがあります。はてなキーワードではユーザーが自由にキーワードを登録できるため、日々新しいキーワードが蓄積されています。

 本記事では、はてなキーワードのRSSを用いて新着キーワードを収集して形態素解析の際に新しい言葉を検出できるようにmecabの辞書を再構築し、Ajaxの中からphp-mecabを呼び出してHTML上の文章の中にあるキーワードをハイライトさせ、はてなキーワードのページへリンクを貼る方法をサンプルを交えながら説明します。

今回の作成するシステム概要
今回の作成するシステム概要

対象読者

  • PHPでのWebアプリケーション開発について基本的なことを理解している方

サンプルアプリケーションの概要

 サンプルアプリケーションのファイル構成は、以下の表のとおりとなります。すべて同じディレクトリに配置しています。

サンプルアプリケーションのファイル構成
ファイル名 概要
config.php MySQLデータベース接続情報を設定するファイル
keyword_get.php はてなキーワードを収集してDBに保存するPHP
keyword_dic.php 収集したはてなキーワードからMeCab辞書ファイルを作成するPHP
Util.class.php ファイル出力やはてなキーワード検出を行うクラス
index.html ハイライトさせる文章とAjaxを記載するファイル
replace.php Ajaxにより呼び出され、文章内のはてなキーワードを検出するPHP

 表の上のファイルより順を追って説明していきます。

動作確認環境

  • CentOS 5.3
  • Httpd 2.0.61
  • PHP 5.3.0
  • MySQL 5.1.14
  • MeCab-0.98
  • prototype.js 1.6.1

会員登録無料すると、続きをお読みいただけます

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

次のページ
MeCabのインストール

この記事は参考になりましたか?

  • このエントリーをはてなブックマークに追加
目的に応じて適材適所で使うPHPライブラリ連載記事一覧

もっと読む

この記事の著者

山田 祥寛(ヤマダ ヨシヒロ)

静岡県榛原町生まれ。一橋大学経済学部卒業後、NECにてシステム企画業務に携わるが、2003年4月に念願かなってフリーライターに転身。Microsoft MVP for Visual Studio and Development Technologies。執筆コミュニティ「WINGSプロジェクト」代表。主な著書に「独習シリーズ(Java・C#・Python・PHP・Ruby・JSP&サーブレットなど)」「速習シリーズ(ASP.NET Core・Vue.js・React・TypeScript・ECMAScript、Laravelなど)」「改訂3版JavaScript本格入門」「これからはじめるReact実践入門」「はじめてのAndroidアプリ開発 Kotlin編 」他、著書多数

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

WINGSプロジェクト 片渕 彼富(カタフチ カノトミ)

WINGSプロジェクトについて> 有限会社 WINGSプロジェクトが運営する、テクニカル執筆コミュニティ(代表 山田祥寛)。主にWeb開発分野の書籍/記事執筆、翻訳、講演等を幅広く手がける。2018年11月時点での登録メンバは55名で、現在も執筆メンバを募集中。興味のある方は、どしどし応募頂きたい。著書記事多数。 RSS Twitter: @yyamada(公式)、@yyamada/wings(メンバーリスト) Facebook

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/article/detail/4991 2010/03/25 14:00

おすすめ

アクセスランキング

アクセスランキング

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング