SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

テキスト・ネットワーク分析統合プラットフォームを学ぶ

テキスト・ネットワーク分析統合プラットフォーム
第1回:データ構造の詳細、APIの概要、アプリ構築

インターネットのコミュニケーション履歴情報をネットワークとして捉える

  • X ポスト
  • このエントリーをはてなブックマークに追加

 SNSやブログなどのサービスの普及により、さまざまな情報が取得できるようになりました。本シリーズでは、情報を「ネットワーク」というデータ構造で保持し、2種の分析手法を1つのプラットフォーム上で実現するテキスト・ネットワーク分析統合プラットフォーム「TENA」を紹介します。本稿では、TENAのデータ構造やAPI概要、構築可能なアプリケーションについて説明します。

  • X ポスト
  • このエントリーをはてなブックマークに追加

はじめに

 インターネット上でのソーシャル・ネットワークサービス(SNS)やブログなどのサービスの普及により、人のコミュニケーションの履歴とそれに関連するテキストが多く取得できるようになりました。我々は、このような「コンテンツ」「人」、そしてその人の「行動」の履歴などのさまざまな情報を、テキストとネットワークの両方の観点から統合的に分析する技術を「ソーシャル・アナリティクス」と呼んでいます。これにより、1つの観点からだけではわからない新しい知識を得る、人の興味をモデル化して詳細に分析する、などといったことが可能です。

コミュニケーション履歴を分析する2つの方法

 今まで、SNSやブログといったインターネットのコミュニケーションの履歴を分析する方法はいくつか提案されてきました。それらの分析は、主に「コンテンツ」であるテキストに着目したものと、「行動」に着目したものに分けることができます。

「コンテンツ」に着目したテキスト分析

 コンテンツに着目したテキスト分析では、そのテキストから情報抽出技術によって取得した情報と、そのテキストに付随しているメタ情報(生成日時、生成した人、カテゴリ、等)を用いて分析を行います。IBMではこのようなテキスト分析技術として、テキストマイニング・システムを製品化(ICA:IBM Content Analyzer)しています。テキスト分析ではブログでどのような話題が多いのか時系列的に調べたり、ブログの筆者の性別・年代などがわかっている場合はそれらの部分集合を全体の集合と比較してその性別や年代に特化した興味を調べたりできます。また、一人のユーザーに着目すると、そのユーザーが読んだブログ集合を分析することで、どのような興味を持っているのかを調べることができ、それを基に広告などを配信することも可能です。

「行動」に着目した分析

 一方、行動に着目した分析は、人とその人が行った行動、およびその対象コンテンツの関係を、誰と何、誰と誰が関係しているのかをベクトル表現などに表し、ネットワーク構造に変換して分析を行うものです。この分析では、行動の履歴が似ている人同士をクラスタ化してまとめたり、過去の行動の履歴を基に新しいコンテンツなどを推薦したりできます。Webでの購買サイトで「この商品を買ったお客様はこちらの商品も買っています」などのように表示される情報は、この分析の結果から提示されていると思ってよいでしょう。

 これらの「コンテンツ」中心、「行動」中心の分析のどちらが適切な分析方法なのかは、データの性質や行動履歴の頻度によって変わってきます。テキスト分析・ネットワーク分析にはそれぞれに適したデータ構造があるため、従来は分析を行う際に基本的にどちらを中心とした分析にするかを事前に決定して、データ構造を作成しておく必要がありました。

 今回紹介するテキスト・ネットワーク分析統合プラットフォーム(TExt and Network Analysis、以下、TENAと略します)は、「コンテンツ」および「人」とそれに付随する行動などの関係を「ネットワーク」として1つのデータ構造で保持し、それに対してアクセスできるフレームワークの提供により、2種の分析手法を1つのプラットフォーム上で実現します。実際にブログやSNSなどの履歴の分析を行ってみると、「行動にある特徴を持ったユーザー集合を同定し、そのユーザーが生成した日記のトピック傾向を知りたい」、「あるトピックについてブログを書いたユーザーの行動の他のブログの閲覧傾向を知りたい」といったような、テキストと行動にまたがった分析がしたくなるものです。本稿では、TENAのデータ構造およびAPI概要と、その上に構築可能なアプリケーションを、実例とともに紹介していきます。

会員登録無料すると、続きをお読みいただけます

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

次のページ
テキスト・ネットワーク分析統合プラットフォーム:基本概念

この記事は参考になりましたか?

  • X ポスト
  • このエントリーをはてなブックマークに追加
テキスト・ネットワーク分析統合プラットフォームを学ぶ連載記事一覧
この記事の著者

村上 明子(ムラカミ アキコ)

日本アイ・ビー・エム(株)東京基礎研究所 主任研究員1999年日本アイ・ビー・エム(株)入社。以後、同社東京基礎研究所において自然言語処理の研究に従事。テキスト・マイニング・ツールIBM TAKMIの研究開発において、品詞管理や辞書作成などを担当した。昨今では、電子メールや掲示板など人と人のコミュニケーションの文書を対象としたコミュニケーション分析をなどを行っている。ほかに著書として「チャンス発見の情報技術(東京電機大学出版)(共著)」、訳書として「Google Hacks 第2版、第3版(オライリージャパン)(共訳)」がある。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

  • X ポスト
  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/article/detail/4097 2009/07/15 14:00

おすすめ

アクセスランキング

アクセスランキング

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング