はじめに
インターネット上でのソーシャル・ネットワークサービス(SNS)やブログなどのサービスの普及により、人のコミュニケーションの履歴とそれに関連するテキストが多く取得できるようになりました。我々は、このような「コンテンツ」「人」、そしてその人の「行動」の履歴などのさまざまな情報を、テキストとネットワークの両方の観点から統合的に分析する技術を「ソーシャル・アナリティクス」と呼んでいます。これにより、1つの観点からだけではわからない新しい知識を得る、人の興味をモデル化して詳細に分析する、などといったことが可能です。
コミュニケーション履歴を分析する2つの方法
今まで、SNSやブログといったインターネットのコミュニケーションの履歴を分析する方法はいくつか提案されてきました。それらの分析は、主に「コンテンツ」であるテキストに着目したものと、「行動」に着目したものに分けることができます。
「コンテンツ」に着目したテキスト分析
コンテンツに着目したテキスト分析では、そのテキストから情報抽出技術によって取得した情報と、そのテキストに付随しているメタ情報(生成日時、生成した人、カテゴリ、等)を用いて分析を行います。IBMではこのようなテキスト分析技術として、テキストマイニング・システムを製品化(ICA:IBM Content Analyzer)しています。テキスト分析ではブログでどのような話題が多いのか時系列的に調べたり、ブログの筆者の性別・年代などがわかっている場合はそれらの部分集合を全体の集合と比較してその性別や年代に特化した興味を調べたりできます。また、一人のユーザーに着目すると、そのユーザーが読んだブログ集合を分析することで、どのような興味を持っているのかを調べることができ、それを基に広告などを配信することも可能です。
「行動」に着目した分析
一方、行動に着目した分析は、人とその人が行った行動、およびその対象コンテンツの関係を、誰と何、誰と誰が関係しているのかをベクトル表現などに表し、ネットワーク構造に変換して分析を行うものです。この分析では、行動の履歴が似ている人同士をクラスタ化してまとめたり、過去の行動の履歴を基に新しいコンテンツなどを推薦したりできます。Webでの購買サイトで「この商品を買ったお客様はこちらの商品も買っています」などのように表示される情報は、この分析の結果から提示されていると思ってよいでしょう。
これらの「コンテンツ」中心、「行動」中心の分析のどちらが適切な分析方法なのかは、データの性質や行動履歴の頻度によって変わってきます。テキスト分析・ネットワーク分析にはそれぞれに適したデータ構造があるため、従来は分析を行う際に基本的にどちらを中心とした分析にするかを事前に決定して、データ構造を作成しておく必要がありました。
今回紹介するテキスト・ネットワーク分析統合プラットフォーム(TExt and Network Analysis、以下、TENAと略します)は、「コンテンツ」および「人」とそれに付随する行動などの関係を「ネットワーク」として1つのデータ構造で保持し、それに対してアクセスできるフレームワークの提供により、2種の分析手法を1つのプラットフォーム上で実現します。実際にブログやSNSなどの履歴の分析を行ってみると、「行動にある特徴を持ったユーザー集合を同定し、そのユーザーが生成した日記のトピック傾向を知りたい」、「あるトピックについてブログを書いたユーザーの行動の他のブログの閲覧傾向を知りたい」といったような、テキストと行動にまたがった分析がしたくなるものです。本稿では、TENAのデータ構造およびAPI概要と、その上に構築可能なアプリケーションを、実例とともに紹介していきます。