ニコニコ動画データ分析研究発表会
「ニコニコ動画のデータの収集方法や分析結果を発表する」―25日にGLOCOM国際大学にて「ニコニコ動画データ分析研究発表会」が開催された。
日本最大の動画投稿サービス「ニコニコ動画」は、動画上を流れるコメントや、自由に編集できるタグ機能といった特徴を持ち、単なる動画共有サービスにとどまらず、コミュニティサイトとしての側面も持つ。多くの人がアクセスする中で「アイドルマスター」「初音ミク(VOCALOID)」「東方プロジェクト」など、いろいろなムーブメントが生まれてきた。
今も毎日多くの動画が投稿されており、各動画は「再生数」「コメント数」「マイリスト数」などの情報がわかるようになっている。すでに投稿動画数は200万本を超えるが、これら膨大なデータを分析することで、どんな現象やコミュニケーションが起きているのかを明らかにしようとするのが今回の発表会の目的である。
分析する際の2つの障壁
独自にデータ収集が必要であること
しかし、そもそもニコニコ動画自体はデータを分析しやすいように広く提供しているわけではない。1つ1つの動画の再生数はわかるが、「ある特定のジャンルに属する動画の総再生数」などを知りたい場合は、独自に収集する必要がある。
発表者の多くは非公式ながらも公開されているAPIを利用したり、スクレイピング(サイトにアクセスし、取得したHTMLソースを解析してデータを得る技術)したりしてデータを集めているようだ。使用言語はPerl、DBは「持ち運びに便利だから」という理由でSQLiteを選んでいる人が多かった。
一方で数万件のデータを取得するうえに、ニコニコ動画では短時間での連続アクセスを遮断する措置がとられているため、「データ収集に時間がかかること」を問題としてあげていた。また、「集めたデータファイルが肥大していくこと」「ニコニコ動画に負荷をかけてしまっていること」なども挙げ、今後の課題としていた。
動画をカテゴライズする必要があること
動画情報を取得できたとしても「その動画がどういったジャンルの動画か」を判別する必要がある。特にニコニコ動画では、数種類の動画のパーツを再利用・加工し、新たな動画として編集する「MAD」という文化や、笑いを取るためにネタ化した動画が多い傾向があり、タイトルや説明文だけでは動画の内容を識別することが困難になっている。
これについては「タグ」を利用した解決がなされていた。タグは動画ごとに最大10個までつけることができ、動画の内容を端的に表していることが多い。動画情報取得時に登録されているタグについても収集しておくことで、ある程度の動画のカテゴライズが可能になるという。
「コミュニティ」について
なお、発表会の中で「コミュニティ」という言葉がよく使われた。ニコニコ動画の場合、全種類の動画を見るユーザーはごく少数派で、たいていは自分の興味がある動画ばかりを見る傾向がある(例として、「ゲームプレイ動画」「犬・猫の動画」「料理動画」など)。そういった「好きな人同士が同じ動画に集まっている」状況をコミュニティと呼んでいた。
ニコニコ動画では「ニコニコミュニティ」というコミュニティサービスも提供しているが、ここでの「コミュニティ」は、これを指すものではない。
ニコニコ動画にはこういった集団が大小無数に存在しているが、その全容や規模については、あまり明らかになっていなかった。今回の発表会では多くのデータが出され、こういった事象についても分析結果が発表されていった。