(講演資料はSlideShareを参照してください)
まず始めに野田氏は、「『つぶやきビッグデータ』ってご存知ですか?」と会場の参加者にアンケートを取りました。これはNHKのテレビ番組内の企画の一つとして放送されているもので、NTTデータ社が作成しています。野田氏はこれをSparkで作ってみよう! と思い立ち、プロジェクトを進めていきました。
SparkおよびSpark Streamingについて
今回のシステムを構築する上で活用する「Spark」ですが、Hadoopエコシステムの一部として扱われるものの、直接Hadoopと関係しているわけではありません。Sparkについては、RDD(Resilient Distributed Dataset)という抽象化データセットを技術基盤とし、HadoopのMapReduceとは異なるアプローチ(DAG)で分散処理を行うことで、Hadoopと比較して非常に高速に処理できることが特徴の一つとして挙げられています。
Spark StreamingはSparkサブシステムの一つで、リアルタイムに流れてくるストリームに対する集計を行います。「直近N時間の」というような条件指定をウインドウ集計機能で行うことが可能です。