【デブサミ2016】セッションレポート

【デブサミ2016】18-B-5レポート
Apache Sparkを利用した「つぶやきビッグデータ」クローンとリコメンドシステムの構築

2016/03/10 14:00

ポスト

　大規模なデータの蓄積や分析を分散処理環境下で行う場合、まず候補に挙がるのがHadoop辺りになるかと思いますが、最近ではSparkというキーワードも良く聞かれるようになりました。2016年2月18日に目黒雅叙園で開催された「Developers Summit 2016」では、そのような疑問に応えるべく、GMOインターネット株式会社の野田純一氏が『Apache Sparkを利用した「つぶやきビッグデータ」クローンとリコメンドシステムの構築』と題した発表を行いました。当稿ではそのセッション内容についてレポートしていきたいと思います。

ポスト

（講演資料はSlideShareを参照してください）

　まず始めに野田氏は、「『つぶやきビッグデータ』ってご存知ですか？」と会場の参加者にアンケートを取りました。これはNHKのテレビ番組内の企画の一つとして放送されているもので、NTTデータ社が作成しています。野田氏はこれをSparkで作ってみよう！　と思い立ち、プロジェクトを進めていきました。

SparkおよびSpark Streamingについて

　今回のシステムを構築する上で活用する「Spark」ですが、Hadoopエコシステムの一部として扱われるものの、直接Hadoopと関係しているわけではありません。Sparkについては、RDD（Resilient Distributed Dataset）という抽象化データセットを技術基盤とし、HadoopのMapReduceとは異なるアプローチ（DAG）で分散処理を行うことで、Hadoopと比較して非常に高速に処理できることが特徴の一つとして挙げられています。

　Spark StreamingはSparkサブシステムの一つで、リアルタイムに流れてくるストリームに対する集計を行います。「直近N時間の」というような条件指定をウインドウ集計機能で行うことが可能です。

会員登録無料すると、続きをお読みいただけます

新規会員登録無料のご案内

・全ての過去記事が閲覧できます
・会員限定メルマガを受信できます
・翔泳社の本が買える！
500円分のポイントをプレゼント

メールバックナンバー

新規会員登録無料

Page 1
- SparkおよびSpark Streamingについて
Page 2
- 検証サービスの解説

次のページ
検証サービスの解説

この記事は参考になりましたか？

印刷用を表示

ポスト

【デブサミ2016】セッションレポート連載記事一覧: 【デブサミ2016】19-D-Lレポート　エンジニアの成長こそが組織の価値を高める源泉！...

【デブサミ2016】18-D-4レポート　スクエニのゲームインフラを構築・運用してわかった...

【デブサミ2016】19-C-6レポート　非エンジニアの窓口担当者がChatOpsで検証環...

もっと読む

この記事の著者: しんや（シンヤ）

2010年末～2013年前半位までの期間で興味のある勉強会に頻繁に参加。参加してきた勉強会のレポートブログとTogetterをひたすらまとめ続け、まとめ職人（自称/他称含む）として暫く過ごしておりました。色々な縁あってDevelopers Summit 2013では『公募レポーター』も務めました。2013年05月『出張ブロガー』を経て2013年08月にクラスメソッド株式会社へ転職。現在は業務（AWS及びその周辺技術を扱う）の...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事