Shoeisha Technology Media

CodeZine(コードジン)

記事種別から探す

【デブサミ2016】18-B-5レポート
Apache Sparkを利用した「つぶやきビッグデータ」クローンとリコメンドシステムの構築

  • LINEで送る
  • このエントリーをはてなブックマークに追加
2016/03/10 14:00

 大規模なデータの蓄積や分析を分散処理環境下で行う場合、まず候補に挙がるのがHadoop辺りになるかと思いますが、最近ではSparkというキーワードも良く聞かれるようになりました。2016年2月18日に目黒雅叙園で開催された「Developers Summit 2016」では、そのような疑問に応えるべく、GMOインターネット株式会社の野田純一氏が『Apache Sparkを利用した「つぶやきビッグデータ」クローンとリコメンドシステムの構築』と題した発表を行いました。当稿ではそのセッション内容についてレポートしていきたいと思います。

目次
GMOインターネット株式会社 次世代システム研究室 アーキテクト 野田純一氏
GMOインターネット株式会社 次世代システム研究室 アーキテクト 野田純一氏

(講演資料はSlideShareを参照してください)

 まず始めに野田氏は、「『つぶやきビッグデータ』ってご存知ですか?」と会場の参加者にアンケートを取りました。これはNHKのテレビ番組内の企画の一つとして放送されているもので、NTTデータ社が作成しています。野田氏はこれをSparkで作ってみよう! と思い立ち、プロジェクトを進めていきました。

SparkおよびSpark Streamingについて

 今回のシステムを構築する上で活用する「Spark」ですが、Hadoopエコシステムの一部として扱われるものの、直接Hadoopと関係しているわけではありません。Sparkについては、RDD(Resilient Distributed Dataset)という抽象化データセットを技術基盤とし、HadoopのMapReduceとは異なるアプローチ(DAG)で分散処理を行うことで、Hadoopと比較して非常に高速に処理できることが特徴の一つとして挙げられています。

 Spark StreamingはSparkサブシステムの一つで、リアルタイムに流れてくるストリームに対する集計を行います。「直近N時間の」というような条件指定をウインドウ集計機能で行うことが可能です。


  • LINEで送る
  • このエントリーをはてなブックマークに追加

著者プロフィール

  • しんや(シンヤ)

    2010年末~2013年前半位までの期間で興味のある勉強会に頻繁に参加。参加してきた勉強会のレポートブログとTogetterをひたすらまとめ続け、まとめ職人(自称/他称含む)として暫く過ごしておりました。色々な縁あってDevelopers Summit 2013では『公募レポーター』も務めました。...

バックナンバー

連載:【デブサミ2016】セッションレポート

もっと読む

おすすめ記事

All contents copyright © 2006-2016 Shoeisha Co., Ltd. All rights reserved. ver.1.5