SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

【デブサミ2016】セッションレポート

【デブサミ2016】18-B-5レポート
Apache Sparkを利用した「つぶやきビッグデータ」クローンとリコメンドシステムの構築

  • X ポスト
  • このエントリーをはてなブックマークに追加

 大規模なデータの蓄積や分析を分散処理環境下で行う場合、まず候補に挙がるのがHadoop辺りになるかと思いますが、最近ではSparkというキーワードも良く聞かれるようになりました。2016年2月18日に目黒雅叙園で開催された「Developers Summit 2016」では、そのような疑問に応えるべく、GMOインターネット株式会社の野田純一氏が『Apache Sparkを利用した「つぶやきビッグデータ」クローンとリコメンドシステムの構築』と題した発表を行いました。当稿ではそのセッション内容についてレポートしていきたいと思います。

  • X ポスト
  • このエントリーをはてなブックマークに追加

GMOインターネット株式会社 次世代システム研究室 アーキテクト 野田純一氏
GMOインターネット株式会社 次世代システム研究室 アーキテクト 野田純一氏

(講演資料はSlideShareを参照してください)

 まず始めに野田氏は、「『つぶやきビッグデータ』ってご存知ですか?」と会場の参加者にアンケートを取りました。これはNHKのテレビ番組内の企画の一つとして放送されているもので、NTTデータ社が作成しています。野田氏はこれをSparkで作ってみよう! と思い立ち、プロジェクトを進めていきました。

SparkおよびSpark Streamingについて

 今回のシステムを構築する上で活用する「Spark」ですが、Hadoopエコシステムの一部として扱われるものの、直接Hadoopと関係しているわけではありません。Sparkについては、RDD(Resilient Distributed Dataset)という抽象化データセットを技術基盤とし、HadoopのMapReduceとは異なるアプローチ(DAG)で分散処理を行うことで、Hadoopと比較して非常に高速に処理できることが特徴の一つとして挙げられています。

 Spark StreamingはSparkサブシステムの一つで、リアルタイムに流れてくるストリームに対する集計を行います。「直近N時間の」というような条件指定をウインドウ集計機能で行うことが可能です。

次のページ
検証サービスの解説

この記事は参考になりましたか?

  • X ポスト
  • このエントリーをはてなブックマークに追加
【デブサミ2016】セッションレポート連載記事一覧

もっと読む

この記事の著者

しんや(シンヤ)

2010年末~2013年前半位までの期間で興味のある勉強会に頻繁に参加。参加してきた勉強会のレポートブログとTogetterをひたすらまとめ続け、まとめ職人(自称/他称含む)として暫く過ごしておりました。色々な縁あってDevelopers Summit 2013では『公募レポーター』も務めました。2013年05月『出張ブロガー』を経て2013年08月にクラスメソッド株式会社へ転職。現在は業務(AWS及びその周辺技術を扱う)の...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

  • X ポスト
  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/article/detail/9265 2016/03/10 14:00

おすすめ

アクセスランキング

アクセスランキング

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング