本連載は、Apache Sparkによるプログラミングやデータ処理のやり方を、ScalaやPythonのエンジニアに向けて解説する入門記事です。第1回では、ローカル環境の構築方法やインタラクティブシェルの使い方、「RDD」「DAG」「遅延実行」といった重要な概念を紹介します。
この記事は参考になりましたか?
- ゼロからはじめるSparkアプリケーション入門連載記事一覧
-
- Sparkの主な拡張コンポーネントの紹介と、SparkSQLを利用した簡単な分析
- Sparkアプリケーションの基本と、はじめに押さえておきたい重要な概念
- この記事の著者
-
田中 裕一(日本アイ・ビー・エム株式会社)(タナカ ユウイチ)
Web系・広告系企業にて、Hadoop/Spark/Kafka等Hadoopエコシステムを利用した広告システム(DMP)・行動分析基盤・レコメンド基盤の全体アーキテクチャ設計やプログラミング、最適化、行動解析を担当。Spark/Hadoopエコシステムを筆頭にOSSを組み合わせた大規模なアーキテクチ...
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です