「Apache Spark」に関する記事
-
2021/04/02
「Apache Spark 3.1」リリース。Spark-on-Kubernetesが本番環境に対応
Apache Foundationは、オープンソースのクラスタコンピューティングフレームワークの最新版となる「Apache Spark 3.1」の一般提供を、3月に開始している。
-
2017/02/08
試して納得! IBM Watson Data Platform 〜 データサイエンティストからアプリ開発者までのコラボを実現し、価値創出サイクルを加速するデータ分析基盤
「ビッグデータ」は黎明期を過ぎ、本格的な発展期を迎えました。取り組みも「収集したビッグデータを可視化して課題の抽出・解決を図る」という単純なものから「分析結果をもとに未来を予測し、ビジネスの最適化、新しい価値の創出につなげる」といった、より複雑なものへと変化しつつあります。こうした変化を見極めたIBMは、データから価値を引き出し、企業の変革をリードするデータ分析基盤として「IBM Watson Data Platform」を発表しました。本稿では、その概要やメリットとともに、データサイエンティ...
-
2016/07/08
新しいビッグデータ分析基盤「Apache Spark」登場の背景と、押さえておきたい活用ポイント
ビッグデータ分析を行うための新しい基盤としてApache Sparkが注目を集めている。Hadoopがデータ分析基盤のデファクトスタンダードとして定着した今、なぜSparkが登場したのだろうか。その経緯やHadoopとの違い、IBMのSparkへの取り組み、そしてプラットフォーム選択における最適解について、日本アイ・ビー・エム 田中裕一氏、中島康裕氏に伺った。
-
2016/05/31
Sparkの主な拡張コンポーネントの紹介と、SparkSQLを利用した簡単な分析
前回は、Sparkの入門ということでローカルPCにSparkの開発環境を構築し、インタラクティブシェルを使ってScala、PythonでのSparkのコアコンポーネントを使ったプログラミングを行いました。また、サンプルを用いてRDD、DAGや遅延実行といったSparkの概念についても簡単に紹介致しました。今回は、Sparkをより便利に使い込むためにSparkコアを拡張した各コンポーネントを使ったプログラミングを行っていきます。各コンポーネントの概要を見た後、それぞれのプログラミングを行っていき...
-
2016/05/02
Sparkアプリケーションの基本と、はじめに押さえておきたい重要な概念
本連載は、Apache Sparkによるプログラミングやデータ処理のやり方を、ScalaやPythonのエンジニアに向けて解説する入門記事です。第1回では、ローカル環境の構築方法やインタラクティブシェルの使い方、「RDD」「DAG」「遅延実行」といった重要な概念を紹介します。
-
2015/12/04
Apache Sparkと機械学習、データ基盤にフォーカスした未来志向のテクノロジーカンファレンス
翔泳社は2015年11月17日、東京・六本木にあるベルサール六本木にて「Data Engineering Conference 2015 Powered by Developers Summit」を開催した(協賛:日本IBM)。翔泳社の開発者向けイベント「Developers Summit」のスペシャル版として、会場では、Apache Sparkや機械学習に着目したデータ基盤をテーマに、海外からもスピーカーを招聘して開発者向けセッションが行われた。本稿では、その模様をお伝えする。