CodeZineを運営する翔泳社より、4月12日(金)に書籍『Apache Spark徹底入門』が発売となりました。
本書はビッグデータを主な対象とするデータ分析フレームワーク「Apache Spark」「MLflow」「Delta Lake」を使いこなすための中級者向け解説書です。
Apache Sparkの導入から説明し、Spark SQLとデータフレーム、データセットを紹介。Apache Sparkを用いたデータ分析においてどのように機械学習を利用すればいいのか、アルゴリズムの採用から実装まで解説します。
データベースエンジンの最適化やバージョニング(Delta Lake)、モデルを管理するMLflowについて詳しく取り上げているので、データ分析基盤を構築するための知識をひとまとめにして学べます。
また、日本語版のオリジナルコンテンツとして、pandas DataFrameとSparkDataFrameに関する各種データフレームの使い分け、LLMやEnglish SDK for SparkなどAIを活用した新たなコーディングスタイル、LLMの利用方法の実践についても解説しています。
AIを使ったビッグデータ分析のノウハウを身につけたいエンジニアにとって、間違いなく大幅なスキルアップができる1冊です。
目次
第1章 Apache Spark入門:統合型アナリティクスエンジン
第2章 Apache Sparkのダウンロードとスタートアップ
第3章 Apache Sparkの構造化 API
第4章 Spark SQLとデータフレーム:組み込みのデータソースの紹介
第5章 Spark SQLとデータフレーム:外部データソースとのインタラクション
第6章 Spark SQLとデータセット
第7章 Sparkアプリケーションの最適化およびチューニング
第8章 構造化ストリーミング
第9章 Apache Sparkによる信頼性の高いデータレイクの構築
第10章 MLlibによる機械学習
第11章 Apache Sparkによる機械学習パイプラインの管理、デプロイ、スケーリング
第12章 エピローグApache Spark 3.x
※本書は『Learning Spark: Lightning-Fast Data Analytics 2nd Edition』(2020、O'Reily)の邦訳です。
この記事は参考になりましたか?
- この記事の著者
-
渡部 拓也(ワタナベ タクヤ)
翔泳社マーケティング課。MarkeZine、CodeZine、EnterpriseZine、Biz/Zine、ほかにて翔泳社の本の紹介記事や著者インタビュー、たまにそれ以外も執筆しています。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
【AD】本記事の内容は記事掲載開始時点のものです 企画・制作 株式会社翔泳社