翔泳社新刊紹介（AD）

Apache Spark、MLflow、Delta Lakeを使いこなすための中級入門書　『Apache Spark徹底入門』発売

渡部拓也[著]

2024/04/12 07:00

ポスト

ポスト

　CodeZineを運営する翔泳社より、4月12日（金）に書籍『Apache Spark徹底入門』が発売となりました。

　本書はビッグデータを主な対象とするデータ分析フレームワーク「Apache Spark」「MLflow」「Delta Lake」を使いこなすための中級者向け解説書です。

　Apache Sparkの導入から説明し、Spark SQLとデータフレーム、データセットを紹介。Apache Sparkを用いたデータ分析においてどのように機械学習を利用すればいいのか、アルゴリズムの採用から実装まで解説します。

　データベースエンジンの最適化やバージョニング（Delta Lake）、モデルを管理するMLflowについて詳しく取り上げているので、データ分析基盤を構築するための知識をひとまとめにして学べます。

　また、日本語版のオリジナルコンテンツとして、pandas DataFrameとSparkDataFrameに関する各種データフレームの使い分け、LLMやEnglish SDK for SparkなどAIを活用した新たなコーディングスタイル、LLMの利用方法の実践についても解説しています。

　AIを使ったビッグデータ分析のノウハウを身につけたいエンジニアにとって、間違いなく大幅なスキルアップができる1冊です。

第1章　Apache Spark入門：統合型アナリティクスエンジン
第2章　Apache Sparkのダウンロードとスタートアップ
第3章　Apache Sparkの構造化 API
第4章　Spark SQLとデータフレーム：組み込みのデータソースの紹介
第5章　Spark SQLとデータフレーム：外部データソースとのインタラクション
第6章　Spark SQLとデータセット
第7章　Sparkアプリケーションの最適化およびチューニング
第8章　構造化ストリーミング
第9章　Apache Sparkによる信頼性の高いデータレイクの構築
第10章　MLlibによる機械学習
第11章　Apache Sparkによる機械学習パイプラインの管理、デプロイ、スケーリング
第12章　エピローグApache Spark 3.x

※本書は『Learning Spark: Lightning-Fast Data Analytics 2nd Edition』（2020、O'Reily）の邦訳です。