SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

Developers Summit 2024 セッションレポート(AD)

データだけではなくAIの基盤にもなるデータブリックスプラットフォームの全体像を一挙解説!

【16-D-2】データブリックスエンジニアが語るデータ・AI基盤の現在地とこれから

  • X ポスト
  • このエントリーをはてなブックマークに追加

データサイエンス、AI/ML

 データサイエンス領域でも頼りになる機能がデータブリックスプラットフォームには搭載されている。実際にAI/ML開発に携わると実感させられることだが、AI/MLでは運用ライフサイクルでやるべきステップはたくさんある。データの収集、加工、モデル開発、展開、モニタリング、ガバナンスなど。

データブリックスではすべてのステップを支援
データブリックスではすべてのステップを支援

 データブリックスではこれらのすべてのステップを支援する機能が提供されている。データ収集ではDelta Lake、データ加工ではSparkがある。なおSparkは必須ではないものの、志賀優毅氏は「分散処理で高速に処理できるところがSparkの強みです」と話す。

データブリックス・ジャパン株式会社 フィールドエンジニアリング本部・ソリューションアーキテクト 志賀優毅氏
データブリックス・ジャパン株式会社 フィールドエンジニアリング本部・ソリューションアーキテクト 志賀優毅氏

 AI開発・評価のうち、開発は外部のオープンAIモデルも同プラットフォームで提供しているFoundation Modelも自由に選べる。評価はMlflow Evaluationで管理することができる。AIモデルの展開ではModel Serving、データ展開ではVector indexやFeature Serving、モニタリングではMonitoringなどがある。

 とても多岐にわたる機能がそろっている。全部紹介したいところだが、ここではAutoMLとプレイグラウンド(現在パブリックプレビュー中)をピックアップして紹介する。

 まずはAutoML、数行のコードだけで機械学習のベースラインモデルを作成できる。コードを実行するとエクスペリエンスのリンクが発行され、データ探索用ノートブックが作成される。ここから機械学習モデルを生成していく。

数行のコードでベースラインモデルを作成
# Spark Pandas API によるデータの読み込み
import pyspark.pandas as ps
train_df = ps.read_csv(train_csv_path)
# AutoML による学習
summary = automl.regress(
	train_df.drop(columns=["Id"]),
	primary_metric="rmse",
	target_col="SalePrice",
	experiment_name=experiment_name,
)

 志賀氏は「我々のAutoML機能はブラックボックスではなく、モデルを再現するためのノートブックが生成されますので、ベースラインから本格的なモデル開発をすることが可能となっています」と話す。

 続いてのプレイグラウンドはLLMを使ったプロダクト開発に便利な機能となる。例えばOSSモデル・GPT3.5・GPT4の3つを同時に比較することができるため、プロンプトチューニングなどで役立てることができそうだ。

 最後に北村匡彦氏は「これでもまだデータブリックスプラットフォームが持つ機能の5〜10%しか紹介できていません」という。まだまだ多様な機能がプラットフォームに搭載されている。もし興味があれば、百聞は一見にしかずということで無償トライアルを試してみてはいかがだろう。「無料トライアルのほかにも、XやYouTube、ブログ、イベントなどでも情報発信を積極的にしておりますので、ぜひフォローしてください」と呼びかけた。

データブリックス・ジャパン株式会社 フィールドエンジニアリング本部・マネージャー 北村匡彦氏
データブリックス・ジャパン株式会社 フィールドエンジニアリング本部・マネージャー 北村匡彦氏
関連リンク

この記事は参考になりましたか?

  • X ポスト
  • このエントリーをはてなブックマークに追加
Developers Summit 2024 セッションレポート連載記事一覧

もっと読む

この記事の著者

CodeZine編集部(コードジンヘンシュウブ)

CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

加山 恵美(カヤマ エミ)

フリーランスライター。茨城大学理学部卒。金融機関のシステム子会社でシステムエンジニアを経験した後にIT系のライターとして独立。エンジニア視点で記事を提供していきたい。EnterpriseZine/DB Onlineの取材・記事や、EnterpriseZine/Security Onlineキュレーターも担当しています。Webサイト:http://emiekayama.net

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

山出 高士(ヤマデ タカシ)

雑誌や広告写真で活動。東京書籍刊「くらべるシリーズ」でも写真を担当。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

提供:Databricks Japan株式会社

【AD】本記事の内容は記事掲載開始時点のものです 企画・制作 株式会社翔泳社

この記事は参考になりましたか?

この記事をシェア

  • X ポスト
  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/article/detail/19203 2024/04/18 12:00

おすすめ

アクセスランキング

アクセスランキング

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング