米Databricksは、分散処理フレームワーク「Apache Spark」を自然言語である英語で操作可能にする「English SDK for Apache Spark」を6月29日(現地時間)に公開した。Apache SparkとEnglish SDK for Apache SparkはどちらもApache 2.0ライセンスで公開しているオープンソース・ソフトウェア。
English SDK for Apache Sparkは、Pythonプログラムの中に英語で記述した指示を組み込むことで、Apache Sparkを操作可能にする開発者キット。大きく分けて、データ収集、データフレームの操作、ユーザー定義関数の作成、キャッシングの4種類の機能を提供する。どの機能においても生成AIの力を利用している。
データ収集機能は、Webから必要なデータを検索して、Apache Sparkのデータフレームなどに取り込むことを可能にする。その際、Web検索で使うものと同様の英文を検索キーワードとして利用できる。例えば、2022年の米国における国内自動車販売台数をブランドごとにまとめたデータを取得させるには、以下の2行を記述すれば良い。
spark_ai = SparkAI() auto_df = spark_ai.create_df("2022 USA national auto sales by brand")
データ収集と同じように、データフレームの操作でも、操作の方法を指定する際に英文を使用できる。そしてユーザー定義関数の作成では、「@spark_ai.udf」というデコレーターを記述して、次の行で関数名と引数、戻り値を指定し、その次の行で関数の処理内容を英文で記述できる。定義した関数は、SQL文やデータフレームで使用できる。例えば、ユーザー定義関数は次のように記述できる。
@spark_ai.udf def convert_grades(grade_percent: float) -> str: """Convert the grade percent to a letter grade using standard cutoffs"""
どの機能でも、Pythonプログラムに組み込んだ英文を生成AIが解釈して、最適な結果を出力するようになっている。DatabricksはEnglish SDK for Apache Sparkについて、開発が始まったばかりだが、すでにコード記述量の削減などの効果を期待できる段階に入っているとしている。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です