米dotDataは、最新のAI技術とのシームレスな連携によって特徴量の発見を加速し、データサイエンティストの機械学習モデルの開発や深いインサイトを導出を支援する「dotData Feature Factory 1.3」を、2月17日に発表した。
dotData Feature Factory 1.3は、ユーザーが持つ既存の特徴量を補完するとともに、予測の残差にフィットする新たな特徴量を段階的に発見できる機能を提供し、既存の特徴量や予測スコアといったアセットを最大限に活用して、冗長な特徴量の再発見を防ぎつつ、より予測精度の高い特徴量の反復的な構築を可能にする。
また、LLMが複数のカラムの組み合わせ方を発見して、より予測精度の高い特徴量を生成できるようにすることで、統計的な有意性に加えてドメインの文脈やカラムの組み合わせの解釈性も考慮しつつ、特徴量の抽出を可能にしている。
あわせて、NLP(自然言語処理)技術を活用することで、売上レポート、顧客レビュー、コールセンターの通話記録、従業員インタビューといった非構造化テキストから自動的に特徴量を抽出できるほか、抽出したテキスト特徴量を数値、カテゴリ、タイムスタンプデータと組み合わせることによって、これまで埋もれていたインサイトを引き出して、より精度の高い分析を実現する。
さらに、特徴量設計を強化すべく新たにAmazon BedrockとvLLMという、2つのLLMフレームワークをサポートした。
対応環境は、Python 3.11(Python 3.8はサポート終了)、Databricks Runtime 15.4/14.3(Apache Spark 3.5.2対応)、Amazon EMR 7.5.0、Azure Snowpark Container Services。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です