米dotDataは、「dotData Feature Factoryバージョン1.1」を5月7日に発表した。
dotData Feature Factoryバージョン1.1では、データの品質を向上する評価機能を大幅に強化することによって、データ自体の信頼性やメタ情報などデータに関する設定の有効性を確保できるようになっている。
具体的には、目的変数の分布の偏り、目的変数のリーク、複数テーブル間のデータ範囲、エンリッチメント率、レコードの重複、文字列の正規化といった、データの品質に関するさまざまな評価を自動的に実行して結果をレポートする。データ品質の問題が検出された場合は、問題を解消するための対策と実行可能なコードを自動的に提示してくれるので、潜在的なデータ品質の問題を迅速に特定、修正して、品質の高い入力データで特徴量を設計可能になる。
また、Pythonベースの最先端AutoMLライブラリであるPyCaretが組み込まれ、機械学習自動化(AutoML)のサポートが強化された。PyCaretの組み込みによって、dotData Feature Factoryで発見した特徴量を迅速に評価して、AutoML機能を活用して機械学習による予測モデルを最適化できる。PyCaretは、dotData Feature Factoryのワークフローの一部として統合されているため、AutoML機能の設定を調整して制御可能な柔軟さと、データ加工から特徴量設計、そして機械学習というプロセス全体を素早く検証する自動化の利点を両立させられる。
あわせて、ユーザーの持つ特徴量のアイデアを取り入れるべく、直感的かつ宣言的に独自の特徴量を定義して、特徴量空間に追加、統合できる特徴量記述言語と、SQLで表現可能な任意のデータ変換をdotData Feature Factoryのデータパイプラインの一部として登録できるSQLトランスフォーマが追加された。
さらに、自然言語を使用して独自の特徴量を定義する、特徴量設計のAIアシスタント機能をプレビューサポートしており、特徴量のアイデアを文書として入力するだけで生成AIのアシスタントが自動的に分析データベースを勘案し、特徴量を生成するためのコードを提案する。対話的なダイアログによって、コーディングすることなく特徴量の定義が可能になる。
そのほか、対話形式での特徴量選択が新機能として追加され、直感的かつ対話的なインターフェース上で特徴量を可視化しつつ、予測力と解釈性のトレードオフを勘案して特徴量を評価、選択できるようになり、dotDataによって生成された特徴量に対して自身のドメイン知識とデータ分析の経験を反映した、調整、最適化が可能になった。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です