米Googleは、データウェアハウスBigQuery内に大規模な構造化データセット、あるいは半構造化データセットの機械学習モデルを構築・展開可能なBigQuery MLを、7月25日(現地時間)に発表した。
BigQuery MLは、機械学習を利用した売上の予測や顧客セグメンテーションの作成といった予測分析を実現する、シンプルなSQL拡張セット。
BigQuery MLのバックエンド開発にあたっては、BigQueryサーバから、機械学習アルゴリズムを実行する専用サーバへの大量のデータ転送には時間がかかり、セキュリティやプライバシー面での問題もあった。しかし、機械学習アルゴリズムの最適化手法において主流である最急降下法のコアコンポーネントが、一般的なSQL処理によって実装できたため、既存のBigQuery SQL処理エンジンを機会学習用に再利用することが可能だったという。
BigQueryのエンジンは、ランダムなサンプルの抽出よりも巨大なデータセットのスキャンに適した設計なので、BigQuery MLは確率的勾配降下法ではなく、バッチ最急降下法を採用している。なお、大規模機械学習システムにおいては、確率的勾配降下法がはるかに一般的ではあるが、バッチ最急降下法はディスク上のデータの順序付けやパーティショニングの影響を受けないという、実用面での利点がある。また、BigQuery MLの実装には正則化と前処理行列のサポートも含まれている。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です