ガバナンスとカタログ(Unity Catalog)
次はUnity Catalogについて。北岡早紀氏は「企業でデータ活用が進まない原因は2つ考えられます」と言う。
1つは「サイロ化されたデータアプローチ」。部署ごとにデータを保有してしまい、プラットフォーム全体の可視化ができず、技術的な負債も発生してしまうパターンだ。もう1つは「中央集権的なデータアプローチ」、こちらはデータをデータレイクに集約するも、データ利用者と作成者が断絶していてボトルネックの発生やスケーラビリティの欠如といった制約が生じてしまうパターンになる。
どちらのパターンについても、データ利活用を推進するためには組織的なデータ基盤のスケーリングが不可欠になる。そこでデータブリックスでは、あらゆるデータとAI資産を「Databricks Unity Catalog」で一元管理し、仮想的な"Single Source of Truth"を実現する。ガバナンスを効かせつつ、自由に使えることを目指す。
Unity Catalogは管理画面(カタログエクスプローラー)から権限の設定、データベースのアタッチ、テーブルの管理などが行える。テーブルの依存関係(リネージュ)も追うことができるので、誰が作ったか不明なテーブルでも構造を把握することができるようになっている。
ビジネスインサイトと呼ばれる機能では、テーブルを頻繁に使用しているユーザーや、よく発行されているSQLも統計的に把握することができる。データ品質の観点では、テーブルのドリフトを自動的に監視しているため、ダッシュボードから特定のテーブルに対してどのようなドリフトが起きているかを確認できる。
データソースを登録するだけではなくローカルからデータをアップロードすることも可能だ。データの種類は構造化、非構造化を問わない。1つのカタログであらゆるデータを管理することができる。
さらにUnity Catalogにはデータソースだけではなく、AIモデルも登録が可能だ。組織内にどのようなAIモデルがあるか、そのバージョン管理もできるのも大きな特徴だ。