Data Quality Servicesを構成する要素と操作概要
Data Quality Servicesを構成する要素として、ナレッジベース、ドメイン、品質プロジェクトがあります。それぞれの要素の関係性は、図3のようになります。
ドメインは、データの品質を向上させるためにデータをチェックするためのルールです。ナレッジベースは、複数のドメインを一括りに管理します。
データ品質プロジェクトは、データの品質を向上させるためのドメインを含んだナレッジベースを元に処理を実行しデータの品質を向上させます。
Data Quality Servicesを利用する流れとしては、新しいナレッジデータベースを作成します。作成したナレッジデータベースで、対象のデータソース(データベース、テーブル、列を指定)ごとにマッピングするドメインを定義します。次に、新しいデータ品質プロジェクトを作成し、先に作成しておいたナレッジデータベースを指定して処理を実行する手順になります。
データ照合機能による重複データの抽出と削除する方法
Data Quality Servicesのデータ照合機能を利用して、重複するデータや類似するデータを自動的に抽出する操作手順を見ていきます。
サンプルデータの準備
具体的な操作方法を確認するためのサンプルデータベース、テーブル、データを作成します。
1. データ照合機能を試行するためのサンプルデータを用意する
リスト1のスクリプトを実行し、データベース「test」とテーブル「取引マスター」を作成し、サンプルデータを挿入します。
CREATE DATABASE test go USE test CREATE TABLE 取引先マスター ( 取引先コード nvarchar(10) PRIMARY KEY ,取引先名 nvarchar(60) ,取引先ヨミ nvarchar(60)) go INSERT INTO 取引先マスター VALUES('TR001', '日本マイクロソフト株式会社','ニホンマイクロソフトカブシキガイシャ') INSERT INTO 取引先マスター VALUES('TR002', '日本マイクロソフト 株式会社','ニホンマイクロソフトカブシキガイシャ') INSERT INTO 取引先マスター VALUES('TR003', '日本 マイクロソフト株式会社','ニホンマイクロソフト カブシキガイシャ') INSERT INTO 取引先マスター VALUES('TR004', 'dummy1','ダミーイチ') INSERT INTO 取引先マスター VALUES('TR005', 'dummy2','ダミーニ') INSERT INTO 取引先マスター VALUES('TR006', 'dummy3','ダミーサン') INSERT INTO 取引先マスター VALUES('TR007', '日本マイクロソフト株式会社','ニホンマイクロソフトカブシキガイシャ') go SELECT * FROM 取引先マスター
2. Data Quality Servicesが動作するのに必要な権限を付与する
リスト2を実行し、Data Quality Servicesが使用する内部ユーザーに対して、testデータベース内へユーザーを作成して、CONTROL権限を付与します。「MS_dqs_service_login」と「MS_dqs_db_owner_login」は、Data Quality Servicesをインストールすると自動的に作成されるデータベースログインです。
USE test go CREATE USER [dqs_service] FOR LOGIN [MS_dqs_service_login] GRANT CONTROL TO [dqs_service] CREATE USER [dqs_dbo] FOR LOGIN [MS_dqs_db_owner_login] GRANT CONTROL, AUTHENTICATE TO [dqs_dbo]
ナレッジの作成
データ照合機能を使用するために、データの照合ドメインを含んだナレッジを作成する手順を見ていきます。
1. 「Data Quality Client」ツールを起動する
重複データを抽出するためのルールを作成するために、ツールを起動します。ツールを起動するために、[スタート]-[すべてのプログラム]-[Microsoft SQL Server 2012]-[Data Quality Services]-[Data Quality Client]から起動します。
2. Data Quality Clientからデータベースサーバに接続する
Data Quality ClientからData Quality Servicesサーバーに接続します。図3では、ローカルサーバーのSQL2012インスタンスに接続します。
Data Quality Servicesサーバーに接続すると、図4の初期画面が表示されます。
3. 新しいナレッジベースを作成する
ナレッジベースを作成するために、「新しいナレッジベース」をクリックします。
4. ポリシーの照合を選択する
新しいナレッジペースで名前を入力し、アクティビティの選択で「ポリシーの照合」を選択します。[次へ]ボタンをクリックします。