SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

進化したSQL Server 2012の新機能紹介

データ品質を向上させるBIツール Data Quality Services

進化したSQL Server 2012の新機能紹介(5)

  • X ポスト
  • このエントリーをはてなブックマークに追加

Data Quality Servicesを構成する要素と操作概要

 Data Quality Servicesを構成する要素として、ナレッジベース、ドメイン、品質プロジェクトがあります。それぞれの要素の関係性は、図3のようになります。

図3 Data Quality Servicesの概要図
図3 Data Quality Servicesの概要図

 ドメインは、データの品質を向上させるためにデータをチェックするためのルールです。ナレッジベースは、複数のドメインを一括りに管理します。

 データ品質プロジェクトは、データの品質を向上させるためのドメインを含んだナレッジベースを元に処理を実行しデータの品質を向上させます。

 Data Quality Servicesを利用する流れとしては、新しいナレッジデータベースを作成します。作成したナレッジデータベースで、対象のデータソース(データベース、テーブル、列を指定)ごとにマッピングするドメインを定義します。次に、新しいデータ品質プロジェクトを作成し、先に作成しておいたナレッジデータベースを指定して処理を実行する手順になります。

データ照合機能による重複データの抽出と削除する方法

 Data Quality Servicesのデータ照合機能を利用して、重複するデータや類似するデータを自動的に抽出する操作手順を見ていきます。

サンプルデータの準備

 具体的な操作方法を確認するためのサンプルデータベース、テーブル、データを作成します。

1. データ照合機能を試行するためのサンプルデータを用意する

 リスト1のスクリプトを実行し、データベース「test」とテーブル「取引マスター」を作成し、サンプルデータを挿入します。

リスト1 照合機能のサンプル用データベースとテーブルの作成
CREATE DATABASE test
go
USE test
CREATE TABLE 取引先マスター
( 取引先コード	nvarchar(10) PRIMARY KEY
 ,取引先名	nvarchar(60)
 ,取引先ヨミ nvarchar(60))
go
INSERT INTO 取引先マスター VALUES('TR001', '日本マイクロソフト株式会社','ニホンマイクロソフトカブシキガイシャ')
INSERT INTO 取引先マスター VALUES('TR002', '日本マイクロソフト 株式会社','ニホンマイクロソフトカブシキガイシャ')
INSERT INTO 取引先マスター VALUES('TR003', '日本 マイクロソフト株式会社','ニホンマイクロソフト カブシキガイシャ')
INSERT INTO 取引先マスター VALUES('TR004', 'dummy1','ダミーイチ')
INSERT INTO 取引先マスター VALUES('TR005', 'dummy2','ダミーニ')
INSERT INTO 取引先マスター VALUES('TR006', 'dummy3','ダミーサン')
INSERT INTO 取引先マスター VALUES('TR007', '日本マイクロソフト株式会社','ニホンマイクロソフトカブシキガイシャ')
go
SELECT * FROM 取引先マスター

2. Data Quality Servicesが動作するのに必要な権限を付与する

 リスト2を実行し、Data Quality Servicesが使用する内部ユーザーに対して、testデータベース内へユーザーを作成して、CONTROL権限を付与します。「MS_dqs_service_login」と「MS_dqs_db_owner_login」は、Data Quality Servicesをインストールすると自動的に作成されるデータベースログインです。

リスト2 照合機能のサンプル用データベースとテーブルの作成
USE test
go
CREATE USER [dqs_service] FOR LOGIN [MS_dqs_service_login] 
GRANT CONTROL TO [dqs_service] 
CREATE USER [dqs_dbo] FOR LOGIN [MS_dqs_db_owner_login] 
GRANT CONTROL, AUTHENTICATE TO [dqs_dbo] 

ナレッジの作成

 データ照合機能を使用するために、データの照合ドメインを含んだナレッジを作成する手順を見ていきます。

1. 「Data Quality Client」ツールを起動する

 重複データを抽出するためのルールを作成するために、ツールを起動します。ツールを起動するために、[スタート]-[すべてのプログラム]-[Microsoft SQL Server 2012]-[Data Quality Services]-[Data Quality Client]から起動します。

2. Data Quality Clientからデータベースサーバに接続する

 Data Quality ClientからData Quality Servicesサーバーに接続します。図3では、ローカルサーバーのSQL2012インスタンスに接続します。

図3 Data Quality Servicesサーバーへの接続
図3 Data Quality Servicesサーバーへの接続

 Data Quality Servicesサーバーに接続すると、図4の初期画面が表示されます。

図4 Data Quality Clientの初期画面
図4 Data Quality Clientの初期画面

3. 新しいナレッジベースを作成する

 ナレッジベースを作成するために、「新しいナレッジベース」をクリックします。

4. ポリシーの照合を選択する

 新しいナレッジペースで名前を入力し、アクティビティの選択で「ポリシーの照合」を選択します。[次へ]ボタンをクリックします。

図5 新しいナレッジペース
図5 新しいナレッジペース

次のページ

この記事は参考になりましたか?

  • X ポスト
  • このエントリーをはてなブックマークに追加
進化したSQL Server 2012の新機能紹介連載記事一覧

もっと読む

この記事の著者

山田 祥寛(ヤマダ ヨシヒロ)

静岡県榛原町生まれ。一橋大学経済学部卒業後、NECにてシステム企画業務に携わるが、2003年4月に念願かなってフリーライターに転身。Microsoft MVP for Visual Studio and Development Technologies。執筆コミュニティ「WINGSプロジェクト」代表。主な著書に「独習シリーズ(Java・C#・Python・PHP・Ruby・JSP&サーブレットなど)」「速習シリーズ(ASP.NET Core・Vue.js・React・TypeScript・ECMAScript、Laravelなど)」「改訂3版JavaScript本格入門」「これからはじめるReact実践入門」「はじめてのAndroidアプリ開発 Kotlin編 」他、著書多数

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

WINGSプロジェクト 大和屋 貴仁(ヤマトヤ タカヒト)

WINGSプロジェクトについて>有限会社 WINGSプロジェクトが運営する、テクニカル執筆コミュニティ(代表 山田祥寛)。主にWeb開発分野の書籍/記事執筆、翻訳、講演等を幅広く手がける。2018年11月時点での登録メンバは55名で、現在も執筆メンバを募集中。興味のある方は、どしどし応募頂きたい。著書記事多数。 RSS X: @WingsPro_info(公式)、@WingsPro_info/wings(メンバーリスト) Facebook

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

  • X ポスト
  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/article/detail/6657 2012/07/19 14:00

おすすめ

アクセスランキング

アクセスランキング

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング