SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

進化したSQL Server 2012の新機能紹介

データ品質を向上させるBIツール Data Quality Services

進化したSQL Server 2012の新機能紹介(5)

  • X ポスト
  • このエントリーをはてなブックマークに追加

データ品質プロジェクトの実行

 データ品質プロジェクトを作成し、データ照合ドメインを含んだナレッジを実行することで、データの修正を実行する手順を見ていきます。

1. 新しいデータ品質プロジェクトを作成する

 「Data Quality Client」ツールで、「新しいデータ品質プロジェクト」ボタンをクリックします(図14)。

図14 新しいデータ品質プロジェクトの作成
図14 新しいデータ品質プロジェクトの作成

2. 新しい品質プロジェクトの作成

 「新しいデータ品質プロジェクト」を作成し、「名前」「ナレッジベースを使用」を入力します(図15)。「アクティビティの選択」で「照合」を選択します。「次へ」ボタンをクリックします。

図15 新しいデータ品質プロジェクトの定義
図15 新しいデータ品質プロジェクトの定義

3. マップページでデータソースを選択する

 マップページで、「データソース」にSQL Server、「データベース」にtest、「テーブルまたはビュー」に取引マスターを選択します。データソースを選択すると、自動的にマッピングが表示されます。

 なお、ここで指定するデータソースは、ナレッジを作成する際に使用したデータベースと異なるデータベースを指定することも可能です。ナレッジ作成時は開発用のデータソースを指定し、データ品質プロジェクトの作成時には本番環境のデータソースを指定することもできます(図16)。

図16 データ品質プロジェクトのマッピング
図16 データ品質プロジェクトのマッピング

4. 照合ページで照合する

 照合ページで「開始」ボタンをクリックし、重複データの照合・抽出をします。抽出結果を確認し問題がなければ、「次へ」ボタンをクリックします。

図17 データ品質プロジェクトで重複データの抽出
図17 データ品質プロジェクトで重複データの抽出

5. 抽出結果のエクスポート

 抽出した結果をエクスポートします。エクスポート先に、データソースを指定することで、元のデータソースのデータ不整合を是正することも可能です。なお、重複したレコードが削除されたテーブルが出力されますので、別テーブルを指定したほうが安全です。

 「サバイバーシップの結果」チェックボックスにチェックを入れ、エクスポート先のテーブル名を入力します。ここでは、テーブル名にデータソースのテーブル名を入力します(図18)。

図18 データ品質プロジェクトで重複データの抽出
図18 データ品質プロジェクトで重複データの抽出

 「エクスポート」ボタンをクリックすると、エクスポートの進捗状況表示のダイアログボックスが表示されます(図19)。

図19 エクスポート進捗状況
図19 エクスポート進捗状況

 「照合結果」にチェックを入れることで、重複データの処理状況の詳細を確認することができます(図20)。

図20 エクスポートの抽出結果
図20 エクスポートの抽出結果

まとめ

 Data Quality Servicesのデータ照合機能による重複データの抽出、削除方法について説明しました。その他に、データクレンジング機能があり、前株、後株の乱れなどのデータ不整合を是正したり、Windows Azure DataMarcketと連携しデータの整合性確認をすることができます。例えば、アメリカの郵便番号と住所データが、Windows Azure DataMarcketで提供されており、それと連携することで登録内容の整合性確認ができます。残念ながら日本向けのデータ提供がないため、現時点では日本の住所の整合性確認には利用できません。

 Data Quality Servicesを使用することで、データ品質を向上さえ、データ分析業務のインプット情報の正確性を向上できる機能です。

参照ドキュメント

 本稿の執筆に際して、大変参考にしました。

この記事は参考になりましたか?

  • X ポスト
  • このエントリーをはてなブックマークに追加
進化したSQL Server 2012の新機能紹介連載記事一覧

もっと読む

この記事の著者

山田 祥寛(ヤマダ ヨシヒロ)

静岡県榛原町生まれ。一橋大学経済学部卒業後、NECにてシステム企画業務に携わるが、2003年4月に念願かなってフリーライターに転身。Microsoft MVP for Visual Studio and Development Technologies。執筆コミュニティ「WINGSプロジェクト」代表。主な著書に「独習シリーズ(Java・C#・Python・PHP・Ruby・JSP&サーブレットなど)」「速習シリーズ(ASP.NET Core・Vue.js・React・TypeScript・ECMAScript、Laravelなど)」「改訂3版JavaScript本格入門」「これからはじめるReact実践入門」「はじめてのAndroidアプリ開発 Kotlin編 」他、著書多数

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

WINGSプロジェクト 大和屋 貴仁(ヤマトヤ タカヒト)

WINGSプロジェクトについて>有限会社 WINGSプロジェクトが運営する、テクニカル執筆コミュニティ(代表 山田祥寛)。主にWeb開発分野の書籍/記事執筆、翻訳、講演等を幅広く手がける。2018年11月時点での登録メンバは55名で、現在も執筆メンバを募集中。興味のある方は、どしどし応募頂きたい。著書記事多数。 RSS X: @WingsPro_info(公式)、@WingsPro_info/wings(メンバーリスト) Facebook

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

  • X ポスト
  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/article/detail/6657 2012/07/19 14:00

おすすめ

アクセスランキング

アクセスランキング

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング