データ品質プロジェクトの実行
データ品質プロジェクトを作成し、データ照合ドメインを含んだナレッジを実行することで、データの修正を実行する手順を見ていきます。
1. 新しいデータ品質プロジェクトを作成する
「Data Quality Client」ツールで、「新しいデータ品質プロジェクト」ボタンをクリックします(図14)。
2. 新しい品質プロジェクトの作成
「新しいデータ品質プロジェクト」を作成し、「名前」「ナレッジベースを使用」を入力します(図15)。「アクティビティの選択」で「照合」を選択します。「次へ」ボタンをクリックします。
3. マップページでデータソースを選択する
マップページで、「データソース」にSQL Server、「データベース」にtest、「テーブルまたはビュー」に取引マスターを選択します。データソースを選択すると、自動的にマッピングが表示されます。
なお、ここで指定するデータソースは、ナレッジを作成する際に使用したデータベースと異なるデータベースを指定することも可能です。ナレッジ作成時は開発用のデータソースを指定し、データ品質プロジェクトの作成時には本番環境のデータソースを指定することもできます(図16)。
4. 照合ページで照合する
照合ページで「開始」ボタンをクリックし、重複データの照合・抽出をします。抽出結果を確認し問題がなければ、「次へ」ボタンをクリックします。
5. 抽出結果のエクスポート
抽出した結果をエクスポートします。エクスポート先に、データソースを指定することで、元のデータソースのデータ不整合を是正することも可能です。なお、重複したレコードが削除されたテーブルが出力されますので、別テーブルを指定したほうが安全です。
「サバイバーシップの結果」チェックボックスにチェックを入れ、エクスポート先のテーブル名を入力します。ここでは、テーブル名にデータソースのテーブル名を入力します(図18)。
「エクスポート」ボタンをクリックすると、エクスポートの進捗状況表示のダイアログボックスが表示されます(図19)。
「照合結果」にチェックを入れることで、重複データの処理状況の詳細を確認することができます(図20)。
まとめ
Data Quality Servicesのデータ照合機能による重複データの抽出、削除方法について説明しました。その他に、データクレンジング機能があり、前株、後株の乱れなどのデータ不整合を是正したり、Windows Azure DataMarcketと連携しデータの整合性確認をすることができます。例えば、アメリカの郵便番号と住所データが、Windows Azure DataMarcketで提供されており、それと連携することで登録内容の整合性確認ができます。残念ながら日本向けのデータ提供がないため、現時点では日本の住所の整合性確認には利用できません。
Data Quality Servicesを使用することで、データ品質を向上さえ、データ分析業務のインプット情報の正確性を向上できる機能です。
参照ドキュメント
本稿の執筆に際して、大変参考にしました。