はじめに
SQL Server 2012の重点強化ポイントの一つが、ビッグデータを前提としたBI(Business Intelligence)機能です。SQL Server 2012を使用することで、今までよりも効率よくデータ分析ができるように、性能の強化やデータ品質管理機能の追加、操作性の向上が行われています。性能強化については、「数十倍の性能改善を実現させうる列ストアインデックス」で紹介しました。そして、今回紹介するのがデータ品質管理機能であるData Quality Services(DQS)です。
ビッグデータ時代と言われるように、企業活動のありとあらゆる記録が複数のシステムに格納されている時代です。システムに格納されるデータ量が増加し、複数のシステムにまたがることで、不正確なデータが混在する可能性が高くなります。不正確なデータが混在するとデータ分析やレポートが不正確になります。
Data Quality Servicesは、不正確なデータを除去し、修正することでデータの情報価値を高めるための機能を提供します。データのクレンジング、重複データの抽出、外部データとの照合など複数の方法が提供されています。本稿では、重複データの抽出について説明します(注1)。
データのクレンジングについては、SQL Server自習書で取り上げられています。本稿では、自習書では紹介にとどまっていた重複データの抽出について取り上げています。
対象読者
- SQL Serverを使用するアプリケーション設計、開発者
- SQL Serverデータベース管理者
- SQL Server 2012の新機能に興味のある方
Data Quality Servicesのインストール
Data Quality Servicesを使用するには、SQL Server 2012のインストール時に「Data Quality Services」と「Data Quality Client」、「Integration Services」を選択しインストールします。図1は、SQL Server 2012セットアップウィザードの機能の選択画面で、必要なコンポーネントを選択したところです。
インストールウィザードでのインストールが完了すると、Data Quality Servicesの初期設定に使用するプログラム「DQSInstaller.exe」が「C:\Program Files\Microsoft SQL Server\MSSQL11\MSSQL\Binn」にインストールされます。このプログラムを管理者権限で実行します。管理者権限で実行するには、プログラムを右クリックし、コンテキストメニューから「管理者として実行」を選択します(図2)。
DQSInstaller.exeを実行すると、図3のようにDatabase Master Keyのパスワードを入力します。パスワードを入力しEnterキーを押すとインストールが完了します。以上で、Data Quality Servicesのインストールが完了します。