セクション 4: データ品質を実行する
カタログでデータ製品を使用できるようになったので、データ品質ルールを実行すると、データの状態が良好であり、使用する準備ができていることがすべてのユーザーに通知されます。 データの詳細については、新しいデータ品質ルールを追加して、すべてのユース ケースに適していることを確認できます。 データ製品が最高品質であることを確認することは、データに対する信頼を構築し、改善されたデータが監視されていることを他のユーザーに伝えるのに役立ちます。 データの価値が高まるにつれて、データ品質の問題が管理が不十分な場合に大きな影響を与える可能性があるため、そのデータの品質をより厳密に監視および制御する必要があります。
前提条件
- データ品質ルールは、ADLS Gen2 と Microsoft Fabric の差分書式テーブルでのみ実行できます。
- Microsoft Purview のマネージド ID は、現在サポートされているデータ品質の唯一の資格情報であるため、データ ソースの読み取りを有効にする必要があります。
- データ品質を実行しているガバナンス ドメインには、 データ品質スチュワード ロール が必要です。
- データをスキャンするための適切なセキュリティ承認を確保するには、データ品質スキャンを接続しているデータ ソースへの所有者またはユーザー アクセス管理者アクセス権が必要です。
- データに対してプロファイルを実行するには、 データ プロファイル スチュワード ロール が必要です。
データ品質ルールを作成して実行する
Microsoft Purview ポータルを開きます。
[統合カタログ] を選択します。
[データ管理] の [ データ品質 ] タブ を選択します。
セクション 1 で作成した個人用正常性ドメインを選択します。
[管理] ボタンを選択し、メニューから [Connections] を選択します。 この接続を構築すると、そのガバナンス ドメイン内のデータ ソースでデータ品質スキャンを実行できるようになり、チームが適切な承認なしでデータの知識にアクセスできなくなります。
[接続] 画面で [ 新規 ] を選択して、新しい接続を作成します。
- [Personal Health ADLSg2 DQ] という表示名を指定します。
- Azure Data Lake Storage Gen2のソースの種類を選択します。
-
セクション 2 で作成したデータ ソースの詳細を指定します。
注:
データ品質接続の資格情報は Microsoft Purview MSI (システム) である必要があります
- [テスト接続] を選択します
- 接続がテストされたら、[送信] を選択 します
-
セクション 2 で作成したデータ ソースの詳細を指定します。
接続が確立されたら、プロファイルを実行し、データ品質ルールの構築を開始する準備が整います。 これにより、ビジネス ルールと適切なルールを把握している専門家が、最も重要なデータ製品で実行されるようになります。
- [データ品質] ページに戻るします。
- Personal Health ガバナンス ドメインを選択します。
- セクション 3 に組み込まれている Covid-19 ワクチン接種とケース トレンド別の年齢別データ製品を選択します。
- データ製品に追加された資産を選択します。 ( セクション 2 からの差分形式である必要があります。データ品質は実行されません)。
- データの列にデータ品質ルールを適用して、期待される品質を満たしているかどうかを測定します。
- 選択した資産の [ ルール ] タブを選択します。
- [ 新しいルール] を選択します。
- [空/空白フィールド ルール] を選択します。
- 詳細を指定します。
- [列] ドロップダウンから [AgeGroupVacc 列] を選択します
- 規則名: ワクチン接種年齢グループが存在することを確認する
- [作成] を選択します。
- [ 新しいルール] を選択します。
- [ データ型の一致] を選択します。
- 詳細を指定します。
- DateAdministered 列を選択します。
- [作成] を選択します。
- [ データ品質スキャンの実行] を選択します。
プロファイル データ
データのプロファイルを作成して、各列の高レベルの静的値を確認し、新しいルールを持つ可能性のある異常を検出します。
- 統合カタログで、[正常性管理] を選択し、[データ品質] を選択します。
- プロファイル データの選択
- [ 列名 ] の横にある上部のボックスをオンにして、すべての列をプロファイリングします。 Microsoft Purview では、プロファイルする列を推奨し、プロファイリングの価値があるとわかっている列を選択して、機密性の高いデータまたはデータのプロファイルの入力が少なくなるのを防ぐことができます。
- [ プロファイルの実行] を選択します
スキャンが完了すると、新しいデータ製品のデータ品質スコアとプロファイルを確認でき、カタログのすべてのユーザーがデータの状態を確実に把握できるように、データ品質スコアを使用できるようになります。
データ品質スキャンのスケジュールを作成して、データ品質の問題を継続的に監視できるようにします。 コンシューマーが影響を受ける前にデータ品質の問題に対処するようにアラートを設定します。
- [ 正常性管理] で、[ データ品質] を選択します。
- データ品質規則を構成した Personal Health ドメインを選択します。
- [ 管理 ] ドロップダウン リストで、[ スケジュールされたスキャン] を選択します。
- [ スケジュールされたスキャン ] ページで、[新規] を選択 します。
-
概要の詳細を追加する
- 名前: Personal Health DQ 月次評価
- 説明: 継続的な改善のための DQ ルールの毎月のスキャン。
- [ 続行] を選択します
- スキャンのスコープを選択する
- Covid-19 ワクチン接種とケーストレンドの横にあるチェックボックスをオンにします(年齢別データ製品別)
- [ 続行] を選択します
- 毎月の最終日に実行されるようにスキャンをスケジュールする
- [ 定期的] を選択する
- 繰り返し: 1 か月ごとに
- 月の日数: 最後
- スキャン時刻のスケジュール (UTC): 12:00:00
- 繰り返しを開始する (UTC): 既定値のままにします
- [ 続行] を選択します
- スキャンの詳細を確認して、保存する前に変更を加えたいかどうかを確認します。
- [保存] を選択します。 以前に手動スキャンをトリガーしたので、別のスキャンをトリガーする必要はありませんが、新しいスキャンが必要な場合は、[ 保存して実行] を選択します。
アラートを構成する
データ品質がスキャンをスケジュールすると、データ品質の問題やスキャンエラーのために問題や注意が必要かどうかをスチュワードに知らせるためにトリガーできるアラートがあります。 失敗したスキャンのデータ品質アラートと、スコアが 5% を超える減少した場合のデータ品質アラートを構成します。
- [データ品質] ページの [Personal Health] ドメインに戻るします。
- [ 管理 ] ドロップダウン リストから [ アラート] を選択します。
- [新規]を選択します。
- アラートの詳細を入力する
- 表示名: 個人用正常性 DQ 月次スキャン
- 説明: DQ の最小しきい値がコンシューマーの期待を満たしていることを確認します。
- ターゲット: スコアが以下に減少する
- しきい値: 5
- 通知をオフにする: オフのままにします
- 失敗した品質スキャンの通知を有効にする: オンのままにする
- 受信者: 自分の名前を入力します
- [続行] を選択します。
ヒント
統合カタログで実装する場合は、問題をコンシューマーに通知し、データの技術所有者と協力して修正を行うことができるアラートをスチュワードに送信する必要があります。
このセクションの最後では、組織のデータコンシューマーに提供するデータを管理するために、運用データ品質に関する機能統合カタログが用意されています。 すべては、コンシューマーに最も価値のあるデータを取得し、使用するデータに対する信頼を構築することです。 データの価値が高くなり、新しいデータ戦略が出現するにつれて、次のセクションでは、カタログ全体を管理する方法や、マスター データを使用して特定のデータ管理をさらに深く行う方法を示すのに役立ちます。