Microsoft Purview データ品質の概要
Microsoft Purview データ品質は、ガバナンス ドメインとデータ所有者がデータ エコシステムの品質を評価および監視し、目標とする改善のためのアクションを容易にする包括的なソリューションです。 今日の AI 主導の環境では、データの信頼性が AI 主導の分析情報と推奨事項の精度に直接影響します。 信頼できるデータがないと、AI システムに対する信頼が損なわれ、導入が妨げられるリスクがあります。
データ品質の低下や互換性のないデータ構造は、ビジネス プロセスと意思決定機能を妨げる可能性があります。 Microsoft Purview データ品質は、すぐに使用できる (OOB) ルールや AI によって生成されるルールなど、コードなし/低コードのルールを使用してデータ品質を評価する機能をユーザーに提供することで、これらの課題に対処します。 これらのルールは列レベルで適用され、集計され、データ資産、データ製品、ガバナンス ドメインのレベルでスコアが提供され、各ドメイン内のデータ品質がエンドツーエンドで可視化されます。
Microsoft Purview データ品質には、AI を利用したデータ プロファイリング機能も組み込まれており、これらの推奨事項を調整するための人間の介入を許可しながら、プロファイリング用の列を推奨します。 この反復プロセスは、データ プロファイルの精度を向上させるだけでなく、基になる AI モデルの継続的な改善にも貢献します。
組織は、Microsoft Purview データ品質を適用することで、データ資産の品質を効果的に測定、監視、強化し、AI 主導の分析情報の信頼性を強化し、AI ベースの意思決定プロセスに対する信頼を高めることができます。
データ品質のライフ サイクル
- すべてのデータ品質機能を使用するには、統合カタログでユーザーにデータ品質スチュワードのアクセス許可を割り当てます。
- Microsoft Purview データ マップでデータ ソースを登録してスキャンします。
- データ製品にデータ資産を追加する
- データ品質評価のためにソースを準備するために、データ ソース接続を設定します。
-
データ ソース内の資産のデータ プロファイルを構成して実行します。
- プロファイリングが完了したら、データ資産の各列の結果を参照して、データの現在の構造と状態を把握します。
- プロファイリング結果に基づいてデータ品質ルールを設定し、データ資産に適用します。
- データ製品でデータ品質スキャンを構成して実行 し、データ製品でサポートされているすべての資産の品質を評価します。
- スキャン結果を確認 して、データ製品の現在のデータ品質を評価します。
- データ資産のライフ サイクルで手順 5 から 8 を定期的に繰り返して、品質を維持します。
- データ品質を継続的に監視する
- データ品質アクションを確認 して、問題を特定して解決します。
- 品質の問題を警告するようにデータ品質通知を設定 します。
サポートされているデータ品質リージョン
Microsoft Purview データ品質は現在、次のリージョンでサポートされています
サポートされているマルチクラウド データ ソース
- Azure Data Lake Storage (ADLS Gen2)
- ファイルの種類: Delta Parquet と Parquet
- Azure SQL データベース
- ショートカットとミラーリング データ資産を含む OneLake のファブリック データ資産。 データ品質スキャンは、Lakehouse デルタ テーブルと Parquet ファイルに対してのみサポートされます。
- ミラーリング データ資産: CosmosDB、Snowflake、Azure SQL
- ショートカット データ資産: AWS S3、GCS、AdlsG2、dataverse
- サーバーレスおよびデータ ウェアハウスのAzure Synapse
- Azure Databricks Unity Catalog
- Snowflake
- Google ビッグ クエリ (プライベート プレビュー)
重要
Parquet ファイルのデータ品質は、次をサポートするように設計されています。
- Parquet パーツ ファイルを含むディレクトリ。 例: ./Sales/{Parquet Part Files}。 完全修飾名は、
https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}
に従う必要があります。 ディレクトリ/サブディレクトリ構造に {n} パターンがないことを確認します。{SparkPartitions} につながる直接 FQN である必要があります。 - 年と月でパーティション分割された売上データなど、データセット内の列でパーティション分割されたパーティション分割された Parquet ファイルを含むディレクトリ。 例: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}。
一貫性のある Parquet データセット スキーマを提示するこれらの重要なシナリオの両方がサポートされています。
制約: これは、Parquet Files を使用したディレクトリの N 個の任意の階層をサポートするように設計されていないか、サポートされていません。
(1) または (2) 構築された構造でデータを提示するようにお客様にアドバイスします。
現在、Microsoft Purview では、 マネージド ID を 認証オプションとして使用するデータ品質スキャンのみを実行できます。 データ品質サービスは 、Apache Spark 3.4 と Delta Lake 2.4 で実行されます。
データ品質機能
-
データ ソース接続の構成
- Purview DQ SaaS アプリケーションが品質スキャンとプロファイリングのためにデータへの読み取りアクセスを許可するように接続を構成します。
- MS Purview では、認証オプションとしてマネージド ID が使用されます
-
データ プロファイリング
- AI 対応データ プロファイル エクスペリエンス
- 業界標準の統計スナップショット (分布、最小値、最大値、標準偏差、一意性、完全性、重複、...
- 列レベルのプロファイリング メジャーをドリルダウンします。
-
データ品質ルール
- 6 つの業界標準データ品質ディメンション (完全性、一貫性、適合性、正確性、鮮度、一意性) を測定するための標準外ルール
- カスタム ルール作成機能には、すぐに使用する関数と式の値の数が含まれます。
- AI 統合エクスペリエンスを使用して自動生成されたルール
-
データ品質スキャン
- データ品質スキャンの列にルールを選択して割り当てます。
- エンティティ/テーブル レベルでデータの鮮度ルールを適用して、データの鮮度 SLA を測定します。
- データ品質スキャン ジョブの期間のスケジュール設定 (時間単位、日単位、週単位、月単位など)
-
データ品質ジョブの監視
- データ品質ジョブの状態の監視 (アクティブ、完了、失敗など) を有効にする
- DQ スキャン履歴の参照を有効にします。
-
データ品質スコアリング
- ルール レベルのデータ品質スコア (列に適用されたルールの品質スコアとは)
- データ資産、データ製品、およびガバナンス ドメインのデータ品質スコア (1 つのガバナンス ドメインに多数のデータ製品を含めることができる、1 つのデータ製品に多数のデータ資産を含めることができる、1 つのデータ資産に多数のデータ列を含めることができる)
-
重要なデータ要素 (CDEs) のデータ品質
- これは Purview Data Quality の主要な機能の 1 つであり、データ品質ルールを CDE の論理コンストラクトに適用し、それらを構成する物理データ要素に伝達する機能です。 CDEs レベルでデータ品質規則を定義することで、組織は、品質を維持するために CDEs が満たす必要がある特定の基準としきい値を確立できます
-
データ品質アラート
- データ品質のしきい値が予想を超えた場合にデータ所有者、データ スチュワードに通知するようにアラートを構成します。
- データ品質の問題に関する通知を送信するように電子メール エイリアスまたは配布グループを構成します。
-
データ品質アクション
- DQ のアクション センターでは、DQ の異常状態に対処するためのアクションが含まれます。これには、DQ スチュワードの診断クエリを特定のデータに対してゼロにして、異常状態ごとに修正します。
-
データ品質マネージド仮想ネットワーク
- プライベート エンドポイントと Azure データ ソースに接続するデータ品質によって管理される仮想ネットワーク。
制限
- vNet は、Google Big Query、Snowflake、Azure Data bricks Unity カタログではサポートされていません。
関連コンテンツ
- Fabric データ資産のデータ品質
- Fabric ミラー化されたデータ ソースのデータ品質
- Fabric のデータ品質のショートカット データ ソース
- Azure Synapse サーバーレスおよびデータ ウェアハウスのデータ品質
- Azure Databricks Unity カタログのデータ品質
- Snowflake データ ソースのデータ品質
- Google ビッグ クエリのデータ品質