次の方法で共有


Microsoft Purview データ品質の概要

Microsoft Purview データ品質は、ガバナンス ドメインとデータ所有者がデータ エコシステムの品質を評価および監視し、目標とする改善のためのアクションを容易にする包括的なソリューションです。 今日の AI 主導の環境では、データの信頼性が AI 主導の分析情報と推奨事項の精度に直接影響します。 信頼できるデータがないと、AI システムに対する信頼が損なわれ、導入が妨げられるリスクがあります。

データ品質の低下や互換性のないデータ構造は、ビジネス プロセスと意思決定機能を妨げる可能性があります。 Microsoft Purview データ品質は、すぐに使用できる (OOB) ルールや AI によって生成されるルールなど、コードなし/低コードのルールを使用してデータ品質を評価する機能をユーザーに提供することで、これらの課題に対処します。 これらのルールは列レベルで適用され、集計され、データ資産、データ製品、ガバナンス ドメインのレベルでスコアが提供され、各ドメイン内のデータ品質がエンドツーエンドで可視化されます。

Microsoft Purview データ品質には、AI を利用したデータ プロファイリング機能も組み込まれており、これらの推奨事項を調整するための人間の介入を許可しながら、プロファイリング用の列を推奨します。 この反復プロセスは、データ プロファイルの精度を向上させるだけでなく、基になる AI モデルの継続的な改善にも貢献します。

組織は、Microsoft Purview データ品質を適用することで、データ資産の品質を効果的に測定、監視、強化し、AI 主導の分析情報の信頼性を強化し、AI ベースの意思決定プロセスに対する信頼を高めることができます。

データ品質のライフ サイクル

  1. すべてのデータ品質機能を使用するには、統合カタログでユーザーにデータ品質スチュワードのアクセス許可を割り当てます
  2. Microsoft Purview データ マップでデータ ソースを登録してスキャンします。
  3. データ製品にデータ資産を追加する
  4. データ品質評価のためにソースを準備するために、データ ソース接続を設定します
  5. データ ソース内の資産のデータ プロファイルを構成して実行します。
    1. プロファイリングが完了したら、データ資産の各列の結果を参照して、データの現在の構造と状態を把握します。
  6. プロファイリング結果に基づいてデータ品質ルールを設定し、データ資産に適用します。
  7. データ製品でデータ品質スキャンを構成して実行 し、データ製品でサポートされているすべての資産の品質を評価します。
  8. スキャン結果を確認 して、データ製品の現在のデータ品質を評価します。
  9. データ資産のライフ サイクルで手順 5 から 8 を定期的に繰り返して、品質を維持します。
  10. データ品質を継続的に監視する
    1. データ品質アクションを確認 して、問題を特定して解決します。
    2. 品質の問題を警告するようにデータ品質通知を設定 します。

サポートされているデータ品質リージョン

Microsoft Purview データ品質は現在、次のリージョンでサポートされています

サポートされているマルチクラウド データ ソース

  • Azure Data Lake Storage (ADLS Gen2)
    • ファイルの種類: Delta Parquet と Parquet
  • Azure SQL データベース
  • ショートカットとミラーリング データ資産を含む OneLake のファブリック データ資産。 データ品質スキャンは、Lakehouse デルタ テーブルと Parquet ファイルに対してのみサポートされます。
    • ミラーリング データ資産: CosmosDB、Snowflake、Azure SQL
    • ショートカット データ資産: AWS S3、GCS、AdlsG2、dataverse
  • サーバーレスおよびデータ ウェアハウスのAzure Synapse
  • Azure Databricks Unity Catalog
  • Snowflake
  • Google ビッグ クエリ (プライベート プレビュー)

重要

Parquet ファイルのデータ品質は、次をサポートするように設計されています。

  1. Parquet パーツ ファイルを含むディレクトリ。 例: ./Sales/{Parquet Part Files}。 完全修飾名は、 https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}に従う必要があります。 ディレクトリ/サブディレクトリ構造に {n} パターンがないことを確認します。{SparkPartitions} につながる直接 FQN である必要があります。
  2. 年と月でパーティション分割された売上データなど、データセット内の列でパーティション分割されたパーティション分割された Parquet ファイルを含むディレクトリ。 例: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}。

一貫性のある Parquet データセット スキーマを提示するこれらの重要なシナリオの両方がサポートされています。
制約: これは、Parquet Files を使用したディレクトリの N 個の任意の階層をサポートするように設計されていないか、サポートされていません。 (1) または (2) 構築された構造でデータを提示するようにお客様にアドバイスします。

現在、Microsoft Purview では、 マネージド ID を 認証オプションとして使用するデータ品質スキャンのみを実行できます。 データ品質サービスは 、Apache Spark 3.4Delta Lake 2.4 で実行されます。

データ品質機能

  • データ ソース接続の構成
    • Purview DQ SaaS アプリケーションが品質スキャンとプロファイリングのためにデータへの読み取りアクセスを許可するように接続を構成します。
    • MS Purview では、認証オプションとしてマネージド ID が使用されます
  • データ プロファイリング
    • AI 対応データ プロファイル エクスペリエンス
    • 業界標準の統計スナップショット (分布、最小値、最大値、標準偏差、一意性、完全性、重複、...
    • 列レベルのプロファイリング メジャーをドリルダウンします。
  • データ品質ルール
    • 6 つの業界標準データ品質ディメンション (完全性、一貫性、適合性、正確性、鮮度、一意性) を測定するための標準外ルール
    • カスタム ルール作成機能には、すぐに使用する関数と式の値の数が含まれます。
    • AI 統合エクスペリエンスを使用して自動生成されたルール
  • データ品質スキャン
    • データ品質スキャンの列にルールを選択して割り当てます。
    • エンティティ/テーブル レベルでデータの鮮度ルールを適用して、データの鮮度 SLA を測定します。
    • データ品質スキャン ジョブの期間のスケジュール設定 (時間単位、日単位、週単位、月単位など)
  • データ品質ジョブの監視
    • データ品質ジョブの状態の監視 (アクティブ、完了、失敗など) を有効にする
    • DQ スキャン履歴の参照を有効にします。
  • データ品質スコアリング
    • ルール レベルのデータ品質スコア (列に適用されたルールの品質スコアとは)
    • データ資産、データ製品、およびガバナンス ドメインのデータ品質スコア (1 つのガバナンス ドメインに多数のデータ製品を含めることができる、1 つのデータ製品に多数のデータ資産を含めることができる、1 つのデータ資産に多数のデータ列を含めることができる)
  • 重要なデータ要素 (CDEs) のデータ品質
    • これは Purview Data Quality の主要な機能の 1 つであり、データ品質ルールを CDE の論理コンストラクトに適用し、それらを構成する物理データ要素に伝達する機能です。 CDEs レベルでデータ品質規則を定義することで、組織は、品質を維持するために CDEs が満たす必要がある特定の基準としきい値を確立できます
  • データ品質アラート
    • データ品質のしきい値が予想を超えた場合にデータ所有者、データ スチュワードに通知するようにアラートを構成します。
    • データ品質の問題に関する通知を送信するように電子メール エイリアスまたは配布グループを構成します。
  • データ品質アクション
    • DQ のアクション センターでは、DQ の異常状態に対処するためのアクションが含まれます。これには、DQ スチュワードの診断クエリを特定のデータに対してゼロにして、異常状態ごとに修正します。
  • データ品質マネージド仮想ネットワーク
    • プライベート エンドポイントと Azure データ ソースに接続するデータ品質によって管理される仮想ネットワーク。

制限

  • vNet は、Google Big Query、Snowflake、Azure Data bricks Unity カタログではサポートされていません。

次の手順

  1. すべてのデータ品質機能を使用するには、統合カタログでユーザーにデータ品質スチュワードのアクセス許可を割り当てます
  2. データ品質評価のためにソースを準備するために、データ ソース接続を設定します
  3. データ ソース内の資産のデータ プロファイルを構成して実行します。