Microsoft Purview のデータ系列

[アーティクル]
12/24/2024

この記事では、Microsoft Purview 統合カタログのデータ系列の概要について説明します。また、データシステムをカタログと統合してデータの系列をキャプチャする方法についても詳しく説明します。 Microsoft Purview では、organizationのデータ資産のさまざまな部分のデータと、次のようなさまざまな準備レベルのデータ系列をキャプチャできます。

さまざまなプラットフォームからステージングされた生データ
変換および準備されたデータ
視覚化プラットフォームで使用されるデータ

ユースケース

データ系列は、データの配信元にまたがるライフサイクルと、データ資産間で時間の経過と同時に移動するライフサイクルとして広く理解されています。これは、トラブルシューティング、データパイプラインの根本原因のトレース、デバッグなど、さまざまな種類の後方表示シナリオに使用されます。系列は、データ品質分析、コンプライアンス、および影響分析と呼ばれる "what if" シナリオにも使用されます。系列は、データがどのように変換されたかを含め、ソースから変換先へのデータの移動を示すために視覚的に表されます。ほとんどのエンタープライズデータ環境の複雑さを考えると、これらのビューは、周辺データポイントの統合やマスクを行わずに理解するのが難しい場合があります。

統合カタログでの系列の経験

統合カタログは、他のデータ処理、ストレージ、分析システムと接続して系列情報を抽出します。この情報は、カタログ内の一般的なシナリオ固有の系列エクスペリエンスを表すために結合されます。

データ資産には、データ抽出、変換 (ETL/ELT システム)、分析、視覚化システムを実行するシステムが含まれる場合があります。各システムは、システム境界内のデータの状態と品質を記述する豊富な静的および運用メタデータをキャプチャします。統合カタログの系列の目標は、可能な限り最小限の粒度で各データシステムから移動、変換、運用メタデータを抽出することです。

次の例は、複数のシステム間を移動するデータの一般的なユースケースであり、統合カタログは系列のために各システムに接続します。

Data Factory は、オンプレミス/生ゾーンからクラウド内のランディングゾーンにデータをコピーします。
Synapse、Databricks などのデータ処理システムでは、ノートブックを使用してランディングゾーンからキュレーションゾーンにデータを処理して変換します。
最適なクエリパフォーマンスと集計を実現するために、分析モデルへのデータをさらに処理します。
データ視覚化システムは、データセットを使用し、メタモデルを介して処理して、BI ダッシュボードや ML 実験などを作成します。

系列の細分性

次のセクションでは、系列情報が Microsoft Purview によって収集される粒度の詳細について説明します。この細分性は、Microsoft Purview でサポートされているデータシステムによって異なる場合があります。

エンティティレベルの系列: プロセス>ターゲット>ソース

系列はグラフとして表され、通常、コンピューティングシステムによって呼び出されたプロセスによって接続されるデータストレージシステム内のソースエンティティとターゲットエンティティが含まれます。
データシステムは、統合カタログに接続して、基になるデータシステムの物理オブジェクトを参照する一意のオブジェクト (SQL ストアドプロシージャ、ノートブックなど) を生成して報告します。
所有権などの他のメタデータとの忠実性の高い系列がキャプチャされ、ソース & ターゲットエンティティの人間が判読できる形式で系列が表示されます。たとえば、パーティションまたはファイルレベルではなく、Hive テーブルレベルでの系列です。

列レベルまたは属性レベル系列

ターゲットエンティティで属性を作成または派生するために使用されるソースエンティティの属性を識別します。ソース属性の名前は、ターゲットで保持または名前変更できます。 Azure Data Factory (ADF) などのシステムでは、オンプレミス環境からクラウドへの 1 つのコピーを実行できます。例: Table1/ColumnA -> Table2/ColumnA。

プロセスの実行状態

根本原因分析とデータ品質のシナリオをサポートするために、データ処理システムのジョブの実行状態をキャプチャします。この要件は、他のデータ処理システムの監視機能を置き換えることとは関係ありません。どちらの目標も、それらを置き換えることではありません。

概要

系列は、品質、信頼、監査のシナリオをサポートするための統合カタログの重要な機能です。統合カタログの目標は、環境内のすべてのデータシステムが自然に接続して系列を報告できる堅牢なフレームワークを構築することです。メタデータが使用可能になると、統合カタログデータシステムによって提供されるメタデータをまとめ、データガバナンスのユースケースを強化できます。

次の方法で共有

Microsoft Purview のデータ系列

ユースケース

統合カタログでの系列の経験

系列の細分性

エンティティレベルの系列: プロセス>ターゲット>ソース

列レベルまたは属性レベル系列

プロセスの実行状態

概要

次の手順

フィードバック

その他のリソース

次の方法で共有

Microsoft Purview のデータ系列

ユース ケース

統合カタログでの系列の経験

系列の細分性

エンティティ レベルの系列: プロセス>ターゲット>ソース

列レベルまたは属性レベル系列

プロセスの実行状態

概要

次の手順

フィードバック

その他のリソース

ユースケース

エンティティレベルの系列: プロセス>ターゲット>ソース