次の方法で共有


統合カタログ系列ユーザー ガイド

この記事では、Microsoft Purview 統合カタログのデータ系列機能の概要について説明します。

背景

Microsoft Purview のプラットフォーム機能の 1 つは、データ プロセスによって作成されたデータセット間の系列を表示する機能です。 Data Factory、Data Share、Power BI などのシステムは、データの移動に伴う系列をキャプチャします。 カスタム系列レポートは、Atlas フックと REST API を使用してサポートされます。

系列コレクション

エンタープライズ データ システムから Microsoft Purview で収集されたメタデータは、エンドツーエンドのデータ系列を示すためにステッチされます。 Microsoft Purview に系列を収集するデータ システムは、大きく次の 3 種類に分類されます。

各システムは、異なるレベルの系列スコープをサポートします。 現在利用可能な系列の範囲を確認するには、以下のセクションまたはシステムの個々の系列記事を確認してください。

既知の制限

  • プロセス アクティビティのソースとして使用されるデータベース ビュー (Azure Data Factory、Synapse Pipelines、Azure SQL Database、Azure Data Share) は、現在、Microsoft Purview のデータベース テーブル オブジェクトとしてキャプチャされています。 データベースもスキャンされている場合、ビュー資産は Microsoft Purview で個別に検出されます。 このシナリオでは、同じ名前の 2 つの資産が Microsoft Purview でキャプチャされ、1 つはデータ系列を持つテーブルとして、もう 1 つはビューとしてキャプチャされます。
  • ストアド プロシージャに drop ステートメントまたは create ステートメントが含まれている場合、それらは現在系列でキャプチャされません。

データ処理システム

データ統合と ETL ツールは、実行時に系列を Microsoft Purview にプッシュできます。 Data Factory、Data Share、Synapse、Azure Databricks などのツールは、このカテゴリのデータ処理システムに属します。 データ処理システムは、データセットをさまざまなデータベースとストレージ ソリューションのソースとして参照して、ターゲット データセットを作成します。 系列の Microsoft Purview と現在統合されているデータ処理システムの一覧を次の表に示します。

データ処理システム サポートされているスコープ
通気 エアフロー系統
Azure Data Share 共有スナップショット
Azure Data Factory Copy アクティビティ
データ フロー アクティビティ
SSIS パッケージ アクティビティの実行
Azure SQL データベース (プレビュー) ストアド プロシージャの実行の系列抽出
Azure Synapse Analytics Copy アクティビティ
データ フロー アクティビティ

データ ストレージ システム

データベース & Oracle、Teradata、SAP などのストレージ ソリューションには、スクリプト言語を使用してデータを変換するためのクエリ エンジンがあります。 ビュー/ストアド プロシージャ/等からのデータ系列情報は Microsoft Purview に収集され、他のシステムからの系列とステッチされます。 系列は、Microsoft Purview データ スキャンを使用して次のデータ ソースでサポートされています。 サポートされている系列シナリオの詳細については、それぞれの記事を参照してください。

[カテゴリ] データ ソース
Azure Azure Databricks
Database Cassandra
Db2
Google BigQuery
Hive メタストア データベース
MySQL
Oracle
PostgreSQL
Snowflake
Teradata
サービスとアプリ Erwin
Looker
SAP ECC
SAP S/4HANA

データ分析とレポート システム

Azure Machine Learning や Power BI などのデータ分析およびレポート システムは、Microsoft Purview に系列を報告します。 これらのシステムでは、ストレージ システムのデータセットを使用し、メタ モデルを通じてプロセスを実行して、BI ダッシュボード、ML 実験などを作成します。

データ分析 & レポート システム サポートされているスコープ
Power BI データセット、データフロー、レポート & ダッシュボード

系列の概要

Microsoft Purview の系列には、データセットとプロセスが含まれています。 データセットはノードとも呼ばれますが、プロセスはエッジとも呼ばれます。

  • データセット (ノード): プロセスへの入力として提供されるデータセット (構造化または非構造化)。 たとえば、SQL テーブル、Azure BLOB、ファイル (.csv や .xml など) はすべてデータセットと見なされます。 Microsoft Purview の系列セクションでは、データセットは四角形のボックスで表されます。

  • プロセス (Edge): データセットに対して実行されるアクティビティまたは変換をプロセスと呼びます。 たとえば、ADF Copy アクティビティ、Data Share スナップショットなどです。 Microsoft Purview の系列セクションでは、プロセスは丸い端のボックスで表されます。

Microsoft Purview で資産の系列情報にアクセスするには、次の手順に従います。

  1. 次の方法で Microsoft Purview ガバナンス ポータルを開きます。

  2. Microsoft Purview ガバナンス ポータルの [ホーム] ページで、データセット名または ADF Copy や Data Flow アクティビティなどのプロセス名を検索します。 Enter キーを押します。

  3. 検索結果からアセットを選択し、[ 系列 ] タブを選択します。

    [系列] タブを選択する方法を示すスクリーンショット。

資産レベルの系列

Microsoft Purview では、データセットとプロセスの資産レベル系列がサポートされています。 資産レベルの系列を表示するには、カタログの現在の資産の [ 系列 ] タブに移動します。 現在のデータセット資産ノードを選択します。 既定では、データに属する列の一覧が左側のウィンドウに表示されます。

系列ページで [列の表示] を選択する方法を示すスクリーンショット。

手動系列

Microsoft Purview のデータ系列は、オンプレミス、マルチクラウド、SaaS 環境の多くの資産に対して 自動化されます 。 自動化されたソースをさらに追加し続けますが、手動系列を使用すると、コードを使用せずに、オートメーションがまだサポートされていないソースの系列メタデータを文書化できます。

資産の手動系列を追加するには、次の手順に従います。

  1. 統合カタログで資産を検索し、それを選択して詳細を表示します。

  2. [ 編集] を選択し、[ 系列 ] タブに移動し、下部のパネルで [ 手動系列の追加 ] を選択します。

    アセットの編集と手動系列の追加のスクリーンショット。

  3. 資産系列を構成するには:

    1. [資産] ドロップダウンを選択して、候補リストから資産を見つけるか 、詳細を表示 して完全なカタログを検索します。 リンクするアセットを選択します。
    2. スワップ アイコンを選択して、リレーションシップの方向を [生成 ] (ダウンストリーム系列の場合) または [消費 ] (アップストリーム系列の場合) として構成します。
    3. 系列を削除する場合は、ごみ箱アイコンを選択します。

    [資産] ドロップダウンが強調表示されているデータ資産系列ページのスクリーンショット。

  4. 2 つのデータ資産間に系列を追加する場合は、列レベルの系列を追加して構成できます。 行の先頭にある展開アイコンを選択し、対応するドロップダウン リストからアップストリーム列とダウンストリーム列を選択して、列マッピングを構成します。 プラスアイコンを選択して列系列を追加します。ごみ箱アイコンを選択して既存のものを削除します。

    列レベルの系列の構成のスクリーンショット。

  5. もう一度 [手動系列の追加] ボタンを選択すると、資産レベル の系列をさらに追加 できます。 完了したら、[ 保存 ] ボタンを選択して系列を保存し、編集モードを終了します。

手動系列の既知の制限事項

  • 現在のアセット ピッカー エクスペリエンスでは、一度に 1 つの資産のみを選択できます。
  • 列レベルの手動系列は、現在、2 つのデータ資産間の系列に対してサポートされていますが、プロセス資産が間に関係している場合はサポートされません。
  • ソース資産とターゲット資産の両方にデータ キュレーション アクセスが必要です。
  • これらの資産タイプは現在、自動系列をサポートしているため、手動系列を許可していません。
    • Azure Data Factory
    • Synapse パイプライン
    • Power BI データセット
    • Teradata ストアド プロシージャ
    • ストアド プロシージャのAzure SQL

データセット列系列

データセットの列レベルの系列を表示するには、カタログ内の現在の資産の [ 系列 ] タブに移動し、次の手順に従います。

  1. 系列タブに移動したら、左側のウィンドウで、データ系列に表示する各列の横にある [チェック] ボックスを選択します。

    系列ページに表示する列を選択する方法を示すスクリーンショット。

  2. 左側のペインまたは系列キャンバスのデータセットで、選択した列にカーソルを合わせると、列マッピングが表示されます。 すべての列インスタンスが強調表示されます。

    列名にカーソルを合わせて、データ系列パス内の列フローを強調表示する方法を示すスクリーンショット。

  3. 列の数が左側のウィンドウに表示できる列数を超える場合は、フィルター オプションを使用して、名前で特定の列を選択します。 または、マウスを使用してリストをスクロールすることもできます。

    系列ページで列名で列をフィルター処理する方法を示すスクリーンショット。

  4. 系列キャンバスにさらにノードとエッジが含まれている場合は、フィルターを使用して、名前でデータ資産または処理ノードを選択します。 または、マウスを使用して系列ウィンドウの周りをパンすることもできます。

    系列ページの名前でデータ資産ノードを示すスクリーンショット。

  5. 左側のウィンドウのトグルを使用して、系列キャンバス内のデータセットの一覧を強調表示します。 トグルをオフにすると、選択した列の少なくとも 1 つを含むアセットが表示されます。 トグルをオンにすると、すべての列を含むデータセットのみが表示されます。

    切り替えを使用して系列ページのノードの一覧をフィルター処理する方法を示すスクリーンショット。

列系列を処理する

コピー アクティビティなどのデータ プロセスを統合カタログで表示することもできます。 たとえば、この系列フローで、コピー アクティビティを選択します。

コピー アクティビティ ノードのいずれかが強調表示されているデータ系列フローのスクリーンショット。

コピー アクティビティが展開され、[ 資産に切り替える ] ボタンを選択すると、プロセス自体の詳細が表示されます。

コピー アクティビティ ノードが展開され、新しい [資産への切り替え] ボタンが選択されているスクリーンショット。

データ プロセスでは、1 つ以上の入力データセットを使用して 1 つ以上の出力を生成できます。 Microsoft Purview では、列レベルの系列をプロセス ノードで使用できます。

  1. 列パネルのドロップダウンから入力データセットと出力データセットを切り替えます。

  2. 入力データセットから対応する出力データセットに流れる系列を表示するには、1 つ以上のテーブルから列を選択します。

    プロセス ノードの列系列を示すスクリーンショット。

系列内の資産を参照する

  1. [任意の 資産の資産に切り替える ] を選択して、系列ビューから対応するメタデータを表示します。 これを行うと、系列ビューからカタログ内の別の資産を参照する効果的な方法です。

    系列データ資産で [資産に切り替える] を選択する方法を示すスクリーンショット。

  2. 系列キャンバスは、一般的なデータセットにとって複雑になる可能性があります。 煩雑にならないように、既定のビューには、フォーカスしているアセットの系列の 5 つのレベルのみが表示されます。 系列の残りの部分は、系列キャンバスでバブルを選択することで展開できます。 また、データ コンシューマーは、関心のないキャンバス内の資産を非表示にすることもできます。 散らかりを減らすには、系列キャンバスの上部にある [ その他の系列 ] をオフにします。 このアクションでは、系列キャンバス内のすべてのバブルが非表示になります。

    [その他の系列] を切り替える方法を示すスクリーンショット。

  3. 系列キャンバスのスマート ボタンを使用して、系列の最適なビューを取得します。

    1. フルスクリーン
    2. サイズに合わせてズームする
    3. 拡大/縮小
    4. 自動整列
    5. ズーム プレビュー
    6. その他のオプション:
      1. 現在の資産を中央揃えする
      2. 既定のビューにリセットする

    系列スマート ボタンを選択する方法を示すスクリーンショット。

カスタム系列を手動または REST API で構築する

Microsoft Purview の重要なプラットフォーム機能の 1 つは、データ プロセスによって作成されたデータセット間の系列を表示できることです。 Data Factory、Data Share、Power BI などのシステムは、データの移動に伴う系列をキャプチャします。 特定の状況では、Purview によって自動的に生成された系列は、実用的な視覚化やエンタープライズ レポートのために不完全または欠落しています。 このようなシナリオでは、Microsoft Purview ポータルで、または Apache Atlas フックと REST API を使用して、カスタム系列エントリを手動で作成できます。 REST API を使用してカスタム系列をレポートまたは構築するもう 1 つの主な利点は、手動系列によって公開される機能の制限を克服または軽減することです。

カスタム系列を手動で構築するには、次のユーザー ガイドに従います。 Microsoft Purview の手動系列エントリ

REST API を使用して Microsoft Purview でカスタム系列を構築するには、次のユーザー ガイドに従います。 Microsoft Purview - REST API を使用したカスタム系列の構築

ヒント

場合によっては、REST API は、ポータルを介して系列エントリを手動で構築するよりも多くの入力とカスタマイズオプションを提供できます。

系統のベスト プラクティス

次の手順