Fabric Lakehouse データ資産のデータ品質 (プレビュー)

[アーティクル]
12/17/2024

Fabric OneLake は、organization全体の単一の統合された論理データレイクです。 Data Lake は、さまざまなソースからの大量のデータを処理します。 OneDrive と同様に、OneLake はすべての Microsoft Fabric テナントに自動的に付属し、すべての分析データの単一の場所として設計されています。 OneLake では、次の顧客が提供されます。

organization全体の 1 つのデータレイク
複数の分析エンジンで使用するデータの 1 つのコピー

OneLake は、データの移動や複製を行わずに、データの 1 つのコピーから可能な限り最大限の価値を提供することを目的としています。データを別のエンジンで使用したり、サイロを分割したりするためにデータをコピーする必要がなくなり、他のソースのデータを使用してデータを分析できます。 Microsoft Purview を使用して、ファブリックデータ資産をカタログ化し、データ品質を測定して、改善アクションを管理および推進できます。

ショートカットを使用して、他のファイルの場所に格納されているデータを参照できます。これらのファイルの場所は、同じワークスペース内、または異なるワークスペース間、OneLake 内、または Azure Data Lake Storage (ADLS)、AWS S3、または Dataverse の OneLake の外部にあり、より多くのターゲットの場所が近日公開される予定です。データソースの場所はそれほど重要ではありません。OneLake ショートカットを使用すると、ファイルとフォルダーがローカルに保存されたように見えます。チームが個別のワークスペースで独立して作業する場合、ショートカットを使用すると、さまざまなビジネスグループやドメインのデータを仮想データ製品に結合して、ユーザー固有のニーズに合わせることができます。

ミラーリングを使用して、さまざまなソースのデータを Fabric Mirroring in Fabric に取り込むことができます。これは、さまざまなシステムのデータを 1 つの分析プラットフォームにまとめる低コストで待機時間の短いソリューションです。 Azure SQL Database、Azure Cosmos DB、Snowflake からのデータなど、既存のデータ資産を Fabric の OneLake に直接継続的にレプリケートできます。 OneLake のクエリ可能な形式で最新のデータを使用すると、Fabric のすべての異なるサービスを使用できるようになりました。たとえば、Spark での分析の実行、ノートブックの実行、データエンジニアリング、Power BI レポートによる視覚化などです。その後、Delta テーブルをあらゆる場所の Fabric で使用できるため、ユーザーは Fabric への移行を加速できます。

データマップスキャンの構成

Data Map スキャンを構成するには、スキャンするデータソースを登録する必要があります。

Fabric OneLake を登録する

Fabric ワークスペースをスキャンする場合、データソースとして Fabric テナントを登録するための既存のエクスペリエンスに変更はありません。 Microsoft Purview 統合カタログに新しいデータソースを登録するには、次の手順に従います。

Microsoft Purview ガバナンスポータルで Microsoft Purview アカウントに移動します。
左側のナビゲーションウィンドウで [データマップ] を選択します。
[登録] を選択します
[ソースの登録] で、[Fabric] を選択します

セットアップ手順については、同じテナントとテナント間を参照してください。

データマップスキャンを設定する

Lakehouse subartifacts をスキャンする場合、Purview の既存のエクスペリエンスに変更を加えてスキャンを設定する必要はありません。サポートされているファイル形式からスキーマ情報を抽出するために、ファブリックワークスペースで少なくとも 共同作成者 ロールを持つスキャン資格情報を付与する別の手順があります。

現在、認証方法としてサポートされているのはサービスプリンシパルのみです。 MSI のサポートはバックログに残っています。

セットアップ手順については、同じテナントとテナント間を参照してください。

Fabric Lakehouse スキャンの接続を設定する

Fabric Lakehouse をソースとして登録したら、登録済みのデータソースの一覧から [Fabric] を選択し、[ 新しいスキャン] を選択できます。次のスクリーンショットで強調表示されている接続の詳細を追加します。

セキュリティグループとサービスプリンシパルを作成する
このサービスプリンシパルと Purview マネージド ID の両方をこのセキュリティグループに追加してから、このセキュリティグループを指定してください。
セキュリティグループを Fabric テナントに関連付ける
1. Fabric 管理ポータルにログインします。
2. [テナント設定] ページを選択します。 テナント設定ページを表示するには、Fabric 管理である必要があります。
3. [管理 API 設定] > [サービスプリンシパルが読み取り専用管理者 API を使用できるようにする] を選択します。
4. [特定のセキュリティグループ] を選択します。
5. [API 設定管理>詳細なメタデータを使用して管理 API 応答を強化する] と [DAX 式とマッシュアップ式を使用した管理者 API 応答の強化] を選択>スキャンの一部として Fabric データセットの詳細なメタデータMicrosoft Purview データマップ自動的に検出できるようにするトグルを有効にします。 Fabric テナントの管理 API 設定を更新した後、スキャンとテストの接続を登録するまで約 15 分待ちます。
このセキュリティグループ管理 API 設定の読み取り専用 api アクセス許可を指定します。
[資格情報] フィールドに SPN を追加します。
Azure リソース名を追加します。

テナント ID を追加します。
サービスプリンシパル ID を追加します。
接続Key Vault追加します。
シークレット名を追加します。

Data Map スキャンが完了したら、統合カタログから Lakehouse インスタンスを見つけます。

テーブルカテゴリを使用してレイクハウス テーブル を参照します。

Fabric Lakehouse データ品質スキャンの前提条件

ショートカット、ミラー、またはデータをデルタ形式で Fabric lakehouse に読み込みます。

重要

モローリングまたはショートカットを使用して新しいテーブル、ファイル、または新しいデータセットを Fabric lakehouse に追加した場合は、データの品質評価のためにデータ資産をデータ製品に追加する前に、データマップスコープスキャンを実行して、それらの新しいデータセットをカタログ化する必要があります。

Purview MSI のワークスペースに共同作成者権限を付与する

スキャンされたデータ資産を lakehouse からガバナンスドメインのデータ製品に追加します。データプロファイルと DQ スキャンは、ガバナンスドメインのデータ製品に関連付けられているデータ資産に対してのみ実行できます。

データプロファイルとデータ品質スキャンの場合は、データソースを接続するために別のコネクタを使用し、データをスキャンしてデータ品質の事実とディメンションをキャプチャするため、データソース接続を作成する必要があります。接続を設定するには:

統合カタログで、[正常性管理] を選択し、[データ品質] を選択します。
ガバナンスドメインを選択し、[管理] ドロップダウンリストから [Connections] を選択します。
[ 新規] を選択して接続構成ページを開きます。
接続の表示名と説明を追加します。
ソースの種類 Fabric を追加します。
テナント ID を追加します。
資格情報 - Microsoft Purview MSI を追加します。
接続をテストして、構成された接続が成功したことを確認します。

重要

DQ スキャンの場合、Purview MSI は、Fabric ワークスペースを接続するために Fabric ワークスペースへの共同作成者アクセス権を持っている必要があります。共同作成者へのアクセスを許可するには、Fabric ワークスペースを開き、3 つのドット (...) を選択し、[ ワークスペースアクセス] を選択し、[ ユーザーまたはグループを追加する] を選択してから、Purview MSI を 共同作成者として追加します。
ファブリックテーブルは、デルタ形式または氷山形式である必要があります。

Fabric Lakehouse でのデータのプロファイリングとデータ品質 (DQ) スキャン

接続のセットアップが正常に完了したら、Fabric Lakehouse でデータのプロファイリング、作成、適用、データのデータ品質 (DQ) スキャンを実行できます。以下で説明するステップバイステップのガイドラインに従ってください。

キュレーション、検出、サブスクリプションのデータ製品に Lakehouse テーブルを関連付けます。詳細については、ドキュメントに従ってください。データ製品を作成および管理する方法

プロファイルファブリックレイクハウステーブル。詳細については、ドキュメントに従ってください。データのデータプロファイルを構成して実行する方法

Fabric Lakehouse テーブルのデータ品質を測定するために、データ品質スキャンを構成して実行します。詳細については、「データ品質スキャンを構成して実行する方法」のドキュメントに従ってください

重要

データがデルタ形式または氷山形式であることを確認します。
データマップスキャンが正常に実行されたことを確認します。実行されていない場合は、データマップスキャンを再実行します。

制限

Parquet ファイルのデータ品質は、次をサポートするように設計されています。

Parquet パーツファイルを含むディレクトリ。例: ./Sales/{Parquet Part Files}。完全修飾名は、 https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}に従う必要があります。ディレクトリ/サブディレクトリ構造に {n} パターンがないことを確認します。{SparkPartitions} につながる直接 FQN である必要があります。
年と月でパーティション分割された売上データなど、データセット内の列でパーティション分割されたパーティション分割された Parquet ファイルを含むディレクトリ。例: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}。

一貫性のある Parquet データセットスキーマを示すこれらの重要なシナリオの両方がサポートされています。制限事項: Parquet ファイルを含むディレクトリの N 個の任意の階層に対して設計されていないか、サポートされません。 (1) または (2) 構築された構造でデータを提示するようにお客様にアドバイスします。そのため、サポートされている Parquet 標準に従うか、 ACID 準拠のデルタ形式にデータを移行することをお勧めします。

ヒント

データマップの場合

SPN にワークスペースのアクセス許可があることを確認します。
スキャン接続で SPN が使用されていることを確認します。
初めてレイクハウススキャンを設定する場合は、フルスキャンを実行することをお勧めします。
取り込まれた資産が更新または更新されたことを確認する

統合カタログ

DQ 接続では、MSI 資格情報を使用する必要があります。
Lakehouse データ DQ スキャンを初めてテストするための新しいデータ製品を作成するのが理想的です
取り込まれたデータ資産を追加します。データ資産が更新チェック。
実行プロファイルを試してください。成功した場合は、DQ ルールの実行を試してください。成功しない場合は、資産スキーマ (スキーマ> スキーマ管理インポートスキーマ) を更新してみてください
一部のユーザーは、すべてがゼロから機能チェックするために、新しい Lakehouse とサンプルデータを作成する必要がありました。場合によっては、Data Map で以前に取り込まれた資産を操作すると、エクスペリエンスに一貫性がありません。

次の方法で共有

Fabric Lakehouse データ資産のデータ品質 (プレビュー)