セクション 2: データを設定して登録する
スキャンに使用できるデータ ソースがない場合は、次の手順に従って、Azure Data Lake Stroage (ADLS Gen2) の例を完全にデプロイできます。
ヒント
Microsoft Purview アカウントと同じテナントに既にデータ ソースがある場合は、このセクションの次の部分に進んで資産をスキャンします。
実際のデータ資産では、さまざまなデータ アプリケーションでさまざまなシステムが使用されています。 Fabric や Snowflake などのレポート環境では、チームがデータのコピーを使用して分析ソリューションを構築し、レポートとダッシュボードを強化します。 アプリケーション チームまたは顧客が、プロセス中に行われた決定に基づいてデータを収集または追加するビジネス プロセスを完了するために使用する運用データ システムがあります。
より現実的なデータ資産を作成するには、カタログ内の多くのデータ ソースを表示することをお勧めします。これは、会社が持つ可能性があるさまざまなデータ使用の幅をカバーできます。 ユース ケースを強化するために必要なデータの種類は、レポートやダッシュボードを必要とするビジネス ユーザーと大きく異なる場合があります。アナリストは、レポートを構築するために準拠したディメンションと事実を必要とし、データ サイエンティストまたはデータ エンジニアは、これらのデータをすべて収集するシステムから直接取得された生のソース データを必要とし、より多くのユーザーが検索の重要性を確認できるようにする必要があります。 同じ場所のデータを理解し、アクセスする。
資産にデータを追加するその他のチュートリアルについては、次のガイドに従ってください。
- Fabric Lakehouse チュートリアル - レポート環境の基盤を提供します
- Azure SQL データベース (サンプル) – 運用データ ストアの適切に構造化された例を提供します
前提条件
- Azure のサブスクリプション: Azure 無料アカウントを今すぐ作成する
- テナントのMicrosoft Entra ID: Microsoft Entra ID ガバナンス
- Microsoft Purview アカウント
- 管理 Microsoft Purview アカウントにアクセスできます (これは、Microsoft Purview アカウントを作成した場合の既定値です。新しい Microsoft Purview ポータル プレビューでのアクセス許可 |Microsoft Learn)
- すべてのリソース。Microsoft Purview、データ ソース、Microsoft Entra IDは、同じクラウド テナントに存在する必要があります。
データ資産を設定する手順
ストレージ アカウントを作成して設定する
- このガイドに従ってストレージ アカウントを作成する: Azure Data Lake Storage Gen2用のストレージ アカウントを作成する
- 新しいデータ レイクのコンテナーを作成します。
- ストレージ アカウントの [概要] ページに移動します。
- [データ ストレージ] セクションの [ コンテナー ] タブを選択します。
- [ + コンテナー ] ボタンを選択します
- "bronze" と名前を付け、[ 作成 ] ボタンを選択します
- 次の手順を繰り返して、'gold' コンテナーを作成します
- data.gov から CSV データの例をダウンロードする: Covid-19 ワクチン接種とケースの傾向 :年齢グループ別、米国
- 作成したストレージ アカウントの "bronze" という名前のコンテナーに CSV をアップロードします。
- "bronze" という名前のコンテナーを選択し、[ アップロード ] ボタンを選択します。
- CSV を保存した場所を参照し、 Covid-19_Vaccination_Case _Trends ファイルを選択します。
- [アップロード] を選択します。
Azure Data Factoryを作成する
この手順では、メダリオン データ レイクのレイヤー間でデータがどのように移動されるかを示し、データがコンシューマーが使用すると予想される標準化された形式であることを確認します。これは、データ品質を実行するための前提条件の手順です。
このガイドに従ってAzure Data Factoryを作成する: Azure Data Factoryを作成する
このAzure Data Factory ガイドを使用して、"ブロンズ" コンテナーの CSV から "gold" コンテナーに Delta 形式のテーブルにデータをコピーする: マッピング データ フローを使用してデータを変換する
作成された ADF リソースの [概要] タブの [Studio の起動] ボタンを選択して、Azure portalから Azure Data Factory (ADF) エクスペリエンスを開きます。
ADF Studio の [ 作成者 ] タブを選択します。
[ + ] ボタンを選択し、ドロップダウン メニューから [ データ フロー ] を選択します。
データフローに "CSVtoDeltaC19VaxTrends" という名前を付けます。
空のボックスで [ ソースの追加] を選択します。
[ソース設定] を に設定します。
- 出力ストリーム名: 'C19csv'
- 説明: 空白のままにします
- ソースの種類: インライン
- インライン データセットの種類: 区切りテキスト
- リンクされたサービス: csv を保存したデータ レイクを選択します
[ソース オプション] を 次のように設定します。
- ファイル モード: ファイル
- ファイル パス: /bronze/ Covid-19_Vaccination_Case _Trends
- ファイルが見つからない場合: オフのままにします
- データ キャプチャを変更する: オフのままにします
- 圧縮の種類: なし
- エンコード: Default(UTF-8)
- 列区切り記号: コンマ (,)
- 行区切り記号: Default(\r、\n、または\r\n)
- 見積もり文字: 二重引用符 (")
- エスケープ文字: 円記号 ()
- ヘッダーとしての最初の行: CHECKED
- 残りは既定値のままにします
作成したソースの小さい + 次へ を選択し、[シンク] を選択 します
"ブロンズ" の csv から 'gold' のデルタ テーブルにデータを移動するために格納するデータの形式と場所を示すシンクを作成します。
- シンクの値を設定します (指定しない限り、すべての設定は既定値のままにします)
- シンクの種類: インライン
- インライン データセットの種類: Delta
- リンクされたサービス: 別のコンテナーに格納するため、ソースで使用されるのと同じデータ レイク。
[設定] の値を設定します (指定しない限り、すべての設定は既定値のままにします)
- フォルダー パス: gold/Covid19 ワクチンとケースの傾向
この名前は、データを格納する方法であり、選択する必要がないため、値を入力する必要があります。
[ 検証] を選択すると、データ フローがチェックされ、エラーを修正するための手順が提供されます。
[ すべて発行] を選択します。
[ + ] ボタンを選択し、ドロップダウン メニューから [パイプライン] を選択します
パイプラインに "CSV to Delta C19 Vax Trends" という名前を付けます
前の手順 CSV で作成したデータフローを Delta (C19VaxTrends) に選択し、開いているパイプライン タブにドラッグ アンド ドロップします。
[検証] を選択します
[ 発行] を選択します
[ デバッグ ] (アクティビティ ランタイムを使用) を選択してパイプラインを実行します。
ヒント
スペースのエラーやデルタ形式の不適切な文字にヒットした場合: ダウンロードした CSV を開き、修正を行います。 次に、ブロンズ ゾーンの CSV を再アップロードして上書きします。 次に、パイプラインを再実行します。
データ レイク内のゴールド コンテナーに移動すると、パイプライン中に作成された新しい Delta テーブルが表示されます。
資産をスキャンする
Microsoft Purview データ マップにデータ資産をスキャンしていない場合は、次の手順に従ってデータ マップを設定できます。
データ資産内のソースをスキャンすると、それらのソース内のデータ資産 (テーブル、ファイル、フォルダー、レポートなど) のメタデータが自動的に収集されます。 データ ソースを登録し、スキャンを作成することで、カタログに表示されるソースと資産に対する技術的所有権を確立し、Microsoft Purview でどのメタデータにアクセスできるかを制御できるようにします。 ソースと資産をドメイン レベルで登録して格納することで、最高レベルのアクセス階層に格納されます。 通常、資産メタデータをスキャンし、そのデータの適切なアクセス階層を確立するコレクションをいくつか作成することをお勧めします。
-
Microsoft Purview マネージド ID (MSI) の閲覧者アクセス権をデータ レイクまたは他のデータ ストアに提供します。
ヒント
MSI は、Microsoft Purview インスタンスのアカウント名です。
Microsoft Fabric または SQL の使用を選択した場合は、次のガイドを使用してアクセスを提供できます。
データ レイクを登録して資産をスキャンする
[ドメイン] タブの [Microsoft Purview データ マップ] で、ドメインのロールの割り当てを選択します (これは Microsoft Purview アカウントの名前になります)。
- 自分をデータ ソース管理者として追加し、データ キュレーターをドメインに追加します。
- ロール [ データ ソース管理者] の横にあるユーザー アイコンを選択します。
- Microsoft Entra ID内にある名前を検索します (Microsoft Entra IDにあるとおりに完全な名前を入力する必要がある場合があります)。
- [OK] を選択します。
- データ キュレーターに対してこれらの手順を繰り返します。
- 自分をデータ ソース管理者として追加し、データ キュレーターをドメインに追加します。
データ レイクを登録します。
- [ データ ソース ] タブを選択します。
- [登録] を選択します。
- Azure Data Lake Storage Gen2ストレージの種類を選択します。
接続する詳細を指定します。
- サブスクリプション (省略可能)
- データ ソース名 (これは ADLS Gen2 ソースの名前になります)
- 資産メタデータを格納する必要があるコレクション (省略可能)
- [ 登録] を選択します
データ ソースの登録が完了したら、スキャンを構成できます。 登録は、Microsoft Purview がデータ ソースに接続され、所有権の正しいコレクションに配置されていることを意味します。 スキャンすると、ソースからメタデータが読み取られ、データ マップ内の資産が設定されます。
[データ ソース] タブで登録したソースを選択します
新しいスキャンを選択し、詳細を指定します。
- このスキャンに既定の統合ランタイムを使用する
- 資格情報は Microsoft Purview MSI (システム) である必要があります
- スキャン レベルは自動検出です
- コレクションを選択するか、ドメインを使用します (コレクションは、データ ソースが登録されたのと同じコレクションまたは子コレクションである必要があります)
- [続行] を選択します
ヒント
この時点で、Microsoft Purview は接続をテストして、スキャンを実行できることを検証します。 データ ソースに対する Microsoft Purview MSI リーダー アクセス権を付与していない場合、失敗します。 データ ソースの所有者ではない場合、またはユーザー アクセス共同作成者がいる場合、接続を作成するための承認が必要になるため、スキャンは失敗します。
ここで、チュートリアルの建物データ セクションにデルタ テーブルを配置したコンテナー 'gold' のみを選択します。 これにより、データ ストア内の他のデータ資産がスキャンされなくなります。
- ゴールドの横に青いチェックが 1 つしかない場合は、すべてのソースをスキャンし、使用するアセットを作成するため、すべての横にチェックを残すことができます。
- [ 続行] を選択します
[スキャン ルール セットの選択] 画面で、既定のスキャン ルール セットを使用する必要があります。
[ 続行] を選択します
[スキャン トリガーの設定] では、スキャンの頻度を設定して、引き続きレイクのゴールド コンテナーにデータ資産を追加すると、データ マップが設定されます。 [ 1 回] を選択します。
[続行] を選択します。
[ 保存して実行] を選択します。 これにより、データ レイクの gold コンテナーからのメタデータのみを読み取り、次のセクションのMicrosoft Purview 統合カタログで使用するテーブルを設定するスキャンが作成されます。 [保存] のみを選択した場合、スキャンは実行されず、アセットは表示されません。 スキャンが実行されると、作成したスキャンが [ 前回の実行 状態 ] の [キューに入っている] と表示されます。 スキャン読み取りが完了すると、資産は次のセクションの準備が整います。 ソースに含まれる資産の数によっては、数分または数時間かかる場合があります。