Google BigQuery のデータ品質 (プレビュー)

[アーティクル]
11/20/2024

サポートされている機能

Google BigQuery ソースをスキャンする場合、Microsoft Purview では次の処理がサポートされます。

以下を含む技術的なメタデータの抽出:
- プロジェクトとデータセット
- 列を含むテーブル
- 列を含むビュー
テーブルとビュー間の資産リレーションシップに対する静的系列のフェッチ。

スキャンを設定するときに、Google BigQuery プロジェクト全体をスキャンすることを選択できます。また、指定された名前または名前パターンに一致するデータセットのサブセットにスキャンのスコープを設定することもできます。

既知の制限

現在、Microsoft Purview では、米国の複数リージョンの場所での Google BigQuery データセットのスキャンのみがサポートされています。指定したデータセットが us-east1 や EU などの他の場所にある場合は、スキャンが完了したが、Microsoft Purview に資産は表示されません。
オブジェクトがデータソースから削除された場合、現在、後続のスキャンでは、Microsoft Purview の対応する資産は自動的に削除されません。

Microsoft Purview で Google BigQuery データをカタログ化するようにデータマップスキャンを構成する

Google BigQuery プロジェクトを登録する

Microsoft Purview を開き、左側のナビゲーションで [データマップ] を選択します。
[登録] を選択します。
[ソースの登録] で、[Google BigQuery] を選択します。 [続行] を選択します。
- カタログ内にデータソースが一覧表示される名前を入力します。
- ProjectID を入力します。これは完全修飾プロジェクト ID である必要があります。たとえば、mydomain.com: myProject
- 一覧からコレクションを選択します。
- [登録] を選択します。

Google BigQuery プロジェクトのデータマップスキャンを設定する

セルフホステッド統合ランタイムが設定されていることを確認します。セットアップされていない場合は、「前提条件」で説明されている手順を使用します
[ソース] に移動します。
登録済みの BigQuery プロジェクトを選択します。
[+ 新しいスキャン] を選択します。
以下の詳細を指定します。
- 名前: スキャンの名前
- 統合ランタイム経由で接続する: 構成済みのセルフホステッド統合ランタイムを選択します
- 資格情報: BigQuery 資格情報の構成中に、次のことを確認します。
  - 認証方法として [基本認証] を選択します
  - [ユーザー名] フィールドにサービスアカウントの電子メール ID を指定します。たとえば、xyz@developer.gserviceaccount.com のように指定します。
  - 秘密キーを生成するには、次の手順に従います。 JSON キーファイル全体をコピーし、Key Vault シークレットの値として格納します。
  - Google のクラウドプラットフォームから新しい秘密キーを作成するには:
    - ナビゲーションメニューで [IAM (Identity Access Management)] を選択し、[管理 --> サービスアカウント] --> [プロジェクトの選択] を選択します。>
    - キーを作成するサービスアカウントのメールアドレスを選択します。
    - [キー] タブを選択します。
    - [キーの追加] ドロップダウンメニューを選択し、[新しいキーの作成] を選択します。
    - [JSON 形式] を選択します。
- セルフホスト統合ランタイムが実行されているマシン内の JDBC (Java Database Connectivity) ドライバーの場所へのパスを指定します。たとえば、D:\Drivers\GoogleBigQuery です。
- インポートする BigQuery データセットの一覧を指定します。たとえば、dataset1 です。dataset2。リストが空の場合、使用可能なすべてのデータセットがインポートされます。
- プロセスのスキャンによって使用される VM (仮想マシン) で使用できる最大メモリ (GB 単位)。これは、スキャンする Google BigQuery プロジェクトのサイズによって異なります。
[接続のテスト] を選択します。
[続行] を選択します。
スキャントリガーを選択します。スケジュールを設定することも、スキャンを 1 回実行することもできます。
スキャンを確認し、[ 保存して実行] を選択します。

スキャンすると、Google BigQuery プロジェクトのデータ資産が統合カタログ検索で利用できるようになります。 Microsoft Purview で Google BigQuery を接続および管理する方法の詳細については、こちらのドキュメントを参照してください。

重要

スキャンを削除しても、以前のスキャンから作成されたカタログ資産は削除されません。

データ品質スキャンのために Google BigQuery プロジェクトへの接続を設定する

この時点で、スキャンされた資産をカタログ化およびガバナンスの準備ができました。スキャンした資産をガバナンスドメインのデータ製品に関連付けて、データ品質スキャンを設定します。

[データ品質] > [ガバナンスドメイン] > [管理] タブを選択して接続を作成します。
接続の構成
- 接続名と説明を追加する
- ソースの種類 Google BigQuery を選択する
- プロジェクト ID、データセット名、テーブル名を追加する
- [サービスアカウントの秘密キー] を選択します
  - Azure サブスクリプションを追加する
  - キーコンテナー接続
  - シークレット名
  - シークレットのバージョン
データソース接続が正常に構成されるように接続をテストします。

重要

データ品質スチュワードは、データ品質接続を設定するために、Google BigQuery への 読み取り専用アクセス権 を必要とします。 vNet とプライベートエンドポイントは、データ品質スキャンサービスではまだ Google BigQuery データソースではサポートされていません。

Google BigQuery でのデータのプロファイリングとデータ品質スキャン

接続のセットアップが正常に完了したら、Google BigQuery でデータのプロファイリング、作成、適用、データ品質スキャンを実行できます。以下のドキュメントで説明されているステップバイステップのガイドラインに従ってください。

次の方法で共有

Google BigQuery のデータ品質 (プレビュー)

サポートされている機能

既知の制限

Microsoft Purview で Google BigQuery データをカタログ化するようにデータマップスキャンを構成する

Google BigQuery プロジェクトを登録する

Google BigQuery プロジェクトのデータマップスキャンを設定する

データ品質スキャンのために Google BigQuery プロジェクトへの接続を設定する

Google BigQuery でのデータのプロファイリングとデータ品質スキャン

参照ドキュメント

フィードバック

その他のリソース

次の方法で共有

Google BigQuery のデータ品質 (プレビュー)

サポートされている機能

既知の制限

Microsoft Purview で Google BigQuery データをカタログ化するようにデータマップ スキャンを構成する

Google BigQuery プロジェクトを登録する

Google BigQuery プロジェクトのデータマップ スキャンを設定する

データ品質スキャンのために Google BigQuery プロジェクトへの接続を設定する

Google BigQuery でのデータのプロファイリングとデータ品質スキャン

参照ドキュメント

フィードバック

その他のリソース

Microsoft Purview で Google BigQuery データをカタログ化するようにデータマップスキャンを構成する

Google BigQuery プロジェクトのデータマップスキャンを設定する