Unity Catalog と Microsoft Purview を使用したデータ ガバナンス
データ ガバナンスは、組織内のデータが安全かつ効率的に管理され、規制に準拠していることを保証するために重要です。 Azure Databricks は、Unity Catalog と Microsoft Purview と組み合わせることで、データを効果的に管理するための堅牢なソリューションを提供します。
データ ガバナンス ツール
Unity Catalog と Microsoft Purview を使用してデータ ガバナンスを実装する方法の概要を次に示します。
Unity Catalog
Unity Catalog は、Azure Databricks 内の機能であり、すべてのデータと AI 資産に対して統合されたガバナンス ソリューションを提供します。 組織内のすべてのワークスペースにわたってデータ オブジェクトを管理する一元化されたメタストアが提供されます。
Microsoft Purview
Microsoft Purview は、オンプレミス、マルチクラウド、SaaS (サービスとしてのソフトウェア) にあるデータの管理と制御を支援する統合データ ガバナンス サービスです。 データ検出、データ分類、データ系列、データ アクセス ガバナンスなどの機能を提供します。
Unity Catalog の概要
Azure Databricks の Unity Catalog は、Databricks ワークスペース全体のすべてのデータ資産と AI 資産のメタデータを管理する一元化されたメタストアです。 これにより、きめ細かいセキュリティ制御とガバナンス ポリシーが大規模に可能になり、複数のチームやプロジェクト間のデータを安全に管理しやすくなります。
Unity Catalog の主な機能
統合された名前空間:Unity Catalog では、すべてのワークスペースでデータセット、ファイル、機械学習モデル用の 1 つの名前空間が提供されるため、資産の管理と検出が容易になります。
きめ細かいアクセスの制御:これにより、管理者は、最小限の特権の原則に従って、標準の SQL GRANT ステートメントと REVOKE ステートメントを使用して、データに対する正確なアクセス制御を設定できます。
データ系列:Unity Catalog では、データ系列をキャプチャして表示します。これは、データのフローを追跡し、時間の経過に伴う変換を理解するために重要です。
一元化されたメタデータ管理:すべてのメタデータを一元的に管理し、定義、説明、およびその他のメタデータがプロジェクトとワークスペース間で一貫していることを確認します。
Databricks SQL との統合:Unity Catalog は Databricks SQL と完全に統合されているため、プラットフォームからデータを移動することなく、データ資産のシームレスなクエリ実行と管理が可能になります。
Microsoft Purview の概要
Microsoft Purview には、組織全体のデータ使用状況に関する可視性、制御、分析情報を提供するように設計された一連のデータ ガバナンス ツールが用意されています。 場所に関係なく、データの検出、分類、保護、監視に役立ちます。
Azure Databricks 用 Microsoft Purview の主な機能
データの検出と分類:組み込みの分類子を使用して Azure Databricks 環境全体でデータを自動的にスキャンして分類し、カスタム分類子も作成します。
データ系列:データ系列の詳細な可視性を提供し、Azure Databricks 内を含め、さまざまなシステムとプロセス間でデータがどのように変換および移動されるかを示します。
データ マップ:さまざまなデータ ソースのメタデータを検索可能なカタログに集計し、ユーザーがデータ ランドスケープとそのリレーションシップを理解できるようにします。
アクセスとポリシーの管理:Azure Databricks やその他の統合システム内でデータにアクセスして使用する方法を適用するガバナンス ポリシーを作成できます。
分析情報とレポート:データ検出、機密分類、アクセス分析に関する詳細なレポートを提供し、コンプライアンスを確保し、データ ガバナンス戦略を最適化するのに役立ちます。