次の方法で共有


メタデータ標準

メタデータ管理は、データ アーキテクチャにおいて重要な役割を果たします。 メタデータとは、他のデータに関するデータのことです。 データに関する記述であり、データの検索、セキュリティ保護、制御に役立つ参照を提供します。 メタデータでは、データのバインドも行われます。 データの整合性と品質の検証、新しい場所へのデータのルーティングまたはレプリケート、データの変換、データの意味の理解に使用できます。 メタデータは、セルフサービス ポータルを使用してデータを民主化する場合にも不可欠です。

業界では、メタデータの利用度が高いポータルにより、データ アナリストやデータ科学者にとってデータ分析情報が使いやすくなる傾向が高まっています。 この傾向は、"データ監視" と呼ばれます。 データ監視では、メタデータ レイク、ナレッジ グラフ、メタデータ グラフなどの概念を使用して、メタデータが一元化されているプラットフォームについて記述します。 分散データ メッシュを使用する場合に、組織全体でデータがどのように使用され、ソース化されるかを統一されたビューで構築する良い方法です。

優れたメタデータ管理戦略は、有機的に成長します。 これは、最も重要な領域をまず特定することにより、シンプルかつ小規模に始まります。 優れたメタデータ管理戦略は、サービスと明確なプロセスでもサポートされています。 開始するには、さまざまなメタデータ カテゴリに注意することをお勧めします。

  • ビジネス メタデータは、ガバナンス、データの検出と解釈に使用されるすべての側面について記述したものです。 よく知られている例としては、ビジネス用語と定義、データの所有権、使用状況、および発生元に関する情報などがあります。
  • 技術メタデータは、デザイン時のデータの構造面について記述したものです。 よく知られている例としては、スキーマ情報、データ形式とプロトコル情報、暗号化キーと復号化キーなどがあります。
  • 運用メタデータは、実行時のデータ処理の側面について記述したものです。 よく知られている例としては、プロセス情報、実行時間、プロセス エラー情報、ジョブ ID などがあります。
  • ソーシャル メタデータは、コンシューマーの側から、データのユーザーの観点について記述したものです。 よく知られている例としては、使用情報とユーザー追跡情報、検索結果データ、フィルターとクリック、表示時間、プロファイル ヒット、コメントなどがあります。

分散データ アーキテクチャでは、メタデータ管理は、一元管理されたメタデータとフェデレーション管理されたメタデータの間でバランスを取ることが必要となる組織の課題です。 メタデータ管理を計画する際に、Azure のクラウド規模の分析のためのチームと機能を理解することが重要です。 コラボレーションデータ管理プラクティスを使用すると、チーム間のコミュニケーション、統合、データ フローの自動化を向上させることができます。 中央ガバナンスとドメイン所有権の間で適切なバランスを取ることで、メタデータ管理の複雑さに対処できます。

データ ドメインに対して一元管理またはフェデレーションを行うメタデータを決定し、実装を開始するときは、次の点に注意してください。

  • 重要なビジネス メタデータはどれか
  • 相互運用性に必要な技術メタデータはどれか
  • どのプロセスおよびストリームでデータをキャプチャするか
  • モデルやスキーマはどこで作成および管理されるか
  • データ ガバナンス部門が作業を正しく行えるようにするために、チームはどのような情報を一元的に提供する必要がありますか?

これらの質問に対する回答を使って、各メタデータ ストリームのコンテンツ ライフ サイクルを計画し、すべての依存関係を決定します。 そのようにすることで、ビジネス ドメイン、プロセス、テクノロジ、データをつなぐメタデータ モデルを作成できます。

必要なメタデータがわかったら、格納して処理する場所を選択する必要があります。 これには Microsoft Purview を使用できます。

Microsoft Purview を使用してデータ資産を大規模に管理する

Microsoft Purview は、オンプレミスのマルチクラウド SaaS (サービスとしてのソフトウェア) データの管理とガバナンスに役立つ統合データ ガバナンス ソリューションです。 メタデータは、データ検出、データ スキャン、データ品質、アクセス管理をインテリジェントに実行する完全に自動化されたサービスであるため、大規模に管理されます。 また、データ メッシュ アーキテクチャに関する多くの分析情報を含む包括的なマップも提供します。

Microsoft Purview は、データの場所に関係なく組織が統制、保護、管理できるように支援する包括的なソリューション セットです。 Microsoft Purview ソリューションは、統合されたカバレッジを提供し、組織全体のデータの断片化、データ保護とガバナンスを妨げる可視性の欠如、従来の IT 管理ロールのあいまいさに対処するのに役立ちます。

Microsoft Purview は、データ ガバナンスとコンプライアンスのソリューションとサービスを統合したプラットフォームで組織を支援します。

  • 組織全体のデータの可視化
  • あらゆる場所で、そのライフサイクル全体で機密データを保護および管理する
  • 新しい包括的な方法でデータをシームレスに管理する
  • 重要なデータ リスクと規制要件を管理する

Microsoft Purview を実装する場合は、あまりに多くの変更や複雑さを迅速に導入しないようにしてください。 技術的なメタデータは、Microsoft Purview の基礎を形成します。 理解する前に、メタデータを収集して整理する必要があります。

メタデータを取得したら、基本から始めます。

  • ビジネス用語
  • 権限のあるデータ ソースの一覧
  • データベースの一覧
  • ガバナンス ドメイン
  • スキーマ情報
  • データ所有権
  • データ スチュワードシップ
  • セキュリティ
  • データ品質

次に、より多くのドメイン所有者とデータ スチュワードをゆっくりと含め、分類と秘密度ラベルをさらに追加することでスケーリングします。 これらの追加により、検索エクスペリエンスが向上し、データ アクセス管理が向上します。

Microsoft Purview には、ガバナンス ドメインと呼ばれる機能が用意されています。これにより、ドメイン指向アーキテクチャ内のデータ製品とビジネス概念の統一されたガバナンス、所有権、検出の境界が確立されます。 詳細については、「Microsoft Purviewの ガバナンス ドメイン」を参照してください。

Azure Cosmos DB を使用してナレッジ グラフを作成する

データ分析情報ソリューションでは、データの使用方法と、ソース データやデータ製品などのエンティティ間のリレーションシップ、およびあるドメインのデータ製品と別のドメインの依存製品の間のリレーションシップを記述する必要があります。 グラフ データベースやカスタム ユーザー インターフェイスを使用して、これらの関係をモデル化できます。

カスタム ユーザー エクスペリエンスを使用して組織のデータの統合ビューを構築するには、Azure Cosmos DB の使用を検討してください。 Azure Cosmos DB は、NoSQL エンドポイントを使用した、グローバル分散型のマルチモデル データベース サービスです。 Azure Cosmos DB for Apache Gremlin を介してグラフ データベース サービスを提供します。これは、数十億の頂点とエッジを持つ大量のグラフを格納できます。

Azure Cosmos DB アーキテクチャの最終的な結果は、組織全体のグラフであり、エンド ツー エンドのコンテキストを使用して組織内のすべてのデータの統合ビューを提供します。 メタデータ レイクは、情報の格納に関するだけではありません。 また、メタデータを他のサービスやツールに接続することで、メタデータをグラフとして積極的に整理します。 この整理されたグラフを使用すると、次のような多くの主題領域を相互に関連付けることができます。

  • ドメイン
  • データ品質
  • データ使用量
  • ビジネス機能
  • アプリケーションの機能
  • 技術アーキテクチャ情報
  • 操作イベント
  • 組織のメタデータ
  • アプリケーション所有権のメタデータ
  • 場所情報
  • アプリケーション ライフ サイクル管理情報

次のステップ