完全なデータ一致ベースの機密情報の種類のソースデータをエクスポートする

[アーティクル]
12/12/2023

ヒント

E5 のお客様でない場合は、90 日間の Microsoft Purview ソリューション試用版を使用して、Purview の追加機能が組織のデータセキュリティとコンプライアンスのニーズの管理にどのように役立つかを確認してください。 Microsoft Purview 試用版ハブから開始します。サインアップと試用期間の詳細については、こちらをご覧ください。

適用対象

機密データテーブルは、ドキュメント内のコンテンツを比較して機密データを識別する値の行を含むテキストファイルです。これらの値は、個人を特定できる情報、製品レコード、またはコンテンツで検出して保護するテキスト形式のその他の機密データである可能性があります。

テーブル内のデータを (サポートされている形式のいずれかで) エクスポートしたら、EDM スキーマを作成できます。

EDM 機密型の定義

EDM 機密型を定義する場合、最も重要な決定事項の 1 つは、どのフィールドがプライマリフィールドであるかを定義することです。プライマリフィールドは、検出可能なパターンに従い、EDM スキーマで検索可能なフィールド (列) として定義する必要があります。セカンダリフィールドは、プライマリフィールドと一致するすべてのテキストと比較されるため、任意のパターンに従う必要はありません。

プライマリフィールドとして使用する列を決定するには、次の規則を使用します。

機密データテーブル内のフィールドに一致する 1 つの値の存在に基づいて機密データを検出する必要がある場合は、そのデータを取り巻く他の機密データの有無に関係なく、その列を EDM SIT のプライマリ要素として定義する必要があります。
機密データテーブル内の異なるフィールドの複数の組み合わせをコンテンツで検出する必要がある場合は、そのような組み合わせのほとんどに共通する列を特定し、それらをプライマリ要素として指定します。他のフィールドの組み合わせをセカンダリ要素として指定します。
プライマリ要素として使用する列が、 any text string などの検出可能なパターンに従わない場合や、ドキュメントや電子メールの大部分に存在する検出可能なパターンに従う場合は、他のより優れた構造化された列を主な要素として選択します。

たとえば、検出するデータのさまざまな組み合わせに共通する列が姓と名であっても、 full name、 date of birth、 account number、および Social Security Numberの列がある場合、そのような文字列は識別が容易で、機密情報の種類として定義するのが困難なパターンに従わない可能性があります。これにはいくつかの理由があります。

一部の名前は大文字で始まる場合があります
一部は、2 つ、3 つ以上の単語/文字列で形成される場合があります
一部には、数字やその他のアルファベット以外の文字が含まれている場合があります。生年月日はより簡単に識別できますが、すべての電子メールとほとんどのドキュメントに少なくとも 1 つの日付が含まれるため、 DateOfBirth フィールドも適切な候補ではありません。代わりに、社会保障番号やアカウント番号などのフィールドを使用します。これは、プライマリフィールドに適した候補です。

サンプルファイルテンプレート

プライマリフィールドの選択を容易にするために、次のサンプルファイルテンプレートをまとめました。

これらは、列ヘッダーとして業界全体で最も一般的に使用される値を持つコンマ区切り値 (.csv) ファイルと、行内の Microsoft によって生成された合成値です。列ヘッダーを使用して、プライマリフィールドの決定に役立ちます。ベストプラクティスは、必要なソースデータのみをエクスポートすることです。列ヘッダーは、最も関連性の高いフィールドを提案します。

サンプルファイルテンプレートの使用方法については、「サンプルファイルテンプレートを使用する方法」を参照してください。

機密データを.csv、 .tsv、またはパイプ区切り形式で保存する

使用する機密情報を特定します。データを Microsoft Excel などのアプリにエクスポートし、ファイルをテキストファイルとして保存します。ファイルは、 .csv (コンマ区切り値)、 .tsv (タブ区切り値)、または (|)(パイプ区切り) 形式のいずれかで保存できます。 .tsv 形式は、データ値に番地などのコンマが含まれる場合に推奨されます。データファイルには、次のデータを含めることができます。
- 最大 1 億行の機密データ
- データソースごとに最大 32 列 (フィールド)
- 検索可能としてマークされた最大 10 列 (フィールド)
EDM ベースの分類に使用されるフィールドの名前が最初の行に含まれるので、機密データを .csv または .tsv ファイルに構成します。ファイルには、"ssn"、"birthdate"、"firstname"、"lastname" などのフィールド名が含まれる場合があります。列見出しの名前にスペースやアンダースコアを含めることはできません。たとえば、この記事で使用するサンプルの .csv ファイルは PatientRecords.csv と呼ばれており、その列には PatientID、MRN、LastName、FirstName、SSN などが含まれています。
機密データフィールドの形式に注意してください。特に、コンテンツにコンマを含む可能性があるフィールド。たとえば、値 "Seattle, WA" を含む番地は、.csv 形式が選択されている場合、2 つの個別のフィールドとして解析されます。これを回避するには、.tsv 形式を使用するか、機密データテーブルの二重引用符で値を含むコンマを囲みます。値を含むコンマにスペースも含まれている場合は、対応する形式に一致するカスタム SIT を作成する必要があります。たとえば、コンマとスペースを含む複数単語の文字列を検出する SIT です。

次の手順

新しいエクスペリエンスの場合: 新しいエクスペリエンス用の EDM SIT サンプルファイルを作成する

または

クラシックエクスペリエンスの場合: 正確なデータ一致ベースの機密情報の種類のスキーマを作成する

次の方法で共有

完全なデータ一致ベースの機密情報の種類のソースデータをエクスポートする

適用対象

EDM 機密型の定義

サンプルファイルテンプレート

機密データを.csv、 .tsv、またはパイプ区切り形式で保存する

次の手順

関連項目

フィードバック

その他のリソース

次の方法で共有

完全なデータ一致ベースの機密情報の種類のソース データをエクスポートする

適用対象

EDM 機密型の定義

サンプル ファイル テンプレート

機密データ を.csv、 .tsv、または パイプ区切り形式で 保存する

次の手順

関連項目

フィードバック

その他のリソース

完全なデータ一致ベースの機密情報の種類のソースデータをエクスポートする

サンプルファイルテンプレート

機密データを.csv、 .tsv、またはパイプ区切り形式で保存する