機密情報の種類に関する詳細情報

[アーティクル]
03/26/2024

organizationの管理下にある機密性の高い項目の識別と分類は、Information Protection規範の最初の手順です。 Microsoft Purview では、項目を分類できるように、次の 3 つの方法で項目を識別できます。

ユーザーが手動で
機密情報の種類と同様に、自動化されたパターン認識を介して
機械学習を使用する

機密情報の種類 (SID) は、パターンベースの分類子です。社会保障、信用カード、銀行口座番号などの機密情報を検出して機密アイテムを識別します。すべての SID の完全な一覧については、「機密情報の種類のエンティティ定義」を参照してください。

Microsoft では、多数の事前構成済み SID を提供しています。独自の SID を作成することもできます。

ヒント

E5 のお客様でない場合は、90 日間の Microsoft Purview ソリューション試用版を使用して、Purview の追加機能が組織のデータセキュリティとコンプライアンスのニーズの管理にどのように役立つかを確認してください。 Microsoft Purview コンプライアンスポータルのトライアルハブで今すぐ開始してください。サインアップと試用期間の詳細については、こちらをご覧ください。

機密情報の種類は、

機密情報の種類のカテゴリ

組み込みの機密情報の種類

Microsoft はこれらの SID を作成し、既定でコンプライアンスコンソールに表示されます。これらの SID は編集できませんが、テンプレートとして使用するには、それをコピーしてカスタムの機密情報の種類を作成します。すべての SID の完全な一覧については、「機密情報の種類のエンティティ定義」を参照してください。

名前付きエンティティの機密情報の種類

既定では、名前付きエンティティの SID もコンプライアンスコンソールに表示されます。人の名前、住所、医療契約条件を検出します。編集またはコピーすることはできません。詳細については、「名前付きエンティティの詳細」を参照してください。

名前付きエンティティの SID には、次の 2 種類があります。

バンドル解除

これらの名前付きエンティティの SID は、1 つの国や地域、または 1 つの用語クラスなど、より狭い焦点を持っています。検出範囲が狭いデータ損失防止 (DLP) ポリシーが必要な場合は、それらを使用します。「名前付きエンティティ SID の例」を参照してください。

バンドル

バンドルされた名前付きエンティティの SID は、すべての 物理アドレスなど、クラス内で考えられるすべての一致を検出します。機密性の高い項目を検出するために、DLP ポリシーで広範な基準として使用します。「名前付きエンティティ SID の例」を参照してください。

カスタムの機密情報の種類

構成済みの機密情報の種類がニーズを満たしていない場合は、完全に定義した独自のカスタム機密情報の種類を作成するか、組み込みの機密情報のいずれかをコピーして変更できます。トピック

Microsoft Purview コンプライアンスポータルのカスタム機密情報の種類をCreateします。

正確なデータ一致の機密情報の種類

すべての完全なデータ一致 (EDM) ベースの SID は、ゼロから作成されます。これらを使用して、機密情報のデータベースで定義した正確な値を持つ項目を検出します。詳細については、正確なデータ一致ベースの機密情報の種類に関する記事を参照してください。

機密情報の種類の基本的な部分

すべての機密情報の種類 (SIT) エンティティは、次のフィールドで構成されます。

名前： 機密情報の種類の参照方法を示します。
説明： 機密情報の種類が探しているものの説明。
パターン： SIT で検出される内容を定義します。これは、プライマリ要素、サポート要素、信頼度、近接性の各コンポーネントで構成されます。

次の表では、機密情報の種類の定義に使用されるパターンの各コンポーネントについて説明します。

パターンコンポーネント	説明
プライマリ要素	機密情報の種類が探しているメイン要素。チェックサム検証、キーワード (keyword)リスト、キーワード (keyword)ディクショナリ、または関数の有無にかかわらず正規表現を指定できます。これらの種類の各要素は、既存の SID の一覧から選択することも、管理者アクセス許可を持つユーザーによってカスタム定義することもできます。要素が定義されると、組み込み要素と共に既存の要素の一覧に表示されます。
サポート要素	裏付けとなる証拠として機能する要素。含まれている場合、サポート要素は、検出された一致の精度に関する信頼レベルを高めるのに役立ちます。たとえば、プライマリ要素が (9 桁で構成されます) として`SSN`定義され、キーワード (keyword)社会保障番号 (SSN) がに近接して見つかった場合に`SSN`サポート要素として使用される場合、検出されたが真に社会保障番号であるという`SSN`信頼度は、社会保障番号 (SSN) キーワード (keyword)が存在しない場合よりも高くなります。サポート要素には、正規表現 (チェックサム検証の有無にかかわらず)、キーワード (keyword)リスト、またはキーワード (keyword)ディクショナリを指定できます。
信頼度	検出された一致に関しては、高、中、低の 3 つの信頼レベルがあります。信頼レベルは、主要な要素と共に検出されたサポート証拠の量を反映します。検出されたアイテムに含まれるサポート証拠が多いほど、一致したアイテムに探している機密情報が含まれているという信頼度が高くなります。信頼度レベルの詳細については、この記事の後半に記載されているビデオを参照してください。
近接性	サポート要素がプライマリ要素にどの程度近いかを、それらの間の文字数で指定します。

近接性について

次の図は、近接性に関する一致検出のしくみを示しています。この例では、プライマリ要素は SSN フィールドであり、SIT 定義では、値の各インスタンスが、次の SSN 要素の少なくとも 1 つに対して指定された近接性内にある必要があります。

AccountNumber
Name
DateOfBirth

この図では、チェック対象のデータに、および SSN4の 3 つの異なるフィールドSSN2SSN3SSN1インスタンスがSSN含まれていることがわかります。

。

近接性のしくみを理解するには、まず、いくつかのサンプル検出基準を見てみましょう。ここでは、9 桁の社会保障番号を検出する必要がありました。検出基準では、9 桁の正規表現 (プライマリ要素) が、250 文字 (近接) 内に表示されるサポート証拠 (、Name、およびフィールドの中AccountNumber) とDateOfBirth組み合わせて検出される必要があります。

図に示すように、主要な要素 SSN1 のみが、 SSN4 説明した検出基準を満たしています。詳しく見てみましょう。

のSSN1DateOfBirth場合、値は 250 文字の指定された近接ウィンドウ内にあるため、一致が検出されます。
と SSN3のSSN2どちらの場合も、サポートする要素はプライマリ要素の 250 文字以内に存在しないため、これらの値は一致として検出されません。ただし、図内のの近接通信ウィンドウ SSN2 を見ると、次のように求められる場合があります。に 一致 SSN2するものがないのはなぜですか。近接ウィンドウは SSN2 要素に Name 拡張されませんか? これは良い質問です。答えは: かなりではありません。近接ウィンドウは値にName拡張されますが、値全体が含まれていないため、パターンは一致しません。
最後に、のSSN4場合は、との両方NameDateOfBirthの近接ウィンドウ内に 2 つのサポート要素があるため、このパターンも一致します。

この短いビデオで信頼度レベルの詳細を確認します。

機密情報の種類の例

アルゼンチンの国民識別 (DNI) 番号

フォーマット

ピリオドで区切られた 8 桁の数字

パターン

8 桁の数字:

2 桁の数字
期間
3 桁の数字
期間
3 桁の数字

チェックサム

不要

定義

DLP ポリシーは、250 文字の近接範囲内にある場合に、この種類の機密情報を検出したという中程度の信頼度を持っています。

正規表現Regex_argentina_national_idは、パターンに一致するコンテンツを検索します。
Keyword_argentina_national_idからのキーワード (keyword)が見つかりました。

<!-- Argentina National Identity (DNI) Number -->
<Entity id="eefbb00e-8282-433c-8620-8f1da3bffdb2" recommendedConfidence="75" patternsProximity="250">
   <Pattern confidenceLevel="75">
      <IdMatch idRef="Regex_argentina_national_id"/>
      <Match idRef="Keyword_argentina_national_id"/>
  </Pattern>
</Entity>

キーワード

Keyword_argentina_national_id

Argentina National Identity number
ID
識別国民 ID カード
Dni
ナショナルレジストリオブ Persons (NIC)
Documento Nacional de Identidad
Registro Nacional de las Personas
Identidad
Identificación

信頼度レベルの詳細

機密情報の種類のエンティティ定義では、 信頼度レベル は、プライマリ要素に加えて検出されたサポート証拠の量を反映します。アイテムに含まれる証拠が多いほど、一致するアイテムに探している機密情報が含まれているという信頼度が高くなります。たとえば、信頼度が高い一致には、主要要素に近接したより多くの支持証拠が含まれますが、信頼度の低い一致では、近接性のサポート証拠がほとんどからまったく含めなくなります。

信頼度が高いレベルでは、最も少ない誤検知が返されますが、偽陰性が多くなる可能性があります。低または中程度の信頼度レベルは、より多くの誤検知を返しますが、偽陰性は少ないからゼロに戻ります。

低信頼度: 一致した項目には、最も少ない偽陰性が含まれますが、最も誤検知が含まれます。低信頼度は、すべての低、中、高の信頼度の一致を返します。低信頼度の値は 65 です。
中程度の信頼度: 一致した項目には、誤検知と偽陰性の平均数が含まれます。中程度の信頼度は、すべての中程度の一致と高い信頼度の一致を返します。中程度の信頼度レベルの値は 75 です。
高信頼度: 一致した項目には、最も少ない誤検知が含まれますが、最も偽陰性が含まれます。高信頼度は高い信頼度の一致のみを返し、値は 85 です。

高信頼度のパターンは、カウント数が少ない場合は 5 から 10、高い信頼度パターンは 20 以上とします。

注:

数値ベースの信頼レベル ( 精度とも呼ばれます) を使用して定義された既存のポリシーまたはカスタム機密情報の種類 (SID) がある場合、それらは自動的に 3 つの個別の信頼レベルにマップされます。セキュリティ @ コンプライアンスセンター UI 全体の低信頼度、中程度の信頼度、高い信頼度。

信頼レベルが 76 ~ 100 の最小精度またはカスタム SIT パターンを持つすべてのポリシーは、高信頼度にマップされます。
信頼レベルが 66 ~ 75 の最小精度またはカスタム SIT パターンを持つすべてのポリシーは、中程度の信頼度にマップされます。
信頼レベルが 65 以下の最小精度またはカスタム SIT パターンを持つすべてのポリシーは、低信頼度にマップされます。

カスタムの機密情報の種類を作成する

コンプライアンスポータルでカスタム機密情報の種類を作成するには、いくつかのオプションから選択できます。

UI を使用する - コンプライアンスポータル UI を使用して、カスタムの機密情報の種類を設定できます。この方法では、正規表現、キーワード、キーワード辞書を使用することができます。詳細については、「カスタムの機密情報の種類を作成する」を参照してください。
EDM の使用 - 正確なデータ一致 (EDM) ベースの分類を使用して、カスタムの機密情報の種類を設定できます。この方法では、定期的に更新できる安全なデータベースを使用して、動的な機密情報の種類を作成することができます。「正確なデータ一致ベースの機密情報の種類について」を参照してください。
PowerShell の使用 - PowerShell を使用 してカスタムの機密情報の種類を設定できます。この方法は、UI を使用する場合よりも複雑ですが、より多くの構成オプションがあります。「Security & Compliance PowerShell」の「カスタム機密情報の種類をCreateする」を参照してください。

注:

Microsoft Purview データ損失防止サービス、情報保護、コミュニケーションコンプライアンス、データライフサイクル管理、レコード管理内ですぐに使用できるように、信頼度レベルを向上できます。 Information Protectionでは、次の 2 バイト文字セット言語がサポートされるようになりました。

中国語 (簡体字)
中国語 (繁体字)
韓国語
日本語

このサポートは、機密情報の種類で使用できます。詳細については、 2 バイト文字セットの情報保護のサポートに関するリリースノートを参照してください。

ヒント

中国語/日本語の文字と 1 バイト文字を含むパターンを検出する、または中国語/日本語と英語を含むパターンを検出するには、キーワードまたは正規表現の 2 つのバリエーションを定義します。

たとえば、「机密的ドキュメント」のようなキーワードを検出するには、キーワードの 2 つのバリエーションを使用します。 1 つは日本語と英語のテキストの間にスペースがあり、もう 1 つは日本語と英語のテキストの間にスペースがありません。したがって、SITに追加するキーワードは、"机密的 document" と "机密的document" である必要があります。同様に、"東京オリンピック2020" というフレーズを検出するには、"東京オリンピック 2020" と "東京オリンピック2020" の 2 つのバリエーションを使用する必要があります。

中国語/日本語/2 バイト文字と共に、キーワード/フレーズのリストに中国語/日本語以外の単語も含まれている場合 (たとえば、英語のみ)、2 つの辞書/キーワード (keyword)リストを作成する必要があります。 1 つは中国語/日本語/2 バイト文字を含むキーワード、もう 1 つは英語のみのキーワード用です。

たとえば、"機密性の高い"、"機密性の高い" と "机密的文書" の 3 つの語句を含むキーワード (keyword)辞書/リストを作成する場合は、2 つのキーワード (keyword)リストを作成する必要があります。
1. Highly confidential
2. 機密性が高い、机密的document、机密的 document

2 バイトハイフンまたは 2 バイトピリオドを使用して正規表現を作成するときは、正規表現でハイフンやピリオドをエスケープする場合と同様に、両方の文字をエスケープしてください。参考までに、サンプルの正規表現を次に示します。

(?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}

キーワード (keyword) リストでは、単語の一致の代わりに文字列一致を使用することをお勧めします。

機密情報の種類をテストする

サンプルファイルをアップロードすることで、SIT をテストできます。テスト結果には、信頼度レベルごとの一致の数が表示されます。組み込みの SID、カスタム SID、トレーニング可能な分類子、および完全なデータ一致をテストできます。

組み込みおよびカスタムの機密情報の種類をテストする

正確なデータ一致の機密情報の種類をテストします。

機密情報の種類で一致精度フィードバックを提供する/一致しない

SIT に含まれる一致の数は 、機密情報の種類 と コンテンツエクスプローラーで確認できます。また、項目が実際に一致しているかどうか、または一致しないフィードバック メカニズムを使用してフィードバックを提供 し、その フィードバックを使用して SID を調整することもできます。詳細については、「分類子の精度を上げる」を参照してください。

詳細については、次の情報を参照してください。

機密情報の種類を使用してデータプライバシー規制に準拠する方法については、「Microsoft 365 (aka.ms/m365dataprivacy) を使用してデータプライバシー規制の情報保護を展開する」を参照してください。

次の方法で共有