機密情報の種類に関する詳細情報
organizationの管理下にある機密性の高い項目の識別と分類は、Information Protection規範の最初の手順です。 Microsoft Purview では、項目を分類できるように、次の 3 つの方法で項目を識別できます。
- ユーザーが手動で
- 機密情報の種類と同様に、自動化されたパターン認識を介して
- 機械学習を使用する
機密情報の種類 (SID) は、パターンベースの分類子です。 社会保障、信用カード、銀行口座番号などの機密情報を検出して機密アイテムを識別します。すべての SID の完全な一覧については、「機密情報の種類のエンティティ定義」を参照してください。
Microsoft では、多数の事前構成済み SID を提供しています。独自の SID を作成することもできます。
ライセンス
資格情報スキャン SID を使用するには、E5 ライセンスが必要です。 すべての資格情報スキャン SID の一覧については、「 すべての資格情報の機密情報の種類」を参照してください。 この SIT には、コンプライアンス ポータルで使用できるすべての資格情報スキャン SID が含まれています。 この SIT の各メンバーは資格情報スキャン SIT であり、スタンドアロンとして使用できます。 Microsoft が作成した多数の SID の一覧については、「 機密情報の種類のエンティティ定義」を参照してください。
ヒント
E5 のお客様でない場合は、90 日間の Microsoft Purview ソリューション試用版を使用して、Purview の追加機能が組織のデータ セキュリティとコンプライアンスのニーズの管理にどのように役立つかを確認してください。 Microsoft Purview 試用版ハブから開始します。 サインアップと試用期間の詳細については、こちらをご覧ください。
機密情報の種類は、
機密情報の種類のカテゴリ
組み込みの機密情報の種類
Microsoft はこれらの SID を作成し、既定でコンプライアンス コンソールに表示されます。 これらの SID は編集できませんが、テンプレートとして使用するには、それをコピーしてカスタムの機密情報の種類を作成します。 すべての SID の完全な一覧については、「 機密情報の種類のエンティティ定義 」を参照してください。
名前付きエンティティの機密情報の種類
既定では、名前付きエンティティの SID もコンプライアンス コンソールに表示されます。 人の名前、住所、医療契約条件を検出します。 編集またはコピーすることはできません。 詳細については、「 名前付きエンティティの詳細」を参照してください。
名前付きエンティティの SID には、次の 2 種類があります。
バンドル解除
これらの名前付きエンティティの SID は、1 つの国や地域、または 1 つの用語クラスなど、より狭い焦点を持っています。 検出範囲が狭いデータ損失防止 (DLP) ポリシーが必要な場合は、それらを使用します。 「名前付きエンティティ SID の例」を参照してください。
バンドル
バンドルされた名前付きエンティティの SID は、すべての 物理アドレスなど、クラス内で考えられるすべての一致を検出します。 機密性の高い項目を検出するために、DLP ポリシーで広範な基準として使用します。 「名前付きエンティティ SID の例」を参照してください。
カスタムの機密情報の種類
構成済みの機密情報の種類がニーズを満たしていない場合は、完全に定義した独自のカスタム機密情報の種類を作成するか、組み込みの機密情報のいずれかをコピーして変更できます。 トピック
Microsoft Purview コンプライアンス ポータルでカスタム機密情報の種類を作成します。
正確なデータ一致の機密情報の種類
すべての完全なデータ一致 (EDM) ベースの SID は、ゼロから作成されます。 これらを使用して、機密情報のデータベースで定義した正確な値を持つ項目を検出します。 詳細については、 正確なデータ一致ベースの機密情報の種類に関する記事を参照してください。
機密情報の種類の基本的な部分
すべての機密情報の種類 (SIT) エンティティは、次のフィールドで構成されます。
- 名前: 機密情報の種類の参照方法を示します。
- 形容: 機密情報の種類が探しているものの説明。
- パターン: SIT で検出される内容を定義します。 これは、プライマリ要素、サポート要素、信頼度、近接性の各コンポーネントで構成されます。
次の表では、機密情報の種類の定義に使用されるパターンの各コンポーネントについて説明します。
パターン コンポーネント | 説明 |
---|---|
プライマリ要素 | 機密情報の種類が探しているメイン要素。 チェックサム検証、キーワード (keyword)リスト、キーワード (keyword)ディクショナリ、または関数の有無にかかわらず正規表現を指定できます。これらの種類の各要素は、既存の SID の一覧から選択することも、管理者アクセス許可を持つユーザーによってカスタム定義することもできます。 要素が定義されると、組み込み要素と共に既存の要素の一覧に表示されます。 |
サポート要素 | 裏付けとなる証拠として機能する要素。 含まれている場合、サポート要素は、検出された一致の精度に関する信頼レベルを高めるのに役立ちます。 たとえば、プライマリ要素がSSN (9 桁で構成) として定義され、SSN に近接している場合にキーワード (keyword)社会保障番号 (SSN) がサポート要素として使用される場合、検出されたSSN が社会保障番号であるという信頼度は、社会保障番号 (SSN) キーワード (keyword)が存在しない場合よりも高くなります。 サポート要素には、正規表現 (チェックサム検証の有無にかかわらず)、キーワード (keyword)リスト、またはキーワード (keyword)ディクショナリを指定できます。 |
信頼度 | 検出された一致に関しては、高、中、低の 3 つの信頼レベルがあります。 信頼レベルは、主要な要素と共に検出されたサポート証拠の量を反映します。 検出されたアイテムに含まれるサポート証拠が多いほど、一致したアイテムに探している機密情報が含まれているという信頼度が高くなります。 信頼度レベルの詳細については、この記事の後半に記載されているビデオを参照してください。 |
近接性 | サポート要素がプライマリ要素にどの程度近いかを、それらの間の文字数で指定します。 |
近接性について
次の図は、近接性に関する一致検出のしくみを示しています。 この例では、プライマリ要素は SSN
フィールドであり、SIT 定義では、 SSN
値の各インスタンスが、次の要素の少なくとも 1 つに対して指定された近接性内にある必要があります。
-
AccountNumber
-
Name
DateOfBirth
この図では、チェック対象のデータに、SSN1
、SSN2
、SSN3
、SSN4
の 3 つの異なるSSN
フィールドのインスタンスが含まれていることがわかります。
近接性のしくみを理解するには、まず、いくつかのサンプル検出基準を見てみましょう。 ここでは、9 桁の社会保障番号を検出する必要がありました。 検出基準では、9 桁の正規表現 (プライマリ要素) が、250 文字 (近接) 内に表示されるサポート証拠 (AccountNumber
、Name
、DateOfBirth
フィールドの中で) と組み合わせて検出される必要があります。
図に示すように、 SSN1
および SSN4
の主要な要素のみが、説明した検出基準を満たしています。 詳しく見てみましょう。
-
SSN1
の場合、AccountNumber
値は指定された近接ウィンドウの 250 文字以内であるため、一致が検出されます。 -
SSN2
とSSN3
のどちらの場合も、プライマリ要素の 250 文字以内にサポートされる要素は存在しないため、これらの値は一致として検出されません。 ただし、図のSSN2
の近接通信ウィンドウを見ると、「SSN2
に一致しないのはなぜですか?SSN2
近接ウィンドウはName
要素に拡張されませんか?これは良い質問です。 答えは: かなりではありません。 近接ウィンドウはName
値に拡張されますが、値全体が含まれていないため、パターンは一致しません。 - 最後に、
SSN4
の場合、近接ウィンドウ内には、Name
とDateOfBirth
の両方の 2 つのサポート要素があるため、このパターンも一致します。
この短いビデオで信頼度レベルの詳細を確認します。
機密情報の種類の例
アルゼンチンの国民識別 (DNI) 番号
フォーマット
ピリオドで区切られた 8 桁の数字
パターン
8 桁の数字:
- 2 桁の数字
- 期間
- 3 桁の数字
- 期間
- 3 桁の数字
チェックサム
不要
定義
DLP ポリシーは、250 文字の近接範囲内にある場合に、この種類の機密情報を検出したという中程度の信頼度を持っています。
- 正規表現Regex_argentina_national_idは、パターンに一致するコンテンツを検索します。
- Keyword_argentina_national_idからのキーワード (keyword)が見つかりました。
<!-- Argentina National Identity (DNI) Number -->
<Entity id="eefbb00e-8282-433c-8620-8f1da3bffdb2" recommendedConfidence="75" patternsProximity="250">
<Pattern confidenceLevel="75">
<IdMatch idRef="Regex_argentina_national_id"/>
<Match idRef="Keyword_argentina_national_id"/>
</Pattern>
</Entity>
キーワード
Keyword_argentina_national_id
- Argentina National Identity number
- ID
- 識別国民 ID カード
- DNI
- ナショナル レジストリ オブ Persons (NIC)
- Documento Nacional de Identidad
- Registro Nacional de las Personas
- Identidad
- Identificación
信頼度レベルの詳細
機密情報の種類のエンティティ定義では、 信頼度レベル は、プライマリ要素に加えて検出されたサポート証拠の量を反映します。 アイテムに含まれる証拠が多いほど、一致するアイテムに探している機密情報が含まれているという信頼度が高くなります。 たとえば、信頼度が高い一致には、主要要素に近接したより多くの支持証拠が含まれますが、信頼度の低い一致では、近接性のサポート証拠がほとんどからまったく含めなくなります。
信頼度が高いレベルでは、最も少ない誤検知が返されますが、偽陰性が多くなる可能性があります。 低または中程度の信頼度レベルは、より多くの誤検知を返しますが、偽陰性は少ないからゼロに戻ります。
- 低信頼度: 一致した項目には、最も少ない偽陰性が含まれますが、最も誤検知が含まれます。 低信頼度は、すべての低、中、高の信頼度の一致を返します。 低信頼度の値は 65 です。
- 中程度の信頼度: 一致した項目には、誤検知と偽陰性の平均数が含まれます。 中程度の信頼度は、すべての中程度の一致と高い信頼度の一致を返します。 中程度の信頼度レベルの値は 75 です。
- 高信頼度: 一致した項目には、最も少ない誤検知が含まれますが、最も偽陰性が含まれます。 高信頼度は高い信頼度の一致のみを返し、値は 85 です。
高信頼度のパターンは、カウント数が少ない場合は 5 から 10、高い信頼度パターンは 20 以上とします。
注:
数値ベースの信頼レベル ( 精度とも呼ばれます) を使用して定義された既存のポリシーまたはカスタム機密情報の種類 (SID) がある場合、それらは自動的に 3 つの個別の信頼レベルにマップされます。セキュリティ @ コンプライアンス センター UI 全体の低信頼度、中程度の信頼度、高い信頼度。
- 信頼レベルが 76 ~ 100 の最小精度またはカスタム SIT パターンを持つすべてのポリシーは、高信頼度にマップされます。
- 信頼レベルが 66 ~ 75 の最小精度またはカスタム SIT パターンを持つすべてのポリシーは、中程度の信頼度にマップされます。
- 信頼レベルが 65 以下の最小精度またはカスタム SIT パターンを持つすべてのポリシーは、低信頼度にマップされます。
カスタムの機密情報の種類を作成する
コンプライアンス ポータルでカスタム機密情報の種類を作成するには、いくつかのオプションから選択できます。
UI を使用する - コンプライアンス ポータル UI を使用して、カスタムの機密情報の種類を設定できます。 この方法では、正規表現、キーワード、キーワード辞書を使用することができます。 詳細については、「カスタムの機密情報の種類を作成する」を参照してください。
EDM の使用 - 正確なデータ一致 (EDM) ベースの分類を使用して、カスタムの機密情報の種類を設定できます。 この方法では、定期的に更新できる安全なデータベースを使用して、動的な機密情報の種類を作成することができます。 「正確なデータ一致ベースの機密情報の種類について」を参照してください。
PowerShell の使用 - PowerShell を使用 してカスタムの機密情報の種類を設定できます。 この方法は、UI を使用する場合よりも複雑ですが、より多くの構成オプションがあります。 Security & Compliance PowerShell でのカスタム機密情報の種類の作成に関するページを参照してください。
注:
Microsoft Purview データ損失防止サービス、情報保護、コミュニケーション コンプライアンス、データ ライフサイクル管理、レコード管理内ですぐに使用できるように、信頼度レベルを向上できます。 Information Protectionでは、次の 2 バイト文字セット言語がサポートされるようになりました。
- 中国語 (簡体字)
- 中国語 (繁体字)
- 韓国語
- 日本語
このサポートは、機密情報の種類で使用できます。 詳細については、 2 バイト文字セットの情報保護のサポートに関するリリース ノートを参照してください。
ヒント
中国語/日本語の文字と 1 バイト文字を含むパターンを検出する、または中国語/日本語と英語を含むパターンを検出するには、キーワードまたは正規表現の 2 つのバリエーションを定義します。
- たとえば、「机密的ドキュメント」のようなキーワードを検出するには、キーワードの 2 つのバリエーションを使用します。 1 つは日本語と英語のテキストの間にスペースがあり、もう 1 つは日本語と英語のテキストの間にスペースがありません。 したがって、SITに追加するキーワードは、"机密的 document" と "机密的document" である必要があります。 同様に、"東京オリンピック2020" というフレーズを検出するには、"東京オリンピック 2020" と "東京オリンピック2020" の 2 つのバリエーションを使用する必要があります。
中国語/日本語/2 バイト文字と共に、キーワード/フレーズのリストに中国語/日本語以外の単語も含まれている場合 (たとえば、英語のみ)、2 つの辞書/キーワード (keyword)リストを作成する必要があります。 1 つは中国語/日本語/2 バイト文字を含むキーワード、もう 1 つは英語のみのキーワード用です。
- たとえば、"機密性の高い"、"機密性の高い" と "机密的文書" の 3 つの語句を含むキーワード (keyword)辞書/リストを作成する場合は、2 つのキーワード (keyword)リストを作成する必要があります。
- Highly confidential
- 機密性が高い、机密的document、机密的 document
2 バイト ハイフンまたは 2 バイトピリオドを使用して正規表現を作成するときは、正規表現でハイフンやピリオドをエスケープする場合と同様に、両方の文字をエスケープしてください。 参考までに、サンプルの正規表現を次に示します。
(?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}
キーワード (keyword) リストでは、単語の一致の代わりに文字列一致を使用することをお勧めします。
機密情報の種類をテストする
サンプル ファイルをアップロードすることで、SIT をテストできます。 テスト結果には、信頼度レベルごとの一致の数が表示されます。 組み込みの SID、カスタム SID、トレーニング可能な分類子、および完全なデータ一致をテストできます。
機密情報の種類で一致精度フィードバックを提供する/一致しない
SIT に含まれる一致の数は 、機密情報の種類 と コンテンツ エクスプローラーで確認できます。 また、項目が実際に一致しているかどうか、または一致しないフィードバック メカニズムを使用してフィードバックを提供 し、その フィードバックを使用して SID を調整することもできます。 詳細については、「 分類子の精度を上げる」を参照してください。
詳細については、次の情報を参照してください。
機密情報の種類を使用してデータプライバシー規制に準拠する方法については、「Microsoft 365 (aka.ms/m365dataprivacy) を使用 してデータプライバシー規制の情報保護を展開 する」を参照してください。