Compartilhar via


Aprenda sobre os tipos de informações confidenciais

Identificar e classificar itens confidenciais que estão sob o controlo da sua organização é o primeiro passo na disciplina de Proteção de Informações. O Microsoft Purview fornece três formas de identificar itens para que possam ser classificados:

  • manualmente, por utilizadores
  • através do reconhecimento de padrões automatizados, tal como acontece com tipos de informações confidenciais
  • através de machine learning

Os tipos de informações confidenciais (SITs) são classificadores baseados em padrões. Detetam informações confidenciais como segurança social, card de crédito ou números de contas bancárias para identificar itens confidenciais. Veja Definições de entidades de tipo de informação confidencial para obter uma lista completa de todos os SITs.

A Microsoft fornece um grande número de SITs pré-configurados ou pode criar os seus próprios.

Licenciamento

A licença E5 é necessária para utilizar os SITs de análise de credenciais. Para obter uma lista de todos os SITs de análise de credenciais, veja Todos os tipos de informações confidenciais de credenciais. Este SIT contém todos os SITs de análise de credenciais disponíveis no portal de conformidade. Cada membro deste SIT é um SIT de análise de credenciais e pode ser utilizado como autónomo. Para obter uma lista de muitos SITs criados pela Microsoft, veja Definições de entidades de tipo de informação confidencial.

Dica

Se você não é um cliente E5, use a avaliação das soluções do Microsoft Purview de 90 dias para explorar como os recursos adicionais do Purview podem ajudar sua organização a gerenciar as necessidades de segurança e conformidade de dados. Comece agora no hub de avaliações do Microsoft Purview. Saiba mais detalhes sobre os termos de inscrição e avaliação.

Os tipos de informações confidenciais são utilizados no

Categorias de tipos de informações confidenciais

Tipos de informações confidenciais incorporados

A Microsoft criou estes SITs e aparecem na consola de conformidade por predefinição. Estes SITs não podem ser editados, mas pode utilizá-los como modelos ao copiá-los para criar tipos de informações confidenciais personalizados. Veja Definições de entidades de tipo de informações confidenciais para obter uma lista completa de todos os SITs.

Tipos de informações confidenciais de entidades nomeadas

Por predefinição, os SITs da entidade com nome também aparecem na consola de conformidade. Detetam nomes de pessoas, endereços físicos e termos e condições médicos. Não podem ser editadas ou copiadas. Para obter mais informações, veja Saiba mais sobre entidades nomeadas.

Os SITs de entidades nomeadas têm dois tipos:

não agrupado

Estes SITs de entidades nomeadas têm um foco mais estreito, como um único país ou região, ou uma única classe de termos. Utilize-as quando precisar de uma política de prevenção de perda de dados (DLP) com um âmbito de deteção mais restrito. Veja Exemplos de SITs de entidades nomeadas.

agrupadas

Os SITs de entidades nomeadas agrupadas detetam todas as correspondências possíveis numa classe, como Todos os endereços físicos. Utilize-os como critérios abrangentes nas suas políticas DLP para detetar itens confidenciais. Veja Exemplos de SITs de entidades nomeadas.

Tipos de informações confidenciais personalizadas

Se os tipos de informações confidenciais pré-configurados não corresponderem às suas necessidades, pode criar os seus próprios tipos de informações confidenciais personalizados que define na totalidade ou pode copiar um dos incorporados e modificá-lo. Para obter mais informações, confira

Crie um tipo de informação confidencial personalizado no portal de conformidade do Microsoft Purview.

Os dados exatos correspondem a tipos de informações confidenciais

Todos os SITs exatos baseados em correspondência de dados (EDM) são criados de raiz. Pode utilizá-los para detetar itens com valores exatos, que define numa base de dados de informações confidenciais. Para obter mais informações, veja Saiba mais sobre os tipos de informações confidenciais baseados em correspondência de dados exatas.

Partes fundamentais de um tipo de informação confidencial

Cada entidade de tipo de informação confidencial (SIT) consiste nos seguintes campos:

  • Nome: Indica a forma como o tipo de informações confidenciais é referido.
  • Descrição: Explicação do que o tipo de informação confidencial procura.
  • Padrão: Define o que um SIT deteta. Consiste nos seguintes componentes: elemento primário, elementos de suporte, nível de confiança e proximidade.

A tabela seguinte descreve cada componente dos padrões utilizados na definição de tipos de informações confidenciais.

Componente de padrão Descrição
Elemento primário O elemento main que o tipo de informação confidencial procura. Pode ser uma expressão regular com ou sem uma validação da soma de verificação, uma lista de palavra-chave, um dicionário palavra-chave ou uma função. Cada um destes tipos de elementos pode ser selecionado na lista de SITs existentes ou pode ser definido de forma personalizada por um utilizador com permissões de administrador. Quando um elemento é definido, aparece na lista de elementos existentes, juntamente com os que vêm incorporados.
Elemento de suporte Um elemento que funciona como prova corroborativa. Quando incluídos, os elementos de suporte ajudam a aumentar o nível de confiança em relação à precisão das correspondências detetadas. Por exemplo, se o elemento primário for definido como SSN (composto por nove dígitos) e o Número de Segurança Social (SSN) de palavra-chave for utilizado como um elemento de suporte quando se encontra próximo SSNde , a confiança de que o SSN detetado é verdadeiramente um número de Segurança Social é maior do que se o Número de Segurança Social (SSN) palavra-chave não estiver presente.

Um elemento de suporte pode ser uma expressão regular (com ou sem uma validação da soma de verificação), uma lista de palavra-chave ou um dicionário palavra-chave.
Nível de Confiança Existem três níveis de confiança no que diz respeito às correspondências detetadas: alta, média e baixa. O nível de confiança reflete a quantidade de provas de suporte detetadas, juntamente com o elemento primário. Quanto mais provas de suporte um item detetado contiver, maior é a confiança de que um item correspondente contém as informações confidenciais que procura. Para obter mais informações sobre os níveis de confiança, veja o vídeo incluído mais à frente neste artigo.
Proximidade Especifica a proximidade de um elemento de suporte a um elemento primário, em termos do número de carateres entre os mesmos.

Compreender a proximidade

O diagrama seguinte mostra como funciona a deteção de correspondência em relação à proximidade. Neste exemplo, o elemento principal é o SSN campo e a definição SIT requer que cada instância de um SSN valor esteja numa proximidade especificada de, pelo menos, um dos seguintes elementos:

  • AccountNumber
  • Name
  • DateOfBirth

No diagrama, vemos que os dados que estão a ser verificados incluem três instâncias diferentes do SSN campo: SSN1, SSN2, SSN3e SSN4.

Diagrama de provas corroborativas e janela de proximidade .

Para compreender como a proximidade funciona, vamos começar por analisar alguns critérios de deteção de exemplo. Aqui, queriam detectar números de segurança social de nove dígitos. Os critérios de deteção requerem que uma expressão regular de nove dígitos (elemento primário) seja encontrada em conjunto com provas de suporte (entre os AccountNumbercampos , Namee DateOfBirth ) que aparece dentro de 250 carateres (a proximidade).

Conforme ilustrado no diagrama, apenas os elementos SSN1 principais e SSN4 cumprem os critérios de deteção que acabou de descrever. Vamos ver mais detalhadamente.

  • No caso de SSN1, o AccountNumber valor está dentro da janela de proximidade especificada de 250 carateres, pelo que é detetada uma correspondência.
  • Em ambos os casos de SSN2 e SSN3, nenhum dos elementos de suporte ocorre dentro de 250 carateres do elemento primário, pelo que esses valores não são detetados como uma correspondência. No entanto, ao olhar para SSN2 a janela de proximidade do no diagrama, poderá perguntar: Por que motivo não existe uma correspondência para SSN2? A janela de proximidade não SSN2 se estende ao Name elemento? Esta é uma boa pergunta. A resposta é: Ainda não. Embora a janela de proximidade se estenda aoName valor, não inclui todo o valor, pelo que o padrão não corresponde.
  • Por fim, no caso de , existem dois elementos de SSN4suporte na janela de proximidade, tanto Name como DateOfBirth, pelo que este padrão também corresponde.

Saiba mais sobre os níveis de confiança neste breve vídeo.

Tipo de informações confidenciais de exemplo

Número de identidade nacional da Argentina (DNI)

Formatar

Oito dígitos separados por pontos

Padrão

Oito dígitos:

  • dois dígitos
  • um ponto
  • três dígitos
  • um ponto
  • três dígitos
Soma de verificação

Não

Definição

Uma política DLP tem confiança média de que detetou este tipo de informações confidenciais se, numa proximidade de 250 carateres:

  • A expressão regular Regex_argentina_national_id localiza conteúdo que corresponde ao padrão.
  • Foi encontrada uma palavra-chave de Keyword_argentina_national_id.
<!-- Argentina National Identity (DNI) Number -->
<Entity id="eefbb00e-8282-433c-8620-8f1da3bffdb2" recommendedConfidence="75" patternsProximity="250">
   <Pattern confidenceLevel="75">
      <IdMatch idRef="Regex_argentina_national_id"/>
      <Match idRef="Keyword_argentina_national_id"/>
  </Pattern>
</Entity>
Palavras-chave
Keyword_argentina_national_id
  • Número de Identidade Nacional da Argentina
  • Identidade
  • Cartão de Identidade Nacional de Identificação
  • DNI
  • Registo Nacional de Pessoas (NIC)
  • Documento Nacional de Identidad
  • Registro Nacional de las Personas
  • Identidad
  • Identificación

Mais sobre níveis de confiança

Numa definição de entidade de tipo de informação confidencial, o nível de confiança reflete a quantidade de provas de suporte detetadas, além do elemento primário. Quanto mais provas de suporte um item contiver, maior é a confiança de que um item correspondente contém as informações confidenciais que procura. Por exemplo, as correspondências com um nível de confiança elevado contêm mais provas de apoio perto do elemento primário, enquanto as correspondências com um nível de confiança baixo conteriam pouca ou nenhuma prova de apoio perto.

Um nível de confiança elevado devolve o menor número de falsos positivos, mas pode resultar em mais falsos negativos. Os níveis de confiança baixos ou médios devolvem mais falsos positivos, mas poucos a zero falsos negativos.

  • baixa confiança: os itens correspondentes contêm o menor número de falsos negativos, mas os mais falsos positivos. A confiança baixa devolve todas as correspondências de confiança baixa, média e alta. O nível de confiança baixo tem um valor de 65.
  • confiança média: os itens correspondentes contêm um número médio de falsos positivos e falsos negativos. A confiança média devolve todas as correspondências médias e de confiança elevada. O nível de confiança médio tem um valor de 75.
  • alta confiança: os itens correspondentes contêm o menor número de falsos positivos, mas os mais falsos negativos. A confiança elevada só devolve correspondências de confiança elevadas e tem um valor de 85.

Deve utilizar padrões de nível de confiança elevados com contagens baixas, por exemplo, 5 a 10 e padrões de confiança baixa com contagens mais altas, por exemplo, 20 ou mais.

Observação

Se tiver políticas existentes ou tipos de informações confidenciais (SITs) personalizados definidos com níveis de confiança baseados em números (também conhecidos como precisão), estes serão automaticamente mapeados para os três níveis de confiança discretos; baixa confiança, confiança média e alta confiança na IU do Centro de Conformidade @ Segurança.

  • Todas as políticas com precisão mínima ou padrões SIT personalizados com níveis de confiança entre 76 e 100 serão mapeadas para elevada confiança.
  • Todas as políticas com precisão mínima ou padrões SIT personalizados com níveis de confiança entre 66 e 75 serão mapeadas para confiança média.
  • Todas as políticas com precisão mínima ou padrões SIT personalizados com níveis de confiança inferiores ou iguais a 65 serão mapeadas para baixa confiança.

Criando tipos de informações confidenciais personalizadas

Pode escolher entre várias opções para criar tipos de informações confidenciais personalizados no portal de conformidade.

Observação

Estão disponíveis níveis de confiança melhorados para utilização imediata nos serviços de prevenção de perda de dados do Microsoft Purview, proteção de informações, Conformidade de Comunicações, gestão do ciclo de vida dos dados e gestão de registos. Proteção de Informações agora suporta idiomas de conjunto de carateres de byte duplo para:

  • Chinês (simplificado)
  • Chinês (tradicional)
  • Coreano
  • Japonês

Este suporte está disponível para tipos de informações confidenciais. Para obter mais informações, veja Suporte de proteção de informações para notas de versão de conjuntos de carateres de byte duplo.

Dica

Para detectar padrões que contêm caracteres chineses/japoneses e caracteres de byte único ou para detectar padrões que contenham chinês/japonês e inglês, defina duas variantes da palavra-chave ou regex.

  • Por exemplo, para detectar uma palavra-chave como "机的document", use duas variantes da palavra-chave; um com um espaço entre o texto japonês e o inglês e outro sem um espaço entre o texto japonês e o inglês. Portanto, as palavras-chave a serem adicionadas no SIT devem ser "机密的 document" e "机密的document". Da mesma forma, para detectar uma frase "東京オリンピック2020", duas variantes devem ser usadas; "東京オリンピック 2020" e "東京オリンピック2020".

Juntamente com carateres de bytes duplos/chinês/japonês, se a lista de palavras-chave/expressões também contiver palavras não chinesas/japonesas (por exemplo, apenas em inglês), deverá criar dois dicionários/listas de palavra-chave. Uma para palavras-chave que contêm carateres de bytes chineses/japoneses/duplos e outra para palavras-chave apenas em inglês.

  • Por exemplo, se quiser criar um palavra-chave dicionário/lista com três expressões "Altamente confidencial", "機密性が高い" e "机密的document", deve criar duas listas de palavra-chave.
    1. Altamente confidencial
    2. 機密性が高い, documento机密的 e documento机密的

Ao criar um regex com um hífen de byte duplo ou um período de byte duplo, certifique-se de que escapa a ambos os carateres, como se escape de um hífen ou ponto final num regex. Aqui está um exemplo de regex para referência:

(?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}

Recomendamos que utilize a correspondência de cadeias em vez da correspondência de palavras numa lista de palavra-chave.

Testar o tipo de informações confidenciais

Pode testar o SIT ao carregar um ficheiro de exemplo. Os resultados do teste mostram o número de correspondências para cada nível de confiança. Pode testar SITs incorporados, SITs personalizados, classificadores treináveis e correspondência de dados exata.

Testar o tipo de informações confidenciais incorporadas e personalizadas

Testar dados exatos correspondem ao tipo de informações confidenciais.

Fornecer comentários de precisão correspondentes/não correspondentes em tipos de informações confidenciais

Pode ver o número de correspondências que um SIT tem em Tipos de informações confidenciais e Explorador de conteúdos. Também pode fornecer feedback sobre se um item corresponde ou não ao mecanismo de feedback Match, Not a Match e utilizar esse feedback para otimizar os seus SITs. Para obter mais informações, veja Aumentar a precisão do classificador.

Para obter mais informações

Para saber como utilizar tipos de informações confidenciais para cumprir as normas de privacidade dos dados, consulte Implementar a proteção de informações para regulamentos de privacidade de dados com o Microsoft 365 (aka.ms/m365dataprivacy).