Saiba mais sobre as definições de pesquisa e análise em casos de Deteção de Dados Eletrónicos (pré-visualização)

Artigo
07/27/2024

Pode configurar as definições para cada caso de Deteção de Dados Eletrónicos (pré-visualização) para controlar a seguinte funcionalidade:

Duplicatas próximas e threading de email
Temas
Consulta de conjunto de revisão autogerada
Ignorar texto
Reconhecimento óptico de caracteres

Dica

Comece a utilizar Microsoft Security Copilot para explorar novas formas de trabalhar de forma mais inteligente e rápida com o poder da IA. Saiba mais sobre Microsoft Security Copilot no Microsoft Purview.

Configurar definições de análise para um caso

Para definir as configurações de pesquisa e análise de um caso:

Aceda ao portal do Microsoft Purview e inicie sessão com as credenciais de uma conta de utilizador com permissões de Deteção de Dados Eletrónicos atribuídas.
Selecione a solução de Deteção de Dados Eletrónicos card e, em seguida, selecione Casos (pré-visualização) no painel de navegação esquerdo.
Selecione um caso, selecione Definições de caso.
Na página Definições do caso, selecione Procurar & análise.
É apresentada a página pesquisa & análise . Estas definições são aplicadas a todos os conjuntos de revisão num caso.
Depois de selecionar as opções de pesquisa e análise aplicáveis, selecione Guardar.

As secções seguintes neste artigo descrevem as definições de análise que pode configurar para um caso.

Duplicatas próximas e threading de email

Nesta secção, pode definir parâmetros para deteção de duplicados, quase deteção de duplicados e threading de e-mail.

Threads de e-mail/duplicados próximos: Quando ativada, a deteção duplicada, a deteção quase duplicada e o threading de e-mail são incluídos como parte do fluxo de trabalho quando executa análises nos dados num conjunto de revisão.
Limiar de semelhança entre documentos e e-mails: Se o nível de semelhança de dois documentos ultrapassar o limiar, ambos os documentos serão colocados no mesmo conjunto quase duplicado.
Número mínimo/máximo de palavras: Estas definições especificam que as análises de threads de e-mail e duplicados próximos são efetuadas apenas em documentos que tenham, pelo menos, o número mínimo de palavras e, no máximo, o número máximo de palavras.

Detecção de duplicata próxima

Considere um conjunto de documentos a serem revisados no qual um subconjunto é baseado no mesmo modelo e tem basicamente a mesma linguagem clichê, com algumas diferenças aqui e ali. Se um revisor pudesse identificar este subconjunto, rever um deles cuidadosamente e rever as diferenças para o resto, não teria perdido nenhuma informação exclusiva enquanto demorava apenas uma fração de tempo que os levaria a ler todos os documentos cobertos. Detecção de duplicata próxima agrupa documentos textualmente similares para deixar seu processo de avaliação mais eficiente.

Quando a detecção de duplicatas próximas é executada, o sistema analisa cada documento com texto. Depois, ela compara os documento entre si para determinar se suas semelhanças são maiores que o limite definido. Se forem maiores, os documentos são agrupados. Depois de todos os documentos serem comparados e agrupados, um documento de cada grupo é marcado como o “original”. Ao analisar seus documentos, você pode analisar primeiro o original e analisar os outros documentos no mesmo conjunto de duplicatas próximas, focando na diferença entre o original e o documento que está sendo analisado.

Threading de emails

Considere uma conversa por email que está acontecendo há algum tempo. Na maioria dos casos, a última mensagem no tópico de e-mail inclui o conteúdo de todas as mensagens anteriores. Por conseguinte, rever a última mensagem dá um contexto completo da conversação que ocorreu no tópico. O encadeamento de emails identifica essas mensagens para que os revisores possam revisar uma fração dos documentos coletados sem perder nenhum contexto.

Email threads analisa cada thread de e-mail e desconstrói-o para mensagens individuais. Cada thread de emails é uma cadeia de mensagens individuais. A Deteção de Dados Eletrónicos (pré-visualização) analisa todas as mensagens de e-mail no conjunto de revisão para determinar se uma mensagem de e-mail tem conteúdo exclusivo ou se a cadeia (mensagens principais) está totalmente contida na mensagem final no tópico de e-mail. Email mensagens são divididas em quatro valores inclusivos:

Inclusive: um e-mail inclusivo é a mensagem de e-mail final num tópico de e-mail e contém todo o conteúdo anterior desse tópico de e-mail.
Menos inclusivo: uma mensagem de e-mail é designada como Inclusive menos se existir um ou mais anexos associados à mensagem específica no tópico de e-mail. Um revisor pode usar o valor Inclusivo menos para determinar qual mensagem de email específica no thread tem anexos associados.
Cópia inclusiva: uma mensagem de e-mail é considerada uma cópia inclusiva se for uma cópia exata de uma mensagem de subtração Inclusiva ou Inclusiva.
Nenhum: o valor None indica que o conteúdo da mensagem está totalmente contido em, pelo menos, uma outra mensagem de e-mail marcada como Inclusive ou Inclusive menos.

Como é diferente das conversas no Outlook?

De relance, isto soa semelhante aos agrupamentos de conversações no Outlook. No entanto, existem algumas distinções importantes. Considere uma conversação por e-mail que foi bifurcado em duas conversações; por exemplo, alguém respondeu a um e-mail que não é o mais recente na conversação, pelo que os dois últimos e-mails na conversação têm conteúdo exclusivo.

O Outlook continuaria a agrupar os e-mails numa única conversação; ler apenas o último e-mail poderá perder o contexto do último e-mail, que também contém conteúdo exclusivo. Uma vez que o threading de e-mail analisa cada e-mail em componentes individuais e os compara, o threading de e-mail marcaria ambos os últimos dois e-mails como inclusivos, garantindo que não perderá qualquer contexto, desde que leia todos os e-mails marcados como inclusivos

Temas

Nesta secção, pode definir os seguintes parâmetros para os temas:

Temas: Quando ativado, os temas clustering são executados como parte do fluxo de trabalho quando executa análises nos dados num conjunto de revisão.
Número máximo de temas: Especifica o número máximo de temas que podem ser gerados quando executa análises nos dados num conjunto de revisão.
Incluir números em temas: Quando ativados, os números (que identifica um tema) são incluídos ao gerar temas.
Ajustar dinamicamente o número máximo de temas: Em determinadas situações, pode não haver documentos suficientes num conjunto de revisão para produzir o número pretendido de temas. Quando esta configuração está habilitada, a Descoberta Eletrônica ajusta dinamicamente o número máximo de temas em vez de tentar impor.

Quando cria um novo documento, geralmente começa com uma ou mais ideias que pretende transmitir no documento e, em seguida, compõe o documento com palavras alinhadas com estas ideias. Quanto mais prevalente é uma ideia, mais frequentes tendem a ser as palavras relacionadas a essa ideia. Este método também se alinha com a forma como os leitores consomem documentos. Os aspetos importantes a compreender ao ler um documento são as main ideias que o documento está a tentar transmitir. Isto também inclui as ideias que aparecem onde e quais são as relações entre as ideias.

Este processo pode ser alargado à forma como um revisor de Deteção de Dados Eletrónicos quer consumir um conjunto de documentos num caso. Querem ver que ideias estão presentes nos conjuntos de revisão e que documentos estão a falar dessas ideias. Se encontrarem um documento de interesse específico, querem ver documentos que abordam ideias semelhantes.

A funcionalidade Temas na Deteção de Dados Eletrónicos tenta imitar a razão dos humanos em relação aos documentos ao analisar os temas que são discutidos num conjunto de revisão e ao atribuir um tema a documentos no conjunto de revisão. Na Deteção de Dados Eletrónicos, os Temas vão um passo mais além e identificam o tema dominante em cada conjunto de revisão e documento. O tema dominante é aquele que aparece mais frequentemente num documento.

Como funcionam os temas?

A funcionalidade Temas analisa documentos com texto num conjunto de revisões para analisar temas comuns que aparecem em todos os documentos no conjunto de revisão. A Descoberta Eletrônica atribui esses temas aos documentos nos quais eles aparecem. Ela também rotula cada tema com as palavras usadas nos documentos que são representantes do tema. Uma vez que um documento pode conter vários tipos de assunto, a Deteção de Dados Eletrónicos atribui frequentemente vários temas para rever conjuntos e documentos. Isto é referido como a lista Temas. O tema que aparece de forma mais proeminente num conjunto de revisões ou documento é designado como o seu tema dominante.

Configurar Temas

Os temas são suportados para casos e aplicam-se a todos os conjuntos de revisão dentro dos mesmos. Pode configurar as definições para temas quando cria um novo caso ou pode atualizar as definições do tema para um caso existente.

Para configurar temas num caso, conclua os seguintes passos:

Aceda ao portal do Microsoft Purview e inicie sessão com as credenciais de uma conta de utilizador com permissões de Deteção de Dados Eletrónicos atribuídas.
Selecione a solução de Deteção de Dados Eletrónicos card e, em seguida, selecione Casos (pré-visualização) no painel de navegação esquerdo.
Selecione um caso, selecione Definições de caso.
Na página Definições do caso, selecione Procurar & análise.
Selecione as seguintes opções de tema, conforme aplicável:
- Número máximo de temas: Especifica o número máximo de temas que podem ser gerados quando executa análises nos dados em conjuntos de revisão incluídos num caso. Para obter mais informações sobre limites, veja Limites na Deteção de Dados Eletrónicos.
- Incluir números em temas: Os números (que identificam um tema) são incluídos ao gerar temas.
- Ajustar dinamicamente o número máximo de temas: Em determinadas situações, pode não haver documentos suficientes num conjunto de revisão para produzir o número pretendido de temas para o caso. Quando esta definição está ativada, o número máximo de temas é ajustado dinamicamente em vez de tentar impor o número máximo de temas.
Se precisar de excluir palavras-chave associadas a temas, introduza o texto ou expressão regular necessária no campo Ignorar texto . No campo Aplicar a , selecione Temas para aplicar o texto ou expressão regular a todos os temas.
Selecione Salvar.

Após a criação de um novo caso, a análise é executada automaticamente nos dados quando os conjuntos de revisão são adicionados ao caso. Os temas dos conjuntos de revisão são gerados como parte do processamento de análise.

Resumo do conjunto de consulta

Se selecionar a caixa de verificação Criar automaticamente uma pesquisa para Revisão guardada após análise, a Deteção de Dados Eletrónicos gera automaticamente uma consulta de conjunto de revisão denominada Para Revisão.

Esta consulta filtra itens duplicados do conjunto de revisão, o que lhe permite rever rapidamente os itens exclusivos no conjunto de revisão. Essa consulta é criada apenas quando você executa uma análise de um conjunto de revisão no caso. Para obter mais informações sobre consultas de conjuntos de revisão, veja Consultar os dados num conjunto de revisão.

Ignorar texto

Existem situações em que determinado texto diminui a qualidade da análise, como exclusões de responsabilidade longas que são adicionadas às mensagens de e-mail, independentemente do conteúdo do e-mail. Se souber que texto deve ser ignorado, pode excluí-lo da análise ao especificar a cadeia de texto e a funcionalidade de análise (quase duplicados, threads de e-mail, temas e relevância) para os quais o texto deve ser excluído. A utilização de expressões regulares (RegEx) para texto ignorado também é suportada.

Reconhecimento óptico de caracteres (OCR)

Quando esta definição está ativada, o processamento OCR é executado em ficheiros de imagem. O processamento de OCR é executado nas seguintes situações:

Quando as origens de dados são adicionadas a um caso: quando o OCR é aplicado a ficheiros de imagem, o texto nesses ficheiros está disponível nos resultados da pesquisa. O processamento de OCR é efetuado durante o processo de indexação Avançada (se esta opção estiver selecionada na consulta de pesquisa). O OCR só é executado em itens que são processados durante a indexação Avançada. Por exemplo, se um ficheiro PDF grande parcialmente indexado ou com outros erros de indexação for processado durante a indexação Avançada, o ficheiro tem o OCR aplicado. O processamento de OCR só ocorre em ficheiros que são reindexados durante o processo de indexação Avançado. Isto significa que podem existir situações em que as origens de dados são adicionadas a um caso, mas alguns anexos de e-mail não serão processados para OCR porque esses ficheiros não são processados durante a indexação Avançada.
Quando o conteúdo é adicionado a partir de outras origens de dados: isto aplica-se a origens de dados não estão associadas a um caso e quando os resultados da pesquisa são adicionados a um conjunto de revisão.

Depois de os dados serem adicionados a um conjunto de revisão, o texto da imagem pode ser revisto, pesquisado, marcado e analisado. Pode ver o texto extraído no Visualizador de texto do ficheiro de imagem selecionado no conjunto de revisão. Para saber mais, confira:

Compartilhar via