Remover duplicados de cada tabela para unificação de dados

Artigo
12/27/2024

O passo da unificação Regras de duplicação encontra e remove registos duplicados de um cliente a partir de uma tabela de origem, para que cada cliente seja representado por uma única linha em cada tabela. Cada tabela tem os duplicados removidos separadamente com regras para identificar os registos de um determinado cliente.

As regras são processadas por ordem. Depois de todas as regras terem sido executadas em todos os registos numa tabela, os grupos de correspondência que partilham uma linha comum são combinados num único grupo de correspondência.

Definir regras de eliminação de duplicados

Uma boa regra identifica um cliente exclusivo. Considere os seus dados. Pode ser suficiente identificar clientes com base num campo como o e-mail. No entanto, se pretender diferenciar os clientes que partilham um e-mail, pode optar por ter uma regra com duas condições, que correspondam em E-mail + Nome Próprio. Para obter mais informações, consulte Melhores práticas de eliminação de duplicados.

Na página Regras de duplicação, selecione uma tabela e selecione Adicionar regra para definir as regras de duplicação.

Sugestão

Se tiver melhorado tabelas ao nível origem de dados para ajudar a melhorar os resultados de unificação, selecione Utilizar tabelas melhoradas no topo da página. Para obter mais informações, consulte Melhoramento para origens de dados.

No painel Adicionar regra, introduza as seguintes informações:

Selecionar campo: escolha a partir da lista de campos disponíveis na tabela que pretende verificar a existência de duplicados. Escolha os campos que sejam provavelmente únicos para cada cliente. Por exemplo, um endereço de e-mail ou a combinação de nome, cidade e número de telefone.

Normalizar: selecione as opções de normalização para a coluna. A normalização só afeta o passo correspondente e não altera os dados.

Normalização	Exemplos
Números	Converte muitos símbolos Unicode que representam números em números simples. Exemplos: ❽ e Ⅷ são ambos normalizados para o número 8. Nota: Os símbolos têm de ser codificados no Formato Unicode Point.
Símbolos	Remove os símbolos e carateres especiais. Exemplos: !?"#$%&'( )+,.-/:;<=>@^~{}`[ ]
Texto para minúsculas	Converte os carateres em letra maiúscula para minúscula. Exemplo: "ISTO É uM EXemplO" é convertido em "isto é um exemplo"
Tipo — Telefone	Converte telefones em vários formatos em dígitos e considera variações na forma como os indicativos e extensões são apresentados. Símbolos e espaços em branco são ignorados. Os dígitos '0' à esquerda nos indicativos são ignorados, correspondendo a +1 e +01. As extensões significadas por um prefixo com letras são ignoradas (X 123). O indicativo normalizado é significativo, portanto, um telefone com um indicativo não corresponderá a um telefone sem um indicativo. Exemplo: +01 425.555.1212 corresponde a 1 (425) 555-1212 +01 425.555.1212 não corresponde a (425) 555-1212
Tipo — Nome	Converte mais de 500 variações comuns de nomes e títulos. Exemplos: "debby" -> "deborah" "prof" e "professor" -> "Prof."
Tipo — Endereço	Converte partes comuns de endereços Exemplos: "rua" -> "R" and "noroeste" -> "no"
Tipo — Organização	Remove cerca de 50 "palavras irrelevantes" de nomes de empresas, como "lda", "sa", "corporação" e "ltd".
Unicode para ASCII	Converte carateres Unicode para o respetivo equivalente de tipo de letra ASCII Exemplo: Os carateres "à" "á" "â" "À" "Á" "Â" "Ã" "Ä" "Ⓐ" e "Ａ" são todos convertidos para "a."
Espaço em branco	Remove todos os espaços em branco
Mapeamento de aliases	Permite carregar uma lista personalizada de pares de cadeias que podem ser usadas para indicar cadeias que devem ser sempre consideradas como uma correspondência exata. Use o mapeamento de alias quando tiver exemplos de dados específicos que acha que deveriam corresponder e não correspondem usando um dos outros padrões de normalização. Exemplo: Scott e Scooter ou MSFT e Microsoft.
Ignorar personalizado	Permite carregar uma lista personalizada de cadeias que podem ser usadas para indicar cadeias que nunca devem ser correspondidas. O desvio personalizado é útil quando tem dados com valores comuns que devem ser ignorados, como um número de telefone fictício ou um e-mail fictício. Exemplo: Nunca corresponda o telefone 555-1212 ou test@contoso.com

Precisão: defina o nível de precisão. A precisão é usada para correspondência exata e correspondência difusa, e determina o quão próximas duas cadeias precisam de estar para serem consideradas uma correspondência.
- Básico: escolha entre Baixo (30%), Médio (60%), Alto (80%) e Exato (100%). Selecione Exato para corresponder apenas registos que correspondam a 100 por cento.
- Personalizar: defina uma percentagem que os registos têm de corresponder. O sistema só corresponde os registos que ultrapassam este limiar.
Nome: nome da regra.

Opcionalmente, selecione Adicionar>Adicionar condição para adicionar mais condições à regra. As condições estão ligadas a um operador E lógico e, portanto, só são executadas se todas as condições forem satisfeitas.
Opcionalmente, Adicionar>Adicionar exceção para adicionar exceções à regra. As exceções são utilizadas para resolver casos raros de falsos positivos e falsos negativos.
Selecione Concluído para criar a regra.
Opcionalmente, adicione mais regras.

Selecionar preferências de união

Quando são executadas regras e os registos duplicados são identificados para um cliente, uma "linha vencedora" é selecionada com base na política de união. A linha vencedora representa o cliente na próximo passo de unificação que corresponde aos registos entre tabelas. Os dados nas linhas não vencedoras ("alternativas") são utilizados no passo de unificação das regras de correspondência para fazer corresponder os registos de outras tabelas à linha vencedora. Esta abordagem melhora os resultados correspondentes, permitindo que informações como números de telefone anteriores ajudem a identificar registos correspondentes. A linha vencedora pode ser configurada para ser a mais preenchida, a mais recente ou a menos recente dos registos duplicados encontrados.

Selecione uma tabela e, em seguida, Editar preferências de união. O painel Unir preferências aparece.
Escolha uma de três opções para determinar que registo manter se forem encontrados duplicados:
- Mais preenchido: identifica o registo com as colunas mais preenchidas como registo vencedor. É a opção de intercalação predefinida.
- Mais recentes: Identifica o registo vencedor com base no mais recente. Requer uma data ou um campo numérico para definir a atualidade.
- Menos recente: Identifica o registo vencedor com base no menos recente. Requer uma data ou um campo numérico para definir a atualidade.
No caso de empate, o registo vencedor é aquele com o MAX(PK) ou valor da chave primária maior.
Opcionalmente, para definir as preferências de união em colunas individuais de uma tabela, selecione Avançadas na parte inferior do painel. Por exemplo, pode optar por manter o e-mail mais recente e o endereço mais completo de diferentes registos. Expanda a tabela para ver todas as suas colunas e defina que opção utilizar para colunas individuais. Se escolher uma opção baseada em recência, também precisa de especificar um campo de data/hora que defina a recência.
Selecione Concluído para aplicar preferências de união

Depois de definir as regras de eliminação de duplicados e as preferências de união selecione Seguinte.

Passo seguinte para uma única tabela: Ver dados unificados

Passo seguinte para várias tabelas: Definir regras de correspondência

Partilhar via

Remover duplicados de cada tabela para unificação de dados

Definir regras de eliminação de duplicados

Selecionar preferências de união

Recursos adicionais