Rimuovi i duplicati in ogni tabella per l'unificazione dei dati

Articolo
12/30/2024

Il passaggio Regole di deduplicazione trova e rimuove i record duplicati per un cliente da una tabella di origine in modo che ogni cliente sia rappresentato da una singola riga in ogni tabella. Ogni tabella viene deduplicata separatamente utilizzando regole per identificare i record per un determinato cliente.

Le regole vengono elaborate in ordine. Dopo che tutte le regole sono state eseguite su tutti i record di una tabella, i gruppi di corrispondenza che condividono una riga comune vengono combinati in un unico gruppo di corrispondenza.

Definisci le regole di deduplicazione

Una buona regola identifica un cliente unico. Considerare i tuoi dati. Potrebbe essere sufficiente identificare i clienti in base a un campo come e-mail. Tuttavia, se desideri differenziare i clienti che condividono un'e-mail, puoi scegliere di avere una regola con due condizioni, corrispondenti a E-mail + Nome. Per altre informazioni, consultare il percorso di apprendimento sulle Deduplicazione delle procedure consigliate.

Nella pagina Regole di deduplicazione seleziona una tabella e quindi Aggiungi regola per definire le regole di deduplicazione.

Suggerimento

Se hai arricchito le tabelle a livello di origine dati per migliorare i risultati dell'unificazione, seleziona Usa tabelle arricchite nella parte superiore della pagina. Per altre informazioni, vedi Arricchimento per le origini dati.

Nel riquadro Aggiungi regola immetti le informazioni seguenti:

Seleziona campo: scegli dall'elenco dei campi disponibili della tabella di cui desideri verificare la presenza di duplicati. Scegli campi che sono probabilmente univoci per ogni singolo cliente. Ad esempio, un indirizzo e-mail o la combinazione di nome, città e numero di telefono.

Normalizza: seleziona una delle seguenti opzioni di normalizzazione per la colonna. La normalizzazione influisce solo sul passaggio di corrispondenza e non modifica i dati.

Normalizzazione	Esempi
Numeri	Converte molti simboli Unicode che rappresentano numeri in numeri semplici. Esempi: ❽ e Ⅷ sono entrambi normalizzati nel numero 8. Nota: i simboli devono essere codificati in formato punto Unicode.
Simboli	Rimuove simboli e caratteri speciali. Esempi: !?"#$%&'( )+,.-/:;<=>@^~{}`[ ]
Testo in minuscolo	Converte i caratteri maiuscoli in minuscoli. Esempio: "QUESTO È uN ESempIO" viene convertito in "questo è un esempio"
Tipo - Telefono	Converte i telefoni in vari formati in cifre e tiene conto delle variazioni nel modo in cui vengono presentati i codici paese e le estensioni. I simboli e gli spazi vuoti vengono ignorati. Le cifre '0' iniziali nei codici paese vengono ignorate, in quanto corrispondono a +1 e +01. Le estensioni indicate da un prefisso con lettere vengono ignorate (X 123). Il prefisso internazionale normalizzato è significativo, quindi un telefono con un prefisso internazionale non corrisponderà a un telefono senza prefisso internazionale. Esempio: +01 425 555 1212 corrisponde a 1 (425) 555-1212 +01 425 555 1212 non corrisponde a (425) 555-1212
Tipo - Nome	Converte oltre 500 varianti e titoli di nomi comuni. Esempi: "debby" -> "deborah" "prof" e "professore" -> "Prof."
Tipo - Indirizzo	Converte le parti comuni degli indirizzi Esempi: "strada" -> "st" e "nordovest" -> "no"
Tipo - Organizzazione	Rimuove circa 50 "parole non significative" di nomi di società come "co", "corp", "corporation" e "ltd".
Unicode in ASCII	Unicode in ASCII: converte i caratteri Unicode nella lettera equivalente ASCII Esempio: i caratteri "à,' 'á,' 'â,' 'À,' 'Á,' 'Â,' 'Ã,' 'Ä,' 'Ⓐ," e "Ａ" vengono tutti convertiti in "a."
Spazio vuoto	Rimuove tutti gli spazi vuoti
Mapping alias	Consente di caricare un elenco personalizzato di coppie di stringhe che può quindi essere utilizzato per indicare stringhe che devono sempre essere considerate una corrispondenza esatta. Utilizza il mapping degli alias quando disponi di esempi di dati specifici che ritieni debbano corrispondere e che non corrispondono, utilizzando uno degli altri modelli di normalizzazione. Esempio: Scott e Scooter, oppure MSFT e Microsoft.
Ignora personalizzato	Consente di caricare un elenco personalizzato di stringhe che può quindi essere utilizzato per indicare che non devono mai essere abbinate. Il bypass personalizzato è utile quando si dispone di dati con valori comuni che devono essere ignorati, ad esempio un numero di telefono fittizio o un indirizzo e-mail fittizio. Esempio: non abbinare mai il telefono 555-1212 o test@contoso.com

Precisione: imposta il livello di precisione. La precisione viene utilizzata per la corrispondenza esatta e la corrispondenza fuzzy e determina quanto devono essere vicine due stringhe per essere considerate una corrispondenza.
- Di base: Scegli tra Basso (30%), Medio (60%), Alto (80%) ed Esatto (100%). Seleziona Esatto per abbinare solo i record che corrispondono al 100 percento.
- Personalizzato: Consente di impostare una percentuale per la corrispondenza dei record. Il sistema mette in corrispondenza solo i record che superano questa soglia.
Nome: nome della regola.

Facoltativamente, seleziona Aggiungi>Aggiungi condizione per aggiungere più condizioni alla regola. Le condizioni sono collegate a un operatore logico AND e quindi eseguite solo se tutte le condizioni sono soddisfatte.
Facoltativamente, scegli Aggiungi>Aggiungi eccezione per aggiungere eccezioni alla regola. Le eccezioni vengono utilizzate per affrontare rari casi di falsi positivi e falsi negativi.
Seleziona Fine per creare la regola.
Facoltativamente, aggiungi altre regole.

Seleziona preferenze di unione

Quando le regole vengono eseguite e vengono identificati record duplicati per un cliente, viene selezionata una "riga vincitrice" in base ai criteri di unione. La riga vincente rappresenta il cliente nel passaggio di unificazione successivo che corrisponde ai record tra le tabelle. I dati nelle righe non vincenti ("alternative") vengono utilizzati nel passaggio di unificazione delle regole di corrispondenza per abbinare i record di altre tabelle alla riga vincitrice. Questo approccio migliora i risultati di corrispondenza consentendo a informazioni come i numeri di telefono precedenti di aiutare a identificare i record corrispondenti. La riga vincente può essere configurata in modo che sia la più compilata, la più recente o la meno recente tra i record duplicati trovati.

Seleziona una tabella e quindi Modifica preferenze di unione. Viene visualizzato il riquadro Preferenze unione.
Scegli una delle tre opzioni per determinare quale record conservare se viene trovato un duplicato:
- Con più dati: identifica il record con le colonne più popolate come record prevalente. È l'opzione di unione predefinita.
- Piu recente: il record vincitore è quello più recente. Richiede una data o un campo numerico per definire la recency.
- Meno recente: il record vincitore è quello meno recente. Richiede una data o un campo numerico per definire la recency.
In caso di parità, il record vincente è quello con il valore della chiave primaria MAX(PK) o maggiore.
Facoltativamente, per definire le preferenze di unione sulle singole colonne di una tabella, seleziona Avanzate nella parte inferiore del riquadro. Ad esempio, puoi scegliere di conservare il messaggio e-mail più recente E l'indirizzo più completo da record diversi. Espandi la tabella per vedere tutte le colonne e definisci quale opzione utilizzare per le singole colonne. Se scegli un'opzione basata sulla recency, devi anche specificare un campo data/ora che definisca la recency.
Seleziona Fine per applicare le preferenze di unione.

Dopo aver definito le regole di deduplicazione e le preferenze di unione, seleziona Avanti.

Passaggio successivo per una singola tabella: visualizzare i dati unificati

Passaggio successivo per più tabelle: definire le regole di corrispondenza

Condividi tramite

Rimuovi i duplicati in ogni tabella per l'unificazione dei dati

Definisci le regole di deduplicazione

Seleziona preferenze di unione

Risorse aggiuntive