Duplikate in jeder Tabelle entfernen, um die Daten zu vereinheitlichen
Der Schritt „Deduplizierungsregeln“ der Vereinheitlichung sucht und entfernt doppelte Datensätze für einen Kunden aus einer Quelltabelle, sodass die einzelnen Kunden bzw. Kundinnen in jeder Tabelle durch eine einzelne Zeile dargestellt werden. Jede Tabelle wird mithilfe von Regeln separat dedupliziert, um die Datensätze für einen bestimmten Kunden bzw. eine bestimmte Kundin zu identifizieren.
Die Regeln werden der Reihe nach verarbeitet. Nachdem alle Regeln für alle Datensätze in einer Tabelle ausgeführt wurden, werden Übereinstimmungsgruppen, die eine gemeinsame Zeile haben, zu einer einzigen Übereinstimmungsgruppe zusammengefasst.
Definieren von Deduplizierungsregeln
Eine gute Regel identifiziert einen eindeutigen Kunden bzw. eine eindeutige Kundin. Betrachten Sie Ihre Daten. Es kann ausreichen, die Kundschaft anhand eines Felds wie „E-Mail“ zu identifizieren. Wenn Sie jedoch einzelne Kunden bzw. Kundinnen unterscheiden möchten, die eine E-Mail-Adresse teilen, können Sie sich für eine Regel mit zwei Bedingungen entscheiden, nämlich für den Abgleich von „E-Mail“ + „FirstName“. Weitere Informationen finden Sie unter Bewährte Methoden für die Deduplizierung.
Wählen Sie auf der Seite Deduplizierungsregeln eine Tabelle aus und wählen Sie Regel hinzufügen, um die Deduplizierungsregeln zu definieren.
Tipp
Wenn Sie Tabellen auf der Ebene der Datenquelle angereichert haben, um Ihre Vereinheitlichungsergebnisse zu verbessern, wählen Sie oben auf der Seite Angereicherte Tabellen verwenden aus. Weitere Informationen finden Sie unter Anreicherungen für Datenquellen.
Geben Sie im Bereich Regel hinzufügen die folgenden Informationen ein:
Feld auswählen: Wählen Sie aus der Liste der verfügbaren Felder der Tabelle aus, die Sie auf Duplikate prüfen möchten. Wählen Sie Felder aus, die wahrscheinlich für jeden einzelnen Kunden eindeutig sind. Zum Beispiel eine E-Mail-Adresse oder die Kombination aus Name, Stadt und Telefonnummer.
Normalisieren: Wählen Sie aus den Normalisierungsoptionen für die Spalte aus. Die Normalisierung wirkt sich nur auf den Abgleichsschritt aus und verändert die Daten nicht.
Normalisierung Beispiele Ziffern Konvertiert viele Unicode-Symbole, die Zahlen darstellen, in einfache Zahlen.
Beispiele: ❽ und Ⅷ sind beide auf die Zahl 8 normalisiert.
Hinweis: Die Symbole müssen im Unicode-Punktformat codiert sein.Symbole Entfernt Symbole und Sonderzeichen.
Beispiele: !?„“#$%&‚‘( )+,.-/:;<=>@^~{}`[ ]Text in Kleinbuchstaben Konvertiert Großbuchstaben in Kleinbuchstaben.
Beispiel: „DAS IsT eIN BEispIEL“ wird in „dies ist ein beispiel“ umgewandeltTyp – Telefon Konvertiert Telefone in verschiedenen Formaten in Ziffern und berücksichtigt Unterschiede in der Darstellung von Landeskennzahlen und Durchwahlen. Symbole und Leerzeichen werden ignoriert. Führende „0“-Ziffern in Ländercodes werden ignoriert und entsprechen +1 und +01. Erweiterungen, die durch ein Buchstabenpräfix gekennzeichnet sind, werden ignoriert (X 123). Die normalisierte Landesvorwahl ist von Bedeutung, daher stimmt ein Telefon mit einer Landesvorwahl nicht mit einem Telefon ohne Landesvorwahl überein.
Beispiel: +01 425.555.1212 stimmt mit 1 (425) 555-1212 überein
+01 425.555.1212 stimmt nicht mit (425) 555-1212 übereinTyp – Name Konvertiert über 500 gebräuchliche Namensvariationen und Titel.
Beispiele: „debby“ -> „deborah“ „prof“ und „professor“ -> „Prof.“Typ – Adresse Konvertiert gemeinsame Teile von Adressen
Beispiele: „Straße“ -> „st“ und „nordwesten“ -> „nw“Typ – Organisation Entfernt etwa 50 Füllwörter von Firmennamen wie „co“, „corp“, „corporation“ und „ltd“. Unicode in ASCII Konvertiert die Unicode-Zeichen in ihr ASCII-Buchstabenäquivalent
Beispiel: Die Zeichen „à“, „á“, „â“, „À“, „Á“, „“, „Ó, „Ä“, „Ⓐ“ und „A“ werden alle in „a“ konvertiert.Leerzeichen Entfernt alle Leerzeichen Alias-Zuordnung Ermöglicht das Hochladen einer benutzerdefinierten Liste von Zeichenfolgenpaaren, die dann verwendet werden kann, um Zeichenfolgen anzugeben, die immer als exakte Übereinstimmung betrachtet werden sollten.
Verwenden Sie die Aliaszuordnung, wenn Sie über bestimmte Datenbeispiele verfügen, die Ihrer Meinung nach übereinstimmen sollten, aber nicht mit einem der anderen Normalisierungsmuster abgeglichen werden.
Beispiel: Scott und Scooter oder MSFT und Microsoft.Benutzerdefinierte Umgehung Ermöglicht das Hochladen einer benutzerdefinierten Liste von Zeichenfolgen, die dann verwendet werden kann, um Zeichenfolgen anzugeben, die niemals abgeglichen werden sollten.
Die benutzerdefinierte Umgehung ist nützlich, wenn Sie Daten mit gemeinsamen Werten haben, die ignoriert werden sollen, z. B. eine Dummy-Telefonnummer oder eine Dummy-E-Mail.
Beispiel: Entspricht niemals dem Telefon 555-1212 oder test@contoso.com
Präzision: Hier können Sie die Ebene der Präzision festlegen. Die Genauigkeit wird für exakte Übereinstimmungen und Fuzzyübereinstimmungen verwendet und bestimmt, wie nah zwei Zeichenfolgen sein müssen, um als Übereinstimmung zu gelten.
- Basic: Wählen Sie Niedrig (30 %), Mittel (60 %), Hoch (80 %) und Genau (100 %). Wählen Sie Genau, um nur Datensätze abzugleichen, die zu 100 Prozent übereinstimmen.
- Benutzerdefiniert: Legen Sie einen Prozentsatz fest, mit dem Datensätze übereinstimmen müssen. Das System stimmt nur mit Datensätzen überein, die diesen Schwellenwert überschreiten.
Name: Der Name für die Regel.
Wählen Sie optional Hinzufügen>Bedingung hinzufügen aus, um der Regel weitere Bedingungen hinzuzufügen. Bedingungen sind mit einem logischen UND-Operator verbunden und werden daher nur ausgeführt, wenn alle Bedingungen erfüllt sind.
Wählen Sie optional Hinzufügen>Ausnahme hinzufügen, um Ausnahmen zur Regel hinzuzufügen. Ausnahmen werden verwendet, um seltene Fälle von falsch positiven und falsch negativen Ergebnissen zu behandeln.
Wählen Sie Fertig, um die Regel zu erstellen.
Optional weitere Regeln hinzufügen.
Einstellungen für die Zusammenführung auswählen
Wenn Regeln ausgeführt werden und doppelte Datensätze für einen Kunden identifiziert werden, wird basierend auf der Zusammenführungsrichtlinie eine „Gewinnerzeile“ ausgewählt. Die Gewinnerzeile stellt den Kunden im nächsten Vereinheitlichungsschritt dar, der Datensätze zwischen Tabellen abgleicht. Die Daten in den Zeilen, die keine Gewinner sind, werden im Schritt zur Vereinheitlichung der Abgleichsregeln verwendet, um Datensätze aus anderen Tabellen mit der Gewinnerzeile abzugleichen. Dieser Ansatz verbessert die Abgleichsergebnisse, da Informationen wie frühere Telefonnummern bei der Identifizierung übereinstimmender Datensätze helfen können. Die Gewinnerzeile kann so konfiguriert werden, dass sie die am besten ausgefüllte, jüngste oder älteste der gefundenen doppelten Datensätze ist.
Wählen Sie eine Tabelle und dann Einstellungen für die Zusammenführung bearbeiten. Der Bereich Einstellungen für die Zusammenführung wird angezeigt.
Wählen Sie eine von drei Optionen aus, um zu bestimmen, welcher Datensatz aufbewahrt werden soll, wenn ein Duplikat gefunden wird:
- Am häufigsten: Identifiziert den Datensatz mit den meisten ausgefüllten Spalten als Gewinnerdatensatz. Dies ist die standardmäßige Zusammenführungsoption.
- Aktuell: Identifiziert den Gewinner-Datensatz auf der Basis der größten Aktualität. Erfordert ein Datum oder ein numerisches Feld, um die Aktualität zu definieren.
- Letzer: Identifiziert den Gewinner-Datensatz basierend auf der besten Aktualität. Erfordert ein Datum oder ein numerisches Feld, um die Aktualität zu definieren.
Im Falle eines Unentschiedens ist der Gewinnerdatensatz derjenige mit dem MAX(PK)-Wert oder dem größeren Primärschlüsselwert.
Um optional Zusammenführungseinstellungen für einzelne Spalten einer Tabelle zu definieren, wählen Sie Erweitert am unteren Rand des Bereichs. Sie können beispielsweise wählen, ob Sie die neueste E-Mail UND die vollständigste Adresse aus verschiedenen Datensätzen behalten möchten. Erweitern Sie die Tabelle, um alle ihre Spalten anzuzeigen, und definieren Sie, welche Option für einzelne Spalten verwendet werden soll. Wenn Sie eine auf Aktualität basierende Option wählen, müssen Sie auch ein Datums-/Uhrzeitfeld angeben, das die Aktualität definiert.
Wählen Sie Fertig aus, um Ihre Einstellungen zusammenzuführen.
Nachdem Sie die Deduplizierungsregeln und Zusammenführungseinstellungen definiert haben, wählen Sie Weiter.