移除每個資料表中的重複資料以進行資料統整
統整過程中的重複資料刪除規則步驟會從來源資料表中找到並移除客戶的重複記錄,讓每個客戶都在各個資料表中僅以單一資料列來表示。 每個資料表都使用規則個別刪除重複資料,以識別指定客戶的記錄。
規則會依順序進行處理。 對資料表中所有的記錄執行過所有規則之後,有共同資料列的相符群組會合併成單一相符群組。
定義重復資料刪除規則
良好的規則會找出唯一的客戶。 考慮您的資料。 根據電子郵件等欄位識別客戶可能就已足夠。 不過,如果您想要區分有共同電子郵件的客戶,則可以選擇讓規則使用兩個條件,根據電子郵件 + 名字進行比對。 如需詳細資訊,請參閱刪除重複資料最佳做法。
在重複資料刪除規則頁面上,選取資料表,然後選取新增規則來定義重複資料刪除規則。
提示
如果您已在資料來源層級擴充資料表來改善統整結果,請選取頁面上方的使用擴充資料表。 如需詳細資訊,請參閱資料來源擴充。
在 新增規則 窗格上輸入下列資訊:
選取欄位:對於檢查重複資料的資料表,在其可用的欄位清單中選擇。 選擇對每個客戶很可能是唯一的欄位。 例如,電子郵件地址,或姓名、城市和電話號碼的組合。
正規化:選取資料行的正規化選項。 正規化只會影響比對步驟,而不會變更資料。
正規化 範例 數字 將許多表示數字的 Unicode 符號轉換為簡單數字。
範例:❽ 和 Ⅷ 都會正規化為數字 8。
注意:符號必須以 Unicode 字碼格式進行編碼。符號 刪除符號和特殊字元。
範例:!?"#$%&'( )+,.-/:;<=>@^~{}`[ ]文字轉小寫字母 將大寫字元轉換為小寫。
範例:將 "THIS Is aN EXamplE" 轉換為 "this is an example"類型 – 電話 將各種格式的電話號碼轉換為數字,並考慮國碼 (地區碼) 和分機號碼顯示方式的變化。 忽略符號和空白字元。 忽略國碼 (地區碼) 中的前置 '0' 數字,而比對是否有 +1 和 +01。 忽略以字母首碼表示的分機 (X 123)。 正規化國碼 (地區碼) 有實際區別,因此有國碼 (地區碼) 的電話不會與沒有國碼 (地區碼) 的電話比對相符。
範例:+01 425.555.1212 與 1 (425) 555-1212 比對相符
+01 425.555.1212 與 (425) 555-1212 比對不相符類型 - 名稱 轉換 500 多種常見姓名變化和稱謂。
範例:"debby" -> "deborah" "prof" 和 "professor" -> "Prof."類型 - 地址 轉換地址的常用部分
範例:"street" -> "st" 和 "northwest" -> "nw"類型 - 組織 移除 50 個左右的公司名稱「干擾字詞」,例如 "co"、"corp"、"corporation" 和 “ltd”。 Unicode 轉 ASCII 將 Unicode 字元轉換為相應的 ASCII 字母
範例:將字元 'à'、'á'、'â'、'À'、'Á'、'Â'、'Ã'、'Ä'、'Ⓐ' 和 'A' 全部轉換為 'a'。空格 刪除所有空白字元 別名對應 允許您上傳字串配對的自訂清單,然後可以使用此清單來指示應始終視為完全相符的字串。
存在您認為應屬相符的特定資料範例,但使用其他正規化模式卻又無法比對相符時,請使用別名對應。
範例:Scott 和 Scooter,或 MSFT 和 Microsoft。自訂略過 允許您上傳字串的自訂清單,然後可以使用此清單來指示不應比對相符的字串。
自訂略過在您的資料含有應忽略的通用值 (例如虛擬電話號碼或虛擬電子郵件) 時非常有用。
範例:永遠不要讓電話 555-1212 或 test@contoso.com 比對相符
精確度:設定精確程度。 精確度用於精確比對和模糊比對,並確定兩個字串需要有多接近才能視為相符。
- 基本:從低 (30%)、中 (60%)、高 (80%)與完全相符 (100%)進行選擇。 選取全字詞,只比對 100% 相符的記錄。
- 自訂:設定記錄需要相符的百分比。 系統只會讓超過此閾值的記錄比對相符。
名稱:規則的名稱。
或者,選取新增>新增條件,將更多條件新增至規則。 條件以邏輯運算子 AND 相連接,只有在滿足所有條件的情況下才會執行。
或者,新增>新增例外, 將例外新增至規則。 例外是用來處理誤判和漏判的少數案例。
選取完成以建立規則。
或者,新增更多規則。
選取合併喜好設定
執行規則並找出客戶的重複記錄時,系統根據合併原則選取「入選列」。 入選列表示下一個統整步驟中的客戶,該步驟會比對資料表之間的記錄。 非入選列 (「備選列」) 中的資料在比對規則統整步驟中用來將其他資料表中的記錄與入選列進行比對。 此方法允許使用先前的電話號碼等資訊協助找出相符記錄,以改善比對結果。 入選列可以設定為找到的重複記錄中填寫最多、最近期或最遠期的記錄。
選取資料表,然後選取編輯合併喜好設定。 合併喜好設定窗格會出現。
選擇三個選項之一,以決定發現重複資料時要保留的記錄:
- 填入最多:找出包含最多已填入資料行的記錄做為入選記錄。 這是預設合併選項。
- 最新:根據最新情況找出贏家記錄。 需要日期或數字欄位來定義最新。
- 時間最接近:以新近度最接近的,找出入選方記錄。 需要日期或數字欄位來定義新近度。
如果出現平局,則入選記錄會是具有 MAX(PK) 或較大主索引鍵值的那一個。
或者,若要在資料表的個別資料行上定義合併喜好設定,請選取窗格底部的進階。 例如,您可以選擇保留最近的電子郵件,「及」來自不同記錄的最完整地址。 展開資料表以查看其所有資料行,並定義要用於個別資料行的選項。 如果您選擇基於新近度的選項,也需要指定定義新近度的日期/時間欄位。
選取完成套用合併喜好設定。
定義重複資料刪除規則和合併喜好設定之後,請選取下一步。