데이터 통합 모범 사례
데이터를 고객 프로필로 통합하는 규칙을 설정할 때 다음 모범 사례를 고려하십시오.
통합 시간과 완전한 일치 시간의 균형을 맞춥니다. 가능한 모든 일치를 캡처하려고 시도하면 많은 규칙과 통합이 오랜 시간이 걸립니다.
규칙을 점진적으로 추가하고 결과를 추적합니다. 일치 결과를 개선하지 않는 규칙을 제거합니다.
각 테이블의 중복을 제거하여 모든 고객이 한 행에 표시되도록 합니다.
Street vs. St vs. St. vs. st와 같은 데이터 입력 방법의 변형을 정규화를 사용하여 표준화할 수 있습니다.
bob@contoso.com 및 bob@contoso.cm과 같은 오타 및 오류를 수정하기 위해 유사 일치를 전략적으로 사용합니다. 유사 일치에 소요된 추가 시간이 추가 일치율의 가치가 있는지 항상 테스트합니다.
정확한 일치로 일치 범위를 좁힙니다. 유사 항목 조건이 있는 모든 규칙에는 하나 이상의 정확한 일치 조건이 있는지 확인합니다.
과도하게 반복되는 데이터가 포함된 열은 검색하지 마세요. 유사 일치 열에 자주 반복되는 값(예: 양식의 기본값 "Firstname")이 없는지 확인합니다.
통일 성능
각 규칙을 실행하는 데 시간이 걸립니다. 모든 테이블을 다른 모든 테이블과 비교하거나 가능한 모든 레코드 일치를 캡처하려고 시도하는 것과 같은 패턴으로 인해 통합 처리 시간이 길어질 수 있습니다. 또한 각 테이블을 기본 테이블과 비교하는 계획에 대해 더 이상 일치하는 항목이 거의 반환되지 않습니다.
가장 좋은 방법은 각 테이블을 기본 테이블과 비교하는 것과 같이 필요한 기본 규칙 집합으로 시작하는 것입니다. 기본 테이블은 가장 완전하고 정확한 데이터가 있는 테이블이어야 합니다. 이 테이블은 일치 규칙 통합 단계의 맨 위에 정렬되어야 합니다.
몇 가지 규칙을 점진적으로 추가하고 변경 사항을 실행하는 데 걸리는 시간과 결과가 개선되는지 확인합니다. 설정>시스템>상태로 이동하고 일치를 선택하여 각 통합 실행에 대해 중복 제거 및 일치에 걸린 시간을 확인합니다.
중복 제거 규칙 및 일치 규칙 페이지에서 규칙 통계를 보고 고유 레코드의 수가 변경되었는지 확인하세요. 새 규칙이 일부 레코드와 일치하고 고유한 레코드 수가 변경되지 않는 경우 이전 규칙에서 해당 일치 항목을 식별합니다.
중복 제거
중복 제거 규칙을 사용하여 테이블 내에서 중복된 고객 레코드를 제거하여 각 테이블의 단일 행이 각 고객을 나타내도록 합니다. 좋은 규칙은 고유한 고객을 식별합니다.
이 간단한 예에서 레코드 1, 2 및 3은 이메일 또는 전화 번호를 공유하며 동일한 사람을 나타냅니다.
ID | 입력 | 휴대폰 | |
---|---|---|---|
6 | 사람1 | (425) 555-1111 | AAA@A.com |
2 | 사람1 | (425) 555-1111 | BBB@B.com |
3 | 사람1 | (425) 555-2222 | BBB@B.com |
4 | 사람2 | (206) 555-9999 | Person2@contoso.com |
우리는 같은 이름을 가진 다른 사람들과 일치할 수 있기 때문에 같은 이름으로 일치하는 것을 원하지 않습니다.
레코드 1 및 2와 일치하는 이름 및 전화를 사용하여 규칙 1을 만듭니다.
레코드 2 및 3과 일치하는 이름 및 이메일을 사용하여 규칙 2를 만듭니다.
규칙 1과 규칙 2의 조합은 레코드 2를 공유하므로 단일 일치 그룹을 만듭니다.
고객을 고유하게 식별하는 규칙 및 조건의 수를 결정합니다. 정확한 규칙은 일치시킬 수 있는 데이터, 데이터 품질 및 중복 제거 프로세스가 얼마나 철저하게 수행되기를 원하는지에 따라 달라집니다.
정규화
정규화를 사용하여 더 나은 일치를 위해 데이터를 표준화합니다. 정규화는 대규모 데이터 집합에서 잘 수행됩니다.
정규화된 데이터는 고객 기록을 보다 효과적으로 일치시키기 위한 비교 목적으로만 사용됩니다. 최종 통합 고객 프로필 출력의 데이터는 변경되지 않습니다.
정확히 일치
정밀도를 사용하여 두 문자열이 일치하는 것으로 간주되기 위해 얼마나 가까워야 하는지 결정합니다. 기본 정밀도 설정에는 정확히 일치해야 합니다. 다른 값을 사용하면 해당 조건에 대해 유사 일치를 사용할 수 있습니다.
정밀도는 낮음(30% 일치), 중간(60% 일치), 높음(80% 일치)으로 설정할 수 있습니다. 또는 1% 단위로 정밀도를 사용자 지정하고 설정할 수 있습니다.
정확한 일치 조건
유사 항목 일치에 대해 더 작은 값 집합을 얻기 위해 정확한 일치 조건이 먼저 실행됩니다. 효과적이려면 일치 검색 조건에 적절한 수준의 고유성이 있어야 합니다. 예를 들어 모든 고객이 동일한 국가/지역에 거주하는 경우 국가/지역에 대한 정확한 일치는 범위를 좁히는 데 도움이 되지 않습니다.
이름, 이메일, 전화 또는 주소 필드와 같은 열은 고유성이 높기 때문에 정확히 일치하는 조건으로 사용하기에 좋은 열입니다.
정확한 일치 조건에 사용하는 열에 양식에서 캡처한 기본값 "Firstname"과 같이 자주 반복되는 값이 없는지 확인합니다. Customer Insights는 데이터 열을 프로파일링하여 상위 반복 값에 대한 인사이트를 제공할 수 있습니다. Azure Data Lake(Common Data Model 또는 Delta 형식 사용) 연결 및 Synapse에서 데이터 프로파일링을 사용하도록 설정할 수 있습니다. 데이터 프로필은 다음에 데이터 원본을 새로 고칠 때 실행됩니다. 자세한 내용은 데이터 프로파일링을 참조하세요.
유사 일치
유사 일치를 사용하여 가깝지만 오타 또는 기타 작은 변형으로 인해 정확하지 않은 문자열을 일치시킵니다. 유사 일치는 정확한 일치보다 느리므로 전략적으로 사용합니다. 유사 항목 조건이 있는 규칙에서 정확한 일치 조건이 하나 이상 있는지 확인합니다.
유사 일치는 Suzzie 및 Suzanne과 같은 이름 변형을 캡처하기 위한 것이 아닙니다. 이러한 변형은 정규화 패턴 유형: 이름 또는 고객이 일치 항목으로 간주하려는 이름 변형 목록을 입력할 수 있는 사용자 지정 별칭 일치를 통해 더 잘 캡처됩니다.
이름 및 전화번호 일치와 같은 조건을 규칙에 추가할 수 있습니다. 주어진 규칙 내의 조건은 "AND" 조건입니다. 행이 일치하려면 모든 조건이 일치해야 합니다. 별도의 규칙은 "OR" 조건입니다. 규칙 1이 행과 일치하지 않으면 행이 규칙 2와 비교됩니다.
참고
문자열 데이터 유형 열만 유사 일치를 사용할 수 있습니다. Integer, double 또는 datetime과 같은 다른 데이터 형식이 있는 열의 경우 전체 자릿수 필드는 읽기 전용이며 정확히 일치하는 항목으로 설정됩니다.
유사 일치 계산
유사 일치는 두 문자열 간의 편집 거리 점수를 계산하여 결정됩니다. 점수가 정밀도 임계값을 충족하거나 초과하면 문자열이 일치하는 것으로 간주됩니다.
편집 거리는 문자를 추가, 삭제 또는 변경하여 한 문자열을 다른 문자열로 변환하는 데 필요한 편집 횟수입니다.
예를 들어 문자열 "Jacqueline" 및 "Jaclyne"은 q, u, e, i 및 e 문자를 제거하고 y 문자를 삽입할 때 편집 거리가 5입니다.
편집 거리 점수를 계산하려면 (기본 문자열 길이 – 편집 거리) / 기본 문자열 길이 공식을 사용합니다.
기본 문자열 | 비교 문자열 | 점수 |
---|---|---|
Jacqueline | Jaclyne | (10-4)/10=.6 |
fred@contoso.com | fred@contso.cm | (14-2) / 14 = 0.857 |
franklin | frank | (8-3) / 8 = 0.625 |