유사 항목 병합
유사 항목 병합 은 열을 비교할 때 유사 항목 일치 알고리즘을 적용하는 데 사용할 수 있는 스마트 데이터 준비 기능입니다. 이러한 알고리즘은 병합되는 테이블 전체에서 일치 항목을 찾으려고 합니다.
병합 옵션 단추를 수행하려면 유사 항목 일치 사용 단추를 선택하여 병합 대화 상자 아래쪽에서 유사 항목 일치를 사용하도록 설정할 수 있습니다. 추가 정보: 병합 작업 개요
참고 항목
유사 항목 일치는 텍스트 열에 대한 병합 작업에서만 지원됩니다. 파워 쿼리는 Jaccard 유사성 알고리즘을 사용하여 인스턴스 쌍 간의 유사성을 측정합니다.
샘플 시나리오
유사 항목 일치의 일반적인 사용 사례는 설문 조사와 같은 자유형 텍스트 필드를 사용하는 것입니다. 이 문서의 경우 샘플 테이블은 한 가지 질문만 있는 그룹으로 전송된 온라인 설문 조사에서 직접 가져온 것입니다. 가장 좋아하는 과일은 무엇인가요?
해당 설문 조사의 결과는 다음 이미지에 나와 있습니다.
모든 답변이 고유한 9개의 고유 답변과 모든 오타, 복수 또는 단수 및 사례 문제가 있는 설문 조사에 대한 답변을 보여 주는 열 분포 그래프가 포함된 샘플 설문 조사 출력 테이블의 스크린샷.
9개의 레코드는 설문 조사 제출을 반영합니다. 설문 조사 제출의 문제는 오타가 있고, 일부는 복수형이고, 일부는 단수이고, 일부는 대문자이고, 일부는 소문자라는 것입니다.
이러한 값을 표준화하는 데 도움이 되도록 이 예제에서는 Fruits 참조 테이블이 있습니다 .
모든 과일이 고유한 4개의 고유한 과일 및 과일 목록(사과, 파인애플, 수박 및 바나나)을 보여 주는 열 분포 그래프가 포함된 Fruits 참조 테이블의 스크린샷
참고 항목
간단히 하기 위해 이 Fruits 참조 테이블에는 이 시나리오에 필요한 과일 이름만 포함됩니다. 참조 테이블에는 필요한 만큼의 행이 있을 수 있습니다.
목표는 다음과 같은 테이블을 만드는 것입니다. 여기서 이러한 모든 값을 표준화하여 더 많은 분석을 수행할 수 있습니다.
열 분포 그래프가 포함된 질문 열이 있는 샘플 설문 조사 출력 테이블의 스크린샷 그래프는 모든 답변이 고유한 9개의 고유한 답변을 보여 줍니다. 설문 조사에 대한 답변에는 모든 오타, 복수 또는 단수 및 사례 문제가 포함됩니다. 출력 테이블에는 Fruit 열도 포함됩니다. 이 열에는 고유한 답변이 하나 있는 네 개의 고유한 답변을 보여 주는 열 분포 그래프가 포함되어 있습니다. 그것은 또한 제대로 철자 과일의 모든 나열, 단수, 그리고 적절 한 경우.
유사 항목 병합 작업
유사 항목 병합을 수행하려면 먼저 병합을 수행합니다. 이 경우 왼쪽 외부 조인을 사용합니다. 여기서 왼쪽 테이블은 설문 조사의 테이블이고 오른쪽 테이블은 Fruits 참조 테이블입니다. 대화 상자 아래쪽에서 유사 항목 일치 사용 확인란을 선택하여 병합 확인란을 수행합니다.
확인을 선택하면 이 병합 작업으로 인해 테이블에 새 열이 표시됩니다. 확장하면 값이 없는 행이 하나 있습니다. 이는 이전 이미지의 대화 상자 메시지가 "선택 영역이 첫 번째 테이블에서 9개 행 중 8개와 일치합니다"라고 말한 것과 정확히 일치합니다.
설문 조사 테이블에 추가된 과일 열의 스크린샷 질문 열의 모든 행은 확장할 수 없고 Fruit 열에 null이 포함된 9행을 제외하고 확장됩니다.
유사 항목 일치 옵션
유사 항목 일치 옵션을 수정하여 대략적인 일치를 수행하는 방법을 조정할 수 있습니다. 먼저 쿼리 병합 명령을 선택한 다음 병합 대화 상자에서 유사 항목 일치 옵션을 확장합니다.
사용 가능한 옵션은 다음과 같습니다.
- 유사성 임계값(선택 사항): 지정된 유사성 점수 이상의 레코드를 일치시키는 기능을 제공하는 0.00에서 1.00 사이의 값입니다. 임계값 1.00은 정확한 일치 조건을 지정하는 것과 같습니다. 예를 들어 포도는 임계값이 0.90 미만으로 설정된 경우에만 Graes(문자 p 누락)와 일치합니다. 기본적으로 이 값은 0.80으로 설정됩니다.
- 대/소문자 무시: 텍스트의 대/소문자 구분 없이 일치하는 레코드를 허용합니다.
- 텍스트 부분을 결합하여 일치: 텍스트 부분을 결합하여 일치 항목을 찾을 수 있습니다. 예를 들어 이 옵션을 사용하도록 설정하면 마이크로 소프트가 Microsoft와 일치합니다.
- 유사성 점수 표시: 유사 항목 일치 후 입력과 일치하는 값 간의 유사성 점수를 표시합니다.
- 일치 항목 수(선택 사항): 모든 입력 행에 대해 반환할 수 있는 일치하는 행의 최대 수를 지정합니다.
- 변환 테이블(선택 사항): 사용자 지정 값 매핑에 따라 일치하는 레코드를 허용합니다. 예를 들어 From 열에 포도가 포함되고 To 열에 건포도가 포함된 변환 테이블이 제공되면 포도가 건포도와 일치합니다.
변환 테이블
이 문서의 예제에서는 변환 테이블을 사용하여 누락된 쌍이 있는 값을 매핑할 수 있습니다. 해당 값은 Apple에 매핑해야 하는 apls입니다. 변환 테이블에는 두 개의 열이 있습니다.
- From 에는 찾을 값이 포함됩니다.
- From 열을 사용하여 찾은 값을 바꾸는 데 사용되는 값을 포함하려면
이 문서의 경우 변환 테이블은 다음과 같습니다.
보낸 사람 | 수행할 작업 |
---|---|
apls | 사과 |
병합 대화 상자로 돌아가서 일치 항목 수 아래의 유사 항목 일치 옵션에서 1을 입력합니다. 유사성 점수 표시 옵션을 사용하도록 설정한 다음 변환 테이블에서 드롭다운 메뉴에서 [테이블 변환]을 선택합니다.
확인을 선택한 후 병합 단계로 이동하면 됩니다. 테이블 값이 있는 열을 확장하면 과일 필드 외에 유사성 점수 필드도 표시됩니다. 접두사를 추가하지 않고 둘 다 선택하고 확장합니다.
이 두 필드를 확장하면 테이블에 추가됩니다. 각 값의 유사성 점수에 대해 가져오는 값을 확인합니다. 이러한 점수는 유사성 임계값을 낮추거나 높여야 하는지 결정하는 데 필요한 경우 추가 변환에 도움이 될 수 있습니다.
이 예제에서 유사성 점수는 추가 정보로만 사용되며 이 쿼리의 출력에는 필요하지 않으므로 제거할 수 있습니다. 예제가 9개의 고유 값으로 시작되었지만 유사 항목 병합 후에는 네 개의 고유 값만 있습니다.
모든 답변이 고유한 9개의 고유 답변과 모든 오타, 복수 또는 단수 및 사례 문제가 있는 설문 조사에 대한 답변을 보여 주는 열 분포 그래프가 포함된 질문 열이 포함된 유사 병합 설문 조사 출력 테이블의 스크린샷 또한 하나의 고유한 답변이 있는 네 개의 고유한 답변을 보여 주는 열 분포 그래프가 있는 Fruit 열이 포함되어 있으며, 모든 과일의 철자가 올바로 맞춤법, 단수 및 적절한 대/소문자를 나열합니다.
변환 테이블의 작동 방식에 대한 자세한 내용은 변환 테이블의 교훈으로 이동 하세요.