Azure Data Lake Storage에서 델타 테이블에 연결
델타 테이블의 데이터에 연결하고 이를 Dynamics 365 Customer Insights - Data로 가져옵니다.
델타 형식으로 저장된 데이터에 연결해야 하는 주요 이유:
- 델타 형식의 데이터를 직접 가져와 시간과 노력을 절약하세요.
- 레이크하우스 데이터의 사본을 변환하고 저장하는 데 드는 컴퓨팅 및 스토리지 비용을 줄이세요.
- 델타 버전 관리에서 제공하는 Customer Insights - Data에 대한 데이터 수집의 신뢰성을 자동으로 향상합니다.
지원되는 Databricks 기능 및 버전
Customer Insights - Data는 'minReaderVersion'이 2 이하인 Databricks 기능을 지원합니다. Databricks reader 버전 3 이상이 필요한 Databricks 기능은 지원되지 않습니다. 이 표에서는 지원되는 Databricks 기능과 지원되지 않는 Databricks 기능을 보여줍니다.
지원되는 기능 | 지원되지 않는 기능 |
---|---|
기본 기능 | 삭제 벡터 |
데이터 피드 변경 | Liquid 클러스터링 |
제약 조건 확인 | 테이블 기능 쓰기 |
열 매핑 | TimestampNTZ |
열 생성 | 형식 확대 |
ID 열 | 변형 |
행 추적 | |
테이블 기능 읽기 | |
UniForm |
자세히 알아보기: Databricks는 Delta Lake 기능 호환성을 어떻게 관리하나요?.
사전 요구 사항
Azure Data Lake Storage는 Customer Insights - Data와 동일한 테넌트 및 Azure 지역에 있어야 합니다.
방화벽으로 보호되는 스토리지에 연결하려면 Azure Private Link를 설정하세요.
Customer Insights - Data 서비스 주체에는 스토리지 계정에 액세스할 수 있는 Storage Blob 데이터 기여자 권한이 있어야 합니다. 자세한 내용은 서비스 주체에 스토리지 계정에 액세스할 수 있는 권한 부여를 참조하세요.
데이터 원본을 설정하거나 업데이트하는 사용자는 Azure Data Lake Storage 계정에 대한 Storage Blob 데이터 리더 이상의 권한이 필요합니다.
온라인 서비스에 저장된 데이터는 데이터가 처리되거나 저장되는 위치와 다른 위치에 저장될 수 있습니다. 온라인 서비스에서 저장된 데이터를 가져오거나 이에 연결하면 데이터가 전송될 수 있다는 데 동의하는 것입니다. Microsoft 보안 센터에서 자세히 알아보세요.
Customer Insights - Data는 Databricks reader 버전 2를 지원합니다. Databricks reader 버전 3 이상이 필요한 기능을 사용하는 Delta 테이블은 지원되지 않습니다. 자세히 알아보기: 지원되는 Databricks 기능.
델타 테이블은 스토리지 컨테이너의 폴더에 있어야 하고 컨테이너 루트 디렉터리에 있을 수 없습니다. 예:
storageaccountcontainer/ DeltaDataRoot/ ADeltaTable/ _delta_log/ 0000.json 0001.json part-0001-snappy.parquet part-0002-snappy.parquet
- Azure Data Lake Storage의 데이터는 델타 테이블이어야 합니다. Customer Insights - Data는 증분 처리에 대한 최신 변경 사항을 식별하기 위해 테이블 기록의 버전 속성을 사용합니다.
Azure Data Lake Storage에서 델타 데이터에 연결
데이터 연결 이름, 데이터 경로(예: 컨테이너 내의 폴더) 및 테이블 이름은 문자로 시작하는 이름을 사용해야 합니다. 이름에는 문자, 숫자 및 밑줄(_)만 사용할 수 있습니다. 특수 문자는 지원되지 않습니다.
데이터>데이터 원본으로 이동.
데이터 원본 추가를 선택합니다.
Azure Data Lake 델타 테이블을 선택합니다.
데이터 소스 이름과 선택적 설명을 입력합니다. 이 이름은 다운스트림 프로세스에서 참조되며 데이터 원본을 만든 후에는 변경할 수 없습니다.
다음을 사용하여 스토리지 연결에 대해 다음 옵션 중 하나를 선택합니다.
- Azure 구독: 구독을 선택한 다음 리소스 그룹 및 스토리지 계정을 선택합니다.
- Azure 리소스: 리소스 ID를 입력합니다.
데이터 폴더가 포함된 컨테이너의 이름을 선택합니다.
선택적으로 Azure Private Link를 통해 스토리지 계정에서 데이터를 수집하려는 경우 프라이빗 링크 사용을 선택합니다. 자세한 내용은 프라이빗 링크를 참고하세요.
델타 테이블의 데이터가 포함된 폴더로 이동하여 선택합니다. 그런 후에 다음을 선택합니다. 사용 가능한 테이블이 표시됩니다.
포함할 테이블을 선택합니다.
기본 키가 정의되지 않은 선택된 테이블의 경우 기본 키 아래에 필수가 표시됩니다. 이러한 각 테이블에 대해 다음을 수행합니다.
- 필수를 선택합니다. 테이블 편집 패널이 표시됩니다.
- 기본 키를 선택합니다. 기본 키는 테이블에 고유한 특성입니다. 특성이 유효한 기본 키가 되려면 중복 값, 누락 된 값 또는 null 값을 포함하지 않아야 합니다. 문자열, 정수 및 GUID 데이터 유형 특성은 기본 키로 지원됩니다.
- 닫기를 선택하여 패널을 저장하고 닫습니다.
열에 대해 데이터 프로파일링을 활성화하려면 테이블에 대해 열 수를 선택합니다. 특성 관리 페이지가 표시됩니다.
- 전체 테이블 또는 특정 열에 대해 데이터 프로파일링을 선택합니다. 기본적으로 데이터 프로파일링에 대해 활성화된 테이블이 없습니다.
- 완료를 선택합니다.
저장을 선택합니다. 데이터 원본 페이지가 열리고 새로 고침 중 상태의 새 데이터 원본이 표시됩니다.
데이터를 로드하는 데 시간이 걸릴 수 있습니다. 새로 고침이 완료되면, 수집된 데이터를 테이블 페이지에서 검토할 수 있습니다.
스키마 변경 관리
델타 폴더 데이터 원본의 스키마에서 열이 추가되거나 제거되면 시스템은 데이터의 전체 새로 고침을 실행합니다. 전체 새로 고침은 증분 새로 고침보다 모든 데이터를 처리하는 데 시간이 더 오래 걸립니다.
열 추가
데이터 원본에 열이 추가되면 새로 고침이 발생하면 해당 정보가 Customer Insights - Data의 데이터에 자동으로 추가됩니다. 테이블에 대해 통합이 이미 구성된 경우 새 열을 통합 프로세스에 추가해야 합니다.
고객 데이터 단계에서 테이블 및 열 선택을 선택하고 새 열을 선택합니다.
통합 데이터 보기 단계에서 열이 고객 프로필에서 제외되지 않았는지 확인하세요. 제외됨을 선택하고 열을 읽습니다.
통합 프로필에 업데이트 실행 단계에서 고객 프로필 및 종속성 통합을 선택합니다.
열 변경 또는 제거
데이터 원본에서 열이 제거되면 시스템은 다른 프로세스의 종속성을 확인합니다. 열에 종속성이 있는 경우 시스템에서 새로 고침을 중지하고 종속성을 제거해야 한다는 오류를 표시합니다. 이러한 종속성은 알림에 표시되어 이를 찾아서 제거하는 데 도움이 됩니다.
스키마 변경 유효성 검사
데이터 원본를 새로 고친 후 데이터>테이블 페이지로 이동합니다. 데이터 원본에 대한 테이블을 선택하고 스키마를 확인합니다.
델타 레이크 시간 이동 및 데이터 새로 고침
델타 레이크 시간 이동은 타임스탬프 또는 버전 번호를 기준으로 테이블 버전을 쿼리하는 기능입니다. 델타 폴더의 변경 사항은 버전이 지정되고, Customer Insights - Data은 델타 폴더 버전을 사용하여 처리할 데이터를 추적합니다. 정기적인 델타 테이블 새로 고침에서는 마지막 새로 고침 이후의 모든 데이터 테이블 버전에서 데이터를 가져옵니다. 모든 버전이 존재한다면 Customer Insights - Data은 변경된 요소만 처리하여 더 빠른 결과를 제공할 수 있습니다. 시간 이동에 대해 자세히 알아보세요.
예를 들어 Customer Insights – Data가 델타 폴더 데이터의 버전 23과 마지막으로 동기화된 경우, 버전 23 및 사용 가능한 후속 버전을 찾을 것으로 예상합니다. 예상 데이터 버전을 사용할 수 없는 경우 데이터 동기화에 실패하고 수동으로 전체 데이터를 새로 고쳐야 합니다. 델타 폴더 데이터를 삭제했다가 다시 생성한 경우 데이터 동기화가 실패할 수 있습니 또는 버전이 업그레이드되는 동안 Customer Insights - Data가 델타 폴더에 장시간 연결할 수 없는 경우에도 실패할 수 있습니다.
전체 데이터 새로 고침의 필요성을 피하려면 15일과 같은 적절한 기록 백로그를 유지하는 것을 권장합니다.
델타 테이블 폴더에서 전체 데이터 새로 고침을 수동으로 실행하기
전체 새로 고침은 델타 형식의 테이블에서 모든 데이터를 가져와서 델타 테이블 버전 0에서 다시 로드합니다. 델타 폴더 스키마가 변경되면 자동으로 전체 새로 고침이 실행됩니다. 전체 새로 고침을 수동으로 트리거하려면 다음 단계를 수행하세요.
데이터>데이터 원본으로 이동.
Azure Data Lake 델타 테이블 데이터 원본을 선택합니다.
새로 고침할 테이블을 선택합니다. 테이블 편집 창이 표시됩니다.
일회성 전체 새로 고침 실행을 선택합니다.
저장을 선택하여 새로 고침을 실행합니다. 데이터 원본 페이지가 열리고 새로 고침 중 상태의 새 데이터 원본이 표시되지만 선택한 테이블만 새로 고쳐지고 있습니다.
해당하는 경우 다른 테이블에 대해서도 이 과정을 반복합니다.
데이터 동기화 실패
델타 폴더 데이터를 삭제했다가 다시 생성한 경우 데이터 동기화가 실패할 수 있습니 또는 버전이 업그레이드되는 동안 Customer Insights - Data가 델타 폴더에 장시간 연결할 수 없는 경우에도 실패할 수 있습니다. 간헐적인 데이터 파이프라인 오류로 인해 전체 새로 고침이 필요한 영향을 최소화하려면 15일과 같은 합리적인 기록 백로그를 유지하는 것이 좋습니다.