다음을 통해 공유


변경 데이터 캡처 리소스를 사용하여 Azure Data Lake Storage Gen2에서 Azure SQL Database로 변경된 데이터를 캡처합니다.

적용 대상: Azure Data Factory Azure Synapse Analytics

기업용 올인원 분석 솔루션인 Microsoft Fabric의 Data Factory를 사용해 보세요. Microsoft Fabric은 데이터 이동부터 데이터 과학, 실시간 분석, 비즈니스 인텔리전스 및 보고에 이르기까지 모든 것을 다룹니다. 무료로 새 평가판을 시작하는 방법을 알아봅니다!

이 문서에서는 Azure Data Factory 사용자 인터페이스를 사용하여 CDC(변경 데이터 캡처) 리소스를 만듭니다. 리소스는 Azure Data Lake Storage Gen2 원본에서 변경된 데이터를 선택하여 실시간으로 Azure SQL Database에 추가합니다.

이 문서에서는 다음 방법을 설명합니다.

  • CDC 리소스를 만듭니다.
  • CDC 작업을 모니터링합니다.

이 문서에서는 구성 패턴을 수정하고 확장할 수 있습니다.

필수 조건

이 문서의 절차를 시작하기 전에 다음 리소스가 있는지 확인합니다.

  • Azure 구독. Azure 구독이 없는 경우 Azure 체험 계정을 만듭니다.
  • SQL 데이터베이스. Azure SQL Database를 원본 데이터 저장소로 사용합니다. SQL 데이터베이스가 없으면 Azure Portal에서 만듭니다.
  • 스토리지 계정. Azure Data Lake Storage Gen2에 저장된 Delta Lake를 대상 데이터 스토리지로 사용합니다. 스토리지 계정이 없는 경우 계정을 만드는 단계는 스토리지 계정 만들기를 참조하세요.

CDC 아티팩트 만들기

  1. 데이터 팩터리의 작성자 창으로 이동합니다. 파이프라인 아래에 변경 데이터 캡처(미리 보기)라는 새로운 최상위 아티팩트가 나타납니다.

    팩터리 리소스 창의 변경 데이터 캡처에 대한 새 최상위 아티팩트 스크린샷

  2. 세 개의 점이 나타날 때까지 변경 데이터 캡처(미리 보기) 위로 마우스를 가져갑니다. 그런 다음 변경 데이터 캡처(미리 보기) 작업을 선택합니다.

    새 최상위 아티팩트 위에 표시되는 변경 데이터 캡처 작업에 대한 단추의 스크린샷

  3. 새 CDC(미리 보기)를 선택합니다. 이 단계에서는 단계별 프로세스를 시작하기 위한 플라이아웃이 열립니다.

    변경 데이터 캡처 작업 목록의 스크린샷.

  4. CDC 리소스의 이름을 지정하라는 메시지가 표시됩니다. 기본적으로 이름은 "adfcdc"이며 숫자는 1씩 증가합니다. 이 기본 이름을 선택한 이름으로 바꿀 수 있습니다.

    리소스의 이름을 업데이트하는 텍스트 상자의 스크린샷

  5. 드롭다운 목록을 사용하여 데이터 원본을 선택합니다. 이 문서에서는 DelimitedText를 선택합니다.

    드롭다운 목록에 원본 옵션이 있는 단계별 프로세스 플라이아웃의 스크린샷

  6. 연결된 서비스를 선택하라는 메시지가 표시됩니다. 새 연결된 서비스를 만들거나 기존 서비스를 선택합니다.

    연결된 서비스를 선택하거나 만드는 상자의 스크린샷.

  7. 선택적으로 열 및 행 구분 기호를 포함한 고급 원본 구성을 설정하려면 원본 설정 영역을 사용합니다.

    구분 기호를 설정하는 고급 원본 설정의 스크린샷

    이러한 원본 설정을 수동으로 편집하지 않으면 기본값으로 설정됩니다.

  8. 찾아보기 단추를 사용하여 원본 데이터 폴더를 선택합니다.

    폴더 경로를 찾아볼 폴더 아이콘의 스크린샷.

  9. 폴더 경로를 선택한 후 계속을 선택하여 데이터 대상을 설정합니다.

    데이터 대상을 선택하는 단계별 프로세스의 계속 단추 스크린샷

    더하기(+) 단추를 사용하여 여러 원본 폴더를 추가하도록 선택할 수 있습니다. 다른 원본도 이미 선택한 것과 동일한 연결된 서비스를 사용해야 합니다.

  10. 드롭다운 목록을 사용하여 대상 유형 값을 선택합니다. 이 문서에서는 Azure SQL Database를 선택합니다.

    모든 데이터 대상 형식의 드롭다운 메뉴 스크린샷

  11. 연결된 서비스를 선택하라는 메시지가 표시됩니다. 새 연결된 서비스를 만들거나 기존 서비스를 선택합니다.

    데이터 대상에 연결된 서비스를 선택하거나 만드는 상자의 스크린샷

  12. 대상 테이블의 경우 새 대상 테이블을 만들거나 기존 테이블을 선택할 수 있습니다.

    • 대상 테이블을 만들려면 새 항목 탭을 선택한 다음 새 테이블 편집을 선택합니다.

      대상에 대한 새 테이블을 만드는 탭의 스크린샷.

    • 기존 테이블을 선택하려면 기존 항목 탭을 선택한 다음 확인란을 사용하여 테이블을 선택합니다. 표 데이터를 보려면 미리 보기 단추를 사용합니다.

      대상에 대한 테이블을 선택하는 탭의 스크린샷

    대상의 기존 테이블에 일치하는 이름이 있는 경우 기본적으로 기존 항목 아래에 선택됩니다. 그렇지 않은 경우 이름이 일치하는 새 테이블이 새 항목 아래에 만들어집니다. 또한 새 테이블 편집 단추를 사용하여 새 테이블을 편집할 수 있습니다.

  13. 확인란을 사용하여 SQL 데이터베이스에서 여러 대상 테이블을 선택할 수 있습니다. 대상 테이블 선택을 마친 후 계속을 선택합니다.

    다음 단계를 진행하는 단계별 프로세스의 계속 단추 스크린샷

  14. 변경 데이터 캡처를 위한 새 탭이 나타납니다. 이 탭은 새 리소스를 구성할 수 있는 CDC 스튜디오입니다.

    변경 데이터 캡처 스튜디오의 스크린샷.

    새 매핑이 자동으로 만들어집니다. 드롭다운 목록을 사용하여 매핑에 대한 원본 테이블대상 테이블 선택을 업데이트할 수 있습니다.

    변경 데이터 캡처 스튜디오의 원본-대상 매핑 스크린샷

  15. 테이블을 선택하면 해당 열은 기본적으로 자동 매핑 토글이 켜진 상태로 매핑됩니다. 자동 매핑은 싱크의 이름별로 열을 자동으로 매핑하고, 원본 스키마가 발전할 때 새로운 열 변경 내용을 선택하고, 이 정보를 지원되는 싱크 형식으로 전달합니다.

    자동 맵를 사용하고 열 매핑을 변경하지 않으려면 18단계로 바로 이동합니다.

    자동 매핑이 설정된 토글의 스크린샷.

    열 매핑을 사용하도록 설정하려면 매핑을 선택하고 자동 맵 토글을 끕니다. 그런 다음 열 매핑 단추를 선택하여 매핑을 확인합니다.

    매핑 선택, 자동 매핑 설정 해제 및 열 매핑 단추의 스크린샷

    자동 맵 토글을 켜면 언제든지 자동 매핑으로 다시 전환할 수 있습니다.

  16. 열 매핑을 봅니다. 드롭다운 목록을 사용하여 매핑 방법, 원본 열대상 열에 대한 열 매핑을 편집합니다.

    열 매핑을 편집하기 위한 페이지의 스크린샷

    이 페이지에서 다음을 수행할 수 있습니다.

    • 새 매핑 단추를 사용하여 더 많은 열 매핑을 추가합니다. 드롭다운 목록을 사용하여 매핑 방법, 원본 열대상 열을 선택합니다.
    • 지원되는 싱크 형식에 대한 삭제 작업을 추적하려면 열을 선택합니다.
    • 데이터 미리 보기 아래에서 새로 고침 단추를 선택하여 데이터가 대상에서 어떻게 보이는지 시각화합니다.

    열 매핑을 추가하는 단추, 매핑 메서드에 대한 드롭다운 목록, 키 열 및 새로 고침 단추의 스크린샷

  17. 매핑이 완료되면 화살표 단추를 선택하여 기본 CDC 캔버스로 돌아갑니다.

    테이블 매핑 페이지로 돌아가는 단추의 스크린샷.

  18. 하나의 CDC 아티팩트에 더 많은 원본-대상 매핑을 추가할 수 있습니다. 더 많은 데이터 원본과 대상을 추가하려면 편집 단추를 사용합니다. 그런 다음 새 매핑을 선택하고 드롭다운 목록을 사용하여 새 원본과 대상을 설정합니다. 각 매핑에 대해 독립적으로 자동 맵을 켜거나 끌 수 있습니다.

    새 원본을 추가하는 단추와 새 원본-대상 매핑을 설정하는 단추의 스크린샷

  19. 매핑이 완료된 후 대기 시간 설정 단추를 사용하여 CDC 대기 시간을 설정합니다.

    캔버스 맨 위에 있는 대기 시간 설정 단추의 스크린샷

  20. CDC의 대기 시간을 선택한 다음 적용을 선택하여 변경합니다.

    기본적으로 대기 시간은 15분으로 설정됩니다. 이 문서의 예에서는 대기 시간에 대해 실시간 옵션을 사용합니다. 실시간 대기 시간은 1분 미만의 간격으로 원본 데이터의 변경 내용을 지속적으로 포착합니다.

    다른 대기 시간(예: 15분을 선택한 경우)의 경우 변경 데이터 캡처는 원본 데이터를 처리하고 마지막 처리 시간 이후 변경된 데이터를 선택합니다.

    대기 시간을 설정하는 옵션의 스크린샷.

    참고 항목

    스트리밍 데이터 통합(Azure Event Hubs 및 Kafka 데이터 원본)으로 지원이 확장되면 대기 시간은 기본적으로 실시간으로 설정됩니다.

  21. CDC 구성을 마친 후 모두 게시를 선택하여 변경 내용을 게시합니다.

    캔버스 맨 위에 있는 게시 단추의 스크린샷

    참고 항목

    변경 내용을 게시하지 않으면 CDC 리소스를 시작할 수 없습니다. 다음 단계에서는 시작 단추를 사용할 수 없습니다.

  22. 변경 데이터 캡처 실행을 시작하려면 시작을 선택합니다.

    캔버스 맨 위에 있는 시작 단추의 스크린샷

변경 데이터 캡처 모니터링

  1. 다음 방법 중 하나를 사용하여 모니터링 창을 엽니다.

    • Azure Portal에서 모니터링을 선택합니다.

      Azure Portal의 모니터 단추 스크린샷

    • CDC 디자이너에서 모니터링 아이콘을 선택합니다.

      CDC 캔버스 맨 위에 있는 모니터링 아이콘의 스크린샷.

  2. CDC 리소스를 보려면 변경 데이터 캡처(미리 보기)를 선택합니다.

    데이터 캡처 변경 단추의 스크린샷.

    변경 데이터 캡처 창에는 변경 데이터 캡처에 대한 원본, 대상, 상태마지막 처리 정보가 표시됩니다.

    변경 데이터 캡처 모니터링 페이지의 개요 스크린샷.

  3. 자세한 내용을 보려면 CDC 이름을 선택합니다. 기타 진단 정보와 함께 읽고 쓴 변경 내용(삽입, 업데이트 또는 삭제) 수를 확인할 수 있습니다.

    선택한 변경 데이터 캡처에 대한 자세한 모니터링 스크린샷

    변경 데이터 캡처에서 여러 매핑을 설정하면 각 매핑이 서로 다른 색으로 표시됩니다. 막대를 선택하여 각 매핑에 대한 특정 세부 정보를 보거나 창 하단에 있는 진단 정보를 사용합니다.

    여러 원본-대상 매핑이 있는 변경 데이터 캡처에 대한 자세한 모니터링 정보의 스크린샷.

    변경 데이터 캡처 아티팩트에서 각 매핑에 대한 자세한 분석 스크린샷