Microsoft Fabric용 Data Factory의 복사 작업(미리 보기)이란?
Fabric의 Data Factory를 통해 사용자는 시각적으로 직관적인 인터페이스를 통해 원본과 대상 모두에 있는 100개가 넘는 기본 제공 커넥터의 데이터를 원활하게 통합할 수 있습니다. 데이터 파이프라인 내에서 작동하는 복사 작업 데이터 수집을 용이하게 합니다. 한편 Dataflow Gen2는 데이터 변환을 지원하고 파이프라인은 통합 흐름을 오케스트레이션합니다.
복사 작업의 장점
데이터 파이프라인 내의 복사 작업 대량/일괄 처리 작업으로 데이터 수집을 처리하지만 Data Factory에서 데이터 파이프라인을 만드는 것은 더 가파른 학습 곡선을 사용하여 필드를 접하는 많은 사용자에게 여전히 어려운 일입니다. 따라서 데이터 수집 환경을 모든 원본에서 대상으로 보다 간소화되고 사용자 친화적인 프로세스로 승격하는 복사 작업을 도입하게 되어 기쁩니다. 이제 데이터를 복사하는 것이 그 어느 때보다 쉬워졌습니다. 또한 복사 작업은 일괄 복사 및 증분 복사를 비롯한 다양한 데이터 배달 스타일을 지원하여 특정 요구 사항을 충족할 수 있는 유연성을 제공합니다.
다른 데이터 이동 방법보다 복사 작업의 몇 가지 장점은 다음과 같습니다.
- 직관적인 환경: 손상 없이 원활한 데이터 복사를 경험하여 그 어느 때보다 쉽게 만들 수 있습니다.
- 효율성: 증분 복사를 손쉽게 사용하도록 설정하여 수동 개입을 줄입니다. 이 효율성은 리소스 사용률이 낮아지고 복사 기간이 빨라집니다.
- 유연성: 단순성을 즐기면서도 데이터 이동을 제어할 수 있는 유연성도 있습니다. 복사할 테이블과 열을 선택하고, 데이터를 매핑하고, 읽기/쓰기 동작을 정의하고, 일회성 작업이든 되풀이 작업이든 필요에 맞는 일정을 설정합니다.
- 강력한 성능: 대규모 병렬 처리로 데이터 전송을 가능하게 하는 서버리스 설정으로 시스템의 데이터 이동 처리량을 최대화합니다.
지원되는 커넥터
현재 클라우드 데이터 전송에 복사 작업을 사용하거나 게이트웨이를 통해 온-프레미스 데이터 저장소에서 데이터를 복사할 수 있습니다. 복사 작업은 원본 및 대상으로 다음 데이터 저장소를 지원합니다.
- Azure SQL DB
- 온-프레미스 SQL Server
- Fabric 웨어하우스
- Fabric Lakehouse
- Amazon S3
- Azure Data Lake Storage Gen2
- Azure Blob Storage
- Amazon RDS for SQL Server
제품 팀은 추가 커넥터 지원을 모색하고 있으므로 업데이트를 계속 지켜봐 주시기 바랍니다.
복사 동작
다음 데이터 배달 스타일 중에서 선택할 수 있습니다.
- 전체 복사 모드: 각 복사 작업 실행은 원본에서 대상으로 모든 데이터를 한 번에 복사합니다.
- 증분 복사 모드: 초기 작업 실행은 모든 데이터를 복사하고, 후속 작업은 마지막 실행 이후 변경 내용만 복사합니다. 변경된 데이터가 대상 저장소에 추가됩니다.
대상 저장소에 데이터를 쓰는 방법을 선택할 수도 있습니다.
기본적으로 복사 작업은 변경 기록을 놓치지 않도록 대상에 데이터를 추가 합니다. 그러나 쓰기 동작을 upsert 또는 덮어쓰도록 조정할 수도 있습니다.
- 스토리지 저장소에 데이터를 복사하는 경우: 테이블 또는 파일의 새 행이 대상의 새 파일에 복사됩니다. 동일한 이름의 파일이 대상 저장소에 이미 있는 경우 덮어씁니다.
- 데이터베이스에 데이터를 복사하는 경우: 테이블 또는 파일의 새 행이 대상 테이블에 추가됩니다. 쓰기 동작을 upsert(SQL DB 또는 SQL Server) 또는 덮어쓰기(Fabric Lakehouse 테이블)로 변경할 수 있습니다.
증분 열
증분 복사 모드에서는 각 테이블에 대한 증분 열을 선택하여 변경 내용을 식별해야 합니다. 복사 작업은 새 데이터 또는 업데이트된 데이터만 복사하기 위해 이 열을 워터마크로 사용하여 마지막 실행과 동일한 값을 비교합니다. 증분 열은 타임스탬프 또는 증가하는 INT여야 합니다.
사용 가능 지역
복사 작업에는 파이프라인과 동일한 지역 가용성이 있습니다.
가격 책정
복사 작업은 동일한 청구 미터인 데이터 이동을 동일한 소비율로 사용합니다.