원본 최적화

아티클
02/29/2024

Azure SQL Database를 제외한 모든 원본은 현재 분할 사용을 계속 유지하는 것이 좋습니다. 다른 모든 원본 시스템에서 데이터를 읽을 때 데이터 흐름은 데이터 크기에 따라 자동으로 데이터를 균등하게 분할합니다. 128MB 데이터마다 새 파티션이 만들어집니다. 데이터 크기가 증가하면 파티션 수도 증가합니다.

모든 사용자 지정 분할은 Spark가 데이터를 읽은 후에 발생하며 데이터 흐름 성능에 부정적인 영향을 미칩니다. 읽기 시 데이터가 균등하게 분할되므로 먼저 데이터의 모양과 카디널리티를 이해하지 않는 한 권장되지 않습니다.

참고 항목

원본 시스템의 처리량에 따라 읽기 속도가 제한될 수 있습니다.

Azure SQL Database 원본

Azure SQL Database에는 '원본' 분할이라는 고유한 분할 옵션이 있습니다. 원본 시스템에서 병렬 연결을 사용하도록 설정하면 원본 분할을 사용하여 Azure SQL Database에서 데이터를 읽는 시간을 향상할 수 있습니다. 파티션 수를 지정하고 데이터 분할 방법을 지정합니다. 카디널리티가 높은 파티션 열을 사용합니다. 원본 테이블의 파티션 구성표와 일치하는 쿼리를 입력할 수도 있습니다.

팁

원본 분할의 경우 SQL Server I/O는 병목 상태입니다. 너무 많은 파티션을 추가하면 원본 데이터베이스가 포화될 수 있습니다. 일반적으로 이 옵션을 사용하는 경우 파티션 4개 또는 5개가 적절합니다.

Source partitioning

격리 수준

Azure SQL 원본 시스템의 읽기 격리 수준은 성능에 영향을 미칩니다. '커밋되지 않은 읽기'를 선택하면 가장 빠른 성능을 제공하고 데이터베이스 잠금을 방지할 수 있습니다. SQL 격리 수준에 대해 자세히 알아보려면 격리 수준 이해를 참조하세요.

쿼리를 사용하여 읽기

테이블 또는 SQL 쿼리를 사용하여 Azure SQL Database에서 읽을 수 있습니다. SQL 쿼리를 실행하는 경우 쿼리를 완료한 후 변환을 시작해야 합니다. SQL 쿼리는 SELECT, WHERE 및 JOIN 문과 같이 더 빠르게 실행되고 SQL Server에서 읽는 데이터 양을 줄일 수 있는 작업을 푸시하는 데 유용합니다. 작업을 푸시하면 데이터가 데이터 흐름으로 들어오기 전에는 변환의 계보 및 성능을 추적하는 기능을 사용할 수 없습니다.

Azure Synapse Analytics 원본

Azure Synapse Analytics를 사용하는 경우 원본 옵션에 준비 사용이라는 설정이 있습니다. 이렇게 하면 서비스가 Staging을 사용하여 Synapse에서 읽을 수 있으므로 CETAS 및 COPY 명령과 같은 가장 성능이 뛰어난 대량 로드 기능을 사용하여 읽기 성능이 크게 개선됩니다. Staging을 사용하려면 데이터 흐름 활동 설정에서 Azure Blob Storage 또는 Azure Data Lake Storage gen2 준비 위치를 지정해야 합니다.

Enable staging

파일 기반 원본

Parquet 및 구분된 텍스트

데이터 흐름은 다양한 파일 형식을 지원하지만 최적의 읽기 및 쓰기 시간을 위해서는 Spark 네이티브 Parquet 형식이 권장됩니다.

파일 세트에서 동일한 데이터 흐름을 실행하는 경우 와일드 카드 경로를 사용하여 폴더에서 읽거나 파일 목록에서 읽는 것이 좋습니다. 단일 데이터 흐름 활동 실행은 모든 파일을 일괄 처리로 처리할 수 있습니다. 이러한 설정을 구성하는 방법에 대한 자세한 내용은 Azure Blob Storage 커넥터 문서의 원본 변환 섹션에서 찾을 수 있습니다.

되도록이면 For-Each 활동을 사용하여 파일 세트에 대한 데이터 흐름을 실행하지 마세요. 이로 인해 for-each의 각 반복이 자체 Spark 클러스터를 스핀업하게 되는데, 이는 종종 필요하지 않고 비용이 많이 들 수 있습니다.

인라인 데이터 세트와 공유 데이터 세트

ADF 및 Synapse 데이터 세트는 팩터리 및 작업 영역에서 공유 리소스입니다. 그러나 구분된 텍스트와 JSON 원본이 포함된 많은 수의 원본 폴더 및 파일을 읽는 경우 프로젝션 | 스키마 옵션 대화 상자 내에서 "사용자 프로젝션 스키마" 옵션을 설정하여 데이터 흐름 파일 검색 성능을 개선할 수 있습니다. 이 옵션은 ADF의 기본 스키마 자동 검색을 끄고 파일 검색 성능을 크게 개선합니다. 이 옵션을 설정하기 전에 ADF에 프로젝션을 위한 기존 스키마가 있도록 프로젝션을 가져와야 합니다. 이 옵션은 스키마 드리프트에는 작동하지 않습니다.

성능과 관련된 다음과 같은 다른 데이터 흐름 문서를 참조하세요.

다음을 통해 공유

원본 최적화

Azure SQL Database 원본

격리 수준

쿼리를 사용하여 읽기

Azure Synapse Analytics 원본

파일 기반 원본

Parquet 및 구분된 텍스트

인라인 데이터 세트와 공유 데이터 세트

피드백

추가 리소스

다음을 통해 공유

원본 최적화

Azure SQL Database 원본

격리 수준

쿼리를 사용하여 읽기

Azure Synapse Analytics 원본

파일 기반 원본

Parquet 및 구분된 텍스트

인라인 데이터 세트와 공유 데이터 세트

관련 콘텐츠

피드백

추가 리소스