복사 작업에서 Azure Files 구성
이 문서에서는 데이터 파이프라인에서 복사 작업을 사용하여 Azure Files에서 데이터를 복사하는 방법을 간략하게 설명합니다.
지원되는 형식
Azure Files는 다음 파일 형식을 지원합니다. 형식 기반 설정에 대한 각 문서를 참조하세요.
지원되는 구성
복사 작업 아래의 각 탭을 구성하려면 각각 다음 섹션으로 이동합니다.
일반
일반 설정 탭을 구성하려면 일반 설정 지침을 참조하세요.
원본
복사 작업의 원본 탭에서 Azure Files에 대해 지원되는 속성은 다음과 같습니다.
다음 속성은 필수입니다.
데이터 저장소 유형: 외부를 선택합니다.
연결: 연결 목록에서 Azure Files 연결을 선택합니다. 연결이 없으면 새로 만들기를 선택하여 새 Azure Files 연결을 만듭니다.
파일 경로 유형: 파일 경로 유형으로 파일 경로, 접두사, 와일드카드 파일 경로, 파일 목록을 선택할 수 있습니다. 각 설정의 구성은 다음과 같습니다.
파일 경로: 이 유형을 선택하면 지정된 폴더/파일 경로에서 데이터를 복사할 수 있습니다.
접두사: 원본 파일을 필터링하기 위해 지정된 파일 공유 아래의 파일 이름에 대한 접두사입니다. 이름이
fileshare_in_connection/this_prefix
로 시작하는 파일이 선택되었습니다. 와일드카드 필터보다 더 나은 성능을 제공하는 Azure Files에 대한 서비스측 필터를 사용합니다.와일드카드 파일 경로: 원본 폴더 또는 파일을 필터링할 와일드카드 문자가 포함된 폴더 또는 파일 경로를 지정합니다.
허용되는 와일드카드는
*
(문자 0자 이상 일치) 및?
(문자 0자 또는 1자 일치)입니다. 폴더 이름에 와일드카드 또는 이 이스케이프 문자가 있는 경우^
을 사용하여 이스케이프합니다. 더 많은 예를 보려면 폴더 및 파일 필터 예를 참조하세요.와일드카드 폴더 경로: 원본 폴더를 필터링할 와일드카드 문자가 포함된 폴더 경로를 지정합니다.
와일드카드 파일 이름: 구성된 폴더/와일드카드 폴더 경로 아래에 와일드카드 문자로 파일 이름을 지정하여 소스 파일을 필터링합니다.
파일 목록: 복사할 위치인 지정된 파일 집합을 지정합니다. 파일 목록 경로에서 복사할 파일 목록이 포함된 텍스트 파일을 입력하거나 찾습니다. 이는 각 파일에 대한 상대 경로로, 한 줄에 한 파일씩 입력하거나 찾습니다.
이 옵션을 사용하는 경우 파일 이름을 지정하지 마세요. 더 많은 예를 보려면 파일 목록 예로 이동합니다.
폴더 경로: 폴더 경로를 지정합니다. 필수 항목입니다.
파일 목록 경로: 복사할 파일 목록이 포함된 텍스트 파일의 경로를 지정합니다.
재귀적: 데이터를 하위 폴더에서 재귀적으로 읽을지, 아니면 지정된 폴더에서만 읽을지를 지정합니다. 재귀적을 선택하고 대상이 파일 기반 저장소인 경우 대상에 빈 폴더 또는 하위 폴더가 복사되거나 만들어지지 않습니다. 이 속성은 기본적으로 선택되며 파일 목록 경로를 구성할 때는 적용되지 않습니다.
파일 형식: 드롭다운 목록에서 적용된 파일 형식을 선택합니다. 설정을 선택하여 파일 형식을 구성합니다. 다른 파일 형식의 설정에 대한 자세한 내용은 지원되는 형식의 문서를 참조하세요.
고급에서 다음 필드를 지정할 수 있습니다.
마지막으로 수정한 날짜별로 필터링: 파일은 마지막으로 수정한 날짜를 기준으로 필터링됩니다. 파일 경로 형식을 파일 목록으로 구성할 때는 이 속성이 적용되지 않습니다.
시작 시간(UTC): 마지막으로 수정한 시간이 구성된 시간보다 크거나 같은 경우 파일이 선택됩니다.
종료 시간(UTC): 마지막으로 수정한 시간이 구성된 시간보다 작은 경우 파일이 선택됩니다.
시작 시간(UTC)에 datetime 값이 있지만 종료 시간(UTC)이 NULL이면, 마지막으로 수정된 특성이 datetime 값보다 크거나 같은 파일이 선택됩니다. 종료 시간(UTC)에 datetime 값이 있지만 시작 시간(UTC)이 NULL이면, 마지막으로 수정된 특성이 datetime 값보다 작은 파일이 선택됩니다. 속성은 NULL일 수 있습니다. 즉, 파일 특성 필터가 데이터에 적용되지 않습니다.
파티션 검색을 사용: 파일 경로에서 파티션을 구문 분석하여 추가 소스 열로 추가할지 여부를 지정합니다. 기본적으로 선택되지 않으며 이진 파일 형식을 사용하는 경우 지원되지 않습니다.
파티션 루트 경로: 파티션 검색을 사용하는 경우 분할된 폴더를 데이터 열로 읽도록 절대 루트 경로를 지정합니다.
지정되지 않은 경우 기본적으로 다음과 같이 지정됩니다.
- 소스의 파일 경로 또는 파일 목록을 사용하는 경우 파티션 루트 경로는 사용자가 구성한 경로입니다.
- 와일드카드 폴더 필터를 사용하는 경우 파티션 루트 경로는 첫 번째 와일드카드 앞의 하위 경로입니다.
예를 들어, 경로를 다음과 같이
root/folder/year=2020/month=08/day=27
(으)로 구성합니다.- 파티션 루트 경로를
root/folder/year=2020
(으)로 지정하면 복사 작업은 파일 내부의 열 외에 각각 “08” 및 “27” 값을 가진 월 및 일 열을 두 개 더 생성합니다. - 파티션 루트 경로가 지정되지 않은 경우 추가 열이 생성되지 않습니다.
최대 동시 연결: 이는 작업 실행 중 데이터 저장소에 설정된 동시 연결의 상한을 의미합니다. 동시 연결을 제한하려는 경우에만 값을 지정합니다.
추가 열: 데이터 열을 추가하여 원본 파일의 상대 경로 또는 정적 값을 저장하세요. 식은 정적 값에 대해 지원됩니다.
대상
복사 작업의 대상 탭에서 Azure Files에 대해 지원되는 속성은 다음과 같습니다.
다음 속성은 필수입니다.
- 데이터 저장소 유형: 외부를 선택합니다.
- 연결: 연결 목록에서 Azure Files 연결을 선택합니다. 연결이 없으면 새로 만들기를 선택하여 새 Azure Files 연결을 만듭니다.
- 파일 경로: 찾아보기를 선택하여 복사할 파일을 선택하거나 경로를 수동으로 채웁니다.
- 파일 형식: 드롭다운 목록에서 적용된 파일 형식을 선택합니다. 설정을 선택하여 파일 형식을 구성합니다. 다른 파일 형식의 설정에 대한 자세한 내용은 지원되는 형식의 문서를 참조하세요.
고급에서 다음 필드를 지정할 수 있습니다.
복사 동작: 원본이 파일 기반 데이터 저장소의 파일인 경우의 복사 동작을 정의합니다. 드롭다운 목록에서 동작을 선택할 수 있습니다.
- 계층 구조 평면화: 소스 폴더의 모든 파일이 대상 폴더의 최상위 레벨에 저장됩니다. 대상 파일에는 자동 생성된 이름이 있습니다.
- 파일 병합: 원본 폴더의 모든 파일을 하나의 파일로 병합합니다. 파일 이름이 지정된 경우 병합되는 파일 이름은 지정된 이름입니다. 그렇지 않으면 자동 생성되는 파일 이름이 적용됩니다.
- 계층 구조 유지: 대상 폴더에서 파일의 계층 구조를 그대로 유지합니다. 원본 폴더의 원본 파일 상대 경로는 대상 폴더의 대상 파일 상대 경로와 동일합니다.
최대 동시 연결: 작업 실행 중 데이터 저장소에 설정된 동시 연결의 상한입니다. 동시 연결을 제한하려는 경우에만 값을 지정합니다.
파일당 최대 행 수: 폴더에 데이터를 쓸 때 여러 파일에 쓰도록 선택하고 파일당 최대 행 수를 지정할 수 있습니다. 파일당 쓰고자 하는 최대 행 수를 지정하세요.
매핑
매핑 탭을 구성하려면 매핑 탭에서 매핑 구성으로 이동합니다. 파일 형식으로 바이너리를 선택하면 매핑이 지원되지 않습니다.
설정
설정 탭을 구성하려면 설정 탭에서 기타 설정 구성을 참조하세요.
표 요약
다음 표에는 Azure Files의 복사 작업에 대한 자세한 정보가 포함되어 있습니다.
원본 정보
이름 | 설명 | 값 | 필수 | JSON 스크립트 속성 |
---|---|---|---|---|
데이터 저장소 유형 | 데이터 저장소 유형입니다. | 외부 | 예 | / |
연결 | 원본 데이터 저장소에 대한 연결입니다. | <Azure Files 연결> | 예 | connection |
파일 경로 유형 | 원본 데이터를 가져오는 데 사용되는 파일 경로 형식입니다. | • 파일 경로 • 접두사 • 와일드카드 파일 경로 • 파일 목록 |
예 | / |
파일 경로의 경우 | ||||
디렉터리 | 파일 경로입니다. | <폴더 이름> | 아니요 | folderPath |
파일 이름 | 지정된 폴더 경로 아래의 파일 이름입니다. | <파일 이름> | 아니요 | fileName |
접두사의 경우 | ||||
접두사 | 원본 파일을 필터링하기 위해 지정된 파일 공유 아래의 파일 이름에 대한 접두사입니다. | <접두사> | 아니요 | prefix |
와일드카드 파일 경로의 경우 | ||||
와일드카드 폴더 경로 | 원본 폴더를 필터링할 와일드카드 문자가 포함된 폴더 경로입니다. | <와일드카드 문자가 포함된 폴더 경로> | 아니요 | wildcardFolderPath |
와일드카드 파일 이름 | 원본 파일을 필터링하기 위해 지정된 폴더/와일드카드 폴더 경로 아래의 와일드카드 문자가 포함된 파일 이름입니다. | <와일드카드 문자가 포함된 파일 이름> | 예 | wildcardFileName |
파일 목록의 경우 | ||||
폴더 경로 | 파일 경로입니다. | <폴더 이름> | 아니요 | folderpath |
파일 목록 경로 | 지정된 파일 집합을 복사하도록 지정합니다. 복사할 파일 목록이 포함된 텍스트 파일을 가리키며, 한 줄에 한 파일씩 포함됩니다. | < 파일 목록 경로 > | 아니요 | fileListPath |
재귀적 | 입력 폴더와 해당 하위 폴더의 모든 파일을 재귀적으로 처리하거나 선택한 폴더에 있는 파일만 처리합니다. 단일 파일을 선택하면 이 설정을 사용할 수 없습니다. | 선택 또는 선택 취소 | 아니요 | 재귀 |
파일 형식 | 원본 데이터의 파일 형식입니다. 다른 파일 형식의 정보에 대한 자세한 내용은 지원되는 형식의 문서를 참조하세요. | / | 예 | / |
마지막으로 수정한 시간으로 필터링 | 마지막으로 수정된 시간이 [시작 시간, 종료 시간) 범위 내에 있는 파일은 추가 처리를 위해 필터링됩니다. 시간은 UTC 표준 시간대에 yyyy-mm-ddThh:mm:ss.fffZ 형식으로 적용됩니다. 이러한 속성은 건너뛸 수 있으며, 이는 파일 특성 필터가 적용되지 않음을 의미합니다. 파일 경로 형식을 파일 목록으로 구성할 때는 이 속성이 적용되지 않습니다. |
날짜/시간 | 아니요 | modifiedDatetimeStart modifiedDatetimeEnd |
파티션 검색 사용 | 파일 경로에서 파티션을 구문 분석하여 추가 소스 열로 추가할지 여부를 나타냅니다. | 선택되거나 선택되지 않음(기본값) | 아니요 | enablePartitionDiscovery: true 또는 false(기본값) |
최대 동시 연결 수 | 작업 실행 중 데이터 저장소에 설정된 동시 연결의 상한입니다. 동시 연결을 제한하려는 경우에만 값을 지정합니다. | <최대 동시 연결 수> | 아니요 | maxConcurrentConnections |
추가 열 | 데이터 열을 추가하여 원본 파일의 상대 경로 또는 정적 값을 저장하세요. 식은 정적 값에 대해 지원됩니다. | • 이름 • 값 |
아니요 | additionalColumns: • 이름 • 값 |
대상 정보
이름 | 설명 | 값 | 필수 | JSON 스크립트 속성 |
---|---|---|---|---|
데이터 저장소 유형 | 데이터 저장소 유형입니다. | 외부 | 예 | / |
연결 | 대상 데이터 저장소에 대한 연결입니다. | <연결> | 예 | connection |
파일 경로 | 대상 파일의 폴더/파일 경로입니다. | < 폴더/파일 경로 > | 예 | / |
디렉터리 | 지정된 버킷 아래 폴더의 경로입니다. | <폴더 이름> | 아니요 | folderpath |
파일 이름 | 지정된 버킷 및 폴더 경로 아래에 있는 파일 이름입니다. | <파일 이름> | 아니요 | fileName |
복사 동작 | 원본이 파일 기반 데이터 저장소의 파일인 경우 복사 동작을 정의합니다. | • 계층 구조 평면화 • 파일 병합 • 계층 구조 유지 |
아니요 | copyBehavior: • FlattenHierarchy • MergeFiles • PreserveHierarchy |
최대 동시 연결 수 | 작업 실행 중 데이터 저장소에 설정된 동시 연결의 상한입니다. 동시 연결을 제한하려는 경우에만 값을 지정합니다. | <최대 동시 연결 수> | 아니요 | maxConcurrentConnections |
파일당 최대 행 수 | 폴더에 데이터를 쓸 때 여러 파일에 쓰도록 선택하고 파일당 최대 행 수를 지정할 수 있습니다. 파일당 쓰고자 하는 최대 행 수를 지정하세요. | < 파일당 최대 행 수 > | 아니요 | maxRowsPerFile |