Microsoft Fabric의 Data Factory에 있는 XML 형식
이 문서에서는 Microsoft Fabric의 Data Factory 데이터 파이프라인에서 XML 형식을 구성하는 방법을 간략히 설명합니다.
지원되는 기능
XML 형식은 원본으로서 다음 작업과 커넥터에 대해 지원됩니다.
범주 | 커넥터/작업 |
---|---|
지원되는 커넥터 | Amazon S3 |
Amazon S3 호환 | |
Azure Blob Storage | |
Azure Data Lake Storage Gen1 | |
Azure Data Lake Storage Gen2 | |
Azure 파일 | |
파일 시스템 | |
FTP | |
Google Cloud Storage | |
HTTP | |
레이크하우스 파일 | |
Oracle Cloud Storage | |
SFTP | |
지원되는 작업 | 복사 작업(원본/-) |
조회 작업 | |
GetMetadata 작업 | |
삭제 작업 |
복사 작업의 XML 형식
XML 형식을 구성하려면 데이터 파이프라인 복사 작업의 원본에서 연결을 선택한 다음, 파일 형식의 드롭다운 목록에서 XML을 선택합니다. 이 형식을 추가로 구성하려면 설정을 선택하세요.
XML 원본
파일 형식 섹션에서 설정을 선택하면 다음 속성이 팝업 파일 형식 설정 대화 상자에 표시됩니다.
압축 유형: XML 파일을 읽는 데 사용되는 압축 코덱입니다. 드롭다운 목록에서 없음, bzip2, gzip, deflate, ZipDeflate, TarGZip 또는 tar 유형 중에서 선택할 수 있습니다.
압축 유형으로 ZipDeflate를 선택하면 원본 탭의 고급 설정 아래에 zip 파일 이름을 폴더로 유지가 표시됩니다.
- Zip 파일 이름을 폴더로 유지: 원본 Zip 파일 이름을 복사 중에 폴더 구조로 유지할지 여부를 나타냅니다.
- 이 상자를 선택하면(기본값), 서비스는 압축을 푼 파일을
<specified file path>/<folder named as source zip file>/
에 씁니다. - 이 상자를 선택 취소하면, 서비스는 압축을 푼 파일을
<specified file path>
에 직접 씁니다. 경합 또는 예기치 않은 동작을 방지하기 위해, 다른 원본 zip 파일에 중복된 파일 이름이 없는지 확인합니다.
- 이 상자를 선택하면(기본값), 서비스는 압축을 푼 파일을
압축 유형으로 TarGZip/tar를 선택하면 원본 탭의 고급 설정 아래에 압축 파일 이름을 폴더로 유지가 표시됩니다.
- 압축 파일 이름을 폴더로 유지: 원본 압축 파일 이름을 복사 중에 폴더 구조로 유지할지 여부를 나타냅니다.
- 이 상자를 선택하면(기본값), 서비스는 압축을 푼 파일을
<specified file path>/<folder named as source compressed file>/
에 씁니다. - 이 상자를 선택 취소하면, 서비스는 압축을 푼 파일을
<specified file path>
에 직접 씁니다. 경합 또는 예기치 않은 동작을 방지하기 위해 다른 원본 파일에 중복된 파일 이름이 없는지 확인합니다.
- 이 상자를 선택하면(기본값), 서비스는 압축을 푼 파일을
- Zip 파일 이름을 폴더로 유지: 원본 Zip 파일 이름을 복사 중에 폴더 구조로 유지할지 여부를 나타냅니다.
압축 수준: 압축 유형을 선택할 때 압축 비율을 지정합니다. 가장 빠름 또는 최적 중에서 선택할 수 있습니다.
- 가장 빠름: 결과 파일이 최적으로 압축되지 않은 경우에도 압축 작업을 최대한 빨리 완료해야 합니다.
- 최적: 작업이 완료되는데 시간이 오래 걸리더라도 압축 작업이 최적으로 압축되어야 합니다. 자세한 내용은 압축 수준 항목을 참조하세요.
인코딩: 테스트 파일을 쓰는 데 사용되는 인코딩 유형을 지정합니다. 드롭다운 목록에서 한 가지 유형을 선택하세요. 기본값은 UTF-8입니다.
null 값: null 값의 스트링 표현을 지정합니다. 기본값은 빈 문자열입니다.
원본 탭의 고급 설정에서 다음과 같은 XML 형식 관련 속성이 표시됩니다.
유효성 검사 모드: XML 스키마의 유효성을 검사할지 여부를 지정합니다. 드롭다운 목록에서 모드를 하나 선택합니다.
- 없음: 유효성 검사 모드를 사용하지 않으려는 경우 이 모드를 선택합니다.
- xsd: XSD를 사용하여 XML 스키마의 유효성을 검사하려는 경우 이 모드를 선택합니다.
- dtd: DTD를 사용하여 XML 스키마의 유효성을 검사하려는 경우 이 모드를 선택합니다.
네임스페이스: XML 파일을 구문 분석할 때 네임스페이스를 사용할지 여부를 지정합니다. 이는 기본적으로 선택되어 있습니다.
네임스페이스 접두사 쌍: 네임스페이스가 사용되는 경우 + 새로 만들기를 선택하고 URL과 접두사를 지정합니다. + 새로 만들기를 선택하여 더 많은 쌍을 추가할 수 있습니다.
네임스페이스 URI 대 접두사 매핑은 XML 파일을 구문 분석할 때 필드 이름을 지정하는 데 사용됩니다. XML 파일에 네임스페이스 및 네임스페이스가 사용되는 경우 기본적으로 필드 이름은 XML 문서에 있는 것과 동일합니다. 이 맵에서 네임스페이스 URI에 대해 정의된 항목이 있는 경우 필드 이름은prefix:fieldName
입니다.데이터 형식 감지: 정수, 이중, 부울 데이터 형식을 감지할지 여부를 지정합니다. 이는 기본적으로 선택되어 있습니다.
테이블 요약
XML 원본
XML 형식을 사용할 때 복사 작업 원본 섹션에서 다음 속성이 지원됩니다.
이름 | 설명 | 값 | 필수 | JSON 스크립트 속성 |
---|---|---|---|---|
파일 형식 | 사용하려는 파일 형식입니다. | XML | 예 | 유형(datasetSettings 에서):Xml |
압축 유형 | XML 파일을 읽는 데 사용되는 압축 코덱입니다. | 없음 bzip2 gzip deflate ZipDeflate TarGZip tar |
아니요 | 유형(compression 에서): bzip2 gzip deflate ZipDeflate TarGZip tar |
압축 수준 | 압축 비율입니다. | 가장 빠름 최적 |
아님 | 수준(compression 아래): 가장 빠름 최적 |
인코딩 | 테스트 파일을 읽는 데 사용되는 인코딩 형식입니다. | "UTF-8"(기본값으로),"BOM 없이 UTF-8", "UTF-16LE", "UTF-16BE", "UTF-32LE", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | 아님 | encodingName |
Zip 파일 이름을 폴더로 유지 | 원본 Zip 파일 이름을 복사 중에 폴더 구조로 유지할지 여부를 나타냅니다. | 선택됨(기본값) 또는 선택 해제됨 | 아니요 | preserveZipFileNameAsFolder ( compressionProperties ->type 아래 ZipDeflateReadSettings 으로):true(기본값) 또는 false |
압축 파일 이름을 폴더로 유지 | 원본 압축 파일 이름을 복사 중에 폴더 구조로 유지할지 여부를 나타냅니다. | 선택됨(기본값) 또는 선택 해제됨 | 아니요 | preserveCompressionFileNameAsFolder ( compressionProperties ->type 아래 TarGZipReadSettings 또는 TarReadSettings 으로):true(기본값) 또는 false |
null 값 | null 값의 스트링 표현입니다. | <null 값> 빈 스트링(기본값으로) |
아님 | nullValue |
유효성 검사 모드 | XML 스키마의 유효성을 검사할지 여부. | 없음 xsd dtd |
아니요 | validationMode: xsd dtd |
네임스페이스 | XML 파일을 구문 분석할 때 네임스페이스를 사용할지 여부를 지정합니다. | 선택됨(기본값) 또는 선택 해제됨 | 아니요 | 네임스페이스: true(기본값) 또는 false |
네임스페이스 접두사 쌍 | XML 파일을 구문 분석할 때 필드의 이름을 결정하는 데 사용되는 네임스페이스 URI-접두사 매핑 XML 파일에 네임스페이스 및 네임스페이스가 사용되는 경우 기본적으로 필드 이름은 XML 문서에 있는 것과 동일합니다. 이 맵에서 네임스페이스 URI에 대해 정의된 항목이 있는 경우 필드 이름은 prefix:fieldName 입니다. |
< url >:< 접두사 > | 아니요 | namespacePrefixes: < url >:< 접두사 > |
데이터 형식 검색 | 정수, 더블 및 부울 데이터 형식의 검색 여부. | 선택됨(기본값) 또는 선택 해제됨 | 아니요 | detectDataType true(기본값) 또는 false |