Azure Data Factory 또는 Azure Synapse Analytics를 사용하여 Microsoft Fabric Lakehouse에서 데이터 복사 및 변환
적용 대상: Azure Data Factory Azure Synapse Analytics
팁
기업용 올인원 분석 솔루션인 Microsoft Fabric의 Data Factory를 사용해 보세요. Microsoft Fabric은 데이터 이동부터 데이터 과학, 실시간 분석, 비즈니스 인텔리전스 및 보고에 이르기까지 모든 것을 다룹니다. 무료로 새 평가판을 시작하는 방법을 알아봅니다!
Microsoft Fabric 레이크하우스는 정형 및 비정형 데이터를 단일 위치에서 저장, 관리 및 분석하는 데이터 아키텍처 플랫폼입니다. Microsoft Fabric의 모든 컴퓨팅 엔진에서 원활한 데이터 액세스를 달성하려면 Lakehouse 및 Delta 테이블로 이동하여 자세히 알아봅니다. 기본적으로 데이터는 V-Order로 Lakehouse 테이블에 기록되며 자세한 내용은 Delta Lake 테이블 최적화 및 V-Order를 참조하세요.
이 문서에서는 복사 작업을 사용하여 Microsoft Fabric Lakehouse에서 데이터를 복사하고 Data Flow를 사용하여 Microsoft Fabric Lakehouse에서 데이터를 변환하는 방법을 간략하게 설명합니다. 자세한 내용은 Azure Data Factory 또는 Azure Synapse Analytics의 소개 문서를 참조하세요.
지원되는 기능
이 Microsoft Fabric Lakehouse 커넥터는 다음 기능을 지원합니다.
지원되는 기능 | IR |
---|---|
복사 작업(원본/싱크) | (1) (2) |
매핑 데이터 흐름(원본/싱크) | (1) |
조회 작업 | (1) (2) |
GetMetadata 작업 | (1) (2) |
삭제 작업 | (1) (2) |
① Azure 통합 런타임 ② 자체 호스팅 통합 런타임
시작하기
파이프라인에 복사 작업을 수행하려면 다음 도구 또는 SDK 중 하나를 사용하면 됩니다.
UI를 사용하여 Microsoft Fabric Lakehouse 연결된 서비스 만들기
Azure Portal UI에서 Microsoft Fabric Lakehouse 연결된 서비스를 만들려면 다음 단계를 따릅니다.
Azure Data Factory 또는 Synapse 작업 영역에서 관리 탭으로 이동하고, 연결된 서비스를 선택한 다음, 새로 만들기를 선택합니다.
Microsoft Fabric Lakehouse를 검색하고 커넥터를 선택합니다.
서비스 세부 정보를 구성하고, 연결을 테스트하고, 새로운 연결된 서비스를 만듭니다.
커넥터 구성 세부 정보
다음 섹션에서는 Microsoft Fabric Lakehouse와 관련된 Data Factory 엔터티를 정의하는 데 사용되는 속성에 대한 세부 정보를 제공합니다.
연결된 서비스 속성
Microsoft Fabric Lakehouse 커넥터는 다음 인증 유형을 지원합니다. 자세한 내용은 해당 섹션을 참조하세요.
서비스 주체 인증
서비스 주체 인증을 사용하려면 다음 단계를 수행합니다.
Microsoft ID 플랫폼에 애플리케이션을 등록하고 클라이언트 암호를 추가합니다. 그런 다음 연결된 서비스를 정의하는 데 사용하는 다음 값을 기록해 두세요.
- 연결된 서비스의 서비스 주체 ID인 애플리케이션(클라이언트) ID입니다.
- 연결된 서비스의 서비스 주체 키인 클라이언트 암호 값입니다.
- 테넌트 ID
서비스 주체에게 Microsoft Fabric 작업 영역에서 최소한 기여자 역할을 부여합니다. 다음 단계를 수행합니다.
Microsoft Fabric 작업 영역으로 이동하여 상단 표시줄에서 액세스 관리를 선택합니다. 그런 다음, 사용자 또는 그룹 추가를 선택합니다.
사용자 추가 창에서 서비스 주체 이름을 입력하고 드롭다운 목록에서 서비스 주체를 선택합니다.
참고 항목
Power BI 테넌트 설정이 Fabric API에 대한 서비스 주체 액세스를 사용하도록 설정하지 않는 한 서비스 주체는 사용자 추가 목록에 표시되지 않습니다.
역할을 기여자 이상(관리자, 멤버)으로 지정한 다음, 추가를 선택합니다.
서비스 주체가 액세스 관리 창에 표시됩니다.
연결된 서비스에 지원되는 속성은 다음과 같습니다.
속성 | 설명 | 필수 |
---|---|---|
type | type 속성은 Lakehouse로 설정되어야 합니다. | 예 |
workspaceId | Microsoft Fabric 작업 영역 ID입니다. | 예 |
artifactId | Microsoft Fabric Lakehouse 개체 ID입니다. | 예 |
테넌트 | 애플리케이션이 있는 테넌트 정보(도메인 이름 또는 테넌트 ID)를 지정합니다. Azure 포털의 오른쪽 위 모서리를 마우스로 가리켜 검색합니다. | 예 |
servicePrincipalId | 애플리케이션의 클라이언트 ID를 지정합니다. | 예 |
servicePrincipalCredentialType | 서비스 주체 인증에 사용할 자격 증명 유형입니다. 허용되는 값은 ServicePrincipalKey 및 ServicePrincipalCert입니다. | 예 |
servicePrincipalCredential | 서비스 주체 자격 증명입니다. 자격 증명 형식으로 ServicePrincipalKey를 사용하는 경우 애플리케이션의 클라이언트 암호 값을 지정합니다. 이 필드를 SecureString으로 표시하여 안전하게 저장하거나 Azure Key Vault에 저장된 비밀을 참조합니다. ServicePrincipalCert를 자격 증명으로 사용하는 경우 Azure Key Vault에서 인증서를 참조하고 인증서 콘텐츠 형식이 PKCS #12인지 확인합니다. |
예 |
connectVia | 데이터 저장소에 연결하는 데 사용할 통합 런타임입니다. Azure 통합 런타임 또는 데이터 저장소가 프라이빗 네트워크에 있는 경우 자체 호스팅 통합 런타임을 사용할 수 있습니다. 지정하지 않으면 기본 Azure 통합 런타임이 사용됩니다. | 아니요 |
예: 서비스 주체 키 인증 사용
Azure Key Vault에 서비스 주체 키를 저장할 수도 있습니다.
{
"name": "MicrosoftFabricLakehouseLinkedService",
"properties": {
"type": "Lakehouse",
"typeProperties": {
"workspaceId": "<Microsoft Fabric workspace ID>",
"artifactId": "<Microsoft Fabric Lakehouse object ID>",
"tenant": "<tenant info, e.g. microsoft.onmicrosoft.com>",
"servicePrincipalId": "<service principal id>",
"servicePrincipalCredentialType": "ServicePrincipalKey",
"servicePrincipalCredential": {
"type": "SecureString",
"value": "<service principal key>"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
데이터 세트 속성
Microsoft Fabric Lakehouse 커넥터는 Microsoft Fabric Lakehouse 파일 데이터 세트와 Microsoft Fabric Lakehouse 테이블 데이터 세트라는 두 가지 형식의 데이터 세트를 지원합니다. 자세한 내용은 해당 섹션을 참조하세요.
데이터 세트 정의에 사용할 수 있는 섹션 및 속성의 전체 목록은 데이터 세트를 참조하세요.
Microsoft Fabric Lakehouse 파일 데이터 세트
Microsoft Fabric Lakehouse 커넥터는 다음 파일 형식을 지원합니다. 형식 기반 설정에 대한 각 문서를 참조하세요.
형식 기반 Microsoft Fabric Lakehouse Files 데이터 세트의 location
설정에서 다음 속성이 지원됩니다.
속성 | 설명 | 필수 |
---|---|---|
type | 데이터 세트의 location 아래 형식 속성은 LakehouseLocation으로 설정되어야 합니다. |
예 |
folderPath | 폴더 경로입니다. 와일드카드를 사용하여 폴더를 필터링하려면 이 설정을 건너뛰고 작업 원본 설정에서 지정합니다. | 아니요 |
fileName | 지정된 folderPath 아래의 파일 이름입니다. 와일드카드를 사용하여 파일을 필터링하려면 이 설정을 건너뛰고 작업 원본 설정에서 지정합니다. | 아니요 |
예제:
{
"name": "DelimitedTextDataset",
"properties": {
"type": "DelimitedText",
"linkedServiceName": {
"referenceName": "<Microsoft Fabric Lakehouse linked service name>",
"type": "LinkedServiceReference"
},
"typeProperties": {
"location": {
"type": "LakehouseLocation",
"fileName": "<file name>",
"folderPath": "<folder name>"
},
"columnDelimiter": ",",
"compressionCodec": "gzip",
"escapeChar": "\\",
"firstRowAsHeader": true,
"quoteChar": "\""
},
"schema": [ < physical schema, optional, auto retrieved during authoring > ]
}
}
Microsoft Fabric Lakehouse 테이블 데이터 세트
Microsoft Fabric Lakehouse 테이블 데이터 세트에는 다음 속성이 지원됩니다.
속성 | 설명 | 필수 |
---|---|---|
type | 데이터 세트의 type 속성은 LakehouseTable로 설정되어야 합니다. | 예 |
schema(스키마) | 스키마의 이름입니다. 지정하지 않으면 기본값 dbo 입니다. |
아니요 |
table | 테이블의 이름입니다. 테이블 이름은 '/' 또는 '\'가 없고 후행 점이 없고 선행 또는 후행 공백이 없는 하나 이상의 문자여야 합니다. | 예 |
예제:
{
"name": "LakehouseTableDataset",
"properties": {
"type": "LakehouseTable",
"linkedServiceName": {
"referenceName": "<Microsoft Fabric Lakehouse linked service name>",
"type": "LinkedServiceReference"
},
"typeProperties": {
"schema": "<schema_name>",
"table": "<table_name>"
},
"schema": [< physical schema, optional, retrievable during authoring >]
}
}
복사 작업 속성
Microsoft Fabric Lakehouse Files 데이터 세트와 Microsoft Fabric Lakehouse Table 데이터 세트의 복사 작업 속성은 다릅니다. 자세한 내용은 해당 섹션을 참조하세요.
작업 정의에 사용할 수 있는 섹션 및 속성의 전체 목록은 복사 작업 구성과 파이프라인 및 작업 문서를 참조하세요.
복사 작업의 Microsoft Fabric Lakehouse 파일
복사 작업에서 Microsoft Fabric Lakehouse 파일 데이터 세트 형식을 원본 또는 싱크로 사용하려면 다음 섹션으로 이동하여 자세한 구성을 확인합니다.
Microsoft Fabric Lakehouse 파일을 원본 형식으로 사용
Microsoft Fabric Lakehouse 커넥터는 다음 파일 형식을 지원합니다. 형식 기반 설정에 대한 각 문서를 참조하세요.
Microsoft Fabric Lakehouse 파일 데이터 세트를 사용하여 Microsoft Fabric Lakehouse에서 데이터를 복사하는 몇 가지 옵션이 있습니다.
- 데이터 세트에 지정된 경로에서 복사
- 폴더 경로 또는 파일 이름에 대한 와일드카드 필터(
wildcardFolderPath
및wildcardFileName
참조) - 지정된 텍스트 파일에 정의된 파일을 파일 집합으로 복사(
fileListPath
참조)
Microsoft Fabric Lakehouse 파일 데이터 세트를 사용할 때 형식 기반 복사 원본의 storeSettings
설정 아래에 다음 속성이 있습니다.
속성 | 설명 | 필수 |
---|---|---|
type | storeSettings 아래의 형식 속성은 LakehouseReadSettings로 설정되어야 합니다. |
예 |
복사할 파일 찾기: | ||
옵션 1: 정적 경로 |
데이터 세트에 지정된 폴더/파일 경로에서 복사합니다. 폴더의 모든 파일을 복사하려면 wildcardFileName 을 * 로 지정합니다. |
|
옵션 2: 와일드카드 - wildcardFolderPath |
원본 폴더를 필터링할 와일드카드 문자가 포함된 폴더 경로입니다. 허용되는 와일드카드는 * (0개 이상의 문자 일치) 및 ? (0-1개의 문자 일치)입니다. 실제 폴더 이름에 와일드카드 또는 이 이스케이프 문자가 있는 경우 ^ 을 사용하여 이스케이프합니다. 더 많은 예는 폴더 및 파일 필터 예제를 참조하세요. |
아니요 |
옵션 2: 와일드카드 - wildcardFileName |
원본 파일을 필터링하기 위해 지정된 folderPath/wildcardFolderPath 아래의 와일드카드 문자가 포함된 파일 이름입니다. 허용되는 와일드카드는 * (0개 이상의 문자 일치) 및 ? (0-1개의 문자 일치)입니다. 실제 파일 이름에 와일드카드 또는 이 이스케이프 문자가 있는 경우 ^ 을 사용하여 이스케이프합니다. 더 많은 예는 폴더 및 파일 필터 예제를 참조하세요. |
예 |
옵션 3: 파일 목록 - fileListPath |
지정된 파일 집합을 복사하도록 지정합니다. 복사할 파일 목록이 포함된 텍스트 파일을 가리키며, 데이터 세트에 구성된 경로에 대한 상대 경로를 사용하여 한 줄에 하나의 파일을 가리킵니다. 이 옵션을 사용할 때 데이터 세트에 파일 이름을 지정하지 마세요. 파일 목록 예에서 더 많은 예를 참조하세요. |
아니요 |
추가 설정: | ||
재귀 | 하위 폴더 또는 지정된 폴더에서만 데이터를 재귀적으로 읽을지 여부를 나타냅니다. recursive를 true로 설정하고 싱크가 파일 기반 저장소인 경우 빈 폴더 또는 하위 폴더가 싱크에 복사되거나 만들어지지 않습니다. 허용되는 값은 true(기본값) 및 false입니다. fileListPath 를 구성하는 경우에는 이 속성이 적용되지 않습니다. |
아니요 |
deleteFilesAfterCompletion | 대상 저장소로 이동한 후에 원본 저장소에서 이진 파일을 삭제할지를 나타냅니다. 파일 삭제는 파일 단위로 이루어지므로 복사 작업에 실패하면 일부 파일은 대상에 복사되고 원본에서 삭제된 반면, 다른 파일은 원본 저장소에 계속 남아 있는 것을 확인할 수 있습니다. 이 속성은 이진 파일 복사 시나리오에서만 유효합니다. 기본값은 false입니다. |
아니요 |
modifiedDatetimeStart | 마지막으로 수정한 특성에 따라 파일을 필터링합니다. 마지막 수정 시간이 modifiedDatetimeStart 이상 modifiedDatetimeEnd 미만인 경우 파일이 선택됩니다. 시간은 UTC 표준 시간대에 "2018-12-01T05:00:00Z" 형식으로 적용됩니다. 속성은 NULL일 수 있습니다. 이 경우 파일 특성 필터가 데이터 세트에 적용되지 않습니다. modifiedDatetimeStart 에 datetime 값이 있지만 modifiedDatetimeEnd 가 NULL이면, 마지막으로 수정된 특성이 datetime 값보다 크거나 같은 파일이 선택됩니다. modifiedDatetimeEnd 에 datetime 값이 있지만 modifiedDatetimeStart 가 NULL이면, 마지막으로 수정된 특성이 datetime 값보다 작은 파일이 선택됩니다.fileListPath 를 구성하는 경우에는 이 속성이 적용되지 않습니다. |
아니요 |
modifiedDatetimeEnd | 위와 동일합니다. | 아니요 |
enablePartitionDiscovery | 분할된 파일의 경우 파일 경로에서 파티션을 구문 분석하고 다른 원본 열로 추가할지 여부를 지정합니다. 허용되는 값은 false(기본값) 및 true입니다. |
아니요 |
partitionRootPath | 파티션 검색을 사용하는 경우 분할된 폴더를 데이터 열로 읽도록 절대 루트 경로를 지정합니다. 지정하지 않는 경우 기본값으로 - 데이터 세트의 파일 경로 또는 원본의 파일 목록을 사용하는 경우 파티션 루트 경로는 데이터 세트에 구성된 경로입니다. - 와일드카드 폴더 필터를 사용하는 경우 파티션 루트 경로는 첫 번째 와일드카드 앞의 하위 경로입니다. 예를 들어 데이터 세트의 경로를 “root/folder/year=2020/month=08/day=27”로 구성한다고 가정합니다. - 파티션 루트 경로를 “root/folder/year=2020”으로 지정하는 경우 복사 작업은 파일 내의 열 외에도 각각 값이 “08” 및 “27”인 두 개의 열( month 및 day )을 생성합니다.- 파티션 루트 경로를 지정하지 않으면 추가 열이 생성되지 않습니다. |
아니요 |
maxConcurrentConnections | 작업 실행 중 데이터 저장소에 설정된 동시 연결의 상한입니다. 동시 연결을 제한하려는 경우에만 값을 지정합니다. | 아니요 |
예제:
"activities": [
{
"name": "CopyFromLakehouseFiles",
"type": "Copy",
"inputs": [
{
"referenceName": "<Delimited text input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "DelimitedTextSource",
"storeSettings": {
"type": "LakehouseReadSettings",
"recursive": true,
"enablePartitionDiscovery": false
},
"formatSettings": {
"type": "DelimitedTextReadSettings"
}
},
"sink": {
"type": "<sink type>"
}
}
}
]
Microsoft Fabric Lakehouse 파일을 싱크 형식으로 사용
Microsoft Fabric Lakehouse 커넥터는 다음 파일 형식을 지원합니다. 형식 기반 설정에 대한 각 문서를 참조하세요.
Microsoft Fabric Lakehouse 파일 데이터 세트를 사용할 때 형식 기반 복사 싱크의 storeSettings
설정 아래에 다음 속성이 있습니다.
속성 | 설명 | 필수 |
---|---|---|
type | storeSettings 아래의 형식 속성은 LakehouseWriteSettings로 설정되어야 합니다. |
예 |
copyBehavior | 원본이 파일 기반 데이터 저장소의 파일인 경우 복사 동작을 정의합니다. 허용된 값은 다음과 같습니다. - PreserveHierarchy(기본값): 대상 폴더에서 파일 계층 구조를 유지합니다. 원본 폴더의 원본 파일 상대 경로는 대상 폴더의 대상 파일 상대 경로와 동일합니다. - FlattenHierarchy: 원본 폴더의 모든 파일이 대상 폴더의 첫 번째 수준에 있게 됩니다. 대상 파일은 자동 생성된 이름을 갖습니다. - MergeFiles: 원본 폴더의 모든 파일을 하나의 파일로 병합합니다. 파일 이름이 지정된 경우 병합되는 파일 이름은 지정된 이름입니다. 그렇지 않으면 자동 생성되는 파일 이름이 적용됩니다. |
아니요 |
blockSizeInMB | Microsoft Fabric Lakehouse에 데이터를 쓰는 데 사용되는 블록 크기(MB)를 지정합니다. 블록 Blob에 대한 자세한 내용을 알아보세요. 허용되는 값은 4~100MB입니다. 기본적으로 ADF는 원본 저장소 유형과 데이터에 따라 블록 크기를 자동으로 결정합니다. Microsoft Fabric Lakehouse에 대한 비이진 파일 복사의 경우 최대 약 4.75TB 데이터에 적합하도록 기본 블록 크기는 100MB입니다. 데이터가 크지 않은 경우, 특히 네트워크 상태가 불량하여 작업 시간 초과 또는 성능 문제가 발생하는 자체 호스팅 IR을 사용하는 경우에는 최적이 아닐 수 있습니다. blockSizeInMB*50000이 데이터를 저장할 만큼 충분히 큰지 확인하면서 블록 크기를 명시적으로 지정할 수 있습니다. 그렇지 않으면 복사 활동 실행이 실패합니다. |
아니요 |
maxConcurrentConnections | 작업 실행 중 데이터 저장소에 설정된 동시 연결의 상한입니다. 동시 연결을 제한하려는 경우에만 값을 지정합니다. | 아니요 |
metadata | 싱크로 복사할 때 사용자 지정 메타데이터를 설정합니다. metadata 배열의 각 개체는 추가 열을 나타냅니다. name 은 메타데이터 키 이름을 정의하고 value 는 해당 키의 데이터 값을 나타냅니다. 특성 유지 기능을 사용하는 경우 지정된 메타데이터는 원본 파일 메타데이터와 통합/덮어씁니다.허용되는 데이터 값은 다음과 같습니다. - $$LASTMODIFIED : 예약된 변수는 원본 파일의 마지막으로 수정된 시간을 저장함을 나타냅니다. 이진 형식만 사용하는 파일 기반 원본에 적용합니다.- 식 - 고정 값 |
아니요 |
예제:
"activities": [
{
"name": "CopyToLakehouseFiles",
"type": "Copy",
"inputs": [
{
"referenceName": "<input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<Parquet output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "<source type>"
},
"sink": {
"type": "ParquetSink",
"storeSettings": {
"type": "LakehouseWriteSettings",
"copyBehavior": "PreserveHierarchy",
"metadata": [
{
"name": "testKey1",
"value": "value1"
},
{
"name": "testKey2",
"value": "value2"
}
]
},
"formatSettings": {
"type": "ParquetWriteSettings"
}
}
}
}
]
폴더 및 파일 필터 예제
이 섹션에서는 와일드카드 필터가 있는 폴더 경로 및 파일 이름의 결과 동작에 대해 설명합니다.
folderPath | fileName | 재귀 | 원본 폴더 구조 및 필터 결과(굵게 표시된 파일이 검색됨) |
---|---|---|---|
Folder* |
(비어 있음, 기본값 사용) | false | FolderA File1.csv File2.json Subfolder1 File3.csv File4.json File5.csv AnotherFolderB File6.csv |
Folder* |
(비어 있음, 기본값 사용) | true | FolderA File1.csv File2.json Subfolder1 File3.csv File4.json File5.csv AnotherFolderB File6.csv |
Folder* |
*.csv |
false | FolderA File1.csv File2.json Subfolder1 File3.csv File4.json File5.csv AnotherFolderB File6.csv |
Folder* |
*.csv |
true | FolderA File1.csv File2.json Subfolder1 File3.csv File4.json File5.csv AnotherFolderB File6.csv |
파일 목록 예
이 섹션에서는 복사 작업 원본에서 파일 목록 경로를 사용하는 경우의 결과 동작을 설명합니다.
원본 폴더 구조가 다음과 같고 굵게 표시된 파일을 복사하려는 것으로 가정합니다.
샘플 원본 구조 | FileListToCopy.txt의 콘텐츠 | ADF 구성 |
---|---|---|
filesystem FolderA File1.csv File2.json Subfolder1 File3.csv File4.json File5.csv 메타데이터 FileListToCopy.txt |
File1.csv Subfolder1/File3.csv Subfolder1/File5.csv |
데이터 세트: - 폴더 경로: FolderA 복사 작업 원본: - 파일 목록 경로: Metadata/FileListToCopy.txt 파일 목록 경로는 복사하려는 파일 목록이 포함된 동일한 데이터 저장소에 있는 텍스트 파일을 가리키며, 데이터 세트에 구성된 경로의 상대 경로를 사용하여 한 줄에 하나씩 파일을 가리킵니다. |
일부 recursive 및 copyBehavior 예제
이 섹션에서는 다양한 recursive 및 copyBehavior 값 조합에 대한 복사 작업의 결과 동작을 설명합니다.
재귀 | copyBehavior | 원본 폴더 구조 | 결과 대상 |
---|---|---|---|
true | preserveHierarchy | Folder1 File1 File2 Subfolder1 File3 File4 File5 |
Folder1 대상이 다음과 같이 원본 폴더와 동일한 구조로 만들어집니다. Folder1 File1 File2 Subfolder1 File3 File4 File5 |
true | flattenHierarchy | Folder1 File1 File2 Subfolder1 File3 File4 File5 |
Folder1 대상 폴더가 다음과 같은 구조로 만들어집니다. Folder1 File1에 대해 자동 생성된 이름 File2에 대해 자동 생성된 이름 File3에 대해 자동 생성된 이름 File4에 대해 자동 생성된 이름 File5에 대해 자동 생성된 이름 |
true | mergeFiles | Folder1 File1 File2 Subfolder1 File3 File4 File5 |
Folder1 대상 폴더가 다음과 같은 구조로 만들어집니다. Folder1 File1, File2, File3, File4 및 File5의 내용이 자동 생성된 파일 이름이 있는 하나의 파일로 병합됩니다. |
false | preserveHierarchy | Folder1 File1 File2 Subfolder1 File3 File4 File5 |
Folder1 대상 폴더가 다음과 같은 구조로 만들어집니다. Folder1 File1 File2 File3, File4, File5가 포함된 Subfolder1은 선택되지 않습니다. |
false | flattenHierarchy | Folder1 File1 File2 Subfolder1 File3 File4 File5 |
Folder1 대상 폴더가 다음과 같은 구조로 만들어집니다. Folder1 File1에 대해 자동 생성된 이름 File2에 대해 자동 생성된 이름 File3, File4, File5가 포함된 Subfolder1은 선택되지 않습니다. |
false | mergeFiles | Folder1 File1 File2 Subfolder1 File3 File4 File5 |
Folder1 대상 폴더가 다음과 같은 구조로 만들어집니다. Folder1 File1과 File2의 내용이 자동 생성된 파일 이름이 있는 하나의 파일로 병합됩니다. File1에 대해 자동 생성된 이름 File3, File4, File5가 포함된 Subfolder1은 선택되지 않습니다. |
복사 작업의 Microsoft Fabric Lakehouse 테이블
복사 작업에서 Microsoft Fabric Lakehouse 테이블 데이터 세트를 원본 또는 싱크 데이터 세트로 사용하려면 다음 섹션으로 이동하여 자세한 구성을 확인합니다.
원본 형식으로서의 Microsoft Fabric Lakehouse 테이블
Microsoft Fabric Lakehouse 테이블 데이터 세트를 사용하여 Microsoft Fabric Lakehouse에서 데이터를 복사하려면 복사 작업 원본의 type 속성을 LakehouseTableSource로 설정합니다. 복사 작업 source 섹션에서 지원되는 속성은 다음과 같습니다.
속성 | 설명 | 필수 |
---|---|---|
type | 복사 작업 원본의 type 속성은 LakehouseTableSource로 설정되어야 합니다. | 예 |
timestampAsOf | 이전 스냅샷을 쿼리하기 위한 타임스탬프입니다. | 아니요 |
versionAsOf | 이전 스냅샷을 쿼리할 버전입니다. | 아니요 |
예제:
"activities":[
{
"name": "CopyFromLakehouseTable",
"type": "Copy",
"inputs": [
{
"referenceName": "<Microsoft Fabric Lakehouse Table input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "LakehouseTableSource",
"timestampAsOf": "2023-09-23T00:00:00.000Z",
"versionAsOf": 2
},
"sink": {
"type": "<sink type>"
}
}
}
]
싱크형 Microsoft Fabric Lakehouse 테이블
Microsoft Fabric Lakehouse 테이블 데이터 세트를 사용하여 Microsoft Fabric Lakehouse에 데이터를 복사하려면 복사 작업 싱크의 type 속성을 LakehouseTableSink로 설정합니다. 복사 작업 sink 섹션에서 지원되는 속성은 다음과 같습니다.
속성 | 설명 | 필수 |
---|---|---|
type | 복사 작업 원본의 type 속성은 LakehouseTableSink로 설정되어야 합니다. | 예 |
참고 항목
데이터는 기본적으로 V-Order로 Lakehouse 테이블에 기록됩니다. 자세한 내용은 Delta Lake 테이블 최적화 및 V-Order를 참조하세요.
예제:
"activities":[
{
"name": "CopyToLakehouseTable",
"type": "Copy",
"inputs": [
{
"referenceName": "<input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<Microsoft Fabric Lakehouse Table output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "<source type>"
},
"sink": {
"type": "LakehouseTableSink",
"tableActionOption ": "Append"
}
}
}
]
매핑 데이터 흐름 속성
매핑 데이터 흐름에서 데이터를 변환할 때 Microsoft Fabric Lakehouse에서 파일이나 테이블을 읽고 쓸 수 있습니다. 자세한 내용은 해당 섹션을 참조하세요.
자세한 내용은 매핑 데이터 흐름에서 원본 변환 및 싱크 변환을 참조하세요.
매핑 데이터 흐름의 Microsoft Fabric Lakehouse 파일
매핑 데이터 흐름에서 Microsoft Fabric Lakehouse Files 데이터 세트를 원본 또는 싱크 데이터 세트로 사용하려면 다음 섹션으로 이동하여 자세한 구성을 확인합니다.
Microsoft Fabric Lakehouse 파일을 원본 또는 싱크 형식으로 사용
Microsoft Fabric Lakehouse 커넥터는 다음 파일 형식을 지원합니다. 형식 기반 설정에 대한 각 문서를 참조하세요.
인라인 데이터 세트 형식에서 Fabric Lakehouse 파일 기반 커넥터를 사용하려면 데이터에 적합한 인라인 데이터 세트 형식을 선택해야 합니다. 데이터 서식에 따라 DelimitedText, Avro, JSON, ORC 또는 Parquet를 사용할 수 있습니다.
매핑 데이터 흐름의 Microsoft Fabric Lakehouse 테이블
매핑 데이터 흐름에서 Microsoft Fabric Lakehouse 테이블 데이터 세트를 원본 또는 싱크 데이터 세트로 사용하려면 다음 섹션으로 이동하여 자세한 구성을 확인합니다.
원본 형식으로서의 Microsoft Fabric Lakehouse 테이블
원본 옵션에는 구성 가능한 속성이 없습니다.
참고 항목
Lakehouse 테이블 원본에 대한 CDC 지원은 현재 제공되지 않습니다.
싱크형 Microsoft Fabric Lakehouse 테이블
매핑 데이터 흐름 싱크 섹션에서는 다음 속성이 지원됩니다.
이름 | 설명 | 필수 | 허용된 값 | 데이터 흐름 스크립트 속성 |
---|---|---|---|---|
Update 메서드 | "삽입 허용"만 선택하거나 새 Delta 테이블에 쓰는 경우 대상은 행 정책 집합에 관계없이 들어오는 모든 행을 수신합니다. 데이터에 다른 행 정책의 행이 포함되어 있는 경우 이전 필터 변환을 사용하여 제외해야 합니다. 모든 업데이트 방법을 선택하면 이전 Alter Row 변환을 사용하여 설정된 행 정책에 따라 행이 삽입/삭제/upsert/업데이트되는 병합이 수행됩니다. |
예 | true 또는 false |
insertable deletable upsertable updateable |
최적화된 쓰기 | Spark 실행기에서 내부 순서 섞기를 최적화하여 쓰기 작업 처리량을 높입니다. 결과적으로 더 큰 크기의 파티션과 파일 수가 줄어들 수 있습니다. | 아니요 | true 또는 false |
optimizedWrite: true |
자동 압축 | 쓰기 작업이 완료되면 Spark에서 OPTIMIZE 명령을 자동으로 실행하여 데이터를 다시 구성하고, 향후 읽기 성능을 향상시키기 위해 필요한 경우 더 많은 파티션을 생성합니다. |
아니요 | true 또는 false |
autoCompact: true |
스키마 병합 | 병합 스키마 옵션을 사용하면 스키마가 진화할 수 있습니다. 즉, 현재 들어오는 스트림에는 있지만 대상 Delta 테이블에는 없는 모든 열이 해당 스키마에 자동으로 추가됩니다. 이 옵션은 모든 업데이트 방법에서 지원됩니다. | 아니요 | true 또는 false |
mergeSchema: true |
예: Microsoft Fabric Lakehouse 테이블 싱크
sink(allowSchemaDrift: true,
validateSchema: false,
input(
CustomerID as string,
NameStyle as string,
Title as string,
FirstName as string,
MiddleName as string,
LastName as string,
Suffix as string,
CompanyName as string,
SalesPerson as string,
EmailAddress as string,
Phone as string,
PasswordHash as string,
PasswordSalt as string,
rowguid as string,
ModifiedDate as string
),
deletable:false,
insertable:true,
updateable:false,
upsertable:false,
optimizedWrite: true,
mergeSchema: true,
autoCompact: true,
skipDuplicateMapInputs: true,
skipDuplicateMapOutputs: true) ~> CustomerTable
인라인 데이터 세트 형식의 Fabric Lakehouse 테이블 기반 커넥터의 경우 데이터 세트 형식으로 델타만 사용하면 됩니다. 이를 통해 Fabric Lakehouse 테이블에서 데이터를 읽고 쓸 수 있습니다.
조회 작업 속성
속성에 대한 자세한 내용을 보려면 조회 작업을 확인하세요.
GetMetadata 작업 속성
속성에 대한 자세한 내용을 보려면 GetMetadata 작업을 확인하세요.
삭제 작업 속성
속성에 대한 자세한 내용을 보려면 삭제 작업을 확인하세요.
관련 콘텐츠
복사 작업에서 원본 및 싱크로 지원되는 데이터 저장소 목록은 지원되는 데이터 저장소를 참조하세요.