Копирование и преобразование данных в Microsoft Fabric Lakehouse с помощью Фабрика данных Azure или Azure Synapse Analytics
ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics
Совет
Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !
Microsoft Fabric Lakehouse — это платформа архитектуры данных для хранения, управления и анализа структурированных и неструктурированных данных в одном расположении. Чтобы обеспечить простой доступ к данным во всех вычислительных модулях в Microsoft Fabric, перейдите в Lakehouse и Delta Tables , чтобы узнать больше. По умолчанию данные записываются в таблицу Lakehouse в V-Order, и вы можете перейти к оптимизации таблиц Delta Lake и V-Order для получения дополнительных сведений.
В этой статье описывается, как использовать действие Copy для копирования данных из Microsoft Fabric Lakehouse и использования Поток данных для преобразования данных в Microsoft Fabric Lakehouse. Дополнительные сведения см. в вводной статье о Фабрике данных Azure или Azure Synapse Analytics.
Поддерживаемые возможности
Этот соединитель Microsoft Fabric Lakehouse поддерживается для следующих возможностей:
Поддерживаемые возможности | IR |
---|---|
Действие копирования (источник/приемник) | (1) (2) |
Поток данных для сопоставления (источник/приемник) | (1) |
Действие поиска | (1) (2) |
Действие получения метаданных в Фабрике данных Azure | (1) (2) |
Действие удаления | (1) (2) |
① Среда выполнения интеграции Azure ② Локальная среда выполнения интеграции
Начало работы
Чтобы выполнить действие копирования с конвейером, можно воспользоваться одним из приведенных ниже средств или пакетов SDK:
- средство копирования данных;
- Портал Azure
- Пакет SDK для .NET
- Пакет SDK для Python
- Azure PowerShell
- The REST API
- шаблон Azure Resource Manager.
Создание связанной службы Microsoft Fabric Lakehouse с помощью пользовательского интерфейса
Выполните следующие действия, чтобы создать связанную службу Microsoft Fabric Lakehouse в пользовательском интерфейсе портал Azure.
Перейдите на вкладку "Управление" в рабочей области Фабрика данных Azure или Synapse и выберите "Связанные службы", а затем нажмите кнопку "Создать".
Найдите Microsoft Fabric Lakehouse и выберите соединитель.
Настройте сведения о службе, проверьте подключение и создайте связанную службу.
Сведения о конфигурации соединителя
В следующих разделах содержатся сведения о свойствах, которые используются для определения сущностей фабрики данных, относящихся к Microsoft Fabric Lakehouse.
Свойства связанной службы
Соединитель Microsoft Fabric Lakehouse поддерживает следующие типы проверки подлинности. Дополнительные сведения см. в соответствующих разделах:
Аутентификация субъекта-службы
Чтобы использовать аутентификацию на основе субъекта-службы, выполните следующие действия.
Зарегистрируйте приложение на платформе удостоверений Майкрософт и добавьте секрет клиента. Затем запишите эти значения, которые используются для определения связанной службы:
- Идентификатор приложения (клиента), который является идентификатором субъекта-службы в связанной службе.
- Значение секрета клиента, являющееся ключом субъекта-службы в связанной службе.
- Идентификатор клиента
Предоставьте субъекту-службе по крайней мере роль участника в рабочей области Microsoft Fabric. Выполните следующие действия:
Перейдите в рабочую область Microsoft Fabric, выберите "Управление доступом" на верхней панели. Затем выберите "Добавить людей или группы".
В области "Добавление людей" введите имя субъекта-службы и выберите субъект-службу в раскрывающемся списке.
Примечание.
Субъект-служба не будет отображаться в списке "Добавление людей" , если параметры клиента Power BI не позволяют субъектам-службам получать доступ к API Fabric.
Укажите роль участника или более поздней версии (администратор, член), а затем нажмите кнопку "Добавить".
Субъект-служба отображается на панели управления доступом .
Приведенные ниже свойства поддерживаются в связанной службе.
Свойство | Описание: | Обязательное поле |
---|---|---|
type | Свойство type должно иметь значение Lakehouse. | Да |
workspaceId | Идентификатор рабочей области Microsoft Fabric. | Да |
artifactId | Идентификатор объекта Microsoft Fabric Lakehouse. | Да |
tenant | Укажите сведения о клиенте (доменное имя или идентификатор клиента), в котором находится приложение. Эти сведения можно получить, наведя указатель мыши на правый верхний угол страницы портала Azure. | Да |
servicePrincipalId | Укажите идентификатора клиента приложения. | Да |
servicePrincipalCredentialType | Тип учетных данных для использования при проверке подлинности субъекта-службы. Допустимые значения: ServicePrincipalKey и ServicePrincipalCert. | Да |
servicePrincipalCredential | Учетные данные субъекта-службы. При использовании ServicePrincipalKey в качестве типа учетных данных укажите значение секрета клиента приложения. Присвойте этому полю метку SecureString, чтобы безопасно хранить его, или добавьте ссылку на секрет, хранящийся в Azure Key Vault. При использовании ServicePrincipalCert в качестве учетных данных ссылайтесь на сертификат в Azure Key Vault и убедитесь, что тип контента сертификата — PKCS #12. |
Да |
connectVia | Среда выполнения интеграции, используемая для подключения к хранилищу данных. Вы можете использовать среду выполнения интеграции Azure или локальную среду IR (если хранилище данных расположено в частной сети). Если не указано другое, используется среда выполнения интеграции Azure по умолчанию. | No |
Пример: использование проверки подлинности с помощью ключа субъекта-службы
Вы также можете хранить ключ субъекта-службы в Azure Key Vault.
{
"name": "MicrosoftFabricLakehouseLinkedService",
"properties": {
"type": "Lakehouse",
"typeProperties": {
"workspaceId": "<Microsoft Fabric workspace ID>",
"artifactId": "<Microsoft Fabric Lakehouse object ID>",
"tenant": "<tenant info, e.g. microsoft.onmicrosoft.com>",
"servicePrincipalId": "<service principal id>",
"servicePrincipalCredentialType": "ServicePrincipalKey",
"servicePrincipalCredential": {
"type": "SecureString",
"value": "<service principal key>"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Свойства набора данных
Соединитель Microsoft Fabric Lakehouse поддерживает два типа наборов данных, которые являются набором данных Microsoft Fabric Lakehouse Files и набором данных таблицы Microsoft Fabric Lakehouse. Дополнительные сведения см. в соответствующих разделах.
Полный список разделов и свойств, доступных для определения наборов данных, см. в разделе Наборы данных в фабрике данных Azure.
Набор данных Microsoft Fabric Lakehouse Files
Соединитель Microsoft Fabric Lakehouse поддерживает следующие форматы файлов. Дополнительные сведения о параметрах с учетом форматирования см. в соответствующих статьях.
Следующие свойства поддерживаются в location
параметрах в наборе данных Microsoft Fabric Lakehouse Files на основе формата:
Свойство | Описание: | Обязательное поле |
---|---|---|
type | Свойство type location в наборе данных должно иметь значение LakehouseLocation. |
Да |
folderPath | Путь к папке. Если вы хотите использовать подстановочный знак для фильтрации папок, пропустите этот параметр и укажите его в параметрах источника действия. | No |
fileName | Имя файла в заданном пути к папке. Если вы хотите использовать подстановочный знак для фильтрации файлов, пропустите этот параметр и укажите его в параметрах источника действия. | No |
Пример:
{
"name": "DelimitedTextDataset",
"properties": {
"type": "DelimitedText",
"linkedServiceName": {
"referenceName": "<Microsoft Fabric Lakehouse linked service name>",
"type": "LinkedServiceReference"
},
"typeProperties": {
"location": {
"type": "LakehouseLocation",
"fileName": "<file name>",
"folderPath": "<folder name>"
},
"columnDelimiter": ",",
"compressionCodec": "gzip",
"escapeChar": "\\",
"firstRowAsHeader": true,
"quoteChar": "\""
},
"schema": [ < physical schema, optional, auto retrieved during authoring > ]
}
}
Набор данных таблицы Microsoft Fabric Lakehouse
Следующие свойства поддерживаются для набора данных таблицы Microsoft Fabric Lakehouse:
Свойство | Описание: | Обязательное поле |
---|---|---|
type | Свойство типа набора данных должно иметь значение LakehouseTable. | Да |
schema | Имя схемы. Если не задано, по умолчанию используется значение dbo . |
No |
table | Имя таблицы. Имя таблицы должно быть по крайней мере одним символом, без символов "/" или "\", без конечных точек, а также без начальных или конечных пробелов. | Да |
Пример:
{
"name": "LakehouseTableDataset",
"properties": {
"type": "LakehouseTable",
"linkedServiceName": {
"referenceName": "<Microsoft Fabric Lakehouse linked service name>",
"type": "LinkedServiceReference"
},
"typeProperties": {
"schema": "<schema_name>",
"table": "<table_name>"
},
"schema": [< physical schema, optional, retrievable during authoring >]
}
}
Свойства действия копирования
Свойства действия копирования для набора данных Microsoft Fabric Lakehouse Files и набора данных таблицы Microsoft Fabric Lakehouse отличаются. Дополнительные сведения см. в соответствующих разделах.
Полный список разделов и свойств, используемых для определения действий, доступен в разделах Действие копирования в фабрике данных Azure и Конвейеры и действия в фабрике данных Azure.
Файлы Microsoft Fabric Lakehouse в действие Copy
Чтобы использовать тип набора данных Microsoft Fabric Lakehouse Files в качестве источника или приемника в действие Copy, перейдите к следующим разделам для подробных конфигураций.
Файлы Microsoft Fabric Lakehouse в качестве исходного типа
Соединитель Microsoft Fabric Lakehouse поддерживает следующие форматы файлов. Дополнительные сведения о параметрах с учетом форматирования см. в соответствующих статьях.
У вас есть несколько вариантов копирования данных из Microsoft Fabric Lakehouse с помощью набора данных Microsoft Fabric Lakehouse Files:
- копирование из указанного пути в наборе данных;
- фильтр с подстановочными знаками для пути к папке или имени файла (см. сведения в разделах
wildcardFolderPath
иwildcardFileName
); - копирование набора файлов, определенных в заданном текстовом файле (см. сведения в разделе
fileListPath
).
Следующие свойства находятся storeSettings
в параметрах в источнике копирования на основе формата при использовании набора данных Microsoft Fabric Lakehouse Files:
Свойство | Описание: | Обязательное поле |
---|---|---|
type | Свойство type в разделе storeSettings должно иметь значение LakehouseReadSettings. |
Да |
Поиск файлов для копирования | ||
ВАРИАНТ 1. Статический путь |
Скопируйте из папки или файла путь, указанный в наборе данных. Если вы хотите скопировать все файлы из папки, дополнительно укажите wildcardFileName со значением * . |
|
ВАРИАНТ 2. Подстановочный знак - wildcardFolderPath |
Путь к папке будет использовать подстановочные знаки для фильтрации исходных папок. Допустимые подстановочные знаки: * (соответствует нулю или большему количеству знаков) и ? (соответствует нулю или одному знаку). Для экранирования используйте ^ , если фактическое имя папки содержит подстановочный знак или escape-символ. Дополнительные примеры приведены в разделе Примеры фильтров папок и файлов. |
No |
ВАРИАНТ 2. Подстановочный знак — wildcardFileName |
Имя файла с подстановочными знаками в заданном контейнере и folderPath/wildcardFolderPath для фильтрации исходных папок. Допустимые подстановочные знаки: * (соответствует нулю или большему количеству знаков) и ? (соответствует нулю или одному знаку). Для экранирования используйте ^ , если фактическое имя файла содержит подстановочный знак или escape-символ. Дополнительные примеры приведены в разделе Примеры фильтров папок и файлов. |
Да |
Вариант 3. Список файлов - fileListPath |
Указывает, что нужно скопировать заданный набор файлов. Укажите текстовый файл со списком файлов, которые необходимо скопировать, по одному файлу в строке (каждая строка должна содержать относительный путь к заданному в наборе данных пути). При использовании этого параметра не указывайте имя файла в наборе данных. Ознакомьтесь с дополнительными примерами в разделе Примеры списков файлов. |
No |
Дополнительные параметры: | ||
recursive | Указывает, следует ли читать данные рекурсивно из вложенных папок или только из указанной папки. Если для свойства recursive задано значение true, а приемником является файловое хранилище, то пустые папки и вложенные папки в приемнике не создаются. Допустимые значения: true (по умолчанию) и false. Это свойство не применяется при настройке fileListPath . |
No |
deleteFilesAfterCompletion | Указывает, удаляются ли двоичные файлы из исходного хранилища после успешного перемещения в конечное хранилище. Удаление файла выполняется для каждого файла, поэтому при сбое действия копирования некоторые файлы уже скопированы в место назначения и удалены из источника, а другие по-прежнему остаются в исходном хранилище. Это свойство допустимо только в сценарии копирования двоичных файлов. По умолчанию имеет значение false. |
No |
modifiedDatetimeStart | Фильтр файлов на основе атрибута: Last Modified. Будут выбраны все файлы, у которых время последнего изменения больше или равно modifiedDatetimeStart и меньше modifiedDatetimeEnd . Время представлено часовым поясом UTC в формате "2018-12-01T05:00:00Z". Свойства могут иметь значение NULL. Это означает, что фильтры атрибута файла не применяются к набору данных. Если для параметра modifiedDatetimeStart задано значение даты и времени, но параметр modifiedDatetimeEnd имеет значение NULL, то будут выбраны файлы, чей атрибут последнего изменения больше указанного значения даты и времени или равен ему. Если для параметра modifiedDatetimeEnd задано значение даты и времени, но параметр modifiedDatetimeStart имеет значение NULL, то будут выбраны все файлы, чей атрибут последнего изменения меньше указанного значения даты и времени.Это свойство не применяется при настройке fileListPath . |
No |
modifiedDatetimeEnd | То же, что выше. | No |
enablePartitionDiscovery | Для файлов, секционированных, укажите, следует ли анализировать секции из пути к файлу и добавлять их в качестве других исходных столбцов. Допустимые значения: false (по умолчанию) и true. |
No |
partitionRootPath | Если обнаружение секций включено, укажите абсолютный корневой путь, чтобы считывать секционированные папки как столбцы данных. Если он не указан, по умолчанию — При использовании пути к файлу в наборе данных или списке файлов в источнике корневым путем секции считается путь, настроенный в наборе данных. — При использовании фильтра папок подстановочных знаков корневой путь секции является подкататурой перед первым подстановочным знаком. Предположим, что вы настроили путь в наборе данных следующим образом: "root/folder/year=2020/month=08/day=27". — Если указать корневой путь секции как "root/folder/year=2020", действие копирования создает еще два столбца month и day значение "08" и "27" соответственно, в дополнение к столбцам внутри файлов.— Если корневой путь секции не указан, дополнительный столбец не создается. |
No |
maxConcurrentConnections | Верхний предел одновременных подключений, установленных для хранилища данных при выполнении действия. Указывайте значение только при необходимости ограничить количество одновременных подключений. | No |
Пример:
"activities": [
{
"name": "CopyFromLakehouseFiles",
"type": "Copy",
"inputs": [
{
"referenceName": "<Delimited text input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "DelimitedTextSource",
"storeSettings": {
"type": "LakehouseReadSettings",
"recursive": true,
"enablePartitionDiscovery": false
},
"formatSettings": {
"type": "DelimitedTextReadSettings"
}
},
"sink": {
"type": "<sink type>"
}
}
}
]
Файлы Microsoft Fabric Lakehouse в качестве типа приемника
Соединитель Microsoft Fabric Lakehouse поддерживает следующие форматы файлов. Дополнительные сведения о параметрах с учетом форматирования см. в соответствующих статьях.
Следующие свойства находятся storeSettings
в параметрах приемника копирования на основе формата при использовании набора данных Microsoft Fabric Lakehouse Files:
Свойство | Описание: | Обязательное поле |
---|---|---|
type | Свойство type в разделе storeSettings должно иметь значение LakehouseWriteSettings. |
Да |
copyBehavior | Определяет поведение копирования, когда источником являются файлы из файлового хранилища данных. Допустимые значения: — PreserveHierarchy (по умолчанию). Сохраняет иерархию файлов в целевой папке. Относительный путь исходного файла в исходной папке идентичен относительному пути целевого файла в целевой папке. — FlattenHierarchy. Все файлы из исходной папки размещаются на первом уровне в целевой папке. Целевые файлы имеют автоматически сформированные имена. — MergeFiles. Объединяет все файлы из исходной папки в один файл. Если указано имя файла, то оно присваивается объединенному файлу. В противном случае присваивается автоматически созданное имя файла. |
No |
blockSizeInMB | Укажите размер блока в МБ, используемый для записи данных в Microsoft Fabric Lakehouse. Узнайте больше о блочных BLOB-объектaх. Допустимое значение — от 4 до 100 МБ. По умолчанию ADF автоматически определяет размер блока на основе типа и данных исходного хранилища. Для небинарного копирования в Microsoft Fabric Lakehouse размер блока по умолчанию составляет 100 МБ, чтобы максимально соответствовать данным размером около 4,75 ТБ. Это может быть неоптимальным, если данные не большие, особенно если вы используете локальную среду выполнения интеграции с плохой сетью, что приводит к истечению времени ожидания операции или проблем с производительностью. Вы можете явно указать размер блока, хотя убедитесь, что blockSizeInMB*50000 достаточно велик для хранения данных, в противном случае выполнение действия копирования завершается сбоем. |
No |
maxConcurrentConnections | Верхний предел одновременных подключений, установленных для хранилища данных при выполнении действия. Указывайте значение только при необходимости ограничить количество одновременных подключений. | No |
metadata | Задайте пользовательские метаданные при копировании в приемник. Каждый объект в массиве metadata представляет дополнительный столбец. name определяет имя ключа метаданных, а value указывает значение данных этого ключа. Если используется функция сохранения атрибутов, указанные метаданные будут объединены с метаданными исходного файла или перезаписаны ими.Допустимые значения: - $$LASTMODIFIED : зарезервированная переменная указывает на сохранение времени последнего изменения исходных файлов. Она применяется к файловому источнику, который может быть только в двоичном формате.Выражение - Статическое значение |
No |
Пример:
"activities": [
{
"name": "CopyToLakehouseFiles",
"type": "Copy",
"inputs": [
{
"referenceName": "<input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<Parquet output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "<source type>"
},
"sink": {
"type": "ParquetSink",
"storeSettings": {
"type": "LakehouseWriteSettings",
"copyBehavior": "PreserveHierarchy",
"metadata": [
{
"name": "testKey1",
"value": "value1"
},
{
"name": "testKey2",
"value": "value2"
}
]
},
"formatSettings": {
"type": "ParquetWriteSettings"
}
}
}
}
]
Примеры фильтров папок и файлов
В этом разделе описываются результаты применения фильтров с подстановочными знаками к пути папки и имени файла.
folderPath | fileName | recursive | Структура исходной папки и результат фильтрации (извлекаются файлы, выделенные полужирным шрифтом) |
---|---|---|---|
Folder* |
(Пусто, используйте значение по умолчанию) | false | ПапкаA Файл1.csv File2.json Вложенная_папка1 File3.csv File4.json File5.csv Другая_папкаB Файл6.csv |
Folder* |
(Пусто, используйте значение по умолчанию) | true | ПапкаA Файл1.csv File2.json Вложенная_папка1 File3.csv File4.json File5.csv Другая_папкаB Файл6.csv |
Folder* |
*.csv |
false | ПапкаA Файл1.csv File2.json Вложенная_папка1 File3.csv File4.json File5.csv Другая_папкаB Файл6.csv |
Folder* |
*.csv |
true | ПапкаA Файл1.csv File2.json Вложенная_папка1 File3.csv File4.json File5.csv Другая_папкаB Файл6.csv |
Примеры списков файлов
В этом разделе описывается поведение, возникающее при указании пути к списку файлов в качестве источника для действия копирования.
Предположим, что у вас есть следующая исходная структура папок и вы хотите скопировать файлы, выделенные полужирным шрифтом:
Пример исходной структуры | Содержимое файла FileListToCopy.txt | Конфигурация ADF |
---|---|---|
filesystem ПапкаA Файл1.csv File2.json Вложенная_папка1 File3.csv File4.json File5.csv Метаданные FileListToCopy.txt |
Файл1.csv Вложенная_папка1/Файл3.csv Вложенная_папка1/Файл5.csv |
В наборе данных: – Путь к папке: FolderA В источнике действия копирования: – Путь к списку файлов: Metadata/FileListToCopy.txt Путь к списку файлов указывает на текстовый файл в том же хранилище данных, содержащий список файлов, которые необходимо скопировать, указав по одному файлу в строке с относительным путем к пути, заданному в наборе данных. |
Некоторые примеры recursive и copyBehavior
В данном разделе описываются результаты выполнения операции копирования при использовании различных сочетаний значений recursive и copyBehavior.
recursive | copyBehavior | Структура папок источника | Результаты цели |
---|---|---|---|
true | preserveHierarchy | Папка1 Файл1 Файл2 Вложенная_папка1 Файл3 Файл4 Файл5 |
Целевая "Папка1" создается с такой же структурой, как и исходная папка: Папка1 Файл1 Файл2 Вложенная_папка1 Файл3 Файл4 Файл5 |
true | flattenHierarchy | Папка1 Файл1 Файл2 Вложенная_папка1 Файл3 Файл4 Файл5 |
Целевая папка1 создается со следующей структурой: Папка1 автоматически созданное имя для "Файл1" автоматически созданное имя для "Файл2" автоматически созданное имя для "Файл3" автоматически созданное имя для "Файл4" автоматически созданное имя для "Файл5" |
true | mergeFiles | Папка1 Файл1 Файл2 Вложенная_папка1 Файл3 Файл4 Файл5 |
Целевая папка1 создается со следующей структурой: Папка1 Содержимое файлов "Файл1", "Файл2", "Файл3", "Файл4" и "Файл5" объединяется в один файл с автоматически созданным именем. |
false | preserveHierarchy | Папка1 Файл1 Файл2 Вложенная_папка1 Файл3 Файл4 Файл5 |
Целевая папка1 создается со следующей структурой: Папка1 Файл1 Файл2 Папка "Вложенная_папка1" с файлами "Файл3", "Файл4" и "Файл5" не будет включена в эту папку. |
false | flattenHierarchy | Папка1 Файл1 Файл2 Вложенная_папка1 Файл3 Файл4 Файл5 |
Целевая папка1 создается со следующей структурой: Папка1 автоматически созданное имя для "Файл1" автоматически созданное имя для "Файл2" Папка "Вложенная_папка1" с файлами "Файл3", "Файл4" и "Файл5" не будет включена в эту папку. |
false | mergeFiles | Папка1 Файл1 Файл2 Вложенная_папка1 Файл3 Файл4 Файл5 |
Целевая папка1 создается со следующей структурой: Папка1 Содержимое файлов "Файл1" и "Файл2" объединяется в один файл с автоматически созданным именем. автоматически созданное имя для "Файл1" Папка "Вложенная_папка1" с файлами "Файл3", "Файл4" и "Файл5" не будет включена в эту папку. |
Таблица Microsoft Fabric Lakehouse в действие Copy
Чтобы использовать набор данных Таблицы Microsoft Fabric Lakehouse в качестве источника или приемника в действие Copy, перейдите к следующим разделам для подробных конфигураций.
Таблица Microsoft Fabric Lakehouse в качестве исходного типа
Чтобы скопировать данные из Microsoft Fabric Lakehouse с помощью набора данных таблицы Microsoft Fabric Lakehouse, задайте свойство типа в источнике действие Copy в LakehouseTableSource. Следующие свойства поддерживаются в разделе источника действие Copy:
Свойство | Описание: | Обязательное поле |
---|---|---|
type | Свойство type источника действия копирования должно иметь значение LakehouseTableSource. | Да |
timestampAsOf | Метка времени для запроса старого моментального снимка. | No |
versionAsOf | Версия для запроса старого моментального снимка. | No |
Пример:
"activities":[
{
"name": "CopyFromLakehouseTable",
"type": "Copy",
"inputs": [
{
"referenceName": "<Microsoft Fabric Lakehouse Table input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "LakehouseTableSource",
"timestampAsOf": "2023-09-23T00:00:00.000Z",
"versionAsOf": 2
},
"sink": {
"type": "<sink type>"
}
}
}
]
Таблица Microsoft Fabric Lakehouse в качестве типа приемника
Чтобы скопировать данные в Microsoft Fabric Lakehouse с помощью набора данных таблицы Microsoft Fabric Lakehouse, задайте для свойства type в приемнике действия копирования значение LakehouseTableSink. Следующие свойства поддерживаются в разделе приемника действие Copy:
Свойство | Описание: | Обязательное поле |
---|---|---|
type | Свойство type источника действия копирования должно иметь значение LakehouseTableSink. | Да |
Примечание.
Данные записываются в таблицу Lakehouse в V-Order по умолчанию. Дополнительные сведения см. в описании оптимизации таблиц Delta Lake и V-Order.
Пример:
"activities":[
{
"name": "CopyToLakehouseTable",
"type": "Copy",
"inputs": [
{
"referenceName": "<input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<Microsoft Fabric Lakehouse Table output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "<source type>"
},
"sink": {
"type": "LakehouseTableSink",
"tableActionOption ": "Append"
}
}
}
]
Свойства потока данных для сопоставления
При преобразовании данных в потоке данных сопоставления можно читать и записывать в файлы или таблицы в Microsoft Fabric Lakehouse. Дополнительные сведения см. в соответствующих разделах.
- Файлы Microsoft Fabric Lakehouse в потоке данных сопоставления
- Таблица Microsoft Fabric Lakehouse в потоке данных сопоставления
Дополнительные сведения см. в описаниях преобразования источника и преобразования приемника в разделе, посвященном потокам данных для сопоставления.
Файлы Microsoft Fabric Lakehouse в потоке данных сопоставления
Чтобы использовать набор данных Microsoft Fabric Lakehouse Files в качестве источника или приемника в потоке данных сопоставления, перейдите к следующим разделам для подробных конфигураций.
Файлы Microsoft Fabric Lakehouse в качестве источника или приемника
Соединитель Microsoft Fabric Lakehouse поддерживает следующие форматы файлов. Дополнительные сведения о параметрах с учетом форматирования см. в соответствующих статьях.
Чтобы использовать соединитель на основе файлов Fabric Lakehouse в встроенном типе набора данных, необходимо выбрать правильный тип встроенного набора данных для данных. Вы можете использовать РазделителиText, Avro, JSON, ORC или Parquet в зависимости от формата данных.
Таблица Microsoft Fabric Lakehouse в потоке данных сопоставления
Чтобы использовать набор данных таблицы Microsoft Fabric Lakehouse в качестве источника или приемника в потоке данных сопоставления, перейдите к следующим разделам для подробных конфигураций.
Таблица Microsoft Fabric Lakehouse в качестве исходного типа
Настраиваемые свойства в параметрах источника отсутствуют.
Примечание.
Поддержка CDC для источника таблиц Lakehouse в настоящее время недоступна.
Таблица Microsoft Fabric Lakehouse в качестве типа приемника
Следующие свойства поддерживаются в разделе приемника сопоставления Поток данных s:
Имя | Описание | Обязательное поле | Допустимые значения | Свойство скрипта для потока данных |
---|---|---|---|---|
Метод обновления | При нажатии кнопки "Разрешить вставку" отдельно или при записи в новую разностную таблицу целевой объект получает все входящие строки независимо от набора политик строк. Если данные содержат строки других политик строк, их необходимо исключить с помощью предыдущего преобразования фильтра. При выборе всех методов обновления выполняется слияние, где строки вставляются, удаляются или обновляются в соответствии с набором политик строк, используя предыдущее преобразование Alter Row. |
yes | true или false |
Вставляемый deletable upsertable updateable |
Оптимизированная запись | Повышение пропускной способности для операции записи с помощью оптимизации внутреннего случайного перемешивания в исполнителях Spark. В результате вы можете заметить меньше секций и файлов, которые имеют больший размер | no | true или false |
optimizedWrite: true |
Автоматическое сжатие | После завершения любой операции записи Spark автоматически выполнит OPTIMIZE команду для реорганизации данных, что приведет к дополнительным секциям при необходимости для повышения производительности чтения в будущем. |
no | true или false |
autoCompact: true |
Схема слияния | Параметр схемы слияния позволяет эволюции схемы, то есть любые столбцы, которые присутствуют в текущем входящего потока, но не в целевой таблице Delta, автоматически добавляются в ее схему. Этот параметр поддерживается во всех методах обновления. | no | true или false |
mergeSchema: true |
Пример: приемник таблицы Microsoft Fabric Lakehouse
sink(allowSchemaDrift: true,
validateSchema: false,
input(
CustomerID as string,
NameStyle as string,
Title as string,
FirstName as string,
MiddleName as string,
LastName as string,
Suffix as string,
CompanyName as string,
SalesPerson as string,
EmailAddress as string,
Phone as string,
PasswordHash as string,
PasswordSalt as string,
rowguid as string,
ModifiedDate as string
),
deletable:false,
insertable:true,
updateable:false,
upsertable:false,
optimizedWrite: true,
mergeSchema: true,
autoCompact: true,
skipDuplicateMapInputs: true,
skipDuplicateMapOutputs: true) ~> CustomerTable
Для соединителя на основе таблиц Fabric Lakehouse в встроенном типе набора данных необходимо использовать только разностный тип набора данных. Это позволит считывать и записывать данные из таблиц Fabric Lakehouse.
Свойства действия поиска
Подробные сведения об этих свойствах см. в разделе Действие поиска.
Свойства действия GetMetadata
Подробные сведения об этих свойствах см. в статье Действие GetMetadata.
Свойства действия удаления
Подробные сведения об этих свойствах см. в статье Действие удаления.
Связанный контент
Список хранилищ данных, поддерживаемых в рамках функции копирования в качестве источников и приемников, см. в разделе Поддерживаемые хранилища данных.