Преобразование источника данных Common Data Model для использования таблиц Delta
Обновите существующее подключение к данным с помощью таблиц Common Data Model и перейдите к таблицам в формате Delta, не удаляя и не воссоздавая существующую конфигурацию, которая зависит от подключения к данным.
Основные причины для подключения к данным, хранящимся в формате Delta:
- Импортируйте данные в формате Delta напрямую, чтобы сэкономить время и усилия.
- Устраните затраты на вычисления и хранение, связанные с преобразованием и хранением копии данных вашего хранилища в озере.
- Автоматически повысьте надежность приема данных в Customer Insights - Data за счет разностного управления версиями.
Delta — это термин, введенный с Delta Lake, основой для хранения данных и таблиц на платформе Databricks Lakehouse. Delta Lake — это слой хранения с открытым исходным кодом, который обеспечивает транзакции ACID (атомарность, согласованность, изоляция и надежность) для рабочих нагрузок больших данных. Дополнительные сведения см. на странице документации по Delta Lake.
Предварительные условия
Хранилище Azure Data Lake Storage должно находиться в том же клиенте и регионе Azure, что и Customer Insights - Data.
Чтобы подключиться к хранилищу, защищенному брандмауэрами, настройте приватные каналы Azure.
Субъект-служба Customer Insights - Data должен иметь разрешения автора данных Storage Blob для доступа к учетной записи хранения. Дополнительные сведения см. в статье Предоставление разрешений субъекту-службе для доступа к учетной записи хранения.
Пользователю, настраивающему или обновляющему источник данных, необходимы как минимум разрешения читателя данных хранилища BLOB-объектов в учетной записи Azure Data Lake Storage.
Данные, хранящиеся в веб-службах, могут храниться в месте, отличном от того, где данные обрабатываются или хранятся. Импортируя данные или подключаясь к данным, хранящимся в веб-службах, вы соглашаетесь с тем, что данные могут быть переданы. Подробнее можно узнать в центре управления безопасностью Microsoft.
Customer Insights - Data поддерживает средство чтения Databricks версии 2. Таблицы Delta, использующие функции, требующие средства чтения Databricks версии 3 или более поздней версии, не поддерживаются. Подробнее: Поддерживаемые функции Databricks.
Таблицы Delta должны находиться в папке в контейнере хранилища и не могут находиться в корневом каталоге контейнера. Например:
storageaccountcontainer/ DeltaDataRoot/ ADeltaTable/ _delta_log/ 0000.json 0001.json part-0001-snappy.parquet part-0002-snappy.parquet
Таблицы Delta и их схема должны соответствовать таблицам в существующем источнике данных Common Data Model и находиться в том же контейнере хранения. Таблицы в новой папке данных должны точно соответствовать выбранным таблицам в источнике данных Common Data Model. Имена таблиц и их схемы должны точно совпадать. В Delta имена таблиц совпадают с именем папки, в которой хранятся данные. Следовательно, имена папок должны точно соответствовать выбранным таблицам в источнике данных Common Data Model. В противном случае преобразование завершится сбоем.
Например, если выбранные таблицы в источнике данных Common Data Model называются Table1 и Table2, то в иерархии папки, которую вы выбираете для преобразования, должны присутствовать Table1 и Table2.
storageaccountroot/ DeltaDataRoot/ Table1/ Table2/
Преобразование таблиц Common Data Model для использования таблиц Delta
Перейдите в раздел Данные>Источники данных.
Выберите источник данных Common Data Model Azure Data Lake, затем выберите Преобразовать в таблицы Delta. Или выберите Начать преобразование на странице Добавление таблиц, если вы редактируете источник данных Common Data Model.
Выберите Обзор и перейдите к папке, которая содержит данные в формате Delta и в точности соответствует выбранной таблице источника данных Azure Data Lake. Выберите ее и выберите Преобразовать источник данных.
Открывается страница Источники данных с новым источником данных в статусе Обновление.
Важно
Не останавливайте процесс обновления, поскольку это может негативно отразиться на преобразовании источника данных.
Совет
Есть состояния для задач и процессов. Большинство процессов зависят от других вышестоящих процессов, таких как источники данных и обновления профилирования данных.
Выберите статус, чтобы открыть панель Сведения о ходе выполнения и просмотреть ход выполнения задач. Чтобы отменить задание, выберите Отменить задание в нижней части панели.
В каждой задаче можно выбрать Показать подробности для получения дополнительной информации о ходе выполнения, такой как время обработки, дата последней обработки, а также любые применимые ошибки и предупреждения, связанные с задачей или процессом. Выберите Просмотр состояния системы внизу панели, чтобы увидеть другие процессы в системе.
Мы рекомендуем продолжать передавать данные в Data Lake Storage через существующий конвейер и поддерживать манифесты и схемы до тех пор, пока вы не убедитесь, что преобразование прошло успешно и все работает как положено.
Отмена преобразования таблиц Common Data Model в таблицы Delta
Если вы попытались преобразовать источник данных Common Data Model Azure Data Lake в таблицы Delta и процесс завершился сбоем, выполните следующие действия.
Предварительные условия
- Ваша организация продолжает передавать данные в Data Lake Storage через ваш конвейер.
- Ваша организация продолжает поддерживать манифесты и схемы Data Lake Storage.
Возврат к источнику данных Common Data Model Azure Data Lake
Перейдите в раздел Данные>Источники данных.
Выберите источник данных Common Data Model Azure Data Lake, затем выберите Вернуться к таблицам Common Data Model.
Подтвердите обратное преобразование. Открывается страница Источники данных с новым источником данных в статусе Обновление.
Важно
Не останавливайте процесс обновления, поскольку это может негативно отразиться на обратном преобразовании источника данных.