Поделиться через


Преобразование источника данных Common Data Model для использования таблиц Delta

Обновите существующее подключение к данным с помощью таблиц Common Data Model и перейдите к таблицам в формате Delta, не удаляя и не воссоздавая существующую конфигурацию, которая зависит от подключения к данным.

Основные причины для подключения к данным, хранящимся в формате Delta:

  • Импортируйте данные в формате Delta напрямую, чтобы сэкономить время и усилия.
  • Устраните затраты на вычисления и хранение, связанные с преобразованием и хранением копии данных вашего хранилища в озере.
  • Автоматически повысьте надежность приема данных в Customer Insights - Data за счет разностного управления версиями.

Delta — это термин, введенный с Delta Lake, основой для хранения данных и таблиц на платформе Databricks Lakehouse. Delta Lake — это слой хранения с открытым исходным кодом, который обеспечивает транзакции ACID (атомарность, согласованность, изоляция и надежность) для рабочих нагрузок больших данных. Дополнительные сведения см. на странице документации по Delta Lake.

Предварительные условия

  • Хранилище Azure Data Lake Storage должно находиться в том же клиенте и регионе Azure, что и Customer Insights - Data.

  • Чтобы подключиться к хранилищу, защищенному брандмауэрами, настройте приватные каналы Azure.

  • Субъект-служба Customer Insights - Data должен иметь разрешения автора данных Storage Blob для доступа к учетной записи хранения. Дополнительные сведения см. в статье Предоставление разрешений субъекту-службе для доступа к учетной записи хранения.

  • Пользователю, настраивающему или обновляющему источник данных, необходимы как минимум разрешения читателя данных хранилища BLOB-объектов в учетной записи Azure Data Lake Storage.

  • Данные, хранящиеся в веб-службах, могут храниться в месте, отличном от того, где данные обрабатываются или хранятся. Импортируя данные или подключаясь к данным, хранящимся в веб-службах, вы соглашаетесь с тем, что данные могут быть переданы. Подробнее можно узнать в центре управления безопасностью Microsoft.

  • Customer Insights - Data поддерживает средство чтения Databricks версии 2. Таблицы Delta, использующие функции, требующие средства чтения Databricks версии 3 или более поздней версии, не поддерживаются. Подробнее: Поддерживаемые функции Databricks.

  • Таблицы Delta должны находиться в папке в контейнере хранилища и не могут находиться в корневом каталоге контейнера. Например:

    storageaccountcontainer/
        DeltaDataRoot/
           ADeltaTable/
                 _delta_log/
                     0000.json
                     0001.json
                 part-0001-snappy.parquet
                 part-0002-snappy.parquet
    
  • Таблицы Delta и их схема должны соответствовать таблицам в существующем источнике данных Common Data Model и находиться в том же контейнере хранения. Таблицы в новой папке данных должны точно соответствовать выбранным таблицам в источнике данных Common Data Model. Имена таблиц и их схемы должны точно совпадать. В Delta имена таблиц совпадают с именем папки, в которой хранятся данные. Следовательно, имена папок должны точно соответствовать выбранным таблицам в источнике данных Common Data Model. В противном случае преобразование завершится сбоем.

    Например, если выбранные таблицы в источнике данных Common Data Model называются Table1 и Table2, то в иерархии папки, которую вы выбираете для преобразования, должны присутствовать Table1 и Table2.

    storageaccountroot/
    DeltaDataRoot/
        Table1/
        Table2/
    

Преобразование таблиц Common Data Model для использования таблиц Delta

  1. Перейдите в раздел Данные>Источники данных.

  2. Выберите источник данных Common Data Model Azure Data Lake, затем выберите Преобразовать в таблицы Delta. Или выберите Начать преобразование на странице Добавление таблиц, если вы редактируете источник данных Common Data Model.

    Страница источников данных, на которой показан источник данных Common Data Model с выделенным пунктом «Преобразовать в таблицы Delta».

  3. Выберите Обзор и перейдите к папке, которая содержит данные в формате Delta и в точности соответствует выбранной таблице источника данных Azure Data Lake. Выберите ее и выберите Преобразовать источник данных.

    Открывается страница Источники данных с новым источником данных в статусе Обновление.

    Важно

    Не останавливайте процесс обновления, поскольку это может негативно отразиться на преобразовании источника данных.

    Совет

    Есть состояния для задач и процессов. Большинство процессов зависят от других вышестоящих процессов, таких как источники данных и обновления профилирования данных.

    Выберите статус, чтобы открыть панель Сведения о ходе выполнения и просмотреть ход выполнения задач. Чтобы отменить задание, выберите Отменить задание в нижней части панели.

    В каждой задаче можно выбрать Показать подробности для получения дополнительной информации о ходе выполнения, такой как время обработки, дата последней обработки, а также любые применимые ошибки и предупреждения, связанные с задачей или процессом. Выберите Просмотр состояния системы внизу панели, чтобы увидеть другие процессы в системе.

Мы рекомендуем продолжать передавать данные в Data Lake Storage через существующий конвейер и поддерживать манифесты и схемы до тех пор, пока вы не убедитесь, что преобразование прошло успешно и все работает как положено.

Отмена преобразования таблиц Common Data Model в таблицы Delta

Если вы попытались преобразовать источник данных Common Data Model Azure Data Lake в таблицы Delta и процесс завершился сбоем, выполните следующие действия.

Предварительные условия

  • Ваша организация продолжает передавать данные в Data Lake Storage через ваш конвейер.
  • Ваша организация продолжает поддерживать манифесты и схемы Data Lake Storage.

Возврат к источнику данных Common Data Model Azure Data Lake

  1. Перейдите в раздел Данные>Источники данных.

  2. Выберите источник данных Common Data Model Azure Data Lake, затем выберите Вернуться к таблицам Common Data Model.

  3. Подтвердите обратное преобразование. Открывается страница Источники данных с новым источником данных в статусе Обновление.

    Важно

    Не останавливайте процесс обновления, поскольку это может негативно отразиться на обратном преобразовании источника данных.