Поделиться через


Интеграция данных с помощью Фабрики данных Azure и Azure Data Share

ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

По мере того, как клиенты приступают к реализации своих современных проектов по созданию хранилищ данных и аналитики, им требуется не только больше данных, но и большая прозрачность по всему пространству данных. В этом семинаре подробно описано, как усовершенствования Фабрики данных Azure и Azure Data Share упрощают интеграцию данных и управление ими в Azure.

От включения бесплатного кода ETL/ELT до создания комплексного представления о данных, улучшения в Фабрика данных Azure позволяют инженерам по обработке и анализу данных уверенно получать больше данных и, следовательно, больше ценности в вашей организации. Azure Data Share позволяет выполнять бизнес-обмен бизнесом в управляемом режиме.

В этом семинаре вы используете Фабрика данных Azure (ADF) для приема данных из База данных SQL Azure в Azure Data Lake Storage 2-го поколения (ADLS 2-го поколения). После приземления данных в озере вы преобразуете его с помощью потоков данных сопоставления, собственной службы преобразования фабрики данных и приемника данных в Azure Synapse Analytics. Затем вы предоставляете общий доступ к таблице с преобразованными данными вместе с некоторыми дополнительными данными с помощью Azure Data Share.

В этой тестовой службе используются данные такси Нью-Йорка. Чтобы импортировать их в базу данных в службе "База данных SQL", скачайте BACPAC-файл данных о такси. Выберите параметр "Скачать необработанный файл" в GitHub.

Необходимые компоненты

  • Подписка Azure. Если у вас нет подписки Azure, создайте бесплатную учетную запись, прежде чем начинать работу.

  • База данных SQL Azure. Если у вас нет База данных SQL Azure, узнайте, как создать База данных SQL.

  • Azure Data Lake Storage 2-го поколения учетной записи хранения. Если у вас нет учетной записи хранения ADLS 2-го поколения, узнайте, как создать учетную запись хранения ADLS 2-го поколения.

  • Azure Synapse Analytics. Если у вас нет рабочей области Azure Synapse Analytics, узнайте, как приступить к работе с Azure Synapse Analytics.

  • Фабрика данных Azure. Если у вас нет фабрики данных, узнайте, как создать фабрику данных.

  • Azure Data Share: если у вас нет общего ресурса данных, узнайте, как создать общую папку данных.

Настройка среды Фабрики данных Azure

В этом разделе описано, как получить доступ к Фабрика данных Azure пользовательскому интерфейсу (ADF) из портал Azure. После настройки трех связанных служб для каждого из хранилищ данных, которые мы используем: База данных SQL Azure, ADLS 2-го поколения и Azure Synapse Analytics.

В Фабрика данных Azure связанных службах определите сведения о подключении к внешним ресурсам. В настоящее время Фабрика данных Azure поддерживает более 85 соединителей.

Открытие пользовательского интерфейса Фабрики данных Azure

  1. Откройте портал Azure в Microsoft Edge или Google Chrome.

  2. В верхней части страницы в строке поиска найдите "Фабрики данных".

  3. Выберите ресурс фабрики данных, чтобы открыть его ресурсы на панели слева.

    Снимок экрана: страница обзора портал Azure фабрик данных.

  4. Выберите Открыть студию Фабрики данных Azure. Кроме того, к студии Фабрики данных можно получить доступ непосредственно на сайте adf.azure.com.

    Снимок экрана: домашняя страница Фабрики данных Azure на портале Azure.

  5. Вы перенаправляетесь на домашнюю страницу ADF в портал Azure. На этой странице содержатся руководства, видео-инструкции и ссылки на учебники для изучения концепций фабрики данных. Выберите значок карандаша на левой боковой панели, чтобы начать создание.

    Снимок экрана: настройка портал Azure портала.

Создание связанной службы Базы данных SQL Azure

  1. Чтобы создать связанную службу, выберите концентратор Управление на левой боковой панели, на панели Подключения выберите Связанные службы, после чего выберите Создать, чтобы добавить новую связанную службу.

    Снимок экрана: портал Azure создания связанной службы.

  2. Первая связанная служба, настроенная, является База данных SQL Azure. С помощью строки поиска можно отфильтровать список хранилищ данных. Выберите плитку База данных SQL Azure и нажмите "Продолжить".

    Снимок экрана: портал Azure создания новой связанной службы База данных SQL Azure.

  3. В области конфигурации База данных SQL введите "SQLDB" в качестве имени связанной службы. Введите свои учетные данные, чтобы обеспечить подключение фабрики данных к базе данных. Если вы используете проверку подлинности SQL, введите имя сервера, базу данных, имя пользователя и пароль. Чтобы проверить правильность сведений о подключении, выберите Проверить подключение. По завершении нажмите кнопку Создать.

    Снимок экрана: портал Azure настройки новой связанной службы База данных SQL Azure с успешно протестированным подключением.

Создание связанной службы Azure Synapse Analytics

  1. Повторите этот же процесс, чтобы добавить связанную службу Azure Synapse Analytics. На вкладке "Подключения" выберите Создать. Выберите плитку Azure Synapse Analytics и нажмите кнопку "Продолжить".

    Снимок экрана: портал Azure создания связанной службы Azure Synapse Analytics.

  2. В области конфигурации связанной службы введите "SQLDW" в качестве имени связанной службы. Введите свои учетные данные, чтобы обеспечить подключение фабрики данных к базе данных. Если вы используете проверку подлинности SQL, введите имя сервера, базу данных, имя пользователя и пароль. Чтобы проверить правильность сведений о подключении, выберите Проверить подключение. По завершении нажмите кнопку Создать.

    Снимок экрана: портал Azure настройки новой связанной службы Azure Synapse Analytics с именем SQLDW.

Создание связанной службы Azure Data Lake Storage 2-го поколения

  1. Последняя связанная служба, необходимая для этой лаборатории, является Azure Data Lake Storage 2-го поколения. На вкладке "Подключения" выберите Создать. Выберите плитку Azure Data Lake Storage 2-го поколения и нажмите "Продолжить".

    Снимок экрана: портал Azure создания связанной службы ADLS 2-го поколения.

  2. В панели конфигурации связанной службы введите "ADLSGen2" в качестве имени связанной службы. Если вы используете проверку подлинности ключа учетной записи, выберите учетную запись хранения ADLS 2-го поколения в раскрывающемся списке имени учетной записи хранения. Чтобы проверить правильность сведений о подключении, выберите Проверить подключение. По завершении нажмите кнопку Создать.

    Снимок экрана: портал Azure настройки новой связанной службы ADLS 2-го поколения.

Включение режима отладки потоков данных

В разделе "Преобразование данных с помощью потока данных сопоставления" вы создаете потоки данных сопоставления. Перед построением потоков данных сопоставления рекомендовано включить режим отладки, который позволяет в считанные секунды протестировать логику преобразования на активном кластере spark.

Чтобы включить режим отладки, нажмите на ползунок Отладка потока данных на верхней панели холста потока данных или холста конвейера, если у вас есть действия Поток данных. Нажмите кнопку ОК, когда появится диалоговое окно подтверждения. Кластер начинается примерно в 5–7 минут. Продолжайте прием данных из База данных SQL Azure в ADLS 2-го поколения с помощью действия копирования во время инициализации.

Снимок экрана: портал Azure страниц

Снимок экрана: ползунок отладки потока данных после создания объекта.

Прием данных с помощью действия копирования

В этом разделе вы создадите конвейер с действием копирования, которое выполняет прием одной таблицы из База данных SQL Azure в учетную запись хранения ADLS 2-го поколения. Вы узнаете, как добавить конвейер, настроить набор данных и выполнить отладку конвейера с помощью пользовательского интерфейса ADF. Шаблон конфигурации, используемый в этом разделе, применяется к копированию из реляционного хранилища данных в файловое хранилище данных.

В Фабрике данных Azure конвейеры являются логической группой действий, которые совместно выполняют задачу. Действие определяет операцию, выполняемую для данных. Набор данных указывает на данные, которые нужно использовать в связанной службе.

Создание конвейера с действием копирования

  1. Выберите значок "плюс" на панели ресурсов фабрики, чтобы открыть меню нового ресурса. Выберите Конвейер.

    Снимок экрана: портал Azure создания нового конвейера.

  2. Во вкладке Общие холста конвейера выберите описательное имя для конвейера, например "IngestAndTransformTaxiData".

    Снимок экрана: портал Azure нового объекта данных приема и преобразования такси.

  3. В панели действий холста конвейера откройте меню-гармошку Move and Transform (Перемещение и преобразование) и перетащите действие Копирование данных на холст. Назовите действие копирования описательным именем, например "IngestIntoADLS".

    Снимок экрана: портал Azure добавления шага копирования данных.

Настройка исходного набора данных базы данных SQL Azure

  1. Откройте вкладку Источник действия копирования. Чтобы создать набор данных, выберите Создать. Источник будет таблицей dbo.TripData , расположенной в связанной службе SQLDB, настроенной ранее.

    Снимок экрана: портал Azure создания нового набора данных в параметре

  2. Выполните поиск по запросу База данных SQL Azure и выберите "Продолжить".

    Снимок экрана: портал Azure создания нового набора данных в База данных SQL Azure.

  3. Вызовите набор данных "TripData". Выберите "SQLDB" в качестве связанной службы. Выберите имя dbo.TripData таблицы из раскрывающегося списка имен таблицы. Импортируйте схему From connection/store (из подключения/хранилища). Закончив, выберите OK.

    Снимок экрана: портал Azure страницы свойств создания нового набора данных в База данных SQL Azure.

Вы успешно создали свой первый исходный набор данных! Убедитесь, что в настройках источника в поле запроса на использование выбрано значение по умолчанию Таблица.

Настройка приемного набора данных ADLS 2-го поколения

  1. Откройте вкладку Приемник действия копирования. Чтобы создать набор данных, выберите Создать.

    Снимок экрана: портал Azure создания нового набора данных в параметре

  2. Выполните поиск по фразе Azure Data Lake Storage 2-го поколения и выберите "Продолжить".

    Снимок экрана: портал Azure создания новых данных в ADLS 2-го поколения.

  3. Во время записи в CSV-файл выберите DelimitedText на панели выбора формата. Выберите "Продолжить".

    Снимок экрана: портал Azure страницы форматирования при создании новых данных в ADLS 2-го поколения.

  4. Назовите приемный набор данных "TripDataCSV". Выберите "ADLSGen2" в качестве связанной службы. Введите расположение для записи CSV-файла. Данные можно, например, записать в файл trip-data.csv контейнера staging-container. Установите Использовать первую строку в качестве заголовка на true, если хотите, чтобы выходные данные имели заголовки. Поскольку в месте назначения еще нет файла, установите для пункта Импорт схемы значение Нет. Закончив, выберите OK.

    Снимок экрана: портал Azure страницы свойств создания новых данных в ADLS 2-го поколения.

Тестирование действия копирования с помощью запуска отладки конвейера

  1. Выполните отладку, чтобы проверить корректность работы действия копирования, нажав Отладка в верхней части холста конвейера. Выполнение отладки позволяет выполнить сквозную проверку конвейера, либо проверку до точки останова, прежде чем опубликовать его в службе фабрики данных.

    Снимок экрана: портал Azure кнопки отладки.

  2. Чтобы следить за выполнением отладки, перейдите на вкладку Выходные данные холста конвейера. Экран мониторинга автоматически обновляется каждые 20 секунд или при нажатии кнопки обновления вручную. Действие копирования имеет специальное представление мониторинга, к которому можно получить доступ, выбрав значок глазных очков в столбце "Действия ".

    Снимок экрана: портал Azure кнопки мониторинга.

  3. Представление мониторинга копирования предоставляет сведения о процессе выполнения и характеристиках производительности. Вы можете просматривать такие сведения, как прочитанные/записанные данные, прочитанные/записанные строки, прочитанные/записанные файлы и пропускная способность. Если все правильно настроено, в приемнике ADLS должно быть записано 49 999 строк.

    Снимок экрана: портал Azure сведений о производительности представления мониторинга копирования.

  4. Прежде чем перейти к следующему разделу, рекомендуется опубликовать изменения в службе фабрики данных, выбрав "Опубликовать все " на верхней панели фабрики. Хотя в этой тестовой службе и не обсуждалось, Фабрика данных Azure поддерживает полную git-интеграцию. Интеграция Git позволяет выполнять управление версиями, итеративное сохранение в репозитории, а также совместную работу в фабрике данных. Дополнительные сведения см. Source Control in Azure Data Factory (Система управления версиями в фабрике данных Azure).

    Снимок экрана: портал Azure кнопки

Преобразование данных с помощью функции сопоставления потоков данных

Теперь, когда вы успешно скопировали данные в Azure Data Lake Storage, пришло время присоединить и агрегировать эти данные в хранилище данных. Мы используем поток данных сопоставления, визуально разработанный службой преобразования Фабрика данных Azure. Потоки данных сопоставления позволяют пользователям разрабатывать логические безкодовые преобразования и выполнять их на кластерах spark, управляемых службой ADF.

Поток данных, созданный на этом шаге, объединяет набор данных TripDataCSV, созданный в предыдущем разделе, с таблицей dbo.TripFares , хранящейся в SQLDB, на основе четырех ключевых столбцов. Затем данные суммируются по столбцу payment_type для вычисления среднего значения по определенным полям и записываются в таблицу Azure Synapse Analytics.

Добавление действия потока данных в конвейер

  1. В панели действий холста конвейера откройте меню-гармошку Move and Transform (Перемещение и преобразование) и перетащите действие Поток данных на холст.

    Снимок экрана: портал Azure параметра потока данных в меню

  2. В открывшейся боковой панели выберите Create new data flow (Создать новый поток данных) и выберите Поток данных для сопоставления. Нажмите ОК.

    Снимок экрана: портал Azure добавления нового потока данных сопоставления.

  3. Вы направляетесь на холст потока данных, в котором вы создаете логику преобразования. На вкладке "Общие" назовите свой поток данных "JoinAndAggregateData".

    Снимок экрана: портал Azure потока данных соединения и статистической обработки данных.

Настройка источника данных CSV для поездки

  1. Первое, что вы хотите сделать — это настроить два преобразования источника. Первый источник указывает на набор данных с разделителями TripDataCSV. Чтобы добавить преобразование источника, выберите поле Добавить источник на холсте.

    Снимок экрана: портал Azure кнопки добавления источника в новом потоке данных.

  2. Присвойте источнику имя TripDataCSV и выберите набор данных TripDataCSV из раскрывающегося списка источника. Если вы помните, вы не импортировали схему изначально при создании этого набора данных, поскольку в нем не было данных. Так как trip-data.csv теперь существует, выберите Изменить, чтобы перейти на вкладку настроек набора данных.

    Снимок экрана: портал Azure кнопки редактирования исходного набора данных в параметрах потока данных.

  3. Перейдите на вкладку Схема и выберите Импорт схемы. Выберите From connection/store (Из подключения/хранилища), чтобы импортировать непосредственно из хранилища файлов. Должны появиться 14 столбцов строки типа.

    Снимок экрана: портал Azure выбора источника схемы.

  4. Вернитесь к потоку данных "JoinAndAggregateData". Если ваш отладочный кластер запущен (обозначен зеленым кружком рядом с ползунком отладки), вы можете создать моментальный снимок данных на вкладке Предварительный просмотр данных. Выберите Обновить, чтобы получить данные предварительного просмотра.

    Снимок экрана: портал Azure предварительного просмотра потока данных.

Примечание.

В предварительном просмотре данные не записываются.

Настройка тарифов на поездку База данных SQL источника

  1. Второй источник, который вы добавляете точки в таблице dbo.TripFaresБаза данных SQL. В источнике TripDataCSV есть другое поле "Добавить источник ". Выберите его, чтобы добавить новое преобразование источника.

    Снимок экрана: портал Azure добавления другого источника данных в поток данных.

  2. Назовите этот источник "TripFaresSQL". Выберите "Создать" рядом с полем исходного набора данных, чтобы создать новый набор данных База данных SQL.

    Снимок экрана: портал Azure нового исходного набора данных на другом шаге копирования данных в потоке данных.

  3. Выберите плитку База данных SQL Azure и нажмите "Продолжить". Возможно, многие соединители в фабрике данных не поддерживаются в потоке данных сопоставления. Чтобы преобразовать данные из одного из этих источников, загрузите их в поддерживаемый источник с помощью действия копирования.

    Снимок экрана: портал Azure добавления нового набора данных База данных SQL Azure в поток данных.

  4. Вызовите набор данных "TripFares". Выберите "SQLDB" в качестве связанной службы. Выберите имя dbo.TripFares таблицы из раскрывающегося списка имен таблицы. Импортируйте схему From connection/store (из подключения/хранилища). Закончив, выберите OK.

    Снимок экрана: портал Azure свойств добавления нового набора данных База данных SQL Azure в поток данных.

  5. Чтобы проверить свои данные, вызовите предварительный просмотр данных на вкладке Предварительный просмотр данных.

    Снимок экрана: портал Azure предварительного просмотра данных другого источника данных в потоке данных.

Внутреннее соединение TripDataCSV и TripFaresSQL

  1. Чтобы добавить новое преобразование, выберите значок плюса в правом нижнем углу "TripDataCSV". В разделе Multiple inputs/outputs (Несколько входных/выходных данных) выберите Присоединить.

    Снимок экрана: портал Azure кнопки соединения в источниках данных в потоке данных.

  2. Назовите преобразование соединения "InnerJoinWithTripFares". Выберите TripFaresSQL в раскрывающемся списке справа. Выберите в качестве типа соединения Внутреннее. Дополнительные сведения о различных типах соединения в потоке данных для сопоставления см. join types (Типы соединения).

    Выберите столбцы, которые нужно сопоставить из каждого потока, в раскрывающемся списке условий соединения. Чтобы добавить дополнительное условие присоединения, выберите значок плюса рядом с существующим условием. По умолчанию все условия соединения объединены с оператором "И". Это означает, что для совпадения нужно выполнить все условия. В этой тестовой службе мы хотим сопоставить столбцы medallion, hack_license, vendor_id, и pickup_datetime

    Снимок экрана: портал Azure параметров соединения потока данных.

  3. Убедитесь, что успешно соединили 25 колонок, используя предварительный просмотр данных.

    Снимок экрана: портал Azure предварительного просмотра данных потока данных с присоединенными источниками данных.

Агрегирование по payment_type

  1. После завершения преобразования соединения добавьте агрегатное преобразование, выбрав значок плюса рядом с InnerJoinWithTripFares. Выберите Статическая обработка в разделе Schema modifier (Модификатор схемы).

    Снимок экрана: портал Azure новой кнопки агрегата.

  2. Назовите преобразование статистической обработки "AggregateByPaymentType". Выберите payment_type как группу по столбцам.

    Снимок экрана: портал Azure агрегатных параметров.

  3. Перейдите на вкладку "Агрегаты ". Укажите два агрегата:

    • Средний тариф, сгруппированный по типу оплаты;
    • Общее расстояние поездки, сгруппированное по типу оплаты.

    Сначала создается среднее выражение тарифа. В текстовом поле с пометкой Add or select a column (Добавить или выбрать столбец), введите "average_fare".

    Снимок экрана: портал Azure параметра Grouped по параметру в агрегатных параметрах.

  4. Чтобы ввести выражение агрегирования, выберите синее поле с меткой ВВОД, которое открывает построитель выражений потока данных, инструмент, используемый для визуального создания выражений потока данных с помощью входной схемы, встроенных функций и операций, а также пользовательских параметров. Дополнительные сведения о возможностях конструктора выражений см. Build expressions in mapping data flow(Создание выражений в потоке данных сопоставления).

    Чтобы получить средний тариф, используйте функцию агрегации avg() для агрегирования столбца total_amount, приведенного к целому числу с toInteger(). В языке выражения потока данных это определяется как avg(toInteger(total_amount)). После завершения настройки нажмите Сохранить и завершить.

    Снимок экрана: портал Azure построителя визуальных выражений, показывающий агрегатную функцию avg(toInteger(total_amount)).

  5. Чтобы добавить дополнительное агрегирование выражения, щелкните значок плюса рядом average_fareс ним. Выберите Добавить столбец.

    Снимок экрана: портал Azure кнопки добавления столбца в параметрах агрегата, сгруппированных по параметру.

  6. В текстовом поле с пометкой Add or select a column (Добавить или выбрать столбец), введите "total_trip_distance". Аналогично к последнему шагу, откройте построитель выражений, чтобы ввести выражение.

    Чтобы получить данные об общей дистанции поездки, используйте функцию агрегации sum() для агрегирования столбца trip_distance, приведенного к целому числу с toInteger(). В языке выражения потока данных это определяется как sum(toInteger(trip_distance)). После завершения настройки нажмите Сохранить и завершить.

    Снимок экрана: портал Azure двух столбцов в агрегатных параметрах, сгруппированных по параметру.

  7. Проверьте логику преобразования на вкладке "Предварительный просмотр данных". Как видно, есть меньше строк и столбцов, чем раньше. Только три столбца "Группировать по" и "Агрегирование", определенные в этом преобразовании, продолжают передавать данные в нисходящем направлении. Так как в образце всего пять групп типа оплаты, выводится только пять строк.

    Снимок экрана: портал Azure предварительного просмотра статистических данных.

Настройка приемника Azure Synapse Analytics

  1. Теперь, когда мы завершили логику преобразования, мы готовы поставить данные в таблицу Azure Synapse Analytics. Добавьте преобразование "приемник" в раздел Назначение.

    Снимок экрана: портал Azure кнопки добавления приемника в поток данных.

  2. Назовите приемник "SQLDWSink". Выберите Создать рядом с полем набора данных приемника, чтобы создать новый набор данных Azure Synapse Analytics.

    Снимок экрана: портал Azure новой кнопки набора данных приемника в параметрах приемника.

  3. Выберите плитку Azure Synapse Analytics и нажмите кнопку "Продолжить".

    Снимок экрана: портал Azure нового набора данных Azure Synapse Analytics для нового приемника данных.

  4. Вызовите набор данных "AggregatedTaxiData". Выберите "SQLDW" в качестве связанной службы. Выберите "Создать новую таблицу" и назовите новую таблицуdbo.AggregateTaxiData. Закончив, выберите OK.

    Снимок экрана: портал Azure создания новой таблицы для приемника данных.

  5. Перейдите на вкладку Параметры приемника. Так как мы создадим новую таблицу, необходимо выбрать повторно созданную таблицу в действии таблицы. Отмена выбора параметра "Включить промежуточное", которое переключает, вставляется ли строка по строкам или в пакет.

    Снимок экрана: портал Azure параметров приемника данных, параметр

Вы успешно создали свой поток данных. Теперь пора выполнить его в действии конвейера.

Комплексная отладка конвейера

  1. Вернитесь на вкладку конвейера IngestAndTransformData. Обратите внимание на зеленое поле в действии копирования "IngestIntoADLS". Перетащите его в действие потока данных "JoinAndAggregateData". При этом создается "при успешном выполнении", что приводит к выполнению действия потока данных только в том случае, если копирование прошло успешно.

    Снимок экрана: портал Azure зеленого конвейера успешного выполнения.

  2. Как и для действия копирования, выберите Отладка, чтобы выполнить отладку. Для выполнения отладки действие потока данных использует активный кластер отладки вместо спинирования нового кластера. Выполнение этого конвейера занимает чуть более минуты.

    Снимок экрана: портал Azure кнопки отладки потока данных для конвейера успешного выполнения.

  3. Как и в случае с действием копирования, поток данных имеет специальное представление мониторинга, доступ к которому осуществляется с помощью иконки "Очки" по завершении действия.

    Снимок экрана: портал Azure выходного монитора в конвейере.

  4. В представлении мониторинга можно увидеть упрощенный граф потока данных, а также время выполнения и строки на каждом этапе выполнения. Если все сделано правильно, то в этой деятельности вы должны были объединить 49 999 строк в пять.

    Снимок экрана: портал Azure сведений о мониторе вывода в конвейере.

  5. Вы можете выбрать преобразование, чтобы получить дополнительную информацию о его выполнении, такую как сведения о секционировании и новых/обновленных/удаленных столбцах.

    Снимок экрана: портал Azure сведений о потоке в мониторе выходных данных конвейера.

Теперь часть, посвященную фабрике данных в этой тестовой службе завершено. Опубликуйте свои ресурсы, если хотите использовать их с помощью триггеров. Вы успешно запустили конвейер, который передавал данные из базы данных SQL Azure в Azure Data Lake Storage с помощью действия копирования, а затем объединили эти данные в Azure Synapse Analytics. Чтобы убедиться, что данные успешно записаны, взгляните на SQL Server.

Совместное использование данных с помощью Azure Data Share

В этом разделе описано, как настроить новую общую папку данных с помощью портал Azure. Это включает создание общего ресурса данных, содержащего наборы данных из Azure Data Lake Storage 2-го поколения и Azure Synapse Analytics. Затем вы настроите расписание моментальных снимков, которое предоставит потребителям данных возможность автоматически обновлять данные, к которым для них предоставлен общий доступ. После этого вы отправите приглашение получателям доступа к общему ресурсу данных.

После создания общего ресурса данных вы переключите джойстик и станете потребителем данных. Будучи потребителем данных, вы пройдете через процесс принятия приглашения к общему ресурсу данных, настраивая место получения данных, и сопоставляя наборы данных с различными местами хранения. Затем вы активируете моментальный снимок, который будет копировать данные, к которым вы поделились, в указанное место назначения.

Общий доступ к данным (поток поставщика данных)

  1. Откройте портал Azure в Microsoft Edge или Google Chrome.

  2. Используя строку поиска в верхней части страницы, выполните поиск по фразе Общие ресурсы данных.

    Снимок экрана: портал Azure поиска общих папок данных в строке поиска портал Azure.

  3. Выберите учетную запись общего ресурса данных со словом "Provider" в имени. Например, DataProvider0102.

  4. Выберите команду Начать совместное использование данных.

    Снимок экрана: портал Azure кнопки

  5. Выберите +Cоздать, чтобы начать настройку нового общий ресурс данных общей папки данных.

  6. Укажите для параметра Имя общего ресурса имя по своему усмотрению. Это имя общего ресурса, которое будет отображаться потребителем данных, поэтому обязательно присвойте ему описательное имя, например TaxiData.

  7. В разделе Описаниевведите предложение, в котором описано содержимое общего ресурса данных. Общая папка данных содержит данные о поездке на такси, хранящиеся в различных магазинах, включая Azure Synapse Analytics и Azure Data Lake Storage.

  8. В разделе Условия использованияукажите набор условий, которым должен соответствовать потребитель данных. Некоторые примеры включают "Не распространять эти данные за пределы организации" или "Обратиться к юридическому соглашению".

    Снимок экрана: портал Azure сведений о общей папке данных в отправленных общих папках.

  9. Выберите Продолжить.

  10. Выберите Добавить наборы данных

    Снимок экрана: портал Azure кнопки

  11. Щелкните Azure Synapse Analytics, чтобы выбрать таблицу из Azure Synapse Analytics, в которую попали ваши преобразования из ADF.

  12. Перед продолжением вы запустите скрипт. Предоставленный сценарий создает пользователя в базе данных SQL, чтобы позволить MSI Azure Data Share аутентифицироваться от его имени.

    Внимание

    Перед выполнением скрипта необходимо настроить себя в качестве администратора Active Directory для логического СЕРВЕРА SQL База данных SQL Azure.

  13. Откройте новую вкладку и перейдите на портал Azure. Скопируйте предоставленный скрипт для создания пользователя в базе данных, для данных которой вы хотите предоставить общий доступ. Для этого войдите в базу данных EDW с помощью редактора запросов портал Azure с помощью проверки подлинности Microsoft Entra. Необходимо изменить пользователя в следующем примере скрипта:

    CREATE USER [dataprovider-xxxx@contoso.com] FROM EXTERNAL PROVIDER; 
    ALTER ROLE db_owner ADD MEMBER [wiassaf@microsoft.com];
    
  14. Вернитесь к Azure Data Share, в котором вы добавляли наборы данных в общий ресурс данных.

  15. Выберите EDW, а затем AggregatedTaxiData для таблицы.

  16. Выберите Добавить набор данных

    Теперь у нас есть таблица SQL, которая является частью набора данных. Далее мы добавим дополнительные наборы данных из Azure Data Lake Storage.

  17. Выберите "Добавить набор данных" и выберите Azure Data Lake Storage 2-го поколения

    Снимок экрана: портал Azure добавления набора данных ADLS 2-го поколения.

  18. Выберите Далее

  19. Разверните wwtaxidata. Разверните Сведения о такси в Бостоне. Вы можете предоставить общий доступ к уровню файла.

  20. Выберите папку Сведения о такси в Бостоне, чтобы добавить всю папку в общий ресурс данных.

  21. Выберите Добавить наборы данных

  22. Просмотрите добавленные наборы данных. К вашему общему ресурсу данных должна быть добавлена таблица SQL и папка ADLS 2-го поколения.

  23. Выберите Продолжить

  24. На этом экране вы можете добавить получателей для общего доступа к данным. Получатели, которых вы добавите, получат приглашения для доступа к общему ресурсу данных. Для этой лаборатории необходимо добавить два адреса электронной почты:

    1. Адрес электронной почты подписки Azure, с помощью которой вы выполнили вход.

      Снимок экрана: портал Azure добавления получателей к общей папке данных.

    2. Добавьте вымышленного потребителя данных с именем janedoe@fabrikam.com.

  25. На этом экране можно настроить пункт "Параметр моментального снимка" для потребителя данных. Это позволяет им получать регулярные обновления данных через интервал, определенный вами.

  26. Проверьте расписание моментальных снимков и настройте почасовое обновление данных с помощью раскрывающегося списка повторений .

  27. Нажмите кнопку создания.

    Теперь вы имеете активный общий ресурс данных. Просмотрим, что выступает поставщиком данных при создании общего ресурса данных.

  28. Выберите созданный общий доступ к данным под заголовком DataProvider. Вы можете перейти к нему, выбрав Отправленные общие папки в Общий ресурс данных.

  29. Выберите пункт "Расписание моментальных снимков". Вы можете отключить расписание снимков по вашему выбору.

  30. Затем выберите вкладку "Наборы данных". Вы можете добавить дополнительные наборы данных в эту общую папку данных после его создания.

  31. Выберите вкладку "Общие подписки ". Подписки общего доступа еще не существуют, так как ваш потребитель данных еще не принял приглашение.

  32. Перейдите на вкладку "Приглашения". Здесь вы увидите список ожидающих приглашений.

    Снимок экрана: портал Azure ожидающих приглашений.

  33. Выберите приглашение для janedoe@fabrikam.com. Выберите команду Удалить. Если ваш получатель еще не принял приглашение, он больше не сможет этого сделать.

  34. Выберите вкладку "Журнал ". Пока ничего не отображается, так как ваш потребитель данных еще не принял приглашение и активировал моментальный снимок.

Получение данных (поток потребителя данных)

Теперь, после просмотра общего ресурса данных, мы готовы поменять контекст и переключить на работу в качестве потребителя данных.

В вашем почтовом ящике должно быть приглашение Azure Data Share от Microsoft Azure. Запустите Outlook Web Access (outlook.com) и войдите с помощью учетных данных, предоставленных для подписки Azure.

В письме, которое вы должны были получить, нажмите "Просмотреть приглашение >". На данном этапе вы будете имитировать опыт потребителя данных при принятии приглашения поставщиков данных на доступ к их общему ресурсу данных.

Снимок экрана: Outlook для приглашения по электронной почте.

Возможно, вам будет предложено выбрать подписку. Убедитесь, что выбрали подписку, с помощью которой работали в этой тестовой службе.

  1. Выберите приглашение под названием DataProvider.

  2. На этом экране приглашения обратите внимание на различные сведения о общей папке данных, настроенной ранее в качестве поставщика данных. Просмотрите детали и примите условия использования, если они предоставлены.

  3. Выберите подписку и группу ресурсов, уже существующие в тестовой службе.

  4. Для пункта Учетная запись Data Share выберите DataConsumer. Кроме того, вы можете создать новую учетную запись Data Share.

  5. Рядом с именем полученной общей папки обратите внимание, что имя общего ресурса по умолчанию — это имя, указанное поставщиком данных. Дайте ресурсу понятное имя, которое описывает данные, которые вы собираетесь получить, например TaxiDataShare.

    Снимок экрана: портал Azure страницы для принятия и настройки общей папки данных.

  6. Вы можете выбрать между вариантами Accept and configure now (Принять и настроить) или Accept and configure later (Принять и настроить позже). Если вы решили принять и настроить сейчас, укажите учетную запись хранения, в которой должны быть скопированы все данные. Если вы выберете "Принять и настроить позже", наборы данных в общем ресурсе будут распакованы, и вам нужно будет сопоставить их вручную. Мы выберем это позже.

  7. Выберите Accept and configure later (Принять и настроить позже).

    При настройке этого параметра создается подписка на общую папку, но данные не помещается, так как назначение не было сопоставлено.

    Затем настройте сопоставления наборов данных для общей папки данных.

  8. Выберите "Received Share" (Полученный общий ресурс) (имя, которое вы указали на шаге 5).

    Действие Активировать моментальный снимок будет выделено серым цветом, однако общий ресурс будет активен.

  9. Перейдите на вкладку "Наборы данных". Каждый набор данных не сопоставляется, что означает, что он не имеет назначения для копирования данных в.

    Снимок экрана: портал Azure несопоставленных наборов данных.

  10. Выберите таблицу Azure Synapse Analytics, а затем — + Сопоставить с целевым объектом.

  11. В правой части экрана выберите раскрывающийся список "Целевой тип данных".

    Вы можете сопоставить данные SQL с широким спектром хранилищ данных. В этом примере мы будем выполнять сопоставление с Базой данных SQL Azure.

    Снимок экрана: портал Azure наборов данных карты с целевым объектом.

    (Необязательно) Выберите Azure Data Lake Storage 2-го поколения в качестве целевого типа данных.

    (Дополнительно) Выберите подписку, группу ресурсов и учетную запись хранения, в которой вы работали.

    (Дополнительно) Вы можете выбрать получение данных в озере данных в формате CSV или parquet.

  12. Рядом с Целевой тип данных выберите Базу данных SQL.

  13. Выберите подписку, группу ресурсов и учетную запись хранения, в которой вы работали.

    Снимок экрана: портал Azure наборов данных карты с целевым База данных SQL Azure.

  14. Перед тем, как продолжить, необходимо создать нового пользователя в SQL Server, запустив предоставленный скрипт. Скопируйте предоставленный скрипт в буфер обмена.

  15. Откройте новую вкладку портал Azure. Не закрывайте существующую вкладку, так как вам потребуется вернуться к ней через некоторое время.

  16. В новой открытой вкладке перейдите к пункту Базы данных SQL.

  17. Выберите базу данных SQL (она должна быть единственной в вашей подписке). Следите за тем, чтобы не выбрать хранилище данных.

  18. Выберите Редактор запросов (предварительная версия)

  19. Используйте проверку подлинности Microsoft Entra для входа в редактор запросов.

  20. Выполните запрос, предоставленный в общем ресурсе данных (скопированный в буфер обмена на шаге 14).

    Эта команда позволяет службе Azure Data Share использовать управляемые удостоверения для Служб Azure, чтобы выполнять проверку подлинности на SQL Server и иметь возможность копировать в него данные.

  21. Вернитесь на исходную вкладку и выберите Сопоставить с целевым объектом.

  22. Затем выберите папку Azure Data Lake Storage 2-го поколения, которая входит в набор данных, и сопоставите ее с учетной записью Хранилище BLOB-объектов Azure.

    Снимок экрана: портал Azure наборов данных карты с целевым Хранилище BLOB-объектов Azure.

    Теперь, когда все наборы данных сопоставлены, вы готовы начать получать данные от поставщика данных.

    Снимок экрана: портал Azure полученных общих папок, сопоставленных.

  23. Выберите Сведения.

    Моментальный снимок триггера больше не серый, так как общий ресурс данных теперь имеет назначения для копирования.

  24. Выберите моментальный снимок триггера ->Полная копия.

    Снимок экрана: портал Azure моментального снимка триггера, параметр полного копирования.

    При этом начинается копирование данных в новую учетную запись общего ресурса данных. В реальной ситуации эти данные поступают от стороннего производителя.

    Для получения данных требуется примерно 3–5 минут. Вы можете отслеживать ход выполнения, выбрав на вкладке "Журнал ".

    Подождите, перейдите к исходной общей папке данных (DataProvider) и просмотрите состояние вкладки "Общие подписки " и "Журнал ". Теперь есть активная подписка, и в качестве поставщика данных вы также можете отслеживать, когда потребитель данных начал получать данные, к которым им предоставлен доступ.

  25. Вернитесь к общей папке потребителя данных. Сразу после успешной активации перейдите к целевой базе данных SQL и озеру данных, чтобы проверить, что данные передано в соответствующие хранилища.

Поздравляем, вы завершили работу с тестовой службой!