Поделиться через


Краткое руководство. Создание первого потока данных для получения и преобразования данных

Потоки данных — это самостоятельная облачная технология подготовки данных. В этой статье вы создадите первый поток данных, получите данные для потока данных, а затем преобразуете данные и опубликуете поток данных.

Необходимые компоненты

Перед началом работы требуются следующие предварительные требования:

Создание потока данных

В этом разделе вы создаете первый поток данных.

  1. Перейдите к интерфейсу фабрики данных.

  2. Перейдите в рабочую область Microsoft Fabric.

    Снимок экрана: окно рабочих областей, в котором вы перейдете к рабочей области.

  3. Выберите "Создать" и выберите "Поток данных 2-го поколения".

    Снимок экрана: выделенный фрагмент потока данных 2-го поколения.

Получить данные

Давайте получим некоторые данные! В этом примере вы получаете данные из службы OData. Чтобы получить данные в потоке данных, выполните следующие действия.

  1. В редакторе потока данных выберите " Получить данные " и нажмите кнопку "Дополнительно".

    Снимок экрана: выбранный параметр

  2. В разделе "Выбор источника данных" выберите "Просмотреть больше".

    Снимок экрана: получение источника данных с более выделенным представлением.

  3. В новом источнике выберите "Другие>OData" в качестве источника данных.

    Снимок экрана: получение источника данных с другой категорией и выделенным соединителем OData.

  4. Введите URL-адрес https://services.odata.org/v4/northwind/northwind.svc/и нажмите кнопку "Далее".

    Снимок экрана: источник данных OData, в котором вы вводите URL-адрес данных.

  5. Выберите таблицы "Заказы и клиенты", а затем нажмите кнопку "Создать".

    Снимок экрана: навигатор Power Query с выделенными таблицами

Дополнительные сведения о работе с данными и функциональных возможностях см. в статье "Получение данных".

Применение преобразований и публикация

Вы загрузили данные в свой первый поток данных. Поздравляю! Теперь пришло время применить несколько преобразований, чтобы перенести эти данные в нужную форму.

Эта задача выполняется из редактора Power Query. Подробный обзор редактора Power Query можно найти в пользовательском интерфейсе Power Query.

Выполните следующие действия, чтобы применить преобразования и опубликовать:

  1. Убедитесь, что средства профилирования данных включены, перейдя к >

    Снимок экрана: глобальные параметры с выделенными выделенными параметрами профиля столбца.

    Кроме того, включите представление схемы с помощью параметров на вкладке Представление в ленте редактора Power Query или выбрав значок представления схемы в правой нижней части окна Power Query.

    Снимок экрана: общий вид представления схемы Power Query.

  2. В таблице "Заказы" вычислите общее количество заказов на каждого клиента. Чтобы достичь этой цели, выберите столбец CustomerID в предварительном просмотре данных и выберите группировать повкладке "Преобразование " на ленте.

    Снимок экрана: выбранная таблица

  3. Количество строк выполняется в виде агрегирования в группе By. Дополнительные сведения о возможностях Group By см. в разделе "Группирование" или "Суммирование строк".

    Снимок экрана: группа по, где выбрана операция

  4. После группировки данных в таблице Orders мы получим таблицу с двумя столбцами с CustomerID и Count в качестве столбцов.

    Снимок экрана: таблица двух столбцов.

  5. Затем необходимо объединить данные из таблицы "Клиенты" с числом заказов на клиента. Чтобы объединить данные, выберите запрос "Клиенты" в представлении диаграммы и используйте меню "⋮" для доступа к запросам слияния в качестве нового преобразования.

    Снимок экрана редактора потока данных с вертикальным многоточием таблицы

  6. Настройте операцию слияния, как показано на следующем снимке экрана, выбрав CustomerID в качестве соответствующего столбца в обеих таблицах. Затем выберите ОК.

    Снимок экрана: окно слияния.

    Снимок экрана: окно слияния с левой таблицей для слияния, заданной в таблице Customers, и правой таблицей для слияния, заданной в таблице Orders. Столбец CustomerID выбран для таблиц "Клиенты" и "Заказы". Кроме того, тип соединения имеет значение "Левый внешний". Все остальные выборы задаются по умолчанию.

  7. После выполнения запросов слияния в качестве новой операции вы получите новый запрос со всеми столбцами из таблицы Customers и одного столбца с вложенными данными из таблицы Orders.

    Снимок экрана редактора потоков данных с новым запросом слияния, добавленным справа от таблиц

  8. В этом примере вы заинтересованы только в подмножестве столбцов в таблице Customers. Вы выбираете эти столбцы с помощью представления схемы. Включите представление схемы в кнопке переключателя в правом нижнем углу редактора потоков данных.

    Снимок экрана: редактор потоков данных с кнопкой представления схемы, подчеркнутой в правом нижнем углу.

  9. Представление схемы предоставляет ориентированное представление в сведениях о схеме таблицы, включая имена столбцов и типы данных. Представление схемы содержит набор средств схемы, доступных на вкладке контекстной ленты. В этом сценарии вы выбираете столбцы CustomerID, CompanyName и Orders (2), а затем нажмите кнопку "Удалить столбцы" и выберите "Удалить другие столбцы" на вкладке "Средства схемы".

    Снимок экрана: представление схемы со всеми доступными именами столбцов с выделенными столбцами CustomerID, CompanyName и Orders (2).

    Снимок экрана: меню средств схемы с выделенным элементом

  10. Столбец Orders (2) содержит вложенные сведения, полученные из операции слияния, которую вы выполнили несколько шагов назад. Теперь переключитесь в представление данных, нажав кнопку "Показать представление данных" рядом с кнопкой "Показать представление схемы" в правом нижнем углу пользовательского интерфейса. Затем используйте преобразование "Развернуть столбец " в заголовке столбца Orders (2) для выбора столбца Count .

    Снимок экрана: использование представления данных.

  11. В качестве последней операции вы хотите ранжировать клиентов на основе их количества заказов. Выберите столбец Count и нажмите кнопку "Ранжирование столбца" на вкладке "Добавить столбец" на ленте.

    Снимок экрана: редактор потоков данных с выбранным столбцом Count.

  12. Сохраните параметры по умолчанию в столбце ранжирования. Затем нажмите кнопку "ОК ", чтобы применить это преобразование.

    Снимок экрана: окно ранжирования со всеми параметрами по умолчанию.

  13. Теперь переименуйте полученный запрос в качестве ранжированных клиентов с помощью области параметров запроса справа от экрана.

    Снимок экрана редактора потоков данных с именем

  14. После завершения преобразования и объединения данных можно настроить параметры назначения выходных данных. Выберите назначение данных в нижней части области параметров запроса.

    Снимок экрана: редактор потоков данных с выделенным расположением выделенного выбора назначения данных.

  15. На этом шаге можно настроить выходные данные в lakehouse, если у вас есть один доступный, или пропустить этот шаг, если вы этого не сделали. В рамках этого интерфейса вы можете настроить целевой lakehouse и таблицу для результатов запроса в дополнение к методу обновления (добавление или замена).

    Снимок экрана: окно

    Снимок экрана: окно

  16. Поток данных теперь готов к публикации. Просмотрите запросы в представлении диаграммы и выберите " Опубликовать".

    Снимок экрана: редактор потоков данных с кнопкой

    Теперь вы вернелись в рабочую область. Значок спиннера рядом с именем потока данных указывает, что публикация выполняется. После завершения публикации поток данных будет готов к обновлению!

    Внимание

    При создании первого поколения Dataflow 2-го поколения в рабочей области элементы Lakehouse и Warehouse подготавливаются вместе с соответствующими конечными точками аналитики SQL и семантической моделями. Эти элементы разделяются всеми потоками данных в рабочей области и требуются для работы потока данных 2-го поколения, не следует удалять и не предназначены для непосредственного использования пользователями. Элементы — это сведения о реализации потока данных 2-го поколения. Элементы не отображаются в рабочей области, но могут быть доступны в других интерфейсах, таких как записная книжка, конечная точка аналитики SQL, Lakehouse и хранилище. Элементы можно распознать по их префиксу в имени. Префикс элементов — DataflowsStaging.

  17. В рабочей области выберите значок "Запланировать обновление ".

    Снимок экрана: рабочая область с выделенным значком обновления расписания.

  18. Включите запланированное обновление, нажмите кнопку "Добавить еще раз" и настройте обновление, как показано на следующем снимке экрана.

    Снимок экрана: выбор другого времени.

    Снимок экрана: параметры запланированного обновления с включенным запланированным обновлением, частота обновления— Daily, часовой пояс, заданный для координированного универсального времени, и время 4:00. Кнопка "Добавить другое время", владелец потока данных и кнопка "Применить" все выделены.

Очистка ресурсов

Если вы не собираетесь продолжать использовать этот поток данных, удалите поток данных, выполнив следующие действия.

  1. Перейдите в рабочую область Microsoft Fabric.

    Снимок экрана: окно рабочих областей, в котором вы перейдете к рабочей области.

  2. Выберите вертикальное многоточие рядом с именем потока данных и нажмите кнопку "Удалить".

    Снимок экрана с тремя вертикальными точками и параметром удаления в раскрывающемся меню.

  3. Выберите "Удалить" , чтобы подтвердить удаление потока данных.

    Снимок экрана: окно

Поток данных в этом примере показывает, как загружать и преобразовывать данные в поток данных 2-го поколения. Вы научились выполнять следующие задачи:

  • Создание потока данных 2-го поколения.
  • Преобразовать данные.
  • Настройте параметры назначения для преобразованных данных.
  • Запустите и запланируйте конвейер данных.

Перейдите к следующей статье, чтобы узнать, как создать первый конвейер данных.