Поделиться через


Основные понятия структурированной потоковой передачи

В этой статье приведены общие сведения о структурированной потоковой передаче в Azure Databricks.

Что такое структурированная потоковая передача?

Структурированная потоковая передача Apache Spark — это механизм обработки практически в режиме реального времени, который предлагает сквозную отказоустойчивость с гарантией обработки точно один раз с помощью знакомых API Spark. Структурированная потоковая передача позволяет выражать вычисления с данными потоковой передачи таким же образом, как для пакетных вычислений по статическим данным. Механизм структурированной потоковой передачи выполняет инкрементное вычисление и постоянно обновляет результат по мере поступления потоковых данных.

Чтение из потока данных

Структурированная потоковая передача можно использовать для добавочного приема данных из поддерживаемых источников данных. К общим источникам данных относятся следующие:

Каждый источник данных предоставляет ряд параметров для указания способа загрузки пакетов данных. Во время настройки чтения может потребоваться настроить параметры для выполнения следующих действий:

  • Укажите источник данных или формат (например, тип файла, разделители и schema).
  • Настройте доступ к исходным системам (например, параметры порта и credentials).
  • Укажите where для начала работы в потоке (например, смещения Kafka или чтения всех существующих файлов).
  • Управление объемом данных, обрабатываемых в каждом пакете (например, максимальное смещение, файлы или байты на пакет). Сведения о настройке размера пакета структурированной потоковой передачи в Azure Databricks.

Запись в приемник данных

Приемник данных — это цель операции потоковой записи. К общим приемникам, используемым в рабочих нагрузках потоковой передачи Azure Databricks, относятся следующие:

  • Delta Lake
  • Автобусы сообщений и очереди
  • Базы данных "Ключ-значение"

Как и в случае с источниками данных, большинство приемников данных предоставляют ряд параметров для управления записью данных в целевую систему. Во время настройки записи укажите следующие параметры: