Основные понятия структурированной потоковой передачи
В этой статье приведены общие сведения о структурированной потоковой передаче в Azure Databricks.
Что такое структурированная потоковая передача?
Структурированная потоковая передача Apache Spark — это механизм обработки практически в режиме реального времени, который предлагает сквозную отказоустойчивость с гарантией обработки точно один раз с помощью знакомых API Spark. Структурированная потоковая передача позволяет выражать вычисления с данными потоковой передачи таким же образом, как для пакетных вычислений по статическим данным. Механизм структурированной потоковой передачи выполняет инкрементное вычисление и постоянно обновляет результат по мере поступления потоковых данных.
Чтение из потока данных
Структурированная потоковая передача можно использовать для добавочного приема данных из поддерживаемых источников данных. К общим источникам данных относятся следующие:
- Файлы данных в облачном хранилище объектов. См. статью об автозагрузчике.
- Шины сообщений и очереди. См. раздел "Настройка источников данных потоковой передачи".
- Delta Lake. См. раздел Delta table потоковые операции чтения и записи.
Каждый источник данных предоставляет ряд параметров для указания способа загрузки пакетов данных. Во время настройки чтения может потребоваться настроить параметры для выполнения следующих действий:
- Укажите источник данных или формат (например, тип файла, разделители и schema).
- Настройте доступ к исходным системам (например, параметры порта и credentials).
- Укажите where для начала работы в потоке (например, смещения Kafka или чтения всех существующих файлов).
- Управление объемом данных, обрабатываемых в каждом пакете (например, максимальное смещение, файлы или байты на пакет). Сведения о настройке размера пакета структурированной потоковой передачи в Azure Databricks.
Запись в приемник данных
Приемник данных — это цель операции потоковой записи. К общим приемникам, используемым в рабочих нагрузках потоковой передачи Azure Databricks, относятся следующие:
- Delta Lake
- Автобусы сообщений и очереди
- Базы данных "Ключ-значение"
Как и в случае с источниками данных, большинство приемников данных предоставляют ряд параметров для управления записью данных в целевую систему. Во время настройки записи укажите следующие параметры:
- Режим вывода (добавляется по умолчанию). См. Select режим вывода для структурированной потоковой передачи.
- Расположение контрольной точки (необходимо для каждого модуля записи). См . структурированные контрольные точки потоковой передачи.
- Интервалы триггера. См. раздел "Настройка интервалов триггера структурированной потоковой передачи".
- Параметры, указывающие приемник данных или формат (например, тип файла, разделители и schema).
- Параметры, которые настраивают доступ к целевым системам (например, параметры порта и credentials).