Потоковая передача в Azure Databricks
Azure Databricks можно использовать для приема, обработки, обработки, машинного обучения и искусственного интеллекта для потоковой передачи данных.
Azure Databricks предлагает множество оптимизаций для потоковой и добавочной обработки, включая следующие:
- Delta Live Tables предоставляет декларативный синтаксис для добавочной обработки. См. Что такое Delta Live Tables?.
- Автозагрузчик упрощает добавочное прием из облачного хранилища объектов. См. статью об автозагрузчике.
- Unity Catalog добавляет управление данными в стриминговые рабочие нагрузки. См. Использование Catalog Unity с структурированным потоковым.
Delta Lake предоставляет уровень хранения для этих интеграции. См. раздел Delta table потоковые операции чтения и записи.
Для обслуживания моделей в режиме реального времени см. раздел Развертывание моделей с использованием Mosaic AI для обслуживания.
-
Ознакомьтесь с основами практически в реальном времени и добавочной обработкой с помощью структурированной потоковой передачи в Azure Databricks.
-
Ознакомьтесь с основными понятиями для настройки добавочных и практически в реальном времени рабочих нагрузок с помощью структурированной потоковой передачи.
Потоковая передача с отслеживанием состояния
Управление сведениями о промежуточном состоянии для запросов структурированной потоковой передачи с отслеживанием состояния позволяет предотвратить непредвиденные задержки и проблемы в рабочей среде.
-
Эта статья содержит рекомендации по настройке рабочих нагрузок добавочной обработки с помощью структурированной потоковой передачи в Azure Databricks, чтобы выполнить требования к задержкам и затратам для приложений, работающих в реальном времени, или пакетных приложений.
-
Сведения о том, как отслеживать приложения структурированной потоковой передачи в Azure Databricks.
-
Узнайте, как использовать Unity Catalog в сочетании со структурированной потоковой передачей в Azure Databricks.
Потоковая передача с помощью Delta
Узнайте, как использовать Delta Lake tables в качестве источников потоковой передачи и приемников.
-
См. примеры использования структурированной потоковой передачи Spark с Cassandra, Azure Synapse Analytics, записными книжками Python и записными книжками Scala в Azure Databricks.
Azure Databricks имеет определенные функции для работы с полуструктурированных полей данных, содержащихся в avro, буферах протокола и полезных данных JSON. Дополнительные сведения см. на следующих ресурсах:
Дополнительные ресурсы
Apache Spark предоставляет руководство по программированию структурированной потоковой передачи, которое содержит дополнительные сведения о структурированной потоковой передаче.
Для получения справочных сведений о структурированной потоковой передаче Databricks рекомендует следующие ссылки на API Apache Spark: