SQL-Datenbanken mit dem Apache Spark-Connector
Der Apache Spark-Connector für Azure SQL-Datenbank und SQL Server ermöglicht es diesen Datenbanken, als Eingabedatenquellen und Ausgabedatensenken für Apache Spark-Aufträge zu fungieren. So können Echtzeittransaktionsdaten in der Big Data-Analyse genutzt und Ergebnisse für Ad-hoc-Abfragen oder Berichterstellung dauerhaft gespeichert werden.
Im Vergleich zum integrierten JDBC-Connector bietet dieser Connector die Möglichkeit, Daten per Massenvorgang in SQL-Datenbanken einzufügen. Dies führt zu einer erheblichen Leistungssteigerung: Daten können gegenüber einer zeilenweisen Einfügung 10- bis 20-mal schneller eingefügt werden. Der Spark-Connector für SQL Server und Azure SQL-Datenbank unterstützt auch die Microsoft Entra ID-Authentifizierung, sodass Sie mithilfe Ihres Microsoft Entra ID-Kontos eine sichere Verbindung mit Ihren Azure SQL-Datenbanken von Azure Databricks herstellen können. Er stellt Schnittstellen bereit, die dem integrierten JDBC-Connector ähneln. Die Migration Ihrer vorhandenen Spark-Aufträge zu diesem Connector ist sehr einfach durchzuführen.
Anforderungen
Es gibt zwei Versionen des Spark-Connectors für SQL Server: eine für Spark 2.4 und eine für Spark 3.x. Der Spark 3.x-Connector erfordert Databricks Runtime 7.x oder höher. Der Connector wird von der Community unterstützt und umfasst keinen SLA-Support von Microsoft. Erstellen Sie alle Probleme auf GitHub, um die Community um Hilfe zu bitten.
Komponente | Unterstützte Versionen |
---|---|
Apache Spark | 3.0.x und 2.4x |
Databricks Runtime | Apache Spark 3.0-Connector: Databricks Runtime 7.x und höhere Versionen |
Scala | Apache Spark 3.0-Connector: 2.12 Apache Spark 2.4-Connector: 2.11 |
Microsoft JDBC-Treiber für SQL Server | 8,2 |
Microsoft SQL Server | SQL Server 2008 und höher |
Azure SQL-Datenbank | Unterstützt |
Verwenden des Spark-Connectors
Anweisungen zur Verwendung des Spark-Connectors finden Sie unter Apache Spark-Connector: SQL Server und Azure SQL.