Freigeben über


SQL-Datenbanken mit dem Apache Spark-Connector

Der Apache Spark-Connector für Azure SQL-Datenbank und SQL Server ermöglicht es diesen Datenbanken, als Eingabedatenquellen und Ausgabedatensenken für Apache Spark-Aufträge zu fungieren. So können Echtzeittransaktionsdaten in der Big Data-Analyse genutzt und Ergebnisse für Ad-hoc-Abfragen oder Berichterstellung dauerhaft gespeichert werden.

Im Vergleich zum integrierten JDBC-Connector bietet dieser Connector die Möglichkeit, Daten per Massenvorgang in SQL-Datenbanken einzufügen. Dies führt zu einer erheblichen Leistungssteigerung: Daten können gegenüber einer zeilenweisen Einfügung 10- bis 20-mal schneller eingefügt werden. Der Spark-Connector für SQL Server und Azure SQL-Datenbank unterstützt auch die Microsoft Entra ID-Authentifizierung, sodass Sie mithilfe Ihres Microsoft Entra ID-Kontos eine sichere Verbindung mit Ihren Azure SQL-Datenbanken von Azure Databricks herstellen können. Er stellt Schnittstellen bereit, die dem integrierten JDBC-Connector ähneln. Die Migration Ihrer vorhandenen Spark-Aufträge zu diesem Connector ist sehr einfach durchzuführen.

Anforderungen

Es gibt zwei Versionen des Spark-Connectors für SQL Server: eine für Spark 2.4 und eine für Spark 3.x. Der Spark 3.x-Connector erfordert Databricks Runtime 7.x oder höher. Der Connector wird von der Community unterstützt und umfasst keinen SLA-Support von Microsoft. Erstellen Sie alle Probleme auf GitHub, um die Community um Hilfe zu bitten.

Komponente Unterstützte Versionen
Apache Spark 3.0.x und 2.4x
Databricks Runtime Apache Spark 3.0-Connector: Databricks Runtime 7.x und höhere Versionen
Scala Apache Spark 3.0-Connector: 2.12

Apache Spark 2.4-Connector: 2.11
Microsoft JDBC-Treiber für SQL Server 8,2
Microsoft SQL Server SQL Server 2008 und höher
Azure SQL-Datenbank Unterstützt

Verwenden des Spark-Connectors

Anweisungen zur Verwendung des Spark-Connectors finden Sie unter Apache Spark-Connector: SQL Server und Azure SQL.