Verwenden eines externen Hive-Metastores für Azure Synapse Spark-Pool
Hinweis
Externe Hive-Metastores werden in Azure Synapse Runtime für Apache Spark 3.4 und nachfolgende Versionen in Synapse nicht mehr unterstützt.
Azure Synapse Analytics ermöglicht es Apache Spark-Pools im selben Arbeitsbereich, einen verwalteten HMS-kompatiblen Metastore (Hive Metastore) als ihren Katalog freizugeben. Wenn Kunden die Metadaten des Hive-Katalogs außerhalb des Arbeitsbereichs beibehalten und Katalogobjekte für andere Compute-Engines außerhalb des Arbeitsbereichs freigeben möchten, z. B. HDInsight und Azure Databricks, können sie eine Verbindung mit einem externen Hive-Metastore herstellen. In diesem Artikel erfahren Sie, wie man Synapse Spark mit einem externen Apache Hive Metastore verbindet.
Unterstützte Hive-Metastore-Versionen
Das Feature funktioniert mit Spark 3.1. Die folgende Tabelle zeigt die unterstützten Hive-Metastore-Versionen für jede Spark-Version.
Spark-Version | HMS 2.3.x | HMS 3.1.X |
---|---|---|
3.3 | Ja | Ja |
Einrichten eines verknüpften Diensts für den Hive-Metastore
Hinweis
Nur die Azure SQL-Datenbank und Azure Database for MySQL werden als externe Hive-Metastores unterstützt. Darüber hinaus wird derzeit nur die Authentifizierung mit einem Benutzerkennwort unterstützt. Wenn die bereitgestellte Datenbank leer ist, können Sie sie über das Hive-Schematool bereitstellen, um ein Datenbankschema zu erstellen.
Führen Sie die folgenden Schritte aus, um einen verknüpften Dienst zum externen Hive-Metastore im Synapse-Arbeitsbereich einzurichten.
Öffnen Sie Synapse Studio, navigieren Sie links zu Verwalten > Verknüpfte Dienste, und wählen Sie dann Neu, um einen neuen verknüpften Dienst zu erstellen.
Wählen Sie, basierend auf Ihrem Datenbanktyp, Azure SQL-Datenbank oder Azure Database for MySQL aus und wählen Sie anschließend Weiter.
Geben Sie den Namen des verknüpften Dienstes an. Notiere Sie sich den Namen des verknüpften Dienstes. Diese Informationen werden in Kürze zum Konfigurieren von Spark verwendet.
Sie können entweder die Azure SQL-Datenbank oder Azure Database for MySQL für den externen Hive-Metastore aus der Azure-Abonnementliste auswählen oder die Informationen manuell eingeben.
Geben Sie den Benutzernamen und das Kennwort an, um die Verbindung einzurichten.
Klicken Sie auf Verbindung testen, um den Benutzernamen und das Kennwort zu überprüfen.
Wählen Sie Erstellen aus, um den verknüpften Dienst zu erstellen.
Testen Sie die Verbindung rufen Sie die Metastore-Version in Notebook ab
Einige Einstellungen für die Netzwerksicherheitsregel können den Zugriff vom Spark-Pool auf die externe Hive-Metastore-Datenbank blockieren. Führen Sie vor dem Konfigurieren des Spark-Pools den folgenden Code in einem beliebigen Notebook des Spark-Pools aus, um die Verbindung mit der externen Hive-Metastore-Datenbank zu testen.
Sie können Ihre Hive-Metastore-Version auch über die Ausgabeergebnisse abrufen. Die Hive-Metastore-Version wird in der Spark-Konfiguration verwendet.
Warnung
Veröffentlichen Sie die Testskripte in Ihrem Notebook nicht mit einem fest kodierten Kennwort, da dies ein potenzielles Sicherheitsrisiko für Ihren Hive Metastore darstellen könnte.
Verbindungstestcode für Azure SQL
%%spark
import java.sql.DriverManager
/** this JDBC url could be copied from Azure portal > Azure SQL database > Connection strings > JDBC **/
val url = s"jdbc:sqlserver://{your_servername_here}.database.windows.net:1433;database={your_database_here};user={your_username_here};password={your_password_here};encrypt=true;trustServerCertificate=false;hostNameInCertificate=*.database.windows.net;loginTimeout=30;"
try {
val connection = DriverManager.getConnection(url)
val result = connection.createStatement().executeQuery("select t.SCHEMA_VERSION from VERSION t")
result.next();
println(s"Successful to test connection. Hive Metastore version is ${result.getString(1)}")
} catch {
case ex: Throwable => println(s"Failed to establish connection:\n $ex")
}
Verbindungstestcode für Azure Database for MySQL
%%spark
import java.sql.DriverManager
/** this JDBC url could be copied from Azure portal > Azure Database for MySQL > Connection strings > JDBC **/
val url = s"jdbc:mysql://{your_servername_here}.mysql.database.azure.com:3306/{your_database_here}?useSSL=true"
try {
val connection = DriverManager.getConnection(url, "{your_username_here}", "{your_password_here}");
val result = connection.createStatement().executeQuery("select t.SCHEMA_VERSION from VERSION t")
result.next();
println(s"Successful to test connection. Hive Metastore version is ${result.getString(1)}")
} catch {
case ex: Throwable => println(s"Failed to establish connection:\n $ex")
}
Konfigurieren von Spark für die Verwendung des externen Hive-Metastores
Nachdem Sie den verknüpften Dienst erfolgreich für den externen Hive-Metastore erstellt haben, müssen Sie einige Spark-Konfigurationen einrichten, um den externen Hive-Metastore zu verwenden. Sie können die Konfiguration sowohl auf Spark-Poolebene als auch auf Spark-Sitzungsebene einrichten.
Hier finden Sie die Konfigurationen und Beschreibungen:
Hinweis
Synapse ist auf eine reibungslose Funktion mit Computeressourcen aus HDI ausgelegt. HMS 3.1 in HDI 4.0 ist jedoch nicht vollständig mit OSS HMS 3.1 kompatibel. Informationen zu OSS HMS 3.1 finden Sie hier.
Spark-Konfiguration | Beschreibung |
---|---|
spark.sql.hive.metastore.version |
Unterstützte Versionen:
|
spark.sql.hive.metastore.jars |
|
spark.hadoop.hive.synapse.externalmetastore.linkedservice.name |
Name Ihres verknüpften Diensts |
spark.sql.hive.metastore.sharedPrefixes |
com.mysql.jdbc,com.microsoft.sqlserver,com.microsoft.vegas |
Konfigurieren auf Spark-Poolebene
Wenn Sie den Spark-Pool erstellen, geben Sie auf der Registerkarte Zusätzliche Einstellungen die folgenden Konfigurationen in einer Textdatei an, und laden Sie diese im Abschnitt Apache Spark-Konfiguration hoch. Sie können auch das Kontextmenü für einen vorhandenen Spark-Pool verwenden. Wählen Sie „Apache Spark-Konfiguration“, um diese Konfigurationen hinzuzufügen.
Aktualisieren Sie die Version des Metastores und den Namen des verknüpften Diensts, und speichern Sie die folgenden Konfigurationen in einer Textdatei für die Spark-Poolkonfiguration:
spark.sql.hive.metastore.version <your hms version, Make sure you use the first 2 parts without the 3rd part>
spark.hadoop.hive.synapse.externalmetastore.linkedservice.name <your linked service name>
spark.sql.hive.metastore.jars /opt/hive-metastore/lib-<your hms version, 2 parts>/*:/usr/hdp/current/hadoop-client/lib/*
spark.sql.hive.metastore.sharedPrefixes com.mysql.jdbc,com.microsoft.sqlserver,com.microsoft.vegas
Hier sehen Sie ein Beispiel für die Metastoreversion 2.3 mit einem verknüpften Dienst namens „HiveCatalog21“:
spark.sql.hive.metastore.version 2.3
spark.hadoop.hive.synapse.externalmetastore.linkedservice.name HiveCatalog21
spark.sql.hive.metastore.jars /opt/hive-metastore/lib-2.3/*:/usr/hdp/current/hadoop-client/lib/*
spark.sql.hive.metastore.sharedPrefixes com.mysql.jdbc,com.microsoft.sqlserver,com.microsoft.vegas
Konfigurieren auf Spark-Sitzungsebene
Für Notebook-Sitzungen können Sie die Spark-Sitzung auch mit dem Magic-Befehl %%configure
im Notebook konfigurieren. Der Code lautet wie folgt:
%%configure -f
{
"conf":{
"spark.sql.hive.metastore.version":"<your hms version, 2 parts>",
"spark.hadoop.hive.synapse.externalmetastore.linkedservice.name":"<your linked service name>",
"spark.sql.hive.metastore.jars":"/opt/hive-metastore/lib-<your hms version, 2 parts>/*:/usr/hdp/current/hadoop-client/lib/*",
"spark.sql.hive.metastore.sharedPrefixes":"com.mysql.jdbc,com.microsoft.sqlserver,com.microsoft.vegas"
}
}
Dieselbe Konfiguration kann auch mittels SparkConf
auf einen Batchauftrag angewendet werden.
Führen Sie Abfragen durch, um die Verbindung zu überprüfen
Versuchen Sie nach dem Festlegen all dieser Einstellungen, Katalogobjekte aufzulisten, indem Sie die folgende Abfrage im Spark-Notebook ausführen, um die Verbindung mit dem externen Hive-Metastore zu überprüfen.
spark.sql("show databases").show()
Einrichten einer Speicherverbindung
Der verknüpfte Dienst zur Datenbank des Hive-Metastores bietet nur Zugriff auf Hive-Katalogmetadaten. Um die vorhandenen Tabellen abzufragen, müssen Sie eine Verbindung mit dem Speicherkonto einrichten, in dem auch die zugrunde liegenden Daten für Ihre Hive-Tabellen gespeichert werden.
Einrichten einer Verbindung mit Azure Data Lake Storage Gen 2
Primäres Speicherkonto des Arbeitsbereichs
Wenn die zugrunde liegenden Daten Ihrer Hive-Tabellen im primären Speicherkonto Ihres Arbeitsbereichs gespeichert werden, sind keine zusätzlichen Einstellungen erforderlich. Dies funktioniert nur, solange Sie bei der Arbeitsbereichserstellung die Anweisungen zum Einrichten des Speichers befolgt haben.
Anderes ADLS Gen 2-Konto
Wenn die zugrunde liegenden Daten Ihrer Hive-Kataloge in einem anderen ADLS Gen 2-Konto gespeichert sind, müssen Sie sicherstellen, dass die Benutzer, die Spark-Abfragen ausführen, über die Rolle Mitwirkender an Storage-Blobdaten für das ADLS Gen2-Speicherkonto verfügen.
Einrichten der Verbindung mit Blob Storage
Wenn die zugrunde liegenden Daten Ihrer Hive-Tabellen im Azure Blob-Speicherkonto gespeichert sind, führen Sie die folgenden Schritte aus, um die Verbindung einzurichten:
Öffnen Sie Synapse Studio, navigieren Sie zu „Daten“ > Registerkarte „Verknüpft“ > Schaltfläche „Hinzufügen“ >Verbindung mit externen Daten herstellen.
Wählen Sie Azure Blob Storage aus, und wählen Sie dann Weiter.
Geben Sie den Namen des verknüpften Dienstes an. Notieren Sie sich den Namen des verknüpften Diensts. Diese Informationen werden in Kürze bei der Sparkkonfiguration verwendet.
Wählen Sie das Azure Blob Storage-Konto aus. Stellen Sie sicher, dass Kontoschlüssel als Authentifizierungsmethode ausgewählt ist. Derzeit kann Spark Pool nur über den Kontoschlüssel auf das Blob Storage-Konto zugreifen.
Testen Sie die Verbindung, und wählen Sie Erstellen aus.
Nachdem Sie den verknüpften Dienst für das Blob Storage-Konto erstellt haben, stellen Sie beim Ausführen von Spark-Abfragen sicher, dass Sie den folgenden Spark-Code im Notebook ausführen, um Zugriff auf das Blob Storage-Konto für die Spark-Sitzung zu erhalten. Weitere Informationen dazu, warum dies erforderlich ist, finden Sie hier.
%%pyspark
blob_account_name = "<your blob storage account name>"
blob_container_name = "<your container name>"
from pyspark.sql import SparkSession
sc = SparkSession.builder.getOrCreate()
token_library = sc._jvm.com.microsoft.azure.synapse.tokenlibrary.TokenLibrary
blob_sas_token = token_library.getConnectionString("<blob storage linked service name>")
spark.conf.set('fs.azure.sas.%s.%s.blob.core.windows.net' % (blob_container_name, blob_account_name), blob_sas_token)
Nach dem Einrichten von Speicherverbindungen können Sie die vorhandenen Tabellen im Hive-Metastore abfragen.
Bekannte Einschränkungen
- Der Synapse Studio-Objekt-Explorer zeigt weiterhin Objekte im verwalteten Synapse-Metastore anstelle des externen HMS an.
- Die Synchronisierung zwischen SQL und Spark funktioniert bei Verwendung des externen HMS nicht.
- Nur die Azure SQL-Datenbank und Azure Database for MySQL werden als externe Hive-Metastore-Datenbanken unterstützt. Nur die SQL-Autorisierung wird unterstützt.
- Spark funktioniert derzeit nur in externen Hive-Tabellen sowie in nicht transaktionalen bzw. nicht mit ACID verwalteten Hive-Tabellen. Transaktionale bzw. mit Hive ACID verwaltete Tabellen werden nicht unterstützt.
- Die Apache Ranger-Integration nicht unterstützt.
Problembehandlung
Der folgende Fehler wird beim Abfragen einer Hive-Tabelle mit in Blob Storage gespeicherten Daten angezeigt
No credentials found for account xxxxx.blob.core.windows.net in the configuration, and its container xxxxx is not accessible using anonymous credentials. Please check if the container exists first. If it is not publicly available, you have to provide account credentials.
Wenn Sie die Schlüsselauthentifizierung für Ihr Speicherkonto über den verknüpften Dienst verwenden, müssen Sie einen zusätzlichen Schritt ausführen, um das Token für die Spark-Sitzung zu erhalten. Führen Sie den folgenden Code aus, um Ihre Spark-Sitzung zu konfigurieren, bevor Sie die Abfrage ausführen. Mehr darüber, warum dies erforderlich ist, erfahren Sie hier.
%%pyspark
blob_account_name = "<your blob storage account name>"
blob_container_name = "<your container name>"
from pyspark.sql import SparkSession
sc = SparkSession.builder.getOrCreate()
token_library = sc._jvm.com.microsoft.azure.synapse.tokenlibrary.TokenLibrary
blob_sas_token = token_library.getConnectionString("<blob storage linked service name>")
spark.conf.set('fs.azure.sas.%s.%s.blob.core.windows.net' % (blob_container_name, blob_account_name), blob_sas_token)
Der folgende Fehler wird angezeigt, wenn Sie eine in einem ADLS Gen2-Konto gespeicherte Tabelle abfragen
Operation failed: "This request is not authorized to perform this operation using this permission.", 403, HEAD
Dies kann daran liegen, dass der Benutzer, der die Spark-Abfrage ausführt, nicht über die erforderlichen Zugriffsrechte für das zugrunde liegende Speicherkonto verfügt. Stellen Sie sicher, dass der Benutzer, der die Spark-Abfragen ausführt, über die Rolle Mitwirkender an Storage-Blobdaten für das ADLS Gen2-Speicherkonto verfügt. Dieser Schritt kann nach dem Erstellen des verknüpften Diensts ausgeführt werden.
Einstellungen im Zusammenhang mit dem HMS-Schema
Um das Ändern des HMS-Back-End-Schemas bzw. der Version zu vermeiden, werden die folgenden Hive-Konfigurationen standardmäßig vom System festgelegt:
spark.hadoop.hive.metastore.schema.verification true
spark.hadoop.hive.metastore.schema.verification.record.version false
spark.hadoop.datanucleus.fixedDatastore true
spark.hadoop.datanucleus.schema.autoCreateAll false
Bei den HMS-Versionen 1.2.1
oder 1.2.2
gibt es ein Problem in Hive: Wenn Sie spark.hadoop.hive.metastore.schema.verification
auf true
festlegen, wird ausschließlich die Version 1.2.0
gefordert. Ein Vorschlag ist, entweder Ihre HMS-Version in Version 1.2.0
zu ändern oder die folgenden beiden Konfigurationen zu überschreiben, um dieses Problem zu umgehen:
spark.hadoop.hive.metastore.schema.verification false
spark.hadoop.hive.synapse.externalmetastore.schema.usedefault false
Wenn Sie Ihre HMS-Version migrieren müssen, wird die Verwendung des Hive-Schematools empfohlen. Wenn der HMS von HDInsight-Clustern verwendet wurde, sollten Sie die bereitgestellte HDI-Version verwenden.
HMS-Schemaänderung für OSS HMS 3.1
Synapse ist auf eine reibungslose Funktion mit Computeressourcen aus HDI ausgelegt. HMS 3.1 in HDI 4.0 ist jedoch nicht vollständig mit OSS HMS 3.1 kompatibel. Wenden Sie Folgendes manuell auf HMS 3.1 an, wenn es nicht von HDI bereitgestellt wird.
-- HIVE-19416
ALTER TABLE TBLS ADD WRITE_ID bigint NOT NULL DEFAULT(0);
ALTER TABLE PARTITIONS ADD WRITE_ID bigint NOT NULL DEFAULT(0);
Beim Freigeben des Metastores für Spark-Cluster in HDInsight 4.0 kann ich die Tabellen nicht sehen
Wenn Sie den Hive-Katalog für einen Spark-Cluster in HDInsight 4.0 freigeben möchten, stellen Sie sicher, dass die Eigenschaft spark.hadoop.metastore.catalog.default
in Synapse Spark dem Wert in HDInsight Spark entspricht. Der Standardwert für HDI Spark ist spark
und der Standardwert für Synapse Spark ist hive
.
Beim Freigeben des Hive-Metastores für Hive-Cluster in HDInsight 4.0 kann ich die Tabellen erfolgreich auflisten, erhalten beim Abfragen der Tabelle aber nur ein leeres Ergebnis.
Wie im Abschnitt zu den Einschränkungen erwähnt, unterstützt der Synapse Spark-Pool nur externe Hive-Tabellen sowie nicht transaktionale bzw. nicht mit ACID verwaltete Tabellen. Transaktionale bzw. mit ACID verwaltete Hive-Tabellen werden derzeit nicht unterstützt. Bei Hive-Clustern in HDInsight 4.0 werden alle verwalteten Tabellen als transaktionale bzw. mit ACID verwaltete Tabellen erstellt. Daher erhalten Sie eine leere Ergebnisanzeige, wenn Sie diese Tabellen abfragen.
Sehen Sie sich den folgenden Fehler an, wenn ein externer Metastore verwendet wird, während der intelligente Cache aktiviert ist
java.lang.ClassNotFoundException: Class com.microsoft.vegas.vfs.SecureVegasFileSystem not found
Sie können dieses Problem einfach beheben, indem Sie /usr/hdp/current/hadoop-client/*
an ihre spark.sql.hive.metastore.jars
anfügen.
Eg:
spark.sql.hive.metastore.jars":"/opt/hive-metastore/lib-2.3/*:/usr/hdp/current/hadoop-client/lib/*:/usr/hdp/current/hadoop-client/*