September 2020
Diese Features und Azure Databricks-Plattformverbesserungen wurden im September 2020 veröffentlicht.
Hinweis
Releases werden gestaffelt. Ihr Azure Databricks-Konto wird möglicherweise erst eine Woche nach dem Datum der ersten Veröffentlichung aktualisiert.
Databricks Runtime 7.3, 7.3 ML und 7.3 Genomics nun allgemein verfügbar
24. September 2020
Databricks Runtime 7.3, Databricks Runtime 7.3 für Machine Learning und Databricks Runtime 7.3 für Genomics sind jetzt allgemein verfügbar. Sie bieten viele Features und Verbesserungen, darunter:
- Delta Lake-Leistungsoptimierungen reduzieren den Mehraufwand erheblich
- Klonmetriken
- Delta Lake-
MERGE INTO
-Verbesserungen - Angeben der Anfangsposition für Delta Lake Structured Streaming
- Autoloader-Verbesserungen
- Ausführung von adaptiven Abfragen
- Azure Synapse Analytics-Steuerung für die Spaltenlänge des Connectors
- Verbessertes Verhalten von
dbutils.credentials.showRoles
- Vereinfachte Konvertierung von pandas in Spark-DataFrame
- Neue
maxResultSize
intoPandas()
-Aufruf - Debugfähigkeit von pandas und PySpark-UDFs
- (nur ML) Conda-Aktivierung für Worker
- (nur Genomics) Unterstützung für das Lesen von BGEN-Dateien mit unkomprimierten oder zstd-komprimierten Genotypen
- Bibliotheksupgrades
Weitere Informationen finden Sie unter Databricks Runtime 7.3 LTS (EoS) und Databricks Runtime 7.3 LTS für Machine Learning (EoS).
Einzelknotencluster (Public Preview)
23.-29. September 2020: Version 3.29
Ein Einzelknotencluster ist ein Cluster, der aus einem Spark-Treiber und keinen Spark-Workern besteht. Im Gegensatz dazu benötigen Cluster im Standardmodus mindestens einen Spark-Worker, um Spark-Aufträge ausführen zu können. Cluster im Einzelknotenmodus sind in den folgenden Situationen hilfreich:
- Ausführen von Machine Learning-Workloads mit einem einzelnen Knoten, die Spark zum Laden und Speichern von Daten benötigen
- Einfache explorative Datenanalyse (EDA)
Ausführliche Informationen finden Sie unter Einzel- oder Mehrfachknotencompute.
DBFS-REST-API: Ratenbegrenzung
23.-29. September 2020: Version 3.29
Azure Databricks erzwingt jetzt eine Begrenzung der API-Datenübertragungsrate für DBFS-API-Aufrufe, um bei starker Auslastung eine hohe Dienstqualität sicherzustellen. Grenzwerte werden pro Arbeitsbereich festgelegt, um eine faire Nutzung und Hochverfügbarkeit sicherzustellen. Automatische Wiederholungsversuche sind mit der Databricks-CLI-Version 0.12.0 und höher verfügbar. Wir empfehlen allen Kunden, zur neuesten Databricks-CLI-Version zu wechseln.
Neue Symbole auf der Seitenleiste
23.-29. September 2020
Wir haben die Seitenleiste auf der Benutzeroberfläche des Azure Databricks-Arbeitsbereichs aktualisiert. Keine große Sache, aber wir denken, dass die neuen Symbole ziemlich gut aussehen.
Erhöhung des Grenzwerts für ausgeführte Aufträge
23.-29. September 2020: Version 3.29
Das Ausführungslimit für gleichzeitig ausgeführte Auftrag wurde von 150 auf 1.000 pro Arbeitsbereich erhöht. Nie mehr werden mehr als 150 Ausführungen im Status „Ausstehend“ in die Warteschlange gestellt. Anstelle einer Warteschlange für Ausführungsanforderungen oberhalb der Zahl gleichzeitiger Ausführungen wird eine 429 Too Many Requests
-Antwort zurückgegeben, wenn Sie eine Ausführung anfordern, die nicht sofort gestartet werden kann. Diese Erhöhung des Grenzwerts wurde schrittweise eingeführt und ist jetzt für alle Arbeitsbereiche in allen Regionen verfügbar.
Artefakt-Zugriffssteuerungslisten (ACLs) in MLflow
23.-29. September 2020: Version 3.29
MLflow-Experimentberechtigungen werden jetzt für Artefakte in der MLflow-Nachverfolgung erzwungen, sodass Sie den Zugriff auf Ihre Modelle, Datasets und anderen Dateien problemlos steuern können. Wenn Sie ein neues Experiment erstellen, werden seine Ausführungsartefakte jetzt standardmäßig an einem von MLflow verwalteten Speicherort gespeichert. Die vier MLflow-Experiment-Berechtigungsebenen (NO PERMISSIONS, CAN READ, CAN EDIT, und CAN MANAGE) gelten automatisch für Ausführungsartefakte, die an von MLflow verwalteten Speicherorten gespeichert sind, wie folgt:
- CAN EDIT oder CAN MANAGE-Berechtigungen sind erforderlich, um Ausführungsartefakte in einem Experiment zu protokollieren.
- CAN READ-Berechtigungen sind erforderlich, um Ausführungsartefakte aus einem Experiment aufzulisten und herunterzuladen.
Weitere Informationen finden Sie unter Zugriffssteuerungslisten für MLflow-Experimente.
Verbesserungen der Benutzerfreundlichkeit von MLflow
23.-29. September 2020: Version 3.29
Dieses Release enthält die folgenden Verbesserungen der MLflow-Benutzerfreundlichkeit:
- Die MLflow-Seiten Experiment und Registrierte Modelle enthalten jetzt Tipps, die neuen Benutzern den Einstieg ermöglichen.
- In der Modellversionstabelle wird nun der Beschreibungstext für eine Modellversion angezeigt. Eine neue Spalte zeigt die ersten 32 Zeichen oder die erste Zeile der Beschreibung an (je nachdem, was kürzer ist).
Neuer Azure Databricks-Power BI-Connector (Public Preview)
22. September 2020
Power BI Desktop Version 2.85.681.0 enthält einen neuen Azure Databricks-Power BI-Connector, der die Integration zwischen Azure Databricks und Power BI deutlich nahtloser und zuverlässiger macht. Der neue Connector bietet die folgenden Verbesserungen:
- Einfache Verbindungskonfiguration: Der neue Power BI-Connector für Azure Databricks ist in Power BI integriert, und Sie konfigurieren ihn mit wenigen Klicks über ein einfaches Dialogfeld.
- Authentifizierung basierend auf Microsoft Entra ID-Anmeldeinformationen: Es ist nicht mehr erforderlich, dass Administrator*innen persönliche Zugriffstoken konfigurieren.
- Schnellere Importe und optimierte Metadatenaufrufe dank des neuen Azure Databricks-ODBC-Treibers, der bedeutende Leistungsverbesserungen beinhaltet
- Der Zugriff auf Azure Databricks-Daten über Power BI berücksichtigt die Azure Databricks-Tabellenzugriffssteuerung und Azure-Speicherkontoberechtigungen, die Ihrer Microsoft Entra ID-Identität zugeordnet sind.
Weitere Informationen finden Sie unter Verbinden von Power BI mit Azure Databricks.
Verwenden von kundenseitig verwalteten Schlüsseln für den DBFS-Stamm (Public Preview)
15. September 2020
Sie können jetzt Ihren eigenen Verschlüsselungsschlüssel in Azure Key Vault verwenden, um das DBFS-Speicherkonto zu verschlüsseln. Weitere Informationen finden Sie unter Kundenseitig verwaltete Schlüssel für den DBFS-Stamm.
Schnellere BI mit geringerer Wartezeit durch neue JDBC- und ODBC-Treiber
15. September 2020
Wir haben neue Versionen der Databricks-JDBC- und ODBC-Treiber (Download) mit den folgenden Verbesserungen veröffentlicht:
- Leistung: Reduzierte Verbindungs- und geringe Abfragelatenz, auf der Apache Arrow-Serialisierung basierende verbesserte Ergebnisübertragungsgeschwindigkeit und verbesserte Leistung beim Abrufen von Metadaten.
- Benutzeroberfläche: Authentifizierung mit Microsoft Entra ID OAuth2-Zugriffstoken, verbesserte Fehlermeldungen und automatische Wiederholung beim Herstellen einer Verbindung mit einem heruntergefahrenen Cluster, stabilere Behandlung von Wiederholungsversuchen bei zeitweiligen Netzwerkfehlern.
- Unterstützung für das Herstellen von Verbindungen mithilfe des HTTP-Proxys.
Weitere Informationen zum Herstellen einer Verbindung mit BI-Tools mithilfe von JDBC und ODBC finden Sie unter Databricks ODBC- und JDBC-Treiber.
MLflow-Modellbereitstellung (Public Preview)
9.-15. September 2020: Version 3.28
MLflow-Modellbereitstellung ist jetzt in der Public Preview. Mit MLflow-Modellbereitstellung können Sie ein in der Modellregistrierung registriertes MLflow-Modell als von Azure Databricks gehosteten und verwalteten REST-API-Endpunkt bereitstellen. Wenn Sie die Modellbereitstellung für ein registriertes Modell aktivieren, erstellt Azure Databricks einen Cluster und stellt alle nicht archivierten Versionen dieses Modells zur Verfügung.
Sie können alle Modellversionen über REST-API-Anforderungen mit Standard-Azure Databricks-Authentifizierung abfragen. Modellzugriffsrechte werden von der Modellregistrierung geerbt. Jeder Benutzer mit Leserechten für ein registriertes Modell kann jede der bereitgestellten Modellversionen abfragen. Während sich dieser Dienst in der Vorschauversion befindet, empfehlen wir die Verwendung für Anwendungen mit geringem Durchsatz und nicht kritische Anwendungen.
Weitere Informationen finden Sie unter Legacy-MLflow-Modellbereitstellung in Azure Databricks.
Verbesserungen der Clusterbenutzeroberfläche
9.-15. September 2020: Version 3.28
Die Clusterseite enthält nun separate Registerkarten für Allzweckcluster und Auftragscluster. Die Liste auf jeder Registerkarte ist jetzt paginiert. Darüber hinaus haben wir die Verzögerung behoben, die manchmal zwischen dem Erstellen eines Clusters und dem Anzeigen in der Benutzeroberfläche aufgetreten ist.
Sichtbarkeitssteuerelemente für Aufträge, Cluster, Notebooks und andere Arbeitsbereichsobjekte
9.-15. September 2020: Version 3.28
Standardmäßig können alle Benutzer alle Aufträge, Cluster, Notebooks und Ordner in ihrem Arbeitsbereich auf der Azure Databricks-Benutzeroberfläche anzeigen und mithilfe der Databricks-API auflisten, auch wenn die Zugriffssteuerung für diese Objekte aktiviert ist und ein Benutzer keine Berechtigungen für diese Objekte besitzt.
Jetzt kann jeder Azure Databricks-Administrator Sichtbarkeitssteuerungen für Notebooks und Ordner (Arbeitsbereichsobjekte), Cluster und Aufträge aktivieren, um sicherzustellen, dass Benutzer nur die Objekte anzeigen können, auf die sie über die Zugriffssteuerung für Arbeitsbereiche, Cluster oder Aufträge Zugriff erhalten haben.
Weitere Informationen finden Sie unter Zugriffskontrolllisten können nicht mehr deaktiviert werden.
Möglichkeit zum Erstellen von Token nicht mehr standardmäßig zulässig
9.-15. September 2020: Version 3.28
Für Arbeitsbereiche, die nach der Veröffentlichung der Azure Databricks-Plattformversion 3.28 erstellt wurden, können Benutzer standardmäßig keine persönlichen Zugriffstoken mehr generieren. Administratoren müssen diese Berechtigungen explizit erteilen, unabhängig davon, ob sie der gesamten users
-Gruppe oder benutzer- oder gruppenspezifisch zugewiesen werden. Arbeitsbereiche, die vor 3.28 erstellt wurden, behalten die Berechtigungen bei, die bereits vorhanden waren.
Siehe "Überwachen und Widerrufen von persönlichen Zugriffstoken".
Die MLflow-Modellregistrierung unterstützt die arbeitsbereichsübergreifende Freigabe von Modellen
9. September 2020
Azure Databricks unterstützt jetzt den Zugriff auf die Modellregistrierung aus mehreren Arbeitsbereichen. Sie können jetzt Modelle registrieren, Modellausführungen nachverfolgen und Modelle Arbeitsbereiche übergreifend laden. Mehrere Teams können jetzt den Zugriff auf Modelle gemeinsam nutzen, und Organisationen können mehrere Arbeitsbereiche verwenden, um die verschiedenen Entwicklungsphasen zu bewältigen. Weitere Informationen finden Sie unter Arbeitsbereiche übergreifendes Freigeben von Modellen.
Diese Funktionalität erfordert die MLflow-Python-Clientversion 1.11.0 oder höher.
Databricks Runtime 7.3 (Betaversion)
3. September 2020
Databricks Runtime 7.3, Databricks Runtime 7.3 für Machine Learning und Databricks Runtime 7.3 für Genomics sind jetzt in der Betaversion verfügbar.
Weitere Informationen finden Sie unter Databricks Runtime 7.3 LTS (EoS) und Databricks Runtime 7.3 LTS für Machine Learning (EoS).
Namensänderung für Azure Databricks-Workloadtypen
1. September 2020
Die Namen der Workloadtypen, die von Ihren Clustern verwendet werden, wurden geändert:
- Datentechnik –> Jobs Compute
- Datentechnik Light –> Jobs Light Compute
- Datenanalyse –> All-Purpose Compute
Diese neuen Namen werden auf Rechnungen und im EA-Portal in Kombination mit Ihrem Tarif angezeigt (z. B. „Premium – Jobs Compute – DBU“). Weitere Informationen finden Sie unter Azure Databricks-Verbrauchseinheiten.
Die Benutzeroberfläche wurde auch in Plattformversion 3.27 geändert (für die gestaffelte Veröffentlichung zwischen dem 25. August und dem 3. September):
Auf der Clusterseite haben sich die Listenüberschriften geändert:
- Interaktive Cluster –> Allzweckcluster
- Automatisierte Cluster –> Auftragscluster
Wenn Sie einen Cluster für einen Auftrag konfigurieren, stehen Ihnen andere Clustertypoptionen zur Verfügung:
- Neuer automatisierter Cluster –> Neuer Auftragscluster
- Vorhandener interaktiver Cluster –> Vorhandener Allzweckcluster