April 2019
Diese Features und Azure Databricks-Plattformverbesserungen wurden im April 2019 veröffentlicht.
Hinweis
Releases werden gestaffelt. Ihr Azure Databricks-Konto wird möglicherweise erst eine Woche nach dem Datum der ersten Veröffentlichung aktualisiert.
MLflow in Azure Databricks (GA)
25. April 2019
Verwalteter MLflow in Azure Databricks ist jetzt allgemein verfügbar. MLflow in Azure Databricks bietet eine gehostete Version von MLflow, die vollständig in das Databricks-Sicherheitsmodell und den interaktiven Arbeitsbereich integriert ist. Weitere Informationen finden Sie unter ML-Lebenszyklusverwaltung mit MLflow.
Delta Lake in Azure Databricks
24. April 2019
Databricks hat das Delta Lake-Projekt als Open Source zur Verfügung gestellt. Delta Lake ist eine Speicherebene, die die Zuverlässigkeit von Data Lakes auf der Basis von HDFS und Cloudspeicher erhöht, indem sie ACID-Transaktionen durch Steuerung der optimistischen Nebenläufigkeit zwischen Schreibvorgängen und Momentaufnahmeisolation für konsistente Lesevorgänge während Schreibvorgängen ermöglicht. Delta Lake bietet außerdem eine integrierte Datenversionsverwaltung für einfache Rollbacks und die Reproduktion von Berichten.
Hinweis
Was früher als Databricks Delta bezeichnet wurde, ist jetzt das Open-Source-Projekt Delta Lake – zuzüglich der auf Azure Databricks verfügbaren Optimierungen. Siehe Was ist Delta Lake?.
MLflow in der Seitenleiste
9. – 16. April 2019: Version 2.95
Sie können nun die MLflow-Ausführungen und die Notebookrevisionen, die diese Ausführungen erzeugt haben, in einer Seitenleiste neben Ihrem Notebook anzeigen. Klicken Sie auf der rechten Seitenleiste des Notebooks auf das Symbol Experiment.
Weitere Informationen finden Sie unter Erstellen eines Notebookexperiments.
Automatischer Zugriff auf Azure Data Lake Storage Gen1 und Gen2 über Microsoft Entra ID-Anmeldeinformationen (GA)
9. – 16. April 2019: Version 2.95
Wir freuen uns, die allgemeine Verfügbarkeit der automatischen Authentifizierung für Azure Data Lake Storage Gen1 und Gen2 von Azure Databricks-Clustern aus bekannt zu geben. Dabei wird dieselbe Microsoft Entra ID-Identität verwendet, mit der Sie sich bei Azure Databricks anmelden.
Wenn Sie das Passthrough für Microsoft Entra ID-Anmeldeinformationen für Ihren Cluster aktivieren, können Befehle, die Sie in diesem Cluster ausführen, Daten in Azure Data Lake Storage Gen1 und Gen2 lesen und schreiben, ohne dass Sie Dienstprinzipal-Anmeldeinformationen für den Zugriff auf den Speicher konfigurieren müssen.
Weitere Informationen finden Sie unter Zugriff auf Azure Data Lake Storage mithilfe von Passthrough (Legacy) für Microsoft Entra ID-Anmeldeinformationen.
Databricks Runtime 5.3 (GA)
3. April 2019
Databricks Runtime 5.3 ML ist jetzt allgemein verfügbar. Databricks Runtime 5.3 enthält neue Delta Lake-Features und -Upgrades sowie aktualisierte Python-, R-, Java- und Scala-Bibliotheken.
Zu den wichtigsten Upgrades gehören:
- Databricks Delta-Zeitreise jetzt allgemein verfügbar (GA)
- MySQL-Tabellenreplikation in Delta Public Preview
- Optimierter DBFS FUSE-Ordner für Deep Learning-Workloads
- Verbesserungen der notebookspezifischen Bibliothek
- Neue Databricks Advisor-Hinweise
Weitere Informationen finden Sie unter Databricks Runtime 5.3 (EoS).
Databricks Runtime 5.3 ML (GA)
3. April 2019
Mit Databricks Runtime 5.3 für Machine Learning haben wir unsere erste GA-Version der Databricks Runtime ML erreicht! Databricks Runtime ML bietet eine einsatzbereite Umgebung für Machine Learning und Data Science. Es basiert auf Databricks Runtime und enthält viele beliebte Machine Learning-Bibliotheken, einschließlich TensorFlow, PyTorch, Keras und XGBoost. Außerdem unterstützt die Umgebung verteiltes Training mit Horovod.
Diese Version basiert auf Databricks Runtime 5.3 und enthält zusätzliche Bibliotheken, einige unterschiedliche Bibliotheksversionen und eine Conda-Paketverwaltung für Python-Bibliotheken. Zu den wichtigsten neuen Features seit Databricks Runtime 5.2 ML Beta gehören:
MLlib-Integration in MLflow (Private Vorschau), die die automatische Protokollierung von MLflow-Ausführungen für Modelle ermöglicht, die mit den PySpark-Optimierungsalgorithmen
CrossValidator
undTrainValidationSplit
angepasst wurden.Wenn Sie an der Vorschau teilnehmen möchten, wenden Sie sich an Ihr Databricks-Kundenteam.
Upgrades auf die Bibliotheken PyArrow, Horovod und TensorboardX.
Das PyArrow-Update bietet die Möglichkeit,
BinaryType
bei der pfeilbasierten Konvertierung zu verwenden und in einer Pandas-UDF verfügbar zu machen.
Weitere Informationen finden Sie unter Databricks Runtime 5.3 ML (EoS). Weitere Informationen zum Erstellen eines Databricks Runtime ML-Clusters finden Sie unter KI und Machine Learning in Databricks.