Juin 2019
Ces fonctionnalités et améliorations de la plateforme Azure Databricks ont été publiées en juin 2019.
Notes
Les publications se font par étapes. Votre compte Azure Databricks peut ne pas être mis à jour jusqu’à une semaine après la date de publication initiale.
La prise en charge de l’instance Lsv2 est mise à la disposition générale
24-26 juin 2019 : version 2.100
Azure Databricks prend désormais entièrement en charge la série de machines virtuelles Lsv2 pour les charges de travail à haut débit et à IOPS élevées.
L’intégration de RStudio n’est plus limitée aux clusters à haute concurrence
6-11 juin 2019 : version 2.99
Vous pouvez désormais activer RStudio Server sur des clusters standard dans Azure Databricks, en plus des clusters à haute concurrence qui étaient déjà pris en charge. Quel que soit le mode de cluster, l’intégration du serveur RStudio continue à exiger que vous désactiviez l’option d'arrêt automatique pour votre cluster. Consultez RStudio sur Azure Databricks.
MLflow 1.0
3 juin 2019
MLflow est une plateforme open source pour gérer le cycle de vie complet du Machine Learning. Avec MLflow, les scientifiques des données peuvent suivre et partager des expériences localement ou dans le cloud, empaqueter et partager des modèles entre les infrastructures, et déployer des modèles pratiquement n’importe où.
Nous sommes ravis d’annoncer la sortie de MLflow 1.0 dès aujourd’hui. La version 1.0 marque non seulement la maturité et la stabilité des API, mais ajoute également un certain nombre de fonctionnalités et d’améliorations fréquemment demandées :
- L’interface CLI a été réorganisée et possède désormais des commandes dédiées pour les artefacts, les modèles, la base de données (la base de données de suivi) et le serveur (le serveur de suivi).
- La recherche sur le serveur de suivi prend en charge une version simplifiée de la clause
SQL WHERE
. Outre la prise en charge des métriques et des paramètres d’exécution, la recherche a été améliorée pour prendre en charge des attributs d’exécution et des balises utilisateur et système. - Ajoute la prise en charge des coordonnées x dans l’API de suivi. Les composants de visualisation de l’interface utilisateur MLflow prennent désormais également en charge le traçage des métriques par rapport aux valeurs de coordonnées x fournies.
- Ajoute un point de terminaison d’API REST
runs/log-batch
, ainsi que des méthodes Python, R et Java pour la journalisation de plusieurs métriques, paramètres et balises avec une requête d’API unique. - Pour le suivi, le client MLflow 1.0 est désormais pris en charge sur Windows.
- Ajoute la prise en charge de HDFS en tant que serveur principal du magasin d’artefacts.
- Ajoute une commande pour générer un conteneur Docker dont le point d’entrée par défaut sert le modèle de fonction Python MLflow spécifié au niveau du port 8080 dans le conteneur.
- Ajoute une version expérimentale du modèle ONNX.
Vous pouvez afficher la liste complète des modifications dans le journal des modifications MLflow.
Databricks Runtime 5.4 pour le Machine Learning
3 juin 2019
Databricks Runtime 5.4 ML s’appuie sur Databricks Runtime 5.4 (fin de support). Il contient de nombreuses bibliothèques de Machine Learning courantes, notamment TensorFlow, PyTorch, Keras et XGBoost, et fournit une formation TensorFlow distribuée à l’aide de Horovod.
Il intègre les nouvelles fonctionnalités suivantes :
- Intégration de MLlib à MLflow (préversion publique).
- Hyperopt avec la nouvelle classe SparkTrials préinstallée (préversion publique).
- La sortie envoyée depuis Horovod vers le nœud de pilote Spark est désormais visible dans les cellules du notebook.
- Package Python XGBoost préinstallé.
Pour plus d’informations, consultez Databricks Runtime 5.4 pour ML (fin de support).
Databricks Runtime 5.4
3 juin 2019
Databricks Runtime 5.4 est désormais disponible. Databricks Runtime 5.4 inclut Apache Spark 2.4.2, les bibliothèques Python, R, Java et Scala mises à niveau, ainsi que les nouvelles fonctionnalités suivantes :
- Delta Lake sur Databricks ajoute l’optimisation automatique (préversion publique)
- Utiliser votre IDE favori et serveur notebook avec Databricks Connecter
- Utilitaires de bibliothèque mis à la disposition générale
- Source de données de fichier binaire
Pour plus d’informations, consultez Databricks Runtime 5.4 (fin de support).