Partager via


Septembre 2020

Ces fonctionnalités et améliorations de la plateforme Azure Databricks ont été publiées en septembre 2020.

Notes

Les publications se font par étapes. Votre compte Azure Databricks peut ne pas être mis à jour jusqu’à une semaine après la date de publication initiale.

Databricks Runtime 7.3, 7.3 ML et 7.3 Genomics sont maintenant en GA

24 septembre 2020

Databricks Runtime 7.3, Databricks Runtime 7.3 pour Machine Learning et Databricks Runtime 7.3 pour génomique sont désormais mis à la disposition générale. Ils apportent de nombreuses fonctionnalités et améliorations, notamment :

  • Les optimisations de performances Delta Lake réduisent considérablement la surcharge
  • Cloner les métriques
  • Améliorations de Delta Lake MERGE INTO
  • Spécifier la position initiale pour Delta Lake Structured streaming
  • Améliorations du chargeur automatique
  • Exécution de requête adaptative
  • Contrôle de longueur de colonne du connecteur Azure Synapse Analytics
  • Comportement amélioré de dbutils.credentials.showRoles
  • Des pandas simplifiés pour la conversion tableau Spark
  • Nouveau maxResultSize dans l'appel toPandas()
  • Débogage des UDF pandas et PySpark
  • (ML uniquement) Activation de conda sur les workers
  • (Génomique uniquement) Prise en charge de la lecture de fichiers BGEN avec des génotypes non compressés ou zstd
  • Mises à niveau de la bibliothèque

Pour plus d’informations, consultez Databricks Runtime 7.3 LTS EoS) et Databricks Runtime 7.3 LTS pour Machine Learning (EoS).

Clusters mononœuds (préversion publique)

23-29 septembre 2020 : Version 3.29

Un cluster mononœud est un cluster qui contient un pilote Spark, mais aucun worker Spark. En revanche, les clusters en mode standard nécessitent au moins un Worker Spark pour exécuter des travaux Spark. Les clusters en mode à nœud unique sont utiles dans les situations suivantes :

  • Exécution de charges de travail Machine Learning sur un cluster mononœud qui ont besoin de Spark pour charger et enregistrer des données
  • Analyse exploratoire légère des données (EDA)

Pour plus d’informations, consultez Calcul à nœud unique ou à nœuds multiples.

Limitation du débit de l’API REST DBFS

23-29 septembre 2020 : Version 3.29

Pour garantir une haute qualité de service sous une lourde charge, Azure Databricks applique maintenant des limites de taux d’API pour les appels d’API DBFS. Les limites sont définies par espace de travail pour garantir une utilisation équitable et une haute disponibilité. Les nouvelles tentatives automatiques sont disponibles à l’aide de Databricks CLI version 0.12.0 et les versions ultérieures. Nous conseillons à tous les clients de basculer vers la dernière version de Databricks CLI.

Nouvelles icônes de la barre latérale

23-29 septembre 2020

Nous avons mis à jour l’encadré dans l’interface utilisateur de l’espace de travail Azure Databricks. Ce n’est pas très important, mais nous pensons que les nouvelles icônes semblent assez agréables.

Barre latérale

Augmentation de la limite des travaux exécutés

23-29 septembre 2020 : Version 3.29

La limite d’exécution de travaux simultanés a été augmentée de 150 à 1000 par espace de travail. Ne s’exécute plus au-delà de 150 mis en file d’attente dans l’état d’attente. Au lieu d’une file d’attente pour les demandes d’exécution au-dessus des exécutions simultanées, une réponse 429 Too Many Requestsest retournée lorsque vous demandez une exécution qui ne peut pas être démarrée immédiatement. Cette augmentation de limite a été déployée progressivement et est désormais disponible sur tous les espaces de travail dans toutes les régions.

Listes de contrôle d’accès (ACL) d’artefacts dans MLflow

23-29 septembre 2020 : Version 3.29

Les autorisations d’expérimentation MLflow sont désormais appliquées aux artefacts dans le suivi MLflow, ce qui vous permet de contrôler facilement l’accès à vos modèles, jeux de données et autres fichiers. Par défaut, lorsque vous créez une expérience, ses artefacts d’exécution sont maintenant stockés dans un emplacement géré par MLflow. Les quatre niveaux d’autorisation d’expérimentation MLflow (AUCUNE AUTORISATION, PEUT LIRE, PEUT MODIFIER et PEUT GÉRER) s’appliquent automatiquement aux artefacts d’exécution stockés dans les emplacements gérés par MLflow, comme suit :

  • Les autorisations PEUT MODIFIER ou PEUT GÉRER sont nécessaires pour enregistrer les artefacts d’exécution dans une expérience.
  • Des autorisations PEUT LIRE sont nécessaires pour répertorier et télécharger des artefacts d’exécution à partir d’une expérience.

Pour plus d’informations, consultez Liste ACL d’expérience MLflow.

Améliorations de la convivialité de MLflow

23-29 septembre 2020 : Version 3.29

Cette version inclut les améliorations suivantes apportées 0 L4UTILISATION DE MLflow :

  • Les pages de l'expérience MLflow et des modèles inscrits ont maintenant des conseils pour aider les nouveaux utilisateurs à commencer.
  • La table version du modèle affiche maintenant le texte de description d’une version de modèle. Une nouvelle colonne affiche les 32 premiers caractères ou la première ligne (selon celle qui est la plus petite) de la description.

Nouveau connecteur Azure Databricks Power BI (préversion publique)

22 septembre 2020

Power BI Desktop version 2.85.681.0 comprend un nouveau connecteur Power BI Azure Databricks qui rend l’intégration entre Azure Databricks et Power BI beaucoup plus transparente et fiable. Le nouveau connecteur intègre les améliorations suivantes :

  • Une configuration simple des connexions : le nouveau connecteur Azure Databricks Power BI est intégré à Power BI. Vous pouvez le configurer dans une boîte de dialogue simple en quelques clics.
  • Une authentification basée sur les informations d’identification Microsoft Entra ID : inutile pour les administrateurs de configurer des jetons PAT.
  • Des importations plus rapides et des appels de métadonnées optimisés, grâce au nouveau pilote ODBC Azure Databricks qui offre des améliorations significatives au niveau des performances.
  • L’accès aux données Azure Databricks via Power BI respecte Azure Databricks contrôle d’accès aux tables et les autorisations de compte de stockage Azure associées à votre identité Microsoft Entra ID.

Pour plus d’informations, consultez Connecter Power BI à Azure Databricks.

Utiliser des clés gérées par le client pour la racine DBFS (préversion publique)

15 septembre 2020

Vous pouvez maintenant utiliser votre propre clé de chiffrement dans Azure Key Vault pour chiffrer le compte de stockage DBFS. Voir Clés gérées par le client pour la racine DBFS.

Les nouveaux pilotes JDBC et ODBC offrent une latence plus rapide et plus faible

15 septembre 2020

Nous avons publié de nouvelles versions des pilotes JDBC et ODBC Databricks (téléchargement) avec les améliorations suivantes :

  • Performances : réduction de la connexion et de la latence des requêtes courtes, amélioration de la vitesse de transfert des résultats basée sur la sérialisation par flèche Apache et amélioration des performances de récupération des métadonnées.
  • Expérience utilisateur : Authentification à l’aide de jetons d’accès OAuth2 Microsoft Entra, messages d’erreur améliorés et nouvelles tentatives automatiques lors de la connexion à un cluster d’arrêt, gestion plus robuste des nouvelles tentatives sur les erreurs réseau intermittentes.
  • Prise en charge des connexions utilisant le proxy HTTP.

Pour plus d’informations sur la connexion aux outils BI à l’aide de JDBC et ODBC, consultezPilotes ODBC et JDBC Databricks.

Service de modèles MLflow (préversion publique)

9 - 15 septembre 2020: Version 3.28

Le modèle MLflow service est désormais disponible en préversion publique. Le service de modèles MLflow vous permet de déployer un modèle MLflow inscrit dans le registre de modèle en tant que point de terminaison d’API REST hébergé et géré par Azure Databricks. Quand vous activez le service de modèle pour un modèle inscrit, Azure Databricks crée un cluster et déploie toutes les versions non archivées de ce modèle.

Vous pouvez interroger toutes les versions de modèle par les demandes de l’API REST avec l’authentification Azure Databricks standard. Les droits d’accès au modèle sont hérités du registre de modèle, toute personne disposant de droits de lecture pour un modèle inscrit peut interroger n’importe quelle version de modèle déployée. Bien que ce service soit en préversion, nous vous recommandons de l’utiliser pour des applications de faible débit et non critiques.

Pour plus d’informations, consultez Service de modèles MLflow hérité sur Azure Databricks.

Améliorations de l’interface utilisateur des clusters

9 - 15 septembre 2020: Version 3.28

La page Clusters comporte désormais des onglets distincts pour les clusters à usage général et lesclusters de travail. La liste de chaque onglet est désormais paginée. En outre, nous avons résolu le délai qui s’est parfois produit entre la création d’un cluster et sa capacité à le voir dans l’interface utilisateur.

Contrôles de visibilité pour les travaux, les clusters, les notebooks et autres objets d’espace de travail

9 - 15 septembre 2020: Version 3.28

Par défaut, tout utilisateur peut voir tous les travaux, les clusters, les blocs-notes et les dossiers de l’espace de travail qui s’affichent dans l’interface utilisateur du Azure Databricks et peut les répertorier à l’aide de l’API Databricks, même si le contrôle d’accès est activé pour ces objets et qu’un utilisateur n’a pas d’autorisations sur ces objets.

À présent, tout administrateur Azure Databricks peut activer des contrôles de visibilité pour les blocs-notes et les dossiers (objets d’espace de travail), les clusters et les travaux pour s’assurer que les utilisateurs peuvent afficher uniquement les objets auxquels ils ont accès via le contrôle d’accès à l’espace de travail, au cluster ou aux tâches.

Consultez Les listes de contrôles d’accès ne peuvent plus être désactivées.

Possibilité de créer des jetons qui ne sont plus autorisés par défaut

9 - 15 septembre 2020: Version 3.28

Pour les espaces de travail créés après la version de Azure Databricks plateforme 3.28, les utilisateurs n’ont plus la possibilité de générer des jetons d’accès personnels par défaut. Les administrateurs doivent accorder explicitement ces autorisations, qu’il s’agisse de l’ensemble du groupe users ou d’un utilisateur par groupe. Les espaces de travail créés avant la sortie de la version 3.28 conservent les autorisations qui étaient déjà en place.

Consultez Surveiller et révoquer des jetons d’accès personnels.

Le registre de modèles MLflow prend en charge le partage de modèles dans les espaces de travail

9 septembre 2020

Azure Databricks prend désormais en charge l’accès au registre de modèle à partir de plusieurs espaces de travail. Vous pouvez désormais inscrire des modèles, suivre des exécutions de modèles et charger des modèles dans des espaces de travail. Plusieurs équipes peuvent désormais partager l’accès aux modèles, et les organisations peuvent utiliser plusieurs espaces de travail pour gérer les différentes étapes du développement. Pour plus d’informations, consultez Partager des modèles dans des espaces de travail.

Cette fonctionnalité nécessite un client Python MLflow version 1.11.0 ou ultérieure.

Databricks Runtime 7.3 (bêta)

3 septembre 2020

Databricks Runtime 7.3, Databricks Runtime 7.3 pour Machine Learning et Databricks Runtime 7.3 pour génomique sont désormais mis à la disposition comme versions bêtas.

Pour obtenir plus d’informations, consultez Databricks Runtime 7.3 LTS (EoS) et Databricks Runtime 7.3 LTS pour Machine Learning (EoS).

Changement du nom du type de charge de travail Azure Databricks

1 septembre 2020

Les noms des types de charges de travail utilisés par vos clusters ont été modifiés :

  • Data Engineering -> Jobs Compute
  • Data Engineering Light -> Jobs Light Compute
  • Data Analytics -> Calcul à usage général

Ces nouveaux noms s’affichent sur les factures et dans le portail EA en association avec votre plan de tarification (par exemple, « Premium-Jobs compute-DBU »). Pour plus d’informations, consultez Compteurs Azure Databricks .

L’interface utilisateur a également changé dans la version 3.27 de la plateforme (ciblée pour une version intermédiaire comprise entre le 25 août et le 3 septembre) :

Sur la page Clusters, les en-têtes de liste ont été modifiés :

  • Clusters interactifs -> Clusters tout usage
  • Clusters automatisés - > clusters de travail

Quand vous configurez un cluster pour un travail, les options de type de cluster ont changé :

  • Nouveau cluster automatisé- > cluster de nouveau travail
  • Cluster interactif existant- > cluster tout usage existant