Juillet 2020

Article
10/04/2024

Ces fonctionnalités et améliorations de la plateforme Azure Databricks ont été publiées en juillet 2020.

Notes

Les publications se font par étapes. Votre compte Azure Databricks peut ne pas être mis à jour jusqu’à une semaine après la date de publication initiale.

Terminal web (préversion publique)

29 juillet - 4 août 2020 : version 3.25

Le terminal Web offre aux utilisateurs disposant de l’autorisation PEUT ATTACHER À sur un cluster un moyen pratique et très interactif d’exécuter des commandes shell, y compris des éditeurs tels que Vim ou Emacs. Les exemples d’utilisation du terminal Web incluent la surveillance de l’utilisation des ressources et l’installation de packages Linux.

Pour plus d’informations, consultez Exécuter des commandes d’interpréteur de commandes dans un terminal web Azure Databricks.

Nouveau framework de script d’initialisation global plus sécurisé (préversion publique)

29 juillet au 4 août 2020 : version 3.25

Le nouveau cadre de script init global apporte des améliorations significatives par rapport aux anciens scripts init globaux :

Les scripts init sont plus sécurisés, ce qui requiert des autorisations d’administrateur pour créer, afficher et supprimer.
Les échecs de lancement liés aux scripts sont journalisés.
Vous pouvez définir l’ordre d’exécution de plusieurs scripts init.
Les scripts init peuvent faire référence à des variables d’environnement associées au cluster.
Les scripts d’initialisation peuvent être créés et gérés à l’aide de la page des paramètres d’administration ou de la nouvelle API REST des scripts d’initialisation globaux.

Databricks vous recommande de migrer des scripts init globaux hérités existants vers la nouvelle infrastructure pour tirer parti de ces améliorations.

Pour plus d’informations, consultez Scripts init globaux.

Listes d’accès IP maintenant en disponibilité générale

29 juillet au 4 août 2020 : version 3.25

L’API de liste d’accès IP est désormais généralement disponible.

La version GA comprend une modification, qui consiste à renommer les valeurs list_type :

Il lance WHITELIST sur ALLOW.
Il lance BLACKLIST sur BLOCK.

Utilisez l'API Liste d'accès IP pour configurer vos espaces de travail Azure Databricks afin que les utilisateurs se connectent au service uniquement via les réseaux d'entreprise existants avec un périmètre sécurisé. Les administrateurs d'Azure Databricks peuvent utiliser l'API Liste d'accès IP pour définir un ensemble d'adresses IP approuvées, y compris des listes d'autorisation et de blocage. Tout accès entrant à l’application web et aux API REST nécessite que l’utilisateur se connecte à partir d’une adresse IP autorisée, garantissant ainsi que les espaces de travail ne sont pas accessibles à partir d’un réseau public comme un café ou un aéroport, à moins que vos utilisateurs n’utilisent un VPN.

cette fonctionnalité nécessite le plan Premium.

Pour plus d’informations, consultez Configurer des listes d’accès IP pour les espaces de travail.

Nouvelle boîte de dialogue de chargement de fichier

29 juillet au 4 août 2020 : version 3.25

Vous pouvez désormais charger des fichiers de données tabulaires de petite taille (comme les csv) et y accéder à partir d’un notebook en sélectionnant Ajout de données dans le menu Fichier du notebook. Le code généré vous montre comment charger les données dans Pandas ou DataFrames. Les administrateurs peuvent désactiver cette fonctionnalité dans l’onglet avancé de la console d’administration.

Pour plus d’informations, consultez Parcourir les fichiers dans DBFS.

Améliorations du filtre et du tri dans l’API SCIM

29 juillet - 4 août 2020 : version 3.25

L’API SCIM comprend désormais les améliorations de filtrage et de tri suivantes :

Les administrateurs peuvent filtrer les utilisateurs sur l’attribut active.
Tous les utilisateurs peuvent trier les résultats en utilisant les paramètres de requête sortBy et sortOrder. Le tri par ID est le tri par défaut.

Ajout de régions Azure Government

25 juillet 2020

Azure Databricks récemment disponible dans les régions US Gov Arizona et US Gov Virginie pour les entités gouvernementales américaines et leurs partenaires.

Databricks Runtime 7.1 GA

21 juillet 2020

Databricks Runtime 7.1 apporte de nombreuses fonctionnalités et améliorations supplémentaires par rapport à Databricks Runtime 7.0, notamment :

Connecteur Google BigQuery
%pip commandes pour gérer les bibliothèques python installées dans une session de bloc-notes
Koalas installé
De nombreuses améliorations Delta Lake, notamment :
- Définition des métadonnées de validation définies par l’utilisateur
- Obtention de la version de la dernière validation écrite par le SparkSession actuel
- Conversion de tables parquet créées par Structured streaming à l’aide du journal des transactions _spark_metadata
- MERGE INTOAmélioration des performances

Pour plus d’informations, consultez les notes de publication complètes Databricks Runtime 7.1 (fin de support).

Databricks Runtime 7.1 ML GA

21 juillet 2020

Databricks Runtime 7.1 pour Machine Learning repose sur Databricks Runtime 7.1 et apporte les nouvelles fonctionnalités et modifications de bibliothèque suivantes :

commandes Magic PIP et Conda activées par défaut
spark-tensorflow-distributor: 0.1.0
pillow 7.0.0 -> 7.1.0
pytorch 1.5.0 -> 1.5.1
torchvision 0.6.0 -> 0.6.1
horovod 0.19.1 -> 0.19.5
mlflow 1.8.0 -> 1.9.1

Pour plus d’informations, consultez les notes de publication complètes Databricks Runtime 7.1 pour ML (fin de support).

Databricks Runtime 7.1 Genomics GA

21 juillet 2020

Databricks Runtime 7.1 pour Genomics s’appuie sur Databricks Runtime 7.1 et comprend les nouvelles fonctionnalités suivantes :

Transformation LOCO
Fonction de remodelage de sortie GloWGR
RNASeq renvoie les alignements non appariés