Comprendre les concepts clés

Effectué

Azure Databricks est une plateforme de service unique avec plusieurs technologies qui permettent de travailler avec des données à grande échelle. Pour utiliser Azure Databricks, il faut en comprendre quelques concepts clés.

Workspaces

Un espace de travail est un environnement qui vous permet d’accéder à toutes les ressources Databricks. Il fournit une interface utilisateur pour gérer des notebooks, des bibliothèques et des expériences. Les espaces de travail peuvent être organisés en dossiers et partagés entre des membres d’équipe, ce qui facilite la collaboration et la gestion des ressources.

Blocs-notes

Les notebooks Databricks sont des documents interactifs qui contiennent du code exécutable, des visualisations et du texte narratif. Ils prennent en charge plusieurs langages, notamment Python, R, Scala et SQL, qui peuvent être utilisés simultanément dans le même notebook. Les notebooks sont au centre des projets collaboratifs et sont idéaux pour l’analyse exploratoire des données, la visualisation des données et les workflows de données complexes.

Clusters

Les clusters sont les moteurs de calcul d’Azure Databricks. Les utilisateurs peuvent créer et mettre à l’échelle des clusters en fonction des ressources de calcul nécessaires. Les clusters peuvent être configurés manuellement ou définis pour être mis à l’échelle automatiquement en fonction de la charge de travail. Ils prennent en charge différents types de nœuds pour différentes tâches, comme des nœuds pilote et Worker, garantissant une utilisation efficace des ressources.

Tâches

Les travaux dans Azure Databricks sont utilisés pour planifier et exécuter des tâches automatisées. Ces tâches peuvent être des exécutions de notebook, des travaux Spark ou des exécutions de code arbitraires. Les travaux peuvent être déclenchés selon une planification ou s’exécuter en réponse à certains événements, ce qui facilite l’automatisation des workflows et des tâches périodiques de traitement des données.

Runtime Databricks

Le Databricks Runtime est un ensemble de versions d’Apache Spark optimisées pour les performances. Il inclut des améliorations pour de meilleures performances et des fonctionnalités supplémentaires au-delà de Spark Standard, comme des optimisations pour les charges de travail Machine Learning, le traitement des graphiques et la génomique.

Delta Lake

Delta Lake est une couche de stockage open source qui apporte la fiabilité et la scalabilité aux lacs de données. Il fournit des transactions ACID et une gestion évolutive des métadonnées, et unifie le traitement des données de streaming et par lots, le tout étant crucial pour gérer des données à grande échelle de façon cohérente et avec une tolérance aux pannes.

Databricks SQL

Databricks SQL permet d’effectuer des requêtes SQL sur les données dans Azure Databricks. Il permet aux analystes Données d’exécuter des requêtes ad hoc rapides et de créer des rapports directement sur le Big Data. Il inclut un éditeur SQL, des tableaux de bord et des outils de visualisation automatiques, ce qui le rend convivial pour ceux qui sont habitués aux environnements SQL.

MLflow

MLflow est une plateforme open source qui permet de gérer le cycle de vie du Machine Learning de bout en bout. Il inclut des fonctionnalités pour le suivi des expériences, la gestion des modèles et le déploiement, aidant les professionnels à gérer et partager efficacement leurs modèles et leurs expériences ML.