Partager via


Charger des données pour le machine learning et le deep learning

Cette section traite des informations relatives au chargement de données spécifiques pour les applications ML et DL. Pour obtenir des informations générales sur le chargement des données, consultez Réception de données dans un lac de données Databricks.

Stocker des fichiers pour le chargement de données et la réalisation de points de contrôle de modèle

Les applications d’apprentissage automatique peuvent avoir besoin d’utiliser un stockage partagé pour le chargement des données et le contrôle de modèle. Cela est particulièrement important pour le Deep Learning distribué.

Azure Databricks fournit Unity Catalog, une solution de gouvernance unifiée pour les ressources de données et d’IA. Vous pouvez utiliser Unity Catalog pour accéder aux données sur un cluster à l’aide d’API spark et de fichier local.

Charger les données tabulaires

Vous pouvez charger des données de Machine Learning tabulaires à partir de tables ou de fichiers (par exemple, voir Lire des fichiers CSV). Vous pouvez convertir les DataFrames Apache Spark en DataFrames pandas à l’aide de la méthode PySparktoPandas(), puis éventuellement les convertir au format NumPy à l’aide de la méthode PySparkto_numpy().

Préparer des données pour affiner les modèles de langage volumineux

Vous pouvez préparer vos données pour le réglage des modèles de langage volumineux open source à l’aide de transformateurs Hugging Face et de jeux de données Hugging Face.

Préparer des données pour le réglage des modèles Hugging Face

Préparer des données pour l’entraînement Deep Learning distribué

Cette section couvre la préparation des données pour le Deep Learning distribué avec Mosaic Streaming et TFRecords.