Charger des données pour le machine learning et le deep learning
Cette section traite des informations relatives au chargement de données spécifiques pour les applications ML et DL. Pour obtenir des informations générales sur le chargement des données, consultez Réception de données dans un lac de données Databricks.
Stocker des fichiers pour le chargement de données et la réalisation de points de contrôle de modèle
Les applications d’apprentissage automatique peuvent avoir besoin d’utiliser un stockage partagé pour le chargement des données et le contrôle de modèle. Cela est particulièrement important pour le Deep Learning distribué.
Azure Databricks fournit Unity Catalog, une solution de gouvernance unifiée pour les ressources de données et d’IA. Vous pouvez utiliser Unity Catalog pour accéder aux données sur un cluster à l’aide d’API spark et de fichier local.
Charger les données tabulaires
Vous pouvez charger des données de Machine Learning tabulaires à partir de tables ou de fichiers (par exemple, voir Lire des fichiers CSV). Vous pouvez convertir les DataFrames Apache Spark en DataFrames pandas à l’aide de la méthode PySparktoPandas()
, puis éventuellement les convertir au format NumPy à l’aide de la méthode PySparkto_numpy()
.
Préparer des données pour affiner les modèles de langage volumineux
Vous pouvez préparer vos données pour le réglage des modèles de langage volumineux open source à l’aide de transformateurs Hugging Face et de jeux de données Hugging Face.
Préparer des données pour le réglage des modèles Hugging Face
Préparer des données pour l’entraînement Deep Learning distribué
Cette section couvre la préparation des données pour le Deep Learning distribué avec Mosaic Streaming et TFRecords.