Formation distribuée avec le serveur de distribution DeepSpeed
Cet article décrit comment effectuer une formation distribuée sur les modèles ML PyTorch à l'aide du serveur de distribution DeepSpeed.
Le serveur de distribution DeepSpeed repose sur TorchDistributor et est une solution recommandée pour les clients dont les modèles nécessitent une puissance de calcul plus élevée, mais qui sont limités par des contraintes de mémoire.
La bibliothèque DeepSpeed est une bibliothèque open source développée par Microsoft et disponible dans Databricks Runtime 14.0 ML ou version ultérieure. Il offre une utilisation optimisée de la mémoire, une réduction de la surcharge de communication et un parallélisme de pipeline avancé qui permettent la mise à l’échelle des modèles et des procédures de formation qui seraient autrement inaccessibles sur le matériel standard.
Voici des exemples de scénarios dans lesquels le serveur de distribution DeepSpeed est bénéfique :
- Mémoire GPU faible.
- Formation de modèle volumineux.
- Données d’entrée volumineuses, comme lors de l’inférence par lots.
Exemple de notebook pour la formation distribuée avec DeepSpeed
L’exemple de notebook suivant montre comment effectuer une formation distribuée avec le serveur de distribution DeepSpeed.