Condividi tramite


Training distribuito con il server di distribuzione DeepSpeed

Questo articolo descrive come eseguire il training distribuito nei modelli di Machine Learning PyTorch utilizzando il server di distribuzione DeepSpeed.

Il server di distribuzione DeepSpeed è basato su TorchDistributor ed è una soluzione consigliata per i clienti con modelli che richiedono una potenza di calcolo superiore, ma sono limitati dai vincoli di memoria.

La libreria DeepSpeed è una libreria open source sviluppata da Microsoft ed è disponibile in Databricks Runtime 14.0 ML o versione successiva. Offre un utilizzo ottimizzato della memoria, un sovraccarico di comunicazione ridotto e un parallelismo avanzato della pipeline che consentono il ridimensionamento di modelli e procedure di training che altrimenti non sarebbero raggiungibili su hardware standard.

Di seguito sono riportati alcuni esempi di scenari in cui il server di distribuzione DeepSpeed risulta vantaggioso:

  • Memoria GPU insufficiente.
  • Training di modelli di grandi dimensioni.
  • Dati di input di grandi dimensioni, ad esempio durante l'inferenza di batch.

Notebook di esempio per il training distribuito con DeepSpeed

Il seguente esempio di notebook illustra come eseguire il training distribuito con il server di distribuzione DeepSpeed.

Ottimizzare Llama 2 7B Chat con notebook DeepspeedTorchDistributor

Ottenere il notebook