Condividi tramite


Preparare i dati per il training distribuito

Questo articolo descrive i metodi per preparare i dati per il training distribuito: Mosaic Streaming e TFRecords.

Mosaic Streaming è una libreria di caricamento dati open source che consente un flusso efficiente di set di dati di grandi dimensioni dall'archiviazione cloud. Questa libreria è ideale per la gestione di set di dati di grandi dimensioni che non rientrano nella memoria, perché è progettata specificamente per il training multinodo distribuito di modelli di grandi dimensioni. Mosaic Streaming offre un'integrazione perfetta con PyTorch e l'ecosistema MosaicML. L'articolo seguente illustra questo caso d'uso:

TFRecord

È anche possibile usare il formato TFRecord come origine dati per il deep learning distribuito. Il formato TFRecord è un semplice formato binario orientato ai record che molte applicazioni TensorFlow utilizzano per i dati di training.

tf.data.TFRecordDataset è il set di dati TensorFlow, costituito da record di file TFRecords. Per altre informazioni sull'utilizzo dei dati TFRecord, vedere la guida di TensorFlow Uso dei dati TFRecord.

Gli articoli seguenti descrivono e illustrano i modi consigliati per salvare i dati in file TFRecord e caricare i file TFRecord: