Condividi tramite


Caricare i dati per l’apprendimento automatico e il Deep Learning

Questa sezione fornisce informazioni sul caricamento dei dati in modo specifico per applicazioni di apprendimento automatico e Deep Learning. Per informazioni generali sul caricamento dei dati, vedere Inserire dati in un lakehouse di Databricks.

Archiviare file per il caricamento dei dati e l'impostazione del checkpoint dei modelli

È possibile che le applicazioni di apprendimento automatico debbano usare risorse di archiviazione condivise per il caricamento dei dati e l'impostazione del checkpoint dei modelli. Questo aspetto è particolarmente importante per Deep Learning distribuito.

Azure Databricks offre Unity Catalog, una soluzione di governance unificata per i dati e gli asset di intelligenza artificiale. È possibile usare Unity Catalog per accedere ai dati in un cluster usando le API di file locali e Spark.

Caricare dati tabulari

È possibile caricare dati di Machine Learning tabulari da tables o file( ad esempio, vedere Leggere file CSV). È possibile convertire DataFrame di Apache Spark in DataFrame di pandas usando il metodo PySparktoPandas(), e quindi eseguire facoltativamente la conversione in formato NumPy usando il metodo PySparkto_numpy().

Preparare i dati per ottimizzare i modelli linguistici di grandi dimensioni

È possibile impostare i dati per ottimizzare i modelli linguistici open source di grandi dimensioni con Hugging Face Transformers e Hugging Face Datasets.

Impostare i dati per ottimizzare i modelli Hugging Face

Impostare i dati per il training di Deep Learning distribuito

Questa sezione illustra l'impostazione dei dati per il training di Deep Learning distribuito tramite Mosaic Streaming e TFRecords.