Partilhar via


Carregue dados para aprendizado de máquina e aprendizado profundo

Esta secção inclui informações sobre o carregamento de dados especificamente para aplicações ML e DL. Para obter informações gerais sobre como carregar dados, consulte Ingerir dados em uma casa de lago Databricks.

Armazenar ficheiros para carregamento de dados e ponto de verificação de modelos

As aplicações de machine learning podem ter de utilizar o armazenamento partilhado para carregamento de dados e ponto de verificação de modelos. O armazenamento partilhado é particularmente importante para a aprendizagem profunda distribuída.

O Azure Databricks fornece Unity Catalog, uma solução de governança unificada para dados e ativos de IA. Você pode usar o Unity Catalog para acessar dados em um cluster usando o Spark e APIs de arquivos locais.

Carregar dados tabulares

Você pode carregar dados tabulares de aprendizado de máquina de tabelas ou arquivos (por exemplo, consulte Ler arquivos CSV). Você pode converter Apache Spark DataFrames em pandas DataFrames usando o PySpark e, opcionalmente, converter para o formato NumPy usando o toPandas()PySpark.

Preparar dados para ajustar modelos de linguagem grandes

Você pode preparar seus dados para ajustar modelos de linguagem grande de código aberto com Hugging Face Transformers e Hugging Face Datasets.

Preparar dados para ajustar modelos Hugging Face

Preparar dados para treinamento distribuído de aprendizado profundo

Esta seção aborda a preparação de dados para treinamento distribuído de aprendizado profundo usando Mosaic Streaming e TFRecords.