Carregue dados para aprendizado de máquina e aprendizado profundo
Esta secção inclui informações sobre o carregamento de dados especificamente para aplicações ML e DL. Para obter informações gerais sobre como carregar dados, consulte Ingerir dados em uma casa de lago Databricks.
Armazenar ficheiros para carregamento de dados e ponto de verificação de modelos
As aplicações de machine learning podem ter de utilizar o armazenamento partilhado para carregamento de dados e ponto de verificação de modelos. O armazenamento partilhado é particularmente importante para a aprendizagem profunda distribuída.
O Azure Databricks fornece Unity Catalog, uma solução de governança unificada para dados e ativos de IA. Você pode usar o Unity Catalog para acessar dados em um cluster usando o Spark e APIs de arquivos locais.
Carregar dados tabulares
Você pode carregar dados tabulares de aprendizado de máquina de tabelas ou arquivos (por exemplo, consulte Ler arquivos CSV). Você pode converter Apache Spark DataFrames em pandas DataFrames usando o PySpark e, opcionalmente, converter para o formato NumPy usando o toPandas()
PySpark.
Preparar dados para ajustar modelos de linguagem grandes
Você pode preparar seus dados para ajustar modelos de linguagem grande de código aberto com Hugging Face Transformers e Hugging Face Datasets.
Preparar dados para ajustar modelos Hugging Face
Preparar dados para treinamento distribuído de aprendizado profundo
Esta seção aborda a preparação de dados para treinamento distribuído de aprendizado profundo usando Mosaic Streaming e TFRecords.