O que é AutoML?

Concluído

O ML automatizado é um recurso do Azure Databricks que permite automatizar o treinamento e a avaliação de um modelo de aprendizado de máquina usando diferentes combinações de valores de algoritmo e hiperparâmetro. Ao usar o ML automatizado, você pode reduzir o esforço envolvido em um processo iterativo de treinamento de modelo e criar um modelo ideal para seus dados com mais rapidez.

Como o AutoML funciona?

O ML automatizado funciona gerando várias execuções de experimento, cada uma treinando um modelo usando um algoritmo e uma combinação de hiperparâmetro diferentes. Em cada execução, um modelo é treinado e avaliado com base nos dados e na métrica preditiva especificada. O Azure Databricks controla as execuções e os modelos que produzem usando o MLflow, permitindo que você identifique o modelo de melhor desempenho e implante-o em produção.

Diagrama mostrando o processo do ML automatizado.

  1. Você inicia um experimento de ML automatizado, especificando uma tabela no workspace do Azure Databricks como a fonte de dados para treinamento e a métrica de desempenho específica para a qual você deseja otimizar.
  2. O experimento de ML automatizado gera várias execuções do MLflow, cada uma produzindo um notebook com código para pré-processar os dados antes de treinar e validar um modelo. Os modelos treinados são salvos como artefatos nas execuções ou arquivos do MLflow no repositório DBFS.
  3. As execuções do experimento são listadas em ordem de desempenho, com os modelos de melhor desempenho mostrados primeiro. Você pode explorar os notebooks que foram gerados para cada execução, escolher o modelo que deseja usar e, em seguida, registrá-lo e implantá-lo.

Dica

Para obter detalhes sobre as transformações de pré-processamento específicas e os algoritmos de treinamento usados pelo ML automatizado, confiraComo o Azure Databricks AutoML funciona na documentação do Azure Databricks.

Preparar dados para o ML automatizado

O AutoML precisa de uma fonte de dados de treinamento que inclua valores de recurso e rótulo. Para fornecer esses dados, crie uma tabela no metastore do Hive no workspace do Azure Databricks.

Uma maneira simples de criar uma tabela de dados de treinamento para o ML automatizado é carregar um arquivo de dados no portal do Azure Databricks, conforme mostrado aqui.

Captura de tela da interface Carregar dados do Azure Databricks.

O ML automatizado gera código para lidar com tarefas comuns de pré-processamento de dados; como codificar variáveis categóricas, dimensionar variáveis numéricas, lidar com valores nulos e lidar com conjuntos de dados desequilibrados.