Tutorial: Treinar um modelo de classificação com AutoML sem código no estúdio do Azure Machine Learning
Neste tutorial, você aprenderá a treinar um modelo de classificação com o AutoML (aprendizado de máquina automatizado sem código) usando o Aprendizado de Máquina do Azure no estúdio do Azure Machine Learning. Este modelo de classificação prevê se um cliente subscreve um depósito a prazo fixo numa instituição financeira.
Com o ML automatizado, você pode automatizar tarefas que exigem muito tempo. O aprendizado de máquina automatizado itera rapidamente em muitas combinações de algoritmos e hiperparâmetros para ajudá-lo a encontrar o melhor modelo com base em uma métrica de sucesso de sua escolha.
Você não escreve nenhum código neste tutorial. Você usa a interface do estúdio para executar o treinamento. Você aprende a fazer as seguintes tarefas:
- Criar uma área de trabalho do Azure Machine Learning
- Executar uma experimentação de machine learning automatizado
- Explore os detalhes do modelo
- Implantar o modelo recomendado
Pré-requisitos
Uma subscrição do Azure. Se não tiver uma subscrição do Azure, crie uma conta gratuita.
Transfira o ficheiro de dados bankmarketing_train.csv . A coluna y indica se um cliente subscreveu um depósito a prazo fixo, que é posteriormente identificado como a coluna alvo para previsões neste tutorial.
Nota
Este conjunto de dados de Marketing Bancário é disponibilizado sob a Licença Creative Commons (CCO: Domínio Público). Quaisquer direitos sobre o conteúdo individual do banco de dados são licenciados sob a Licença de Conteúdo do Banco de Dados e estão disponíveis no Kaggle. Este conjunto de dados estava originalmente disponível no UCI Machine Learning Database.
[Moro et al., 2014] S. Moro, P. Cortez e P. Rita. Uma abordagem orientada por dados para prever o sucesso do telemarketing bancário. Decision Support Systems, Elsevier, 62:22-31, junho de 2014.
Criar uma área de trabalho
Um espaço de trabalho do Azure Machine Learning é um recurso fundamental na nuvem que você usa para experimentar, treinar e implantar modelos de aprendizado de máquina. Ele vincula sua assinatura do Azure e seu grupo de recursos a um objeto facilmente consumido no serviço.
Conclua as etapas a seguir para criar um espaço de trabalho e continue o tutorial.
Entre no estúdio do Azure Machine Learning.
Selecione Criar espaço de trabalho.
Forneça as seguintes informações para configurar seu novo espaço de trabalho:
Campo Descrição Nome da área de trabalho Insira um nome exclusivo que identifique seu espaço de trabalho. Os nomes devem ser exclusivos em todo o grupo de recursos. Use um nome fácil de lembrar e diferenciar de espaços de trabalho criados por outras pessoas. O nome do espaço de trabalho não diferencia maiúsculas de minúsculas. Subscrição Selecione a subscrição do Azure que pretende utilizar. Grupo de recursos Utilize um grupo de recursos já existente na sua subscrição ou introduza um nome para criar um grupo de recursos novo. Um grupo de recursos contém recursos relacionados para uma solução do Azure. Você precisa da função de colaborador ou proprietário para usar um grupo de recursos existente. Para obter mais informações, consulte Gerenciar o acesso a um espaço de trabalho do Azure Machine Learning. País/Região Selecione a região do Azure mais próxima de seus usuários e os recursos de dados para criar seu espaço de trabalho. Selecione Criar para criar o espaço de trabalho.
Para obter mais informações sobre os recursos do Azure, consulte Criar o espaço de trabalho.
Para outras maneiras de criar um espaço de trabalho no Azure, gerencie espaços de trabalho do Azure Machine Learning no portal ou com o SDK do Python (v2).
Criar um trabalho de Aprendizado de Máquina Automatizado
Conclua a configuração do experimento a seguir e execute as etapas usando o estúdio do Azure Machine Learning em https://ml.azure.com. O Machine Learning Studio é uma interface web consolidada que inclui ferramentas de aprendizado de máquina para executar cenários de ciência de dados para profissionais de ciência de dados de todos os níveis de habilidade. O estúdio não é suportado nos navegadores Internet Explorer.
Selecione sua assinatura e o espaço de trabalho que você criou.
No painel de navegação, selecione Criação de>ML automatizado.
Como este tutorial é seu primeiro experimento automatizado de ML, você verá uma lista vazia e links para a documentação.
Selecione Novo trabalho de ML automatizado.
Em Método de treinamento, selecione Treinar automaticamente e, em seguida, selecione Iniciar configuração do trabalho.
Em Configurações básicas, selecione Criar novo e, em seguida, para Nome do experimento, insira my-1st-automl-experiment.
Selecione Avançar para carregar seu conjunto de dados.
Criar e carregar um conjunto de dados como um ativo de dados
Antes de configurar seu experimento, carregue o arquivo de dados em seu espaço de trabalho na forma de um ativo de dados do Azure Machine Learning. Para este tutorial, você pode pensar em um ativo de dados como seu conjunto de dados para o trabalho de ML automatizado. Isso permite que você garanta que seus dados sejam formatados adequadamente para seu experimento.
Em Tipo de tarefa & dados, para Selecionar tipo de tarefa, escolha Classificação.
Em Selecionar dados, escolha Criar.
No formulário Tipo de dados, dê um nome ao seu ativo de dados e forneça uma descrição opcional.
Em Tipo, selecione Tabelar. Atualmente, a interface de ML automatizada suporta apenas TabularDatasets.
Selecione Seguinte.
No formulário Fonte de dados, selecione De arquivos locais. Selecione Seguinte.
Em Tipo de armazenamento de destino, selecione o armazenamento de dados padrão que foi configurado automaticamente durante a criação do espaço de trabalho: workspaceblobstore. Você carrega seu arquivo de dados para esse local para disponibilizá-lo para seu espaço de trabalho.
Selecione Seguinte.
Em Seleção de ficheiros ou pastas, selecione Carregar ficheiros ou Carregar>ficheiros.
Escolha o arquivo bankmarketing_train.csv no computador local. Você baixou este arquivo como um pré-requisito.
Selecione Seguinte.
Quando o carregamento termina, a área de visualização de dados é preenchida com base no tipo de arquivo.
No formulário Configurações, revise os valores dos seus dados. Em seguida, selecione Seguinte.
Campo Descrição Valor para tutorial File format Define o layout e o tipo de dados armazenados em um arquivo. Delimitado Delimitador Um ou mais caracteres para especificar o limite entre regiões separadas e independentes em texto sem formatação ou outros fluxos de dados. Comma Codificação Identifica qual tabela de esquema de bit a caractere usar para ler seu conjunto de dados. UTF-8 Cabeçalhos de coluna Indica como os cabeçalhos do conjunto de dados, se houver, são tratados. Todos os ficheiros têm os mesmos cabeçalhos Saltar filas Indica quantas linhas, se houver, são ignoradas no conjunto de dados. Nenhuma O formulário Esquema permite a configuração adicional de seus dados para este experimento. Para este exemplo, selecione o interruptor de alternância para o day_of_week, de modo a não incluí-lo. Selecione Seguinte.
No formulário Revisão, verifique suas informações e selecione Criar.
Selecione seu conjunto de dados na lista.
Revise os dados selecionando o ativo de dados e examinando a guia de visualização . Certifique-se de que não inclui day_of_week e selecione Fechar.
Selecione Avançar para prosseguir para as configurações da tarefa.
Configurar trabalho
Depois de carregar e configurar os dados, você pode configurar o experimento. Essa configuração inclui tarefas de design de experimento, como selecionar o tamanho do seu ambiente de computação e especificar qual coluna você deseja prever.
Preencha o formulário Configurações da tarefa da seguinte maneira:
Selecione y (String) como a coluna de destino, que é o que você deseja prever. Esta coluna indica se o cliente subscreveu ou não um depósito a prazo.
Selecione Exibir definições de configuração adicionais e preencha os campos da seguinte maneira. Estas configurações destinam-se a controlar melhor o trabalho de formação. Caso contrário, os padrões são aplicados com base na seleção e nos dados do experimento.
Configurações adicionais Description Valor para tutorial Métrica primária Métrica de avaliação utilizada para medir o algoritmo de aprendizagem automática. AUCWeighted Explicar o melhor modelo Mostra automaticamente a explicabilidade no melhor modelo criado pelo ML automatizado. Ativar Modelos bloqueados Algoritmos que pretende excluir do trabalho de formação Nenhuma Selecione Guardar.
Em Validar e testar:
- Para Tipo de validação, selecione k-fold cross-validation.
- Em Número de validações cruzadas, selecione 2.
Selecione Seguinte.
Selecione o cluster de computação como seu tipo de computação.
Um destino de computação é um ambiente de recursos local ou baseado em nuvem usado para executar seu script de treinamento ou hospedar sua implantação de serviço. Para este experimento, você pode tentar uma computação sem servidor baseada em nuvem (visualização) ou criar sua própria computação baseada em nuvem.
Nota
Para usar a computação sem servidor, habilite o recurso de visualização, selecione Sem servidor e ignore este procedimento.
Para criar seu próprio destino de computação, em Selecionar tipo de computação, selecione Cluster de computação para configurar seu destino de computação.
Preencha o formulário Máquina Virtual para configurar sua computação. Selecione Novo.
Campo Descrição Valor para tutorial Location A sua região a partir da qual pretende executar a máquina E.U.A. Oeste 2 Camada de máquina virtual Selecione a prioridade que seu experimento deve ter Dedicada Tipo de máquina virtual Selecione o tipo de máquina virtual para sua computação. CPU (Unidade Central de Processamento) Tamanho da máquina virtual Selecione o tamanho da máquina virtual para sua computação. Uma lista de tamanhos recomendados é fornecida com base em seus dados e tipo de experimento. Standard_DS12_V2 Selecione Avançar para ir para o formulário Configurações avançadas .
Campo Descrição Valor para tutorial Nome da computação Um nome exclusivo que identifica seu contexto de computação. Automl-Compute Nós Min / Max Para criar um perfil, você deve especificar 1 ou mais nós. Nós mínimos: 1
Nós máximos: 6Segundos ociosos antes de reduzir a escala Tempo ocioso antes que o cluster seja automaticamente reduzido para a contagem mínima de nós. 120 (padrão) Definições avançadas Configurações para configurar e autorizar uma rede virtual para seu experimento. Nenhuma Selecione Criar.
A criação de uma computação pode levar minutos para ser concluída.
Após a criação, selecione seu novo destino de computação na lista. Selecione Seguinte.
Selecione Enviar trabalho de treinamento para executar o experimento. A tela Visão geral é aberta com o Status na parte superior quando a preparação do experimento começa. Esse status é atualizado à medida que o experimento progride. As notificações também aparecem no estúdio para informá-lo sobre o status do seu experimento.
Importante
A preparação leva de 10 a 15 minutos para preparar a corrida do experimento. Uma vez em execução, leva de 2 a 3 minutos a mais para cada iteração.
Na produção, você provavelmente se afastaria um pouco. Mas para este tutorial, você pode começar a explorar os algoritmos testados na guia Modelos à medida que eles são concluídos, enquanto os outros continuam a ser executados.
Explore modelos
Navegue até a guia Modelos + trabalhos filho para ver os algoritmos (modelos) testados. Por padrão, o trabalho ordena os modelos por pontuação métrica à medida que são concluídos. Para este tutorial, o modelo que obtém a pontuação mais alta com base na métrica AUCWeighted escolhida está no topo da lista.
Enquanto aguarda a conclusão de todos os modelos de experimento, selecione o Nome do algoritmo de um modelo concluído para explorar seus detalhes de desempenho. Selecione as guias Visão geral e Métricas para obter informações sobre o trabalho.
A animação a seguir exibe as propriedades, métricas e gráficos de desempenho do modelo selecionado.
Ver explicações do modelo
Enquanto aguarda a conclusão dos modelos, você também pode dar uma olhada nas explicações do modelo e ver quais recursos de dados (brutos ou projetados) influenciaram as previsões de um modelo específico.
Essas explicações de modelo podem ser geradas sob demanda. O painel de explicações do modelo que faz parte da guia Explicações (visualização) resume essas explicações.
Para gerar explicações de modelo:
Nos links de navegação na parte superior da página, selecione o nome do trabalho para voltar à tela Modelos .
Selecione a guia Modelos + trabalhos filho.
Para este tutorial, selecione o primeiro modelo MaxAbsScaler, LightGBM .
Selecione Explicar modelo. À direita, o painel Explicar modelo é exibido.
Selecione seu tipo de computação e, em seguida, selecione a instância ou cluster: automl-compute que você criou anteriormente. Este cálculo inicia um trabalho filho para gerar as explicações do modelo.
Selecione Criar. É apresentada uma mensagem verde de sucesso.
Nota
O trabalho de explicabilidade leva cerca de 2 a 5 minutos para ser concluído.
Selecione Explicações (visualização). Esta guia é preenchida após a conclusão da execução da explicabilidade.
À esquerda, expanda o painel. Em Recursos, selecione a linha que diz bruto.
Selecione a guia Agregar importância do recurso. Este gráfico mostra quais características de dados influenciaram as previsões do modelo selecionado.
Neste exemplo, a duração parece ter a maior influência nas previsões deste modelo.
Implante o melhor modelo
A interface automatizada de aprendizado de máquina permite que você implante o melhor modelo como um serviço Web. Implantação é a integração do modelo para que ele possa prever novos dados e identificar potenciais áreas de oportunidade. Para esta experiência, a implementação num serviço Web significa que a instituição financeira tem agora uma solução Web iterativa e escalável para identificar potenciais clientes de depósitos a prazo fixo.
Verifique se a execução do experimento foi concluída. Para fazer isso, navegue de volta para a página de trabalho pai selecionando o nome do trabalho na parte superior da tela. Um status Concluído é mostrado no canto superior esquerdo da tela.
Após a conclusão da execução do experimento, a página Detalhes é preenchida com uma seção Resumo do modelo Melhores. Neste contexto experimental, o VotingEnsemble é considerado o melhor modelo, baseado na métrica AUCWeighted .
Implante este modelo. A implantação leva cerca de 20 minutos para ser concluída. O processo de implantação envolve várias etapas, incluindo o registro do modelo, a geração de recursos e a configuração deles para o serviço Web.
Selecione VotingEnsemble para abrir a página específica do modelo.
Selecione Implantar>serviço Web.
Preencha o painel Implantar um modelo da seguinte maneira:
Campo Valor Nome my-automl-deploy Description Minha primeira implantação de experimento automatizado de aprendizado de máquina Tipo de computação Selecionar instância de contêiner do Azure Ative a autenticação Desativar. Usar ativos de implantação personalizados Desativar. Permite que o arquivo de driver padrão (script de pontuação) e o arquivo de ambiente sejam gerados automaticamente. Para este exemplo, use os padrões fornecidos no menu Avançado .
Selecione Implementar.
Uma mensagem verde de sucesso aparece na parte superior da tela Trabalho . No painel Resumo do modelo, uma mensagem de status aparece em Status da implantação. Selecione Atualizar periodicamente para verificar o status da implantação.
Você tem um serviço Web operacional para gerar previsões.
Prossiga para o Conteúdo relacionado para saber mais sobre como consumir seu novo serviço Web e testar suas previsões usando o Power BI interno no suporte do Aprendizado de Máquina do Azure.
Clean up resources (Limpar recursos)
Os arquivos de implantação são maiores do que os arquivos de dados e experimentos, portanto, custam mais para armazenar. Se você quiser manter seu espaço de trabalho e arquivos de experimento, exclua apenas os arquivos de implantação para minimizar os custos para sua conta. Se você não planeja usar nenhum dos arquivos, exclua todo o grupo de recursos.
Excluir a instância de implantação
Exclua apenas a instância de implantação do Aprendizado de Máquina do Azure em https://ml.azure.com/.
Vá para Azure Machine Learning. Navegue até o espaço de trabalho e, no painel Ativos , selecione Pontos de extremidade.
Selecione a implantação que deseja excluir e selecione Excluir.
Selecione Continuar.
Eliminar o grupo de recursos
Importante
Os recursos que você criou podem ser usados como pré-requisitos para outros tutoriais e artigos de instruções do Azure Machine Learning.
Se você não planeja usar nenhum dos recursos que criou, exclua-os para não incorrer em cobranças:
No portal do Azure, na caixa de pesquisa, insira Grupos de recursos e selecione-o nos resultados.
Na lista, selecione o grupo de recursos que você criou.
Na página Visão geral, selecione Excluir grupo de recursos.
Insira o nome do grupo de recursos. Em seguida, selecione Eliminar.
Conteúdos relacionados
Neste tutorial de aprendizado de máquina automatizado, você usou a interface de ML automatizada do Azure Machine Learning para criar e implantar um modelo de classificação. Para obter mais informações e as próximas etapas, consulte estes recursos:
- Saiba mais sobre o aprendizado de máquina automatizado.
- Saiba mais sobre métricas e gráficos de classificação: artigo Avaliar resultados de experimentos de aprendizado de máquina automatizados.
- Saiba mais sobre como configurar o AutoML para PNL.
Experimente também o aprendizado de máquina automatizado para esses outros tipos de modelo:
- Para obter um exemplo de previsão sem código, consulte Tutorial: Prever a demanda com aprendizado de máquina automatizado sem código no estúdio do Azure Machine Learning.
- Para obter um primeiro exemplo de código de um modelo de deteção de objeto, consulte o Tutorial: Treinar um modelo de deteção de objeto com AutoML e Python.