Componente Regressão de Árvore de Decisão Aumentada
Este artigo descreve o componente no Azure Machine Learning Designer.
Use esse componente para criar um conjunto de árvores de regressão com o aumento. Aumento significa que cada árvore depende de árvores anteriores. O algoritmo aprende ajustando o resíduo das árvores anteriores. Assim, impulsionada em um ensemble de árvore de decisão tende a aumentar a precisão com um pequeno risco de menos cobertura.
Esse componente é baseado no algoritmo LightGBM.
Esse método de regressão é um método de aprendizado supervisionado e, portanto, requer um conjunto de dados rotulado. A coluna de rótulo deve conter valores numéricos.
Observação
Use esse componente somente com conjuntos de dados que usam variáveis numéricas.
Depois de definir o modelo, treine-o usando Treinar Modelo.
Mais sobre as árvores de regressão aumentadas
O impulsionamento é um dos vários métodos clássicos para criar modelos ensemble, juntamente com bagging, florestas aleatórias e assim por diante. No Azure Machine Learning, as árvores de decisão aumentadas usam uma implementação eficiente do algoritmo de gradient boosting MART. O aumento de gradiente é uma técnica de aprendizado de máquina para problemas de regressão. Ele cria cada árvore de regressão por etapas, usando uma função de perda predefinida para medir o erro em cada etapa e corrigi-lo na próxima. Portanto, o modelo de previsão é realmente um ensemble de modelos de previsão mais fracos.
Em problemas de regressão, o aumento cria uma série de árvores etapa por etapa e seleciona a árvore ideal usando uma função de perda diferenciável arbitrária.
Para obter mais informações, consulte estes artigos:
https://wikipedia.org/wiki/Gradient_boosting#Gradient_tree_boosting
Este artigo da Wikipédia sobre gradient boosting fornece um histórico das árvores aumentadas.
https://research.microsoft.com/apps/pubs/default.aspx?id=132652
Microsoft Research: From RankNet to LambdaRank to LambdaMART: An Overview. Por J.C. Burges.
O método de impulsionamento de gradiente também pode ser usado para problemas de classificação, reduzindo-os à regressão com uma função de perda adequada. Para saber mais sobre a implementação de árvores aumentadas para tarefas de classificação, confira Árvore de decisão aumentada de duas classes.
Como configurar a Regressão de Árvore de Decisão Aumentada
Adicione o componente Árvore de Decisão Impulsionada ao seu pipeline. Você pode encontrar esse componente em Machine Learning, Inicializar, na categoria Regressão.
Especifique como você deseja que o modelo seja treinado definindo a opção Criar modo de aprendizagem.
Parâmetro único: selecione essa opção se você sabe como deseja configurar o modelo e informe um conjunto específico de valores como argumentos.
Intervalo de parâmetros: selecione essa opção se não tiver certeza dos melhores parâmetros e quiser executar uma varredura de parâmetros. Selecione um intervalo de valores para iteração, e Ajustar os Hiperparâmetros do Modelo itera sobre todas as combinações possíveis das configurações fornecidas para determinar os hiperparâmetros que produzem os resultados ideais.
Número máximo de folhas por árvore: indique o número máximo de nós de terminal (folhas) que podem ser criados em qualquer árvore.
Aumentando este valor, você aumenta potencialmente o tamanho da árvore e obtém maior precisão, com o risco de sobreajuste e tempo de treinamento maior.
Número mínimo de amostras por nó folha: indique o número mínimo de casos necessários para criar qualquer nó de terminal (folha) em uma árvore.
Aumentando esse valor, você aumenta o limite para a criação de novas regras. Por exemplo, com o valor padrão de 1, um único caso pode causar uma nova regra a ser criada. Se você aumentar o valor para 5, os dados de treinamento precisam conter pelo menos 5 casos que atendem as mesmas condições.
Taxa de aprendizagem: insira um número entre 0 e 1 que define o tamanho da etapa durante a aprendizagem. A taxa de aprendizagem determina a velocidade com que o aprendiz converge para a solução ideal. Se o tamanho da etapa for muito grande, você poderá exceder a solução ideal. Se ele for muito pequeno, o treinamento levará mais tempo para convergir para a melhor solução.
Número de árvores construídas: indique o número total de árvores de decisão a serem criadas no conjunto. Criando mais árvores de decisão, você tem o potencial de obter uma melhor cobertura, mas o tempo de treinamento aumenta.
No entanto, se você definir o valor como 1, apenas uma árvore será produzida (a árvore com o conjunto inicial de parâmetros) e nenhuma iteração adicional será executada.
Semente de número aleatório: digite um inteiro não negativo opcional para ser usado como o valor de semente aleatória. A especificação de uma semente assegura a capacidade de reprodução entre execuções que usam os mesmos dados e parâmetros.
Por padrão, a semente aleatória é definida como 0, o que significa que o valor inicial da semente é obtido do relógio do sistema.
Treinar o modelo:
Se você definir Criar modo treinador como Parâmetro Único, conecte um conjunto de dados marcado e o componente Treinar Modelo.
Se definir Criar modo de aprendizagem como Intervalo de parâmetros, conecte um conjunto de dados marcado e treine o modelo usando Ajustar hiperparâmetros do modelo.
Observação
Se você passar um intervalo de parâmetros para Treinar modelo, ele usará apenas o valor padrão na lista de parâmetros únicos.
Se você passar apenas um conjunto de valores de parâmetro para o componente Ajustar Hiperparâmetros do Modelo, quando ele espera receber um intervalo de configurações para cada parâmetro, ele ignorará os valores e usará os valores padrão para o aprendiz.
Se escolher a opção Intervalo de Parâmetros e inserir um único valor para um parâmetro, esse valor único especificado será usado em toda a varredura, mesmo que outros parâmetros sejam alterados em um intervalo de valores.
Enviar o pipeline.
Resultados
Após a conclusão do treinamento:
Para usar o modelo de pontuação, conecte Treinar Modelo a Pontuar Modelo para prever valores para novos exemplos de entrada.
Para salvar um instantâneo do modelo treinado, selecione a guia Saídas no painel direito do Modelo treinado e clique no ícone Registrar conjunto de dados. A cópia do modelo treinado será salva como componente na árvore de componente e não será atualizada nas execuções sucessivas do pipeline.
Próximas etapas
Confira o conjunto de componentes disponíveis no Azure Machine Learning.