Compartilhar via


Componente Floresta de Decisão Multiclasse

Este artigo descreve o componente no Azure Machine Learning Designer.

Use este componente para criar um modelo de aprendizado de máquina com base no algoritmo de florestas de decisão. Uma floresta de decisão é um modelo Ensemble que cria rapidamente uma série de árvores de decisão e, ao mesmo tempo, aprende com dados marcados.

Mais sobre as florestas de decisão

O algoritmo de floresta de decisão é um método de aprendizado Ensemble para classificação. O algoritmo funciona criando várias árvores de decisão e, em seguida, votando a classe de saída mais popular. A votação é uma forma de agregação, na qual cada árvore em uma floresta de decisão de classificação gera um histograma de frequência não normalizado de rótulos. O processo de agregação soma esses histogramas e normaliza o resultado para obter as "probabilidades" para cada rótulo. As árvores que têm alta confiança de previsão têm um peso maior na decisão final do Ensemble.

As árvores de decisão em geral são modelos não paramétricos, o que significa que dão suporte a dados com distribuições variadas. Em cada árvore, uma sequência de testes simples é executada para cada classe, aumentando os níveis de uma estrutura de árvore até que um nó folha (decisão) seja atingido.

Árvores de decisão têm muitas vantagens:

  • Podem representar limites de decisão não lineares.
  • São eficientes no uso de memória e computação durante o treinamento e a previsão.
  • Elas executam a seleção de recursos integrados e classificação.
  • Elas são flexíveis na presença de recursos com ruídos.

O classificador de floresta de decisão em Azure Machine Learning consiste em um Ensemble de árvores de decisão. Em termos gerais, os modelos de ensemble fornecem melhor cobertura e precisão que árvores de decisão únicas. Para obter mais informações, consulte Árvores de decisão.

Como configurar a floresta de decisão multiclasse

  1. Adicione o componente Floresta de Decisão Multiclasse ao seu pipeline no designer. Você pode encontrar esse componente em Machine Learning, inicializar modeloe classificação.

  2. Clique duas vezes no componente para abrir o painel Propriedades.

  3. Para o Método de reamostragem, escolha o método usado para criar as árvores individuais. Você pode escolher entre bagging ou replicação.

    • Bagging: bagging também é chamado de agregação de inicialização. Nesse método, cada árvore é expandida em uma nova amostra, criada pela amostragem aleatória do conjunto de dados original com substituição, até que você tenha um conjunto de dados com o tamanho original. As saídas dos modelos são combinadas por votação, que é uma forma de agregação. Para obter mais informações, consulte o registro na Wikipédia de agregação de inicialização.

    • Replicar: na replicação, cada árvore é treinada exatamente com os mesmos dados de entrada. A determinação de qual predicado de divisão é usado para cada nó de árvore permanece aleatório, criando árvores diversas.

  4. Especifique como você deseja que o modelo seja treinado definindo a opção Criar modo de aprendizagem.

    • Parâmetro único: use essa opção se você sabe como configurar o modelo, informe um conjunto específico de valores como argumentos.

    • Intervalo de parâmetros: selecione esta opção se não tiver certeza dos melhores parâmetros e quiser executar uma varredura de parâmetros. Selecione um intervalo de valores para iteração, e Ajustar os Hiperparâmetros do Modelo itera sobre todas as combinações possíveis das configurações fornecidas para determinar os hiperparâmetros que produzem os resultados ideais.

  5. Número de árvores de decisão: digite o número máximo de árvores de decisão que podem ser criadas no conjunto. Ao criar mais árvores de decisão, você pode potencialmente obter uma cobertura melhor, mas o tempo de treinamento pode aumentar.

    Se você definir o valor como 1; no entanto, isso significa que apenas uma árvore pode ser produzida (a árvore com o conjunto inicial de parâmetros) e nenhuma iteração adicional é executada.

  6. Profundidade máxima das árvores de decisão: digite um número para limitar a profundidade máxima de qualquer árvore de decisão. Aumentar a profundidade da árvore pode aumentar a precisão, mas você corre o risco de algum tempo de treinamento com overfitting e maior.

  7. Número de divisões aleatórias por nó: digite o número de divisões a serem usadas ao criar cada nó da árvore. Uma divisão significa que os recursos em cada nível da árvore (nó) são divididos aleatoriamente.

  8. Número mínimo de amostras por nó folha: indique o número mínimo de casos necessários para criar qualquer nó terminal (folha) em uma árvore. Aumentando esse valor, você aumenta o limite para a criação de novas regras.

    Por exemplo, com o valor padrão de 1, um único caso pode causar uma nova regra a ser criada. Se você aumentar o valor para 5, os dados de treinamento precisam conter pelo menos cinco casos que atendem as mesmas condições.

  9. Conecte um conjunto de dados rotulado e treine o modelo:

    • Se você definir Criar modo treinador como Parâmetro Único, conecte um conjunto de dados marcado e o componente Treinar Modelo.

    • Se definir Criar modo de aprendizagem como Intervalo de parâmetros, conecte um conjunto de dados marcado e treine o modelo usando Ajustar hiperparâmetros do modelo.

    Observação

    Se você passar um intervalo de parâmetros para Treinar modelo, ele usará apenas o valor padrão na lista de parâmetros únicos.

    Se você passar apenas um conjunto de valores de parâmetro para o componente Ajustar Hiperparâmetros do Modelo, quando ele espera receber um intervalo de configurações para cada parâmetro, ele ignorará os valores e usará os valores padrão para o aprendiz.

    Se escolher a opção Intervalo de Parâmetros e inserir um único valor para um parâmetro, esse valor único especificado será usado em toda a varredura, mesmo que outros parâmetros sejam alterados em um intervalo de valores.

  10. Envie o pipeline.

Próximas etapas

Confira o conjunto de componentes disponíveis no Azure Machine Learning.