Compartilhar via


Regressão de Poisson

Importante

O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).

A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.

Cria um modelo de regressão que assume que os dados possuem uma distribuição de Poisson

Categoria: Machine Learning/Inicializar modelo/regressão

Observação

Aplica-se a: Machine Learning Studio (clássico) somente

Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.

Visão geral do módulo

Este artigo descreve como usar o módulo Regressão de Poisson no Machine Learning Studio (clássico) para criar um modelo de regressão Poisson.

A regressão de Poisson destina-se ao uso em modelos de regressão que são usados para prever valores numéricos, normalmente contagens. Portanto, você deve usar este módulo para criar seu modelo de regressão somente se os valores que você está tentando prever se ajustarem às seguintes condições:

  • A variável de resposta teve uma distribuição de Poisson.

  • As contagens não podem ser negativas. O método falhará totalmente, se você tentar usá-lo com rótulos negativos.

  • Uma distribuição de Poisson é uma distribuição discreta, portanto, não faz sentido usar esse método com números não inteiros.

Dica

Se o destino não for uma contagem, a regressão Poisson provavelmente não é um método apropriado. Experimente um dos outros módulos nesta categoria. Para ajudar a escolher um método de regressão, consulte a folha de Machine Learning algoritmo de teste.

Depois de configurar o método de regressão, você deve treinar o modelo usando um conjunto de dados que contém exemplos do valor que você deseja prever. O modelo treinado pode então ser usado para fazer previsões.

Mais sobre a Regressão de Poisson

A regressão Poisson é um tipo especial de análise de regressão que é normalmente usado para contagens de modelos. Por exemplo, a regressão de Poisson seria útil nestes cenários:

  • Modelar o número de resfriados associados a voos de avião

  • Estimando o número de chamadas de serviço de emergência durante um evento

  • Projetando o número de consultas de clientes após uma promoção

  • Criar tabelas de contingência

Como a variável de resposta tem uma distribuição Poisson, o modelo faz suposições diferentes sobre os dados e sua distribuição de probabilidade do que, digamos, regressão de mínimos quadrados. Portanto, os modelos Poisson devem ser interpretados de forma diferente de outros modelos de regressão.

Como configurar a Regressão de Poisson

  1. Adicione o módulo Regressão poisson ao seu experimento no Studio (clássico).

    Você pode encontrar este módulo em Machine Learning – Inicializar, na categoria Regressão.

  2. Adicione um conjuntos de dados que contenham dados de treinamento do tipo correto.

    É recomendável que você use Normalizar Dados para normalizar o conjunto de dados de entrada antes de usá-lo para treinar o regressor.

  3. No painel Propriedades do módulo Regressão poisson , especifique como você deseja que o modelo seja treinado, definindo a opção Criar modo de treinador .

    • Parâmetro único: se você sabe como configurar o modelo, informe um conjunto específico de valores como argumentos.

    • Intervalo de parâmetros. Se você não tiver certeza dos melhores parâmetros, faça uma varredura de parâmetro usando o módulo Ajustar Hiperparmetros do Modelo. O treinador faz a iteração com os vários valores que você especifica para encontrar a configuração ideal.

  4. Tolerância de otimização: digite um valor que define o intervalo de tolerância a falhas durante a otimização. Quanto menor o valor, mais lento e mais preciso o ajuste.

  5. Peso de regularização de L1 e peso de regularização L2: digite valores a serem usados para regularização de L1 e L2. A Regularização adiciona restrições ao algoritmo sobre aspectos do modelo que são independentes dos dados de treinamento. A regularização também é usada para evitar o sobreajuste.

    • A regularização L1 será útil se o objetivo for ter um modelo que seja o mais esparso possível.

      A regularização L1 é feita subtraindo-se o peso de L1 do vetor de peso da expressão de perda que o aprendiz está tentando minimizar. A norma L1 é uma boa aproximação para a norma L0, que é o número de coordenadas diferente de zero.

    • A regularização L2 impede o crescimento excessivo de qualquer coordenada única em magnitude. A regularização L2 é útil se o objetivo é ter um modelo com pequenos pesos gerais.

    Neste módulo, você pode aplicar uma combinação de regularizações L1 e L2. Através da combinação das regularizações L1 e L2, você pode impor uma penalidade na magnitude dos valores de parâmetro. O aprendiz tenta minimizar a penalização, em um compromisso com minimização de perda.

    Para uma boa discussão sobre a regularização L1 e L2, veja Regularização L1e L2 para Machine Learning.

  6. Tamanho da memória para L-BFGS: especifique a quantidade de memória a ser reservada para ajuste e otimização do modelo.

    O L-BFGS é um método específico para otimização, com base no algoritmo BFGS (Broyden–Goldfarb–Snowno). O método usa uma quantidade limitada de memória (L) para calcular a direção da próxima etapa.

    Ao alterar esse parâmetro, você pode especificar o número de posições e gradientes anteriores para armazenar o cálculo da próxima etapa.

  7. Conecte o conjunto de dados de treinamento e o modelo não treinado a um dos módulos de treinamento:

    Aviso

    • Se você transmitir um intervalo de parâmetros para o módulo Treinar modelo, ele usará apenas o primeiro valor da lista de intervalo de parâmetros.

    • Se você transmitir um só conjunto de valores de parâmetro para o módulo Ajustar hiperparâmetros do modelo, quando ele espera um intervalo de configurações para cada parâmetro, ele vai ignorar os valores e usará os valores padrão para o aprendiz.

    • Se selecionar a opção Intervalo de Parâmetros e inserir um único valor para qualquer parâmetro, esse valor único especificado será usado em toda a varredura, mesmo que outros parâmetros sejam alterados em um intervalo de valores.

  8. Execute o experimento para treinar o modelo.

Exemplos

Para exemplos de como a regressão poisson é usada no aprendizado de máquina, consulte a Galeria de IA do Azure.

  • Exemplo 6: Treinar, testar, avaliar para regressão: importações automáticas de conjuntos de dados: esse experimento compara os resultados de dois algoritmos: Regressão de Poisson e Regressão da floresta de decisão.

  • Manutenção preventiva: um passo a passo estendido que usa Regressão de Poisson para avaliar a severidade das falhas previstas por um modelo de floresta de decisão.

Observações técnicas

A regressão de Poisson é usada para modelar dados de contagem, supondo que o rótulo tenha uma distribuição Poisson. Por exemplo, você pode usá-lo para prever o número de chamadas para um centro de atendimento ao cliente em um dia específico.

Para esse algoritmo, supõe-se que uma função desconhecida, denotada Y, tenha uma distribuição Poisson. A distribuição Poisson é definida da seguinte forma:

Considerando a instância x = (x0, ..., xd-1), para cada k=0,1, ..., o módulo calcula a probabilidade de que o valor da instância seja k.

Dado o conjunto de exemplos de treinamento, o algoritmo tenta encontrar os valores ideais para θ0, ...,θD-1, tentando maximizar a probabilidade de log dos parâmetros. A probabilidade dos parâmetros θ0, ...,θD-1 é a probabilidade de que os dados de treinamento foram amostrados de uma distribuição com esses parâmetros.

A probabilidade de log pode ser exibida como logp(y = ltd)

A função de previsão distribui o valor esperado dessa distribuição Poisson parametrizada, especificamente: fw,b(x) = E[Y|x] = ewTx+b.

Para obter mais informações, consulte a entrada para regressão de Poisson na Wikipédia.

Parâmetros do módulo

Nome Intervalo Type Padrão Descrição
Tolerância de otimização >=double.Epsilon Float 0.0000001 Especifique um valor de tolerância para convergência de otimização. Quanto menor o valor, mais lento e mais preciso o ajuste.
Peso de regularização L1 >= 0,0 Float 1,0 Especifica o peso de regularização L1. Use um valor diferente de zero para evitar o sobreajuste do modelo.
Peso de regularização L2 >= 0,0 Float 1,0 Especifique o peso de regularização L2. Use um valor diferente de zero para evitar o sobreajuste do modelo.
Tamanho da memória para L-BFGS >=1 Integer 20 Indica a quantidade de memória (em MB) a ser usada para o otimizador L-BFGS. Com menos memória, o treinamento é mais rápido, mas menos preciso.
Propagação de número aleatório any Inteiro Digite um valor para propagar o gerador de número aleatório usado pelo modelo. Deixe em branco por padrão.
Permitir níveis categóricos desconhecidos any Boolean true Indique se um nível adicional deve ser criado para cada coluna categórica. Todos os níveis no conjunto de dados de teste não disponíveis no conjunto de dados de treinamento são mapeados para esse nível adicional.

Saídas

Nome Tipo Descrição
Modelo não treinado Interface ILearner Um modelo de regressão não treinado

Confira também

Regressão
Lista de Módulo A-Z