O que são modelos de classificação?

Concluído

Os modelos de classificação são usados para tomar decisões ou atribuir itens em categorias. Ao contrário dos módulos de regressão, que geram números contínuos, como alturas ou pesos, os modelos de classificação geram valores boolianos, true ou false, ou decisões categóricas, como apple, banana ou cherry.

Há diversos tipos de modelos de classificação. Alguns funcionam de forma semelhante aos modelos de regressão clássica, enquanto outros são fundamentalmente diferentes. Um dos melhores modelos para aprender inicialmente é chamado de regressão logística.

O que é regressão logística?

A regressão logística é um tipo de modelo de classificação que funciona de forma semelhante à regressão linear. A diferença entre ele e a regressão linear é a forma da curva. Embora a regressão linear simples caiba em uma linha reta nos dados, os modelos de regressão logística se ajustam a uma curva em formato de s:

diagrama mostrando um gráfico de exemplo de regressão logística.

A regressão logística é melhor para estimar resultados boolianos que a regressão linear, pois a curva logística sempre produz um valor entre 0 (false) e 1 (true). Qualquer coisa entre esses dois valores pode ser considerada como uma probabilidade.

Por exemplo, digamos que estamos tentando prever se uma avalanche ocorrerá hoje. Se nosso modelo de regressão logística nos fornecer o valor de 0,3, ele estimará uma probabilidade de 30% de uma avalanche.

Convertendo saídas em categorias

Como a regressão logística nos dá essas probabilidades, em vez de valores true/false simples, precisamos executar etapas adicionais para converter o resultado em uma categoria. A maneira mais simples de fazer essa conversão é aplicando um limite. Por exemplo, no gráfico abaixo, nosso limite é definido como 0,5. Esse limite significa que qualquer valor y abaixo de 0,5 é convertido para false – caixa inferior esquerda – e qualquer valor acima de 0,5 é convertido para true – caixa superior direita.

diagrama mostrando um grafo de funções logísticas.

Olhando para o gráfico, podemos ver que quando o recurso está abaixo de 5, a probabilidade é menor que 0,5 e é convertida em false. Os valores de recursos acima de 5 fornecem probabilidades acima de 0,5 e são convertidos em true.

É notável que a regressão logística não precise ser limitada a um resultado true/false. Ela também pode ser usada quando há três ou mais resultados potenciais, como rain, snow ou sun. Esse tipo de resultado requer uma configuração um pouco mais complexa, chamada regressão logística multinomial. Embora não pratiquemos a regressão logística multinomial durante os próximos exercícios, vale a pena considerá-la em situações nas quais você poderá precisar fazer previsões não binárias.

Também vale a pena notar que a regressão logística pode usar mais de um recurso de entrada (falaremos mais sobre isso breve).