Aprimorando modelos de classificação

Concluído

Em nossos exercícios, descobrimos que nosso modelo poderia prever avalanches até um certo ponto, mas ainda estava errado em cerca de 40% do tempo. Esse valor de erro ocorre porque nosso recurso – o número de camadas fracas de neve – não é a única coisa responsável pelas avalanches.

Agora veremos duas maneiras principais de melhorar o desempenho do modelo de classificação: fornecendo mais recursos e sendo seletivos sobre o que entra no modelo.

Fornecer mais recursos

Como a regressão linear, a regressão logística não precisa ser limitada a uma única entrada. Ela pode combinar recursos para fazer previsões. Por exemplo, podemos tentar prever avalanches com base na nevasca e no número de trilheiros em uma trilha. Podemos inserir esses dois recursos no mesmo modelo para calcular a probabilidade de uma avalanche.

Internamente, a regressão logística combina recursos de forma semelhante à regressão linear. Ou seja, ela trata todos os recursos como independentes, o que significa que ela supõe que os recursos não influenciam um ao outro. Por exemplo, nosso modelo presume que a quantidade de neve não altera quantas pessoas visitaram a trilha. Por padrão, ele também pressupõe que a nevasca aumenta o risco de avalanche por um valor definido – independentemente de quantos trilheiros estão na trilha.

Vantagens e desvantagens de recursos independentes

A regressão logística pode ser explicitamente instruída a combinar recursos para que a maneira como eles funcionam juntos possa ser modelada, mas não por padrão. Tornando a regressão logística diferente da maioria dos outros algoritmos de categorização conhecidos, como árvores de decisão e redes neurais.

O fato de que a regressão logística trata os recursos como independentes por padrão é uma força e uma limitação que devem ser lembradas. Por exemplo, ela pode fazer previsões claras de maneira simples, como o aumento do número de pessoas aumenta o risco, que normalmente não pode ser feito com outros modelos. Ela também reduz a chance de sobreajuste dos dados de treinamento. Por outro lado, o modelo pode falhar ao funcionar bem se os recursos realmente interagirem no mundo real. Por exemplo, se houver nevasca, será arriscado que cinco trilheiros cruzem uma montanha, mas será seguro para cinco pessoas se não houver nevasca para causar uma avalanche. Um modelo de regressão logística precisa ser informado explicitamente para procurar uma interação entre a nevasca e o número de trilheiros neste exemplo para captar essa nuance.

Pense nos seus recursos

A outra maneira de melhorar os modelos é fornecendo uma idéia real de quais recursos são fornecidos e por quê. Em geral, quanto mais recursos adicionamos a um modelo, melhor o modelo funciona. No entanto esta correlação só é verdade se os recursos que fornecemos forem relevantes e explicarem algo que os recursos existentes não explicam.

Evitando o treinamento excessivo

Se fornecermos mais recursos que não são úteis, o modelo poderá sofrer treinamento excessivo. Ele aparentemente funciona melhor, mas, na realidade, trabalha pior no mundo real.

Por exemplo, imagine se tivéssemos registros diários de amount_of_snow, number_of_hikers, temperature e number_of_birds_spotted. O número de pássaros observados provavelmente não é uma informação relevante. Porém, se for fornecido, o modelo acabará modelando uma relação entre as avalanches e o número de pássaros observados em determinados dias. Se mais pássaros forem detectados em dias de avalanche, o modelo irá sugerir que os pássaros podem ser responsáveis por causar avalanches. Em seguida, poderemos configurar um programa de trabalho de pássaro sistemático para prever avalanches, e descobriremos que não funciona.

Evitando o treinamento insuficiente

Usar os recursos de maneira acidental também pode levar a um treinamento insuficiente e não fazer previsões o mais corretamente possível. Por exemplo, temperatura e número_de_trilheiros podem estar fortemente vinculados a avalanches. Ainda assim, se as pessoas só caminham em dias ensolarados, o modelo poderá achar difícil diferenciar a importância dos trilheiros em comparação à temperatura. Da mesma forma, podemos descobrir que nosso modelo funciona melhor se fornecemos o number_of_hikers como uma contagem exata de visitantes, em vez de simplesmente high ou low. Em seguida, deixe nosso treinamento de modelo encontrar uma relação mais exata.