Avaliar um modelo de classificação

Concluído

Uma grande parte do aprendizado de máquina é a avaliação de como os modelos funcionam. Essa avaliação ocorre durante o treinamento, para ajudar a moldar o modelo e, após o treinamento, para nos ajudar a avaliar se o modelo está pronto para uso no mundo real. Os modelos de classificação precisam de avaliação, assim como os modelos de regressão, embora a maneira como fazemos essa avaliação às vezes pode ser um pouco mais complexa.

Um lembrete sobre o custo

Lembre-se de que, durante o treinamento, calculamos o desempenho ruim de um modelo e chamamos esse custo ou perda. Por exemplo, na regressão linear, geralmente usamos uma métrica chamada MSE (erro de desvio médio ao quadrado). O MSE é calculado comparando a previsão e o rótulo real, elevando a diferença ao quadrado e calculando a média do resultado. Podemos usar o MSE para se ajustar ao nosso modelo e relatar como ele funciona.

Funções de custo para classificação

Os modelos de classificação são julgados com base nas probabilidades de saída, como 40% de chance de uma avalanche, ou nos rótulos finais, no avalanche ou avalanche. O uso das probabilidades de saída pode ser vantajoso durante o treinamento. Pequenas mudanças no modelo se refletem em mudanças nas probabilidades, mesmo que não sejam suficientes para mudar a decisão final. Usar os rótulos finais para uma função de custo é mais útil se quisermos estimar o desempenho do mundo real de nosso modelo. Por exemplo, no conjunto de testes. Porque, no mundo real, utilizaremos os rótulos finais, não as probabilidades.

Perda de log

A perda de log é uma das funções de custo mais populares para classificação simples. A perda de log é aplicada às probabilidades de saída. Da mesma forma que no MSE, pequenos erros resultam em um pequeno custo, enquanto erros moderados resultam em grandes custos. Plotamos a perda de log no grafo a seguir para um rótulo em que a resposta correta era 0 (false).

Diagrama mostrando um grafo de exemplo de perda de log.

O eixo x mostra possíveis saídas de modelo – probabilidades de 0 a 1 – e o eixo y mostra o custo. Se um modelo tiver alta confiança de que a resposta correta é 0 (por exemplo, prevendo 0,1). Então, o custo é baixo porque, nesse caso, a resposta correta é 0. Se o modelo estiver prevendo com confiança o resultado incorretamente (por exemplo, prevendo 0,9), o custo será alto. Na verdade, com x=1, o custo é tão alto que cortamos o eixo x aqui para 0,999, a fim de mantermos o grafo legível.

Por que não o MSE?

O MSE e a perda de log são métricas semelhantes. Há alguns motivos complexos pelos quais a perda de log é superior à regressão logística, mas também há alguns motivos mais simples. Por exemplo, a perda de log pune respostas erradas de forma muito mais forte do que o MSE. Por exemplo, no gráfico a seguir, em que a resposta correta é 0, as previsões acima de 0,8 têm um custo maior para perda de log do que o MSE.

Diagrama mostrando uma perda de log versus grafo do MSE.

Ter um custo mais alto dessa maneira ajuda o modelo a aprender mais rapidamente devido ao gradiente acentuado da linha. Da mesma forma, a perda de log ajuda os modelos a se tornarem mais confiantes em fornecer a resposta correta. Observe na plotagem anterior que os custos MSE para valores menores que 0,2 são pequenos e o gradiente é quase plano. Esse relacionamento torna o treinamento lento para modelos quase corretos. A perda de log tem um gradiente mais acentuado para esses valores, o que ajuda o modelo a aprender mais rapidamente.

Limitações de funções de custo

Usar uma única função de custo para a avaliação humana do modelo é sempre limitado porque não informa quais tipos de erros seu modelo está cometendo. Por exemplo, considere nosso cenário de previsão de avalanche. Um valor alto de perda de log pode significar que o modelo está prevendo repetidamente avalanches quando não há nenhuma. Ou pode significar que está repetidamente falhando em prever avalanches que acontecem.

Para entender melhor nossos modelos, pode ser mais fácil usar mais de um número para avaliar se eles funcionam bem. Abordamos esse assunto de forma mais ampla em outros materiais de aprendizagem, embora falemos dele nos exercícios a seguir.