Criar modelos de classificação multiclasse

Concluído

Também é possível criar modelos de classificação multiclasse, nos quais há mais de duas classes possíveis. Por exemplo, a clínica de saúde pode expandir o modelo de diabetes para classificar pacientes como:

  • Não diabéticos
  • Diabéticos do tipo 1
  • Diabéticos do tipo 2

Os valores de probabilidade da classe individual ainda somariam um total de 1, pois o paciente definitivamente está em apenas uma das três classes, e a classe mais provável seria prevista pelo modelo.

Como usar modelos de classificação multiclasse

A classificação multiclasse pode ser pensada como uma combinação de vários classificadores binários. Há duas maneiras de abordar o problema:

  • Umvs-Resto (One-vs-Rest, OVR), em que um classificador é criado para cada valor de classe possível, com um resultado positivo para os casos em que a previsão corresponde à classe em questão, e previsões negativas para os casos em que a previsão é de qualquer outra classe. Por exemplo, um problema de classificação com quatro classes de forma possíveis (quadrado, círculo, triângulo, hexágono) exigiria quatro classificadores que previssem:
    • presença ou ausência de quadrado
    • presença ou ausência de círculo
    • presença ou ausência de triângulo
    • presença ou ausência de hexágono
  • OVO (Um vs um), no qual um classificador para cada par possível de classes é criado. O problema de classificação com quatro classes de forma exigiria os seguintes classificadores binários:
    • quadrado ou círculo
    • quadrado ou triângulo
    • quadrado ou hexágono
    • círculo ou triângulo
    • círculo ou hexagon
    • triângulo ou hexágono

Nas duas abordagens, o modelo geral precisa levar em conta todas essas previsões para determinar à qual categoria o item pertence.

Felizmente, na maioria das estruturas de aprendizado de máquina, incluindo o Scikit-Learn, a implementação de um modelo de classificação multiclasse não é significativamente mais complexa do que a classificação binária e, na maioria dos casos, os estimadores usados para a classificação binária implicitamente dão suporte à classificação multiclasse abstraindo um algoritmo OVR, um algoritmo OVO ou permitindo a escolha de um ou outro.