Amélioration des modèles de classification

Effectué

Dans nos exercices, nous avons constaté que le modèle pouvait prédire les avalanches jusqu’à un certain point, mais qu’il se trompait encore 40 % du temps environ. Cette erreur s’explique par le fait que notre caractéristique (le nombre de minces couches de neige) n’est pas la seule responsable des avalanches.

Abordons maintenant les deux principaux moyens d’améliorer les performances des modèles de classification : fournir des caractéristiques supplémentaires et être sélectif sur les données en entrée dans le modèle.

Fournir d’autres fonctionnalités

Comme la régression linéaire, la régression logistique ne doit pas être limitée à une seule entrée. Elle peut combiner des caractéristiques afin d’effectuer des prédictions. Par exemple, nous pourrions essayer de prévoir les avalanches en fonction des chutes de neige et du nombre de randonneurs qui empruntent un sentier. Nous pouvons entrer ces deux caractéristiques dans le même modèle pour calculer la probabilité d’une avalanche.

En interne, la régression logistique combine des caractéristiques de manière similaire à la régression linéaire. En effet, il traite toutes les caractéristiques comme indépendantes, ce qui signifie qu’il suppose que les caractéristiques n’ont pas d’influence les unes sur les autres. Par exemple, notre modèle suppose que la quantité de neige tombée n’a pas d’incidence sur le nombre de personnes qui fréquentent la piste. Par défaut, il part également du principe que les chutes de neige augmentent le risque d’avalanche dans une certaine proportion, quel que soit le nombre de randonneurs qui empruntent le sentier.

Avantages et inconvénients des caractéristiques indépendantes

Il est possible de demander explicitement à la régression logistique de combiner des caractéristiques afin de pouvoir modéliser leur fonctionnement toutes ensemble (ce que la régression logistique n’effectue pas par défaut). C’est ce qui différencie la régression logistique de la plupart des autres algorithmes de catégorisation connus, tels que les arbres de décision et les réseaux neuronaux.

Notez que le fait que la régression logistique traite par défaut les caractéristiques comme indépendantes les unes des autres constitue à la fois un atout et un inconvénient. Par exemple, il peut faire simplement des prédictions claires, comme l’augmentation du nombre de personnes augmente le risque, ce qui n’est généralement pas possible avec d’autres modèles. Cela réduit également le risque de surajustement des données d’apprentissage. En revanche, le modèle peut ne pas fonctionner correctement si les caractéristiques interagissent vraiment dans le monde réel. Par exemple, cinq personnes randonnant en montagne courent un risque s’il est tombé de la neige, mais sont en sécurité s’il n’y a pas de chute de neige susceptible de provoquer une avalanche. Dans cet exemple, pour saisir la nuance, il faut demander explicitement à un modèle de régression logistique de rechercher une interaction entre la chute de neige et le nombre de randonneurs.

Réfléchir à vos caractéristiques

L’autre façon d’améliorer les modèles est de réfléchir réellement aux caractéristiques à fournir et à leur raison d’être. En règle générale, plus on ajoute de caractéristiques à un modèle, mieux celui-ci fonctionne. Cette corrélation n’est toutefois vraie que si les caractéristiques que nous fournissons sont pertinentes et expliquent quelque chose que les caractéristiques existantes n’expliquent pas.

Éviter le surentraînement

Si nous fournissons des caractéristiques supplémentaires qui ne sont pas utiles, cela peut entraîner le surentraînement du modèle. Il donne alors l’apparence de mieux fonctionner, mais il fonctionne en réalité moins bien dans le monde réel.

Par exemple, imaginez que nous disposions d’enregistrements quotidiens de la quantité de neige, du nombre de randonneurs, de la température et du nombre d’oiseaux observés. Le nombre d’oiseaux observés n’est probablement pas une information pertinente. Pourtant, s’il est alimenté, le modèle finira par modéliser une relation entre les avalanches et le nombre d’oiseaux observés à des jours donnés. Si les oiseaux sont davantage observés les jours d’avalanche, le modèle suggérera que les oiseaux pourraient être responsables des avalanches. Nous pourrions alors mettre en place un programme systématique d’observation des oiseaux pour prédire les avalanches pour finalement constater que cela ne fonctionne pas du tout.

Éviter le sous-entraînement

L’utilisation non avertie de caractéristiques peut également entraîner un sous-entraînement et ne pas permettre d’effectuer des prédictions aussi correctes que possible. Par exemple, la température et le nombre de randonneurs peuvent tous deux être étroitement liés aux avalanches. Pourtant, si les gens ne se promènent que les jours ensoleillés, le modèle pourrait différencier difficilement l’importance des randonneurs par rapport à la température. De même, nous pourrions constater que le modèle fonctionne mieux si nous fournissons notre nombre de randonneurs (number_of_hikers) sous la forme d’un nombre exact de visiteurs, et non pas simplement high ou low. Ensuite, laissez notre entraînement de modèle trouver une relation plus exacte.