Partager via


Importance de la fonctionnalité de permutation

Cet article explique comment utiliser le composant Importance de la fonctionnalité de permutation dans le concepteur Azure Machine Learning afin de calculer un ensemble de scores d’importance de la fonctionnalité pour votre jeu de données. Vous utilisez ces scores pour vous aider à déterminer les meilleures fonctionnalités à utiliser dans un modèle.

Dans ce composant, les valeurs des fonctionnalités sont mélangées de façon aléatoire, une colonne à la fois. Les performances du modèle sont mesurées avant et après. Vous pouvez choisir l’une des métriques standard pour mesurer les performances.

Les scores retournés par le composant représentent la modification dans les performances d’un modèle formé, après permutation. Les fonctionnalités importantes sont généralement plus sensibles au processus de mélange. Elles génèrent donc des scores d’importance plus élevés.

Cet article fournit une vue d’ensemble de la fonctionnalité de permutation, de sa base théorique et de ses applications dans le machine learning : Importance de la fonctionnalité de permutation.

Comment utiliser l’importance de la fonctionnalité de permutation

La génération d’un ensemble de scores de fonctionnalités exige que vous disposiez d’un modèle déjà entraîné, ainsi que d’un jeu de données de test.

  1. Ajoutez le composant Importance de la fonctionnalité de permutation à votre pipeline. Ce composant figure dans la catégorie Sélection des caractéristiques.

  2. Connectez un modèle formé à l’entrée gauche. Le modèle doit être un modèle de régression ou un modèle de classification.

  3. Sur l’entrée droite, connectez un jeu de données. De préférence, choisissez-en un qui soit différent du jeu de données utilisé pour l’entraînement du modèle. Ce jeu de données est utilisé pour réaliser un scoring basé sur le modèle entraîné. Il est également utilisé pour évaluer le modèle une fois que les valeurs des fonctionnalités ont changé.

  4. Pour Random seed (Valeur de départ aléatoire), entrez une valeur à utiliser comme valeur de départ pour la répartition aléatoire. Si vous spécifiez 0 (valeur par défaut), un nombre est généré en fonction de l’horloge système.

    Une valeur de départ est facultative, mais vous devez fournir une valeur si vous souhaitez que la reproductibilité s’effectue entre les exécutions du même pipeline.

  5. Pour Métrique pour la mesure des performances, sélectionnez une métrique unique à utiliser lors du calcul de la qualité du modèle après la permutation.

    Le concepteur Azure Machine Learning prend en charge les métriques suivantes, selon que vous évaluez un modèle de classification ou de régression :

    • Classification

      Exactitude, Précision, Rappel

    • Régression

      Précision, Rappel, Erreur d’absolue moyenne, Erreur carrée moyenne racine, Erreur d’absolue relative, Erreur carrée relative, Coefficient de détermination

    Pour obtenir une description plus détaillée de ces métriques d’évaluation et de la façon dont elles sont calculées, consultez Évaluer le modèle.

  6. Envoyez le pipeline.

  7. Le composant génère une liste de colonnes de fonctionnalités et les scores qui leur sont associés. Cette liste est classée dans l’ordre décroissant des scores.

Notes techniques

L’importance de la fonctionnalité de permutation consiste à modifier de façon aléatoire les valeurs de chaque colonne de fonctionnalité, une colonne à la fois. Elle évalue ensuite le modèle.

Les classements fournis par le composant sont souvent différents de ceux que vous obtenez du module Sélection de caractéristiques par filtrage. La sélection de caractéristiques par filtrage calcule les scores avant la création d’un modèle.

La raison de cette différence tient au fait que le module Importance de la fonctionnalité de permutation ne mesure pas l’association entre une caractéristique et une valeur cible. Au lieu de cela, il capture l’influence de chaque caractéristique sur les prédictions du modèle.

Étapes suivantes

Consultez les composants disponibles pour Azure Machine Learning.