Partager via


Glossaire du Machine Learning des termes importants

La liste suivante est une compilation de termes d’apprentissage automatique importants qui sont utiles lorsque vous générez vos modèles personnalisés dans ML.NET.

Exactitude

Dans classification, la précision est le nombre d’éléments correctement classés divisés par le nombre total d’éléments dans le jeu de tests. Varie de 0 (le moins précis) à 1 (le plus précis). La précision est l’une des métriques d’évaluation des performances du modèle. Considérez-le conjointement avec précision, rappeleret de score F.

Zone sous la courbe (AUC)

Dans classification binaire, une métrique d’évaluation qui correspond à la valeur de la zone sous la courbe qui trace le taux de vrais positifs (sur l’axe y) par rapport au taux de faux positifs (sur l’axe x). Varie de 0,5 (pire) à 1 (meilleur). Également appelée zone sous la courbe ROC, c’est-à-dire la courbe de caractéristique d’exploitation du récepteur. Pour plus d’informations, consultez l’article Caractéristique d’exploitation du récepteur sur Wikipédia.

Classification binaire

Une classification cas où l’étiquette n’est qu’une des deux classes. Pour plus d’informations, consultez la section classification binaire des tâches Machine Learning rubrique.

Étalonnage

L’étalonnage est le processus de mappage d’un score brut sur une appartenance à une classe, pour la classification binaire et multiclasse. Certains ML.NET formateurs ont un suffixe NonCalibrated. Ces algorithmes produisent un score brut qui doit ensuite être mappé à une probabilité de classe.

Catalogue

Dans ML.NET, un catalogue est une collection de fonctions d’extension, regroupées à des fins communes.

Par exemple, chaque tâche machine learning (classification binaire, régression, classement, etc.) possède un catalogue d’algorithmes machine learning disponibles (formateurs). Le catalogue des formateurs de classification binaire est : BinaryClassificationCatalog.BinaryClassificationTrainers.

Classification

Lorsque les données sont utilisées pour prédire une catégorie, tâche de machine learning supervisée est appelée classification. classification binaire fait référence à prédire seulement deux catégories (par exemple, classifier une image comme image d’un « chat » ou d’un « chien »). classification multiclasse fait référence à la prédiction de plusieurs catégories (par exemple, lors de la classification d’une image comme image d’une race spécifique de chien).

Coefficient de détermination

Dans de régression, une métrique d’évaluation qui indique comment les données correspondent bien à un modèle. Est comprise entre 0 et 1. La valeur 0 signifie que les données sont aléatoires ou ne peuvent pas être adaptées au modèle. La valeur 1 signifie que le modèle correspond exactement aux données. Il s’agit souvent de r2, R2ou r-squared.

Données

Les données sont essentielles à n’importe quelle application Machine Learning. Dans ML.NET données sont représentées par des objets IDataView. Objets de vue de données :

  • sont constitués de colonnes et de lignes
  • sont évalués de manière différée, c’est-à-dire qu’ils chargent uniquement des données lorsqu’une opération l’appelle
  • contiennent un schéma qui définit le type, le format et la longueur de chaque colonne

Estimateur

Classe dans ML.NET qui implémente l’interface IEstimator<TTransformer>.

Un estimateur est une spécification d’une transformation (transformation de préparation des données et transformation d’apprentissage du modèle Machine Learning). Les estimateurs peuvent être chaînés en un pipeline de transformations. Les paramètres d’un estimateur ou d’un pipeline d’estimateurs sont appris quand Fit est appelée. Le résultat de Fit est un Transformer.

Méthode d’extension

Méthode .NET qui fait partie d’une classe, mais qui est définie en dehors de la classe. Le premier paramètre d’une méthode d’extension est une référence statique this à la classe à laquelle appartient la méthode d’extension.

Les méthodes d’extension sont largement utilisées dans ML.NET pour construire des instances d’estimateurs .

Caractéristique

Propriété mesurable du phénomène mesuré, généralement une valeur numérique (double). Plusieurs fonctionnalités sont appelées vecteur de fonctionnalité et généralement stockées en tant que double[]. Les caractéristiques définissent les caractéristiques importantes du phénomène mesuré. Pour plus d’informations, consultez l’article Feature sur Wikipédia.

Ingénierie des caractéristiques

L’ingénierie des caractéristiques est le processus qui implique la définition d’un ensemble de fonctionnalités et le développement de logiciels qui produisent des vecteurs de caractéristiques à partir de données de phénomène disponibles, c’est-à-dire l’extraction de caractéristiques. Pour plus d’informations, consultez l’article l’ingénierie des fonctionnalités sur Wikipédia.

Score F

Dans de classification, une métrique d’évaluation qui équilibre précision et rappel.

Hyperparamètre

Paramètre d’un algorithme Machine Learning. Les exemples incluent le nombre d’arbres à apprendre dans une forêt de décision ou la taille de l’étape dans un algorithme de descente de dégradé. Les valeurs de hyperparamètres sont définies avant d’entraîner le modèle et de régir le processus de recherche des paramètres de la fonction de prédiction, par exemple les points de comparaison dans un arbre de décision ou les pondérations dans un modèle de régression linéaire. Pour plus d’informations, consultez l’article Hyperparamètre sur Wikipédia.

Étiquette

Élément à prédire avec le modèle Machine Learning. Par exemple, la race de chiens ou un futur cours boursier.

Perte de journal

Dans classification, une métrique d’évaluation qui caractérise la précision d’un classifieur. La perte de journal plus petite est, plus une classifieur est précise.

Fonction de perte

Une fonction de perte est la différence entre les valeurs de l’étiquette d’entraînement et la prédiction effectuée par le modèle. Les paramètres du modèle sont estimés en minimisant la fonction de perte.

Différents formateurs peuvent être configurés avec différentes fonctions de perte.

Erreur absolue moyenne (MAE)

Dans régression, une métrique d’évaluation qui correspond à la moyenne de toutes les erreurs de modèle, où l’erreur du modèle correspond à la distance entre l’étiquette prédite valeur et la valeur d’étiquette correcte.

Modèle

Traditionnellement, les paramètres de la fonction de prédiction. Par exemple, les pondérations dans un modèle de régression linéaire ou les points de fractionnement dans un arbre de décision. Dans ML.NET, un modèle contient toutes les informations nécessaires pour prédire l’étiquette d’un objet de domaine (par exemple, image ou texte). Cela signifie que ML.NET modèles incluent les étapes de caractérisation nécessaires ainsi que les paramètres de la fonction de prédiction.

Classification multiclasse

Une classification cas où l’étiquette est l’une des trois classes ou plus. Pour plus d’informations, consultez la section classification multiclasse des tâches Machine Learning rubrique.

N-grammes

Schéma d’extraction de caractéristiques pour les données de texte : toute séquence de mots N se transforme en une fonctionnalité valeur.

Normalisation

La normalisation est le processus de mise à l’échelle des données à virgule flottante vers des valeurs comprises entre 0 et 1. La plupart des algorithmes d’apprentissage utilisés dans ML.NET nécessitent la normalisation des données de fonctionnalité d’entrée. ML.NET fournit une série de transformations de pour la normalisation

Vecteur de caractéristique numérique

Caractéristique vecteur composé uniquement de valeurs numériques. Ceci est similaire à double[].

Pipeline

Toutes les opérations nécessaires pour ajuster un modèle à un jeu de données. Un pipeline se compose des étapes d’importation, de transformation, de caractérisation et d’apprentissage des données. Une fois qu’un pipeline est entraîné, il se transforme en modèle.

Précision

Dans classification, la précision d’une classe est le nombre d’éléments correctement prédits comme appartenant à cette classe divisé par le nombre total d’éléments prédits comme appartenant à la classe.

Rappeler

Dans classification, le rappel d’une classe est le nombre d’éléments correctement prédits comme appartenant à cette classe divisé par le nombre total d’éléments qui appartiennent réellement à la classe.

Régularisation

La régularisation pénalise un modèle linéaire pour être trop compliqué. Il existe deux types de régularisation :

  • $L_1$ normalisation des poids zéros pour les caractéristiques non négligeables. La taille du modèle enregistré peut devenir plus petite après ce type de régularisation.
  • $L_2$ la régularisation réduit la plage de poids pour les caractéristiques non négligeables. Il s’agit d’un processus plus général et est moins sensible aux valeurs hors norme.

Régression

Un machine learning supervisé tâche où la sortie est une valeur réelle, par exemple, double. Les exemples incluent la prédiction des cours des actions. Pour plus d’informations, consultez la section Régression de la rubrique tâches Machine Learning.

Erreur absolue relative

Dans régression, métrique d’évaluation qui correspond à la somme de toutes les erreurs absolues divisées par la somme des distances entre les valeurs d’étiquette correctes et la moyenne de toutes les valeurs d’étiquette correctes.

Erreur carrée relative

Dans régression, une métrique d’évaluation qui correspond à la somme de toutes les erreurs absolues carrées divisée par la somme des distances carrées entre les valeurs d’étiquette correctes et la moyenne de toutes les valeurs d’étiquette correctes.

Racine de l’erreur carrée moyenne (RMSE)

Dans régression, une métrique d’évaluation qui est la racine carrée de la moyenne des carrés des erreurs.

Marquer

Le scoring est le processus d’application de nouvelles données à un modèle Machine Learning entraîné et de génération de prédictions. Le scoring est également appelé inférence. Selon le type de modèle, le score peut être une valeur brute, une probabilité ou une catégorie.

Machine Learning supervisé

Sous-classe de Machine Learning dans laquelle un modèle souhaité prédit l’étiquette pour les données encore invisibles. Les exemples incluent la classification, la régression et la prédiction structurée. Pour plus d’informations, consultez l’article d’apprentissage supervisé sur Wikipédia.

Formation

Processus d’identification d’un modèle pour un jeu de données d’apprentissage donné. Pour un modèle linéaire, cela signifie trouver les poids. Pour une arborescence, il implique d’identifier les points de fractionnement.

Transformateur

Classe ML.NET qui implémente l’interface de ITransformer.

Un transformateur transforme un IDataView en un autre. Un transformateur est créé en formant un estimateur ou un pipeline d’estimateur.

Machine Learning non supervisé

Sous-classe de Machine Learning dans laquelle un modèle souhaité trouve une structure masquée (ou latente) dans les données. Par exemple, le clustering, la modélisation de rubriques et la réduction de la dimensionnalité. Pour plus d’informations, consultez l’article l’apprentissage non supervisé sur Wikipédia.