Partager via


Tester une hypothèse avec t-Test

Important

Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.

À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.

La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.

Compare les moyens de deux colonnes à l’aide d’un test t

Catégorie : Fonctions statistiques

Notes

S’applique à : Machine Learning Studio (classique) uniquement

Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.

Vue d’ensemble du module

Cet article explique comment utiliser l’hypothèse de test à l’aide du module t-Test dans Machine Learning Studio (classique), pour générer des scores pour trois types de tests t :

  • Test t d'échantillon unique
  • Test t par paires
  • Test t non apparié

En général, un test t vous permet de comparer les moyennes entre deux groupes. Par exemple, supposons que vous évaluez les données d'essais cliniques recueillies auprès de patients ayant reçu un médicament A et de patients ayant reçu un médicament B, et que vous souhaitez comparer une mesure du taux de récupération pour ces deux groupes. L'hypothèse nulle supposerait que le taux de récupération est le même dans les deux groupes, mais aussi que les valeurs du taux de récupération présentent une distribution normale dans les deux groupes.

En utilisant l’hypothèse de test à l’aide de t-Test et en fournissant les colonnes qui contiennent les taux de récupération en tant qu’entrée, vous pouvez obtenir des scores qui indiquent si la différence est significative, ce qui signifie que l’hypothèse null doit être rejetée. Le test prend en compte plusieurs facteurs, notamment l'importance de la différence entre les valeurs, la taille de l'échantillon (un grand échantillon est préférable) et l'importance de l'écart type (un faible écart type est préférable).

En examinant les résultats de l’hypothèse de test à l’aide du module t-Test , vous pouvez déterminer si l’hypothèse null est TRUE ou FALSE, et passer en revue les scores de confiance (P) du test t.

Comment choisir un t-test

Choisissez un exemple de test t-test unique lorsque ces conditions s’appliquent :

  • Vous avez un seul échantillon de résultats.

  • Tous les résultats sont indépendants les uns des autres.

  • La distribution d’échantillonnage de xˉ est normale.

Le test t pour échantillon unique est généralement utilisé pour comparer une valeur moyenne avec un nombre connu.

Choisissez un test t-test jumelé lorsque ces conditions s’appliquent :

  • Vous disposez de paires correspondantes de scores. par exemple, vous avez obtenu deux mesures différentes pour chaque personne, ou des paires correspondantes de personnes (comme des conjoints).

  • Chaque paire de résultats est indépendante de toutes les paires.

  • La distribution d’échantillonnage de d est normale.

Un test t apparié est utile pour comparer des cas associés. En calculant la moyenne des différences entre les scores des cas appariés, vous pouvez déterminer si la différence totale est statistiquement significative.

Choisissez un test t-test non souhaité lorsque ces conditions s’appliquent :

  • Vous disposez de deux échantillons indépendants de scores. Autrement dit, il n'existe pas d'élément sur la base duquel vous pouvez apparier les scores de l'échantillon 1 avec ceux de l'échantillon 2.

  • Tous les résultats d'un échantillon sont indépendants de tous les autres résultats de cet échantillon.

  • La distribution d’échantillonnage de x1-x2 est normale.

  • Le cas échéant, respectez la condition selon laquelle la variance entre les groupes est à peu près égale.

Guide pratique pour configurer l’hypothèse de test à l’aide de t-Test

Utilisez un jeu de données unique comme entrée. Les colonnes que vous comparez doivent se trouver dans le même jeu de données.

Si vous devez comparer des colonnes à partir de différents jeux de données, vous pouvez isoler chaque colonne à comparer à l’aide de Sélectionner des colonnes dans le jeu de données, puis les fusionner en un jeu de données à l’aide d’Ajouter des colonnes.

  1. Ajoutez l’hypothèse de test à l’aide du module t-Test à votre expérience.

    Vous trouverez ce module dans la catégorie Fonctions statistiques dans Studio (classique).

  2. Ajoutez le jeu de données qui contient la colonne ou les colonnes que vous souhaitez analyser.

  3. Déterminez le type de test t approprié pour vos données. Découvrez comment choisir un test t.

  4. Exemple unique : Si vous utilisez un seul exemple, définissez ces paramètres :

    • Hypothésisé null μ : tapez la valeur à utiliser comme moyenne null-hypothésisée pour l’exemple. Cela spécifie la valeur moyenne attendue par rapport à laquelle l’exemple moyen sera testé.

    • Colonne cible : Utilisez le sélecteur de colonne pour choisir une colonne numérique unique pour le test.

    • Type d’hypothèse : choisissez un test d’une ou deux queues. La valeur par défaut est un test bilatéral. Type de test le plus courant, dans lequel la distribution attendue est symétrique autour de zéro.

      L’option One Tail GT est destinée à un test supérieur à celui du test. Ce test donne plus de puissance pour détecter un effet dans une direction, en ne testant pas l’effet dans l’autre sens.

      L’option One Tail LT offre un test inférieur à celui du test.

    • α : spécifiez un facteur de confiance. Cette valeur est utilisée pour évaluer la valeur de P (la première sortie du module). Si p est inférieur au facteur de confiance, l’hypothèse null est rejetée.

  5. AppairedSamples : Si vous comparez deux échantillons de la même population, définissez ces paramètres :

    • Hypothésisé null μ : tapez une valeur qui représente la différence d’échantillon entre la paire d’échantillons.

    • Colonne cible : Utilisez le sélecteur de colonne pour choisir les deux colonnes numériques à tester.

    • Type d’hypothèse : sélectionnez un test de queue ou de deux queues. La valeur par défaut est un test bilatéral.

    • α : spécifiez le facteur de confiance. Cette valeur est utilisée pour évaluer la valeur P (la première sortie du module)> Si p est inférieur au facteur de confiance, l’hypothèse null est rejetée.

  6. UnpairedSamples : Si vous comparez deux exemples non utilisés, définissez ces paramètres :

    • Supposons que la variance est égale : désélectionnez cette option lorsque les échantillons proviennent de différentes populations.
    • Hypothétisé null μ1 : tapez la moyenne pour la première colonne.
    • Hypothétisé null μ2 : Tapez la moyenne pour la deuxième colonne.
    • Colonnes cibles : Utilisez le sélecteur de colonnes pour choisir deux colonnes numériques à tester.
    • Type d’hypothèse : indiquez si le test est à une ou deux queues. La valeur par défaut est un test bilatéral.
    • α : spécifiez le facteur de confiance. Cette valeur est utilisée pour évaluer la valeur P (la première sortie du module)> Si p est inférieur au facteur de confiance, l’hypothèse null est rejetée.
  7. Exécutez l’expérience.

Résultats

La sortie du module est un jeu de données contenant les scores de test t et une transformation que vous pouvez éventuellement enregistrer pour s’appliquer à nouveau à ce jeu de données ou à un autre jeu de données à l’aide de La transformation d’application.

Le jeu de données de scores contient ces valeurs, quel que soit le type de test t que vous avez utilisé :

  • Score indiquant la probabilité de l'hypothèse null.
  • Valeur indiquant si l'hypothèse null doit être rejetée.

Conseil

N’oubliez pas que l’objectif est de déterminer si vous pouvez rejeter l’hypothèse null. Un score de 0 ne signifie pas que vous devez accepter l’hypothèse null : cela signifie que vous n’avez pas suffisamment de données et que vous avez besoin d’une investigation plus approfondie.

Notes techniques

Le module nomme automatiquement les colonnes de sortie selon les conventions suivantes, en fonction du type de test t sélectionné et du résultat obtenu (rejet ou acceptation de l'hypothèse null).

Étant donné les colonnes d’entrée avec des noms {0} et {1}, le module crée les noms suivants :

Colonnes SingleSampleSet PairedSamples UnpairedSamples
Colonne de sortie P P_ss({0}) P_ps({0}, {1}) P_us({0}, {1})
Colonne de sortie RejectH0 RejectH0_ss({0}) » RejectH0_ps({0}, {1}) RejectH0_us({0}, {1})

Calcul des scores

Ce module calcule et utilise l’exemple d’écart type ; par conséquent, l’équation utilise (n-1) dans le dénominateur.

Calcul des scores pour un test à échantillon unique

Étant donnés un échantillon de scores indépendants les uns des autres et une distribution normale, le score est calculé comme suit :

  1. Prendre l'entrée suivante :

    • Une seule colonne de valeurs du jeu de données
    • Paramètre d’hypothèse null (H0) μ0
    • Score de confiance spécifié par α
  2. Extrayez le nombre d’échantillons (n).

  3. Calculer la moyenne des données de l'échantillon.

  4. Calculez l’écart type (s) des exemples de données.

  5. Calculer t et degrés de liberté (df) :

    Formula for degrees of freedom

  6. Extrayez la probabilité P de la table de distribution T à l’aide de t et df.

Calcul des scores pour un test T jumelé

Étant donnés un jeu de scores appariés, où chaque paire est indépendante des autres, et une distribution normale dans chaque jeu, le score est calculé comme suit :

  1. Prendre l'entrée suivante :

    • Deux colonnes de valeurs du jeu de données
    • Paramètre d0 (H0) d’hypothèse null
    • Score de confiance spécifié par α
  2. Extrayez un certain nombre de paires d’exemples (n).

  3. Calculer la moyenne des différences pour les données de l'échantillon :

    formula for mean of differences

  4. Calculez l’écart type des différences (sd).

  5. Calculer t et les degrés de liberté (df) :

    Formula for degrees of freedom df

  6. Extrayez la probabilité (P) de la table de distribution (T) à l’aide de t et df.

Calcul des scores pour un test T non souhaité

Étant donnés deux échantillons indépendants de scores, avec une distribution normale des valeurs dans chaque échantillon, le score est calculé comme suit :

  1. Prendre l'entrée suivante :

    • Un jeu de données contenant deux colonnes de doubles
    • Paramètre d’hypothèse null (H0) (d0)
    • Score de confiance spécifié par α
  2. Extrayez un certain nombre d’échantillons dans chaque groupe, n1 et n2.

  3. Calculer les moyennes pour chaque jeu d'échantillons.

  4. Calculez l’écart type pour chaque groupe comme s1 et s2.

  5. Calculer t et degrés de liberté (df) :

Le cas échéant, respectez la condition selon laquelle la variance entre les groupes est à peu près égale, comme suit :

  1. Calculez tout d'abord l'écart type mis en pool :

    formula for pooled standard distribution

  2. S'il n'y a aucune hypothèse sur l'égalité des variances, effectuer le calcul comme suit :

    formula for pooled standard deviation

  3. Extrayez P de la table de distribution (T) à l’aide de t et df.

Calcul de l’hypothèse null

La probabilité de l’hypothèse null, désignée comme P, est calculée comme suit :

  • Si P < α, définissez l’indicateur Reject sur True.

  • Si P ≥ α, définissez l’indicateur Reject sur False.

Entrées attendues

Nom Type Description
Dataset Table de données Jeu de données d'entrée

Paramètres du module

Nom Plage Type Default Description
Type d'hypothèse Quelconque Hypothèse Bilatéral Type d'hypothèse Null de test T d'étudiant
Μ hypothésisé Null Quelconque Float 0,0 Pour le test t d'échantillon unique, moyenne hypothétique null de l'échantillon.

Pour le test t par paires, différence entre les échantillons
Target column(s) Quelconque ColumnSelection None Modèle de sélection de colonnes cibles
Supposons que les variances sont égales Quelconque Boolean True En supposant que les variances de deux échantillons sont égales

S'applique uniquement aux échantillons sans paires
Null hypothésisé μ1 Quelconque Float 0,0 Moyenne hypothétique Null pour le premier échantillon
α [0.0;1.0] Float 0.95 Facteur de probabilité (si P est inférieur au facteur de probabilité, l'hypothèse Null est rejetée)

Sorties

Nom Type Description
P Table de données Score indiquant la probabilité de l'hypothèse null.
Reject H0 Table de données Valeur indiquant si l'hypothèse Null doit être rejetée

Exceptions

Exception Description
Erreur 0003 Cette exception se produit si une ou plusieurs entrées sont null ou vide.
Erreur 0008 Une exception se produit si le paramètre n’est pas dans la plage.
Erreur 0017 Une exception se produit si une ou plusieurs colonnes spécifiées sont d'un type non pris en charge par le module actuel.
Erreur 0020 Cette exception est levée quand le nombre de colonnes dans certains jeux de données transmis au module est trop petit.
Erreur 0021 Cette exception est levée quand le nombre de lignes dans certains jeux de données transmis au module est trop petit.
Erreur 0031 Cette exception est levée quand le nombre de colonnes d'un jeu de colonnes est inférieur au nombre requis.
Erreur 0032 Une exception est levée si l'argument n'est pas un nombre.
Erreur 0033 Une exception est levée si l'argument est l'infini.

Pour obtenir la liste des erreurs spécifiques aux modules Studio (classique), consultez Machine Learning codes d’erreur.

Pour obtenir la liste des exceptions d’API, consultez Machine Learning codes d’erreur de l’API REST.

Voir aussi

Fonctions statistiques