Exploration du modèle Sequence Clustering (Didacticiel intermédiaire sur l'exploration de données)
Maintenant que vous avez créé le modèle Sequence Clustering avec Region, vous pouvez le parcourir en utilisant la visionneuse de l'algorithme MSC (Microsoft Sequence Clustering) dans l'onglet Visionneuse de modèle d'exploration de données du Concepteur d'exploration de données. La Visionneuse de l'algorithme MSC Microsoft contient cinq onglets : Diagramme de cluster, Profils du cluster, Caractéristiques du cluster, Discrimination de cluster et Transitions d'état. Pour plus d'informations sur la façon d'utiliser cette visionneuse, consultez Explorer un modèle à l'aide de la visionneuse de l'algorithme MSC (Microsoft Sequence Cluster).
Onglet Diagramme de cluster
Onglet Profils du cluster
Onglet Caractéristiques du cluster
Onglet Discrimination de cluster
Onglet Transitions d'état
Vue de contenu générique
Onglet Diagramme de cluster
L'onglet Diagramme de cluster présente sous forme graphique les clusters que l'algorithme a découverts dans la base de données. La disposition du diagramme représente les relations entre les clusters. Dans cette présentation, les clusters similaires sont regroupés. Par défaut, la nuance de chaque nœud représente la densité de tous les cas présents dans le cluster : plus le nœud est foncé, plus le nombre de cas qu'il contient est élevé. Vous pouvez changer la signification de la nuance des nœuds afin qu'elle représente la prise en charge, dans chaque nœud, d'un attribut et d'un état.
Vous pouvez renommer également les clusters pour simplifier l'identification et l'utilisation des clusters cibles. Pour ce didacticiel, vous renommerez le cluster qui a le pourcentage le plus élevé de clients de la région Pacific, et le cluster qui a le plus de cas en général.
[!REMARQUE]
Les cas assignés à des clusters spécifiques peuvent changer lorsque vous retraitez le modèle, en fonction des données et des paramètres du modèle. De plus, si vous renommez des clusters, les noms seront perdus lorsque vous retraitez le modèle d'exploration de données.
Pour modifier l'attribut utilisé pour mettre en surbrillance des clusters
Dans la liste Variable d'ombrage, sélectionnez Modèle.
Sélectionnez Cycling Cap dans la liste Etat.
Le diagramme est mis à jour pour afficher la concentration du produit sélectionné dans chacun des clusters. Le cluster le plus foncé contient la plus grande densité de casquettes de cyclisme. Vous pouvez modifier la variable d'ombrage pour utiliser l'état de n'importe quelle colonne d'entrée.
Dans la liste Variable d'ombrage, sélectionnez Remplissage.
Lorsque vous remplacez la variable d'ombrage par remplissage, le diagramme est mis à jour pour comparer les clusters par taille. Le cluster dont l'ombrage est le plus sombre contient davantage de cas que les autres clusters.
Pour renommer des nœuds dans le modèle
Modifiez Variable d'ombrage par Région et définissez Etat sur Pacific.
Mettez en surbrillance le nœud le plus sombre dans le graphique.
Cliquez avec le bouton droit sur ce cluster et sélectionnez Renommer le cluster.
Tapez le nomPacific Cluster**.**
Remplacez la valeur de Variable d'ombrage par Remplissage.
Dans le graphique mis à jour, localisez le cluster le plus sombre, qui doit être le plus grand cluster. Si vous ne pouvez pas déterminer en fonction de l'ombrage quel cluster est le plus grand, placez la souris sur chaque cluster et consultez l'info-bulle, puis choisissez le cluster qui contient le plus de cas.
Cliquez avec le bouton droit sur ce cluster et sélectionnez Renommer le cluster. Tapez le nouveau nom, Cluster le plus grand.
Vous pouvez extraire du nœud qui représente le cluster pour consulter le détail des cas qui sont dans chaque cluster. Cela peut être utile si vous souhaitez agir sur les résultats de votre analyse en envoyant par exemple un message électronique à un client. Vous pouvez également parcourir les autres attributs des cas que vous avez inclus dans la structure mais que vous n'avez pas utilisés dans le modèle, tels que Region et IncomeGroup. Pour plus d'informations sur la façon d'extraire des modèles d'exploration de données dans les cas sous-jacents, consultez Requêtes d'extraction (exploration de données).
Pour extraire des détails dans le diagramme Cluster
Cliquez avec le bouton droit sur Pacific Cluster et sélectionnez Extraire, puis Colonnes de structure et de modèle.
La boîte de dialogue Extraire s'ouvre. Les colonnes qui ne sont pas utilisées dans le modèle mais qui sont disponibles pour lancer une requête portent le préfixe Structure.
Vous constatez que ce cluster contient principalement des clients de la région Pacific, et seulement quelques clients issus d'autres régions.
Cliquez sur le signe plus dans la colonne imbriquée v Assoc Seq Line Items pour consulter la séquence d'éléments dans une commande particulière.
Fermez la boîte de dialogue Extraire.
[!REMARQUE]
Le bouton Lecture vous permet d'interroger de nouveau les données ; toutefois, cette opération ne modifie pas les données affichées sauf si le modèle a été mis à jour dynamiquement en arrière-plan par un autre processus.
Retour au début
Onglet Profils du cluster
L'onglet Profils du cluster affiche les séquences qui se trouvent dans chaque cluster. Les clusters sont listés dans des colonnes individuelles à droite de la colonne États.
Dans la visionneuse, la ligne Model décrit la distribution globale des articles dans un cluster et la ligne Model.samples contient les séquences des articles. Chaque ligne des séquences de couleur dans chaque cellule de la ligne Model.samples représente le comportement d'un utilisateur sélectionné de façon aléatoire dans le cluster.
Chaque couleur dans un histogramme de séquences individuelles représente le modèle d'un produit. La légende d'exploration de données vous montre les séquences de produits à l'aide des codes de couleur et des noms de modèle de produit. Si vous avez ajouté d'autres colonnes au modèle pour le clustering, telles que Region ou Income Group, la visionneuse contiendra une ligne supplémentaire pour chaque colonne qui affiche la distribution de ces valeurs dans chaque cluster.
Pour consulter les séquences les plus courantes dans un cluster
Cliquez avec le bouton droit sur la ligne Modèle dans la colonne pour le cluster Cluster le plus grand et sélectionnez Afficher la légende.
La colonne Couleur contient une barre grisée qui indique la fréquence d'occurrence des éléments dans les séquences. Chaque élément est représenté par une couleur différente. La colonne Signification répertorie les noms de modèle de produit pour chaque couleur. La colonne Distribution indique le pourcentage des cas qui ont contenu cet élément dans une séquence.
Fermez la Légende d'exploration de données.
Cliquez avec le bouton droit sur la ligne Model.samples dans la colonne avec l'en-tête Remplissage et sélectionnez Afficher la légende.
Analysez la liste des séquences dans l'ensemble du modèle.
La légende d'exploration de données répertorie en premier les séquences les plus courantes, vous pouvez ainsi constater que Mountain Tire Tube est le premier élément dans de nombreuses séquences. Cela signifie qu'un client a de fortes chances d'ajouter Mountain Tire Tube en premier dans son panier.
Pour extraire les cas de la visionneuse de clusters
Faites défiler le volet Attribut jusqu'à la ligne pour l'attribut Région.
La ligne contient un histogramme pour chaque cluster dans le modèle, plus un histogramme supplémentaire pour Remplissage, ce qui signifie le jeu entier des cas utilisés dans le modèle. Un histogramme est une barre contenant des couleurs différentes, où chaque couleur représente un attribut, et la taille de la section colorée pour cet attribut représente le pourcentage de cas ayant cet attribut.
Comparez les histogrammes pour les clusters que vous avez renommés Pacific Cluster et Cluster le plus grand. Chaque cluster apparaît dans une colonne différente.
Ils présentent tous les deux des couleurs unies, mais les couleurs sont différentes.
Dans la ligne Région, placez la souris sur l'histogramme coloré pour le Cluster le plus grand.
L'info-bulle affiche des valeurs qui affichent les pourcentages réels de cas de chaque région.
Cliquez avec le bouton droit sur l'histogramme coloré dans la ligne Région pour Pacific Cluster, sélectionnez Extraire puis sélectionnez Colonnes de modèle uniquement.
Déplacez la barre de défilement pour examiner tous les clients dans ce cluster.
Là encore, l'extraction des détails vous permet de constater que le cluster contient principalement des commandes de la région Pacific, mais également certaines des régions North America et Europe.
Fermez la boîte de dialogue Extraire.
Retour au début
Onglet Caractéristiques du cluster
L'onglet Caractéristiques du cluster résume les transitions entre les états dans un cluster en affichant les barres de couleur qui expriment de manière visuelle l'importance de la valeur d'attribut pour le cluster sélectionné. La colonne Variables indique ce que le modèle considère comme important pour l'alimentation ou le cluster sélectionné : une valeur particulière ou la relation entre des valeurs, également appelée transition. La colonne Valeurs fournit plus de détails sur la valeur ou la transition, et la colonne Probabilité représente visuellement le poids de cet attribut ou transition.
Pour consulter les attributs importants pour un cluster
Dans la liste déroulante Cluster, sélectionnez Pacific Cluster.
La liste est mise à jour pour afficher les caractéristiques du cluster que vous avez renommé Pacific Cluster. Dans ce cluster, la caractéristique la plus importante est Région.
Placez la souris sur la barre grisée dans la ligne pour Région.
La probabilité que la valeur soit Pacific est très élevée. Pour plus d'informations sur l'interprétation de ces valeurs, consultez Références techniques relatives à l'algorithme MSC (Microsoft Sequence Clustering).
Recherchez le cluster dans la liste des caractéristiques du cluster jusqu'à la première ligne de transition.
Une ligne de transition contient la transition de texte dans la colonne Variables, et une combinaison de valeurs d'attribut séquentielles dans la colonne Valeur. La séquence peut contenir également des points de départ et des valeurs manquantes.
Par exemple, supposez que la transition a la valeur, [Start] -> Road Tire Tube. Cela signifie que les clients dans ce cluster ont fréquemment mis en premier l'élément Road Tire Tube dans leur panier. Cela peut signifier que le produit est un article populaire que les clients recherchent en premier, ou cela peut indiquer uniquement que le produit est facile à localiser sur le site d'achat.
Faites défiler la liste jusqu'à la première transition qui ne contient pas [Start] ou manquant.
Par exemple, supposez que vous recherchez la transition Touring Tire, Touring Tire Tube. Cela signifie que les clients dans ce cluster ont fréquemment acheté ces éléments ensemble, dans cet ordre précis.
Placez la souris sur la barre grisée pour cette transition.
La probabilité de cette transition s'affiche sous la forme d'un pourcentage.
Dans la liste déroulante Cluster, sélectionnez Remplissage (Tout).
La liste des attributs est mise à jour pour afficher les caractéristiques de toutes les commandes utilisées pour créer le modèle. Dans ce modèle d'exploration de données, la caractéristique la plus importante pour distinguer entre des clusters est Région ayant North America comme valeur.
Après avoir examiné ces tâches, vous pouvez faire un double constat. Le premier est que vous avez besoin de beaucoup de données pour obtenir un nombre pertinent de combinaisons. Par exemple, il est probable que les séquences avec les probabilités les plus élevées incluent un état [Start] ou manquant.
Le deuxième est qu'il existe un fort effet de clustering sur les attributs pour Région, ce qui rend difficile la consultation des groupes de séquences. Par conséquent, vous décidez de créer un autre modèle qui utilise uniquement des séquences sans inclure les colonnes pour la région ou le revenu.
Retour au début
Onglet Discrimination de cluster
L'onglet Discrimination de cluster vous permet de comparer deux clusters, afin de déterminer quels attributs établissent une distinction entre un cluster particulier et un autre cluster. Cet onglet contient quatre colonnes : Variables, Valeurs, Cluster 1 et Cluster 2. Vous pouvez choisir un cluster à utiliser comme Cluster 1 et Cluster 2.
La colonne Variables indique le nom de l'attribut, celui-ci peut être un nom de colonne ou une combinaison de nom de colonne et le mot transition. La colonne Valeurs affiche la valeur exacte de l'attribut ou de la transition. Les barres grisées dans les colonnes pour Cluster 1 et Cluster 2 indiquent la force de l'attribut dans les clusters que vous comparez. Plus la barre est longue, plus grande est la probabilité que le cluster inclus des cas avec cet attribut.
Pour comparer deux clusters à l'aide de l'onglet Discrimination de cluster
Dans l'onglet Discrimination de cluster, pour Cluster 1, sélectionnez Pacific Cluster.
Par défaut la sélection pour Cluster 2 remplace **Complément du **ClusterPacific.
L'attribut supérieur qui distingue Pacific Cluster de tous les autres cas est la région. La région est un attribut si fort pour le clustering qu'il masque d'autres attributs. Pour éviter cet effet, essayez de comparer plusieurs des clusters plus petits entre eux. Dans ce cas, la liste des attributs change et peut inclure plus de transitions entre les modèles.
Localisez une ligne de transition et placez la souris sur la barre grisée.
Les éléments dans la colonne Valeurs peuvent inclure des états et des transitions. L'ombrage de chaque élément indique le score de discrimination. Pour en savoir plus sur la signification des différents scores, consultez Contenu du modèle d'exploration de données pour les modèles Sequence Clustering (Analysis Services - Exploration de données).
Retour au début
Onglet Transitions d'état
Dans l'onglet Transitions d'état vous pouvez sélectionner un cluster et parcourir ses transitions d'état. Si vous sélectionnez Remplissage (Tout) dans la liste déroulante du cluster, le diagramme affiche la distribution des états pour le modèle d'exploration de données entier.
Chaque nœud dans le graphique représente un état, ou une valeur possible, des séquences que vous essayez d'analyser. La couleur d'arrière-plan des nœuds représente la fréquence de cet état. Les lignes connectent des états et indiquent une transition entre des états. Vous pouvez déplacer le curseur vers le haut ou le bas pour modifier le seuil de probabilité pour les transitions. Des nombres sont associés à certains nœuds et indiquent la probabilité de cet état.
Pour explorer les relations dans l'onglet Transitions d'état
Dans l'onglet Transitions d'état de la visionneuse Modèle d'exploration de données, sélectionnez Pacific Cluster dans la liste de clusters. Vérifiez que l'option Afficher les étiquettes du bord est activée.
Le graphique est mis à jour pour afficher les transitions les plus courantes dans ce cluster.
Cliquez sur un nœud connecté par une ligne à un autre nœud.
Le graphique est mis à jour et met en surbrillance les nœuds connexes. La valeur numérique en regard de la ligne indique la probabilité de la transition.
Remontez le curseur vers Tous les liens pour augmenter le nombre de transitions incluses dans le graphique.
Sélectionnez Remplissage (tout) dans Cluster.
Notez que lorsque vous chargez un cluster différent, le graphique réinitialise les paramètres d'affichage par défaut, donc le contrôle Slider est réinitialisé à la position centrale.
Cliquez sur le nœud le plus sombre dans le graphique, à savoir Sport-100.
Notez qu'il n'y a pas de lignes qui connectent ce produit à d'autres produits.
Remontez le curseur d'une étape pour augmenter le nombre de transitions incluses dans le graphique. Ne remontez pas jusqu'à Tous les liens tout de suite.
Le graphique est mis à jour en ajoutant plusieurs transitions supplémentaires au graphique, mais aucune qui inclut le modèle Sport-100.
Déplacez le contrôle Slider jusqu'à Tous les liens. Cliquez sur le nœud Sport-100 s'il n'est pas déjà sélectionné.
Le graphique est mis à jour pour afficher de nombreuses transitions qui incluent le produit Sport-100. La direction de la flèche sur la ligne de connexion indique si l'élément Sport-100 a été sélectionné comme le premier élément ou le deuxième élément dans la paire.
Cliquez sur le nœud pour Touring Tire et ramenez le contrôle Slider à la position centrale.
En premier lieu, il y a de nombreuses lignes de transition qui connectent Touring Tire à d'autres produits, mais lorsque vous élevez le seuil de probabilité, les transitions moins probables sont éliminées du graphique, ce qui laisse simplement la transition, Touring Tire > Touring Tire Tube. Cette transition signifie que si un client ajoute un élément Touring Tire (pneu de vélo) dans son panier, la probabilité qu'il ajoute ensuite un élément Touring Tire Tube (chambre à air de vélo) est forte.
Retour au début
Visionneuse de l'arborescence de contenu générique
Cette visionneuse peut être utilisée pour tous les modèles, quels que soient l'algorithme ou le type de modèle. La Visionneuse de l'arborescence de contenu générique Microsoft est disponible dans la liste déroulante Visionneuse.
Un arbre de contenu est une représentation de n'importe quel modèle d'exploration de données sous la forme d'une série de nœuds, où chaque nœud représente ce qui a été appris sur certaines données d'apprentissage. Le nœud peut contenir un modèle, un ensemble de règles, un cluster ou la définition d'une plage de dates qui partagent certains attributs. Le contenu exact du nœud diffère en fonction de l'algorithme et de l'attribut prédictible, mais la représentation générale du contenu reste la même.
Vous pouvez développer chaque nœud pour voir des informations de plus en plus détaillées et copier le contenu de n'importe quel nœud vers le Presse-papiers. Pour plus d'informations, consultez Explorer un modèle à l'aide de la visionneuse de l'arborescence de contenu générique Microsoft.
Pour consulter des détails pour un modèle Sequence Clustering à l'aide de la Visionneuse de l'arborescence de contenu générique
Dans l'onglet Visionneuse de modèle d'exploration de données, cliquez sur la liste Visionneuse et sélectionnez Visionneuse de l'arborescence de contenu générique Microsoft.
Dans le volet Légende du nœud, cliquez sur Pacific Cluster (1).
Le nom de ce nœud contient à la fois le nom convivial que vous avez assigné au cluster et l'ID de nœud sous-jacent. Vous pouvez utiliser les ID de nœud pour extraire les détails supplémentaires dans le modèle.
Développez le premier nœud enfant intitulé Niveau de séquence pour cluster 1.
Le nœud de niveau séquence pour un cluster contient des détails relatifs aux états et transitions inclus dans ce cluster. Vous pouvez utiliser ces détails, disponibles dans la colonne NODE_DISTRIBUTION pour explorer les séquences et les états pour chaque cluster ou pour le modèle.
Continuez à développer des nœuds et consulter les détails dans le volet de visionneuse HTML.
Pour plus d'informations sur le contenu du modèle d'exploration de données et sur la manière d'utiliser les détails dans la visionneuse, consultez Contenu du modèle d'exploration de données pour les modèles Sequence Clustering (Analysis Services - Exploration de données).
Retour au début