Algorithmes d'exploration de données (Analysis Services - Exploration de données)
Un algorithme d'exploration de données est un ensemble d'heuristiques et de calculs qui crée un modèle d'exploration de données à partir de données. Pour créer un modèle, l'algorithme analyse d'abord les données que vous fournissez, à la recherche de types spécifiques de modèles ou de tendances. L'algorithme utilise les résultats de cette analyse afin de définir les paramètres optimaux pour la création du modèle d'exploration de données. Ensuite, ces paramètres sont appliqués au jeu de données entier pour extraire des modèles utilisables et des statistiques détaillées.
Le modèle d'exploration de données qu'un algorithme crée à partir de vos données peut prendre des formes variées, dont les suivantes :
Un ensemble de clusters qui décrivent la manière dont les cas sont liés dans un dataset.
Un arbre de décision qui prédit les résultats et décrit comment les différents critères affectent ces résultats.
Un modèle mathématique permettant de prévoir les ventes.
Un ensemble de règles qui décrivent la manière dont les produits sont regroupés dans une transaction et les probabilités que les produits soient achetés ensemble.
Microsoft SQL Server Analysis Services fournit plusieurs algorithmes à utiliser dans vos solutions d'exploration de données. Ces algorithmes sont des implémentations de certaines méthodologies les plus populaires utilisées dans l'exploration de données. Tous les algorithmes d'exploration de données Microsoft peuvent être personnalisés et sont entièrement programmables à l'aide des interfaces API fournies, ou en utilisant des composants d'exploration de données dans SQL Server Integration Services.
Vous pouvez également utiliser des algorithmes tiers qui sont conformes à la spécification OLE DB pour l'exploration de données, ou développer des algorithmes personnalisés qui peuvent être inscrits en tant que services, puis utilisés dans l'infrastructure d'exploration de données SQL Server.
Choix de l'algorithme adéquat
Le choix du meilleur algorithme à utiliser pour une tâche analytique spécifique peut être un véritable défi. Vous pouvez utiliser des algorithmes différents pour effectuer la même tâche professionnelle, mais chaque algorithme produit un résultat différent et certains algorithmes peuvent produire plusieurs types de résultats. Par exemple, vous pouvez utiliser l'algorithme MDT (Microsoft Decision Trees) pas seulement pour des prédictions, mais aussi comme manière de réduire le nombre de colonnes dans un dataset, car l'arbre de décision peut identifier les colonnes qui n'affectent pas le modèle d'exploration de données final.
Choix d'un algorithme par type
Analysis Services inclut les types d'algorithmes suivants :
Les algorithmes de classification prévoient une ou plusieurs variables discrètes, en fonction des autres attributs dans le dataset.
Les algorithmes de régression prévoient une ou plusieurs variables continues, telles que les bénéfices ou les pertes, en fonction d'autres attributs du dataset.
Les algorithmes de segmentation divisent les données en groupes, ou en clusters, d'éléments possédant des propriétés similaires.
Les algorithmes d'association recherchent des corrélations entre différents attributs d'un dataset. L'application la plus courante de ce genre d'algorithme concerne la création de règles d'association, utilisables dans une analyse de panier d'achat.
Les algorithmes d'analyse de séquence synthétisent les séquences ou épisodes fréquents dans des données, tels qu'un flux de chemin d'accès Web.
Toutefois, il n'y a aucune raison pour laquelle vous devriez être limité à un algorithme dans vos solutions. Les analystes expérimentés utilisent parfois un algorithme pour déterminer les entrées les plus efficaces (autrement dit, les variables), puis appliquent un algorithme différent pour prédire un résultat spécifique en fonction de ces données. L'exploration de données SQL Server vous permet de générer plusieurs modèles sur une structure d'exploration de données unique ; ainsi, avec une seule solution d'exploration de données, vous pouvez utiliser un algorithme de clustering, un modèle d'arbres de décision et un modèle Bayes naïve pour obtenir des vues différentes de vos données. Vous pouvez également utiliser plusieurs algorithmes dans une seule solution afin d'effectuer des tâches distinctes : par exemple, vous pouvez utiliser la régression pour obtenir des prévisions financières et un algorithme de réseau neuronal pour effectuer une analyse des facteurs qui influencent les ventes.
Choix d'un algorithme par tâche
Pour vous aider à sélectionner un algorithme en vue d'une utilisation avec une tâche spécifique, le tableau suivant fournit des suggestions pour les types de tâches pour lesquelles chaque algorithme est traditionnellement utilisé.
Exemples de tâches |
Algorithmes Microsoft à utiliser |
---|---|
Prédiction d'un attribut discret
|
Algorithme MDT (Microsoft Decision Trees) Algorithme MNB (Microsoft Naive Bayes) |
Prédiction d'un attribut continu
|
Algorithme MDT (Microsoft Decision Trees) |
Prédiction d'une séquence
|
|
Recherche de groupes d'éléments communs dans des transactions
|
|
Recherche de groupes d'éléments similaires
|
Contenu connexe
Le tableau suivant fournit des liens vers des ressources d'apprentissage pour chacun des algorithmes d'exploration de données fournis dans Analysis Services :
Tâches associées
Rubrique |
Description |
---|---|
Déterminer l'algorithme utilisé par un modèle d'exploration de données |
Interroger les paramètres utilisés pour créer un modèle d'exploration de données |
Créer un algorithme de plug-in personnalisé |
|
Explorer un modèle à l'aide d'une visionneuse d'algorithme |
|
Afficher le contenu d'un modèle à l'aide d'un format tabulaire générique |
Explorer un modèle à l'aide de la visionneuse de l'arborescence de contenu générique Microsoft |
En savoir plus sur la configuration de vos données et l'utilisation d'algorithmes pour créer des modèles |
Structures d'exploration de données (Analysis Services – exploration de données) Modèles d'exploration de données (Analysis Services - Exploration de données) |