Profiler les données dans Power BI

Effectué

Le profilage des données consiste à étudier les nuances des données : déterminer les anomalies, examiner et développer les structures de données sous-jacentes, et interroger les statistiques des données, comme le nombre de lignes, les distributions des valeurs, les valeurs minimales et maximales, les moyennes, etc. Ce concept est important parce qu’il vous permet de mettre en forme et d’organiser les données, de façon à simplifier l’interaction avec les données et l’identification de la distribution des données, ce qui contribue à faciliter l’utilisation des données sur le front-end pour développer les éléments des rapports presque sans effort.

Supposons que vous développez des rapports pour l’équipe des ventes de votre organisation.  Vous n’êtes pas certain de la façon dont les données sont structurées et contenues dans les tables : vous voulez donc profiler les données en arrière-plan avant de commencer à développer les visuels.  Power BI dispose de fonctionnalités intrinsèques qui rendent ces tâches simples et conviviales.

Examiner les structures des données

Avant de commencer à examiner les données dans l’éditeur Power Query, vous devez d’abord en savoir plus sur les structures de données sous-jacentes dans lesquelles les données sont organisées. Vous pouvez afficher le modèle sémantique actuel sous l’onglet Modèle dans Power BI Desktop.

Sous l’onglet Modèle, vous pouvez modifier les propriétés de colonnes et de tables spécifiques en sélectionnant une table ou des colonnes, et vous pouvez transformer les données en utilisant le bouton Transformer les données, qui vous amène dans l’éditeur Power Query. De plus, vous pouvez gérer, créer, modifier et supprimer des relations entre différentes tables en utilisant Gérer les relations, qui se trouve sur le ruban.

Rechercher les anomalies des données et les statistiques des données

Une fois que vous avez créé une connexion à une source de données et que vous avez sélectionné Transformer les données, vous êtes dirigé vers l’éditeur Power Query, où vous pouvez déterminer s’il existe des anomalies dans vos données.  Les anomalies des données sont des valeurs hors norme dans vos données. La détermination de ces anomalies peut vous aider à identifier ce à quoi ressemble la distribution normale de vos données, et à déterminer s’il existe des points de données spécifiques que vous devez examiner de plus près. L’éditeur Power Query détermine les anomalies des données avec la fonctionnalité Distribution des colonnes.

Sélectionnez Affichage sur le ruban puis, sous Aperçu des données, vous pouvez choisir parmi quelques options. Pour comprendre les anomalies et les statistiques des données, sélectionnez les options Distribution des colonnes, Qualité de la colonne et Profil de colonne.  L’illustration suivante montre les statistiques qui apparaissent.

La qualité des colonnes et la distribution des colonnes sont indiquées dans les graphiques situés au-dessus des colonnes de données. La qualité de la colonne vous indique les pourcentages de données valides, erronées et vides. Dans une situation idéale, vous voulez que 100 % des données soient valides.

Notes

Par défaut, Power Query examine les 1 000 premières lignes de votre jeu de données. Pour modifier ce paramètre, sélectionnez l’état du profilage dans la barre d’état, puis sélectionnez Profilage de colonne basé sur l'ensemble du jeu de données. ]

Distribution des colonnes montre la distribution des données dans la colonne, et le nombre de valeurs distinctes et uniques, qui peuvent vous donner des informations détaillées sur les comptages des données. Les valeurs distinctes sont toutes les valeurs différentes d’une colonne, y compris les doublons et les valeurs Null, tandis que les valeurs uniques n’incluent pas les doublons ni les valeurs Null. Ainsi, distinct (valeurs distinctes) de cette table vous indique le nombre total de valeurs présentes, tandis que unique (valeurs uniques) vous indique le nombre de ces valeurs qui n’apparaissent qu’une fois.

Profil de colonne vous donne une analyse plus approfondie des statistiques des colonnes pour les 1 000 premières lignes de données. Cette colonne fournit plusieurs valeurs différentes, notamment le nombre de lignes, qui est important pour vérifier que l’importation de vos données s’est faite correctement. Par exemple, si votre base de données d’origine contient 100 lignes, vous pouvez utiliser ce nombre de lignes pour vérifier que 100 lignes ont bien été importées correctement. Ce nombre indique aussi le nombre de lignes que Power BI a considéré comme étant des valeurs hors norme, des lignes vides et des chaînes, et les valeurs minimale et maximale, qui vous indiquent respectivement la plus petite et la plus grande valeur d’une colonne. Cette distinction est particulièrement importante dans le cas des données numériques, car elle vous informe immédiatement si vous avez une valeur maximale qui est au-delà de ce que votre entreprise identifie comme un « maximum ». Cette valeur attire votre attention sur ces valeurs, ce qui signifie que vous pouvez concentrer vos efforts quand vous creusez plus en profondeur dans les données.  Dans le cas où les données se trouvaient dans la colonne de texte, comme le montre l’image précédente, la valeur minimale est la première valeur et la valeur maximale est la dernière valeur dans l’ordre alphabétique.

De plus, le graphique Distribution de valeurs vous indique le nombre de chacune des valeurs distinctes de cette colonne spécifique. Quand vous examinez le graphique dans l’image précédente, vous remarquez que la distribution des valeurs indique que « Anthony Gross » apparaît le plus grand nombre de fois dans la colonne SalesPerson et que « Lily Code » apparaît le plus petit nombre de fois. Ces informations sont particulièrement importantes, car elles identifient les valeurs hors norme.  Si une valeur apparaît bien plus souvent que d’autres valeurs dans une colonne, la fonctionnalité Distribution de valeurs vous permet de déterminer où commencer à chercher pourquoi il en est ainsi.

Sur une colonne numérique, Statistiques de colonnes vont aussi inclure le nombre de valeurs zéro et Null ainsi que la valeur moyenne de la colonne, l’écart type des valeurs de la colonne, et le nombre de valeurs paires et impaires de la colonne. Ces statistiques vous donnent une idée de la distribution des données dans la colonne : elles sont importantes, car elles récapitulent les données de la colonne et servent de point de départ pour déterminer ce que sont les valeurs hors norme.

Par exemple, quand vous examinez des données de facturation, vous remarquez que le graphique Distribution des valeurs montre qu’un petit nombre de commerciaux de la colonne SalesPerson apparaissent le même nombre de fois dans les données. En outre, vous remarquez que la même situation s’est produite dans la colonne Profit ainsi que dans quelques autres tables. Au cours de votre investigation, vous découvrez que les données que vous utilisiez étaient incorrectes et qu’elles devaient être actualisées : vous effectuez donc immédiatement l’actualisation. Si vous n’aviez pas regardé ce graphique, vous n’auriez peut-être pas vu cette erreur aussi rapidement : pour cette raison, la distribution des valeurs est essentielle.

Une fois que vous avez terminé vos modifications dans l’éditeur Power Query et que vous êtes prêt à commencer à créer des visuels, revenez à l’onglet Accueil dans le ruban de l’éditeur Power Query. Sélectionnez Fermer et appliquer, ce qui vous ramènera à Power BI Desktop. Toutes les modifications/transformations des colonnes seront également appliquées.

Vous avez maintenant déterminé les éléments qui constituent le profilage des données dans Power BI, qui incluent le chargement des données dans Power BI, l’interrogation des propriétés des colonnes de façon à rendre les choses claires et à apporter des modifications supplémentaires au type et au format des données dans les colonnes, la recherche des anomalies des données et l’examen des statistiques des données dans l’éditeur Power Query. Grâce à ces informations, vous pouvez inclure dans votre boîte à outils la possibilité d’étudier vos données de manière efficace.