Mettre en forme les données initiales

Effectué

L’éditeur Power Query de Power BI Desktop vous permet de mettre en forme (transformer) vos données importées. Vous pouvez effectuer des actions comme renommer des colonnes ou des tables, changer du texte en nombre, supprimer des lignes, définir la première ligne comme en-tête, etc. Il est important de mettre en forme vos données pour garantir qu’elles répondent à vos besoins et qu’elles sont adaptées à une utilisation dans des rapports.

Vous avez chargé des données de ventes brutes depuis deux sources dans un modèle Power BI.  Certaines des données proviennent d’un fichier .csv créé manuellement dans Microsoft Excel par l’équipe des ventes.  Les autres données ont été chargées via une connexion au système ERP (Enterprise Resource Planning) de votre organisation.  Maintenant, quand vous examinez les données dans Power BI Desktop, vous remarquez qu’elles se trouvent dans un certain désordre : il y a des données dont vous n’avez pas besoin et certaines données dont vous avez besoin ne sont pas au bon format.

Vous devez utiliser l’éditeur Power Query pour nettoyer et mettre en forme ces données avant de commencer à créer des rapports.

Bien démarrer avec l’éditeur Power Query

Pour commencer à mettre en forme vos données, ouvrez l’éditeur Power Query en sélectionnant l’option Transformer des données sous l’onglet Accueil de Power BI Desktop.

Dans l’éditeur Power Query, les données de la requête que vous avez sélectionnée s’affichent au milieu de l’écran et, sur le côté gauche, le volet Requêtes liste les requêtes (tables) disponibles.

Quand vous travaillez dans l’éditeur Power Query, toutes les étapes que vous effectuez pour mettre en forme vos données sont enregistrées. Ensuite, chaque fois que la requête se connecte à la source de données, elle applique automatiquement vos étapes : vos données sont donc toujours mises en forme selon ce que vous avez spécifié.  L’éditeur Power Query apporte des modifications seulement à une vue particulière de vos données : ne vous inquiétez donc pas, car aucune modification n’est apportée à votre source de données d’origine. Vous pouvez voir une liste de vos étapes sur le côté droit de l’écran, dans le volet Paramètres de la requête, ainsi que les propriétés de la requête.

Le ruban de l’éditeur Power Query contient de nombreux boutons, que vous pouvez utiliser pour sélectionner, visualiser et mettre en forme vos données.

Pour plus d’informations sur les fonctionnalités et les fonctions disponibles, consultez Ruban Query.

Notes

Dans l’éditeur Power Query, les menus contextuels accessibles par un clic droit et l’onglet Transformer du ruban fournissent un grand nombre d’options identiques.

Identifier les en-têtes et les noms des colonnes

La première étape de mise en forme de vos données initiales consiste à identifier les en-têtes et les noms des colonnes dans les données, puis à déterminer leur emplacement pour être sûr qu’ils se trouvent au bon endroit.

Dans la capture d’écran suivante, les données source du fichier csv pour SalesTarget (exemple non fourni) ont une cible catégorisée par produits et une sous-catégorie divisée par mois, les deux étant organisées en colonnes.

Vous remarquez cependant que les données n’ont pas été importées comme prévu.

Par conséquent, les données sont difficiles à lire. Un problème s’est produit avec les données dans leur état actuel, car les en-têtes de colonne se trouvent dans différentes lignes (marquées en rouge) et plusieurs colonnes ont des noms non descriptifs, comme Column1, Column2, etc.

Une fois que vous avez identifié l’emplacement des en-têtes et des noms des colonnes, vous pouvez apporter des modifications pour réorganiser les données.

Promouvoir les en-têtes

Quand une table est créée dans Power BI Desktop, l’éditeur Power Query suppose que toutes les données appartiennent aux lignes de la table. Cependant, une source de données peut avoir une première ligne qui contient les noms des colonnes, ce qui s’est produit dans l’exemple SalesTarget précédent.  Pour corriger cette interprétation, vous devez promouvoir la première ligne de la table comme en-têtes de colonne.

Vous pouvez promouvoir les en-têtes de deux manières : en sélectionnant l’option Utiliser la première ligne pour les en-têtes sous l’onglet Accueil ou en sélectionnant le bouton de liste déroulante à côté de Column1, puis en sélectionnant Utiliser la première ligne pour les en-têtes.

L’illustration suivante montre comment la fonctionnalité Utiliser la première ligne pour les en-têtes impacte les données :

Renommer des colonnes

L’étape suivante de la mise en forme de vos données consiste à examiner les en-têtes de colonne. Vous pouvez constater qu’une ou plusieurs colonnes ont des en-têtes incorrects, qu’un en-tête contient une faute d’orthographe, ou que la convention de nommage des en-têtes n’est pas cohérente ou pas conviviale.

Reportez-vous à la capture d’écran précédente, qui montre l’impact de la fonctionnalité Utiliser la première ligne pour les en-têtes. Notez que la colonne qui contient les données Name des sous-catégories a maintenant Month comme en-tête de colonne. Cet en-tête de colonne est incorrect et il doit donc être renommé.

Vous pouvez renommer les en-têtes de colonnes de deux manières. Une approche consiste à cliquer avec le bouton droit sur l’en-tête, à sélectionner Renommer, à modifier le nom, puis à appuyer sur Entrée. Vous pouvez aussi double-cliquer sur l’en-tête de colonne et remplacer le nom par le nom correct.

Vous pouvez également contourner ce problème en supprimant (en ignorant) les deux premières lignes, puis en renommant les colonnes avec le nom correct.

Supprimer les lignes du haut

Lors de la mise en forme de vos données, il peut être nécessaire de supprimer certaines lignes du haut, par exemple si elles sont vides ou si elles contiennent des données dont vous n’avez pas besoin dans vos rapports.

Toujours dans SalesTarget, vous notez que la première ligne est vide (elle n’a pas de données) et que la deuxième ligne contient des données qui ne sont plus nécessaires.

Pour supprimer ces lignes en trop, sélectionnez Supprimer des lignes>Supprimer les lignes du haut sous l’onglet Accueil.

Supprimer des colonnes

Une étape essentielle du processus de mise en forme des données consiste à supprimer les colonnes non nécessaires.  Il est préférable de supprimer les colonnes le plus tôt possible. Une façon de supprimer des colonnes est d’ignorer des colonnes quand vous récupérez les données auprès de la source de données. Par exemple, si vous extrayez des données d’une base de données relationnelle en utilisant SQL, vous pouvez ignorer des colonnes en ne les plaçant pas dans la liste de colonnes de l’instruction SELECT.

Il est préférable de supprimer des colonnes le plus tôt possible dans le processus, en particulier quand vous avez établi des relations entre vos tables. La suppression des colonnes superflues vous aide à vous concentrer sur les données nécessaires, mais aussi à améliorer le niveau global de performance de vos modèles sémantiques et de vos rapports Power BI Desktop.

Examinez chaque colonne et demandez-vous si vous avez vraiment besoin des données qu’elle contient. Si vous ne prévoyez pas d’utiliser ces données dans un rapport, la colonne n’ajoute aucune valeur à votre modèle sémantique. Par conséquent, la colonne doit être supprimée.  Vous pouvez néanmoins toujours ajouter la colonne ultérieurement si vos besoins évoluent dans le temps.

Vous pouvez supprimer des colonnes de deux manières. La première méthode consiste à sélectionner les colonnes que vous voulez supprimer puis, sous l’onglet Accueil, à sélectionner Supprimer les colonnes.

Vous pouvez aussi sélectionner les colonnes que vous voulez conserver puis, sous l’onglet Accueil, sélectionner Supprimer les colonnes>Supprimer les autres colonnes.

Dépivoter les colonnes

Le dépivotement est une fonctionnalité pratique de Power BI. Vous pouvez utiliser cette fonctionnalité avec les données de n’importe quelle source de données, mais vous l’utiliserez le plus souvent lors de l’importation de données depuis Excel. L’exemple suivant montre un exemple de document Excel avec des données de ventes.

Bien que les données puissent initialement avoir du sens, il est difficile de créer un total de tous les ventes combinées de 2018 et 2019. Votre objectif est d’utiliser ces données dans Power BI avec trois colonnes : Month, Year et SalesAmount.

Quand vous importez les données dans Power Query, elle doit se présenter comme dans l’image suivante.

Ensuite, renommez la première colonne en Month. Cette colonne a été libellée de façon erronée, car cet en-tête dans Excel était un libellé pour les colonnes 2018 et 2019. Mettez en surbrillance les colonnes 2018 et 2019, sélectionnez l’onglet Transformer dans Power Query, puis sélectionnez Dépivoter.

Vous pouvez renommer la colonne Attribut en Year et la colonne Valeur en SalesAmount.

Le dépivotement simplifie ultérieurement le processus de création de mesures DAX sur les données. En effectuant ce processus, vous avez maintenant créé un moyen plus simple de segmenter les données avec les colonnes Year et Month.

Créer un tableau croisé dynamique des colonnes

Si les données que vous mettez en forme sont plates (c’est-à-dire si elles ont beaucoup de détails mais ne sont pas organisées ou regroupées de quelque façon que ce soit), l’absence de structure peut compliquer votre capacité à identifier des modèles dans les données.

Vous pouvez utiliser la fonctionnalité Pivoter la colonne pour convertir vos données plates en une table qui contient une valeur d’agrégation pour chaque valeur unique dans une colonne. Par exemple, vous pouvez utiliser cette fonctionnalité pour totaliser les données avec différentes fonctions mathématiques, comme Count (Nombre total), Minimum, Maximum, Median (Médiane), Average (Moyenne) ou Sum (Somme).

Dans l’exemple SalesTarget, vous pouvez pivoter les colonnes pour obtenir la quantité de sous-catégories de produits dans chaque catégorie de produit.

Sous l’onglet Transformer, sélectionnez Transformer et pivoter les colonnes.

Dans la fenêtre Pivoter la colonne qui s’affiche, sélectionnez une colonne dans la liste Colonne de valeurs, par exemple Nom de la sous-catégorie. Développez les options avancées et sélectionnez une option dans la liste Fonction de la valeur agrégée, comme Nombre (Tout), puis sélectionnez OK.

L’image suivante montre comment la fonctionnalité Pivoter la colonne change la façon dont les données sont organisées.

L’éditeur Power Query enregistre toutes les étapes effectuées pour mettre en forme vos données, et la liste des étapes est montrée dans le volet Paramètres de la requête. Si vous avez effectué toutes les modifications nécessaires, sélectionnez Fermer et appliquer pour fermer l’éditeur Power Query et appliquer vos modifications à votre modèle sémantique. Cependant, avant de sélectionner Fermer et appliquer, vous pouvez appliquer d’autres étapes pour nettoyer et transformer vos données dans l’Éditeur Power Query.  Ces étapes supplémentaires sont décrites plus loin dans ce module.