Fonctionnalités Premium des dataflows

Article
05/03/2024

Les dataflows sont pris en charge pour les utilisateurs Power BI Pro, Premium par utilisateur et Power BI Premium. Certaines fonctionnalités ne sont disponibles qu’avec un abonnement Power BI Premium (à savoir soit une capacité Premium soit une licence Premium par utilisateur (PPU)). Cet article décrit et détaille les fonctionnalités uniquement PPU et Premium et leurs utilisations.

Les fonctionnalités suivantes ne sont disponibles qu’avec Power BI Premium (licence Premium par utilisateur ou abonnement de capacité Premium) :

Moteur de calcul avancé
DirectQuery
Entités calculées
Entités liées
Actualisation incrémentielle

Les sections suivantes décrivent chacune de ces fonctionnalités en détail.

Important

Cet article s’applique à la première génération de flux de données (Gen1) et ne s’applique pas à la deuxième génération (Gen2) de flux de données, qui sont disponibles dans Microsoft Fabric (préversion). Pour plus d’informations, consultez Passer des flux de données de Génération 1 à des flux de Génération 2.

Le moteur de calcul amélioré

Le moteur de calcul amélioré dans Power BI permet aux abonnés Power BI Premium d’utiliser leur capacité pour optimiser l’utilisation des dataflows. L’utilisation du moteur de calcul amélioré offre les avantages suivants :

Elle réduit considérablement le temps d’actualisation nécessaires aux étapes ETL (extraction, transformation, chargement) de longue haleine sur des entités calculées, comme l’exécution de jointures, le calcul de distinctions, les filtres et les regroupements.
Effectue des requêtes DirectQuery sur des entités.

Notes

Les processus de validation et d’actualisation informent les dataflows du schéma du modèle. Pour définir vous-même le schéma des tables, utilisez l’éditeur Power Query et définissez les types de données.
Cette fonctionnalité est disponible sur tous les clusters Power BI, à l’exception de WABI-INDIA-CENTRAL-A-PRIMARY.

Activer le moteur de calcul amélioré

Important

Le moteur de calcul avancé fonctionne uniquement pour les capacités Power BI de niveau A3 et supérieur.

Dans Power BI Premium, le moteur de calcul avancé est défini individuellement pour chaque flux de données. Vous avez le choix entre trois configurations :

Désactivé
Optimisé (par défaut) - Le moteur de calcul amélioré est désactivé. Il est automatiquement activé quand une table dans le flux de données est référencée par une autre, ou quand le flux de données est connecté à un autre dans le même espace de travail.
Activé

Pour modifier le paramètre par défaut et activer le moteur de calcul avancé, procédez comme suit :

Dans votre espace de travail, à côté du flux de données dont vous souhaitez modifier les paramètres, sélectionnez Plus d’options.
Dans le menu Autres options du flux de données, sélectionnez Paramètres.
Développez Paramètres du moteur de calcul amélioré.
Dans Paramètres du moteur de calcul avancé, sélectionnez Activé, puis Appliquer.

Utiliser le moteur de calcul avancé

Une fois le moteur de calcul avancé activé, revenez aux flux de données. Vous devriez alors constater une amélioration des performances dans les tables calculées qui effectuent des opérations complexes, comme les jointures ou les regroupements pour les flux de données créés à partir des entités liées existantes de la même capacité.

Pour tirer le meilleur profit du moteur de calcul, divisez l’étape ETL en deux flux de données distincts dans le même espace de travail, de la manière suivante :

flux de données 1 : ce flux de données doit uniquement ingérer tout ce qui est nécessaire d’une source de données.
Dataflow 2 : effectuez toutes les opérations ETL dans ce second dataflow, mais vérifiez que vous référencez bien le dataflow 1, qui doit se trouver sur la même capacité. Veillez également à effectuer en premier lieu les opérations qui peuvent s’incorporer : filtrer, grouper par, distinguer, joindre). Et effectuez ces opérations avant toute autre, pour vous assurer que le moteur de calcul est utilisé.

Questions et réponses courantes

Question : J’ai activé le moteur de calcul amélioré, mais mes actualisations sont plus lentes. Pourquoi ?

Réponse : Si vous activez le moteur de calcul amélioré, deux explications peuvent justifier des temps d’actualisation plus lents :

Lorsque le moteur de calcul amélioré est activé, il requiert de la mémoire pour fonctionner correctement. Ainsi, la mémoire disponible pour effectuer une actualisation est réduite et augmente donc la probabilité qu’elle soit mise en file d’attente. Cette augmentation réduit à son tour le nombre de flux de données pouvant être actualisés simultanément. Pour résoudre ce problème, lorsque vous activez le calcul amélioré, répartissez les actualisations du flux de données dans le temps et déterminez si la taille de votre capacité est adéquate afin de vous assurer que les actualisations simultanées du flux de données disposent de mémoire.
Une autre raison pour laquelle vous pouvez rencontrer des actualisations plus lentes est que le moteur de calcul fonctionne uniquement sur les entités existantes. Si votre dataflow fait référence à une source de données qui n’est pas un dataflow, vous ne constaterez pas d’amélioration. Les performances ne s’améliorent pas car, dans certains scénarios Big Data, la lecture initiale d’une source de données est plus lente, puisque les données doivent être transmises au moteur de calcul avancé.

Question : Je ne vois pas la bascule du moteur de calcul avancé. Pourquoi ?

Réponse : Le moteur de calcul avancé est lancé par étapes dans les régions du monde entier, mais n’est pas encore disponible dans chaque région.

Question : Quels sont les types de données pris en charge pour le moteur de calcul ?

Réponse : Le moteur de calcul amélioré et les dataflows prennent actuellement en charge les types de données suivants. Si votre dataflow n’utilise pas l’un des types de données suivants, une erreur se produit lors de l’actualisation :

Date/heure
Nombre décimal
Texte
Nombre entier
Date/heure/fuseau horaire
Vrai/Faux
Date
Heure

Utiliser DirectQuery avec des flux de données dans Power BI

Vous pouvez utiliser DirectQuery pour vous connecter directement des dataflows, et ainsi vous connecter directement à votre dataflow sans devoir importer ses données.

L’utilisation de DirectQuery avec des dataflows apporte les améliorations suivantes à Power BI et à vos processus de dataflows :

Éviter les planifications d’actualisation distinctes : DirectQuery se connecte directement à un flux de données, ce qui élimine la nécessité de créer un modèle sémantique importé. Ainsi, l’utilisation de DirectQuery avec vos flux de données signifie que vous n’avez plus besoin de planifications d’actualisation distinctes pour le flux de données et pour le modèle sémantique pour garantir que vos données sont synchronisées.
Filtrage des données : DirectQuery est pratique pour travailler sur une vue filtrée des données au sein d’un dataflow. Vous pouvez utiliser DirectQuery avec le moteur de calcul pour filtrer des données de flux de données et utiliser le sous-ensemble filtré dont vous avez besoin. Le filtrage de données vous permet d’utiliser un sous-ensemble plus petit et plus gérable des données de votre flux de données.

Utiliser DirectQuery pour les flux de données

L’utilisation de DirectQuery avec des flux de données est disponible dans Power BI Desktop.

Il existe des prérequis à l’utilisation de DirectQuery avec des flux de données :

Votre flux de données doit se trouver dans un espace de travail activé pour Power BI Premium.
Le moteur de calcul doit être activé.

Pour en savoir plus sur DirectQuery avec des flux de données, consultez Utilisation de DirectQuery avec des flux de données.

Activer DirectQuery pour les dataflows

Pour garantir que votre flux de données est disponible pour un accès par DirectQuery, le moteur de calcul amélioré doit être dans son état optimisé. Pour activer DirectQuery pour les dataflows, définissez l’option Paramètres du moteur de calcul amélioré sur On.

Capture d’écran des paramètres du moteur de calcul avancé avec l’option Activé sélectionnée.

Une fois que vous avez appliqué ce paramètre, actualisez le flux de données pour que l’optimisation prenne effet.

Considérations et limitations concernant DirectQuery

DirectQuery et les dataflows présentent quelques limitations connues, à savoir :

Les modèles composites/mixtes qui ont des sources de données d’importation et DirectQuery ne sont pas pris en charge pour le moment.
Les grands flux de données peuvent rencontrer des problèmes de délai d’expiration lors de l’affichage des visualisations. Les dataflows volumineux qui rencontrent des problèmes de délai d’attente doivent utiliser le mode d’importation.
Sous paramètres de source de données, le connecteur de flux de données affiche des informations d’identification non valides si vous utilisez DirectQuery. Cet avertissement n’affecte pas le comportement, et le modèle sémantique fonctionnera correctement.
Lorsqu’un flux de données comporte 340 colonnes ou plus, l’utilisation du connecteur de flux de données dans Power BI Desktop avec le paramètre du moteur de calcul amélioré activé entraîne la désactivation de l’option DirectQuery pour le flux de données. Pour utiliser DirectQuery dans de telles configurations, utilisez moins de 340 colonnes.

Entités calculées

Vous pouvez effectuer des calculs dans le stockage lors de l’utilisation de flux de données avec un abonnement Power BI Premium. Cette fonctionnalité vous permet d’effectuer des calculs sur vos flux de données existants et de retourner des résultats qui vous permettent de vous concentrer sur la création et l’analyse de rapports.

Capture d’écran d’un Éditeur Power Query, mettant en évidence une table en cours de modification.

Pour effectuer des calculs dans le stockage , vous devez tout d’abord créer le flux de données et amener des données dans le stockage de flux de données Power BI. Une fois que vous avez un flux de données qui contient des données, vous pouvez créer des entités calculées, qui effectuent des calculs dans le stockage.

Considérations et limitations concernant les entités calculées

Quand vous utilisez les flux de données créés dans le compte Azure Data Lake Storage Gen2 d’une organisation, les entités liées et les entités calculées ne fonctionnent correctement que lorsque les entités résident dans le même compte de stockage.
Les entités calculées ne sont prises en charge qu’au sein d’un seul espace de travail.

Si vous avez besoin d’effectuer des calculs sur des données jointes par des données locales et cloud, la bonne pratique consiste à créer un dataflow pour chaque source (un pour les données locales et un pour les données cloud), puis à créer un troisième dataflow pour fusionner ces deux sources de données et/ou effectuer des calculs sur celles-ci.

Entités liées

Vous pouvez référencer des dataflows existants dans le même espace de travail à l’aide d’entités liées avec un abonnement Power BI Premium, ce qui vous permet d’effectuer des calculs sur ces entités à l’aide d’entités calculées ou de créer une « source unique de la vérité » que vous pouvez réutiliser dans plusieurs dataflows.

Actualisation incrémentielle

Les dataflows peuvent être configurés en vue d’une actualisation incrémentielle pour éviter d’avoir à extraire toutes les données à chaque actualisation. Pour ce faire, sélectionnez le flux de données, puis l’icône Actualisation incrémentielle.

Capture d’écran de la table dans un flux de données Power BI avec l’icône Actualisation incrémentielle mise en évidence.

Le fait de définir l’actualisation incrémentielle a pour effet d’ajouter des paramètres au dataflow pour spécifier la plage de dates. Pour plus d’informations sur la configuration de l’actualisation incrémentielle, consultez Utilisation d’une actualisation incrémentielle avec des flux de données.