Orchestrer l’exécution de notebooks de solutions de données de santé (version préliminaire) à l’aide de pipelines Fabric
[Cet article fait partie de la documentation en version préliminaire et peut faire l’objet de modifications.]
Les notebooks Fabric s’appuient sur la commande magique de gestion de bibliothèque %pip pour intégrer les fichiers Wheel (WHL) dans une session Spark. Cette opération n’est actuellement pas pris en charge dans le pipeline Fabric. Par conséquent, vous ne pouvez pas ajouter les notebooks en tant qu’activités à un pipeline Fabric ou automatiser l’exécution des notebooks. Pour en savoir plus sur les commandes magiques de Fabric, consultez Commandes magiques dans un notebook.
Cependant, vous pouvez toujours utiliser les pipelines Fabric pour orchestrer manuellement l’exécution des notebooks. Cet article montre comment effectuer cette configuration. Cela inclut les étapes suivantes :
- Configurer les prérequis
- Configurer un environnement Fabric
- Mettre à jour les paramètres de l’espace de travail
- Mettre à jour les blocs-notes
- Créer un pipeline d’orchestration
Configurer les prérequis
Pour accéder à vos données Fabric localement, téléchargez, installez et configurez l’explorateur de fichiers OneLake. Sinon, vous pouvez également utiliser l’Explorateur Stockage Azure pour accéder à vos données Fabric.
Configurer un environnement Fabric
Utilisons les conseils de la section Créer, configurer et utiliser un environnement dans Microsoft Fabric pour télécharger les fichiers dans le pool Spark de l’espace de travail.
Dans le sélecteur d’expérience de votre environnement Fabric, sélectionnez Engineering données.
Sur la page d’accueil Engineering données, sélectionnez la vignette Environnement pour créer un nouvel environnement.
Dans l’environnement récemment créé, définissez la valeur Runtime sur 1.2 (Spark 3.4, Delta 2.4).
Dans le menu de navigation, sélectionnez Bibliothèques personnalisées, puis sélectionnez Télécharger.
Utilisez l’explorateur de fichiers OneLake ou l’explorateur Stockage Azure pour accéder au chemin de dossier suivant dans votre espace de travail :
<workspace-name>/healthcare#.HealthDataManager/DMHConfiguration/_internal/packages
Téléchargez les fichiers de six roues suivants :
Accédez aux Bibliothèques publiques et ajoutez les packages suivants à partir de la source de la bibliothèque publique PyPI :
- azure-ai-textanalytics, version 5.3.0b2
- opencensus-ext-azure, version 1.1.9
- typing-extensions, version 4.8.0
Note
Si vous copiez et collez les valeurs, vous risquez parfois d’ajouter des caractères masqués qui vous empêchent d’ajouter les bibliothèques de flux. Pour éviter ce problème, commencez à saisir les noms pour obtenir une liste de saisie semi-automatique.
Cliquez sur le bouton Enregistrer, puis sélectionnez Publier pour appliquer les modifications. La publication peut prendre quelques minutes.
Mettre à jour les paramètres de l’espace de travail
Une fois les modifications de la bibliothèque publiées, suivez ces étapes pour mettre à jour les paramètres de l’espace de travail :
Accédez à votre espace de travail Solutions de données de santé (version préliminaire) et sélectionnez Paramètres de l’espace de travail.
Sur la page des paramètres de l’espace de travail, développez la zone déroulante Engineering données/Science et sélectionnez Paramètres Spark.
Dans l’onglet Environnement, faites glisser le bouton Définir l’environnement par défaut sur Activé.
Dans la liste déroulante de l’espace de travail, sélectionnez l’environnement que vous avez créé précédemment.
Sélectionnez Enregistrer.
Mettre à jour les notebooks
Après avoir configuré l’environnement Fabric et téléchargé les fichiers de roue, vous pouvez maintenant mettre à jour la configuration du notebook. Commentez la première cellule %run et la première cellule %pip install dans les notebooks suivants. Vous pouvez voir la totalité ou seulement un sous-ensemble de ces notebooks, en fonction des fonctionnalités déployées dans votre environnement :
- healthcare#_msft_fhir_export_service
- healthcare#_msft_raw_bronze_ingestion
- healthcare#_msft_bronze_silver_flatten
- healthcare#_msft_silver_ta4h
- healthcare#_msft_silver_omop
- healthcare#_msft_silver_ci_gold_flatten
Utilisez le caractère # pour commenter les cellules. Prenons un exemple :
Remarque
Le notebook healthcare#_msft_silver_omop contient deux cellules %pip install supplémentaires que vous devez commenter.
Ce pipeline d’exécution n’inclut pas actuellement les notebooks d’ingestion des données DICOM.
Créer un pipeline d’orchestration
Après avoir modifié les notebooks, vous pouvez désormais créer un pipeline Fabric pour orchestrer leur exécution.
Depuis le commutateur d’expérience Fabric, sélectionnez Engineering données.
Sélectionnez la vignette Pipeline de donnéespour créer un pipeline. Cette action crée un pipeline de données vide.
Ajoutez les notebooks des solutions de données de santé (version préliminaire) en tant qu’activités à ce pipeline. Pour obtenir des instructions, consultez Transformer les données en exécutant un notebook.
Lorsque vous ajoutez les notebooks en tant qu’activités, ils s’exécutent dans l’ordre suivant, selon que vous choisissez d’installer ou non la fonctionnalité correspondante :
- Healthcare#_msft_fhir_export_service (obligatoire uniquement si vous devez exporter des données FHIR depuis votre service FHIR)
- healthcare#_msft_raw_bronze_ingestion (obligatoire)
- healthcare#_msft_bronze_silver_flatten (obligatoire)
- healthcare#_msft_silver_ta4h (obligatoire uniquement si vous devez traiter les données non structurées)
- healthcare#_msft_silver_omop (obligatoire uniquement si vous avez installé la fonctionnalité Analyse OMOP)
- healthcare#_msft_silver_ci_gold_flatten (obligatoire uniquement si vous avez installé la fonctionnalité Préparation Dynamics 365 Customer Insights - Data)