Se connecter aux données avec Azure Machine Learning Studio
Cet article vous montre comment accéder à vos données avec Azure Machine Learning studio. Connectez-vous à vos données dans les services de stockage Azure grâce aux magasins de données Azure Machine Learning. Ensuite, empaquetez ces données pour les tâches de flux de travail ML grâce aux jeux de données Azure Machine Learning.
Ce tableau définit et récapitule les avantages des magasins de données et jeux de données.
Object | Description | Avantages |
---|---|---|
Magasins de données | Pour vous connecter en toute sécurité à votre service de stockage sur Azure, stockez vos informations de connexion (ID d’abonnement, autorisation de jeton, etc.) dans le Key Vault associé à l’espace de travail | Étant donné que vos informations sont stockées en toute sécurité, vous ne mettez pas en danger les identifiants d’authentification ni les sources de données d’origine, et vous n’avez plus besoin de coder en dur ces valeurs dans vos scripts |
Groupes de données | En créant un jeu de données, vous créez également une référence à l’emplacement de la source de données, ainsi qu’une copie de ses métadonnées. Les jeux de données vous permettent d’accéder aux données pendant l’entraînement du modèle, de partager des données et collaborer avec d’autres utilisateurs, et d’utiliser des bibliothèques open source, comme pandas, pour l’exploration des données. | Étant donné que les jeux de données sont évalués tardivement et que les données restent à leur emplacement existant, vous devez garder une copie unique des données dans votre stockage. De plus, vous n’entraînez aucun coût de stockage supplémentaire, vous évitez les modifications involontaires de vos sources de données d’origine et vous améliorez les vitesses de performance du flux de travail ML. |
Pour découvrir la place des magasins et jeux de données dans le flux de travail global d’accès aux données Azure Machine Learning, consultez l’article Accéder aux données en toute sécurité.
Pour plus d’informations sur le Kit de développement logiciel (SDK) Python Azure Machine Learning et pour une expérience avec un accent sur le code, consultez :
- Se connecter aux services de stockage Azure avec les magasins de données
- Créer des jeux de données Azure Machine Learning
Prérequis
Un abonnement Azure. Si vous n’avez pas d’abonnement Azure, créez un compte gratuit avant de commencer. Essayer la version gratuite ou payante d’Azure Machine Learning
Accéder à Azure Machine Learning studio
Un espace de travail Azure Machine Learning. Créer des ressources d’espace de travail
- Quand vous créez un espace de travail, un conteneur blob Azure et un partage de fichiers Azure sont inscrits automatiquement en tant que magasins de données dans l’espace de travail. sous les noms
workspaceblobstore
etworkspacefilestore
respectivement. Pour assurer suffisamment de ressources de stockage blob, leworkspaceblobstore
est défini en tant que magasin de stockage par défaut dont la configuration est déjà prête à l’utilisation. Si vous avez besoin d’autres ressources de stockage blob, il vous faudra un compte de stockage Azure avec un type de stockage pris en charge.
- Quand vous créez un espace de travail, un conteneur blob Azure et un partage de fichiers Azure sont inscrits automatiquement en tant que magasins de données dans l’espace de travail. sous les noms
Créer des magasins de données
Vous pouvez créer des magasins de données à partir de ces solutions de stockage Azure. Pour les solutions de stockage non prises en charge, et pour réduire le coût de sortie des données pendant les expériences de Machine Learning, vous devez déplacer vos données vers une solution de stockage Azure prise en charge. Pour plus d’informations sur les magasins de données, consultez cette ressource.
Vous pouvez créer des magasins de données avec un accès basé sur les informations d’identification ou un accès basé sur l’identité.
Créez un magasin de données avec Azure Machine Learning studio.
Important
Si votre compte de stockage de données se trouve sur un réseau virtuel, des étapes de configuration supplémentaires sont nécessaires pour assurer que le studio peut accéder à vos données. Consultez Isolement et confidentialité de réseau pour plus d’informations sur les étapes de configuration appropriées.
- Connectez-vous à Azure Machine Learning Studio.
- Dans le volet gauche, sous Ressources, sélectionnez Données.
- En haut, sélectionnez Magasins de données.
- Sélectionnez +Créer.
- Complétez le formulaire pour créer et inscrire un nouveau magasin de données. Le formulaire est mis à jour intelligemment en fonction du type de stockage Azure et du type d’authentification que vous sélectionnez. Pour plus d’informations sur l’emplacement des identifiants d’authentification requis pour remplir ce formulaire, consultez la section accès au stockage et autorisations.
Cette capture d’écran montre le panneau de création Magasin de données blob Azure :
Créer des ressources de données
Après avoir créé un magasin de données, créez un jeu de données pour interagir avec vos données. Les jeux de données intègrent vos données dans un objet consommable évalué tardivement pour les tâches de Machine Learning. Cela comprend par exemple la formation. Consultez Créer des jeux de données Azure Machine Learning pour plus d’informations à propos des jeux de données.
Il existe deux types de jeux de données : FileDataset et TabularDataset. Les FileDatasets créent des références à un ou plusieurs fichiers, ou à des URL publiques. Les TabularDatasets représentent vos données sous format tabulaire. Vous pouvez créer des TabularDatasets à partir de
- .csv
- .tsv
- .parquet
- fichiers .json et de résultats de requêtes SQL.
Les étapes suivantes montrent comment créer un jeu de données dans Azure Machine Learning Studio.
Notes
Les jeux de données créés via Azure Machine Learning Studio sont automatiquement inscrits auprès de l’espace de travail.
Accédez à Azure Machine Learning Studio
Sous Ressources dans le volet de navigation gauche, sélectionnez Données. Sous l’onglet Ressources de données, sélectionnez Créer
Donnez un nom et une description facultative à la ressource de données. Ensuite, sous Type, sélectionnez un type de jeu de données Fichier ou Tabulaire.
Le volet Source de données s’ouvre ensuite, tel qu’illustré dans cette capture d’écran :
Vous avez différentes options pour votre source de données. Pour des données déjà stockées dans Azure, choisissez « À partir du stockage Azure ». Pour charger des données à partir de votre disque local, choisissez « À partir de fichiers locaux ». Pour des données stockées dans un emplacement web public, choisissez « À partir de fichiers web ». Vous pouvez également créer une ressource de données à partir d’une base de données SQL ou d’Azure Open Datasets.
À l’étape de sélection des fichiers, sélectionnez l’emplacement où Azure doit stocker vos données, ainsi que les fichiers de données que vous souhaitez utiliser.
- Vous pouvez choisir d’ignorer la validation si vos données se trouvent dans un réseau virtuel. En savoir plus sur l’isolement et la confidentialité des réseaux virtuels.
Suivez les étapes pour définir les paramètres d’analyse des données et le schéma de votre ressource de données. Les paramètres sont préremplis en fonction du type de fichier et vous pouvez configurer davantage vos paramètres avant de créer la ressource de données.
Une fois que vous avez atteint l’étape de Révision, sélectionnez Créer sur la dernière page
Aperçu et profil des données
Après avoir créé votre jeu de données, vérifiez que vous pouvez visualiser l’aperçu et le profil dans le studio :
- Connectez-vous à Azure Machine Learning Studio.
- Dans le volet de navigation gauche, sous Ressources, sélectionnez Données.
- Sélectionnez le nom du jeu de données que vous souhaitez afficher.
- Sélectionnez l’onglet Explorer .
- Sélectionnez l’onglet Aperçu.
- Sélectionnez l’onglet Profil.
Vous pouvez utiliser des statistiques de synthèse sur tout votre jeu de données afin de vérifier si ce dernier est prêt pour le Machine Learning. Dans les colonnes non numériques, ces statistiques incluent uniquement des statistiques de base telles que min, max et le nombre d’erreurs. Les colonnes numériques proposent des moments statistiques ainsi que des estimations de quantiles.
Le profil des données du jeu de données Azure Machine Learning comprend :
Remarque
Les entrées vides apparaissent pour les fonctionnalités avec types non pertinents.
Statistique | Description |
---|---|
Fonctionnalité | Le résumé du nom de colonne |
Profile | Une visualisation en ligne selon le type déduit. Les chaînes, les valeurs booléennes et les dates ont des décomptes de valeurs. Les décimales (numériques) ont des histogrammes approximatifs. Ces visualisations offrent une compréhension rapide de la distribution des données |
Distribution des types | Nombre de valeurs en ligne de types au sein d’une colonne. Les valeurs null ont un type propre ; ainsi, cette visualisation est utile pour détecter les valeurs impaires ou manquantes |
Type | Type de colonne déduit. Les valeurs possibles incluent les chaînes, les valeurs booléennes, les dates et les décimales |
Min | Valeur minimale de la colonne. Les entrées vides apparaissent pour les fonctionnalités dont le type n’a pas d'ordre inhérent (par exemple, les valeurs booléennes) |
Max | Valeur maximale de la colonne. |
Count | Nombre total d’entrées manquantes et non manquantes de la colonne |
Non manquant | Nombre d’entrées dans la colonne qui ne sont pas manquantes. Les chaînes vides et les erreurs sont traitées en tant que valeurs et n’entrent donc pas dans le « Décompte non manquant ». |
Quantiles | Valeurs approximatives à chaque quantile pour donner une idée de la distribution des données |
Mean | Moyenne arithmétique ou moyenne ordinaire de la colonne |
Écart type | Mesure de la quantité de dispersion ou de variation des données de cette colonne |
Différence | Mesure de jusqu’où les données de cette colonne sont déployées par rapport à leur valeur moyenne |
Asymétrie | Mesure la différence entre les données de cette colonne et une distribution normale |
Kurtosis | Mesure le degré de kurtosis des données de cette colonne, par rapport à une distribution normale |
Accès et autorisations pour le stockage
Pour assurer que vous vous connectez en toute sécurité à votre service de stockage Azure, Azure Machine Learning exige que vous ayez l’autorisation d’accéder au stockage de données correspondant. Cet accès dépend des informations d’authentification utilisées pour inscrire le magasin de données.
Réseau virtuel
Si votre compte de stockage de données se trouve sur un réseau virtuel, des étapes de configuration supplémentaires sont nécessaires pour assurer qu’Azure Machine Learning puisse accéder à vos données. Pour vous assurer que les étapes de configuration appropriées sont appliquées lors de la création et de l’enregistrement de votre magasin de données, consultez Utiliser le studio Azure Machine Learning dans un réseau virtuel.
Validation de l’accès
Avertissement
L’accès entre locataires aux comptes de stockage n’est pas pris en charge. Si votre scénario a besoin d’un accès interlocataire, veuillez contacter l’alias de l’Équipe de support des données Azure Machine Learning à l’adresse amldatasupport@microsoft.com pour obtenir de l’aide sur une solution de code personnalisée.
Dans le cadre du processus de création et d’inscription du magasin de données initial, Azure Machine Learning vérifie automatiquement que le service de stockage sous-jacent existe et que le principal fourni par l’utilisateur (nom d’utilisateur, principal de service ou jeton SAS) ait un accès au stockage spécifié.
Après la création du magasin de données, cette validation est effectuée uniquement pour les méthodes qui requièrent un accès au conteneur de stockage sous-jacent. La validation n’est pas effectuée à chaque fois que les objets de magasin de données sont récupérés. Par exemple, la validation se produit lorsque vous souhaitez télécharger des fichiers à partir de votre magasin de données. Toutefois, si vous souhaitez modifier votre magasin de données par défaut, la validation ne se produit pas.
Pour authentifier votre accès au service de stockage sous-jacent, vous devez fournir votre clé de compte, des jetons de signatures d’accès partagé (SAS) ou le principal de service, selon le type de magasin de données que vous souhaitez créer. La matrice de types de stockage répertorie les types d’authentification pris en charge qui correspondent à chaque type de magasin de données.
Vous trouverez des informations sur la clé de compte, le jeton SAS et le principal de service à votre portail Azure.
Pour obtenir une clé de compte pour l’authentification, sélectionnez Comptes de stockage dans le volet gauche, puis choisissez le compte de stockage que vous souhaitez inscrire
- La page Vue d’ensemble fournit des informations telles que le nom du compte, le conteneur et le nom du partage de fichiers.
- Développez le nœud Sécurité + mise en réseau dans le volet de navigation gauche
- Sélectionnez Clés d’accès.
- Les valeurs de clé disponibles servent de valeurs de Clé de compte
Afin d’obtenir un jeton SAS pour l’authentification, sélectionnez Comptes de stockage dans le volet gauche, puis choisissez le compte de stockage voulu
- Pour obtenir une valeur de Clé d'accès, développez le nœud Sécurité + mise en réseau dans le volet de navigation gauche
- Sélectionner Signature d’accès partagé
- Terminer le processus pour générer la valeur SAS
Afin d’utiliser un principal de service pour l’authentification, accédez à vos Inscriptions d’applications et sélectionnez l’application que vous souhaitez utiliser.
- Sa page Vue d’ensemble correspondante contient des informations requises, dont l’ID de locataire et l’ID de client.
Important
- Pour changer vos clés d’accès pour un compte de stockage Azure (clé de compte ou jeton SAS), veillez à synchroniser les nouveaux identifiants avec votre espace de travail et avec les magasins de données qui y sont connectés. Pour plus d’informations, consulter synchroniser vos informations d’identification mises à jour.
- Si vous désinscrivez puis réinscrivez un magasin de données portant le même nom et que la réinscription échoue, il se peut que le compte Azure Key Vault de votre espace de travail ne soit pas doté de la suppression réversible. Par défaut, la suppression réversible est activée pour l’instance de coffre de clés créée par votre espace de travail, mais elle peut ne pas l’être si vous avez utilisé un coffre de clés existant ou si votre espace de travail a été créé avant octobre 2020. Pour plus d’informations à propos de l’activation de la suppression réversible, consultez Activer la suppression réversible pour un coffre de clés existant.
autorisations
Pour le conteneur de blobs Azure et le stockage Azure Data Lake Gen2, assurez-vous que vos informations d’authentification vous donnent un accès Lecteur des données blob du stockage. En savoir plus sur le Lecteur des données blob du stockage. Par défaut, un jeton SAS de compte ne dispose d'aucune autorisation.
Pour l’accès en lecture aux données, vos informations d’authentification doivent au minimum disposer d’autorisations de liste et de lecture pour les conteneurs et les objets.
Pour l’accès en écriture aux données, des autorisations d’écriture et d’ajout sont également requises.
Entraîner avec des jeux de données
Utilisez vos jeux de données dans vos expériences d’apprentissage automatique pour la formation de modèles ML. Découvrez-en plus sur l’entraînement avec des jeux de données.
Étapes suivantes
Exemple pas à pas de formation avec des TabularDatasets et le Machine Learning automatisé
Pour obtenir plus d’exemples d’apprentissage de jeux de données, voir les exemples de notebooks