Exporter vers une requête Hive
Important
Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.
À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.
- Consultez les informations sur le déplacement des projets de machine learning de ML Studio (classique) à Azure Machine Learning.
- En savoir plus sur Azure Machine Learning.
La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.
Notes
s’applique à: Machine Learning Studio (classic) uniquement
Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.
cet article explique comment utiliser l’option exporter des données vers Hive dans le module exporter des données dans Machine Learning Studio (classic). Cette option est utile lorsque vous travaillez avec des jeux de données très volumineux et que vous souhaitez enregistrer vos données d’expérimentation Machine Learning sur un cluster Hadoop ou un stockage distribué HDInsight. vous pouvez également exporter des résultats intermédiaires ou d’autres données vers Hadoop afin de pouvoir les traiter à l’aide d’un travail de MapReduce.
Comment exporter des données dans Hive
Ajoutez le module Exporter les données à votre expérience. vous pouvez trouver ce module dans la catégorie entrée et sortie de données dans Machine Learning Studio (classique).
Connecter le module au jeu de données que vous souhaitez exporter.
Pour source de données, sélectionnez requête Hive.
Pour nom de la table Hive , tapez le nom de la table Hive dans laquelle le DataSet doit être stocké.
Dans la zone de texte URI du serveur HCatalog , tapez le nom complet de votre cluster.
Par exemple, si vous avez créé un cluster portant le nom
mycluster001
, utilisez le format suivant :https://mycluster001.azurehdinsight.net
Dans la zone de texte nom du compte d’utilisateur Hadoop , collez le compte d’utilisateur Hadoop que vous avez utilisé lors de l’approvisionnement du cluster.
Dans la zone de texte mot de passe du compte d’utilisateur Hadoop , tapez les informations d’identification que vous avez utilisées lors de l’approvisionnement du cluster.
Pour l' emplacement des données de sortie, sélectionnez l’option qui indique où les données doivent être stockées : HDFS ou Azure.
Si les données se trouvent dans le système HDFS (Hadoop Distributed File System), elles doivent être accessibles par le biais du même compte et du même mot de passe que ceux que vous venez d’entrer.
Si les données sont dans Azure, indiquez l’emplacement et les informations d’identification du compte de stockage.
Si vous avez sélectionné l’option HDFS , pour l' URI du serveur HDFS, spécifiez le nom du cluster HDInsight sans le
https://
préfixe.Si vous avez sélectionné l’option Azure , indiquez le nom du compte de stockage et les informations d’identification que le module peut utiliser pour se connecter au stockage.
Nom du compte de stockage Azure: tapez le nom du compte Azure. Par exemple, si l’URL complète du compte de stockage est
https://myshared.blob.core.windows.net
, vous devez saisirmyshared
.Clé de stockage Azure: copiez et collez la clé fournie pour accéder au compte de stockage.
Nom du conteneur Azure: spécifiez le conteneur par défaut pour le cluster. Pour obtenir des conseils sur la façon de déterminer le conteneur par défaut, consultez la section Notes techniques .
Utiliser les résultats mis en cache: sélectionnez cette option si vous voulez éviter de réécrire la table Hive chaque fois que vous exécutez l’expérience. Si aucune autre modification n’est apportée aux paramètres de module, l’expérience écrit la table Hive uniquement la première fois que le module est exécuté, ou lorsque des modifications sont apportées aux données.
Si vous souhaitez écrire la table Hive à chaque exécution de l’expérience, désélectionnez l’option utiliser les résultats en cache .
Exécutez l’expérience.
Exemples
Pour obtenir des exemples d’utilisation du module exporter des données , consultez la Azure ai Gallery.
- Processus d’analyse avancée et technologie en action : utilisation de clusters Hadoop HDInsight: cet article fournit une procédure pas à pas détaillée sur la création d’un cluster, le téléchargement de données et l’appel de données à partir de Studio (Classic) à l’aide de Hive.
Notes techniques
Cette section contient des détails, des conseils et des réponses aux questions fréquentes concernant l’implémentation.
Questions courantes
Comment éviter les problèmes de mémoire insuffisante lors de l’écriture de jeux de données volumineux
parfois, la configuration par défaut du cluster Hadoop est trop limitée pour prendre en charge l’exécution du travail de MapReduce. Par exemple, dans ces notes de publication pour HDInsight, les paramètres par défaut sont définis en tant que cluster à quatre nœuds.
si les exigences du travail de MapReduce dépassent la capacité disponible, les requêtes Hive peuvent retourner un message d’erreur de mémoire insuffisante , ce qui provoque l’échec de l’opération d' exportation de données . Dans ce cas, vous pouvez modifier l’allocation de mémoire par défaut pour les requêtes Hive.
Comment éviter de recharger les mêmes données inutilement
Si vous ne souhaitez pas recréer la table Hive chaque fois que vous exécutez l’expérience, sélectionnez l’option utiliser les résultats en cache pour la valeur true. Lorsque cette option a la valeur TRUE, le module vérifie si l’expérience a été exécutée précédemment et, si une exécution précédente est trouvée, l’opération d’écriture n’est pas effectuée.
Conseils d’utilisation
Il peut être difficile de déterminer le conteneur par défaut du cluster. Voici quelques conseils :
Si vous avez créé votre cluster à l’aide des paramètres par défaut, un conteneur portant le même nom a été créé au moment de la création du cluster. Ce conteneur est le conteneur par défaut pour le cluster.
Si vous avez créé le cluster à l’aide de l’option création personnalisée , vous disposez de deux options pour sélectionner le conteneur par défaut.
Conteneur existant: Si vous avez sélectionné un conteneur existant, ce conteneur est le conteneur de stockage par défaut pour le cluster.
Créer un conteneur par défaut: Si vous avez sélectionné cette option, un conteneur portant le même nom que le cluster a été créé, et vous devez spécifier ce nom de conteneur comme conteneur par défaut pour le cluster.
Paramètres du module
Nom | Plage | Type | Default | Description |
---|---|---|---|---|
Source de données | Liste | Source ou récepteur de données | Stockage Blob Azure | La source de données peut être HTTP, FTP, HTTPS ou FTPS anonyme, un fichier dans le stockage d'objet Blob Azure, une table Azure, une base de données SQL Azure, une table Hive ou un point de terminaison OData. |
Nom de la table Hive | n'importe laquelle | String | aucun | Nom de la table dans Hive |
URI du serveur HCatalog | n'importe laquelle | String | aucun | Point de terminaison Templeton |
Nom du compte utilisateur Hadoop | n'importe laquelle | String | aucun | Hadoop HDFS/HDInsight nom d’utilisateur |
Mot de passe de compte utilisateur Hadoop | n'importe laquelle | SecureString | aucun | Hadoop HDFS/HDInsight mot de passe |
Emplacement des données de sortie | n'importe laquelle | DataLocation | HDFS | Spécifier HDFS ou Azure pour outputDir |
URI du serveur HDFS | n'importe laquelle | String | aucun | Point de terminaison REST HDFS |
Nom du compte de stockage Azure | n'importe laquelle | String | aucun | Nom du compte de stockage Azure |
Clé de stockage Azure | n'importe laquelle | SecureString | aucun | Clé de stockage Azure |
Nom du conteneur Azure | n'importe laquelle | String | aucun | Nom du conteneur Azure |
Utiliser les résultats mis en cache | TRUE/FALSE | Booléen | false | Le module s’exécute uniquement si le cache valide n’existe pas ; Sinon, utilisez les données mises en cache à partir de l’exécution précédente. |
Exceptions
Exception | Description |
---|---|
Erreur 0027 | Une exception se produit quand deux objets qui doivent avoir la même taille ne l'ont pas. |
Erreur 0003 | Une exception se produit si une ou plusieurs entrées ont la valeur Null ou sont vides. |
Erreur 0029 | Une exception se produit lorsqu'un URI non valide est passé. |
Erreur 0030 | Une exception se produit lorsqu'il n'est pas possible de télécharger un fichier. |
Erreur 0002 | Une exception se produit si un ou plusieurs paramètres n'ont pas pu être analysés ou convertis à partir du type spécifié dans le type requis par la méthode cible. |
Erreur 0009 | Une exception se produit si le nom du compte de stockage Azure ou le nom du conteneur est spécifié de manière incorrecte. |
Erreur 0048 | Une exception se produit quand il n'est pas possible d'ouvrir un fichier. |
Erreur 0046 | Une exception se produit quand il n'est pas possible de créer un répertoire sur le chemin d'accès spécifié. |
Erreur 0049 | Une exception se produit quand il n'est pas possible d'analyser un fichier. |
pour obtenir la liste des erreurs spécifiques aux modules Studio (classiques), consultez Machine Learning codes d’erreur.
pour obtenir la liste des exceptions d’api, consultez Machine Learning les Codes d’erreur de l' api REST.
Voir aussi
Importer des données
Exporter les données
Exporter vers Azure SQL Database
Exportation vers Stockage Blob Azure
Exporter vers Table Azure