Exporter vers une requête Hive

Article
05/06/2019

Important

Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.

À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.

Consultez les informations sur le déplacement des projets de machine learning de ML Studio (classique) à Azure Machine Learning.
En savoir plus sur Azure Machine Learning.

La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.

Notes

s’applique à: Machine Learning Studio (classic) uniquement

Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.

cet article explique comment utiliser l’option exporter des données vers Hive dans le module exporter des données dans Machine Learning Studio (classic). Cette option est utile lorsque vous travaillez avec des jeux de données très volumineux et que vous souhaitez enregistrer vos données d’expérimentation Machine Learning sur un cluster Hadoop ou un stockage distribué HDInsight. vous pouvez également exporter des résultats intermédiaires ou d’autres données vers Hadoop afin de pouvoir les traiter à l’aide d’un travail de MapReduce.

Comment exporter des données dans Hive

Ajoutez le module Exporter les données à votre expérience. vous pouvez trouver ce module dans la catégorie entrée et sortie de données dans Machine Learning Studio (classique).

Connecter le module au jeu de données que vous souhaitez exporter.
Pour source de données, sélectionnez requête Hive.
Pour nom de la table Hive , tapez le nom de la table Hive dans laquelle le DataSet doit être stocké.
Dans la zone de texte URI du serveur HCatalog , tapez le nom complet de votre cluster.

Par exemple, si vous avez créé un cluster portant le nom mycluster001 , utilisez le format suivant :

https://mycluster001.azurehdinsight.net
Dans la zone de texte nom du compte d’utilisateur Hadoop , collez le compte d’utilisateur Hadoop que vous avez utilisé lors de l’approvisionnement du cluster.
Dans la zone de texte mot de passe du compte d’utilisateur Hadoop , tapez les informations d’identification que vous avez utilisées lors de l’approvisionnement du cluster.
Pour l' emplacement des données de sortie, sélectionnez l’option qui indique où les données doivent être stockées : HDFS ou Azure.

Si les données se trouvent dans le système HDFS (Hadoop Distributed File System), elles doivent être accessibles par le biais du même compte et du même mot de passe que ceux que vous venez d’entrer.

Si les données sont dans Azure, indiquez l’emplacement et les informations d’identification du compte de stockage.
Si vous avez sélectionné l’option HDFS , pour l' URI du serveur HDFS, spécifiez le nom du cluster HDInsight sans le https:// préfixe.
Si vous avez sélectionné l’option Azure , indiquez le nom du compte de stockage et les informations d’identification que le module peut utiliser pour se connecter au stockage.
- Nom du compte de stockage Azure: tapez le nom du compte Azure. Par exemple, si l’URL complète du compte de stockage est https://myshared.blob.core.windows.net, vous devez saisir myshared.
- Clé de stockage Azure: copiez et collez la clé fournie pour accéder au compte de stockage.
- Nom du conteneur Azure: spécifiez le conteneur par défaut pour le cluster. Pour obtenir des conseils sur la façon de déterminer le conteneur par défaut, consultez la section Notes techniques .
Utiliser les résultats mis en cache: sélectionnez cette option si vous voulez éviter de réécrire la table Hive chaque fois que vous exécutez l’expérience. Si aucune autre modification n’est apportée aux paramètres de module, l’expérience écrit la table Hive uniquement la première fois que le module est exécuté, ou lorsque des modifications sont apportées aux données.

Si vous souhaitez écrire la table Hive à chaque exécution de l’expérience, désélectionnez l’option utiliser les résultats en cache .
Exécutez l’expérience.

Exemples

Pour obtenir des exemples d’utilisation du module exporter des données , consultez la Azure ai Gallery.

Processus d’analyse avancée et technologie en action : utilisation de clusters Hadoop HDInsight: cet article fournit une procédure pas à pas détaillée sur la création d’un cluster, le téléchargement de données et l’appel de données à partir de Studio (Classic) à l’aide de Hive.

Notes techniques

Cette section contient des détails, des conseils et des réponses aux questions fréquentes concernant l’implémentation.

Questions courantes

Comment éviter les problèmes de mémoire insuffisante lors de l’écriture de jeux de données volumineux

parfois, la configuration par défaut du cluster Hadoop est trop limitée pour prendre en charge l’exécution du travail de MapReduce. Par exemple, dans ces notes de publication pour HDInsight, les paramètres par défaut sont définis en tant que cluster à quatre nœuds.

si les exigences du travail de MapReduce dépassent la capacité disponible, les requêtes Hive peuvent retourner un message d’erreur de mémoire insuffisante , ce qui provoque l’échec de l’opération d' exportation de données . Dans ce cas, vous pouvez modifier l’allocation de mémoire par défaut pour les requêtes Hive.

Comment éviter de recharger les mêmes données inutilement

Si vous ne souhaitez pas recréer la table Hive chaque fois que vous exécutez l’expérience, sélectionnez l’option utiliser les résultats en cache pour la valeur true. Lorsque cette option a la valeur TRUE, le module vérifie si l’expérience a été exécutée précédemment et, si une exécution précédente est trouvée, l’opération d’écriture n’est pas effectuée.

Conseils d’utilisation

Il peut être difficile de déterminer le conteneur par défaut du cluster. Voici quelques conseils :

Si vous avez créé votre cluster à l’aide des paramètres par défaut, un conteneur portant le même nom a été créé au moment de la création du cluster. Ce conteneur est le conteneur par défaut pour le cluster.
Si vous avez créé le cluster à l’aide de l’option création personnalisée , vous disposez de deux options pour sélectionner le conteneur par défaut.

Conteneur existant: Si vous avez sélectionné un conteneur existant, ce conteneur est le conteneur de stockage par défaut pour le cluster.

Créer un conteneur par défaut: Si vous avez sélectionné cette option, un conteneur portant le même nom que le cluster a été créé, et vous devez spécifier ce nom de conteneur comme conteneur par défaut pour le cluster.

Paramètres du module

Nom	Plage	Type	Default	Description
Source de données	Liste	Source ou récepteur de données	Stockage Blob Azure	La source de données peut être HTTP, FTP, HTTPS ou FTPS anonyme, un fichier dans le stockage d'objet Blob Azure, une table Azure, une base de données SQL Azure, une table Hive ou un point de terminaison OData.
Nom de la table Hive	n'importe laquelle	String	aucun	Nom de la table dans Hive
URI du serveur HCatalog	n'importe laquelle	String	aucun	Point de terminaison Templeton
Nom du compte utilisateur Hadoop	n'importe laquelle	String	aucun	Hadoop HDFS/HDInsight nom d’utilisateur
Mot de passe de compte utilisateur Hadoop	n'importe laquelle	SecureString	aucun	Hadoop HDFS/HDInsight mot de passe
Emplacement des données de sortie	n'importe laquelle	DataLocation	HDFS	Spécifier HDFS ou Azure pour outputDir
URI du serveur HDFS	n'importe laquelle	String	aucun	Point de terminaison REST HDFS
Nom du compte de stockage Azure	n'importe laquelle	String	aucun	Nom du compte de stockage Azure
Clé de stockage Azure	n'importe laquelle	SecureString	aucun	Clé de stockage Azure
Nom du conteneur Azure	n'importe laquelle	String	aucun	Nom du conteneur Azure
Utiliser les résultats mis en cache	TRUE/FALSE	Booléen	false	Le module s’exécute uniquement si le cache valide n’existe pas ; Sinon, utilisez les données mises en cache à partir de l’exécution précédente.

Exceptions

Exception	Description
Erreur 0027	Une exception se produit quand deux objets qui doivent avoir la même taille ne l'ont pas.
Erreur 0003	Une exception se produit si une ou plusieurs entrées ont la valeur Null ou sont vides.
Erreur 0029	Une exception se produit lorsqu'un URI non valide est passé.
Erreur 0030	Une exception se produit lorsqu'il n'est pas possible de télécharger un fichier.
Erreur 0002	Une exception se produit si un ou plusieurs paramètres n'ont pas pu être analysés ou convertis à partir du type spécifié dans le type requis par la méthode cible.
Erreur 0009	Une exception se produit si le nom du compte de stockage Azure ou le nom du conteneur est spécifié de manière incorrecte.
Erreur 0048	Une exception se produit quand il n'est pas possible d'ouvrir un fichier.
Erreur 0046	Une exception se produit quand il n'est pas possible de créer un répertoire sur le chemin d'accès spécifié.
Erreur 0049	Une exception se produit quand il n'est pas possible d'analyser un fichier.

pour obtenir la liste des erreurs spécifiques aux modules Studio (classiques), consultez Machine Learning codes d’erreur.

pour obtenir la liste des exceptions d’api, consultez Machine Learning les Codes d’erreur de l' api REST.

Voir aussi

Importer des données
Exporter les données
Exporter vers Azure SQL Database
Exportation vers Stockage Blob Azure
Exporter vers Table Azure

Partager via