Partager via


Guide pratique pour monter S3 pour la hiérarchisation HDFS dans un cluster Big Data

Les sections suivantes fournissent un exemple de configuration de la hiérarchisation HDFS avec une source de données de stockage S3.

Important

Le module complémentaire Clusters Big Data Microsoft SQL Server 2019 sera mis hors service. La prise en charge de la plateforme Clusters Big Data Microsoft SQL Server 2019 se terminera le 28 février 2025. Tous les utilisateurs existants de SQL Server 2019 avec Software Assurance seront entièrement pris en charge sur la plateforme, et le logiciel continuera à être maintenu par les mises à jour cumulatives SQL Server jusqu’à ce moment-là. Pour plus d’informations, consultez le billet de blog d’annonce et les Options Big Data sur la plateforme Microsoft SQL Server.

Prérequis

  • Cluster Big Data déployé
  • Outils Big Data
    • azdata
    • kubectl
  • Créer et charger des données dans un compartiment S3
    • Chargez des fichiers CSV ou Parquet dans votre compartiment S3. Il s’agit de données HDFS externes qui vont être montées sur HDFS dans le cluster Big Data.

Clés d'accès

Définir la variable d’environnement pour les informations d’identification de la clé d’accès

Ouvrez une invite de commandes sur une machine client pouvant accéder à votre cluster Big Data. Définissez une variable d’environnement au format suivant. Les informations d’identification doivent figurer dans une liste de valeurs séparées par des virgules. La commande « set » est utilisée sur Windows. Si vous êtes sur Linux, utilisez « export » à la place.

 set MOUNT_CREDENTIALS=fs.s3a.access.key=<Access Key ID of the key>,
 fs.s3a.secret.key=<Secret Access Key of the key>

Conseil

Pour plus d’informations sur la création de clés d’accès S3, consultez clés d’accès S3.

Monter le stockage HDFS distant

Une fois que vous avez préparé un fichier d’informations d’identification avec les clés d’accès, vous pouvez commencer le montage. Les étapes suivantes permettent de monter le stockage HDFS distant dans S3 vers le stockage HDFS local de votre cluster Big Data.

  1. Utilisez kubectl pour rechercher l’adresse IP du service controller-svc-external du point de terminaison dans votre cluster Big Data. Recherchez External-IP.

    kubectl get svc controller-svc-external -n <your-big-data-cluster-name>
    
  2. Connectez-vous à azdata en utilisant l’adresse IP externe du point de terminaison du contrôleur ainsi que votre nom d’utilisateur et votre mot de passe de cluster :

    azdata login -e https://<IP-of-controller-svc-external>:30080/
    
  3. Définissez la variable d’environnement MOUNT_CREDENTIALS en suivant les instructions ci-dessus

  4. Montez le stockage HDFS distant dans Azure en utilisant azdata bdc hdfs mount create. Remplacez les valeurs d’espace réservé avant d’exécuter la commande suivante :

    azdata bdc hdfs mount create --remote-uri s3a://<S3 bucket name> --mount-path /mounts/<mount-name>
    

    Notes

    La commande créer un montage est asynchrone. À ce stade, aucun message n’indique si le montage a réussi. Consultez la section état pour vérifier l’état de vos montages.

Si le montage a été correctement effectué, vous devez pouvoir interroger les données HDFS et exécuter des tâches Spark sur ces dernières. Il apparaît dans le stockage HDFS de votre cluster Big Data à l’emplacement spécifié par --mount-path.

Obtenir l’état des montages

Pour répertorier l’état de tous les montages de votre cluster Big Data, utilisez la commande suivante :

azdata bdc hdfs mount status

Pour répertorier l’état d’un montage situé sur un chemin spécifique dans HDFS, utilisez la commande suivante :

azdata bdc hdfs mount status --mount-path <mount-path-in-hdfs>

Actualiser un montage

L’exemple suivant actualise le montage.

azdata bdc hdfs mount refresh --mount-path <mount-path-in-hdfs>

Supprimer le montage

Pour supprimer le montage, utilisez la commande azdata bdc hdfs mount delete et spécifiez le chemin de montage dans HDFS :

azdata bdc hdfs mount delete --mount-path <mount-path-in-hdfs>