Démarrage rapide : Configurer la machine virtuelle Science des données pour Linux (Ubuntu)
Démarrez avec l’instance Ubuntu 20.04 Data Science Virtual Machine (DSVM) et Azure DSVM pour PyTorch.
Prérequis
Pour créer une instance Data Science Virtual Machine Ubuntu 20.04 ou Azure DSVM pour PyTorch, vous devez avoir un abonnement Azure. Essayez Azure gratuitement.
Les comptes gratuits Azure ne prennent pas en charge les références SKU de machine virtuelle compatibles GPU.
Créer une machine virtuelle pour la science des données pour Linux
Pour créer une instance du DSVM Ubuntu 20.04 ou du DSVM Azure pour PyTorch :
Accédez au portail Azure. Vous recevrez peut-être une invite pour vous connecter à votre compte Azure si vous ne vous êtes pas encore connecté.
Recherchez la liste des machines virtuelles en entrant machine virtuelle de science des données. Puis sélectionnez Data Science Virtual Machine : Ubuntu 20.04 ou Azure DSVM pour PyTorch.
Sélectionnez Créer.
Dans le volet Créer une machine virtuelle, remplissez l'onglet Bases :
Abonnement : Si vous avez plusieurs abonnements, sélectionnez celui sur lequel la machine est créée et facturée. Vous devez disposer des privilèges de création de ressources pour cet abonnement.
Groupe de ressources : Créez un groupe ou sélectionnez-en un.
Nom de la machine virtuelle: entrez le nom de la machine virtuelle. Ce nom est utilisé dans votre portail Microsoft Azure.
Région : Sélectionnez le centre de données qui convient le mieux. Pour un accès réseau le plus rapide, le centre de données qui héberge la plupart de vos données ou qui est le plus proche de votre emplacement physique est le meilleur choix. Pour plus d’informations, visitez les régions Azure.
Image : ne modifiez pas la valeur par défaut.
Taille: cette option doit se remplir automatiquement avec une taille appropriée pour les charges de travail générales. Pour plus d’informations, visitez Tailles des machines virtuelles Linux dans Azure.
Type d’authentification : pour une configuration plus rapide, sélectionnez Mot de passe.
Remarque
Si vous prévoyez d'utiliser JupyterHub, assurez-vous de sélectionner Mot de passe, car JupyterHub n'est pas configuré pour utiliser les clés publiques du protocole Secure Shell (SSH).
Nom d’utilisateur : Entrez le nom d’utilisateur de l’administrateur. Vous utilisez ce nom d’utilisateur pour vous connecter à votre machine virtuelle. Il n’a pas besoin de correspondre à votre nom d’utilisateur Azure. N'utilisez pas de lettres majuscules.
Important
Si vous utilisez des lettres majuscules dans votre nom d’utilisateur, JupyterHub ne fonctionnera pas et vous rencontrerez une erreur 500 interne au serveur.
Mot de passe: entrez le mot de passe que vous prévoyez d’utiliser pour vous connecter à votre machine virtuelle.
Sélectionnez Revoir + créer.
Dans le volet Vérifier + créer :
- Vérifiez que toutes les informations que vous avez saisies sont correctes.
- Sélectionnez Créer.
Le processus d'approvisionnement prend environ 5 minutes. Vous pouvez afficher l’état de votre machine virtuelle dans le Portail Microsoft Azure.
Accéder à la machine virtuelle Data Science Virtual Machine Ubuntu
Vous pouvez accéder à la machine DSVM Ubuntu de l’une des quatre manières suivantes:
- SSH pour les sessions Terminal Server
- xrdp pour les sessions graphiques
- X2Go pour les sessions graphiques
- JupyterHub et JupyterLab pour les blocs-notes Jupyter
SSH
Si vous avez configuré votre machine virtuelle avec l’authentification SSH, vous pouvez vous connecter à l’aide des informations d’identification de compte que vous avez créées dans la section Paramètres de base de l’étape 4 pour l’interface d’interpréteur de commandes texte. Pour plus d’informations, consultez En savoir plus sur la connexion à une machine virtuelle Linux.
xrdp
L’outil standard permettant d’accéder aux sessions graphiques Linux est xrdp. Bien que la distribution n’inclut pas cet outil par défaut, ces instructions expliquent comment l’installer.
X2Go
Remarque
Lors de tests, le client X2Go a obtenu de meilleures performances que le transfert X11. Nous recommandons d’utiliser le client X2Go pour une interface de bureau graphique.
La machine virtuelle Linux est déjà provisionnée avec le serveur X2Go et prête à accepter les connexions clientes. Pour vous connecter au bureau graphique de la machine virtuelle Linux, effectuez les procédures suivantes sur votre client :
Téléchargez et installez le client X2Go pour votre plateforme cliente sur X2Go.
Notez l’adresse IP publique de la machine virtuelle. Dans le Portail Microsoft Azure, ouvrez la machine virtuelle que vous avez créée pour trouver ces informations.
Exécutez le client X2Go. Si le volet Nouvelle session ne s'ouvre pas automatiquement, sélectionnez Session>Nouvelle session.
Dans le volet de configuration obtenue, entrez ces paramètres de configuration :
- Session:
- Host : entrez l’adresse IP de votre machine virtuelle, que vous avez notée précédemment.
- Connexion : Entrez le nom d’utilisateur dans la machine virtuelle Linux.
- Port SSH : conservez la valeur par défaut 22.
- Session type : remplacez la valeur par XFCE. La machine virtuelle Linux prend uniquement en charge l’environnement de bureau XFCE.
- Média : vous pouvez désactiver l’impression client et la prise en charge du son si vous n’en avez pas besoin.
- Fichiers partagés : utilisez cet onglet pour ajouter le répertoire de l’ordinateur client que vous voulez monter sur la machine virtuelle.
- Session:
Cliquez sur OK.
Pour afficher le volet de connexion de votre machine virtuelle, sélectionnez la case dans le volet droit du volet X2Go.
Entrez le mot de passe de votre machine virtuelle.
Cliquez sur OK.
Vous devrez peut-être accorder à X2Go l’autorisation de contourner votre pare-feu pour terminer le processus de connexion.
Vous devez maintenant voir l’interface graphique de votre machine DSVM Ubuntu.
JupyterHub et JupyterLab
La machine DSVM Ubuntu exécute JupyterHub, qui est un serveur multi-utilisateur Jupyter. Pour vous connecter aux données, procédez comme suit :
Notez l’adresse IP publique de votre machine virtuelle. Pour trouver cette valeur, recherchez et sélectionnez votre machine virtuelle dans le Portail Microsoft Azure, comme illustré dans cette capture d’écran.
À partir de votre ordinateur local, ouvrez un navigateur web et accédez à
https://your-vm-ip:8000
. Remplacez votre adresse IP par l’adresse IP que vous avez notée précédemment.Votre navigateur vous empêchera probablement d’ouvrir le volet directement. Cela peut vous indiquer qu’il existe une erreur de certificat. La DSVM fournit une sécurité avec un certificat auto-signé. La plupart des navigateurs vous permettent de cliquer après cet avertissement. De nombreux navigateurs maintiennent un genre d’avertissement visuel par rapport au certificat tout au long de votre session web.
Si vous voyez le message d'erreur
ERR_EMPTY_RESPONSE
dans votre navigateur, assurez-vous d'accéder à la machine en utilisant explicitement le protocole HTTPS. HTTP ou simplement l’adresse web ne fonctionne pas pour cette étape. Si vous entrez l'adresse Web sanshttps://
dans la ligne d'adresse, la plupart des navigateurs utilisent par défauthttp
et l'erreur apparaîtra.Entrez le nom d’utilisateur et le mot de passe que vous avez utilisés pour créer la machine virtuelle, puis connectez-vous, comme illustré dans cette capture d’écran.
Si vous recevez une erreur 500 à ce stade, vous avez probablement utilisé des majuscules dans votre nom d'utilisateur. Ce problème est une interaction connue entre JupyterHub et le module authentificateur PAM qu’il utilise.
Si vous recevez une erreur Impossible d'accéder à cette page, il est probable que les autorisations de votre groupe de sécurité réseau (NSG) doivent être ajustées. Dans le Portail Microsoft Azure, recherchez la ressource NSG dans votre groupe de ressources. Pour accéder à JupyterHub à partir de l’internet public, le port 8000 doit être ouvert. (L’image montre que cette machine virtuelle est configurée pour un accès juste-à-temps, ce que nous recommandons fortement. Pour plus d’informations, consultez Sécuriser vos ports de gestion avec un accès juste-à-temps.
Parcourez les exemples de notebooks disponibles.
JupyterLab, nouvelle génération de blocs-notes Jupyter, et JupyterHub, sont également disponibles. Pour y accéder, connectez-vous à JupyterHub. Accédez ensuite à l'URL https://your-vm-ip:8000/user/your-username/lab
. Remplacez votre nom d’utilisateur par le nom d’utilisateur que vous avez choisi lorsque vous avez configuré la machine virtuelle. Là encore, les erreurs de certificat potentielles peuvent initialement vous empêcher d’accéder au site.
Pour définir JupyterLab comme serveur de notebooks par défaut, ajoutez cette ligne à /etc/jupyterhub/jupyterhub_config.py
:
c.Spawner.default_url = '/lab'
Étapes suivantes
- Consultez la procédure pas à pas de la science des données sur la machine virtuelle de science des données pour Linux pour découvrir comment effectuer plusieurs tâches courantes de science des données avec la DSVM Linux provisionnée ici.
- Essayez les outils décrits dans cet article pour explorer les différents outils de science des données sur la DSVM. Vous pouvez également exécuter
dsvm-more-info
dans l’interpréteur de commandes sur la machine virtuelle pour accéder à une présentation de base et à des liens vers des informations supplémentaires concernant les outils installés sur la machine virtuelle. - Découvrez comment créer systématiquement des solutions analytiques à l’aide du processus TDSP (Team Data Science Process).
- Consultez la documentation de référence appropriée pour cette VM.