Partager via


AzureBatchStep Classe

Crée une étape de pipeline Azure ML pour l’envoi de travaux à Azure Batch.

Remarque : cette étape ne prend pas en charge le chargement/téléchargement des répertoires et de leur contenu.

Pour obtenir un exemple d’utilisation d’AzureBatchStep, consultez le notebook https://aka.ms/pl-azbatch.

Créer une étape Azure ML Pipeline pour soumettre des travaux à Azure Batch.

Héritage
azureml.pipeline.core._azurebatch_step_base._AzureBatchStepBase
AzureBatchStep

Constructeur

AzureBatchStep(name, create_pool=False, pool_id=None, delete_batch_job_after_finish=True, delete_batch_pool_after_finish=False, is_positive_exit_code_failure=True, vm_image_urn='urn:MicrosoftWindowsServer:WindowsServer:2012-R2-Datacenter', run_task_as_admin=False, target_compute_nodes=1, vm_size='standard_d1_v2', source_directory=None, executable=None, arguments=None, inputs=None, outputs=None, allow_reuse=True, compute_target=None, version=None)

Paramètres

Nom Description
name
Obligatoire
str

[Obligatoire] Nom de l’étape.

create_pool

Indique s’il est nécessaire de créer le pool avant d’exécuter les travaux.

Valeur par défaut: False
pool_id
str

[Obligatoire] ID du pool dans lequel le travail s’exécute. L’ID peut être un pool existant ou un pool qui sera créé lors de l’envoi du travail.

Valeur par défaut: None
delete_batch_job_after_finish

Indique s’il est nécessaire de supprimer le travail du compte Batch, une fois qu’il a été achevé.

Valeur par défaut: True
delete_batch_pool_after_finish

Indique s’il est nécessaire de supprimer le pool, une fois le travail achevé.

Valeur par défaut: False
is_positive_exit_code_failure

Indique si le travail échoue si la tâche existe avec un code positif.

Valeur par défaut: True
vm_image_urn
str

Si create_pool a la valeur True et que la machine virtuelle utilise VirtualMachineConfiguration. Format de la valeur : urn:publisher:offer:sku. Exemple : urn:MicrosoftWindowsServer:WindowsServer:2012-R2-Datacenter.

Valeur par défaut: urn:MicrosoftWindowsServer:WindowsServer:2012-R2-Datacenter
run_task_as_admin

Indique si la tâche doit s’exécuter avec des privilèges d’administrateur.

Valeur par défaut: False
target_compute_nodes
int

Si create_pool a la valeur True, indique le nombre de nœuds de calcul qui seront ajoutés au pool.

Valeur par défaut: 1
vm_size
str

Si create_pool a la valeur True, indique la taille de la machine virtuelle des nœuds de calcul.

Valeur par défaut: standard_d1_v2
source_directory
str

Dossier local contenant les fichiers binaires du module, l’exécutable, les assemblys, etc.

Valeur par défaut: None
executable
str

[Obligatoire] Nom de la commande ou de l’exécutable qui sera exécuté(e) dans le cadre du travail.

Valeur par défaut: None
arguments
str

Arguments pour la commande/l’exécutable.

Valeur par défaut: None
inputs

Liste des liaisons de port d’entrée. Avant l’exécution du travail, un dossier est créé pour chaque entrée. Les fichiers de chaque entrée sont copiés du stockage vers le dossier respectif sur le nœud de calcul. Par exemple, si le nom de l’entrée est input1 et que le chemin d’accès relatif sur le stockage est some/relative/path/that/can/be/really/long/inputfile.txt, le chemin d’accès du fichier sur le calcul sera : ./input1/inputfile.txt. Lorsque le nom d’entrée contient plus de 32 caractères, il est tronqué et un suffixe unique lui sera ajouté, de sorte que le nom du dossier peut être créé sur la cible de calcul.

Valeur par défaut: None
outputs

Liste des liaisons de port de sortie. Comme pour les entrées, avant l’exécution du travail, un dossier est créé pour chaque sortie. Le nom du dossier sera le même que le nom de la sortie. L’hypothèse est que le travail placera la sortie dans ce dossier.

Valeur par défaut: None
allow_reuse

Indique si l’étape doit réutiliser les résultats précédents lorsqu’elle est exécutée avec les mêmes paramètres. La réutilisation est activée par défaut. Si le contenu de l’étape (scripts/dépendances) ainsi que les entrées et les paramètres restent inchangés, la sortie de l’exécution précédente de cette étape est réutilisée. Lors de la réutilisation de l’étape, au lieu de soumettre le travail au calcul, les résultats de l’exécution précédente sont immédiatement mis à la disposition des étapes suivantes. Si vous utilisez des jeux de données Azure Machine Learning comme entrées, la réutilisation est déterminée par le fait que la définition du jeu de données a changé ou pas, non par la modification éventuelle des données sous-jacentes.

Valeur par défaut: True
compute_target

[Obligatoire] Calcul BatchCompute dans lequel le travail s’exécute.

Valeur par défaut: None
version
str

Balise de version facultative pour indiquer une modification de fonctionnalité pour le module.

Valeur par défaut: None
name
Obligatoire
str

[Obligatoire] Nom de l’étape.

create_pool
Obligatoire

Indique s’il est nécessaire de créer le pool avant d’exécuter les travaux.

pool_id
Obligatoire
str

[Obligatoire] ID du pool dans lequel le travail s’exécute. L’ID peut être un pool existant ou un pool qui sera créé lors de l’envoi du travail.

delete_batch_job_after_finish
Obligatoire

Indique s’il est nécessaire de supprimer le travail du compte Batch, une fois qu’il a été achevé.

delete_batch_pool_after_finish
Obligatoire

Indique s’il est nécessaire de supprimer le pool, une fois le travail achevé.

is_positive_exit_code_failure
Obligatoire

Indique si le travail échoue si la tâche existe avec un code positif.

vm_image_urn
Obligatoire
str

Si create_pool a la valeur True et que la machine virtuelle utilise VirtualMachineConfiguration. Format de la valeur : urn:publisher:offer:sku. Exemple : urn:MicrosoftWindowsServer:WindowsServer:2012-R2-Datacenter.

run_task_as_admin
Obligatoire

Indique si la tâche doit s’exécuter avec des privilèges d’administrateur.

target_compute_nodes
Obligatoire
int

Si create_pool a la valeur True, indique le nombre de nœuds de calcul qui seront ajoutés au pool.

vm_size
Obligatoire
str

Si create_pool a la valeur True, indique la taille de la machine virtuelle des nœuds de calcul.

source_directory
Obligatoire
str

Dossier local qui contient les fichiers binaires de module, les exécutables, les assemblys, etc.

executable
Obligatoire
str

[Obligatoire] Nom de la commande ou de l’exécutable qui sera exécuté(e) dans le cadre du travail.

arguments
Obligatoire

Arguments pour la commande/l’exécutable.

inputs
Obligatoire

Liste des liaisons de port d’entrée. Avant l’exécution du travail, un dossier est créé pour chaque entrée. Les fichiers de chaque entrée sont copiés du stockage vers le dossier respectif sur le nœud de calcul. Par exemple, si le nom de l’entrée est input1 et que le chemin d’accès relatif sur le stockage est some/relative/path/that/can/be/really/long/inputfile.txt, le chemin d’accès du fichier sur le calcul sera : ./input1/inputfile.txt. Dans le cas où le nom d’entrée est plus long que 32 caractères, il sera tronqué et ajouté avec un suffixe unique, de sorte que le nom du dossier peut être créé correctement sur le calcul.

outputs
Obligatoire

Liste des liaisons de port de sortie. Comme pour les entrées, avant l’exécution du travail, un dossier est créé pour chaque sortie. Le nom du dossier sera le même que le nom de la sortie. L’hypothèse est que le travail aura la sortie dans ce dossier.

allow_reuse
Obligatoire

Indique si l’étape doit réutiliser les résultats précédents lorsqu’elle est exécutée avec les mêmes paramètres. La réutilisation est activée par défaut. Si le contenu de l’étape (scripts/dépendances) ainsi que les entrées et les paramètres restent inchangés, la sortie de l’exécution précédente de cette étape est réutilisée. Lors de la réutilisation de l’étape, au lieu de soumettre le travail au calcul, les résultats de l’exécution précédente sont immédiatement mis à la disposition des étapes suivantes. Si vous utilisez des jeux de données Azure Machine Learning comme entrées, la réutilisation est déterminée par le fait que la définition du jeu de données a changé ou pas, non par la modification éventuelle des données sous-jacentes.

compute_target
Obligatoire

[Obligatoire] Calcul BatchCompute dans lequel le travail s’exécute.

version
Obligatoire
str

Balise de version facultative pour indiquer une modification de fonctionnalité pour le module.

Remarques

L’exemple suivant montre comment utiliser AzureBatchStep dans un pipeline Azure Machine Learning.


   step = AzureBatchStep(
               name="Azure Batch Job",
               pool_id="MyPoolName", # Replace this with the pool name of your choice
               inputs=[testdata],
               outputs=[outputdata],
               executable="azurebatch.cmd",
               arguments=[testdata, outputdata],
               compute_target=batch_compute,
               source_directory=binaries_folder,
   )

Un exemple complet est disponible sur https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-how-to-use-azurebatch-to-run-a-windows-executable.ipynb

Méthodes

create_node

Créez un nœud à partir de l’étape AzureBatch et ajoutez-le au graphique spécifié.

Cette méthode n’est pas destinée à être utilisée directement. Lorsqu’un pipeline est instancié avec cette étape, Azure ML transmet automatiquement les paramètres requis via cette méthode afin que l’étape puisse être ajoutée à un graphique de pipeline qui représente le flux de travail.

create_node

Créez un nœud à partir de l’étape AzureBatch et ajoutez-le au graphique spécifié.

Cette méthode n’est pas destinée à être utilisée directement. Lorsqu’un pipeline est instancié avec cette étape, Azure ML transmet automatiquement les paramètres requis via cette méthode afin que l’étape puisse être ajoutée à un graphique de pipeline qui représente le flux de travail.

create_node(graph, default_datastore, context)

Paramètres

Nom Description
graph
Obligatoire

Objet graphe auquel ajouter le nœud.

default_datastore
Obligatoire

Magasin de données par défaut.

context
Obligatoire
<xref:azureml.pipeline.core._GraphContext>

Contexte du graphique.

Retours

Type Description

Nœud créé.