OutputFileDatasetConfig Classe
Représente comment copier la sortie d’une exécution et la promouvoir en tant que FileDataset.
L’objet OutputFileDatasetConfig vous permet de spécifier comment vous souhaitez qu’un chemin d’accès local particulier de la cible de calcul soit chargé vers la destination spécifiée. Si aucun argument n’est transmis au constructeur, nous générons automatiquement un nom, une destination et un chemin d’accès local.
Exemple de non-transmission d’arguments :
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
output = OutputFileDatasetConfig()
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Exemple de création d’une sortie, puis de promotion de celle-ci vers un jeu de données tabulaires et de son enregistrement sous le nom de foo :
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
datastore = Datastore(workspace, 'example_adls_gen2_datastore')
# for more information on the parameters and methods, please look for the corresponding documentation.
output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Initialisez un OutputFileDatasetConfig.
L’objet OutputFileDatasetConfig vous permet de spécifier comment vous souhaitez qu’un chemin d’accès local particulier de la cible de calcul soit chargé vers la destination spécifiée. Si aucun argument n’est transmis au constructeur, nous générons automatiquement un nom, une destination et un chemin d’accès local.
Exemple de non-transmission d’arguments :
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
output = OutputFileDatasetConfig()
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Exemple de création d’une sortie, puis de promotion de celle-ci vers un jeu de données tabulaires et de son enregistrement sous le nom de foo :
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
datastore = Datastore(workspace, 'example_adls_gen2_datastore')
# for more information on the parameters and methods, please look for the corresponding documentation.
output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
- Héritage
-
OutputFileDatasetConfigOutputFileDatasetConfig
Constructeur
OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)
Paramètres
Nom | Description |
---|---|
name
Obligatoire
|
Nom de la sortie spécifique à cette série. Il est généralement utilisé pour la traçabilité des données. Si la valeur est None, nous générons automatiquement un nom. Le nom devient également une variable d’environnement qui contient le chemin d’accès local dans lequel vous pouvez écrire vos fichiers et dossiers de sortie, qui sera chargé dans la destination. |
destination
Obligatoire
|
Destination vers laquelle copier la sortie. Si la valeur est None, nous copierons la sortie dans le magasin de données workspaceblobstore, sous le chemin d’accès /dataset/{run-id}/{output-name}, où run-id est l’ID de l’exécution et output-name est le nom de sortie du paramètre name ci-dessus. La destination est un tuple où le premier élément est le magasin de données et le second élément est le chemin d’accès au sein du magasin de données dans lequel copier les données. Le chemin d’accès dans le magasin de données peut être un chemin d’accès de modèle. Un chemin d’accès de modèle est simplement un chemin d’accès standard, mais contenant des espaces réservés. Ces espaces réservés seront résolus au moment opportun. La syntaxe des espaces réservés est {placeholder}, par exemple /path/with/{placeholder}. Actuellement, seuls deux espaces réservés sont pris en charge, {run-id} et {output-name}. |
source
Obligatoire
|
Chemin d’accès dans la cible de calcul à partir duquel copier les données. Si la valeur est None, nous la définissons sur un répertoire que nous créons dans le répertoire temporaire du système d’exploitation de la cible de calcul. |
partition_format
Obligatoire
|
Spécifie le format de partition du chemin. La valeur par défaut est None. Les informations de partition de chaque chemin sont extraites en colonnes en fonction du format spécifié. La partie de format « {column_name} » crée une colonne de chaîne, et « {column_name:yyyy/MM/dd/HH/mm/ss} » crée une colonne DateHeure, où « yyyy », « MM », « dd », « HH », « mm » et « ss » sont utilisés pour extraire l’année, le mois, le jour, l’heure, les minutes et les secondes pour le type DateHeure. Le format doit commencer à partir de la position de la première clé de partition et se poursuivre jusqu’à la fin du chemin d’accès au fichier. Par exemple, étant donné le chemin « ../Accounts/2019/01/01/data.parquet » où la partition se fait par nom de service et par heure, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' crée une colonne de chaîne « Department » avec la valeur « Accounts » et une colonne DateHeure « PartitionDate » avec la valeur « 2019-01-01 ». |
name
Obligatoire
|
Nom de la sortie spécifique à cette série. Il est généralement utilisé pour la traçabilité des données. Si la valeur est None, nous générons automatiquement un nom. Le nom devient également une variable d’environnement qui contient le chemin d’accès local dans lequel vous pouvez écrire vos fichiers et dossiers de sortie, qui sera chargé dans la destination. |
destination
Obligatoire
|
Destination vers laquelle copier la sortie. Si la valeur est None, nous copierons la sortie dans le magasin de données workspaceblobstore, sous le chemin d’accès /dataset/{run-id}/{output-name}, où run-id est l’ID de l’exécution et output-name est le nom de sortie du paramètre name ci-dessus. La destination est un tuple où le premier élément est le magasin de données et le second élément est le chemin d’accès au sein du magasin de données dans lequel copier les données. Le chemin d’accès dans le magasin de données peut être un chemin d’accès de modèle. Un chemin d’accès de modèle est simplement un chemin d’accès standard, mais contenant des espaces réservés. Ces espaces réservés seront résolus au moment opportun. La syntaxe des espaces réservés est {placeholder}, par exemple /path/with/{placeholder}. Actuellement, seuls deux espaces réservés sont pris en charge, {run-id} et {output-name}. |
source
Obligatoire
|
Chemin d’accès dans la cible de calcul à partir duquel copier les données. Si la valeur est None, nous la définissons sur un répertoire que nous créons dans le répertoire temporaire du système d’exploitation de la cible de calcul. |
partition_format
Obligatoire
|
Spécifie le format de partition du chemin. La valeur par défaut est None. Les informations de partition de chaque chemin sont extraites en colonnes en fonction du format spécifié. La partie de format « {column_name} » crée une colonne de chaîne, et « {column_name:yyyy/MM/dd/HH/mm/ss} » crée une colonne DateHeure, où « yyyy », « MM », « dd », « HH », « mm » et « ss » sont utilisés pour extraire l’année, le mois, le jour, l’heure, les minutes et les secondes pour le type DateHeure. Le format doit commencer à partir de la position de la première clé de partition et se poursuivre jusqu’à la fin du chemin d’accès au fichier. Par exemple, étant donné le chemin « ../Accounts/2019/01/01/data.parquet » où la partition se fait par nom de service et par heure, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' crée une colonne de chaîne « Department » avec la valeur « Accounts » et une colonne DateHeure « PartitionDate » avec la valeur « 2019-01-01 ». |
Remarques
Vous pouvez transmettre l’objet OutputFileDatasetConfig comme argument à votre exécution et il sera automatiquement traduit en chemin d’accès local sur le calcul. L’argument source sera utilisé si vous en avez spécifié un. Dans le cas contraire, nous générerons automatiquement un répertoire dans le dossier Temp du système d’exploitation. Les fichiers et les dossiers contenus dans le répertoire source sont ensuite copiés vers la destination en fonction de la configuration de sortie.
Par défaut, le mode de copie de la sortie dans le stockage de destination sera défini sur « mount ». Pour plus d’informations sur le mode « mount », consultez la documentation de as_mount.
Méthodes
as_input |
Spécifie comment consommer la sortie en tant qu’entrée dans les étapes de pipeline suivantes. |
as_mount |
Définit la sortie en mode « mount ». En mode « mount », le répertoire de sortie est un répertoire monté FUSE. Les fichiers écrits dans le répertoire monté sont chargés à la fermeture du fichier. |
as_upload |
Définit la sortie en mode « upload ». En mode « upload », les fichiers écrits dans le répertoire de sortie sont chargés à la fin du travail. Si le travail échoue ou est annulé, le répertoire de sortie n’est pas téléchargé. |
as_input
Spécifie comment consommer la sortie en tant qu’entrée dans les étapes de pipeline suivantes.
as_input(name=None)
Paramètres
Nom | Description |
---|---|
name
Obligatoire
|
Nom de l’entrée spécifique à la série. |
Retours
Type | Description |
---|---|
Instance de DatasetConsumptionConfig décrivant la façon de fournir les données d’entrée. |
as_mount
Définit la sortie en mode « mount ».
En mode « mount », le répertoire de sortie est un répertoire monté FUSE. Les fichiers écrits dans le répertoire monté sont chargés à la fermeture du fichier.
as_mount(disable_metadata_cache=False)
Paramètres
Nom | Description |
---|---|
disable_metadata_cache
Obligatoire
|
Indique si les métadonnées doivent être mises en cache dans le nœud local. S’il est désactivé, un nœud ne peut pas voir les fichiers générés à partir d’autres nœuds pendant l’exécution du travail. |
Retours
Type | Description |
---|---|
Instance OutputFileDatasetConfig dont le mode est défini sur mount. |
as_upload
Définit la sortie en mode « upload ».
En mode « upload », les fichiers écrits dans le répertoire de sortie sont chargés à la fin du travail. Si le travail échoue ou est annulé, le répertoire de sortie n’est pas téléchargé.
as_upload(overwrite=False, source_globs=None)
Paramètres
Nom | Description |
---|---|
overwrite
Obligatoire
|
Indique s’il est nécessaire de remplacer les fichiers qui existent déjà à l’emplacement de destination. |
source_globs
Obligatoire
|
Modèles Glob utilisés pour filtrer les fichiers à charger. |
Retours
Type | Description |
---|---|
Instance de OutputFileDatasetConfig pour laquelle le mode « upload » est défini. |