AbstractDataset Classe
Classe de base des jeux de données dans Azure Machine Learning.
Veuillez référencer la classe TabularDatasetFactory et la classe FileDatasetFactory pour créer des instances du jeu de données.
Constructeur De classe AbstractDataset.
Ce constructeur n’est pas censé être appelé directement. Le jeu de données est destiné à être créé à l’aide de TabularDatasetFactory la classe et FileDatasetFactory de la classe.
- Héritage
-
builtins.objectAbstractDataset
Constructeur
AbstractDataset()
Méthodes
add_tags |
Ajoute des paires clé-valeur au dictionnaire de balises de ce jeu de données. |
as_named_input |
Fournissez un nom pour ce jeu de données qui sera utilisé pour récupérer le jeu de données matérialisé dans l’exécution. |
get_all |
Récupère tous les jeux de données inscrits dans l’espace de travail. |
get_by_id |
Récupère un jeu de données qui est enregistré dans l’espace de travail. |
get_by_name |
Récupère un jeu de données inscrit dans l’espace de travail par son nom d’inscription. |
get_partition_key_values |
Retourne des valeurs de clés uniques de partition_keys. Vérifie si partition_keys est un sous-ensemble valide d’un jeu complet de clés de partition, retourne des valeurs de clé uniques de partition_keys, fonction par défaut pour retourner les combinaisons de clés uniques en utilisant l’ensemble des clés de partition de ce jeu de données si partition_keys est défini sur None
|
register |
Inscrit le jeu de données dans l’espace de travail fourni. |
remove_tags |
Supprime les clés spécifiées du dictionnaire de balises pour ce jeu de données. |
unregister_all_versions |
Annule l’inscription de toutes les versions sous le nom d’inscription de ce jeu de données dans l’espace de travail. |
update |
Effectuer une mise à jour sur place du jeu de données. |
add_tags
Ajoute des paires clé-valeur au dictionnaire de balises de ce jeu de données.
add_tags(tags=None)
Paramètres
Nom | Description |
---|---|
tags
Obligatoire
|
Dictionnaire de balises à ajouter. |
Retours
Type | Description |
---|---|
Objet de jeu de données mis à jour. |
as_named_input
Fournissez un nom pour ce jeu de données qui sera utilisé pour récupérer le jeu de données matérialisé dans l’exécution.
as_named_input(name)
Paramètres
Nom | Description |
---|---|
name
Obligatoire
|
Nom du jeu de données pour l’exécution. |
Retours
Type | Description |
---|---|
Objet de configuration décrivant la manière dont le jeu de données doit être matérialisé dans l’exécution. |
Remarques
Le nom ici ne s’applique qu’à l’intérieur d’une exécution Azure Machine Learning. Le nom doit contenir uniquement des caractères alphanumériques et des traits de soulignement pour pouvoir être mis à disposition en tant que variable d’environnement. Vous pouvez utiliser ce nom pour récupérer le jeu de données dans le contexte d’une exécution à l’aide de deux approches :
Variable d’environnement :
le nom sera le nom de la variable d’environnement et le jeu de données matérialisé sera disponible en tant que valeur de la variable d’environnement. Si le jeu de données est téléchargé ou monté, la valeur sera le chemin d’accès téléchargé/monté. Par exemple :
# in your job submission notebook/script:
dataset.as_named_input('foo').as_download('/tmp/dataset')
# in the script that will be executed in the run
import os
path = os.environ['foo'] # path will be /tmp/dataset
Notes
Si le jeu de données est défini sur le mode direct, la valeur sera l’ID du jeu de données. Ensuite, vous pouvez :
récupérer l’objet DataSet en procédant Dataset.get_by_id(OS.environ['foo'])
Run.input_datasets :
il s’agit d’un dictionnaire dans lequel la clé sera le nom du jeu de données que vous avez spécifié dans cette méthode et la valeur sera le jeu de données matérialisé. Pour le jeu de données téléchargé et monté, la valeur sera le chemin d’accès téléchargé/monté. Pour le mode direct, la valeur sera le même objet de jeu de données que vous avez spécifié dans votre script d’envoi de travail.
# in your job submission notebook/script:
dataset.as_named_input('foo') # direct mode
# in the script that will be executed in the run
run = Run.get_context()
run.input_datasets['foo'] # this returns the dataset object from above.
get_all
Récupère tous les jeux de données inscrits dans l’espace de travail.
static get_all(workspace)
Paramètres
Nom | Description |
---|---|
workspace
Obligatoire
|
Espace de travail AzureML existant dans lequel les jeux de données ont été inscrits. |
Retours
Type | Description |
---|---|
Dictionnaire d’objets TabularDataset et FileDataset indexés par leur nom d’inscription. |
get_by_id
Récupère un jeu de données qui est enregistré dans l’espace de travail.
static get_by_id(workspace, id, **kwargs)
Paramètres
Nom | Description |
---|---|
workspace
Obligatoire
|
Espace de travail AzureML existant dans lequel le jeu de données est enregistré. |
id
Obligatoire
|
ID du jeu de données. |
Retours
Type | Description |
---|---|
Objet de jeu de données. Si le jeu de données est inscrit, son nom et sa version d’inscription sont également renvoyés. |
get_by_name
Récupère un jeu de données inscrit dans l’espace de travail par son nom d’inscription.
static get_by_name(workspace, name, version='latest', **kwargs)
Paramètres
Nom | Description |
---|---|
workspace
Obligatoire
|
Espace de travail AzureML existant dans lequel le jeu de données a été inscrit. |
name
Obligatoire
|
Nom d’inscription. |
version
Obligatoire
|
Version d’inscription. La valeur par défaut est « latest ». |
Retours
Type | Description |
---|---|
Objet de jeu de données inscrit. |
get_partition_key_values
Retourne des valeurs de clés uniques de partition_keys.
Vérifie si partition_keys est un sous-ensemble valide d’un jeu complet de clés de partition, retourne des valeurs de clé uniques de partition_keys, fonction par défaut pour retourner les combinaisons de clés uniques en utilisant l’ensemble des clés de partition de ce jeu de données si partition_keys est défini sur None
# get all partition key value pairs
partitions = ds.get_partition_key_values()
# Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]
partitions = ds.get_partition_key_values(['country'])
# Return [{'country': 'US'}]
get_partition_key_values(partition_keys=None)
Paramètres
Nom | Description |
---|---|
partition_keys
Obligatoire
|
clés de partition |
register
Inscrit le jeu de données dans l’espace de travail fourni.
register(workspace, name, description=None, tags=None, create_new_version=False)
Paramètres
Nom | Description |
---|---|
workspace
Obligatoire
|
Espace de travail pour inscrire le jeu de données. |
name
Obligatoire
|
Nom avec lequel inscrire le jeu de données. |
description
Obligatoire
|
Description textuelle du jeu de données. La valeur par défaut est None. |
tags
Obligatoire
|
Dictionnaire des étiquettes de valeur de clé à attribuer au jeu de données. La valeur par défaut est None. |
create_new_version
Obligatoire
|
Valeur booléenne pour inscrire le jeu de données en tant que nouvelle version sous le nom spécifié. |
Retours
Type | Description |
---|---|
Objet de jeu de données inscrit. |
remove_tags
Supprime les clés spécifiées du dictionnaire de balises pour ce jeu de données.
remove_tags(tags=None)
Paramètres
Nom | Description |
---|---|
tags
Obligatoire
|
Liste des clés à supprimer. |
Retours
Type | Description |
---|---|
Objet de jeu de données mis à jour. |
unregister_all_versions
Annule l’inscription de toutes les versions sous le nom d’inscription de ce jeu de données dans l’espace de travail.
unregister_all_versions()
Remarques
L’opération ne modifie pas les données sources.
update
Effectuer une mise à jour sur place du jeu de données.
update(description=None, tags=None)
Paramètres
Nom | Description |
---|---|
description
Obligatoire
|
Nouvelle description à utiliser pour le jeu de données. Cette description remplace la description existante. La valeur par défaut est la description existante. Pour effacer la description, entrez une chaîne vide. |
tags
Obligatoire
|
Dictionnaire de balises avec lesquelles mettre à jour le jeu de données. Ces balises remplacent les balises existantes pour le jeu de données. Prend la valeur par défaut d’étiquettes existantes. Pour effacer les balises, entrez un dictionnaire vide. |
Retours
Type | Description |
---|---|
Objet de jeu de données mis à jour. |
Attributs
data_changed_time
Retourne l’heure de modification des données sources.
Retours
Type | Description |
---|---|
Heure à laquelle la modification la plus récente s’est produite dans les données sources. |
Remarques
L’heure de modification des données est disponible pour la source de données basée sur des fichiers. Aucune n’est retournée lorsque la source de données n’est pas prise en charge pour la vérification lorsque la modification s’est produite.
description
Retourne la description de l’inscription.
Retours
Type | Description |
---|---|
Description du jeu de données. |
id
Retourne l’identificateur du jeu de données.
Retours
Type | Description |
---|---|
ID du jeu de données. Si le jeu de données n’est pas enregistré dans un espace de travail, l’ID aura la valeur None. |