Partager via


AbstractDataset Classe

Classe de base des jeux de données dans Azure Machine Learning.

Veuillez référencer la classe TabularDatasetFactory et la classe FileDatasetFactory pour créer des instances du jeu de données.

Constructeur De classe AbstractDataset.

Ce constructeur n’est pas censé être appelé directement. Le jeu de données est destiné à être créé à l’aide de TabularDatasetFactory la classe et FileDatasetFactory de la classe.

Héritage
builtins.object
AbstractDataset

Constructeur

AbstractDataset()

Méthodes

add_tags

Ajoute des paires clé-valeur au dictionnaire de balises de ce jeu de données.

as_named_input

Fournissez un nom pour ce jeu de données qui sera utilisé pour récupérer le jeu de données matérialisé dans l’exécution.

get_all

Récupère tous les jeux de données inscrits dans l’espace de travail.

get_by_id

Récupère un jeu de données qui est enregistré dans l’espace de travail.

get_by_name

Récupère un jeu de données inscrit dans l’espace de travail par son nom d’inscription.

get_partition_key_values

Retourne des valeurs de clés uniques de partition_keys.

Vérifie si partition_keys est un sous-ensemble valide d’un jeu complet de clés de partition, retourne des valeurs de clé uniques de partition_keys, fonction par défaut pour retourner les combinaisons de clés uniques en utilisant l’ensemble des clés de partition de ce jeu de données si partition_keys est défini sur None


   # get all partition key value pairs
   partitions = ds.get_partition_key_values()
   # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]

   partitions = ds.get_partition_key_values(['country'])
   # Return [{'country': 'US'}]
register

Inscrit le jeu de données dans l’espace de travail fourni.

remove_tags

Supprime les clés spécifiées du dictionnaire de balises pour ce jeu de données.

unregister_all_versions

Annule l’inscription de toutes les versions sous le nom d’inscription de ce jeu de données dans l’espace de travail.

update

Effectuer une mise à jour sur place du jeu de données.

add_tags

Ajoute des paires clé-valeur au dictionnaire de balises de ce jeu de données.

add_tags(tags=None)

Paramètres

Nom Description
tags
Obligatoire

Dictionnaire de balises à ajouter.

Retours

Type Description

Objet de jeu de données mis à jour.

as_named_input

Fournissez un nom pour ce jeu de données qui sera utilisé pour récupérer le jeu de données matérialisé dans l’exécution.

as_named_input(name)

Paramètres

Nom Description
name
Obligatoire
str

Nom du jeu de données pour l’exécution.

Retours

Type Description

Objet de configuration décrivant la manière dont le jeu de données doit être matérialisé dans l’exécution.

Remarques

Le nom ici ne s’applique qu’à l’intérieur d’une exécution Azure Machine Learning. Le nom doit contenir uniquement des caractères alphanumériques et des traits de soulignement pour pouvoir être mis à disposition en tant que variable d’environnement. Vous pouvez utiliser ce nom pour récupérer le jeu de données dans le contexte d’une exécution à l’aide de deux approches :

  • Variable d’environnement :

    le nom sera le nom de la variable d’environnement et le jeu de données matérialisé sera disponible en tant que valeur de la variable d’environnement. Si le jeu de données est téléchargé ou monté, la valeur sera le chemin d’accès téléchargé/monté. Par exemple :


   # in your job submission notebook/script:
   dataset.as_named_input('foo').as_download('/tmp/dataset')

   # in the script that will be executed in the run
   import os
   path = os.environ['foo'] # path will be /tmp/dataset

Notes

Si le jeu de données est défini sur le mode direct, la valeur sera l’ID du jeu de données. Ensuite, vous pouvez :

récupérer l’objet DataSet en procédant Dataset.get_by_id(OS.environ['foo'])

  • Run.input_datasets :

    il s’agit d’un dictionnaire dans lequel la clé sera le nom du jeu de données que vous avez spécifié dans cette méthode et la valeur sera le jeu de données matérialisé. Pour le jeu de données téléchargé et monté, la valeur sera le chemin d’accès téléchargé/monté. Pour le mode direct, la valeur sera le même objet de jeu de données que vous avez spécifié dans votre script d’envoi de travail.


   # in your job submission notebook/script:
   dataset.as_named_input('foo') # direct mode

   # in the script that will be executed in the run
   run = Run.get_context()
   run.input_datasets['foo'] # this returns the dataset object from above.

get_all

Récupère tous les jeux de données inscrits dans l’espace de travail.

static get_all(workspace)

Paramètres

Nom Description
workspace
Obligatoire

Espace de travail AzureML existant dans lequel les jeux de données ont été inscrits.

Retours

Type Description

Dictionnaire d’objets TabularDataset et FileDataset indexés par leur nom d’inscription.

get_by_id

Récupère un jeu de données qui est enregistré dans l’espace de travail.

static get_by_id(workspace, id, **kwargs)

Paramètres

Nom Description
workspace
Obligatoire

Espace de travail AzureML existant dans lequel le jeu de données est enregistré.

id
Obligatoire
str

ID du jeu de données.

Retours

Type Description

Objet de jeu de données. Si le jeu de données est inscrit, son nom et sa version d’inscription sont également renvoyés.

get_by_name

Récupère un jeu de données inscrit dans l’espace de travail par son nom d’inscription.

static get_by_name(workspace, name, version='latest', **kwargs)

Paramètres

Nom Description
workspace
Obligatoire

Espace de travail AzureML existant dans lequel le jeu de données a été inscrit.

name
Obligatoire
str

Nom d’inscription.

version
Obligatoire
int

Version d’inscription. La valeur par défaut est « latest ».

Retours

Type Description

Objet de jeu de données inscrit.

get_partition_key_values

Retourne des valeurs de clés uniques de partition_keys.

Vérifie si partition_keys est un sous-ensemble valide d’un jeu complet de clés de partition, retourne des valeurs de clé uniques de partition_keys, fonction par défaut pour retourner les combinaisons de clés uniques en utilisant l’ensemble des clés de partition de ce jeu de données si partition_keys est défini sur None


   # get all partition key value pairs
   partitions = ds.get_partition_key_values()
   # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]

   partitions = ds.get_partition_key_values(['country'])
   # Return [{'country': 'US'}]
get_partition_key_values(partition_keys=None)

Paramètres

Nom Description
partition_keys
Obligatoire

clés de partition

register

Inscrit le jeu de données dans l’espace de travail fourni.

register(workspace, name, description=None, tags=None, create_new_version=False)

Paramètres

Nom Description
workspace
Obligatoire

Espace de travail pour inscrire le jeu de données.

name
Obligatoire
str

Nom avec lequel inscrire le jeu de données.

description
Obligatoire
str

Description textuelle du jeu de données. La valeur par défaut est None.

tags
Obligatoire

Dictionnaire des étiquettes de valeur de clé à attribuer au jeu de données. La valeur par défaut est None.

create_new_version
Obligatoire

Valeur booléenne pour inscrire le jeu de données en tant que nouvelle version sous le nom spécifié.

Retours

Type Description

Objet de jeu de données inscrit.

remove_tags

Supprime les clés spécifiées du dictionnaire de balises pour ce jeu de données.

remove_tags(tags=None)

Paramètres

Nom Description
tags
Obligatoire

Liste des clés à supprimer.

Retours

Type Description

Objet de jeu de données mis à jour.

unregister_all_versions

Annule l’inscription de toutes les versions sous le nom d’inscription de ce jeu de données dans l’espace de travail.

unregister_all_versions()

Remarques

L’opération ne modifie pas les données sources.

update

Effectuer une mise à jour sur place du jeu de données.

update(description=None, tags=None)

Paramètres

Nom Description
description
Obligatoire
str

Nouvelle description à utiliser pour le jeu de données. Cette description remplace la description existante. La valeur par défaut est la description existante. Pour effacer la description, entrez une chaîne vide.

tags
Obligatoire

Dictionnaire de balises avec lesquelles mettre à jour le jeu de données. Ces balises remplacent les balises existantes pour le jeu de données. Prend la valeur par défaut d’étiquettes existantes. Pour effacer les balises, entrez un dictionnaire vide.

Retours

Type Description

Objet de jeu de données mis à jour.

Attributs

data_changed_time

Retourne l’heure de modification des données sources.

Retours

Type Description

Heure à laquelle la modification la plus récente s’est produite dans les données sources.

Remarques

L’heure de modification des données est disponible pour la source de données basée sur des fichiers. Aucune n’est retournée lorsque la source de données n’est pas prise en charge pour la vérification lorsque la modification s’est produite.

description

Retourne la description de l’inscription.

Retours

Type Description
str

Description du jeu de données.

id

Retourne l’identificateur du jeu de données.

Retours

Type Description
str

ID du jeu de données. Si le jeu de données n’est pas enregistré dans un espace de travail, l’ID aura la valeur None.

name

Retourne le nom de l’inscription.

Retours

Type Description
str

Nom du jeu de données.

partition_keys

Retourne les clés de partition.

Retours

Type Description

clés de partition

tags

Retourne les balises de l’inscription.

Retours

Type Description
str

Balises du jeu de données.

version

Retourne la version d’inscription.

Retours

Type Description
int

Version du jeu de données.