DatasetDefinition Classe
Definisce una serie di passaggi che specificano come leggere e trasformare i dati in un set di dati.
Nota
Questa classe è deprecata. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.
Un set di dati registrato in un'area di lavoro di Azure Machine Learning può avere più definizioni, ognuna creata chiamando update_definition. Ogni definizione ha un identificatore univoco. La definizione corrente è quella più recente creata.
Per set di dati non registrati, esiste solo una definizione.
Le definizioni dei set di dati supportano tutte le trasformazioni elencate per la <xref:azureml.dataprep.Dataflow> classe: vedere http://aka.ms/azureml/howto/transformdata. Per altre informazioni sulle definizioni dei set di dati, passare a https://aka.ms/azureml/howto/versiondata.
Inizializzare l'oggetto Definizione set di dati.
- Ereditarietà
-
azureml.dataprep.api.engineless_dataflow.EnginelessDataflowDatasetDefinition
Costruttore
DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')
Parametri
Nome | Descrizione |
---|---|
workspace
Necessario
|
L'area di lavoro in cui è registrato il set di dati. |
dataset_id
Necessario
|
Identificatore del set di dati. |
version_id
Necessario
|
Versione della definizione. |
dataflow
Necessario
|
Oggetto Flusso di dati. |
dataflow_json
Necessario
|
Json flusso di dati. |
notes
Necessario
|
Informazioni facoltative sulla definizione. |
etag
Necessario
|
Etag. |
created_time
Necessario
|
Ora di creazione della definizione. |
modified_time
Necessario
|
Ora dell'ultima modifica della definizione. |
deprecated_by_dataset_id
Necessario
|
ID del set di dati che depreca questa definizione. |
deprecated_by_definition_version
Necessario
|
Versione della definizione che depreca questa definizione. |
data_path
Necessario
|
Percorso dati. |
dataset
Necessario
|
Oggetto Set di dati padre. |
Metodi
archive |
Archiviare la definizione del set di dati. |
create_snapshot |
Creare uno snapshot del set di dati registrato. |
deprecate |
Deprecare il set di dati con un puntatore al nuovo set di dati. |
reactivate |
Riattivare la definizione del set di dati. Funziona sulle definizioni del set di dati deprecate o archiviate. |
to_pandas_dataframe |
Creare un dataframe Pandas eseguendo la pipeline di trasformazione definita da questa definizione del set di dati. |
to_spark_dataframe |
Creare un dataframe Spark che può eseguire la pipeline di trasformazione definita da questo flusso di dati. |
archive
Archiviare la definizione del set di dati.
archive()
Restituisce
Tipo | Descrizione |
---|---|
Nessuno. |
Commenti
Dopo l'archiviazione, qualsiasi tentativo di recupero del set di dati genera un errore. Se archiviato per caso, usare reactivate per attivarlo.
create_snapshot
Creare uno snapshot del set di dati registrato.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Parametri
Nome | Descrizione |
---|---|
snapshot_name
Necessario
|
Nome dello snapshot. I nomi di snapshot devono essere univoci all'interno di un set di dati. |
compute_target
|
ComputeTarget oppure
str
Destinazione di calcolo per eseguire la creazione del profilo snapshot. Se omesso, viene usato il calcolo locale. Valore predefinito: None
|
create_data_snapshot
|
Se True, verrà creata una copia materializzata dei dati. Valore predefinito: False
|
target_datastore
|
Archivio dati di destinazione in cui salvare lo snapshot. Se omesso, lo snapshot verrà creato nell'archiviazione predefinita dell'area di lavoro. Valore predefinito: None
|
Restituisce
Tipo | Descrizione |
---|---|
Oggetto DatasetSnapshot. |
Commenti
Gli snapshot acquisisce le statistiche di riepilogo temporale dei dati sottostanti e una copia facoltativa dei dati stessi. Per altre informazioni sulla creazione di snapshot, passare a https://aka.ms/azureml/howto/createsnapshots.
deprecate
Deprecare il set di dati con un puntatore al nuovo set di dati.
deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)
Parametri
Nome | Descrizione |
---|---|
deprecate_by_dataset_id
Necessario
|
ID del set di dati responsabile della deprecazione del set di dati corrente. |
deprecated_by_definition_version
|
Versione della definizione del set di dati responsabile della deprecazione della definizione del set di dati corrente. Valore predefinito: None
|
Restituisce
Tipo | Descrizione |
---|---|
Nessuno. |
Commenti
Le definizioni del set di dati deprecate registrano avvisi quando vengono usati. Per bloccare completamente l'utilizzo di una definizione del set di dati, archiviarla.
Se una definizione del set di dati è deprecata per caso, usarla reactivate per attivarla.
reactivate
Riattivare la definizione del set di dati.
Funziona sulle definizioni del set di dati deprecate o archiviate.
reactivate()
Restituisce
Tipo | Descrizione |
---|---|
Nessuno. |
to_pandas_dataframe
Creare un dataframe Pandas eseguendo la pipeline di trasformazione definita da questa definizione del set di dati.
to_pandas_dataframe()
Restituisce
Tipo | Descrizione |
---|---|
DataFrame Pandas. |
Commenti
Restituisce un dataframe Pandas completamente materializzato in memoria.
to_spark_dataframe
Creare un dataframe Spark che può eseguire la pipeline di trasformazione definita da questo flusso di dati.
to_spark_dataframe()
Restituisce
Tipo | Descrizione |
---|---|
Un dataframe Spark. |
Commenti
Il dataframe Spark restituito è solo un piano di esecuzione e non contiene effettivamente dati, poiché i dataframe Spark vengono valutati in modo più pigre.