Dela via


DatasetDefinition Klass

Definierar en serie steg som anger hur data ska läsas och transformeras i en datauppsättning.

Anteckning

Den här klassen är inaktuell. Mer information finns i https://aka.ms/dataset-deprecation.

En datauppsättning som är registrerad på en Azure Machine Learning-arbetsyta kan ha flera definitioner som var och en skapas genom att anropa update_definition. Varje definition har en unik identifierare. Den aktuella definitionen är den senaste som skapats.

För oregistrerade datauppsättningar finns bara en definition.

Datauppsättningsdefinitioner stöder alla transformeringar som anges för <xref:azureml.dataprep.Dataflow> klassen: se http://aka.ms/azureml/howto/transformdata. Om du vill veta mer om datauppsättningsdefinitioner går du till https://aka.ms/azureml/howto/versiondata.

Initiera definitionsobjektet för datamängden.

Arv
azureml.dataprep.api.engineless_dataflow.EnginelessDataflow
DatasetDefinition

Konstruktor

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

Parametrar

Name Description
workspace
Obligatorisk
str

Arbetsytan som datauppsättningen är registrerad i.

dataset_id
Obligatorisk
str

Datauppsättningsidentifieraren.

version_id
Obligatorisk
str

Definitionsversionen.

dataflow
Obligatorisk
str

Dataflödesobjektet.

dataflow_json
Obligatorisk

Dataflödes-json.

notes
Obligatorisk
str

Valfri information om definitionen.

etag
Obligatorisk
str

Etag.

created_time
Obligatorisk

Tiden då definitionen skapades.

modified_time
Obligatorisk

Den senaste ändringstiden för definitionen.

deprecated_by_dataset_id
Obligatorisk
str

ID:t för den datauppsättning som inaktuella den här definitionen.

deprecated_by_definition_version
Obligatorisk
str

Den version av definitionen som inaktuella den här definitionen.

data_path
Obligatorisk

Datasökvägen.

dataset
Obligatorisk

Det överordnade datauppsättningsobjektet.

Metoder

archive

Arkivera datauppsättningsdefinitionen.

create_snapshot

Skapa en ögonblicksbild av den registrerade datauppsättningen.

deprecate

Gör datauppsättningen inaktuell med en pekare till den nya datauppsättningen.

reactivate

Återaktivera datauppsättningsdefinitionen.

Fungerar med datauppsättningsdefinitioner som har blivit inaktuella eller arkiverade.

to_pandas_dataframe

Skapa en Pandas-dataram genom att köra transformeringspipelinen som definieras av den här datauppsättningsdefinitionen.

to_spark_dataframe

Skapa en Spark DataFrame som kan köra transformeringspipelinen som definieras av det här dataflödet.

archive

Arkivera datauppsättningsdefinitionen.

archive()

Returer

Typ Description

Inga.

Kommentarer

Efter arkiveringen resulterar alla försök att hämta datauppsättningen i ett fel. Om arkiveras av misstag använder du reactivate för att aktivera den.

create_snapshot

Skapa en ögonblicksbild av den registrerade datauppsättningen.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parametrar

Name Description
snapshot_name
Obligatorisk
str

Namnet på ögonblicksbilden. Namn på ögonblicksbilder ska vara unika inom en datauppsättning.

compute_target

Beräkningsmålet för att skapa ögonblicksbildsprofilen. Om det utelämnas används den lokala beräkningen.

Standardvärde: None
create_data_snapshot

Om värdet är Sant skapas en materialiserad kopia av data.

Standardvärde: False
target_datastore

Måldatalagringen där ögonblicksbilden ska sparas. Om den utelämnas skapas ögonblicksbilden i standardlagringen för arbetsytan.

Standardvärde: None

Returer

Typ Description

Ett DatasetSnapshot-objekt.

Kommentarer

Ögonblicksbilder samlar in tidssammanfattningsstatistik för underliggande data och en valfri kopia av själva data. Mer information om hur du skapar ögonblicksbilder finns https://aka.ms/azureml/howto/createsnapshotsi .

deprecate

Gör datauppsättningen inaktuell med en pekare till den nya datauppsättningen.

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

Parametrar

Name Description
deprecate_by_dataset_id
Obligatorisk

Det datauppsättnings-ID som ansvarar för utfasningen av den aktuella datauppsättningen.

deprecated_by_definition_version
str

Den datamängdsdefinitionsversion som ansvarar för utfasningen av den aktuella datauppsättningsdefinitionen.

Standardvärde: None

Returer

Typ Description

Inga.

Kommentarer

Inaktuella datauppsättningsdefinitioner loggar varningar när de används. Om du vill blockera en datauppsättningsdefinition helt från att användas arkiverar du den.

Om en datauppsättningsdefinition är inaktuell av misstag använder du reactivate för att aktivera den.

reactivate

Återaktivera datauppsättningsdefinitionen.

Fungerar med datauppsättningsdefinitioner som har blivit inaktuella eller arkiverade.

reactivate()

Returer

Typ Description

Inga.

to_pandas_dataframe

Skapa en Pandas-dataram genom att köra transformeringspipelinen som definieras av den här datauppsättningsdefinitionen.

to_pandas_dataframe()

Returer

Typ Description

En Pandas DataFrame.

Kommentarer

Returnera en Pandas DataFrame som är helt materialiserad i minnet.

to_spark_dataframe

Skapa en Spark DataFrame som kan köra transformeringspipelinen som definieras av det här dataflödet.

to_spark_dataframe()

Returer

Typ Description

En Spark-dataram.

Kommentarer

Spark-dataramen som returneras är bara en körningsplan och innehåller faktiskt inga data, eftersom Spark-dataramar utvärderas lazily.