DatasetDefinition Klass
Definierar en serie steg som anger hur data ska läsas och transformeras i en datauppsättning.
Anteckning
Den här klassen är inaktuell. Mer information finns i https://aka.ms/dataset-deprecation.
En datauppsättning som är registrerad på en Azure Machine Learning-arbetsyta kan ha flera definitioner som var och en skapas genom att anropa update_definition. Varje definition har en unik identifierare. Den aktuella definitionen är den senaste som skapats.
För oregistrerade datauppsättningar finns bara en definition.
Datauppsättningsdefinitioner stöder alla transformeringar som anges för <xref:azureml.dataprep.Dataflow> klassen: se http://aka.ms/azureml/howto/transformdata. Om du vill veta mer om datauppsättningsdefinitioner går du till https://aka.ms/azureml/howto/versiondata.
Initiera definitionsobjektet för datamängden.
- Arv
-
azureml.dataprep.api.engineless_dataflow.EnginelessDataflowDatasetDefinition
Konstruktor
DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')
Parametrar
Name | Description |
---|---|
workspace
Obligatorisk
|
Arbetsytan som datauppsättningen är registrerad i. |
dataset_id
Obligatorisk
|
Datauppsättningsidentifieraren. |
version_id
Obligatorisk
|
Definitionsversionen. |
dataflow
Obligatorisk
|
Dataflödesobjektet. |
dataflow_json
Obligatorisk
|
Dataflödes-json. |
notes
Obligatorisk
|
Valfri information om definitionen. |
etag
Obligatorisk
|
Etag. |
created_time
Obligatorisk
|
Tiden då definitionen skapades. |
modified_time
Obligatorisk
|
Den senaste ändringstiden för definitionen. |
deprecated_by_dataset_id
Obligatorisk
|
ID:t för den datauppsättning som inaktuella den här definitionen. |
deprecated_by_definition_version
Obligatorisk
|
Den version av definitionen som inaktuella den här definitionen. |
data_path
Obligatorisk
|
Datasökvägen. |
dataset
Obligatorisk
|
Det överordnade datauppsättningsobjektet. |
Metoder
archive |
Arkivera datauppsättningsdefinitionen. |
create_snapshot |
Skapa en ögonblicksbild av den registrerade datauppsättningen. |
deprecate |
Gör datauppsättningen inaktuell med en pekare till den nya datauppsättningen. |
reactivate |
Återaktivera datauppsättningsdefinitionen. Fungerar med datauppsättningsdefinitioner som har blivit inaktuella eller arkiverade. |
to_pandas_dataframe |
Skapa en Pandas-dataram genom att köra transformeringspipelinen som definieras av den här datauppsättningsdefinitionen. |
to_spark_dataframe |
Skapa en Spark DataFrame som kan köra transformeringspipelinen som definieras av det här dataflödet. |
archive
Arkivera datauppsättningsdefinitionen.
archive()
Returer
Typ | Description |
---|---|
Inga. |
Kommentarer
Efter arkiveringen resulterar alla försök att hämta datauppsättningen i ett fel. Om arkiveras av misstag använder du reactivate för att aktivera den.
create_snapshot
Skapa en ögonblicksbild av den registrerade datauppsättningen.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Parametrar
Name | Description |
---|---|
snapshot_name
Obligatorisk
|
Namnet på ögonblicksbilden. Namn på ögonblicksbilder ska vara unika inom en datauppsättning. |
compute_target
|
ComputeTarget eller
str
Beräkningsmålet för att skapa ögonblicksbildsprofilen. Om det utelämnas används den lokala beräkningen. Standardvärde: None
|
create_data_snapshot
|
Om värdet är Sant skapas en materialiserad kopia av data. Standardvärde: False
|
target_datastore
|
Måldatalagringen där ögonblicksbilden ska sparas. Om den utelämnas skapas ögonblicksbilden i standardlagringen för arbetsytan. Standardvärde: None
|
Returer
Typ | Description |
---|---|
Ett DatasetSnapshot-objekt. |
Kommentarer
Ögonblicksbilder samlar in tidssammanfattningsstatistik för underliggande data och en valfri kopia av själva data. Mer information om hur du skapar ögonblicksbilder finns https://aka.ms/azureml/howto/createsnapshotsi .
deprecate
Gör datauppsättningen inaktuell med en pekare till den nya datauppsättningen.
deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)
Parametrar
Name | Description |
---|---|
deprecate_by_dataset_id
Obligatorisk
|
Det datauppsättnings-ID som ansvarar för utfasningen av den aktuella datauppsättningen. |
deprecated_by_definition_version
|
Den datamängdsdefinitionsversion som ansvarar för utfasningen av den aktuella datauppsättningsdefinitionen. Standardvärde: None
|
Returer
Typ | Description |
---|---|
Inga. |
Kommentarer
Inaktuella datauppsättningsdefinitioner loggar varningar när de används. Om du vill blockera en datauppsättningsdefinition helt från att användas arkiverar du den.
Om en datauppsättningsdefinition är inaktuell av misstag använder du reactivate för att aktivera den.
reactivate
Återaktivera datauppsättningsdefinitionen.
Fungerar med datauppsättningsdefinitioner som har blivit inaktuella eller arkiverade.
reactivate()
Returer
Typ | Description |
---|---|
Inga. |
to_pandas_dataframe
Skapa en Pandas-dataram genom att köra transformeringspipelinen som definieras av den här datauppsättningsdefinitionen.
to_pandas_dataframe()
Returer
Typ | Description |
---|---|
En Pandas DataFrame. |
Kommentarer
Returnera en Pandas DataFrame som är helt materialiserad i minnet.
to_spark_dataframe
Skapa en Spark DataFrame som kan köra transformeringspipelinen som definieras av det här dataflödet.
to_spark_dataframe()
Returer
Typ | Description |
---|---|
En Spark-dataram. |
Kommentarer
Spark-dataramen som returneras är bara en körningsplan och innehåller faktiskt inga data, eftersom Spark-dataramar utvärderas lazily.