DatasetDefinition Classe
Define uma série de passos que especificam como ler e transformar dados num Conjunto de Dados.
Nota
Esta classe foi preterida. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
Um Conjunto de dados registado numa área de trabalho do Azure Machine Learning pode ter várias definições, cada uma criada ao chamar update_definition. Cada definição tem um identificador exclusivo. A definição atual é a mais recente criada.
Para conjuntos de dados não registados, existe apenas uma definição.
As definições de conjuntos de dados suportam todas as transformações listadas para a <xref:azureml.dataprep.Dataflow> classe: consulte http://aka.ms/azureml/howto/transformdata. Para saber mais sobre definições de conjuntos de dados, aceda a https://aka.ms/azureml/howto/versiondata.
Inicialize o objeto de definição conjunto de dados.
- Herança
-
azureml.dataprep.api.engineless_dataflow.EnginelessDataflowDatasetDefinition
Construtor
DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')
Parâmetros
Name | Description |
---|---|
workspace
Necessário
|
A área de trabalho na qual o Conjunto de Dados está registado. |
dataset_id
Necessário
|
O identificador conjunto de dados. |
version_id
Necessário
|
A versão de definição. |
dataflow
Necessário
|
O objeto Fluxo de Dados. |
dataflow_json
Necessário
|
O json do Fluxo de Dados. |
notes
Necessário
|
Informações opcionais sobre a definição. |
etag
Necessário
|
Etag. |
created_time
Necessário
|
A hora de criação da definição. |
modified_time
Necessário
|
A última hora modificada da definição. |
deprecated_by_dataset_id
Necessário
|
O ID do Conjunto de Dados que pretere esta definição. |
deprecated_by_definition_version
Necessário
|
A versão da definição que pretere esta definição. |
data_path
Necessário
|
O caminho dos dados. |
dataset
Necessário
|
O objeto principal conjunto de dados. |
Métodos
archive |
Arquivar a definição do conjunto de dados. |
create_snapshot |
Crie um instantâneo do Conjunto de Dados registado. |
deprecate |
Pretera o Conjunto de Dados com um ponteiro para o novo Conjunto de Dados. |
reactivate |
Reativar a definição do conjunto de dados. Funciona em definições de conjuntos de dados que foram preteridas ou arquivadas. |
to_pandas_dataframe |
Crie um dataframe do Pandas ao executar o pipeline de transformação definido por esta definição de conjunto de dados. |
to_spark_dataframe |
Crie um DataFrame do Spark que possa executar o pipeline de transformação definido por este Fluxo de Dados. |
archive
Arquivar a definição do conjunto de dados.
archive()
Devoluções
Tipo | Description |
---|---|
Nenhum. |
Observações
Após o arquivo, qualquer tentativa de obter o conjunto de dados resultará num erro. Se for arquivado por acidente, utilize reactivate para o ativar.
create_snapshot
Crie um instantâneo do Conjunto de Dados registado.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Parâmetros
Name | Description |
---|---|
snapshot_name
Necessário
|
O nome do instantâneo. Os nomes dos instantâneos devem ser exclusivos num Conjunto de Dados. |
compute_target
|
ComputeTarget ou
str
O destino de computação para efetuar a criação do perfil de instantâneo. Se omitido, é utilizada a computação local. Default value: None
|
create_data_snapshot
|
Se For Verdadeiro, será criada uma cópia materializada dos dados. Default value: False
|
target_datastore
|
O arquivo de dados de destino onde guardar o instantâneo. Se omitido, o instantâneo será criado no armazenamento predefinido da área de trabalho. Default value: None
|
Devoluções
Tipo | Description |
---|---|
Um objeto DatasetSnapshot. |
Observações
Os instantâneos capturam estatísticas de resumo do ponto no tempo dos dados subjacentes e uma cópia opcional dos próprios dados. Para saber mais sobre como criar instantâneos, aceda a https://aka.ms/azureml/howto/createsnapshots.
deprecate
Pretera o Conjunto de Dados com um ponteiro para o novo Conjunto de Dados.
deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)
Parâmetros
Name | Description |
---|---|
deprecate_by_dataset_id
Necessário
|
O ID do conjunto de dados responsável pela preterição do conjunto de dados atual. |
deprecated_by_definition_version
|
A versão de definição do conjunto de dados responsável pela preterição da definição do conjunto de dados atual. Default value: None
|
Devoluções
Tipo | Description |
---|---|
Nenhum. |
Observações
As definições de conjuntos de dados preteridas registarão avisos quando forem consumidas. Para bloquear completamente a utilização de uma definição de conjunto de dados, arquive-a.
Se uma definição de conjunto de dados for preterida por acidente, utilize reactivate para ativá-la.
reactivate
Reativar a definição do conjunto de dados.
Funciona em definições de conjuntos de dados que foram preteridas ou arquivadas.
reactivate()
Devoluções
Tipo | Description |
---|---|
Nenhum. |
to_pandas_dataframe
Crie um dataframe do Pandas ao executar o pipeline de transformação definido por esta definição de conjunto de dados.
to_pandas_dataframe()
Devoluções
Tipo | Description |
---|---|
Um DataFrame do Pandas. |
Observações
Devolver um DataFrame do Pandas totalmente materializado na memória.
to_spark_dataframe
Crie um DataFrame do Spark que possa executar o pipeline de transformação definido por este Fluxo de Dados.
to_spark_dataframe()
Devoluções
Tipo | Description |
---|---|
Um DataFrame do Spark. |
Observações
O Dataframe do Spark devolvido é apenas um plano de execução e não contém dados, uma vez que os Dataframes do Spark são avaliados de forma preguiçosa.