Partilhar via


DatasetSnapshot Classe

Gere instantâneos de Conjuntos de dados com operações para obter um snapsot, devolver o respetivo estado e convertê-lo num dataframe.

Nota

Esta classe foi preterida. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

É devolvido um objeto DataSnapshot a create_snapshot partir do método da Dataset classe .

O instantâneo do conjunto de dados é uma combinação de Perfil e uma cópia materializada opcional dos dados.

Para saber mais sobre os Instantâneos de Conjuntos de Dados, aceda a https://aka.ms/azureml/howto/createsnapshots

Herança
builtins.object
DatasetSnapshot

Construtor

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

Parâmetros

Name Description
workspace
Necessário
<xref:azureml.core.Workspace.>

A área de trabalho na qual o Conjunto de Dados está registado.

snapshot_name
Necessário
str

O nome do instantâneo do Conjunto de Dados.

dataset_id
Necessário
str

O identificador do Conjunto de Dados.

definition_version
Necessário
str

A versão de definição do Conjunto de Dados.

time_stamp
Necessário

A hora de criação do instantâneo.

profile_action_id
Necessário
str

O ID da ação do perfil de instantâneo.

datastore_name
Necessário
str

O nome do arquivo de dados de instantâneos.

relative_path
Necessário
str

O caminho relativo para os dados do instantâneo.

dataset_name
Necessário
str

O nome do Conjunto de Dados.

Métodos

compare_profiles

Compare o perfil do conjunto de dados atual com rhs_dataset perfil.

Se os perfis não existirem, este método gerará uma exceção.

get

Obtenha o instantâneo do Conjunto de Dados por nome de instantâneo.

get_all

Obtenha todos os instantâneos do Conjunto de Dados especificado.

get_profile

Obtenha o perfil do instantâneo conjunto de dados.

get_status

Obtenha o estado de criação de instantâneos do Conjunto de dados.

is_data_snapshot_available

Verifique se a cópia materializada do instantâneo está disponível.

to_pandas_dataframe

Crie um DataFrame do Pandas ao carregar os dados guardados com o instantâneo.

to_spark_dataframe

Crie um DataFrame do Spark ao carregar os dados guardados com o instantâneo.

wait_for_completion

Aguarde pela conclusão do datasetSnapshot generaton.

compare_profiles

Compare o perfil do conjunto de dados atual com rhs_dataset perfil.

Se os perfis não existirem, este método gerará uma exceção.

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Parâmetros

Name Description
rhs_dataset_snapshot
Necessário

O instantâneo do Conjunto de dados com o que comparar.

include_columns

Uma lista de nomes de coluna a incluir na comparação.

Default value: None
exclude_columns

Uma lista de nomes de coluna a serem excluídos na comparação.

Default value: None
histogram_compare_method

Uma enumeração que descreve o método de comparação, por exemplo: WASSERSTEIN ou ENERGY.

Default value: HistogramCompareMethod.WASSERSTEIN

Devoluções

Tipo Description
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

A diferença entre os perfis.

get

Obtenha o instantâneo do Conjunto de Dados por nome de instantâneo.

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

Parâmetros

Name Description
workspace
Necessário

A área de trabalho na qual o Conjunto de Dados está registado.

snapshot_name
Necessário
str

O nome do instantâneo do Conjunto de Dados.

dataset_name
Necessário

O nome do Conjunto de Dados.

dataset_id
Necessário

O identificador do Conjunto de Dados.

Devoluções

Tipo Description

Um objeto DatasetSnapshot.

get_all

Obtenha todos os instantâneos do Conjunto de Dados especificado.

static get_all(workspace, dataset_name)

Parâmetros

Name Description
workspace
Necessário

A área de trabalho na qual o Conjunto de Dados está registado.

dataset_name
Necessário

O nome do Conjunto de Dados.

Devoluções

Tipo Description

Uma lista de instantâneos do Conjunto de Dados

get_profile

Obtenha o perfil do instantâneo conjunto de dados.

get_profile()

Devoluções

Tipo Description
<xref:azureml.dataprep.DataProfile>

O DataProfile do instantâneo do Conjunto de Dados

get_status

Obtenha o estado de criação de instantâneos do Conjunto de dados.

get_status()

Devoluções

Tipo Description
str

O estado do instantâneo do Conjunto de Dados.

is_data_snapshot_available

Verifique se a cópia materializada do instantâneo está disponível.

is_data_snapshot_available()

Devoluções

Tipo Description

Verdadeiro se o instantâneo de dados estiver disponível.

to_pandas_dataframe

Crie um DataFrame do Pandas ao carregar os dados guardados com o instantâneo.

to_pandas_dataframe()

Devoluções

Tipo Description

Um DataFrame do Pandas.

Observações

O DataFrame do Pandas é totalmente materializado na memória. Se o instantâneo tiver sido criado com create_data_snapshot=False, é emitida uma exceção. Para verificar se o instantâneo contém dados, utilize a função is_data_snapshot_available.

to_spark_dataframe

Crie um DataFrame do Spark ao carregar os dados guardados com o instantâneo.

to_spark_dataframe()

Devoluções

Tipo Description

Um DataFrame do Spark.

Observações

O Dataframe do Spark devolvido é apenas um plano de execução e não contém quaisquer dados, uma vez que os Dataframes do Spark são avaliados de forma preguiçosa. Se o instantâneo tiver sido criado com create_data_snapshot=False, é emitida uma exceção quando tenta aceder aos dados. Para verificar se o instantâneo contém dados, utilize is_data_snapshot_available.

wait_for_completion

Aguarde pela conclusão do datasetSnapshot generaton.

wait_for_completion(show_output=True, status_update_frequency=10)

Parâmetros

Name Description
show_output

Indica se o método irá imprimir a saída.

Default value: True
status_update_frequency
int

A frequência de atualização do estado da execução da ação em segundos.

Default value: 10

Atributos

dataset_id

Obtenha o identificador do Conjunto de Dados.

Devoluções

Tipo Description
str

O ID do Conjunto de Dados.

name

Obtenha o nome do instantâneo do Conjunto de dados.

Devoluções

Tipo Description
str

O nome do instantâneo do Conjunto de dados.

workspace

Obtenha a área de trabalho do Azure Machine Learning onde o Conjunto de Dados está registado.

Devoluções

Tipo Description

A área de trabalho onde o Conjunto de Dados está registado.