DatasetSnapshot Classe

Referência

Gerencia instantâneos de conjuntos de dados com operações para obter um instantâneo, retornar seu status e convertê-lo em um dataframe.

Observação

Essa classe foi preterida. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

Um objeto DataSnapshot é retornado do método create_snapshot da classe Dataset.

O conjunto de dados instantâneo é uma combinação de Perfil e uma cópia materializada opcional dos dados.

Para saber mais sobre instantâneos de conjunto de dados, acesse https://aka.ms/azureml/howto/createsnapshots

Herança: builtins.object

DatasetSnapshot

Construtor

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

Parâmetros

Nome	Description
workspace Obrigatório	<xref:azureml.core.Workspace.> O workspace em que o conjunto de dados está registrado.
snapshot_name Obrigatório	str O nome do instantâneo do conjuntos de dados.
dataset_id Obrigatório	str O identificador exclusivo do conjunto de dados.
definition_version Obrigatório	str A versão de definição do conjunto de dados.
time_stamp Obrigatório	datetime O instantâneo hora de criação.
profile_action_id Obrigatório	str A ID da ação do perfil de instantâneo.
datastore_name Obrigatório	str O instantâneo nome do armazenamento de dados.
relative_path Obrigatório	str O caminho relativo para os dados instantâneo.
dataset_name Obrigatório	str O nome do conjunto de dados.

Métodos

compare_profiles	Comparar o perfil do conjunto de dados atual com outro perfil rhs_dataset. Se os perfis não existirem, esse método vai criar uma exceção.
get	Obter o instantâneo do conjunto de dados pelo nome do instantâneo.
get_all	Obter todos os instantâneos do conjunto de dados fornecido.
get_profile	Obter o perfil do instantâneo do conjuntos de dados.
get_status	Obter o status de criação de instantâneo de conjuntos de dados.
is_data_snapshot_available	Verifique se a cópia materializada do instantâneo está disponível.
to_pandas_dataframe	Criar um DataFrame do Pandas carregando os dados salvos com o instantâneo.
to_spark_dataframe	Crie um DataFrame do Spark carregando os dados salvos com o instantâneo.
wait_for_completion	Aguardar a conclusão da geração do DatasetSnapshot.

compare_profiles

Comparar o perfil do conjunto de dados atual com outro perfil rhs_dataset.

Se os perfis não existirem, esse método vai criar uma exceção.

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Parâmetros

Nome	Description
rhs_dataset_snapshot Obrigatório	DatasetSnapshot O instantâneo de conjuntos de dados com o qual comparar.
include_columns	list[str] Uma lista de nomes de coluna a serem incluídos na comparação. Valor padrão: None
exclude_columns	list[str] Uma lista de nomes de coluna a serem excluídos na comparação. Valor padrão: None
histogram_compare_method	HistogramCompareMethod Enumeração que descreve o método de comparação, por exemplo: WASSERSTEIN ou ENERGY. Valor padrão: HistogramCompareMethod.WASSERSTEIN

Retornos

Tipo	Description
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>	A diferença entre os perfis.

get

Obter o instantâneo do conjunto de dados pelo nome do instantâneo.

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

Parâmetros

Nome	Description
workspace Obrigatório	Workspace O workspace em que o conjunto de dados está registrado.
snapshot_name Obrigatório	str O nome do instantâneo do conjuntos de dados.
dataset_name Obrigatório	O nome do conjunto de dados.
dataset_id Obrigatório	uuid O identificador exclusivo do conjunto de dados.

Retornos

Tipo	Description
DatasetSnapshot	Um objeto DatasetSnapshot.

get_all

Obter todos os instantâneos do conjunto de dados fornecido.

static get_all(workspace, dataset_name)

Parâmetros

Nome	Description
workspace Obrigatório	Workspace O workspace em que o conjunto de dados está registrado.
dataset_name Obrigatório	O nome do conjunto de dados.

Retornos

Tipo	Description
list[DatasetSnapshot]	Uma lista de instantâneos de conjuntos de dados

get_profile

Obter o perfil do instantâneo do conjuntos de dados.

get_profile()

Retornos

Tipo	Description
<xref:azureml.dataprep.DataProfile>	O DataProfile do instantâneo do conjuntos de dados

get_status

Obter o status de criação de instantâneo de conjuntos de dados.

get_status()

Retornos

Tipo	Description
str	O status do instantâneo do conjuntos de dados.

is_data_snapshot_available

Verifique se a cópia materializada do instantâneo está disponível.

is_data_snapshot_available()

Retornos

Tipo	Description
bool	True se o instantâneo de dados estiver disponível.

to_pandas_dataframe

Criar um DataFrame do Pandas carregando os dados salvos com o instantâneo.

to_pandas_dataframe()

Retornos

Tipo	Description
DataFrame	Um DataFrame do Pandas.

Comentários

O DataFrame do Pandas é totalmente materializado na memória. Se o instantâneo tiver sido criado com create_data_snapshot=False, uma exceção será lançada. Para verificar se o instantâneo contém dados, use a função is_data_snapshot_available.

to_spark_dataframe

Crie um DataFrame do Spark carregando os dados salvos com o instantâneo.

to_spark_dataframe()

Retornos

Tipo	Description
DataFrame	Um DataFrame do Spark.

Comentários

O Dataframe do Spark retornado é apenas um plano de execução e não contém nenhum dado, já que os Dataframes do Spark são avaliados lentamente. Se o instantâneo tiver sido criado com create_data_snapshot=False, uma exceção será lançada quando você tentar acessar os dados. Para verificar se o instantâneo contém dados, use a função is_data_snapshot_available.

wait_for_completion

Aguardar a conclusão da geração do DatasetSnapshot.

wait_for_completion(show_output=True, status_update_frequency=10)

Parâmetros

Nome	Description
show_output	bool Indica se o método imprimirá a saída. Valor padrão: True
status_update_frequency	int A frequência de atualização de status de execução da ação em segundos. Valor padrão: 10

Atributos

dataset_id

Obter o identificador do conjuntos de dados.

Retornos

Tipo	Description
str	A ID do Conjunto de dados.

name

Obter o nome do instantâneo do conjuntos de dados.

Retornos

Tipo	Description
str	O nome do instantâneo do conjuntos de dados.

workspace

Obter o workspace do Azure Machine Learning em que o conjuntos de dados está registrado.

Retornos

Tipo	Description
Workspace	O workspace em que o conjunto de dados está registrado.

Compartilhar via

DatasetSnapshot Classe

Construtor

Parâmetros

Métodos

compare_profiles

Parâmetros

Retornos

get

Parâmetros

Retornos

get_all

Parâmetros

Retornos

get_profile

Retornos

get_status

Retornos

is_data_snapshot_available

Retornos

to_pandas_dataframe

Retornos

Comentários

to_spark_dataframe

Retornos

Comentários

wait_for_completion

Parâmetros

Atributos

dataset_id

Retornos

name

Retornos

workspace

Retornos

Comentários

Recursos adicionais