DatasetSnapshot クラス
スナップを取得して、その状態を返し、データフレームに変換する操作を使用して、データセット スナップショットを管理します。
Note
このクラスは非推奨とされます。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。
DataSnapshot オブジェクトは、Dataset クラスの create_snapshot メソッドから返されます。
データセット スナップショットは、プロファイルとデータのオプションの具体化されたコピーの組み合わせです。
データセット スナップショットの詳細については、以下を参照してください。 https://aka.ms/azureml/howto/createsnapshots
- 継承
-
builtins.objectDatasetSnapshot
コンストラクター
DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)
パラメーター
名前 | 説明 |
---|---|
workspace
必須
|
<xref:azureml.core.Workspace.>
データセットが登録されるワークスペース。 |
snapshot_name
必須
|
データセット スナップショットの名前。 |
dataset_id
必須
|
データセットの ID。 |
definition_version
必須
|
データセットの定義バージョン。 |
time_stamp
必須
|
スナップショットの作成時刻。 |
profile_action_id
必須
|
スナップショット プロファイル アクション ID。 |
datastore_name
必須
|
スナップショット データ ストア名。 |
relative_path
必須
|
スナップショット データへの相対パス。 |
dataset_name
必須
|
データセットの名前です。 |
メソッド
compare_profiles |
現在のデータセットのプロファイルを rhs_dataset プロファイルと比較します。 プロファイルが存在しない場合、このメソッドは例外を発生させます。 |
get |
スナップショット名でデータセットのスナップショットを取得します。 |
get_all |
指定されたデータセットのすべてのスナップショットを取得します。 |
get_profile |
データセット スナップショットのプロファイルを取得します。 |
get_status |
データセット スナップショットの作成状態を取得します。 |
is_data_snapshot_available |
スナップショットの具体化されたコピーが使用可能かどうかをチェックします。 |
to_pandas_dataframe |
スナップショットと一緒に保存されたデータを読み込むことで、Pandas データフレームを作成します。 |
to_spark_dataframe |
スナップショットと一緒に保存されたデータを読み込むことで、Spark データフレームを作成します。 |
wait_for_completion |
DatasetSnapshot の生成が完了するまで待ちます。 |
compare_profiles
現在のデータセットのプロファイルを rhs_dataset プロファイルと比較します。
プロファイルが存在しない場合、このメソッドは例外を発生させます。
compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
パラメーター
名前 | 説明 |
---|---|
rhs_dataset_snapshot
必須
|
比較対象のデータセット スナップショット。 |
include_columns
|
比較対象の列名の一覧。 規定値: None
|
exclude_columns
|
比較対象外の列名の一覧。 規定値: None
|
histogram_compare_method
|
比較方法を記述する列挙型 (例: WASSERSTEIN または ENERGY)。 規定値: HistogramCompareMethod.WASSERSTEIN
|
戻り値
型 | 説明 |
---|---|
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>
|
プロファイルの違い。 |
get
スナップショット名でデータセットのスナップショットを取得します。
static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)
パラメーター
名前 | 説明 |
---|---|
workspace
必須
|
データセットが登録されるワークスペース。 |
snapshot_name
必須
|
データセット スナップショットの名前。 |
dataset_name
必須
|
データセットの名前です。 |
dataset_id
必須
|
データセットの ID。 |
戻り値
型 | 説明 |
---|---|
DatasetSnapshot オブジェクト。 |
get_all
指定されたデータセットのすべてのスナップショットを取得します。
static get_all(workspace, dataset_name)
パラメーター
名前 | 説明 |
---|---|
workspace
必須
|
データセットが登録されるワークスペース。 |
dataset_name
必須
|
データセットの名前です。 |
戻り値
型 | 説明 |
---|---|
データセット スナップショットの一覧。 |
get_profile
データセット スナップショットのプロファイルを取得します。
get_profile()
戻り値
型 | 説明 |
---|---|
<xref:azureml.dataprep.DataProfile>
|
データセット スナップショットの DataProfile |
get_status
is_data_snapshot_available
スナップショットの具体化されたコピーが使用可能かどうかをチェックします。
is_data_snapshot_available()
戻り値
型 | 説明 |
---|---|
データ スナップショットが使用可能な場合は True です。 |
to_pandas_dataframe
スナップショットと一緒に保存されたデータを読み込むことで、Pandas データフレームを作成します。
to_pandas_dataframe()
戻り値
型 | 説明 |
---|---|
Pandas データフレーム。 |
注釈
メモリ内で完全に具体化された Pandas データフレーム。 スナップショットが create_data_snapshot=False
で作成された場合は、例外がスローされます。 スナップショットにデータが含まれているかどうかを確認するには、is_data_snapshot_available 関数を使用します。
to_spark_dataframe
スナップショットと一緒に保存されたデータを読み込むことで、Spark データフレームを作成します。
to_spark_dataframe()
戻り値
型 | 説明 |
---|---|
Spark データフレーム。 |
注釈
返される Spark データフレームは実行プランに限定され、Spark データフレームは遅延評価されるので、実際にはデータを含みません。 スナップショットが create_data_snapshot=False
で作成された場合 は、データにアクセスしようとするときに例外がスローされます。 スナップショットにデータが含まれているかどうかを確認するには、is_data_snapshot_available を使用します。
wait_for_completion
DatasetSnapshot の生成が完了するまで待ちます。
wait_for_completion(show_output=True, status_update_frequency=10)
パラメーター
名前 | 説明 |
---|---|
show_output
|
メソッドが出力を出力するかどうかを示します。 規定値: True
|
status_update_frequency
|
アクションの実行状態の更新間隔 (秒単位)。 規定値: 10
|