DatasetSnapshot 類別
使用作業管理資料集快照集,以取得貼齊、傳回其狀態,並將其轉換為數據框架。
注意
這個類別已被取代。 如需詳細資訊,請參閱 https://aka.ms/dataset-deprecation 。
DataSnapshot 物件是從 create_snapshot 類別的 方法傳 Dataset 回。
資料集快照集是設定檔和選擇性具體化資料複本的組合。
若要深入瞭解資料集快照集,請移至 https://aka.ms/azureml/howto/createsnapshots
- 繼承
-
builtins.objectDatasetSnapshot
建構函式
DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)
參數
名稱 | Description |
---|---|
workspace
必要
|
<xref:azureml.core.Workspace.>
資料集註冊所在的工作區。 |
snapshot_name
必要
|
資料集快照集的名稱。 |
dataset_id
必要
|
資料集的識別碼。 |
definition_version
必要
|
資料集的定義版本。 |
time_stamp
必要
|
快照集建立時間。 |
profile_action_id
必要
|
快照集設定檔動作識別碼。 |
datastore_name
必要
|
快照集資料存放區名稱。 |
relative_path
必要
|
快照集資料的相對路徑。 |
dataset_name
必要
|
資料集的名稱。 |
方法
compare_profiles |
比較目前的資料集設定檔與rhs_dataset設定檔。 如果設定檔不存在,這個方法將會引發例外狀況。 |
get |
依快照集名稱取得資料集的快照集。 |
get_all |
取得指定資料集的所有快照集。 |
get_profile |
取得資料集快照集的設定檔。 |
get_status |
取得資料集快照集建立狀態。 |
is_data_snapshot_available |
檢查快照集的具體化複本是否可用。 |
to_pandas_dataframe |
載入與快照集一起儲存的資料,以建立 Pandas DataFrame。 |
to_spark_dataframe |
載入與快照集一起儲存的資料,以建立 Spark 資料框架。 |
wait_for_completion |
等候 DatasetSnapshot gene,完成。 |
compare_profiles
比較目前的資料集設定檔與rhs_dataset設定檔。
如果設定檔不存在,這個方法將會引發例外狀況。
compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
參數
名稱 | Description |
---|---|
rhs_dataset_snapshot
必要
|
要與 比較的資料集快照集。 |
include_columns
|
要包含在比較中的資料行名稱清單。 預設值: None
|
exclude_columns
|
比較中要排除的資料行名稱清單。 預設值: None
|
histogram_compare_method
|
描述比較方法的列舉,例如:WASSER一或能源。 預設值: HistogramCompareMethod.WASSERSTEIN
|
傳回
類型 | Description |
---|---|
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>
|
設定檔之間的差異。 |
get
依快照集名稱取得資料集的快照集。
static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)
參數
名稱 | Description |
---|---|
workspace
必要
|
資料集註冊所在的工作區。 |
snapshot_name
必要
|
資料集快照集的名稱。 |
dataset_name
必要
|
資料集的名稱。 |
dataset_id
必要
|
資料集的識別碼。 |
傳回
類型 | Description |
---|---|
DatasetSnapshot 物件。 |
get_all
取得指定資料集的所有快照集。
static get_all(workspace, dataset_name)
參數
名稱 | Description |
---|---|
workspace
必要
|
資料集註冊所在的工作區。 |
dataset_name
必要
|
資料集的名稱。 |
傳回
類型 | Description |
---|---|
資料集快照集的清單 |
get_profile
取得資料集快照集的設定檔。
get_profile()
傳回
類型 | Description |
---|---|
<xref:azureml.dataprep.DataProfile>
|
資料集快照集的 DataProfile |
get_status
is_data_snapshot_available
to_pandas_dataframe
載入與快照集一起儲存的資料,以建立 Pandas DataFrame。
to_pandas_dataframe()
傳回
類型 | Description |
---|---|
Pandas 資料框架。 |
備註
Pandas DataFrame 會在記憶體中完整具體化。 如果使用 建立 create_data_snapshot=False
快照集,則會擲回例外狀況。 若要檢查快照集是否包含資料,請使用 函式 is_data_snapshot_available 。
to_spark_dataframe
載入與快照集一起儲存的資料,以建立 Spark 資料框架。
to_spark_dataframe()
傳回
類型 | Description |
---|---|
Spark DataFrame。 |
備註
傳回的 Spark 資料框架只是執行計畫,而且實際上不包含任何資料,因為 Spark 資料框架會延遲評估。 如果快照集是以 建立 create_data_snapshot=False
,當您嘗試存取資料時,就會擲回例外狀況。 若要檢查快照集是否包含資料,請使用 is_data_snapshot_available 。
wait_for_completion
等候 DatasetSnapshot gene,完成。
wait_for_completion(show_output=True, status_update_frequency=10)
參數
名稱 | Description |
---|---|
show_output
|
指出方法是否會列印輸出。 預設值: True
|
status_update_frequency
|
動作會以秒為單位執行狀態更新頻率。 預設值: 10
|