共用方式為


OpenDatasetBase 類別

開啟要繼承的資料集基類。

建構開啟的資料集。

繼承
OpenDatasetBase

建構函式

OpenDatasetBase(cols: List[str] | None = None, enable_telemetry: bool = True, **kwargs)

參數

名稱 Description
cols

要從資料集載入的資料行名稱清單,預設值為 None

預設值: None
enable_telemetry

是否要在此資料集上啟用遙測,預設為 True

預設值: True
kwargs
必要

篩選準則的引數

方法

get_file_dataset

取得開啟資料集的檔案資料集。

get_tabular_dataset

使用 Blob URL 初始化 AbstractTabularOpenDataset。

to_pandas_dataframe

至 pandas 資料框架。

to_spark_dataframe

若要 Spark 資料框架。

get_file_dataset

取得開啟資料集的檔案資料集。

get_file_dataset(start_date: datetime = None, end_date: datetime = None, enable_telemetry: bool = True, **kwargs) -> FileDataset

參數

名稱 Description
cls
必要

current 類別

start_date
必要

開始日期,預設值為 None

end_date
必要

結束日期,預設值為 None

enable_telemetry
必要

啟用遙測或未啟用,預設值為 True

傳回

類型 Description

檔案資料集

get_tabular_dataset

使用 Blob URL 初始化 AbstractTabularOpenDataset。

get_tabular_dataset(start_date: datetime = None, end_date: datetime = None, cols: List[str] = None, enable_telemetry: bool = True, **kwargs) -> TabularDataset

參數

名稱 Description
cls
必要

開啟資料集的類型名稱。

start_date
必要

要以包容性方式查詢的開始日期。

end_date
必要

包含查詢的結束日期。

cols
必要

要擷取的資料行名稱清單。 無會取得所有資料行。

enable_telemetry
必要

是否啟用遙測,僅針對 UT 停用。

傳回

類型 Description

TabularDataset

to_pandas_dataframe

至 pandas 資料框架。

to_pandas_dataframe() -> DataFrame

to_spark_dataframe

若要 Spark 資料框架。

to_spark_dataframe()

屬性

cols

取得要擷取的資料行名稱清單。

data

取得 OpenDataset 物件的資料。

id

取得開啟資料的位置識別碼。

log_properties

取得記錄屬性。

registry_id

取得在後端註冊之此公用資料集的登錄識別碼。

此登錄識別碼可用來取得最新的中繼資料,例如儲存位置。 預期所有公用資料子類別都指派_registry_id。

傳回

類型 Description
str

登錄識別碼字串。

time_column_name

時間資料行名稱。