OpenDatasetBase 類別
開啟要繼承的資料集基類。
建構開啟的資料集。
- 繼承
-
OpenDatasetBase
建構函式
OpenDatasetBase(cols: List[str] | None = None, enable_telemetry: bool = True, **kwargs)
參數
名稱 | Description |
---|---|
cols
|
要從資料集載入的資料行名稱清單,預設值為 None 預設值: None
|
enable_telemetry
|
是否要在此資料集上啟用遙測,預設為 True 預設值: True
|
kwargs
必要
|
篩選準則的引數 |
方法
get_file_dataset |
取得開啟資料集的檔案資料集。 |
get_tabular_dataset |
使用 Blob URL 初始化 AbstractTabularOpenDataset。 |
to_pandas_dataframe |
至 pandas 資料框架。 |
to_spark_dataframe |
若要 Spark 資料框架。 |
get_file_dataset
取得開啟資料集的檔案資料集。
get_file_dataset(start_date: datetime = None, end_date: datetime = None, enable_telemetry: bool = True, **kwargs) -> FileDataset
參數
名稱 | Description |
---|---|
cls
必要
|
current 類別 |
start_date
必要
|
開始日期,預設值為 None |
end_date
必要
|
結束日期,預設值為 None |
enable_telemetry
必要
|
啟用遙測或未啟用,預設值為 True |
傳回
類型 | Description |
---|---|
檔案資料集 |
get_tabular_dataset
使用 Blob URL 初始化 AbstractTabularOpenDataset。
get_tabular_dataset(start_date: datetime = None, end_date: datetime = None, cols: List[str] = None, enable_telemetry: bool = True, **kwargs) -> TabularDataset
參數
名稱 | Description |
---|---|
cls
必要
|
開啟資料集的類型名稱。 |
start_date
必要
|
要以包容性方式查詢的開始日期。 |
end_date
必要
|
包含查詢的結束日期。 |
cols
必要
|
要擷取的資料行名稱清單。 無會取得所有資料行。 |
enable_telemetry
必要
|
是否啟用遙測,僅針對 UT 停用。 |
傳回
類型 | Description |
---|---|
TabularDataset |
to_pandas_dataframe
至 pandas 資料框架。
to_pandas_dataframe() -> DataFrame
to_spark_dataframe
若要 Spark 資料框架。
to_spark_dataframe()
屬性
cols
取得要擷取的資料行名稱清單。
data
取得 OpenDataset 物件的資料。
id
取得開啟資料的位置識別碼。
log_properties
取得記錄屬性。
registry_id
取得在後端註冊之此公用資料集的登錄識別碼。
此登錄識別碼可用來取得最新的中繼資料,例如儲存位置。 預期所有公用資料子類別都指派_registry_id。
傳回
類型 | Description |
---|---|
登錄識別碼字串。 |
time_column_name
時間資料行名稱。