共用方式為


比較自動載入器檔案偵測模式

自動載入器支援兩種偵測新檔案的模式:目錄清單和檔案通知。 您可以在串流重新啟動之間切換檔案探索模式,但仍能取得一次完全一次的數據處理保證。

目錄清單模式

在目錄清單模式中,自動載入器會列出輸入目錄來識別新的檔案。 目錄清單模式可讓您快速啟動自動載入器串流,而不需要存取雲端記憶體上數據以外的任何許可權設定。

在 Databricks Runtime 9.1 和更新版本中,自動載入器可以自動偵測檔案是否以語匯順序抵達您的雲端記憶體,並大幅減少偵測新檔案所需的 API 呼叫數量。 如需詳細資訊,請參閱什麼是自動載入器目錄清單模式?

檔案通知模式

檔案通知模式會利用雲端基礎結構帳戶中的檔案通知和佇列服務。 自動載入器可以自動設定通知服務和佇列服務,以訂閱輸入目錄中的檔案事件。

檔案通知模式對於大型輸入目錄或大量檔案而言更有效能且可調整,但需要額外的雲端許可權才能設定。 如需詳細資訊,請參閱 什麼是自動載入器檔案通知模式?

模式支援的雲端記憶體

這些模式的可用性如下所列。

如果您從外部位置或 DBFS 掛接移轉至 Unity 目錄磁碟區,自動載入器會繼續提供完全一次的保證。

雲端存放裝置 目錄清單 檔案通知
AWS S3 所有版本 所有版本
ADLS Gen2 所有版本 所有版本
GCS 所有版本 Databricks Runtime 9.1 和更新版本
Azure Blob 儲存體 所有版本 所有版本
ADLS Gen1 所有版本 不支援
DBFS 所有版本 僅適用於裝入點
Unity 目錄磁碟區 Databricks Runtime 13.3 LTS 和更新版本 不支援