比較自動載入器檔案偵測模式
自動載入器支援兩種偵測新檔案的模式:目錄清單和檔案通知。 您可以在串流重新啟動之間切換檔案探索模式,但仍能取得一次完全一次的數據處理保證。
目錄清單模式
在目錄清單模式中,自動載入器會列出輸入目錄來識別新的檔案。 目錄清單模式可讓您快速啟動自動載入器串流,而不需要存取雲端記憶體上數據以外的任何許可權設定。
在 Databricks Runtime 9.1 和更新版本中,自動載入器可以自動偵測檔案是否以語匯順序抵達您的雲端記憶體,並大幅減少偵測新檔案所需的 API 呼叫數量。 如需詳細資訊,請參閱什麼是自動載入器目錄清單模式?
檔案通知模式
檔案通知模式會利用雲端基礎結構帳戶中的檔案通知和佇列服務。 自動載入器可以自動設定通知服務和佇列服務,以訂閱輸入目錄中的檔案事件。
檔案通知模式對於大型輸入目錄或大量檔案而言更有效能且可調整,但需要額外的雲端許可權才能設定。 如需詳細資訊,請參閱 什麼是自動載入器檔案通知模式?。
模式支援的雲端記憶體
這些模式的可用性如下所列。
如果您從外部位置或 DBFS 掛接移轉至 Unity 目錄磁碟區,自動載入器會繼續提供完全一次的保證。
雲端存放裝置 | 目錄清單 | 檔案通知 |
---|---|---|
AWS S3 | 所有版本 | 所有版本 |
ADLS Gen2 | 所有版本 | 所有版本 |
GCS | 所有版本 | Databricks Runtime 9.1 和更新版本 |
Azure Blob 儲存體 | 所有版本 | 所有版本 |
ADLS Gen1 | 所有版本 | 不支援 |
DBFS | 所有版本 | 僅適用於裝入點 |
Unity 目錄磁碟區 | Databricks Runtime 13.3 LTS 和更新版本 | 不支援 |