共用方式為


從雲端物件記憶體擷取數據

本文列出您可以從雲端物件記憶體設定累加擷取的方式。

新增資料 UI

若要瞭解如何使用新增數據的使用者介面從雲端物件儲存中的數據建立受控 table,請參閱 使用 Unity Catalog 外部位置載入數據。

筆記本或 SQL 編輯器

本節說明使用筆記本或 Databricks SQL 編輯器從雲端物件記憶體設定累加擷取的選項。

自動載入器

自動載入器 會在抵達雲端記憶體時,以累加且有效率的方式處理新的數據檔,而不需要額外的設定。 自動載入器提供稱為 cloudFiles的結構化串流來源。 在雲端檔案記憶體上指定輸入目錄路徑, cloudFiles 來源會在新檔案送達時自動處理新檔案,並可選擇同時處理該目錄中的現有檔案。

COPY INTO

透過 COPY INTO,SQL 使用者可以以等冪和逐步方式將數據從雲端物件存儲匯入到 Delta tables。 您可以在 Databricks SQL、筆記本和 Databricks 作業中使用 COPY INTO

何時使用 COPY INTO,以及何時使用自動載入器

在 [自動載入器] 和 COPY INTO之間選擇時,以下是需要考慮的一些事項:

  • 如果您要依一段時間內的數千個順序內嵌檔案,您可以使用 COPY INTO。 如果您預期檔案依一段時間的數百萬或更多,請使用自動載入器。 相較於,自動載入器需要較少的總作業來探索檔案 COPY INTO ,而且可以將處理分割成多個批次,這表示自動載入器在大規模上成本較低且更有效率。

  • 如果您的數據 schema 會經常發展,自動載入器會針對 schema 推斷和演進提供更好的基本數據類型。 如需詳細資訊,請參閱 在自動載入器 中設定 schema 推斷和演進。

  • 載入重新上傳的檔案子集可能會更容易使用 COPY INTO管理。 使用自動載入器時,較難重新處理 select 檔案子集。 不過,當自動載入器數據流同時執行時,您可以使用 COPY INTO 來重載檔案的子集。

  • 針對更可調整且健全的檔案擷取體驗,自動載入器可讓 SQL 使用者利用串流 tables。 請參閱在 Databricks SQL中 使用串流 載入數據。

如需自動載入器和 COPY INTO的簡短概觀和示範,請觀看下列 YouTube 影片(2 分鐘)。

使用 Delta Live Tables 和自動載入器將 ETL 自動化

您可以使用自動載入器和 Delta Live Tables來簡化可調整、累加式擷取基礎結構的部署。 Delta Live Tables 不會使用筆記本中的標準互動式執行,而是強調適用於生產環境的基礎結構部署。

第三方擷取工具

Databricks 會驗證技術合作夥伴整合,讓您能夠從各種來源內嵌,包括雲端物件記憶體。 這些整合可讓您從各種來源擷取低程序代碼、可調整的數據擷取到 Azure Databricks。 請參閱 技術合作夥伴。 某些技術合作夥伴在什麼是 Databricks Partner Connect?提供 UI,可簡化將第三方工具連線到 Lakehouse 數據的 UI。