從 Amazon S3 取得資料
數據擷取是用來將數據從一或多個來源載入 Azure 數據總管數據表的程式。 內嵌之後,資料即可供用於查詢。 在本文中,您將瞭解如何從 Amazon S3 取得資料到新的或現有的資料表。
如需 Amazon S3 的詳細資訊,請參閱什麼是 Amazon S3。
如需數據擷取的一般資訊,請參閱 Azure 數據總管數據擷取概觀。
必要條件
- Microsoft帳戶或Microsoft Entra 使用者身分識別。 不需要 Azure 訂用帳戶。
- 登入 Azure 數據總 管 Web UI。
- Azure 資料總管叢集和資料庫。 建立叢集和資料庫。
取得資料
來源
在取得資料視窗中,已選取來源索引標籤。
從可用清單選取資料來源。 在此範例中,您會從 Amazon S3 擷取數據。
設定
選取目標資料庫和數據表。 如果想要將資料擷取到新資料表,請選取 + 新增資料表,然後輸入資料表名稱。
注意
資料表名稱最多可包含 1024 個字元,包括空白、字母數字、連字號與底線。 但不支援特殊字元。
在 URI 欄位中,貼上單一貯體的連接字串,或下列格式的個別物件。
Bucket:
https://
BucketName.s3.
RegionName.amazonaws.com
物件: ObjectName
;AwsCredentials=
AwsAccessID,
AwsSecretKey您可以選擇性地套用貯體篩選,以根據特定的副檔名來篩選資料。
注意
擷取最多可支援 6GB 的檔案大小。 建議擷取介於 100 MB 到 1 GB 之間的檔案。
選取 [下一步]。
檢查
[檢查] 索引標籤隨即開啟,並預覽數據。
若要完成擷取程序,請選取完成。
或者:
- 選取命令檢視器以檢視和複製從輸入產生的自動命令。
- 使用結構描述定義檔案下拉式清單來變更結構描述所匯出的檔案。
- 從下拉式清單中選取所需的格式,變更自動推斷的資料格式。 請參閱 Azure 資料總管支持的數據格式以擷取。
- 編輯資料行。
- 探索基於資料類型的進階選項。
編輯資料行
注意
- 針對表格式格式 (CSV、TSV、PSV),您無法對應資料行兩次。 若要對應至現有的資料行,請先刪除新資料行。
- 您無法變更現有的資料行類型。 如果您嘗試對應到具有不同格式的資料行,最終可能會出現空資料行。
您可以在資料表中進行的變更取決於下列參數:
- 資料表類型是新的或現有的
- 對應類型是新的或現有的
資料表類型 | 對應類型 | 可用的調整 |
---|---|---|
新增資料表 | 新的對應 | 重新命名資料行、變更資料類型、變更資料來源、對應轉換、新增資料行、刪除資料行 |
現有的資料表 | 新的對應 | 新增資料行 (然後您可以在其中變更資料類型、重新命名和更新) |
現有的資料表 | 現有的對應 | none |
對應變換
某些資料格式對應 (Parquet、JSON 和 Avro) 支援簡單的擷取時間轉換。 若要套用對應轉換,請在編輯資料行視窗中建立或更新資料行。
對應變換可以在 string 或 datetime 類型的資料行上執行,而來源具有資料類型 int 或 long。 支援的對應轉換如下:
- DateTimeFromUnixSeconds
- DateTimeFromUnixMilliseconds
- DateTimeFromUnixMicroseconds
- DateTimeFromUnixNanoseconds
基於資料類型的進階選項
表格式 (CSV、TSV、PSV):
如果您要內嵌現有資料表中的表格式格式,您可以選取 [進階>保留目前數據表架構]。 資料表式資料不一定包含用來將來源資料對應至現有資料行的資料行名稱。 勾選此選項時,會按順序進行對應,資料表結構描述保持不變。 如果未勾選此選項,無論資料結構如何,都會為傳入資料建立新資料行。
若要使用第一列作為資料行名稱,請選取進階>以第一列作為資料行標題。
JSON:
若要確定 JSON 資料的資料行劃分,請選取進階>巢狀層級,從 1 到 100。
如果您選取 [進階>忽略數據格式錯誤],則會以 JSON 格式擷取數據。 如果未選取此核取方塊,則會以 multijson 格式擷取資料。
摘要
在資料準備視窗中,當資料擷取成功完成時,會以綠色核取記號標記所有三個步驟。 您可以檢視用於每個步驟的命令,或選取卡片來查詢、可視化或卸除內嵌的數據。