共用方式為


使用 Azure Data Factory 和 Azure Data Share 進行資料整合

適用於:Azure Data Factory Azure Synapse Analytics

提示

試用 Microsoft Fabric 中的 Data Factory,這是適用於企業的全方位分析解決方案。 Microsoft Fabric 涵蓋從資料移動到資料科學、即時分析、商業智慧和報告的所有項目。 了解如何免費開始新的試用

客戶在採用現代化資料倉儲和分析專案的過程中,不僅需要更多的資料,也必須更深入了解其資料資產中的資料。 此研討會將探討如何經由 Azure Data Factory 和 Azure Data Share 的改良來簡化 Azure 中的資料整合與管理。

從啟用無程式碼的 ETL/ELT,乃至於對您的資料建立完整的檢視,Azure Data Factory 的改良都可讓資料工程師安心地為您的企業導入更多資料,進而提升價值。 Azure Data Share 可讓您以受到控管的方式進行企業對企業共用。

在此研討會中,您會使用 Azure Data Factory (ADF),將 Azure SQL Database 中的資料擷取至 Azure Data Lake Storage Gen2 (ADLS Gen2) 中。 在您將資料放入 Lake 之後,您會透過對應資料流程 (資料處理站的原生轉換服務) 進行資料轉換,並將其接收至 Azure Synapse Analytics 中。 然後,您將會使用 Azure Data Share 與已轉換的資料和一些額外的資料共用資料表。

本實驗室中使用的資料是紐約市計程車資料。 若要將其匯入您在 SQL Database 中的資料庫,請下載 taxi-data bacpac 檔案。 在 GitHub 中選取 [下載原始檔案] 選項。

必要條件

設定您的 Azure Data Factory 環境

在本節中,您會了解如何從 Azure 入口網站存取 Azure Data Factory 使用者體驗 (ADF UX)。 在 ADF UX 中,您會為我們使用的每個資料存放區設定三個連結服務:Azure SQL Database、ADLS Gen2 和 Azure Synapse Analytics。

在 Azure Data Factory 連結服務中,定義外部資源的連線資訊。 Azure Data Factory 目前支援超過 85 個連接器。

開啟 Azure Data Factory UX

  1. 在 Microsoft Edge 或 Google Chrome 中開啟 Azure 入口網站

  2. 使用頁面頂端的搜尋列,搜尋「資料處理站」。

  3. 選取您的資料處理站資源,以在左側窗格中開啟其資源。

    Azure 入口網站中的資料處理站概觀頁面的螢幕擷取畫面。

  4. 選取 [Open Azure Data Factory Studio] \(開啟Azure Data Factory Studio\)。 您也可以直接在 adf.azure.com 存取 Data Factory Studio。

    Azure 入口網站中的 Azure Data Factory 首頁的螢幕擷取畫面。

  5. 您會被重新導向至 Azure 入口網站中的 ADF 首頁。 此頁面包含可供學習資料處理站概念的快速入門、指導影片和教學課程連結。 若要開始製作,請選取左側提要欄位中的鉛筆圖示。

    Azure 入口網站中的入口網站設定的螢幕擷取畫面。

建立 Azure SQL Database 連結服務

  1. 若要建立連結服務,請選取左側提要欄位中的 [管理] 中樞,並在 [連線] 窗格選取 [連結服務],接著選取 [新增] 以新增連結服務。

    在 Azure 入口網站中建立新連結服務的螢幕擷取畫面。

  2. 您設定的第一個連結服務是 Azure SQL Database。 您可以使用搜尋列來篩選資料存放區清單。 選取 [Azure SQL Database] 圖格,然後選取 [繼續]。

    在 Azure 入口網站中建立新的 Azure SQL Database 連結服務的螢幕擷取畫面。

  3. 在 SQL Database 設定窗格中,輸入 'SQLDB' 作為連結服務名稱。 輸入您的認證,以允許資料處理站連線至您的資料庫。 如果您使用 SQL 驗證,請輸入伺服器名稱、資料庫、您的使用者名稱和密碼。 您可以按一下 [測試連線],以確認連線資訊正確無誤。 完成後,請選取 [建立]

    在 Azure 入口網站中設定新的 Azure SQL Database 連結服務的螢幕擷取畫面,其中包含已成功測試的連線。

建立 Azure Synapse Analytics 連結服務

  1. 重複相同的程序,以新增 Azure Synapse Analytics 連結服務。 在 [連線] 索引標籤內,選取 [新增]。 選取 [Azure Synapse Analytics] 圖格,然後選取 [繼續]。

    在 Azure 入口網站中建立新的 Azure Synapse Analytics 連結服務的螢幕擷取畫面。

  2. 在連結服務設定窗格中,輸入 `SQLDW`` 作為連結服務名稱。 輸入您的認證,以允許資料處理站連線至您的資料庫。 如果您使用 SQL 驗證,請輸入伺服器名稱、資料庫、您的使用者名稱和密碼。 您可以按一下 [測試連線],以確認連線資訊正確無誤。 完成後,請選取 [建立]

    在 Azure 入口網站中設定名為 SQLDW 的新 Azure Synapse Analytics 連結服務的螢幕擷取畫面。

建立 Azure Data Lake Storage Gen2 連結服務

  1. 此實驗室所需的最後一個連結服務是 Azure Data Lake Storage Gen2。 在 [連線] 索引標籤內,選取 [新增]。 選取 [Azure Data Lake Storage Gen2] 圖格,然後選取 [繼續]。

    在 Azure 入口網站中建立新的 ADLS Gen2 連結服務的螢幕擷取畫面。

  2. 在連結服務組態窗格中,輸入 'ADLSGen2' 作為連結服務名稱。 如果您使用帳戶金鑰驗證,請從 [儲存體帳戶名稱] 下拉式清單中選取您的 ADLS Gen2 儲存體帳戶。 您可以按一下 [測試連線],以確認連線資訊正確無誤。 完成後,請選取 [建立]

    在 Azure 入口網站中設定新的 ADLS Gen2 連結服務的螢幕擷取畫面。

開啟資料流程偵錯模式

使用對應資料流程來轉換資料一節中,您會建置對應資料流程。 建置對應資料流程的最佳做法是開啟偵測模式,這可讓您在作用中的 Spark 叢集上快速測試轉換邏輯。

若要開啟偵錯,在您有資料流程活動時,請選取資料流程畫布或管線畫布頂端列中的 [Data flow debug] \(資料流程偵錯\) 滑桿。 在顯示確認對話方塊時,選取 [確定]。 叢集大約會在 5 到 7 分鐘內啟動。 在初始化期間,繼續使用複製活動將資料從 Azure SQL Database 擷取至 ADLS Gen2 中

Azure 入口網站中 [處理站資源] 頁面的螢幕擷取畫面,其中已啟用資料流程偵錯按鈕。

顯示資料流程偵錯滑桿在物件建立之後位於何處的螢幕擷取畫面。

使用複製活動內嵌資料

在本節中,您會建立具有複製活動的管線,以將 Azure SQL Database 中的一個資料表內嵌至 ADLS Gen2 儲存體帳戶。 您會了解如何透過 ADF UX 來新增管線、設定資料集,以及對管線進行偵錯。 本節中使用的設定模式,在從關聯式資料存放區複製到以檔案為基礎的資料存放區時也適用。

在 Azure Data Factory 中,管線是共同執行某項工作的活動所組成的邏輯群組。 活動會定義要對您的資料執行的作業。 資料集會指向您想要在連結服務中使用的資料。

建立具有複製活動的管線

  1. 在 [Factory Resources] \(處理站資源\) 窗格中選取加號圖示,以開啟 [新增資源] 功能表。 選取 [管線]

    在 Azure 入口網站中建立新管線的螢幕擷取畫面。

  2. 在管線畫布的 [一般] 索引標籤中,將您的管線命名為 'IngestAndTransformTaxiData' 之類的描述性名稱。

    Azure 入口網站中新的擷取和轉換計程車資料物件的螢幕擷取畫面。

  3. 在管線畫布的 [活動] 窗格中,開啟 [移動和轉換] Accordion,並將 [複製資料] 活動拖曳至畫布上。 為複製活動提供描述性的名稱,例如 [IngestIntoADLS]。

    在 Azure 入口網站中新增複製資料步驟的螢幕擷取畫面。

設定 Azure SQL DB 來源資料集

  1. 選取複製活動的 [來源] 索引標籤。 若要建立新的資料集,請選取 [新增]。 您的來源會是資料表 dbo.TripData,位於先前設定的連結服務 'SQLDB' 中。

    在 Azure 入口網站中使用 [複製資料來源] 選項建立新資料集的螢幕擷取畫面。

  2. 搜尋 Azure SQL Database,然後選取 [繼續]。

    透過 Azure 入口網站在 Azure SQL Database 中建立新資料集的螢幕擷取畫面。

  3. 呼叫您的資料集 [TripData]。 選取 [SQLDB] 作為連結服務。 從資料表名稱下拉式清單中選取資料表名稱 dbo.TripData從連線/存放區匯入結構描述。 於完成時選取 [確定]。

    透過 Azure 入口網站的屬性頁面在 Azure SQL Database 中建立新資料集的螢幕擷取畫面。

您已成功建立來源資料集。 在來源設定中,請確定您已在 [使用查詢] 欄位中選取預設值 [資料表]

設定 ADLS Gen2 接收資料集

  1. 選取複製活動的 [接收] 索引標籤。 若要建立新的資料集,請選取 [新增]

    在 Azure 入口網站中使用 [複製資料接收器] 選項建立新資料集的螢幕擷取畫面。

  2. 搜尋 Azure Data Lake Storage Gen2,然後選取 [繼續]。

    透過 Azure 入口網站在 ADLS Gen2 中建立新資料的螢幕擷取畫面。

  3. 在 [選取格式] 窗格中,和寫入至 csv 檔案一樣選取 [DelimitedText]。 選取 [繼續]。

    透過 Azure 入口網站的格式頁面在 ADLS Gen2 中建立新資料的螢幕擷取畫面。

  4. 將您的接收器資料集命名為 [TripDataCSV]。 選取 [ADLSGen2] 作為連結服務。 輸入您要在其中寫入 csv 檔案的位置。 例如,您可以將資料寫入至容器 staging-container 中的檔案 trip-data.csv。 將 [使用第一個資料列做為標頭] 設定為 true,因為您想要讓輸出資料具有標頭。 由於目的地尚無檔案存在,請將 [匯入結構描述] 設定為 [無]。 於完成時選取 [確定]。

    透過 Azure 入口網站的屬性頁面在 ADLS Gen2 中建立新資料的螢幕擷取畫面。

使用管線偵錯執行測試複製活動

  1. 若要驗證您的複製活動是否正常運作,請選取管線畫布頂端的 [偵錯],以執行偵錯執行。 偵錯執行可讓您先對管線進行端對端或尋找中斷點的測試,再將管線發佈至資料處理站服務。

    Azure 入口網站中的偵錯按鈕的螢幕擷取畫面。

  2. 若要監視您的偵錯執行,請移至管線畫布的 [輸出] 索引標籤。 監視畫面會每隔 20 秒自動重新整理一次,或在您手動選取 [重新整理] 按鈕時重新整理。 複製活動具有特殊的監視檢視,可藉由選取 [動作] 資料行中的眼鏡圖示來存取。

    Azure 入口網站中的監視按鈕的螢幕擷取畫面。

  3. 複製監視檢視會提供活動的執行詳細資料和效能特性。 您可以查看已讀取/寫入的資料、已讀取/寫入的資料列、已讀取/寫入的檔案以及輸送量等資訊。 如果一切都已正確設定,您應該會看到 49,999 個資料列寫入至 ADLS 接收中的一個檔案。

    此螢幕擷取畫面顯示 Azure 入口網站中的 [複製監視] 檢視的效能詳細資料。

  4. 繼續進行下一節之前,建議您選取處理站頂端列中的 [全部發佈],將變更發佈至資料處理站服務。 雖然此實驗室中並未涵蓋完整的 Git 整合,但 Azure Data Factory 可加以支援。 Git 整合可用於版本控制、在存放庫中反覆儲存,以及在資料處理站上進行共同作業。 如需詳細資訊,請參閱 Azure Data Factory中的原始檔控制

    Azure 入口網站中的 [全部發佈] 按鈕的螢幕擷取畫面。

使用對應資料流來轉換資料

您已將資料成功複製到 Azure Data Lake Storage 中,接下來可以將該資料聯結並彙總到資料倉儲中。 我們會使用對應資料流程,這是 Azure Data Factory 的視覺化設計轉換服務。 對應資料流可以讓使用者開發無轉換邏輯程式碼,並在 ADF 服務管理的 Spark 叢集上執行。

在此步驟中建立的資料流程會根據四個索引鍵資料行,內部聯結上一節中建立的 'TripDataCSV' 資料集與儲存在 'SQLDB' 中的資料表 dbo.TripFares。 然後,資料會根據資料行 payment_type 進行彙總以計算特定欄位的平均值,並寫入 Azure Synapse Analytics 資料表中。

將資料流程活動新增至管線

  1. 在管線畫布的 [活動] 窗格中,開啟 [移動和轉換] Accordion,並將 [資料流程] 活動拖曳至畫布上。

    Azure 入口網站的螢幕擷取畫面,顯示 [移動與轉換] 功能表中的資料流程選項。

  2. 在開啟的側邊窗格中,選取 [建立新的資料流程],然後選擇 [對應資料流程]。 選取 [確定]。

    在 Azure 入口網站中新增對應資料流程的螢幕擷取畫面。

  3. 系統會將您導向至資料流程畫布,您將在此處建置轉換邏輯。 在一般索引標籤中,將資料流程命名為 'JoinAndAggregateData'。

    Azure 入口網站中的 [聯結和彙總資料流程] 的螢幕擷取畫面。

設定您的車程資料 CSV 來源

  1. 您要做的第一件事是設定兩個來源轉換。 第一個來源指向 'TripDataCSV' DelimitedText 資料集。 若要新增來源轉換,請選取畫布中的 [新增來源] 方塊。

    Azure 入口網站的螢幕擷取畫面,顯示新資料流程中的 [新增來源] 按鈕。

  2. 將您的來源命名為 'TripDataCSV',然後從 [來源] 下拉式清單中選取 'TripDataCSV' 資料集。 您應該還記得,您在建立此資料集之初並未匯入結構描述,因為沒有任何資料。 由於現在已有 trip-data.csv 存在,請選取 [編輯] 以移至 [資料集設定] 索引標籤。

    Azure 入口網站的螢幕擷取畫面,顯示資料流程選項中的 [編輯來源資料集] 按鈕。

  3. 移至 [結構描述] 索引標籤,然後選取 [匯入結構描述]。 從 [從連線/存放區],以直接從檔案存放區匯入。 此時應該會出現 14 個類型字串的資料行。

    Azure 入口網站中的結構描述來源選取項目的螢幕擷取畫面。

  4. 回到資料流程 [JoinAndAggregateData]。 如果您的偵錯叢集已啟動 (以 [偵錯] 滑桿旁的綠色圓圈表示),您可以在 [資料預覽] 索引標籤中取得資料的快照集。選取 [重新整理] 以擷取資料預覽。

    Azure 入口網站中的資料流程預覽的螢幕擷取畫面。

注意

資料預覽不會寫入資料。

設定您的車程費用 SQL Database 來源

  1. 您要在 SQL Database 資料表 dbo.TripFares 上新增點的第二個來源。 在您的 'TripDataCSV' 來源底下,會有另一個 [新增來源] 方塊。 請選取該方塊以新增來源轉換。

    在 Azure 入口網站中將另一個資料來源新增至資料流程的螢幕擷取畫面。

  2. 將此來源命名為 'TripFaresSQL'。 選取 [來源資料集] 欄位旁的 [新增],以建立新的 SQL Database 資料集。

    Azure 入口網站的螢幕擷取畫面,顯示資料流程中另一個複製資料步驟的新來源資料集。

  3. 選取 [Azure SQL Database] 圖格,然後選取 [繼續]。 您可能會發現,資料處理站中有許多連接器在對應資料流程中不受支援。 若要從其中一個來源轉換資料,請使用複製活動將其內嵌至支援的來源。

    在 Azure 入口網站中將新的 Azure SQL Database 資料集新增至資料流程的螢幕擷取畫面。

  4. 呼叫您的資料集 'TripFares'。 選取 [SQLDB] 作為連結服務。 從資料表名稱下拉式清單中選取資料表名稱 dbo.TripFares從連線/存放區匯入結構描述。 於完成時選取 [確定]。

    在 Azure 入口網站中將新 Azure SQL Database 資料集的屬性新增至資料流程的螢幕擷取畫面。

  5. 若要驗證您的資料,請在 [資料預覽] 索引標籤中擷取資料預覽。

    Azure 入口網站的螢幕擷取畫面,顯示資料流程中另一個資料來源的資料預覽。

內部聯結 TripDataCSV 和 TripFaresSQL

  1. 若要新增轉換,請選取 'TripDataCSV' 右下角的加號圖示。 在 [多個輸入/輸出] 底下,選取 [聯結]

    Azure 入口網站的螢幕擷取畫面,顯示資料流程中的資料來源聯結按鈕。

  2. 將聯結轉換命名為 'InnerJoinWithTripFares'。 從右側資料流程下拉式清單中選取 'TripFaresSQL'。 選取 [內部] 作為聯結類型。 若要深入了解對應資料流程中的不同聯結類型,請參閱聯結類型

    透過 [聯結條件] 下拉式清單,從每個資料流程中選取您要比對的資料行。 若要新增其他聯結條件,請選取現有條件旁的加號圖示。 根據預設,所有聯結條件都會以 AND 運算子進行合併,這表示必須符合所有條件才會產生相符項目。 在此實驗室中,我們想要比對資料行 medallionhack_licensevendor_idpickup_datetime

    Azure 入口網站中的資料流程聯結設定的螢幕擷取畫面。

  3. 確認您透過資料預覽成功將 25 個資料行聯結在一起。

    Azure 入口網站的螢幕擷取畫面,顯示資料流程已聯結資料來源的資料預覽。

依 payment_type 彙總

  1. 在完成聯結轉換後,選取 InnerJoinWithTripFares 旁的加號圖示,以新增彙總轉換。 選擇 [結構描述修飾元] 底下的 [彙總]

    Azure 入口網站中的 [新增彙總] 按鈕的螢幕擷取畫面。

  2. 將彙總轉換命名為 'AggregateByPaymentType'。 選取 payment_type 作為分組依據資料行。

    Azure 入口網站中的彙總設定的螢幕擷取畫面。

  3. 移至 [彙總] 索引標籤。指定兩個彙總:

    • 依付款類型分組的平均費用
    • 依付款類型分組的總車程距離

    首先,請建立平均費用運算式。 在標示為 [新增或選取資料行] 的文字方塊中,輸入 'average_fare'。

    Azure 入口網站的螢幕擷取畫面,顯示彙總設定中的 [分組依據] 選項。

  4. 若要輸入彙總運算式,請選取標示為 [輸入運算式] 的藍色方塊,這會開啟資料流程運算式建立器、用來以視覺化方式使用輸入結構描述、內建函式和作業和使用者定義參數建立資料流程運算式的工具。 如需運算式產生器功能的詳細資訊,請參閱運算式產生器文件

    若要取得平均費用,請使用 avg() 彙總函式,透過 toInteger() 來彙總轉換成整數的 total_amount 資料行。 在資料流程運算式語言中,這會定義為 avg(toInteger(total_amount))。 在完成作業後,選取 [儲存後結束]

    Azure 入口網站中視覺化運算式產生器的螢幕擷取畫面,顯示彙總函數 avg(toInteger(total_amount))。

  5. 若要新增其他彙總運算式,請選取 average_fare 旁的加號圖示。 選取新增欄

    Azure 入口網站的螢幕擷取畫面,顯示彙總設定 [分組依據] 選項中的 [新增資料行] 按鈕。

  6. 在標示為 [新增或選取資料行] 的文字方塊中,輸入 'total_trip_distance'。 如同最後一個步驟,開啟運算式建立器以在運算式中輸入。

    若要取得總車程距離,請使用 sum() 彙總函式,透過 toInteger() 來彙總轉換成整數的 trip_distance 資料行。 在資料流程運算式語言中,這會定義為 sum(toInteger(trip_distance))。 在完成作業後,選取 [儲存後結束]

    Azure 入口網站的螢幕擷取畫面,顯示彙總設定 [分組依據] 選項中的兩個資料行。

  7. 在 [資料預覽] 索引標籤中測試轉換邏輯。如您所見,資料列和資料行已比先前少。 只有在此轉換中定義的三個分組依據和彙總資料行會繼續往下執行。 由於範例中只有五個付款類型群組,因此只會輸出五個資料列。

    Azure 入口網站中的彙總資料預覽的螢幕擷取畫面。

設定您的 Azure Synapse Analytics 接收

  1. 我們已完成轉換邏輯,接著即可在 Azure Synapse Analytics 資料表中接收資料。 請在 [目的地] 區段底下新增接收轉換。

    Azure 入口網站的螢幕擷取畫面,顯示資料流程中的 [新增接收器] 按鈕。

  2. 將您的接收命名為 'SQLDWSink'。 選取 [接收資料集] 欄位旁的 [新增],以建立新的 Azure Synapse Analytics 資料集。

    Azure 入口網站的螢幕擷取畫面,顯示接收器設定中的 [新增接收器資料集] 按鈕。

  3. 選取 [Azure Synapse Analytics] 圖格,然後選取 [繼續]。

    Azure 入口網站的螢幕擷取畫面,顯示新資料接收器的新 Azure Synapse Analytics 資料集。

  4. 呼叫資料集 'AggregatedTaxiData'。 選取 'SQLDW' 作為連結服務。 選取 [建立新的資料表],並將新的資料表命名為 dbo.AggregateTaxiData。 於完成時選取 [確定]

    在 Azure 入口網站中為資料接收器建立新資料表的螢幕擷取畫面。

  5. 移至接收的 [設定] 索引標籤。 我們要建立新的資料表,因此必須選取資料表動作底下的 [重新建立資料表]。 將 [啟用暫存] 取消選取,這會在逐列插入或按批次插入之間切換。

    Azure 入口網站的螢幕擷取畫面,顯示資料接收器設定中的 [重新建立資料表] 選項。

您已成功建立資料流程。 接下來即可在管線活動中加以執行。

對管線進行端對端偵錯

  1. 回到 IngestAndTransformData 管線的索引標籤。 請注意 'IngestIntoADLS' 複製活動上的綠色方塊。 將它拖曳到 'JoinAndAggregateData' 資料流程活動。 這會建立「成功時的動作」,而使資料流程活動只會在複製成功時執行。

    Azure 入口網站中的綠色成功管線的螢幕擷取畫面。

  2. 和先前的複製活動作業一樣,選取 [偵錯] 以執行偵錯執行。 針對偵錯執行,資料流程活動會使用作用中的偵錯叢集,而不是啟動新的叢集。 執行此管線需要一分多鐘的時間。

    Azure 入口網站的螢幕擷取畫面,顯示成功管線上的資料流程偵錯按鈕。

  3. 如同複製活動,資料流程在活動完成時,有眼鏡圖示存取的特殊監視檢視。

    Azure 入口網站的螢幕擷取畫面,顯示管線上的輸出監視器。

  4. 在 [監視] 檢視中,您可以看到簡化的資料流程圖,以及每個執行階段的執行時間和資料列。 如果正確完成,您應該會在此活動中將 49,999 個資料列彙總成五個資料列。

    Azure 入口網站的螢幕擷取畫面,顯示管線上的輸出監視器詳細資料。

  5. 您可以選取轉換來取得其執行的其他詳細資料,例如資料分割資訊和新增/更新/卸除的資料行。

    Azure 入口網站的螢幕擷取畫面,顯示管線輸出監視器上的串流資訊。

您現在已完成此實驗室的資料處理站部分。 如果您想要使用觸發程序加以運作,請發佈您的資源。 您已使用複製活動成功執行將 Azure SQL Database 中的資料內嵌至 Azure Data Lake Storage 的管線,然後將該資料彙總至 Azure Synapse Analytics 中。 您可以查看 SQL Server 本身,以確認資料已成功寫入。

使用 Azure Data Share 共用資料

在本節中,您會了解如何使用 Azure 入口網站來設定新的資料共用。 進行此作業時,您會建立新的資料共用,其中包含來自 Azure Data Lake Storage Gen2 和 Azure Synapse Analytics 的資料集。 接著,您將設定快照集排程,讓資料取用者能夠選擇自動重新整理其共用的資料。 然後,您將邀請收件者加入您的資料共用。

建立資料共用後,您將切換身分,而成為資料取用者。 身為資料取用者,您將逐步執行接受資料共用邀請的流程、設定要接收資料的位置,並將資料集對應至不同的儲存位置。 接著,您將觸發快照集,而將與您共用的資料複製到指定的目的地。

共用資料 (Data Provider 流程)

  1. 在 Microsoft Edge 或 Google Chrome 中開啟 Azure 入口網站。

  2. 使用頁面頂端的搜尋列,搜尋資料共用

    顯示在 Azure 入口網站搜尋列中搜尋資料共用的的 Azure 入口網站螢幕擷取畫面。

  3. 選取名稱中含有 'Provider' 的資料共用帳戶。 例如 DataProvider0102

  4. 選取 [開始共用資料]

    Azure 入口網站中的 [開始共用資料] 按鈕的螢幕擷取畫面。

  5. 選取 [+ 建立] 以開始設定新的資料共用。

  6. 在 [共用名稱] 底下,指定您選擇的名稱。 這是您的資料取用者所將看到的共用名稱,因此請務必為其提供描述性名稱,例如 TaxiData。

  7. 在 [描述] 底下放入一個句子,以說明資料共用的內容。 資料共用將包含全球各地的計程車車程資料,這些資料儲存於多個存放區中,包括 Azure Synapse Analytics 和 Azure Data Lake Storage。

  8. 在 [使用規定] 底下,指定您的資料取用者必須遵循的條款。 其範例包括「不得在組織外部散發這項資料」或「參考法律合約」。

    Azure 入口網站的螢幕擷取畫面,顯示 [已傳送共用] 中的資料共用詳細資料。

  9. 選取 [繼續]。

  10. 選取 [新增資料集]

    Azure 入口網站的螢幕擷取畫面,顯示 [已傳送共用] 中資料共用的 [新增資料集] 按鈕。

  11. 選取 [Azure Synapse Analytics],以從您的 ADF 轉換進入的 Azure Synapse Analytics 中選取資料表。

  12. 您在取得執行的指令碼後,才能繼續作業。 提供的指令碼會在 SQL 資料庫中建立使用者,以允許 Azure Data Share MSI 代表他進行驗證。

    重要

    執行指令碼之前,您必須將自己設定為 Azure SQL Database 邏輯 SQL Server 的 Active Directory 管理員。

  13. 開啟新的索引標籤並瀏覽至 Azure 入口網站。 複製提供的指令碼,以在您要從中共用資料的資料庫中建立使用者。 使用 Azure 入口網站查詢編輯器並運用 Microsoft Entra 驗證來登入 EDW 資料庫。 您必須在下列範例指令碼中修改使用者:

    CREATE USER [dataprovider-xxxx@contoso.com] FROM EXTERNAL PROVIDER; 
    ALTER ROLE db_owner ADD MEMBER [wiassaf@microsoft.com];
    
  14. 切換回您將資料集新增至資料共用的 Azure Data Share。

  15. 選取 [EDW],然後選取資料表的 [AggregatedTaxiData]

  16. 選取 [新增資料集]

    現在已有一個 SQL 資料表屬於我們的資料集。 接下來,我們將從 Azure Data Lake Storage 新增其他資料集。

  17. 選取 [新增資料集],然後選取 [Azure Data Lake Storage Gen2]

    在 Azure 入口網站中新增 ADLS Gen2 資料集的螢幕擷取畫面。

  18. 選取下一個

  19. 展開 wwtaxidata。 展開 Boston Taxi Data。 您可以向下共用至檔案層級。

  20. 選取 Boston Taxi Data 資料夾,將整個資料夾新增至您的資料共用。

  21. 選取 [新增資料集]

  22. 檢閱已新增的資料集。 您應已將 SQL 資料表和 ADLS Gen2 資料夾新增至您的資料共用。

  23. 選取 [繼續]

  24. 在此畫面中,您可以將收件者新增至資料共用。 您新增的收件者將會收到您資料共用的邀請。 基於此實驗室的目的,您必須新增 2 個電子郵件地址:

    1. 您所在之 Azure 訂用帳戶的電子郵件地址。

      Azure 入口網站的螢幕擷取畫面,顯示資料共用的 [新增收件者]。

    2. 新增名為 janedoe@fabrikam.com 的虛構資料取用者。

  25. 在此畫面中,您可以為資料取用者設定快照集設定。 這可讓他們依據您定義的間隔接收資料的定期更新。

  26. 勾選 [快照集排程],並使用 [週期性] 下拉式清單設定每小時一次的資料重新整理。

  27. 選取 建立

    您現在已有作用中的資料共用。 請檢閱您在建立資料共用時所能看到的資料提供者。

  28. 選取您所建立的資料共用,其標題為 DataProvider。 您可以選取 [資料共用] 中的 [已傳送的共用],以瀏覽至該共用。

  29. 選取 [快照集排程]。 您可以停用您所選擇的快照集排程。

  30. 接著,選取 [資料集] 索引標籤。您可以在此資料共用建立後,將其他資料集新增至此共用。

  31. 選取 [共用訂用帳戶] 索引標籤。此時尚無共用訂用帳戶存在,因為資料取用者尚未接受您的邀請。

  32. 瀏覽至 [邀請] 索引標籤。在此處,您會看到一份待決邀請清單。

    Azure 入口網站中的待決邀請的螢幕擷取畫面。

  33. 選取 janedoe@fabrikam.com 的邀請。 選取 [刪除]。 如果您的收件者尚未接受邀請,他們將無法再執行此動作。

  34. 選取 [記錄] 索引標籤。此時尚未顯示任何項目,因為資料取用者尚未接受您的邀請並觸發快照集。

接收資料 (資料取用者流程)

我們已檢閱資料共用,接下來可以切換內容,並轉換為資料取用者的身分。

您現在應該會在 Microsoft Azure 的收件匣中收到 Azure Data Share 邀請。 啟動 Outlook Web Access (outlook.com),並使用為您的 Azure 訂用帳戶提供的認證登入。

在您應已收到的電子郵件中,選取 [檢視邀請 >]。 此時,如果您接受資料提供者的資料共用邀請,您將會模擬資料取用者體驗。

Outlook 電子郵件邀請的螢幕擷取畫面。

系統可能會提示您選取訂用帳戶。 請確實選取您在此實驗室中使用的訂用帳戶。

  1. 選取標題為 DataProvider 的邀請。

  2. 在此 [邀請] 畫面中,注意您先前以資料提供者的身分設定的資料共用的各種詳細資訊。 請檢閱這些詳細資料,並接受使用規定 (如有提供)。

  3. 選取您的實驗室已有的訂用帳戶和資源群組。

  4. 針對 [資料共用帳戶],選取 [DataConsumer]。 您也可以建立新的資料共用帳戶。

  5. 在 [已接收的共用名稱] 旁,注意預設的共用名稱為資料提供者所指定的名稱。 請為共用提供易記名稱以說明您要接收的資料,例如 TaxiDataShare

    Azure 入口網站的螢幕擷取畫面,顯示用來接受和設定資料共用的頁面。

  6. 您可以選擇 [接受並立即設定] 或 [接受並稍後再設定]。 如果您選擇接受並立即設定,則指定用來複製所有資料的儲存體帳戶。 如果您選擇接受但稍後再設定,共用中的資料集將不會對應,而您將需要手動加以對應。 我們稍後將選擇此選項。

  7. 選取 [接受並稍後再設定]

    設定此選項時將會建立共用訂用帳戶,但不會有可供資料存放之處,因為尚未對應目的地。

    接下來,設定資料共用的資料集對應。

  8. 選取 [已接收的共用] (您在步驟 5 中指定的名稱)。

    [觸發快照集] 會呈現為灰色,但共用處於作用中狀態。

  9. 選取 [資料集] 索引標籤。每個資料集都未對應,這表示資料沒有複製的目的地。

    Azure 入口網站中未對應資料集的螢幕擷取畫面。

  10. 選取 Azure Synapse Analytics 資料表,然後選取 [+ 對應至目標]

  11. 在畫面右側,選取 [目標資料類型] 下拉式清單。

    您可以將 SQL 資料對應至各種不同的資料存放區。 在此案例中,我們會對應至 Azure SQL Database。

    在 Azure 入口網站中將資料集對應至目標的螢幕擷取畫面。

    (選擇性) 選取 [Azure Data Lake Storage Gen2] 作為目標資料類型。

    (選擇性) 選取您先前一貫使用的訂用帳戶、資源群組和儲存體帳戶。

    (選擇性) 您可以選擇以 csv 或 parquet 格式將資料接收到 Data Lake。

  12. 在 [目標資料類型] 旁,選取 [Azure SQL Database]。

  13. 選取您先前一貫使用的訂用帳戶、資源群組和儲存體帳戶。

    在 Azure 入口網站中將資料集對應至目標 Azure SQL Database 的螢幕擷取畫面。

  14. 在繼續作業前,您必須執行提供的指令碼,以在 SQL Server 中建立新的使用者。 首先,請將提供的指令碼複製到剪貼簿。

  15. 開啟新的 Azure 入口網站索引標籤。請不要關閉現有的索引標籤,因為您稍後必須回過頭來使用。

  16. 在您開啟的新索引標籤中,瀏覽至 [SQL 資料庫]

  17. 選取 SQL 資料庫 (您的訂用帳戶中應該只有一個資料庫)。 請小心不要選取資料倉儲。

  18. 選取 [查詢編輯器 (預覽)]

  19. 使用 Microsoft Entra 驗證來登入查詢編輯器。

  20. 執行資料共用中提供的查詢 (已在步驟 14 中複製到剪貼簿)。

    此命令可讓 Azure Data Share 服務使用 Azure 服務的受控識別向 SQL Server 進行驗證,以便能夠將資料複製到其中。

  21. 返回原始索引標籤,然後選取 [對應到目標]

  22. 接著,選取屬於資料集一部分的 Azure Data Lake Storage Gen2 資料夾,並將其對應至 Azure Blob 儲存體帳戶。

    在 Azure 入口網站中將資料集對應至目標 Azure Blob 儲存體的螢幕擷取畫面。

    所有資料集皆已對應後,您現在即可開始接收資料提供者的資料。

    Azure 入口網站的螢幕擷取畫面,顯示對應的已接收共用。

  23. 選取詳細資料

    [觸發快照集] 已不再呈現灰色,因為資料共用現在已有複製的目的地。

  24. 選取 [觸發快照集] -> [完整複本]

    Azure 入口網站的螢幕擷取畫面,顯示觸發程序快照集的完整複製選項。

    這會開始將資料複製到您的新資料共用帳戶中。 在實際案例中,這項資料會來於第三方。

    大約需要 3-5 分鐘的時間,資料才會送達。 您可以選取 [歷程記錄] 索引標籤以監視進度。

    在等候期間,請瀏覽至原始資料共用 (DataProvider),並檢視 [共用訂用帳戶] 和 [歷程記錄] 索引標籤的狀態。現在已有作用中的訂用帳戶,身為資料提供者,您也可以監視資料取用者何時開始接收其共用的資料。

  25. 瀏覽回資料取用者的資料共用。 在觸發程序的狀態顯示為成功後,瀏覽至目的地 SQL 資料庫和 Data Lake,以確認資料已進入個別的存放區中。

恭喜,您已完成實驗室!