教學課程:使用適用於 Visual Studio Code 的 Databricks 擴充功能,在叢集上執行 Python 並做為作業
本教學課程會逐步引導您設定 Visual Studio Code 的 Databricks 擴充功能,然後在 Azure Databricks 叢集上執行 Python,並在遠端工作區中以 Azure Databricks 作業的形式執行。 請參閱什麼是適用於 Visual Studio Code 的 Databricks 延伸模組?。
需求
本教學課程需要:
- 您已安裝適用於 Visual Studio Code 的 Databricks 擴充功能。 請參閱 安裝適用於Visual Studio Code的 Databricks 擴充功能。
- 您有要使用的遠端 Azure Databricks 叢集。 記下叢集的名稱。 若要檢視可用的叢集,請在 Azure Databricks 工作區提要欄位中,按兩下 [ 計算]。 請參閱計算。
步驟 1:建立新的 Databricks 專案
在此步驟中,您會建立新的 Databricks 專案,並設定與遠端 Azure Databricks 工作區的連線。
- 啟動 Visual Studio Code,然後按兩下 [ 檔案 > 開啟資料夾 ],然後在本機開發電腦上開啟一些空白資料夾。
- 在提要欄位中,按兩下 Databricks 標誌圖示。 這會開啟 Databricks 延伸模組。
- 在 [ 組態 ] 檢視中,按兩下 [遷移至 Databricks 專案]。
- 設定 Databricks 工作區的命令選擇區 隨即開啟。 針對 Databricks 主機,輸入或選取每個 工作區的 URL,例如
https://adb-1234567890123456.7.azuredatabricks.net
。 - 選取項目的驗證配置檔。 請參閲 適用於 Visual Studio Code 的 Databricks 延伸項目的驗證設定。
步驟 2:將叢集資訊新增至 Databricks 擴充功能並啟動叢集
在 [組 態 ] 檢視已開啟時,按兩下 [ 選取叢集 ],或按兩下齒輪 (設定叢集) 圖示。
在命令 選擇區中,選取您先前建立的叢集名稱。
如果尚未啟動,請按兩下播放圖示 [啟動叢集]。
步驟 3:建立和執行 Python 程式代碼
建立本機 Python 程式代碼檔案:在提要欄中,按兩下資料夾 (檔案總管) 圖示。
在主功能表上,按兩下 [ 檔案 > 新檔案]。 將檔案 命名為 demo.py ,並將它儲存至專案的根目錄。
將下列程式代碼新增至檔案,然後加以儲存。 此程式代碼會建立並顯示基本 PySpark DataFrame 的內容:
from pyspark.sql import SparkSession from pyspark.sql.types import * spark = SparkSession.builder.getOrCreate() schema = StructType([ StructField('CustomerID', IntegerType(), False), StructField('FirstName', StringType(), False), StructField('LastName', StringType(), False) ]) data = [ [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ], [ 1001, 'Joost', 'van Brunswijk' ], [ 1002, 'Stan', 'Bokenkamp' ] ] customers = spark.createDataFrame(data, schema) customers.show() # Output: # # +----------+---------+-------------------+ # |CustomerID|FirstName| LastName| # +----------+---------+-------------------+ # | 1000| Mathijs|Oosterhout-Rijntjes| # | 1001| Joost| van Brunswijk| # | 1002| Stan| Bokenkamp| # +----------+---------+-------------------+
按兩下編輯器索引標籤清單旁的 [在 Databricks 上執行] 圖示,然後按兩下 [上傳並執行檔案]。 輸出會出現在 [偵錯控制台] 檢視中。
或者,在 [總管] 檢視中,以滑鼠右鍵按下
demo.py
檔案,然後按兩下 [在 Databricks>上傳和執行檔案上執行]。
步驟 4:以作業身分執行程序代碼
若要以 demo.py
作業執行,請按兩下 編輯器索引標籤清單旁的 [在 Databricks 上執行] 圖示,然後按兩下 [ 以工作流程執行檔案]。 輸出會出現在檔案編輯器旁邊的個別編輯器索引標籤中 demo.py
。
或者,以滑鼠右鍵按兩下 demo.py
[總管] 面板中的檔案,然後選取 [在 Databricks>執行檔案] 上執行為工作流程。
下一步
既然您已成功使用適用於 Visual Studio Code 的 Databricks 延伸模組來上傳本機 Python 檔案,並從遠端執行,您也可以:
- 使用延伸模組 UI 探索 Databricks 資產組合資源和變數。 請參閱 Databricks Asset Bundles 擴充功能。
- 使用 Databricks Connect 執行或偵錯 Python 程式代碼。 請參閲為適用於 Visual Studio Code 的 Databricks 延伸項目使用 Databricks Connect 偵錯程式碼。
- 以 Azure Databricks 作業的形式執行檔案或筆記本。 請參閱 使用適用於 Visual Studio Code 的 Databricks 擴充功能,在 Azure Databricks 中以作業形式在叢集或檔案或筆記本上執行檔案。
- 使用
pytest
執行測試。 請參閱使用適用於 Visual Studio Code 的 Databricks 延伸項目執行 pytest 的測試。