使用 Azure Toolkit for IntelliJ (預覽) 對失敗的 Spark 作業進行偵錯

此文章將逐步指引如何使用 Azure Toolkit for IntelliJ 中的 HDInsight 工具，執行 Spark 失敗偵錯應用程式。

必要條件

建立 spark2.3.2 專案以繼續進行失敗偵錯，並取得此文件中的失敗作業偵錯範例檔案。

建立 spark Scala/JAVA 應用程式，然後執行下列步驟，在 Spark 叢集上執行應用程式：

按一下 [Add Configuration] \(新增設定\) 以開啟 [Run/Debug Configurations] \(執行/偵錯設定\) 視窗。
在 [Run/Debug Configurations] \(執行/偵錯設定) 對話方塊中，選取加號 (+)。然後，選取 [Apache Spark on HDInsight] \(HDInsight 上的 Apache Spark\) 選項。
切換至 [在叢集中遠端執行] 索引標籤。輸入 [Name] \(名稱\)、[Spark cluster] \(Spark 叢集\) 和 [Main class name] \(主要類別名稱\)。我們的工具支援使用執行程式進行偵錯。 numExecutors，預設值為 5，而且您最好不會設定高於 3。若要減少執行階段，您可以將 spark.yarn.maxAppAttempts 新增至 [job Configurations] \(作業設定\)，並將值設定為 1。按一下 [OK] \(確定\) 按鈕以儲存設定。
設定現在會使用您提供的名稱儲存。若要檢視設定詳細資訊，請選取設定名稱。若要進行變更，請選取 [Edit Configurations] \(編輯設定\)。
完成組態設定之後，您可以針對遠端叢集執行專案。
您可以從輸出視窗檢查應用程式識別碼。

如果作業提交失敗，您可以將失敗的作業設定檔下載到本機電腦，以進行進一步偵錯。

開啟 [Microsoft Azure 儲存體總管]、找出失敗作業之叢集的 HDInsight 帳戶、從對應的位置 (\hdp\spark2-events\.spark-failures\<應用程式識別碼>) 將失敗的作業資源下載至本機資料夾。[活動] 視窗將顯示下載進度。

開啟原始專案或建立新的專案，並將它與原來的原始程式碼產生關聯。目前僅支援 spark2.3.2 版本進行失敗偵錯。
在 IntelliJ IDEA 中，建立 [Spark Failure Debug] \(Spark 失敗偵錯\) 設定檔，並針對 [Spark Job Failure Context location] \(Spark 作業失敗內容位置\) 欄位，選取先前下載之失敗作業資源中的 FTD 檔案。
按一下工具列中的本機執行按鈕，錯誤將顯示於 [Run] \(執行\) 視窗中。
按照記錄指示設定中斷點，然後按一下本機偵錯按鈕以執行本機偵錯，就像您在 IntelliJ 中的一般 Scala/Java 專案一樣。
偵錯之後，如果專案成功完成，您可以將失敗的作業重新提交至 HDInsight 叢集上的 Spark。