Spark 제출(레거시)
Spark 제출 작업 유형은 JAR을 작업으로 구성하기 위한 레거시 패턴입니다. JAR 작업을 사용하는 것이 좋습니다. 작업에 대한 JAR 태스크를 참조하세요.
요구 사항
- spark-submit 태스크는 새 클러스터에서만 실행할 수 있습니다.
- JAR 파일을 컴퓨팅 구성과 호환되는 위치 또는 Maven 리포지토리에 업로드해야 합니다. Java 및 Scala 라이브러리 지원을 참조하세요.
- 볼륨에 저장된 JAR 파일에 액세스할 수 없습니다.
- spark-submit은 클러스터 자동 크기 조정을 지원하지 않습니다. 자동 크기 조정에 대한 자세한 내용은 클러스터 자동 크기 조정을 참조하세요.
- Spark-submit은 Databricks 유틸리티(dbutils) 참조를 지원하지 않습니다. Databricks 유틸리티를 사용하려면 JAR 태스크를 대신 사용합니다.
- Unity 카탈로그 지원 클러스터를 사용하는 경우 클러스터에서 단일 사용자 액세스 모드를 사용하는 경우에만 spark-submit이 지원됩니다. 공유 액세스 모드는 지원되지 않습니다. 액세스 모드를 참조하세요.
- 구조적 스트리밍 작업은 최대 동시 실행 수를 1보다 크게 설정할 수 없습니다. 스트리밍 작업은
"* * * * * ?"
cron 식(매분)을 사용하여 실행되도록 설정해야 합니다. 스트리밍 태스크는 지속적으로 실행되므로 항상 작업의 마지막 태스크여야 합니다.
Spark Submit 작업 구성
다음을 수행하여 작업 UI의 태스크 탭에서 Spark Submit
태스크를 추가합니다.
- 유형 드롭다운 메뉴에서
Spark Submit
을 선택합니다. - 컴퓨팅을 사용하여 태스크에서 논리를 지원하는 클러스터를 구성합니다.
- 매개 변수 텍스트 상자를 사용하여 작업을 문자열의 JSON 배열로 실행하는 데 필요한 모든 인수 및 구성을 제공합니다.
처음 세 인수는 다음 예제와 같이 지정된 경로의 JAR에서 실행할 주 클래스를 식별하는 데 사용됩니다.
["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]
Azure Databricks에서 구성한
master
,deploy-mode
및executor-cores
설정을 재정의할 수 없습니다.--py-files
종속 Java, Scala 및 Python 라이브러리를 사용하고--jars
추가합니다.--conf
를 사용하여 Spark 구성을 설정합니다.--jars
,--py-files
,--files
인수는 DBFS 경로를 지원합니다.기본적으로 Spark 제출 작업은 Azure Databricks 서비스에 예약된 메모리를 제외한 모든 사용 가능한 메모리를 사용합니다.
--driver-memory
및--executor-memory
를 더 작은 값으로 설정하여 오프 힙 사용을 위한 공간을 남길 수 있습니다.
- 작업 저장을 클릭합니다.