다음을 통해 공유


Spark 제출(레거시)

Spark 제출 작업 유형은 JAR을 작업으로 구성하기 위한 레거시 패턴입니다. JAR 작업을 사용하는 것이 좋습니다. 작업에 대한 JAR 태스크를 참조하세요.

요구 사항

  • spark-submit 태스크는 새 클러스터에서만 실행할 수 있습니다.
  • JAR 파일을 컴퓨팅 구성과 호환되는 위치 또는 Maven 리포지토리에 업로드해야 합니다. Java 및 Scala 라이브러리 지원을 참조하세요.
  • 볼륨에 저장된 JAR 파일에 액세스할 수 없습니다.
  • spark-submit은 클러스터 자동 크기 조정을 지원하지 않습니다. 자동 크기 조정에 대한 자세한 내용은 클러스터 자동 크기 조정을 참조하세요.
  • Spark-submit은 Databricks 유틸리티(dbutils) 참조를 지원하지 않습니다. Databricks 유틸리티를 사용하려면 JAR 태스크를 대신 사용합니다.
  • Unity 카탈로그 지원 클러스터를 사용하는 경우 클러스터에서 단일 사용자 액세스 모드를 사용하는 경우에만 spark-submit이 지원됩니다. 공유 액세스 모드는 지원되지 않습니다. 액세스 모드를 참조하세요.
  • 구조적 스트리밍 작업은 최대 동시 실행 수를 1보다 크게 설정할 수 없습니다. 스트리밍 작업은 "* * * * * ?" cron 식(매분)을 사용하여 실행되도록 설정해야 합니다. 스트리밍 태스크는 지속적으로 실행되므로 항상 작업의 마지막 태스크여야 합니다.

Spark Submit 작업 구성

다음을 수행하여 작업 UI의 태스크 탭에서 Spark Submit 태스크를 추가합니다.

  1. 유형 드롭다운 메뉴에서 Spark Submit을 선택합니다.
  2. 컴퓨팅을 사용하여 태스크에서 논리를 지원하는 클러스터를 구성합니다.
  3. 매개 변수 텍스트 상자를 사용하여 작업을 문자열의 JSON 배열로 실행하는 데 필요한 모든 인수 및 구성을 제공합니다.
    • 처음 세 인수는 다음 예제와 같이 지정된 경로의 JAR에서 실행할 주 클래스를 식별하는 데 사용됩니다.

      ["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]
      
    • Azure Databricks에서 구성한 master, deploy-modeexecutor-cores 설정을 재정의할 수 없습니다.

    • --py-files 종속 Java, Scala 및 Python 라이브러리를 사용하고 --jars 추가합니다.

    • --conf를 사용하여 Spark 구성을 설정합니다.

    • --jars, --py-files, --files 인수는 DBFS 경로를 지원합니다.

    • 기본적으로 Spark 제출 작업은 Azure Databricks 서비스에 예약된 메모리를 제외한 모든 사용 가능한 메모리를 사용합니다. --driver-memory--executor-memory를 더 작은 값으로 설정하여 오프 힙 사용을 위한 공간을 남길 수 있습니다.

  4. 작업 저장을 클릭합니다.