다음을 통해 공유


Apache Spark 작업 정의란?

Apache Spark 작업 정의는 일괄 처리/스트리밍 작업을 Spark 클러스터에 제출할 수 있는 Microsoft Fabric 코드 항목입니다. 여러 언어의 컴파일 출력(예: Java의 .jar)에서 이진 파일을 업로드하면 Lakehouse에서 호스트되는 데이터에 다른 변환 논리를 적용할 수 있습니다. 이진 파일 외에도 더 많은 라이브러리 및 명령줄 인수를 업로드하여 작업의 동작을 추가로 사용자 지정할 수 있습니다.

Spark 작업 정의를 실행하려면 연결된 Lakehouse가 하나 이상 있어야 합니다. 이 기본 Lakehouse 컨텍스트는 Spark 런타임의 기본 파일 시스템 역할을 합니다. 데이터를 읽고 쓰는 상대 경로를 사용하는 Spark 코드의 경우 데이터는 기본 Lakehouse가 제공됩니다.

Spark 작업 정의 항목을 실행하려면 기본 정의 파일과 기본 lakehouse 컨텍스트가 있어야 합니다. Lakeshouse가 없는 경우 Lakehouse 만들기의 단계에 따라 Lakehouse를 만듭니다.