Apache Spark 작업 정의란?
Apache Spark 작업 정의는 일괄 처리/스트리밍 작업을 Spark 클러스터에 제출할 수 있는 Microsoft Fabric 코드 항목입니다. 여러 언어의 컴파일 출력(예: Java의 .jar)에서 이진 파일을 업로드하면 Lakehouse에서 호스트되는 데이터에 다른 변환 논리를 적용할 수 있습니다. 이진 파일 외에도 더 많은 라이브러리 및 명령줄 인수를 업로드하여 작업의 동작을 추가로 사용자 지정할 수 있습니다.
Spark 작업 정의를 실행하려면 연결된 Lakehouse가 하나 이상 있어야 합니다. 이 기본 Lakehouse 컨텍스트는 Spark 런타임의 기본 파일 시스템 역할을 합니다. 데이터를 읽고 쓰는 상대 경로를 사용하는 Spark 코드의 경우 데이터는 기본 Lakehouse가 제공됩니다.
팁
Spark 작업 정의 항목을 실행하려면 기본 정의 파일과 기본 lakehouse 컨텍스트가 있어야 합니다. Lakeshouse가 없는 경우 Lakehouse 만들기의 단계에 따라 Lakehouse를 만듭니다.