Partilhar via


Spark Submit (legado)

O tipo de tarefa Spark Submit é um padrão herdado para configurar JARs como tarefas. O Databricks recomenda o uso da tarefa JAR . Consulte Tarefa JAR para trabalhos.

Requisitos

  • Você pode executar tarefas de envio de faísca somente em novos clusters.
  • Você deve carregar seu arquivo JAR para um local ou repositório Maven compatível com sua configuração de computação. Consulte Suporte a bibliotecas Java e Scala.
  • Não é possível acessar arquivos JAR armazenados em volumes.
  • O Spark-submit não oferece suporte ao dimensionamento automático de cluster. Para saber mais sobre o dimensionamento automático, consulte Dimensionamento automático de cluster.
  • O Spark-submit não suporta a referência Databricks Utilities (dbutils). Para usar os Utilitários Databricks, use tarefas JAR.
  • Se você usar um cluster habilitado para Unity Catalog, o spark-submit será suportado somente se o cluster usar o modo de acesso de usuário único. O modo de acesso compartilhado não é suportado. Consulte Modos de acesso.
  • Os trabalhos de Streaming estruturado nunca devem ter o máximo de execuções simultâneas definido como maior que 1. Os trabalhos de streaming devem ser definidos para serem executados usando a expressão "* * * * * ?" cron (a cada minuto). Como uma tarefa de streaming é executada continuamente, ela deve ser sempre a tarefa final em um trabalho.

Configurar uma tarefa do Spark Submit

Adicione uma Spark Submit tarefa da guia Tarefas na interface do usuário Trabalhos fazendo o seguinte:

  1. No menu suspenso Tipo, selecione Spark Submit.
  2. Use Computação para configurar um cluster que ofereça suporte à lógica em sua tarefa.
  3. Use a caixa de texto Parâmetros para fornecer todos os argumentos e configurações necessários para executar sua tarefa como uma matriz JSON de cadeias de caracteres.
    • Os três primeiros argumentos são usados para identificar a classe principal a ser executada em um JAR em um caminho especificado, como no exemplo a seguir:

      ["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]
      
    • Não é possível substituir as masterconfigurações , deploy-modee executor-cores definidas pelo Azure Databricks

    • Use --jars e --py-files adicione bibliotecas Java, Scala e Python dependentes.

    • Use --conf para definir as configurações do Spark.

    • Os --jarsargumentos , --py-files, --files suportam caminhos DBFS.

    • Por padrão, o trabalho de envio do Spark usa toda a memória disponível, excluindo a memória reservada para os serviços do Azure Databricks. Você pode definir --driver-memory, e --executor-memory para um valor menor para deixar algum espaço para uso fora da pilha.

  4. Clique em Salvar tarefa.