Spark Submit (legado)
O tipo de tarefa Spark Submit é um padrão herdado para configurar JARs como tarefas. O Databricks recomenda o uso da tarefa JAR . Consulte Tarefa JAR para trabalhos.
Requisitos
- Você pode executar tarefas de envio de faísca somente em novos clusters.
- Você deve carregar seu arquivo JAR para um local ou repositório Maven compatível com sua configuração de computação. Consulte Suporte a bibliotecas Java e Scala.
- Não é possível acessar arquivos JAR armazenados em volumes.
- O Spark-submit não oferece suporte ao dimensionamento automático de cluster. Para saber mais sobre o dimensionamento automático, consulte Dimensionamento automático de cluster.
- O Spark-submit não suporta a referência Databricks Utilities (dbutils). Para usar os Utilitários Databricks, use tarefas JAR.
- Se você usar um cluster habilitado para Unity Catalog, o spark-submit será suportado somente se o cluster usar o modo de acesso de usuário único. O modo de acesso compartilhado não é suportado. Consulte Modos de acesso.
- Os trabalhos de Streaming estruturado nunca devem ter o máximo de execuções simultâneas definido como maior que 1. Os trabalhos de streaming devem ser definidos para serem executados usando a expressão
"* * * * * ?"
cron (a cada minuto). Como uma tarefa de streaming é executada continuamente, ela deve ser sempre a tarefa final em um trabalho.
Configurar uma tarefa do Spark Submit
Adicione uma Spark Submit
tarefa da guia Tarefas na interface do usuário Trabalhos fazendo o seguinte:
- No menu suspenso Tipo, selecione
Spark Submit
. - Use Computação para configurar um cluster que ofereça suporte à lógica em sua tarefa.
- Use a caixa de texto Parâmetros para fornecer todos os argumentos e configurações necessários para executar sua tarefa como uma matriz JSON de cadeias de caracteres.
Os três primeiros argumentos são usados para identificar a classe principal a ser executada em um JAR em um caminho especificado, como no exemplo a seguir:
["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]
Não é possível substituir as
master
configurações ,deploy-mode
eexecutor-cores
definidas pelo Azure DatabricksUse
--jars
e--py-files
adicione bibliotecas Java, Scala e Python dependentes.Use
--conf
para definir as configurações do Spark.Os
--jars
argumentos ,--py-files
,--files
suportam caminhos DBFS.Por padrão, o trabalho de envio do Spark usa toda a memória disponível, excluindo a memória reservada para os serviços do Azure Databricks. Você pode definir
--driver-memory
, e--executor-memory
para um valor menor para deixar algum espaço para uso fora da pilha.
- Clique em Salvar tarefa.