Use o Eclipse com o PyDev e o Databricks Connect para Python
Observação
Esse artigo aborda o Databricks Connect para Databricks Runtime 13.3 LTS e superior.
Este artigo aborda como usar o Databricks Connect para Scala e o Eclipse com o PyDev. O Databricks Connect permite que você conecte IDEs populares, servidores de notebook e outros aplicativos personalizados aos clusters do Azure Databricks. Consulte O que é o Databricks Connect?.
Observação
Antes de começar a usar o Databricks Connect, você deve configurar o cliente do Databricks Connect.
Para usar o Databricks Connect e Eclipse com PyDev, siga estas instruções.
- Inicie o Eclipse.
- Criar um projeto: clique em Arquivo > Novo > Projeto > PyDev > Projeto PyDev e clique em Avançar.
- Especifique um Nome do projeto.
- Para Conteúdo do projeto, especifique o caminho para o ambiente virtual Python.
- Clique em Configurar um interpretador antes de continuar.
- Clique em Configuração manual.
- Clique em Novo > Procurar python/pypy exe.
- Procure e selecione o caminho completo para o interpretador do Python referenciado no ambiente virtual e, em seguida, clique em Abrir.
- Na caixa de diálogo Selecionar interpretador, clique em OK.
- Na caixa de diálogo Seleção necessária, clique em OK.
- Na caixa de diálogo Preferências, clique em Aplicar e Fechar.
- Na caixa de diálogo Projeto PyDev, clique em Concluir.
- Clique em Abrir Perspectiva.
- Adicione ao projeto um arquivo de código Python (
.py
) que contém o código de exemplo ou seu próprio código. Se você usar seu próprio código, deverá inicializarDatabricksSession
no mínimo conforme mostrado no código de exemplo. - Com o arquivo de código Python aberto, defina os pontos de interrupção em que você deseja que seu código pause durante a execução.
- Para executar o código, clique em Executar > Executar. Todo o código Python é executado localmente, enquanto todo o código PySpark que envolve operações do DataFrame é executado no cluster no workspace remoto do Azure Databricks e as respostas de execução são enviadas de volta para o chamador local.
- Para depurar o código, clique em Executar > Depuração. Todo o código Python é depurado localmente, enquanto todo o código PySpark continua a ser executado no cluster no workspace remoto do Azure Databricks. O código principal do mecanismo Spark não pode ser depurado diretamente do cliente.
Para obter instruções de execução e depuração mais específicas, confira Executando um programa.