Compartilhar via


Use o Eclipse com o PyDev e o Databricks Connect para Python

Observação

Esse artigo aborda o Databricks Connect para Databricks Runtime 13.3 LTS e superior.

Este artigo aborda como usar o Databricks Connect para Scala e o Eclipse com o PyDev. O Databricks Connect permite que você conecte IDEs populares, servidores de notebook e outros aplicativos personalizados aos clusters do Azure Databricks. Consulte O que é o Databricks Connect?.

Observação

Antes de começar a usar o Databricks Connect, você deve configurar o cliente do Databricks Connect.

Para usar o Databricks Connect e Eclipse com PyDev, siga estas instruções.

  1. Inicie o Eclipse.
  2. Criar um projeto: clique em Arquivo > Novo > Projeto > PyDev > Projeto PyDev e clique em Avançar.
  3. Especifique um Nome do projeto.
  4. Para Conteúdo do projeto, especifique o caminho para o ambiente virtual Python.
  5. Clique em Configurar um interpretador antes de continuar.
  6. Clique em Configuração manual.
  7. Clique em Novo > Procurar python/pypy exe.
  8. Procure e selecione o caminho completo para o interpretador do Python referenciado no ambiente virtual e, em seguida, clique em Abrir.
  9. Na caixa de diálogo Selecionar interpretador, clique em OK.
  10. Na caixa de diálogo Seleção necessária, clique em OK.
  11. Na caixa de diálogo Preferências, clique em Aplicar e Fechar.
  12. Na caixa de diálogo Projeto PyDev, clique em Concluir.
  13. Clique em Abrir Perspectiva.
  14. Adicione ao projeto um arquivo de código Python (.py) que contém o código de exemplo ou seu próprio código. Se você usar seu próprio código, deverá inicializar DatabricksSession no mínimo conforme mostrado no código de exemplo.
  15. Com o arquivo de código Python aberto, defina os pontos de interrupção em que você deseja que seu código pause durante a execução.
  16. Para executar o código, clique em Executar > Executar. Todo o código Python é executado localmente, enquanto todo o código PySpark que envolve operações do DataFrame é executado no cluster no workspace remoto do Azure Databricks e as respostas de execução são enviadas de volta para o chamador local.
  17. Para depurar o código, clique em Executar > Depuração. Todo o código Python é depurado localmente, enquanto todo o código PySpark continua a ser executado no cluster no workspace remoto do Azure Databricks. O código principal do mecanismo Spark não pode ser depurado diretamente do cliente.

Para obter instruções de execução e depuração mais específicas, confira Executando um programa.