Usar o Jupyter Notebook clássico com o Databricks Connect para Python
Observação
Esse artigo aborda o Databricks Connect para Databricks Runtime 13.3 LTS e superior.
Este artigo aborda como usar o Databricks Connect para Python com o Jupyter Notebook clássico. O Databricks Connect permite que você conecte servidores de notebook, IDEs populares e outros aplicativos personalizados aos clusters do Azure Databricks. Consulte O que é o Databricks Connect?.
Observação
Antes de começar a usar o Databricks Connect, você precisa configurar o cliente do Databricks Connect.
Para usar o Databricks Connect com o Jupyter Notebook clássico e Python, siga estas instruções.
Para instalar o Jupyter Notebook clássico, com o ambiente virtual Python ativado, execute o seguinte comando no seu terminal ou no Prompt de Comando:
pip3 install notebook
Para iniciar o Jupyter Notebook clássico no navegador da Web, execute o seguinte comando no ambiente virtual Python ativado:
jupyter notebook
Se o Jupyter Notebook clássico não aparecer no navegador da Web, copie o URL que começa com
localhost
ou127.0.0.1
do seu ambiente virtual e insira-o na barra de endereços do navegador da Web.Crie um novo notebook: no Jupyter Notebook clássico, na guia Arquivos, clique em Novo > Python 3 (ipykernel).
Na primeira célula do notebook, insira o código de exemplo ou seu próprio código. Se você usar seu próprio código, deverá inicializar
DatabricksSession
no mínimo conforme mostrado no código de exemplo.Para executar o notebook, clique em Célula > Executar Tudo. Todo o código Python é executado localmente, enquanto todo o código PySpark que envolve operações do DataFrame é executado no cluster no workspace remoto do Azure Databricks e as respostas de execução são enviadas de volta para o chamador local.
Para depurar o notebook, adicione a seguinte linha de código no início do notebook:
from IPython.core.debugger import set_trace
Em seguida, chame
set_trace()
para inserir instruções de depuração nesse ponto de execução do notebook. Todo o código Python é depurado localmente, enquanto todo o código PySpark continua a ser executado no cluster no workspace remoto do Azure Databricks. O código principal do mecanismo Spark não pode ser depurado diretamente do cliente.Para desligar o Jupyter Notebook clássico, clique em Arquivo > Fechar e Parar. Se o processo do Jupyter Notebook clássico ainda estiver em execução no seu terminal ou prompt de comando, interrompa esse processo pressionando
Ctrl + c
e, em seguida, inserindoy
para confirmar.