Compartilhar via


Instalar o Databricks Connect para Python

Observação

Esse artigo aborda o Databricks Connect para Databricks Runtime 13.3 LTS e superior.

Esse artigo descreve como instalar o Databricks Connect para Python. Consulte O que é o Databricks Connect?. Para obter a versão para Scala deste artigo, consulte Instalar o Databricks Connect para Scala.

Requisitos

Para instalar o Databricks Connect para Python, os seguintes requisitos devem ser atendidos:

  • Se você estiver se conectando à computação sem servidor, seu workspace deverá atender aos requisitos para computação sem servidor.

    Observação

    A versão 15.1 e as versões posteriores do Databricks Connect oferecem suporte para a computação sem servidor. Além disso, as versões do Databricks Connect semelhantes ou anteriores à versão do Databricks Runtime sem servidor são totalmente compatíveis. Confira as notas sobre a versão. Para verificar se a versão do Databricks Connect é compatível com a computação sem servidor, confira a seção Validar a conexão com o Databricks.

  • Se você estiver se conectando a um cluster, seu cluster de destino deverá atender aos requisitos de configuração do cluster, que inclui os requisitos de versão do Databricks Runtime.

  • Você deve ter o Python 3 instalado em seu computador de desenvolvimento e a versão secundária do Python instalada em seu computador deve atender aos requisitos de versão na tabela abaixo.

    Tipo de computação Versão do Databricks Connect Versão compatível do Python
    Sem servidor 15.1 e versões posteriores 3.11
    Cluster 15.1 e versões posteriores 3.11
    Cluster 13.3 LTS a 14.3 LTS 3.10
  • Se você quiser usar UDFs do PySpark, a versão secundária do Python instalada no computador de desenvolvimento deve corresponder à versão secundária do Python incluída no Databricks Runtime instalado no cluster ou computação sem servidor. Para localizar a versão secundária do Python do seu cluster, consulte a seção Ambiente do sistema das notas sobre a versão do Databricks Runtime para seu cluster ou computação sem servidor. Consulte Versões e compatibilidade das notas sobre a versão do Databricks Runtime e Notas sobre a versão da computação sem servidor.

Ativar um ambiente virtual do Python

O Databricks recomenda que você tenha um ambiente virtual Python ativado para cada versão do Python que você usa com o Databricks Connect. Os ambientes virtuais Python ajudam a garantir o uso das versões corretas do Python e do Databricks Connect em conjunto. Para obter mais informações sobre essas ferramentas e como ativá-las, consulte venv ou Poetry.

Instalar o cliente do Databricks Connect

Esta seção descreve como instalar o cliente do Databricks Connect com venv ou Poetry.

Observação

Se você já tiver a extensão do Databricks para o Visual Studio Code instalada, não precisará seguir essas instruções de instalação, pois a extensão do Databricks para Visual Studio Code já tem suporte interno para Databricks Connect para Databricks Runtime 13.3 LTS e superior. Pular para Depurar código usando o Databricks Connect para a extensão Databricks para Visual Studio Code.

Instale o cliente do Databricks Connect com venv

  1. Com o ambiente virtual ativado, desinstale o PySpark, se ele já estiver instalado, executando o comando uninstall. Isso é necessário porque o pacote databricks-connect está em conflito com o PySpark. Para obter detalhes, confira Instalações conflitantes do PySpark. Para verificar se o PySpark já está instalado, execute o comando show.

    # Is PySpark already installed?
    pip3 show pyspark
    
    # Uninstall PySpark
    pip3 uninstall pyspark
    
  2. Com o ambiente virtual ainda ativado, instale o cliente do Databricks Connect executando o comando install. Use a opção --upgrade para atualizar qualquer instalação do cliente existente para a versão especificada.

    pip3 install --upgrade "databricks-connect==15.4.*"  # Or X.Y.* to match your cluster version.
    

    Observação

    O Databricks recomenda que você acrescente a notação "dot-asterisk" a ser especificada databricks-connect==X.Y.* em vez de databricks-connect=X.Y, para garantir que o pacote mais recente esteja instalado. Embora não seja um requisito, isso ajudará a garantir que você possa usar os recursos mais recentes com suporte para esse cluster.

Instale o cliente do Databricks Connect com Poesia

  1. Com o ambiente virtual ativado, desinstale o PySpark, se ele já estiver instalado, executando o comando remove. Isso é necessário porque o pacote databricks-connect está em conflito com o PySpark. Para obter detalhes, confira Instalações conflitantes do PySpark. Para verificar se o PySpark já está instalado, execute o comando show.

    # Is PySpark already installed?
    poetry show pyspark
    
    # Uninstall PySpark
    poetry remove pyspark
    
  2. Com o ambiente virtual ainda ativado, instale o cliente do Databricks Connect executando o comando add.

    poetry add databricks-connect@~15.4  # Or X.Y to match your cluster version.
    

    Observação

    O Databricks recomenda que você use a notação "at-tilde" a ser especificada databricks-connect@~15.4 em vez de databricks-connect==15.4, para garantir que o pacote mais recente esteja instalado. Embora não seja um requisito, isso ajudará a garantir que você possa usar os recursos mais recentes com suporte para esse cluster.

Próximas etapas

Depois de instalar o Databricks Connect, você precisará configurar uma conexão com o Databricks. Consulte Configuração de computação para o Databricks Connect.