Compartilhar via


Instalar dependências do notebook

Você pode instalar dependências do Python para notebooks sem servidor usando o painel lateral Ambiente. Este painel fornece um único local para editar, exibir e exportar os requisitos de biblioteca de blocos de anotações’. Essas dependências podem ser adicionadas usando um ambiente de base ou individualmente.

Painel de ambiente sem servidor com políticas de orçamento

Para tarefas que não são de notebook, consulte Configurar ambientes e dependências para tarefas que não são do notebook.

Importante

Não instale o PySpark ou qualquer biblioteca que instale o PySpark como uma dependência em seus notebooks sem servidor. Isso interromperá sua sessão e resultará em um erro. Se isso ocorrer, redefina seu ambiente.

Configurar um ambiente de base

Um ambiente de base é um arquivo YAML armazenado como um arquivo de espaço de trabalho ou em um volume do Catálogo do Unity que especifica dependências de ambiente adicionais. Ambientes de base podem ser compartilhados entre notebooks. Para configurar um ambiente de base:

  1. Crie um arquivo YAML que defina as configurações para um ambiente virtual do Python. O exemplo de YAML a seguir, que se baseia na especificação de ambiente de projetos do MLflow, define um ambiente de base com algumas dependências de biblioteca:

    client: "1"
    dependencies:
      - --index-url https://pypi.org/simple
      - -r "/Workspace/Shared/requirements.txt"
      - my-library==6.1
      - "/Workspace/Shared/Path/To/simplejson-3.19.3-py3-none-any.whl"
      - git+https://github.com/databricks/databricks-cli
    
  2. Carregue o arquivo YAML como um arquivo de espaço de trabalho ou em um volume do Catálogo do Unity. Confira Importar um arquivo ou Carregar arquivos em um volume do Catálogo do Unity.

  3. À direita do notebook, clique no botão ambiente para expandir o painel Ambiente. Esse botão só aparece quando um notebook está conectado à computação sem servidor.

  4. No campo Ambiente Base, insira o caminho do arquivo YAML carregado ou navegue até ele e o selecione.

  5. Clique em Aplicar. Isso instala as dependências no ambiente virtual do notebook e reinicia o processo do Python.

Os usuários podem substituir as dependências especificadas no ambiente de base instalando as dependências individualmente.

Configurar o ambiente do notebook

Você também pode instalar dependências em um notebook conectado à computação sem servidor usando a guia Dependências do painel Ambiente:

  1. À direita do notebook, clique no botão ambiente para expandir o painel Ambiente. Esse botão só aparece quando um notebook está conectado à computação sem servidor.
  2. Selecione a imagem do cliente no menu suspenso Versão do cliente . Consulte Imagens de cliente sem servidor. O Databricks recomenda escolher a versão mais recente para obter os recursos de notebook mais atualizados.
  3. Na seção Dependências, clique em Adicionar Dependência e insira o caminho da dependência da biblioteca no campo. Você pode especificar uma dependência em qualquer formato que seja válido em um arquivo requirements.txt.
  4. Clique em Aplicar. Isso instala as dependências no ambiente virtual do notebook e reinicia o processo do Python.

Observação

Um trabalho usando computação sem servidor instalará a especificação de ambiente do notebook antes de executar o código do notebook. Isso significa que não é necessário adicionar dependências ao agendar notebooks como trabalhos. Consulte Configurar ambientes e dependências.

Ver as dependências instaladas e os logs do pip

Para ver as dependências instaladas, clique em Instaladas no painel lateral Ambientes de um notebook. Os logs de instalação do pip para o ambiente do notebook também estão disponíveis clicando em Logs do pip na parte inferior do painel.

Redefinir o ambiente

Se o notebook estiver conectado à computação sem servidor, o Databricks armazenará o conteúdo do ambiente virtual do notebook em cache automaticamente. Isso significa que você geralmente não precisa reinstalar as dependências do Python especificadas no painel Ambiente quando abrir um notebook existente, mesmo que este tenha sido desconectado devido à inatividade.

O cache de ambiente virtual do Python também se aplica a trabalhos. Isso significa que as execuções de trabalhos subsequentes serão mais rápidas, visto que as dependências necessárias já estão disponíveis.

Observação

Se você alterar a implementação de um pacote Python personalizado usado em um trabalho sem servidor, também deverá atualizar seu número de versão para que os trabalhos possam selecionar a implementação mais recente.

Para limpar o cache do ambiente e executar uma nova instalação das dependências especificadas no painel Ambiente de um notebook anexado à computação sem servidor, clique na seta ao lado de Aplicar e, a seguir, clique em Redefinir ambiente.

Observação

Redefina o ambiente virtual se você instalar pacotes que interrompam ou alterem o notebook principal ou o ambiente do Apache Spark. Desanexar o notebook da computação sem servidor e em seguida reanexá-lo não necessariamente limpa todo o cache do ambiente.

Configurar ambientes e dependências para tarefas que não são de notebook

Para outros tipos de tarefas suportadas, como script Python, roda Python ou tarefas dbt, um ambiente padrão inclui bibliotecas Python instaladas. Para ver a lista de bibliotecas instaladas, consulte a seção Bibliotecas Python instaladas da versão do cliente que você está usando. Consulte Imagens de cliente sem servidor. Se uma tarefa exigir uma biblioteca do Python que não esteja instalada, você poderá instalar a biblioteca por meio de arquivos de workspace, volumes do Catálogo do Unity ou repositórios de pacotes públicos. Para adicionar uma biblioteca ao criar ou editar uma tarefa:

  1. No menu suspenso Ambiente e Bibliotecas, clique em Editar ícone ao lado do ambiente Padrão ou clique em + Adicionar novo ambiente.

    Editar ambiente padrão

  2. Selecione a imagem do cliente no menu suspenso Versão do cliente . Consulte Imagens de cliente sem servidor. O Databricks recomenda escolher a versão mais recente para obter os recursos mais atualizados.

  3. Na caixa de diálogo Configurar ambiente, clique em + Adicionar biblioteca.

  4. Selecione o tipo de dependência no menu suspenso em Bibliotecas.

  5. Na caixa de texto Caminho do arquivo, insira o caminho para a biblioteca.

  • Para um Python Wheel em um arquivo de espaço de trabalho, o caminho deve ser absoluto e começar com /Workspace/.

  • Para uma roda Python em um volume do Unity Catalog, o caminho deve ser /Volumes/<catalog>/<schema>/<volume>/<path>.whl.

  • Para um arquivo requirements.txt, selecione PyPi e digite -r /path/to/requirements.txt.

    Adicionar bibliotecas de tarefas

  1. Clique em Confirmar ou +Adicionar biblioteca para adicionar outra biblioteca.
  2. Se você estiver adicionando uma tarefa, clique em Criar tarefa. Se você estiver editando uma tarefa, clique em Salvar tarefa.