Instalar bibliotecas a partir de um repositório de pacotes
O Azure Databricks fornece ferramentas para instalar bibliotecas de repositórios de pacotes PyPI, Maven e RAN. Consulte Bibliotecas com escopo de cluster para obter detalhes completos sobre a compatibilidade da biblioteca.
Importante
As bibliotecas podem ser instaladas a partir do DBFS ao usar o Databricks Runtime 14.3 LTS e inferior. No entanto, qualquer usuário do espaço de trabalho pode modificar arquivos de biblioteca armazenados no DBFS. Para melhorar a segurança das bibliotecas em um espaço de trabalho do Azure Databricks, o armazenamento de arquivos de biblioteca na raiz DBFS é preterido e desabilitado por padrão no Databricks Runtime 15.1 e superior. Consulte O armazenamento de bibliotecas na raiz DBFS foi preterido e desativado por padrão.
Em vez disso, o Databricks recomenda carregar todas as bibliotecas, incluindo bibliotecas Python, arquivos JAR e conectores Spark, para arquivos de espaço de trabalho ou Unity Catalogvolumes, ou usar repositórios de pacotes de bibliotecas. Se sua carga de trabalho não oferecer suporte a esses padrões, você também poderá usar bibliotecas armazenadas no armazenamento de objetos na nuvem.
Pacote PyPI
No botão Fontede Bibliotecalist, selectPyPI.
Insira um nome de pacote PyPI. Para instalar uma versão específica de uma biblioteca, use este formato para a biblioteca:
<library>==<version>
. Por exemplo,scikit-learn==0.19.1
.Nota
Para trabalhos, o Databricks recomenda que você especifique uma versão da biblioteca para garantir um ambiente reproduzível. Se a versão da biblioteca não for totalmente especificada, o Databricks usará a versão correspondente mais recente. Isso significa que diferentes execuções do mesmo trabalho podem usar versões de biblioteca diferentes à medida que novas versões são publicadas. Especificar a versão da biblioteca evita que novas alterações significativas nas bibliotecas interrompam seus trabalhos.
(Opcional) No campo URL do índice, insira um URL de índice PyPI.
Clique em Install (Instalar).
Pacote Maven ou Spark
Importante
Para instalar bibliotecas Maven na computação configurada com o modo de acesso compartilhado, você deve adicionar as coordenadas à lista de permissões. Consulte Bibliotecas Allowlist e scripts init em computação compartilhada.
Importante
Para DBR 14.3 LTS e inferior, o Databricks usa o Apache Ivy 2.4.0 para resolver pacotes Maven. Para DBR 15.0 e superior, o Databricks usa o Ivy 2.5.1 ou superior e a versão específica do Ivy está listada nas versões e compatibilidade das notas de versão do Databricks Runtime.
A ordem de instalação dos pacotes Maven pode afetar a árvore de dependência final, o que pode afetar a ordem na qual as bibliotecas são carregadas.
No botão da Library Sourcelist, selectMaven.
Especifique uma coordenada Maven. Execute um dos seguintes procedimentos:
- No campo Coordenadas, insira a coordenada Maven da biblioteca a ser instalada. As coordenadas Maven estão na forma
groupId:artifactId:version
, por exemplo,com.databricks:spark-avro_2.10:1.0.0
. - Se não souber a coordenada exata, introduza o nome da biblioteca e clique em Procurar Pacotes. Uma list de pacotes correspondentes é exibida. Para exibir detalhes sobre um pacote, clique em seu nome. Você pode classificar os pacotes por nome, organização e classificação. Você também pode filtrar os resultados escrevendo uma consulta na barra de pesquisa. Os resultados refresh são gerados automaticamente.
- Select Maven Central ou Spark Packages no list suspenso no canto superior esquerdo.
- Opcionalmente, select a versão do pacote no columnVersões .
- Clique em + Select ao lado de um pacote. O campo Coordenadas é preenchido com o pacote e a versão selecionados.
- No campo Coordenadas, insira a coordenada Maven da biblioteca a ser instalada. As coordenadas Maven estão na forma
(Opcional) No campo Repositório, você pode inserir uma URL do repositório Maven.
Nota
Não há suporte para repositórios internos do Maven.
No campo Exclusões, opcionalmente, forneça o
groupId
e oartifactId
das dependências que você deseja excluir (por exemplo,log4j:log4j
).Nota
O Maven funciona usando a versão mais próxima da raiz e, no caso de dois pacotes que disputam versões com dependências diferentes, a ordem é importante, então pode falhar quando o pacote com uma dependência mais antiga é carregado primeiro.
Para contornar isso, exclua a biblioteca conflitante. Por exemplo, ao instalar o pacote com o
coordenadas, o campo Exclusões para para que a versão mais recente do do MSAL4J seja carregada e a dependência seja satisfeita. Clique em Install (Instalar).
Pacote CRAN
- No botão Biblioteca Origemlist, selectCRAN.
- No campo Pacote, insira o nome do pacote.
- (Opcional) No campo Repositório, você pode inserir a URL do repositório CRAN.
- Clique em Install (Instalar).
Nota
Os espelhos CRAN servem a versão mais recente de uma biblioteca. Como resultado, você pode acabar com versões diferentes de um pacote R se anexar a biblioteca a clusters diferentes em momentos diferentes. Para saber como gerenciar e corrigir versões de pacotes R no Databricks, consulte a Base de Dados de Conhecimento.