Condividi tramite


Installare librerie da un repository di pacchetti

Azure Databricks offre strumenti per installare librerie da repository di pacchetti PyPI, Maven e CRAN. Per informazioni dettagliate sulla compatibilità della libreria, vedere Librerie con ambito cluster.

Importante

Le librerie possono essere installate da DBFS quando si usa Databricks Runtime 14.3 LTS e versioni successive. Tuttavia, qualsiasi utente dell'area di lavoro può modificare i file di libreria archiviati in DBFS. Per migliorare la sicurezza delle librerie in un'area di lavoro di Azure Databricks, l'archiviazione dei file di libreria nella radice DBFS è deprecata e disabilitata per impostazione predefinita in Databricks Runtime 15.1 e versioni successive. Per impostazione predefinita, vedere Archiviazione di librerie nella radice DBFS deprecata e disabilitata.

Databricks consiglia invece di caricare tutte le librerie, incluse le librerie Python, i file JAR e i connettori Spark, nei file dell'area di lavoro o nei volumi di Unity Catalog o usando i repository dei pacchetti di libreria. Se il carico di lavoro non supporta questi modelli, è anche possibile usare le librerie archiviate nell'archiviazione di oggetti cloud.

Pacchetto PyPI

  1. Nell'elenco dei pulsanti Origine libreria, selezionare PyPI.

  2. Immettere un nome di pacchetto PyPI. Per installare una versione specifica di una libreria, usare questo formato per la libreria: <library>==<version>. Ad esempio: scikit-learn==0.19.1.

    Nota

    Per i processi, Databricks consiglia di specificare una versione della libreria per garantire un ambiente riproducibile. Se la versione della libreria non è specificata completamente, Databricks usa la versione corrispondente più recente. Ciò significa che esecuzioni diverse dello stesso processo potrebbero usare versioni diverse della libreria quando vengono pubblicate nuove versioni. Se si specifica la versione della libreria, le modifiche di rilievo apportate alle librerie non causano interruzioni dei processi.

  3. (Facoltativo) Nel campo URL indice immettere un URL di indice PyPI.

  4. Cliccare Installa.

Pacchetto Maven o Spark

Importante

Per installare le librerie Maven nel calcolo configurato con la modalità di accesso condiviso, è necessario aggiungere le coordinate all'elenco elementi consentiti. Si veda Librerie Allowlist e script di init su calcolo condiviso.

Importante

Per DBR 14.3 LTS e versioni successive, Databricks usa Apache Ivy 2.4.0 per risolvere i pacchetti Maven. Per DBR 15.0 e versioni successive, Databricks usa Ivy 2.5.1 o versione successiva; la versione specifica di Ivy è elencata in Versioni e compatibilità delle note sulla versione di Databricks Runtime.

L'ordine di installazione dei pacchetti Maven può influire sull'albero delle dipendenze finale; ciò può avere effetti sull'ordine in cui vengono caricate le librerie.

  1. Nell'elenco dei pulsanti Origine libreria, selezionare Maven.

  2. Specificare una coordinata Maven. Eseguire una delle operazioni seguenti:

    • Nel campo Coordinate immettere la coordinata Maven della libreria da installare. Le coordinate Maven sono nel formato groupId:artifactId:version, ad esempio com.databricks:spark-avro_2.10:1.0.0.
    • Se non si conosce la coordinata esatta, immettere il nome della libreria e cliccare Cerca pacchetti. Viene visualizzato un elenco di pacchetti corrispondenti. Per visualizzare i dettagli relativi a un pacchetto, cliccare il nome. È possibile ordinare i pacchetti in base al nome, all'organizzazione e alla classificazione. È anche possibile filtrare i risultati scrivendo una query nella barra di ricerca. I risultati vengono aggiornati automaticamente.
      1. Selezionare Maven Central o Spark Packages nell'elenco a discesa in alto a sinistra.
      2. Facoltativamente, selezionare la versione del pacchetto nella colonna Versioni.
      3. Cliccare + Seleziona accanto a un pacchetto. Il campo Coordinate viene compilato con il pacchetto e la versione selezionati.
  3. (Facoltativo) Nel campo Repository è possibile immettere un URL del repository Maven.

    Nota

    I repository Maven interni non sono supportati.

  4. Nel campo Esclusioni specificare facoltativamente il groupId e il artifactId delle dipendenze da escludere (ad esempio log4j:log4j).

    Nota

    Maven funziona utilizzando la versione più vicina alla radice; nel caso di due pacchetti che si contendono le versioni con dipendenze diverse, l'ordine è importante, quindi la procedura potrebbe non funzionare quando viene caricato per primo il pacchetto con una dipendenza più vecchia.

    Per ovviare a questo problema, escludere la libreria in conflitto. Ad esempio, quando si installa il pacchetto con la coordinata com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.22, impostare il campo Esclusioni su com.nimbusds:oauth2-oidc-sdk:RELEASE in modo che venga caricata la versione più recente di eventhubs da MSAL4J e che la dipendenza eventhubs sia soddisfatta.

  5. Cliccare Installa.

Pacchetti CRAN

  1. Nell'elenco dei pulsanti Origine libreria, selezionare CRAN.
  2. Nel campo Pacchetto immettere il nome del pacchetto.
  3. (Facoltativo) Nel campo Repository è possibile immettere l'URL del repository CRAN.
  4. Cliccare Installa.

Nota

I mirror CRAN servono la versione più recente di una libreria. Di conseguenza, si possono avere versioni diverse di un pacchetto R se si collega la libreria a cluster diversi in momenti diversi. Per informazioni su come gestire e correggere le versioni dei pacchetti R in Databricks, vedere la Knowledge Base.