Condividi tramite


Databricks Connect for Python

Nota

Questo articolo illustra Databricks Connect per Databricks Runtime 13.3 LTS e versioni successive.

Questo articolo illustra come iniziare rapidamente a usare Databricks Connect usando Python e PyCharm.

Databricks Connect consente di connettere gli IDE più diffusi, ad esempio PyCharm, i server notebook e altre applicazioni personalizzate ai cluster Di Azure Databricks. Consultare Cos’è Databricks Connect?.

Esercitazione

Per ignorare questa esercitazione e usare invece un IDE diverso, vedere Passaggi successivi.

Requisiti

Per completare questa esercitazione, è necessario soddisfare i requisiti seguenti:

  • L'area di lavoro di Azure Databricks di destinazione deve avere Unity Catalog abilitato.
  • È installato PyCharm. Questa esercitazione è stata testata con PyCharm Community Edition 2023.3.5. Se si usa una versione o un'edizione diversa di PyCharm, le istruzioni seguenti possono variare.
  • Il calcolo soddisfa i requisiti di installazione di Databricks Connect per Python.
  • Se si usa il calcolo classico, sarà necessario l'ID del cluster. Per ottenere l'ID cluster, nell'area di lavoro fare clic su Compute sulla barra laterale e quindi sul nome del cluster. Nella barra degli indirizzi del Web browser copiare la stringa di caratteri tra clusters e configuration nell'URL.

Passaggio 1: Configurare l'autenticazione di Azure Databricks

Questa esercitazione usa l'autenticazione da utente a computer (U2M) di Azure Databricks e un profilo di configurazione di Azure Databricks per l'autenticazione nell'area di lavoro di Azure Databricks. Per usare un tipo di autenticazione diverso, vedere Configurare le proprietà di connessione.

La configurazione dell'autenticazione U2M OAuth richiede l'interfaccia della riga di comando di Databricks. Per informazioni sull'installazione dell'interfaccia della riga di comando di Databricks, vedere Installare o aggiornare l'interfaccia della riga di comando di Databricks.

Avviare l'autenticazione U2M OAuth, come indicato di seguito:

  1. Usare il Databricks CLI per avviare la gestione dei token OAuth in locale eseguendo il seguente comando per ogni area di lavoro di destinazione.

    Nel seguente comando, sostituire <workspace-url> con l’URL per l'area di lavoro di Azure Databricks, per esempio https://adb-1234567890123456.7.azuredatabricks.net.

    databricks auth login --configure-cluster --host <workspace-url>
    

    Suggerimento

    Per usare il calcolo serverless con Databricks Connect, vedere Configurare una connessione al calcolo serverless.

  2. Il Databricks CLI richiede di salvare le informazioni immesse come profilo di configurazione di Azure Databricks. Premere Enter per accettare il nome del profilo suggerito oppure immettere il nome di un profilo nuovo o esistente. Qualsiasi profilo esistente con lo stesso nome viene sovrascritto con le informazioni immesse. È possibile usare i profili per cambiare rapidamente il contesto di autenticazione tra più aree di lavoro.

    Per ottenere un elenco di tutti i profili esistenti, in un terminale o un prompt dei comandi separato, usare il Databricks CLI per eseguire il comando databricks auth profiles. Per visualizzare le impostazioni esistenti di un profilo specifico, eseguire il comando databricks auth env --profile <profile-name>.

  3. Nel Web browser completare le istruzioni visualizzate per accedere all'area di lavoro di Azure Databricks.

  4. Nell'elenco dei cluster disponibili visualizzati nel terminale o nel prompt dei comandi usare i tasti freccia su e freccia giù per selezionare il cluster Azure Databricks di destinazione nell'area di lavoro e quindi premere Enter. È anche possibile digitare qualsiasi parte del nome visualizzato del cluster per filtrare l'elenco dei cluster disponibili.

  5. Per visualizzare il valore corrente del token OAuth di un profilo e il timestamp di scadenza imminente del token, eseguire uno dei comandi seguenti:

    • databricks auth token --host <workspace-url>
    • databricks auth token -p <profile-name>
    • databricks auth token --host <workspace-url> -p <profile-name>

    Se si dispone di più profili con lo stesso valore --host, potrebbe essere necessario specificare insieme le opzioni --host e -p per consentire al Databricks CLI di trovare le informazioni corrette corrispondenti sul token OAuth.

Step 2: Creare il progetto

  1. Avviare PyCharm.
  2. Dal menu principale, fare click su File > Nuovo progetto.
  3. Nella finestra di dialogo Nuovo progetto fare clic su Pure Python.
  4. Per Percorso fare clic sull'icona della cartella e completare le istruzioni visualizzate per specificare il percorso del nuovo progetto Python.
  5. Lasciare selezionata l'opzione Crea un main.py script di benvenuto.
  6. Per Tipo di interprete fare clic su Progetto venv.
  7. Espandere La versione di Python e usare l'icona della cartella o l'elenco a discesa per specificare il percorso dell'interprete Python dai requisiti precedenti.
  8. Cliccare su Crea.

Creare il progetto PyCharm

Passaggio 3: Aggiungere il pacchetto Databricks Connect

  1. Nel menu principale di PyCharm fare clic su Visualizza > pacchetti Python dello strumento>.
  2. Nella casella di ricerca immettere databricks-connect.
  3. Nell'elenco del repository PyPI fare clic su databricks-connect.
  4. Nell'elenco a discesa più recente del riquadro dei risultati selezionare la versione corrispondente alla versione di Databricks Runtime del cluster. Ad esempio, se nel cluster è installato Databricks Runtime 14.3, selezionare 14.3.1.
  5. Fare clic su Installa pacchetto.
  6. Dopo l'installazione del pacchetto, è possibile chiudere la finestra Pacchetti Python.

Installare il pacchetto Databricks Connect

Passaggio 4: Aggiungere codice

  1. Nella finestra Strumento progetto fare clic con il pulsante destro del mouse sulla cartella radice del progetto e scegliere Nuovo > file Python.

  2. Immettere main.py e fare doppio clic su File Python.

  3. Immettere il codice seguente nel file e quindi salvare il file, a seconda del nome del profilo di configurazione.

    Se il profilo di configurazione del passaggio 1 è denominato DEFAULT, immettere il codice seguente nel file e quindi salvare il file:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

    Se il profilo di configurazione del passaggio 1 non è denominato DEFAULT, immettere il codice seguente nel file. Sostituire il segnaposto <profile-name> con il nome del profilo di configurazione del passaggio 1 e quindi salvare il file:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

Passaggio 5: Eseguire il codice

  1. Avviare il cluster di destinazione nell'area di lavoro remota di Azure Databricks.
  2. Dopo l'avvio del cluster, nel menu principale fare clic su Esegui > 'main'.
  3. Nella finestra Esegui strumento (Visualizza >> esecuzione strumento) del riquadro principale della scheda Esegui vengono visualizzate le prime 5 righe di .samples.nyctaxi.trips

Passaggio 6: Eseguire il debug del codice

  1. Con il cluster ancora in esecuzione, nel codice precedente fare clic sulla barra accanto a df.show(5) per impostare un punto di interruzione.
  2. Nel menu principale fare clic su Esegui > debug 'main'.
  3. Nella finestra Dello strumento di debug (Visualizza >debug di Finestre > degli strumenti), nel riquadro Variabili della scheda Debugger espandere i nodi di variabili df e spark per esplorare le informazioni sulle variabili e spark sul df codice.
  4. Nella barra laterale della finestra dello strumento di debug fare clic sulla freccia verde (Riprendi programma).
  5. Nel riquadro Console della scheda Debugger vengono visualizzate le prime 5 righe dell'oggetto samples.nyctaxi.trips .

Eseguire il debug del progetto PyCharm

Passaggi successivi

Per altre informazioni su Databricks Connect, vedere articoli come i seguenti: