Integrare OneLake con Azure HDInsight

Articolo
10/15/2024

Azure HDInsight è un servizio gestito basato sul cloud per l'analisi di Big Data che consente alle organizzazioni di elaborare grandi quantità di dati. Questa esercitazione illustra come connettersi a OneLake con un notebook Jupyter da un cluster Azure HDInsight.

Uso di Azure HDInsight

Connettersi a OneLake con Jupyter Notebook da un cluster HDInsight:

Creare un cluster Apache Spark in HDInsight (HDI). Seguire queste istruzioni: impostare i cluster in HDInsight.
1. Quando si forniscono informazioni sul cluster, tenere presente il nome utente e la password di accesso del cluster, perché saranno necessari in un secondo momento per accedere al cluster.
2. Creare un’identità gestita assegnata dall'utente (UAMI): Creare per Azure HDInsight - UAMI e sceglierla come l’identità nella schermata Archiviazione.
Concedere a questa UAMI l'accesso all'area di lavoro Infrastruttura che contiene gli elementi. Per informazioni sulla scelta del ruolo migliore, vedere Ruoli dell'area di lavoro.
Passare a Lakehouse e trovare il nome per l'area di lavoro e Lakehouse. È possibile trovarli nell'URL di Lakehouse o nel riquadro Proprietà per un file.
Nel portale di Azure cercare il cluster e selezionare il notebook.
Immettere le informazioni sulle credenziali specificate durante la creazione del cluster.
Creare un nuovo notebook Apache Spark.

Copiare i nomi dell'area di lavoro e del lakehouse nel notebook e compilare l'URL di OneLake per il lakehouse. È ora possibile leggere qualsiasi file da questo percorso di file.

fp = 'abfss://' + 'Workspace Name' + '@onelake.dfs.fabric.microsoft.com/' + 'Lakehouse Name' + '/Files/' 
df = spark.read.format("csv").option("header", "true").load(fp + "test1.csv") 
df.show()

Provare a scrivere alcuni dati nel lakehouse.

writecsvdf = df.write.format("csv").save(fp + "out.csv")

Verificare che i dati siano stati scritti correttamente controllando il lakehouse o leggendo il file appena caricato.

È ora possibile leggere e scrivere dati in OneLake usando il Jupyter Notebook in un cluster HDI Spark.

Sicurezza di OneLake

Condividi tramite

Integrare OneLake con Azure HDInsight

Uso di Azure HDInsight

Commenti e suggerimenti

Risorse aggiuntive

Condividi tramite

Integrare OneLake con Azure HDInsight

Uso di Azure HDInsight

Contenuto correlato

Commenti e suggerimenti

Risorse aggiuntive