Integrare OneLake con Azure HDInsight
Azure HDInsight è un servizio gestito basato sul cloud per l'analisi di Big Data che consente alle organizzazioni di elaborare grandi quantità di dati. Questa esercitazione illustra come connettersi a OneLake con un notebook Jupyter da un cluster Azure HDInsight.
Uso di Azure HDInsight
Connettersi a OneLake con Jupyter Notebook da un cluster HDInsight:
Creare un cluster Apache Spark in HDInsight (HDI). Seguire queste istruzioni: impostare i cluster in HDInsight.
Quando si forniscono informazioni sul cluster, tenere presente il nome utente e la password di accesso del cluster, perché saranno necessari in un secondo momento per accedere al cluster.
Creare un’identità gestita assegnata dall'utente (UAMI): Creare per Azure HDInsight - UAMI e sceglierla come l’identità nella schermata Archiviazione.
Concedere a questa UAMI l'accesso all'area di lavoro Infrastruttura che contiene gli elementi. Per informazioni sulla scelta del ruolo migliore, vedere Ruoli dell'area di lavoro.
Passare a Lakehouse e trovare il nome per l'area di lavoro e Lakehouse. È possibile trovarli nell'URL di Lakehouse o nel riquadro Proprietà per un file.
Nel portale di Azure cercare il cluster e selezionare il notebook.
Immettere le informazioni sulle credenziali specificate durante la creazione del cluster.
Creare un nuovo notebook Apache Spark.
Copiare i nomi dell'area di lavoro e del lakehouse nel notebook e compilare l'URL di OneLake per il lakehouse. È ora possibile leggere qualsiasi file da questo percorso di file.
fp = 'abfss://' + 'Workspace Name' + '@onelake.dfs.fabric.microsoft.com/' + 'Lakehouse Name' + '/Files/' df = spark.read.format("csv").option("header", "true").load(fp + "test1.csv") df.show()
Provare a scrivere alcuni dati nel lakehouse.
writecsvdf = df.write.format("csv").save(fp + "out.csv")
Verificare che i dati siano stati scritti correttamente controllando il lakehouse o leggendo il file appena caricato.
È ora possibile leggere e scrivere dati in OneLake usando il Jupyter Notebook in un cluster HDI Spark.