Lavorare all'interno dell'ecosistema Apache Hadoop in HDInsight da un computer Windows
Informazioni sulle opzioni di sviluppo e gestione sul computer Windows per lavorare nell'ecosistema di Apache Hadoop in HDInsight.
HDInsight si basa su componenti Apache Hadoop e Hadoop, tecnologie open source sviluppate in Linux. HDInsight 3.4 e versioni successive usa la distribuzione Ubuntu Linux come sistema operativo sottostante per il cluster. Tuttavia, è possibile lavorare con HDInsight da un client Windows o l'ambiente di sviluppo Windows.
Usare PowerShell per attività di distribuzione e gestione
Azure PowerShell è un ambiente di scripting che può essere usato per controllare e automatizzare attività di distribuzione e gestione in HDInsight da Windows.
Esempi di attività che è possibile eseguire con PowerShell:
- Creare cluster con PowerShell.
- Eseguire query Apache Hive con PowerShell.
- Gestire i cluster con PowerShell.
Seguire la procedura per installare e configurare Azure PowerShell per ottenere la versione più recente.
Utilità che è possibile eseguire in un browser
Le seguenti utilità hanno un'interfaccia utente Web che viene eseguita in un browser:
Azure Cloud Shell è una shell della riga di comando interattiva che viene eseguita nel browser e dall'interno del portale di Azure.
Interfaccia utente Web Apache Ambari è un'utilità di gestione e monitoraggio disponibile nel portale di Azure che può essere usata per gestire diversi tipi di processi, ad esempio:
Prima di passare agli esempi seguenti, installare e provare gli strumenti Data Lake per Visual Studio.
Visual Studio e .NET SDK
È possibile usare Visual Studio con .NET SDK per gestire i cluster e sviluppare applicazioni Big Data. È possibile usare altri IDE per le attività seguenti, ma gli esempi presentati sono in Visual Studio.
Esempi di attività che è possibile eseguire con .NET SDK in Visual Studio:
- Azure HDInsight SDK per .NET.
- Eseguire query Apache Hive usando .NET SDK.
- Usare funzioni definite dall'utente C# con Apache Hive e Apache Pig streaming in Apache Hadoop.
Intellij IDEA e IDE di Eclipse per cluster Spark
È possibile usare sia Intellij IDEA che l'IDE di Eclipse per:
- Sviluppare e inviare un'applicazione Spark in Scala in un cluster HDInsight Spark.
- Accedere a risorse cluster di Spark.
- Sviluppare ed eseguire un'applicazione Spark in Scala localmente.
Questi articoli mostrano come:
- Intellij IDEA: creare applicazioni Apache Spark usando il plug-in Azure Toolkit for Intellij e Scala SDK.
- IDE Eclipse o IDE Scala per Eclipse: Creare applicazioni Apache Spark e Azure Toolkit for Eclipse
Notebook su Spark per data scientist
I cluster Apache Spark in HDInsight includono notebook e kernel Apache Zeppelin che possono essere usati con Jupyter Notebook.
- Informazioni su come usare i kernel nei cluster Apache Spark con Jupyter Notebooks per testare le applicazioni Spark
- Informazioni su come usare notebook Apache Zeppelin nei cluster Spark per eseguire processi Spark
Eseguire strumenti e tecnologie basate su Linux in Windows
Se si verifica una situazione in cui è necessario usare uno strumento o una tecnologia disponibile solo in Linux, prendere in considerazione le opzioni seguenti:
- Bash in Ubuntu in Windows 10 fornisce un sottosistema Linux in Windows. Bash consente di eseguire direttamente le utilità di Linux senza dover gestire un'installazione di Linux dedicata. Per la procedura di installazione, vedere Guida all'installazione del sottosistema Windows per Linux per Windows 10. Anche altre shell Unix funzionano.
- Docker per Windows fornisce l'accesso a molti strumenti basati su Linux e può essere eseguito direttamente da Windows. Ad esempio è possibile usare Docker per eseguire il client Beeline per Hive direttamente da Windows. È anche possibile usare Docker per eseguire un Jupyter Notebook locale e connettersi in remoto a Spark in HDInsight. Introduzione a Docker per Windows
- MobaXTerm consente di visualizzare graficamente il file system del cluster tramite una connessione SSH.
Strumenti multipiattaforma
L'interfaccia della riga di comando di Azure è l'esperienza di riga di comando multipiattaforma Microsoft per la gestione delle risorse di Azure. Per altre informazioni, vedere Interfaccia Command-Line di Azure.
Passaggi successivi
Se non si ha familiarità con i cluster basati su Linux, vedere gli articoli seguenti: