Gerenciar clusters do Apache Hadoop no HDInsight usando o .NET SDK

Saiba como gerenciar clusters HDInsight usando o SDK do .NET do HDInsight.


Antes de começar este artigo, você deve ter o seguinte:

Conectar-se ao Azure HDInsight

Você precisa dos seguintes pacotes NuGet:

Install-Package Microsoft.Rest.ClientRuntime.Azure.Authentication -Pre
Install-Package Microsoft.Azure.Management.ResourceManager -Pre
Install-Package Microsoft.Azure.Management.HDInsight

O exemplo de código a seguir mostra como se conectar ao Azure antes que você possa administrar clusters do HDInsight em sua assinatura do Azure.

using System;
using Microsoft.Azure;
using Microsoft.Azure.Management.HDInsight;
using Microsoft.Azure.Management.HDInsight.Models;
using Microsoft.Azure.Management.ResourceManager;
using Microsoft.IdentityModel.Clients.ActiveDirectory;
using Microsoft.Rest;
using Microsoft.Rest.Azure.Authentication;

namespace HDInsightManagement
    class Program
        private static HDInsightManagementClient _hdiManagementClient;
        // Replace with your AAD tenant ID if necessary
        private const string TenantId = UserTokenProvider.CommonTenantId; 
        private const string SubscriptionId = "<Your Azure Subscription ID>";
        // This is the GUID for the PowerShell client. Used for interactive logins in this example.
        private const string ClientId = "1950a258-227b-4e31-a9cf-717495945fc2";

        static void Main(string[] args)
            // Authenticate and get a token
            var authToken = Authenticate(TenantId, ClientId, SubscriptionId);
            // Flag subscription for HDInsight, if it isn't already.
            // Get an HDInsight management client
            _hdiManagementClient = new HDInsightManagementClient(authToken);

            System.Console.WriteLine("Press ENTER to continue");

        /// <summary>
        /// Authenticate to an Azure subscription and retrieve an authentication token
        /// </summary>
        static TokenCloudCredentials Authenticate(string TenantId, string ClientId, string SubscriptionId)
            var authContext = new AuthenticationContext("" + TenantId);
            var tokenAuthResult = authContext.AcquireToken("", 
                new Uri("urn:ietf:wg:oauth:2.0:oob"), 
            return new TokenCloudCredentials(SubscriptionId, tokenAuthResult.AccessToken);
        /// <summary>
        /// Marks your subscription as one that can use HDInsight, if it has not already been marked as such.
        /// </summary>
        /// <remarks>This is essentially a one-time action; if you have already done something with HDInsight
        /// on your subscription, then this isn't needed at all and will do nothing.</remarks>
        /// <param name="authToken">An authentication token for your Azure subscription</param>
        static void EnableHDInsight(TokenCloudCredentials authToken)
            // Create a client for the Resource manager and set the subscription ID
            var resourceManagementClient = new ResourceManagementClient(new TokenCredentials(authToken.Token));
            resourceManagementClient.SubscriptionId = SubscriptionId;
            // Register the HDInsight provider
            var rpResult = resourceManagementClient.Providers.Register("Microsoft.HDInsight");

Você deverá ver um aviso ao executar este programa. Se não desejar ver o aviso, confira Criar aplicativos .NET do HDInsight com autenticação não interativa.

Listar clusters

O snippet de código a seguir lista os clusters e algumas propriedades:

var results = _hdiManagementClient.Clusters.List();
foreach (var name in results.Clusters) {
    Console.WriteLine("Cluster Name: " + name.Name);
    Console.WriteLine("\t Cluster type: " + name.Properties.ClusterDefinition.ClusterType);
    Console.WriteLine("\t Cluster location: " + name.Location);
    Console.WriteLine("\t Cluster version: " + name.Properties.ClusterVersion);

Excluir clusters

Use o seguinte snippet de código para excluir um cluster de forma síncrona ou assíncrona:

_hdiManagementClient.Clusters.Delete("<Resource Group Name>", "<Cluster Name>");
_hdiManagementClient.Clusters.DeleteAsync("<Resource Group Name>", "<Cluster Name>");

Dimensionar clusters

O recurso de dimensionamento de clusters permite que você altere o número de nós de trabalhador usados por um cluster em execução no Azure HDInsight sem precisar recriar o cluster.


Somente clusters HDInsight versão 3.1.3 ou superior são compatíveis. Se não tiver certeza quanto à versão de seu cluster, você poderá verificar a página Propriedades. Confira Listar e mostrar clusters.

O impacto da alteração do número de nós de dados em cada tipo de cluster com suporte do HDInsight:

  • Apache Hadoop

    Você pode aumentar continuamente o número de nós de trabalhador em um cluster Hadoop em execução sem afetar os trabalhos pendentes ou em execução. Novos trabalhos também podem ser enviados enquanto a operação está em andamento. Falhas em uma operação de dimensionamento são normalmente manipuladas para que o cluster sempre seja deixado em um estado funcional.

    Quando um cluster Hadoop é reduzido verticalmente pela diminuição do número de nós de dados, alguns dos serviços no cluster são reiniciados. Isso faz com que todos os trabalhos em execução e pendentes falhem após a conclusão da operação de dimensionamento. Você pode, no entanto, reenviar os trabalhos quando a operação for concluída.

  • HBase no Apache

    Você pode adicionar ou remover diretamente nós do cluster HBase enquanto ele é executado. Servidores Regionais são equilibrados automaticamente em alguns minutos após o término da operação de dimensionamento. No entanto, você pode equilibrar manualmente os servidores regionais fazendo logon no nó de cabeçalho do cluster e executando os seguintes comandos em uma janela de prompt de comando:

    >pushd %HBASE_HOME%\bin
    >hbase shell

Atualizar credenciais de usuário HTTP

É o mesmo procedimento que Conceder/revogar acesso HTTP. Se o cluster recebeu o acesso HTTP, você deverá, primeiramente, revogá-lo. E, em seguida, conceder acesso com novas credenciais de usuário HTTP.

Encontrar a conta de armazenamento padrão

O snippet de código a seguir demonstra como obter o nome da conta de armazenamento padrão e a chave da conta de armazenamento padrão de um cluster.

var results = _hdiManagementClient.Clusters.GetClusterConfigurations(<Resource Group Name>, <Cluster Name>, "core-site");
foreach (var key in results.Configuration.Keys)
    Console.WriteLine(String.Format("{0} => {1}", key, results.Configuration[key]));

Enviar trabalhos

Enviar trabalhos MapReduce

Veja Executar amostras de MapReduce no HDInsight.

Para enviar trabalhos do Apache Hive

Consulte Executar consultas do Apache Hive usando o .NET SDK.

Para enviar trabalhos do Apache Sqoop

Veja Use o Apache Sqoop com o HDInsight.

Para enviar trabalhos do Apache Oozie

Consulte Use o Apache Oozie com o Hadoop para definir e executar um fluxo de trabalho no HDInsight.

Carregar dados no armazenamento de Blob do Azure

Veja Carregar dados no HDInsight.

