Partilhar via


Como usar o metastore do Hive com o cluster Apache Spark™

Nota

Vamos desativar o Azure HDInsight no AKS em 31 de janeiro de 2025. Antes de 31 de janeiro de 2025, você precisará migrar suas cargas de trabalho para o Microsoft Fabric ou um produto equivalente do Azure para evitar o encerramento abrupto de suas cargas de trabalho. Os clusters restantes na sua subscrição serão interrompidos e removidos do anfitrião.

Apenas o apoio básico estará disponível até à data da reforma.

Importante

Esta funcionalidade está atualmente em pré-visualização. Os Termos de Utilização Suplementares para Pré-visualizações do Microsoft Azure incluem mais termos legais que se aplicam a funcionalidades do Azure que estão em versão beta, em pré-visualização ou ainda não disponibilizadas para disponibilidade geral. Para obter informações sobre essa visualização específica, consulte Informações de visualização do Azure HDInsight no AKS. Para perguntas ou sugestões de recursos, envie uma solicitação no AskHDInsight com os detalhes e siga-nos para obter mais atualizações na Comunidade do Azure HDInsight.

É essencial compartilhar os dados e o metastore em vários serviços. Um dos metastore comumente usados no metastore HIVE. O HDInsight no AKS permite que os usuários se conectem a metastore externo. Esta etapa permite que os usuários do HDInsight se conectem perfeitamente a outros serviços no ecossistema.

O Azure HDInsight no AKS dá suporte a metastores personalizados, que são recomendados para clusters de produção. As principais etapas envolvidas são:

  1. Criar banco de dados SQL do Azure
  2. Criar um cofre de chaves para armazenar as credenciais
  3. Configure o Metastore enquanto cria um cluster HDInsight no AKS com o Apache Spark™
  4. Operar em Metastore Externo (Mostra bancos de dados e faz uma seleção limite 1).

Enquanto você cria o cluster, o serviço HDInsight precisa se conectar ao metastore externo e verificar suas credenciais.

Criar banco de dados SQL do Azure

  1. Crie ou tenha um Banco de Dados SQL do Azure existente antes de configurar um metastore personalizado do Hive para um cluster HDInsight.

    Nota

    Atualmente, oferecemos suporte apenas ao metastore do Banco de Dados SQL do Azure para HIVE. Devido à limitação do Hive, o caractere "-" (hífen) no nome do banco de dados do metastore não é suportado.

Criar um cofre de chaves para armazenar as credenciais

  1. Crie um Cofre da Chave do Azure.

    O objetivo do Cofre de Chaves é permitir que você armazene a senha de administrador do SQL Server definida durante a criação do banco de dados SQL. O HDInsight na plataforma AKS não lida diretamente com a credencial. Portanto, é necessário armazenar suas credenciais importantes no Cofre da Chave do Azure. Conheça as etapas para criar um Cofre da Chave do Azure.

  2. Publique a criação do Cofre da Chave do Azure, atribua as seguintes funções:

    Object Role Observações
    Identidade gerenciada atribuída pelo usuário (o mesmo UAMI usado pelo cluster HDInsight) Usuário do Key Vault Secrets Saiba como atribuir função ao UAMI
    Usuário(que cria segredo no Cofre da Chave do Azure) Administrador do Cofre de Chaves Saiba como Atribuir função ao usuário.

    Nota

    Sem essa função, o usuário não pode criar um segredo.

  3. Criar um segredo

    Esta etapa permite que você mantenha sua senha de administrador do SQL Server em segredo no Cofre de Chaves do Azure. Adicione sua senha (mesma senha fornecida no banco de dados SQL para administrador) no campo "Valor" enquanto adiciona um segredo.

    Captura de ecrã a mostrar como criar um cofre de chaves.

    Captura de ecrã a mostrar como criar um segredo.

    Nota

    Certifique-se de anotar o nome secreto, pois você precisará dele durante a criação do cluster.

Configurar o Metastore enquanto cria um cluster HDInsight Spark

  1. Navegue até HDInsight no pool de clusters AKS para criar clusters.

    Captura de tela mostrando como criar um novo cluster.

  2. Habilite o botão de alternância para adicionar metastore de hive externo e preencha os seguintes detalhes.

    Captura de ecrã a mostrar o separador básico.

  3. O restante dos detalhes deve ser preenchido de acordo com as regras de criação de cluster para cluster Apache Spark no HDInsight no AKS.

  4. Clique em Rever e Criar.

    Captura de ecrã a mostrar o separador rever e criar.

    Nota

    • O ciclo de vida do metastore não está vinculado a um ciclo de vida de clusters, portanto, você pode criar e excluir clusters sem perder metadados. Os metadados, como os esquemas do Hive, persistem mesmo depois de excluir e recriar o cluster HDInsight.
    • Um metastore personalizado permite anexar vários clusters e tipos de cluster a esse metastore.

Operar em Metastore Externo

  1. Criar uma tabela

    >> spark.sql("CREATE TABLE sampleTable (number Int, word String)")

    Captura de tela mostrando como criar tabela.

  2. Adicionar dados na tabela

    >> spark.sql("INSERT INTO sampleTable VALUES (123, \"HDIonAKS\")");\

    Captura de tela mostrando a instrução insert.

  3. Leia a tabela

    >> spark.sql("select * from sampleTable").show()

    Captura de ecrã a mostrar como ler a tabela.

Referência