Ligar o Excel ao Apache Hadoop no Azure HDInsight com o controlador ODBC Hive da Microsoft
A solução de Big Data da Microsoft integra componentes de Business Intelligence (BI) da Microsoft com clusters Apache Hadoop implantados no HDInsight. Um exemplo é a capacidade de conectar o Excel ao data warehouse do Hive de um cluster Hadoop. Conecte-se usando o driver ODBC (Microsoft Hive Open Database Connectivity).
Pode ligar os dados associados a um cluster HDInsight a partir do Excel com o suplemento Microsoft Power Query para Excel. Para obter mais informações, consulte Conectar o Excel ao HDInsight com o Power Query.
Pré-requisitos
Antes de começar este artigo, você deve ter os seguintes itens:
- Um cluster Hadoop do HDInsight. Para criar um, consulte Introdução ao Azure HDInsight.
- Uma estação de trabalho com o Office 2010 Professional Plus ou posterior, ou Excel 2010 ou posterior.
Instalar o driver ODBC do Microsoft Hive
Baixe e instale o driver ODBC do Microsoft Hive. Escolha a versão que corresponde à versão do aplicativo onde você usará o driver ODBC. Para este artigo, o driver é usado para o Office Excel.
Criar fonte de dados ODBC do Apache Hive
As etapas a seguir mostram como criar uma fonte de dados ODBC do Hive.
No Windows, navegue até Iniciar > Fontes de Dados ODBC das Ferramentas > Administrativas do Windows (32 bits)/(64 bits). Esta ação abre a janela Administrador da Fonte de Dados ODBC .
Na guia DSN do usuário, selecione Adicionar para abrir a
Create New Data Source
janela.Selecione Driver ODBC do Microsoft Hive e, em seguida, selecione Concluir para abrir a janela Configuração DSN do driver ODBC do Microsoft Hive.
Escreva ou selecione os seguintes valores:
Property Description Nome da Origem de Dados Atribua um nome para a sua origem de dados Aanfitrião(ões) Introduzir HDInsightClusterName.azurehdinsight.net
. Por exemplo,myHDICluster.azurehdinsight.net
. Nota:HDInsightClusterName-int.azurehdinsight.net
é suportado desde que a VM cliente esteja emparelhada para a mesma rede virtual.Porta Utilize 443. (Esta porta foi alterada de 563 para 443.) Base de Dados Use o padrão. Mecanismo Selecione o Serviço HDInsight do Windows Azure Nome de Utilizador Insira o nome de usuário HTTP do cluster HDInsight. O nome de usuário padrão é admin
.Palavra-passe Introduza a palavra-passe de utilizador do cluster HDInsight. Marque a caixa de seleção Salvar senha (criptografada). Opcional: Selecione Opções avançadas...
Parâmetro Description Usar consulta nativa Quando é selecionado, o driver ODBC NÃO tenta converter TSQL em HiveQL. Você deve usá-lo apenas se tiver 100% de certeza de que está enviando declarações HiveQL puras. Ao se conectar ao SQL Server ou ao Banco de Dados SQL do Azure, você deve deixá-lo desmarcado. Linhas buscadas por bloco Quando você busca um grande número de registros, o ajuste desse parâmetro pode ser necessário para garantir desempenhos ideais. Comprimento da coluna da cadeia de caracteres padrão, comprimento da coluna binária, escala da coluna decimal Os comprimentos e as precisões do tipo de dados podem afetar a forma como os dados são retornados. Eles fazem com que informações incorretas sejam devolvidas devido à perda de precisão e/ou truncamento. Selecione Testar para testar a fonte de dados. Quando a fonte de dados está configurada corretamente, o resultado do teste mostra SUCESSO!
Selecione OK para fechar a janela Teste.
Selecione OK para fechar a janela Configuração DSN do driver ODBC do Microsoft Hive.
Selecione OK para fechar a janela Administrador da Fonte de Dados ODBC .
Importe dados para o Excel a partir do HDInsight
As etapas a seguir descrevem a maneira de importar dados de uma tabela do Hive para uma pasta de trabalho do Excel usando a fonte de dados ODBC que você criou na seção anterior.
Abra um livro novo ou existente no Excel.
Na guia Dados, navegue até Obter dados>de outras fontes>do ODBC para iniciar a janela Do ODBC.
Na lista suspensa, selecione o nome da fonte de dados que você criou na última seção e selecione OK.
Para o primeiro uso, uma caixa de diálogo do driver ODBC será aberta. Selecione Windows no menu à esquerda. Em seguida, selecione Conectar para abrir a janela Navegador .
No Navegador, navegue até hivesampletable padrão>do HIVE>e selecione Carregar. Leva alguns momentos até que os dados sejam importados para o Excel.
Próximos passos
Neste artigo, você aprendeu como usar o driver ODBC do Microsoft Hive para recuperar dados do Serviço HDInsight no Excel. Da mesma forma, você pode recuperar dados do Serviço HDInsight no Banco de Dados SQL. Também é possível carregar dados para um Serviço HDInsight. Para saber mais, veja:
- Visualize dados do Apache Hive com o Microsoft Power BI no Azure HDInsight.
- Visualize dados do Hive de Consulta Interativa com o Power BI no Azure HDInsight.
- Conecte o Excel ao Apache Hadoop usando o Power Query.
- Conecte-se ao Azure HDInsight e execute consultas do Apache Hive usando o Data Lake Tools for Visual Studio.