Exercício – carregar e consultar dados no HDInsight
Agora que você provisionou uma conta de armazenamento e um cluster da Interactive Query, é hora de carregar seus dados imobiliários e executar algumas consultas. Os dados que você vai carregar são dados de imóveis da cidade de Nova York. Eles incluem mais de 28 mil registros de propriedade, incluindo endereços, preços de vendas, metragens quadradas e informações de localização geográfica para facilitar o mapeamento. Sua empresa de investimentos em imóveis usa essas informações para determinar os preços de metragem quadrada apropriados para novas propriedades recebidas no mercado com base nos preços de vendas das propriedades vendidas anteriormente.
Para carregar e consultar dados, usaremos o Data Analytics Studio, que é um aplicativo baseado na Web instalado na ação de script usada quando criamos o cluster da Interactive Query. Você pode usar o Data Analytics Studio para carregar dados no armazenamento do Azure, transformar os dados em tabelas do Hive usando os tipos de dados e os nomes de coluna definidos por você e consultar os dados no cluster usando HiveQL. Além do Data Analytics Studio, você pode usar qualquer ferramenta em conformidade com ODBC/JDBC para trabalhar com os seus dados usando o Hive, como as ferramentas do Spark e do Hive para Visual Studio Code.
Em seguida, você usará um Notebook Zeppelin para visualizar rapidamente as tendências nos dados. Os Notebooks Zeppelin permitem enviar consultas e visualizar os resultados em vários gráficos predefinidos diferentes. Os Notebooks Zeppelin instalados em clusters da Interactive Query têm um interpretador JDBC com um driver de Hive.
Baixar dados imobiliários
- Vá para https://github.com/Azure/hdinsight-mslearn/tree/master/Sample%20data e baixe o conjunto de dados para salvar o arquivo de propertysales.csv em seu computador.
Carregar os dados usando o Data Analytics Studio
- Agora, abra o Data Analytics Studio no navegador de Internet usando a seguinte URL, substituindo servername pelo nome do cluster usado: https://servername.azurehdinsight.net/das/
Para fazer logon, o nome de usuário é admine a senha é a senha que você criou.
Se você encontrar um erro, vá para a guia Visão geral do cluster no portal do Azure e verifique se o status está definido como Em execução e o tipo de Cluster, a versão HDI está definida como Interactive Query 3.1 (HDI 4.0).
- O Data Analytics Studio é iniciado no navegador da Internet.
- Clique em Banco de Dados no menu à esquerda, clique no botão de reticências verde à direita e clique em Criar Banco de Dados.
Dê ao banco de dados o nome 'newyorkrealestate' e clique em Criar.
No Gerenciador de Banco de Dados, clique na caixa nome do banco de dados e selecione newyorkrealestate.
- Em Gerenciador de Banco de Dados, clique em + e em Criar Tabela.
- Dê à nova tabela o nome 'propertysales' e clique em Carregar tabela. Os nomes de tabela devem conter apenas letras minúsculas e números, sem caracteres especiais.
- Na área Selecionar Formato de arquivo da página:
- Verifique se o formato de arquivo é CSV
- Marque a caixa A primeira linha é cabeçalho?.
- Na área Selecionar Origem do Arquivo da página:
- Selecione Carregar do Local.
- Clique em Arraste o arquivo para carregar ou clique em procurar e navegue até o arquivo propertysales.csv.
- Na seção colunas, altere o tipo de dados de Latitude e Longitude para Cadeia de Caracteres e a Data de venda para uma Data.
- Role para cima e examine a seção Visualização de Tabela para validar se os cabeçalhos de coluna parecem corretos.
- Role o caminho para baixo e clique em Criar para criar a tabela do Hive no banco de dados newyorkrealestate.
- No menu esquerdo, clique em Compor.
- Tente a consulta do Hive a seguir para verificar se tudo está funcionando conforme o esperado.
SELECT `ADDRESS`, `ZIP CODE`, `SALE PRICE`, `SQUARE FOOTAGE`
FROM newyorkrealestate.propertysales;
- A saída deve ser semelhante ao seguinte.
- Examine o desempenho de sua consulta clicando em Consultas no menu à esquerda e selecionando a SELECT
ADDRESS
,ZIP CODE
,SALE PRICE
,SQUARE FOOTAGE
FROM newyorkrealestate.propertysales que você acabou de executar.
Se houver alguma recomendação de desempenho disponível, a ferramenta a exibirá. Essa página também exibe a consulta SQL real que foi executada, fornece uma explicação visual da consulta, mostra os detalhes de configuração inferidos pelo Hive ao executar a consulta e fornece uma linha do tempo que mostra quanto tempo foi dedicado à execução de cada parte da consulta.
Explorar as Tabelas do Hive usando um notebook Zeppelin
- No portal do Azure, na página Visão geral, na caixa Dashboard do cluster, clique em Notebook Zeppelin.
- Clique em Nova Anotação, dê à anotação o nome Dados de Imóvel e clique em Criar.
- Cole o snippet de código a seguir no prompt de comando na Janela do Zeppelin e clique no ícone de reproduzir.
%jdbc(hive)
show databases;
select * from newyorkrealestate.propertysales limit 10 ;
A saída da consulta é exibida na janela. Você pode ver que os dez primeiros resultados são retornados.
- Agora, acione uma consulta mais complexa para usar alguns dos recursos de visualização e de gráfico disponíveis no Zeppelin. Copie a consulta a seguir no prompt de comando.
%jdbc(hive)
select `sale price`, `square footage` from newyorkrealestate.propertysales
where `sale price` < 20000000 AND `square footage` < 50000;
Por padrão, a saída da consulta é exibida no formato de tabela. Em vez disso, selecione Gráfico de Dispersão para ver um dos visuais que os Notebooks Zeppelin fornecem.