Quando você deve usar o HDInsight Interactive Query?

Concluído

Como analista de negócios, você precisa determinar o tipo mais apropriado de cluster do HDInsight a ser criado para compilar sua solução. Os clusters de Interactive Query fornecem uma série de recursos e opções de interoperabilidade que o tornam especialmente útil para analistas de negócios familiarizados com o SQL. É ótimo para os usuários que desejam trabalhar com ferramentas de business intelligence e precisam de consultas interativas rápidas. Há outros benefícios, como suporte para uma variedade de formatos de arquivo, simultaneidade e transações ACID (atômicas, consistentes, isoladas e duráveis). Isso sem mencionar a integração ao Apache Ranger para controle de nível de linha e coluna granular sobre os dados.

Observação

O conteúdo deste módulo refere-se a clusters de Interactive Query criados para o HDInsight 4.0, que usa o Hive 3.1 e o LLAP, também conhecido como Hive LLAP.

Você tem um conjunto de dados grande que está pronto para ser consultado

Os clusters de Interactive Query são mais adequados para conjuntos de dados grandes que podem ser consultados no estado em que se encontram ou com transformações mínimas. Situações em que você executará uma variedade de consultas nos dados e precisará de respostas imediatas. Os clusters de Interactive Query não são otimizados para executar computações de lote de execução longa. A Interactive Query dá suporte aos seguintes formatos de arquivo: ORC, Parquet, CSV, Avro, JSON, texto e tsv.

Você precisa de funcionalidade semelhante à do SQL

Quando você precisa executar consultas interativas e ad hoc de latência inferior a um segundo no Big Data no Armazenamento do Azure e no Azure Data Lake Storage e prefere uma experiência semelhante a SQL, os clusters de Interactive Query do Azure HDInsight são uma excelente opção. Como analista de negócios, você está altamente familiarizado com tabelas SQL e a criação de consultas usando o SQL. O Apache Hadoop é uma ferramenta poderosa para executar análise de Big Data. O uso da estrutura MapReduce e suas APIs Java pelo Apache Hadoop pode ser uma barreira para você se suas habilidades de programação em Java estão um pouco enferrujadas. Nesse caso, a Interactive Query do HDInsight é mais adequada, uma vez que é criada com base em Apache Hadoop, porém, é mais simples para qualquer pessoa com experiência em SQL usar. A Interactive Query usa tabelas do Hive estilo SQL para processar dados e uma linguagem de consulta do tipo SQL chamada HiveQL para consultar dados. O uso do Hive é menos complexo do que processar dados usando o MapReduce no Apache Hadoop. O Hive torna mais rápido e eficiente a implementação de soluções para sua empresa.

Consultas interativas rápidas com cache inteligente

Os clusters de Interactive Query usam técnicas de cache inteligente para hierarquizar os dados em RAM dinâmica, nó de cluster local SSD e sistemas de armazenamento remoto, como o Blob do Azure e o Azure Data Lake Storage, para obter resultados de consulta interativos e rápidos em Big Data. Um bom exemplo de técnica de cache avançado é o cache de texto dinâmico, que converte dados CSV em um formato de memória otimizado em tempo real, portanto, o cache é dinâmico e as consultas determinam quais dados são armazenados em cache. Com essa funcionalidade, não é preciso carregar e transformar os dados primeiro. Você pode carregar os dados no armazenamento do Azure no formato original e começar a consultá-los. Isso também significa que as consultas têm um melhor desempenho na segunda vez em que são executadas. Na primeira vez em que uma consulta é executada, os dados são lidos da camada de armazenamento de dados corporativos no Armazenamento do Azure ou no Azure Data Lake Gen2. Em seguida, os dados são armazenados em cache no cache na memória compartilhado no cluster. Na próxima vez em que a consulta for executada, os dados serão simplesmente recuperados do cache na memória compartilhada e você poupará tempo ao não precisar recuperar os dados da camada de armazenamento remoto.

A Interactive Query facilita o trabalho com Big Data usando ferramentas de BI com as quais você está familiarizado, como o Microsoft Power BI e o Tableau. Na análise de Big Data, as organizações estão cada vez mais preocupadas com seus usuários finais não obterem valor suficiente dos sistemas de análise porque geralmente executar a análise é muito desafiador e exige o uso de ferramentas desconhecidas e difíceis de aprender. A Interactive Query do HDInsight resolve esse problema exigindo treinamento mínimo ou nenhum treinamento dos novos usuários para obter informações dos dados. Os usuários podem escrever consultas HiveQL como SQL nas ferramentas que já usam. Essas ferramentas incluem Visual Studio Code, Power BI, Apache Zeppelin, Visual Studio, Ambari Hive View, Beeline, Data Analytics Studio e Hive ODBC. Você não pode executar consultas em seu cluster de Interactive Query usando o console do Hive, o Templeton, a CLI Clássica do Azure nem o Azure PowerShell.

Você precisa de consistência e simultaneidade de transação

Com a introdução de gerenciamento de recursos refinado, preempção e compartilhamento de dados armazenados em cache entre consultas e usuários, a Interactive Query dá suporte a usuários simultâneos com facilidade. O HDInsight dá suporte à criação de vários clusters no armazenamento do Azure compartilhado. O metastore do Hive ajuda a alcançar um alto grau de simultaneidade. Você pode dimensionar a simultaneidade adicionando mais nós de cluster ou mais clusters apontando para os mesmos dados subjacentes e metadados. A Interactive Query também dá suporte para transações de banco de dados ACID (atômicas, consistentes, isoladas e duráveis). As transações ACID garantem que uma transação esteja contida em uma só unidade mesmo que contenha várias operações. Portanto, se qualquer operação única na transação falhar, toda a operação poderá ser revertida, o que manterá os dados consistentes e precisos.

Criado para complementar o Spark, o Hive, o Presto e outros mecanismos de Big Data

A Interactive Query do HDInsight foi projetada para funcionar bem com mecanismos populares de Big Data, como Apache Spark, Hive, Presto e muito mais. Esse tipo de consulta é especialmente útil porque os usuários podem escolher qualquer uma dessas ferramentas para executar a análise. Com a arquitetura de dados compartilhados e de metadados do HDInsight para tabelas externas, os usuários podem criar vários clusters com o mesmo mecanismo ou diferentes, apontando para os mesmos dados subjacentes e metadados. Essa funcionalidade é um conceito poderoso, pois você não está mais limitado por uma tecnologia para análise.

Tecnologias de Interactive Query