Introdução

Concluído

Atualmente, muitas organizações trabalham com Big Data. O enorme volume e variedade de dados, e a velocidade da geração de dados, precisa ter sistemas que ajudem você no gerenciamento e controle. No passado, as organizações usavam os sistemas de gerenciamento de bancos de dados relacionais para controlar os dados. No entanto, agora elas querem a funcionalidade do software livre aliada aos benefícios das plataformas hospedadas. O Azure HDInsight é o exemplo perfeito dessa parceria. O HDInsight permite que você processe Big Data em muitos cenários, usando dados históricos ou em tempo real.

O gráfico a seguir descreve uma visão geral de como você pode usar o HDInsight. Ele descreve várias fontes de dados, incluindo sensores de IoT (Internet das Coisas), bancos de dados e vários repositórios de armazenamento do Azure. O HDInsight processa dados desses locais. Depois os disponibiliza em armazenamento de longo prazo para aplicativos em tempo real e análise adicional.

Diagram of the architecture of HDInsight in a typical organization, depicting several data sources from which it manages big data.

Cenário de exemplo

Vamos imaginar que você trabalhe para uma organização que cria cargas de trabalho que utilizam dados para relatórios históricos e análises avançadas. Talvez você também tenha dados de streaming que exijam análise. Nessa situação, talvez seja melhor considerar o uso do HDInsight. Ele permite a ingestão de todos os dados em um único local de Data Lake. Você pode usá-lo para gerenciar as seguintes cargas de trabalho:

  • Processamento em lotes
  • Data warehousing
  • Operações de ciência de dados
  • Streaming

O que faremos?

Ao final deste módulo, você poderá avaliar se o HDInsight pode ajudar sua organização a processar Big Data. Você também poderá descrever como o HDInsight usa estruturas populares de software livre que dão suporte a vários cenários de dados.

Qual é a meta principal?

O principal objetivo é determinar se o HDInsight é uma opção adequada para seus requisitos de processamento de Big Data.