Escolher uma tecnologia de processamento em lotes no Azure
As soluções de Big Data normalmente consistem em tarefas discretas de processamento em lote que contribuem para a solução geral de processamento de dados. Você pode usar o processamento em lote para cargas de trabalho que não exigem acesso imediato aos insights. O processamento em lote pode complementar os requisitos de processamento em tempo real. Você também pode usar o processamento em lote para equilibrar a complexidade e reduzir o custo de sua implementação geral.
O requisito fundamental dos mecanismos de processamento em lote é expandir os cálculos para lidar com um grande volume de dados. Ao contrário do processamento em tempo real, o processamento em lote tem latências, ou seja, o tempo entre a ingestão de dados e a computação de um resultado, é de minutos ou horas.
Escolha uma tecnologia para processamento em lote
A Microsoft oferece vários serviços que você pode usar para realizar o processamento em lote.
Microsoft Fabric
O Microsoft Fabric é uma plataforma de dados e análise completa para organizações. É uma oferta de software como serviço que simplifica a forma como você provisiona, gerencia e administra uma solução de análise de ponta a ponta. O Fabric lida com a movimentação de dados, o processamento, a ingestão, a transformação e a geração de relatórios de dados. Os recursos do Fabric que você usa para processamento em lote incluem engenharia de dados, data warehouses, lakehouses e processamento do Apache Spark. O Azure Data Factory no Fabric também é compatível com lakehouses. Para simplificar e acelerar o desenvolvimento, você pode ativar o Copilot orientado por IA.
Linguagens: R, Python, Java, Scala e SQL
Segurança: rede virtual gerenciada e controle de acesso RBAC (Controle de acesso baseado em função) do OneLake
Armazenamento primário: OneLake, que tem atalhos e opções de espelhamento
Spark: um pool inicial pré-hidratado e um pool Spark personalizado com tamanhos de nó predefinidos
Azure Synapse Analytics
O Azure Synapse Analytics é um serviço de análise empresarial que reúne as tecnologias SQL e Spark em uma única estrutura de espaço de trabalho. O Azure Synapse Analytics simplifica a segurança, a governança e o gerenciamento. Cada espaço de trabalho tem pipelines de dados integrados que você pode usar para criar fluxos de trabalho de ponta a ponta. Você também pode provisionar um pool de SQL dedicado para análise em grande escala, um ponto de extremidade de SQL sem servidor, que pode ser usado para consultar diretamente o lake, e um tempo de execução do Spark para processamento de dados distribuídos.
Linguagens: Python, Java, Scala e SQL
Segurança: rede virtual gerenciada, RBAC e controle de acesso, e listas de controle de acesso ao armazenamento no Azure Data Lake Storage
Armazenamento primário: Data Lake Storage e também se integra a outras fontes
Spark: configuração personalizada do Spark com tamanhos de nós predefinidos
Azure Databricks
O Azure Databricks é uma plataforma de análise baseada no Spark. Ele apresenta recursos avançados e premium do Spark, desenvolvidos com base no Spark de código aberto. O Azure Databricks é um serviço da Microsoft que se integra ao restante dos serviços do Azure. Ele apresenta configurações adicionais para implantações de cluster do Spark. E o Catálogo Unity ajuda a simplificar a governança dos objetos do Azure Databricks Spark.
Linguagens: R, Python, Java, Scala e Spark SQL.
Segurança: autenticação de usuário com o Microsoft Entra ID.
Armazenamento primário: integração incorporada com o Armazenamento de Blobs do Azure, Data Lake Storage, Azure Synapse Analytics e outros serviços. Para obter mais informações, consulte Fontes de dados.
Outros benefícios incluem:
Blocos de notas baseados na Web para colaboração e exploração de dados.
Horários de início rápido do cluster, encerramento e dimensionamento automáticos.
Suporte para clusters habilitados para GPU..
Principais critérios de seleção
Para escolher sua tecnologia para processamento em lote, considere as seguintes perguntas:
Você quer um serviço gerenciado ou quer gerenciar seus próprios servidores?
Você deseja criar a lógica do processamento em lotes de forma declarativa ou imperativa?
Você executa o processamento em lote em sequências? Em caso afirmativo, considere alternativas que ofereçam a capacidade de encerrar automaticamente um cluster ou que tenham modelos de preços para cada trabalho em lote.
Você precisa consultar armazenamentos de dados relacionais junto com o processamento em lotes, por exemplo, para pesquisar dados de referência? Em caso afirmativo, considere alternativas que ofereçam a capacidade de consultar armazenamentos relacionais externos.
Matriz de funcionalidades
As tabelas a seguir resumem as principais diferenças de recursos entre os serviços.
Funcionalidades gerais
Funcionalidade | Fabric | Azure Synapse Analytics | Azure Databricks |
---|---|---|---|
Software como serviço | Sim1 | No | No |
Serviço gerenciado | Não | Sim | Sim |
Armazenamento de dados relacionais | Sim | Sim | Sim |
Modelo de preços | Unidades de capacidade | Hora de cluster ou pool de SQL | Unidade do Azure Databricks 2 e hora de cluster |
[1] Capacidade do Fabric atribuído.
[2] Uma unidade do Azure Databricks é a capacidade de processamento por hora.
Outras funcionalidades
Funcionalidade | Fabric | Azure Synapse Analytics | Azure Databricks |
---|---|---|---|
Dimensionamento automático | Não | No | Sim |
Granularidade de expansão | Por SKU do Fabric | Por cluster ou pool de SQL | Por cluster |
Cache em memória de dados | Não | Sim | Yes |
Consulta por meio de relational stores externos | Sim | Não | Sim |
Autenticação | ID do Microsoft Entra | SQL ou Microsoft Entra ID | ID do Microsoft Entra |
Auditoria | Sim | Sim | Yes |
Segurança em nível de linha | Sim | Sim 1 | Sim |
Dá suporte a firewalls | Sim | Sim | Sim |
Mascaramento de dados dinâmicos | Sim | Sim | Sim |
[1] Somente predicados de filtro. Para saber mais, consulte Segurança em nível de linha.
Colaboradores
Esse artigo é mantido pela Microsoft. Ele foi originalmente escrito pelos colaboradores a seguir.
Principais autores:
- Zoiner Tejada | CEO e arquiteto
- Pratima Valavala | Arquiteta de Soluções Principal
Para ver perfis não públicos do LinkedIn, entre no LinkedIn.
Próximas etapas
- O que é o Fabric?
- Guia de decisão do Fabric
- Treinamento: introdução ao Azure Synapse Analytics
- O que é o Azure HDInsight?
- O que é o Azure Databricks?