Introdução
O Apache Spark é uma estrutura de processamento paralelo de código aberto para processamento e análise de dados em larga escala. O Spark tornou-se extremamente popular em cenários de processamento de "big data" e está disponível em várias implementações de plataforma; incluindo Azure HDInsight, Azure Databricks e Azure Synapse Analytics.
Este módulo explora como você pode usar o Spark no Azure Synapse Analytics para ingerir, processar e analisar dados de um data lake. Embora as principais técnicas e o código descritos neste módulo sejam comuns a todas as implementações do Spark, as ferramentas integradas e a capacidade de trabalhar com o Spark no mesmo ambiente que outros tempos de execução analíticos do Synapse são específicas do Azure Synapse Analytics.
Depois de concluir este módulo, conseguirá:
- Identifique os principais recursos e capacidades do Apache Spark.
- Configure um pool do Spark no Azure Synapse Analytics.
- Execute código para carregar, analisar e visualizar dados em um bloco de anotações do Spark.