Introdução

Concluído

O Azure Databricks oferece uma plataforma altamente escalável para análise e processamento de dados usando o Apache Spark.

O Spark é uma plataforma flexível que suporta muitas linguagens de programação e APIs diferentes. Ao configurar um espaço de trabalho Databricks e implantar clusters do Spark, os usuários podem facilmente ingerir dados de várias fontes, como o Azure Data Lake ou o Cosmos DB, no Spark DataFrames. Nos blocos de anotações interativos do Databricks, os usuários podem executar transformações de dados complexas usando a API DataFrame do Spark, que inclui operações como filtragem, agrupamento e agregação. A maioria das tarefas de processamento e análise de dados pode ser realizada usando a API Dataframe , que é o que vamos focar neste módulo.

Neste módulo, irá saber como:

  • Descreva os principais elementos da arquitetura do Apache Spark.
  • Crie e configure um cluster do Spark.
  • Descreva casos de uso do Spark.
  • Use o Spark para processar e analisar dados armazenados em arquivos.
  • Use o Spark para visualizar dados.