Introducción
Apache Spark es un marco de procesamiento paralelo de código abierto para el procesamiento y el análisis de datos a gran escala. Spark se ha vuelto popular en escenarios de procesamiento de macrodatos y está disponible en varias implementaciones de plataforma; incluidos Azure HDInsight, Azure Synapse Analytics y Microsoft Fabric.
En este módulo se explora cómo puede usar Spark en Microsoft Fabric para ingerir, procesar y analizar datos en un almacén de lago. Aunque el código y las técnicas básicas que se describen en este módulo son comunes a todas las implementaciones de Spark, las herramientas integradas y la capacidad de trabajar con Spark en el mismo entorno que otros servicios de datos de Microsoft Fabric facilitan la incorporación del procesamiento de datos basado en Spark en la solución global de análisis de datos.