Fabric Runtime 1.3 (GA)
O runtime do Fabric integra-se perfeitamente com o Azure. Ele fornece um ambiente sofisticado para projetos de engenharia de dados e de ciência de dados que usam o Apache Spark. Este artigo fornece uma visão geral dos recursos e componentes essenciais do Runtime 1.3 do Fabric, o mais novo runtime para cálculos de big data.
O Runtime 1.3 do Microsoft Fabric é a versão mais recente do runtime de GA e incorpora os seguintes componentes e atualizações projetados para aprimorar seus recursos de processamento de dados:
- Apache Spark 3.5
- Sistema operacional: Mariner 2.0
- Java: 11
- Scala: 2.12.17
- Python: 3.11
- Delta Lake: 3.2
- R: 4.4.1
Dica
O Runtime 1.3 do Fabric inclui suporte para o Mecanismo de Execução Nativa, que pode melhorar significativamente o desempenho sem custos adicionais. Para habilitar o mecanismo de execução nativa em todos os trabalhos e notebooks em seu ambiente, navegue até as configurações do ambiente, selecione a computação do Spark, acesse o guia Aceleração e marque Habilitar mecanismo de execução nativa. Depois de salvar e publicar, essa configuração é aplicada em todo o ambiente, portanto, todos os novos trabalhos e notebooks herdam e se beneficiam automaticamente dos recursos de desempenho aprimorados.
Use as instruções a seguir para integrar o Runtime 1.3 no seu espaço de trabalho e usar seus novos recursos:
- Navegue até a guia Configurações do espaço de trabalho dentro do espaço de trabalho do Fabric.
- Acesse Engenharia/Ciência de Dados e selecione Configurações do Spark.
- Selecione a guia Ambiente.
- Nas Versões do Runtime, expanda a lista suspensa.
- Selecione 1.3 (Spark 3.5, Delta 3.2) e salve suas alterações. Esta ação define o 1.3 como runtime padrão para seu espaço de trabalho.
Agora você poderá começar a trabalhar com as melhorias e funcionalidades mais recentes introduzidas no runtime 1.3 do Fabric (Spark 3.5 e Delta Lake 3.2).
Principais destaques
Apache Spark 3.5
Apache Spark 3.5.0 é a sexta versão da série 3.x. Esta versão é um produto de ampla colaboração dentro da comunidade de código aberto, tratando de mais de 1.300 problemas conforme registrados no Jira.
Nesta versão, há uma atualização na compatibilidade para streaming estruturado. Além disso, esta versão amplia a funcionalidade dentro do PySpark e SQL. Ele adiciona recursos como a cláusula de identificador SQL, argumentos nomeados em chamadas de função SQL e a inclusão de funções SQL para agregações aproximadas HyperLogLog. Outros recursos novos também incluem as funções de tabela definidas pelo usuário do Python, a simplificação do treinamento distribuído via DeepSpeed e novos recursos de streaming estruturado, como propagação de marca d'água e a operação dropDuplicatesWithinWatermark.
Você pode conferir a lista completa e as mudanças detalhadas aqui: https://spark.apache.org/releases/spark-release-3-5-0.html.
Delta Spark
Delta Lake 3.2 marca um compromisso coletivo de tornar o Delta Lake interoperável entre formatos, mais fácil de trabalhar e com mais desempenho. O Delta Spark 3.2 é criado com base no Apache Spark™ 3.5. O artefato maven do Delta Spark foi renomeado de delta-core para delta-spark.
Você pode conferir a lista completa e as mudanças detalhadas aqui: https://docs.delta.io/3.2.0/index.html.
Dica
Para obter informações atualizadas, uma lista detalhada de alterações e as notas de versão específicas dos runtimes do Fabric, verifique e assine Versões e Atualizações de Runtimes do Spark.
Conteúdo relacionado
- Leia sobre os Runtimes do Apache Spark no Fabric – visão geral, controle de versão, suporte a vários runtimes e atualização do protocolo Delta Lake
- Guia de migração do Spark Core
- Guias de migração de SQL, Datasets e DataFrame
- Guia de migração de Streaming Estruturado
- Guia de migração de MLlib (aprendizado de máquina)
- Guia de migração do PySpark (Python no Spark)
- Guia de migração do SparkR (R no Spark)