O que há de novo e planejado para a engenharia de dados de malha no Microsoft Fabric
Importante
Os planos de lançamento descrevem funcionalidades que podem ou não ter sido lançadas ainda. Os prazos de entrega e a funcionalidade projetada podem mudar ou podem não ser enviados. Consulte a política da Microsoft para obter mais informações.
A Fabric Data Engineering capacita os engenheiros de dados a serem capazes de transformar seus dados em escala usando o Spark e construir sua arquitetura lakehouse.
Lakehouse para todos os seus dados organizacionais: O lakehouse combina o melhor do data lake e do data warehouse em uma única experiência. Ele permite que os usuários ingestão, preparem e compartilhem dados organizacionais em um formato aberto no lago. Mais tarde, você pode acessá-lo por meio de vários mecanismos, como Spark, T-SQL e Power BI. Ele fornece várias opções de integração de dados, como fluxos de dados e pipelines, atalhos para fontes de dados externas e recursos de compartilhamento de produtos de dados.
Performant Spark engine & runtime: A engenharia de dados de malha fornece aos clientes um tempo de execução otimizado do Spark com as versões mais recentes do Spark, Delta e Python. Ele usa o Delta Lake como o formato de tabela comum para todos os mecanismos, permitindo fácil compartilhamento de dados e relatórios sem movimentação de dados. O tempo de execução vem com otimizações do Spark, melhorando o desempenho da sua consulta sem nenhuma configuração. Ele também oferece piscinas iniciais e modo de alta simultaneidade para acelerar e reutilizar suas sessões do Spark, economizando tempo e custo.
Configurações do Spark Admin: os administradores do espaço de trabalho com permissões apropriadas podem criar e configurar pools personalizados para otimizar o desempenho e o custo de suas cargas de trabalho do Spark. Os criadores podem configurar ambientes para instalar bibliotecas, selecionar a versão em tempo de execução e definir propriedades do Spark para seus blocos de anotações e trabalhos do Spark.
Experiência do desenvolvedor: os desenvolvedores podem usar blocos de anotações, trabalhos do Spark ou seu IDE preferido para criar e executar o código do Spark na malha. Eles podem acessar nativamente os dados da casa do lago, colaborar com outras pessoas, instalar bibliotecas, rastrear o histórico, fazer monitoramento on-line e obter recomendações do consultor do Spark. Eles também podem usar o Data Wrangler para preparar dados facilmente com uma interface do usuário low-code.
Integração de plataforma: Todos os itens de engenharia de dados da malha, incluindo notebooks, trabalhos do Spark, ambientes e lakehouses, são profundamente integrados à plataforma Fabric (recursos de gerenciamento de informações corporativas, linhagem, rótulos de sensibilidade e endossos).
Áreas de investimento
Bloco de notas de Python
Cronograma estimado de lançamento: 4º trimestre de 2024
Tipo de Lançamento: Pré-visualização pública
Os notebooks de malha suportam experiência Python pura. Esta nova solução destina-se a programadores de BI e cientistas de dados que trabalham com conjuntos de dados mais pequenos (até alguns GB) e utilizam Pandas e Python como linguagem principal. Através desta nova experiência, eles poderão se beneficiar da linguagem Python nativa e seus recursos nativos e bibliotecas prontas para uso, poderão mudar de uma versão Python para outra (inicialmente duas versões serão suportadas) e, finalmente, se beneficiarão com uma melhor utilização de recursos usando uma máquina 2VCore menor.
ArcGIS GeoAnalytics for Microsoft Fabric Spark
Cronograma estimado de lançamento: 4º trimestre de 2024
Tipo de Lançamento: Pré-visualização pública
A Microsoft e a Esri fizeram uma parceria para trazer a análise espacial para o Microsoft Fabric. Esta colaboração introduz uma nova biblioteca, ArcGIS GeoAnalytics for Microsoft Fabric, permitindo um extenso conjunto de análises espaciais diretamente dentro de notebooks do Microsoft Fabric Spark e definições de trabalho do Spark (em experiências / cargas de trabalho de Engenharia de Dados e Ciência de Dados).
Esta experiência de produto integrada capacita os desenvolvedores ou cientistas de dados do Spark a utilizar nativamente os recursos da Esri para executar funções e ferramentas do ArcGIS GeoAnalytics dentro do Fabric Spark para transformação espacial, enriquecimento e análise de padrão / tendência de dados – até mesmo big data – em diferentes casos de uso sem qualquer necessidade de instalação e configuração separadas.
Instalando bibliotecas a partir da conta de armazenamento ADLS Gen2
Cronograma estimado de lançamento: 4º trimestre de 2024
Tipo de Lançamento: Pré-visualização pública
Suporte a uma nova fonte para os usuários instalarem bibliotecas. Através da criação de um canal conda/PyPI personalizado, que é hospedado em sua conta de armazenamento, os usuários podem instalar as bibliotecas de sua conta de armazenamento em seus ambientes de malha.
Controle de versão ao vivo do bloco de anotações
Cronograma estimado de lançamento: 1º trimestre de 2025
Tipo de Lançamento: Pré-visualização pública
Com o controle de versão ao vivo, os desenvolvedores do Fabric Notebook podem acompanhar o histórico de alterações feitas em seus notebooks, comparar diferentes versões e restaurar versões anteriores, se necessário.
VSCode Satellite Extension para funções de dados do usuário na malha
Cronograma estimado de lançamento: 1º trimestre de 2025
Tipo de Lançamento: Pré-visualização pública
A extensão VSCode Satellite para funções de dados do usuário fornecerá suporte ao desenvolvedor (edição, construção, depuração, publicação) para funções de dados do usuário na malha.
Funções de dados do usuário na malha
Cronograma estimado de lançamento: 1º trimestre de 2025
Tipo de Lançamento: Pré-visualização pública
As funções de dados do usuário fornecerão um mecanismo poderoso para implementar e reutilizar lógica de negócios personalizada e especializada em fluxos de trabalho de ciência de dados e engenharia de dados do Fabric, aumentando a eficiência e a flexibilidade.
APIs de monitoramento público
Cronograma estimado de lançamento: 1º trimestre de 2025
Tipo de Lançamento: Pré-visualização pública
O recurso de API de monitoramento público do Fabric Spark tem como objetivo expor as APIs de monitoramento do Spark, permitindo que os usuários monitorem o progresso do trabalho do Spark, visualizem tarefas de execução e acessem logs programaticamente. Esse recurso está alinhado com os padrões de API pública, fornecendo uma experiência de monitoramento perfeita para aplicativos Spark.
Metadados do Lakehouse Shortcuts no git e pipelines de implantação
Cronograma estimado de lançamento: 1º trimestre de 2025
Tipo de Lançamento: Pré-visualização pública
Para fornecer uma história atraente de gerenciamento do ciclo de vida do aplicativo, é imperativo rastrear metadados de objetos no git e dar suporte a pipelines de implantação. Nos módulos de Engenharia de Dados, como espaços de trabalho são integrados ao git.
Nesta primeira iteração, os atalhos do OneLake serão implantados automaticamente nos estágios e espaços de trabalho do pipeline. As conexões de atalho podem ser remapeadas entre estágios usando um novo item do Microsoft Fabric chamado biblioteca de variáveis, garantindo o isolamento adequado e a segmentação de ambiente que os clientes esperam.
Melhorias no Delta Lake nas experiências do Spark
Cronograma estimado de lançamento: 1º trimestre de 2025
Tipo de versão: Disponibilidade geral
Ter padrões adequados e estar alinhado com os padrões mais recentes são de extrema importância para os padrões Delta Lake no Microsoft Fabric. INT64 será o novo tipo de codificação padrão para todos os valores de carimbo de data/hora. Isso se afasta das codificações INT96, que o Apache Parquet preteriu anos atrás. As alterações não afetam nenhum recurso de leitura, é transparente e compatível por padrão, mas garante que todos os novos arquivos de parquet em sua tabela Delta Lake sejam escritos de forma mais eficiente e preparada para o futuro.
Também estamos lançando uma implementação mais rápida do comando OTIMIZE, fazendo com que ele ignore arquivos já V-Ordered.
Suporte para instantâneos de trabalhos de Bloco de Anotações em andamento
Cronograma estimado de lançamento: 1º trimestre de 2025
Tipo de Lançamento: Pré-visualização pública
Esse recurso permite que os usuários visualizem um instantâneo do Notebook enquanto ele ainda está em execução, o que é essencial para monitorar o progresso e solucionar problemas de desempenho. Os usuários podem ver o código-fonte original, os parâmetros de entrada e as saídas de célula para entender melhor o trabalho do Spark e podem acompanhar o progresso da execução do Spark no nível da célula. Os usuários também podem revisar a saída de células concluídas para validar a precisão do aplicativo Spark e estimar o trabalho restante. Além disso, quaisquer erros ou exceções de células já executadas são exibidos, ajudando os usuários a identificar e resolver problemas antecipadamente.
Suporte RLS/CLS para Spark e Lakehouse
Cronograma estimado de lançamento: 1º trimestre de 2025
Tipo de Lançamento: Pré-visualização pública
O recurso permite que os usuários implementem políticas de segurança para acesso a dados dentro do mecanismo Spark. Os usuários podem definir segurança no nível de objeto, linha ou coluna, garantindo que os dados sejam protegidos conforme definido por essas políticas quando acessados por meio do Fabric Spark e estejam alinhados com a iniciativa OneSecurity que está sendo habilitada no Microsoft Fabric.
Spark Connector for Fabric Data Warehouse - Disponibilidade geral
Cronograma estimado de lançamento: 1º trimestre de 2025
Tipo de versão: Disponibilidade geral
O conector Spark para Microsoft Fabric Data Warehouse permite que desenvolvedores e cientistas de dados do Spark acessem e trabalhem com dados de um depósito e do ponto de extremidade de análise SQL de um lakehouse. Ele oferece uma API Spark simplificada, abstrai a complexidade subjacente e opera com apenas uma linha de código, mantendo modelos de segurança como segurança em nível de objeto (OLS), segurança em nível de linha (RLS) e segurança em nível de coluna (CLS).
Recurso(s) enviado(s)
Capacidade de classificar e filtrar tabelas e pastas no Lakehouse
Enviado (Q4 2024)
Tipo de versão: Disponibilidade geral
Esse recurso permite que os clientes classifiquem e filtrem suas tabelas e pastas no Lakehouse por vários métodos diferentes, incluindo alfabeticamente, data de criação e muito mais.
Blocos de notas numa aplicação
Enviado (Q4 2024)
Tipo de Lançamento: Pré-visualização pública
Os aplicativos da organização estão disponíveis como um novo item no Fabric e você pode incluir Blocos de Anotações ao lado de relatórios e painéis do Power BI em aplicativos do Fabric e distribuí-los para usuários corporativos. Os consumidores de aplicativos podem interagir com widgets e elementos visuais no notebook, como um mecanismo alternativo de geração de relatórios e exploração de dados. Isso permite que você crie e compartilhe histórias ricas e envolventes com seus dados.
VSCode Core Extension para malha
Enviado (3º trimestre de 2024)
Tipo de Lançamento: Pré-visualização pública
O Core VSCode Extension for Fabric fornecerá suporte de desenvolvedor comum para serviços de malha.
Bloco de anotações T-SQL
Enviado (3º trimestre de 2024)
Tipo de Lançamento: Pré-visualização pública
Os blocos de anotações de malha suportam a linguagem T-SQL para consumir dados no Data Warehouse. Ao adicionar um ponto de extremidade de análise SQL ou Data Warehouse a um bloco de anotações, os desenvolvedores T-SQL podem executar consultas diretamente no ponto de extremidade conectado. Os analistas de BI também podem realizar consultas entre bancos de dados para coletar insights de vários armazéns e pontos de extremidade de análise SQL. Os Notebooks T-SQL oferecem uma ótima alternativa de criação às ferramentas existentes para usuários SQL e incluem recursos nativos do Fabric, como, compartilhamento, integração GIT e colaboração.
VS Code para a Web - suporte de depuração
Enviado (3º trimestre de 2024)
Tipo de Lançamento: Pré-visualização pública
O Visual Studio Code for the Web é atualmente suportado na Pré-visualização para cenários de criação e execução. Adicionamos à lista de recursos a capacidade de depurar código usando esta extensão para notebook.
Alta simultaneidade em oleodutos
Enviado (3º trimestre de 2024)
Tipo de versão: Disponibilidade geral
Além da alta simultaneidade em notebooks, também habilitaremos alta simultaneidade em pipelines. Esse recurso permitirá que você execute vários blocos de anotações em um pipeline com uma única sessão.
Suporte a esquema e espaço de trabalho no namespace no Lakehouse
Enviado (3º trimestre de 2024)
Tipo de Lançamento: Pré-visualização pública
Isso permitirá organizar tabelas usando esquemas e dados de consulta entre espaços de trabalho.
Mecanismo de execução nativo do Spark
Enviado (Q2 2024)
Tipo de Lançamento: Pré-visualização pública
O mecanismo de execução nativo é um aprimoramento inovador para execuções de trabalho do Apache Spark no Microsoft Fabric. Esse mecanismo vetorizado otimiza o desempenho e a eficiência de suas consultas Spark, executando-as diretamente em sua infraestrutura lakehouse. A integração perfeita do mecanismo significa que ele não requer modificações de código e evita a dependência do fornecedor. Ele suporta APIs Apache Spark e é compatível com Runtime 1.2 (Spark 3.4), e funciona com os formatos Parquet e Delta. Independentemente da localização dos seus dados no OneLake, ou se você acessar os dados por meio de atalhos, o mecanismo de execução nativo maximiza a eficiência e o desempenho
Conector Spark para Data Warehouse de malha
Enviado (Q2 2024)
Tipo de Lançamento: Pré-visualização pública
O Spark Connector for Fabric DW (Data Warehouse) permite que um desenvolvedor do Spark ou um cientista de dados acesse e trabalhe nos dados do Fabric Data Warehouse com uma API simplificada do Spark, que literalmente funciona com apenas uma linha de código. Ele oferece a capacidade de consultar os dados, em paralelo, do data warehouse do Fabric para que ele seja dimensionado com o aumento do volume de dados e honre o modelo de segurança (OLS/RLS/CLS) definido no nível do data warehouse ao acessar a tabela ou exibição. Esta primeira versão suportará apenas a leitura de dados e o suporte para gravar dados de volta estará disponível em breve.
API do Microsoft Fabric para GraphQL
Enviado (Q2 2024)
Tipo de Lançamento: Pré-visualização pública
A API para GraphQL permitirá que engenheiros de dados de malha, cientistas e arquitetos de soluções de dados exponham e integrem dados de malha sem esforço, para aplicativos analíticos mais responsivos, eficientes e ricos, aproveitando o poder e a flexibilidade do GraphQL.
Criar e anexar ambientes
Enviado (Q2 2024)
Tipo de versão: Disponibilidade geral
Para personalizar suas experiências do Spark em um nível mais granular, você pode criar e anexar ambientes aos seus blocos de anotações e trabalhos do Spark. Em um ambiente, você pode instalar bibliotecas, configurar um novo pool, definir propriedades do Spark e carregar scripts em um sistema de arquivos. Isso lhe dá mais flexibilidade e controle sobre suas cargas de trabalho do Spark, sem afetar as configurações padrão do espaço de trabalho. Como parte do GA, estamos fazendo várias melhorias nos ambientes, incluindo suporte a API e integração de CI/CD.
Fila de trabalhos para trabalhos de bloco de anotações
Enviado (Q2 2024)
Tipo de versão: Disponibilidade geral
Esse recurso permite que os Blocos de Anotações Spark agendados sejam enfileirados quando o uso do Spark estiver em seu número máximo de trabalhos que ele pode executar em paralelo e, em seguida, executar quando o uso voltar abaixo do número máximo de trabalhos paralelos permitidos.
Admissão de emprego otimista para a Fabric Spark
Enviado (Q2 2024)
Tipo de versão: Disponibilidade geral
Com o Optimistic Job Admission, o Fabric Spark reserva apenas o número mínimo de núcleos que um trabalho precisa iniciar, com base no número mínimo de nós para os quais o trabalho pode ser reduzido. Isto permite a admissão de mais postos de trabalho se existirem recursos suficientes para cumprir os requisitos mínimos. Se um trabalho precisar ser dimensionado posteriormente, as solicitações de expansão serão aprovadas ou rejeitadas com base nos núcleos disponíveis na capacidade.
Autotune de faísca
Enviado (1º trimestre de 2024)
Tipo de Lançamento: Pré-visualização pública
O Autotune usa aprendizado de máquina para analisar automaticamente execuções anteriores de seus trabalhos do Spark e ajusta as configurações para otimizar o desempenho. Ele configura como seus dados são particionados, unidos e lidos pelo Spark. Desta forma, irá melhorar significativamente o desempenho. Vimos os trabalhos dos clientes serem executados 2x mais rápido com essa capacidade.