Entender as funcionalidades e os casos de uso do pool de SQL sem servidor do Azure Synapse

Concluído

O Azure Synapse Analytics é um serviço de análise integrado que reúne uma ampla variedade de tecnologias normalmente usadas para processar e analisar dados em escala. Uma das tecnologias mais prevalentes usadas em soluções de dados é o SQL – uma linguagem padrão do setor para consultar e manipular dados.

Pools de SQL sem servidor no Azure Synapse Analytics

O Azure Synapse SQL é um sistema de consulta distribuída no Azure Synapse Analytics que oferece dois tipos de ambientes de runtime:

  • Pool de SQL sem servidor: processamento de consulta SQL sob demanda, usado principalmente para trabalhar com os dados em um data lake.
  • Pool de SQL dedicado: instâncias de banco de dados relacionais em escala Enterprise usadas para hospedar data warehouses nos quais os dados são armazenados em tabelas relacionais.

Neste módulo, nos concentraremos no pool de SQL sem servidor, que fornece um ponto de extremidade de pagamento por consulta para consultar os dados no data lake. Os benefícios do uso do pool de SQL sem servidor incluem:

  • Uma sintaxe familiar do Transact-SQL para consultar dados no local sem a necessidade de copiar nem carregar dados em um repositório especializado.
  • Conectividade integrada por meio de uma ampla variedade de ferramentas de consulta ad hoc e de business intelligence, incluindo os drivers mais populares.
  • Processamento de consulta distribuída criado para dados em grande escala e funções computacionais, resultando em desempenho rápido de consulta.
  • Tolerância interna a falhas de execução de consulta, que resulta em confiabilidade e taxas de sucesso elevadas, até mesmo para consultas de longa execução envolvendo grandes conjuntos de dados.
  • Não há infraestrutura a ser configurada nem clusters a serem mantidos. Um ponto de extremidade interno para esse serviço é fornecido em todos os workspaces do Azure Synapse, de modo que você pode iniciar a consulta de dados assim que o workspace é criado.
  • Nenhum encargo para recursos reservados, você é cobrado apenas pelos dados processados pelas consultas que executa.

Quando usar pools de SQL sem servidor

O pool de SQL sem servidor é personalizado para consultar os dados que residem no data lake. Portanto, além de eliminar a carga de gerenciamento, ele elimina também a necessidade de se preocupar com a ingestão dos dados no sistema. Basta apontar a consulta para os dados que já estão no lake e executá-la.

O modelo de recurso sem servidor do SQL do Synapse é ótimo para cargas de trabalho não planejadas ou "intermitentes" que podem ser processadas usando o ponto de extremidade SQL sem servidor sempre ativado em seu workspace do Azure Synapse Analytics. O uso do pool sem servidor ajuda quando você precisa saber o custo exato de cada consulta executada para monitorar e atribuir custos.

Observação

O pool de SQL sem servidor é um sistema de análise e não é recomendado para cargas de trabalho OLTP, como bancos de dados usados por aplicativos para armazenar dados transacionais. As cargas de trabalho que exigem tempos de resposta de milissegundos e procuram identificar uma única linha em um conjunto de dados não são adequadas para o pool de SQL sem servidor.

Os casos de uso comuns para pools de SQL sem servidor incluem:

  • Exploração de dados: a exploração de dados envolve a procura no data lake para obter insights iniciais sobre os dados. Isso pode ser facilmente obtido com o Azure Synapse Studio. Você pode navegar pelos arquivos no armazenamento do data lake vinculado e usar o pool de SQL sem servidor interno para gerar automaticamente um script SQL para selecionar as 100 primeiras linhas de um arquivo ou pasta, como faria com uma tabela no SQL Server. Daí em diante, você poderá aplicar projeções, filtragem, agrupamento e a maior parte das operações existentes sobre os dados, como se eles estivessem armazenados em uma tabela normal do SQL Server.
  • Transformação de dados: embora o Azure Synapse Analytics forneça excelentes funcionalidades de transformações de dados com o Synapse Spark, alguns engenheiros de dados podem achar a transformação de dados mais fácil de alcançar usando o SQL. O pool de SQL sem servidor permite que você execute transformações de dados baseadas em SQL; interativamente ou como parte de um pipeline de dados automatizado.
  • Data warehouse lógico: após a exploração inicial dos dados no data lake, você pode definir objetos externos, como tabelas e exibições em um banco de dados SQL sem servidor. Os dados permanecem armazenados nos arquivos do data lake, mas são abstraídos por um esquema relacional que pode ser usado por aplicativos cliente e ferramentas analíticas para consultar os dados como em um banco de dados relacional hospedado em SQL Server.