Partilhar via


Otimize a utilização de cluster de pipelines Delta Live Tables com dimensionamento automático aprimorado

Este artigo discute como usar o dimensionamento automático aprimorado para otimizar seus pipelines do Delta Live Tables no Azure Databricks.

O dimensionamento automático aprimorado é habilitado por padrão para todos os novos pipelines.

Para pipelines sem servidor, o dimensionamento automático aprimorado está sempre ativo e não pode ser desativado. Consulte Configurar um pipeline Delta Live Tables sem servidor.

O que é o dimensionamento automático avançado?

O dimensionamento automático aprimorado do Databricks otimiza a utilização do cluster alocando automaticamente os recursos do cluster com base no volume da carga de trabalho, com impacto mínimo na latência de processamento de dados de seus pipelines.

O dimensionamento automático avançado melhora a funcionalidade de dimensionamento automático do cluster do Azure Databricks com os seguintes recursos:

  • O dimensionamento automático aprimorado implementa a otimização de cargas de trabalho de streaming e adiciona aprimoramentos para melhorar o desempenho de cargas de trabalho em lote. O dimensionamento automático aprimorado otimiza os custos adicionando ou removendo máquinas à medida que a carga de trabalho muda.
  • O dimensionamento automático aprimorado desliga proativamente os nós subutilizados, garantindo que não haja falhas nas tarefas durante o desligamento. O recurso de dimensionamento automático de cluster existente reduz os nós somente se o nó estiver ocioso.

O dimensionamento automático avançado é o modo de dimensionamento automático padrão quando você cria um novo pipeline na interface do usuário Delta Live Tables. Você pode habilitar o dimensionamento automático aprimorado para pipelines existentes editando as configurações de pipeline na interface do usuário. Você também pode habilitar o dimensionamento automático aprimorado ao criar ou editar pipelines com a API Delta Live Tables.

Quais métricas o dimensionamento automático aprimorado usa para tomar uma decisão de aumento ou redução de escala?

O dimensionamento automático aprimorado usa duas métricas para decidir sobre o aumento ou a redução:

  • Utilização de slots de tarefas: esta é a proporção média entre o número de slots de tarefas ocupados e o total de slots de tarefas disponíveis no cluster.
  • Tamanho da fila de tarefas: Este é o número de tarefas aguardando para serem executadas em slots de tarefas.

Habilite o dimensionamento automático aprimorado para um pipeline Delta Live Tables

O dimensionamento automático avançado é o modo de dimensionamento automático padrão quando você cria um novo pipeline na interface do usuário Delta Live Tables. Você pode habilitar o dimensionamento automático aprimorado para pipelines existentes editando as configurações de pipeline na interface do usuário. Você também pode habilitar o dimensionamento automático aprimorado ao criar ou editar um pipeline com a API Delta Live Tables.

Para usar o dimensionamento automático avançado, siga um destes procedimentos:

  • Defina o modo de cluster como Dimensionamento automático avançado ao criar ou editar um pipeline na interface do usuário Delta Live Tables.
  • Adicione a autoscale configuração à configuração do cluster de pipeline e defina o mode campo como ENHANCED. Consulte Configurar computação para um pipeline Delta Live Tables.

Use as seguintes diretrizes ao configurar o dimensionamento automático aprimorado para pipelines de produção:

  • Deixe a Min workers configuração no padrão.
  • Defina a Max workers configuração como um valor com base no orçamento e na prioridade do pipeline.

O exemplo a seguir configura um cluster de dimensionamento automático aprimorado com um mínimo de 5 trabalhadores e um máximo de 10 trabalhadores. max_workers deve ser maior ou igual a min_workers.

Nota

  • O dimensionamento automático avançado está disponível apenas para updates clusters. O dimensionamento automático herdado é usado para maintenance clusters.
  • A autoscale configuração tem dois modos:
{
  "clusters": [
    {
      "autoscale": {
        "min_workers": 5,
        "max_workers": 10,
        "mode": "ENHANCED"
      }
    }
  ]
}

Se o pipeline estiver configurado para execução contínua, ele será reiniciado automaticamente após as alterações na configuração de dimensionamento automático. Após o reinício, espere um curto período de maior latência. Após esse breve período de latência aumentada, o tamanho do cluster deve ser atualizado com base na sua autoscale configuração e a latência do pipeline deve retornar às suas características de latência anteriores.

Limite os custos de pipelines que usam dimensionamento automático aprimorado

Nota

Não é possível configurar trabalhadores para pipelines sem servidor.

Definindo o parâmetro Max workers no painel Computação de pipelines define um limite superior para dimensionamento automático. A redução do número de trabalhadores disponíveis pode aumentar a latência de algumas cargas de trabalho, mas evita que os custos dos recursos de computação aumentem durante operações de computação intensiva.

A Databricks recomenda ajustar as configurações de Max workers para equilibrar a compensação custo-latência para suas necessidades específicas.

O painel Computação na interface do usuário Pipelines, onde você pode definir o Max workers para dimensionamento automático

Monitore pipelines clássicos habilitados para dimensionamento automático aprimorado

Você pode usar o log de eventos na interface do usuário Delta Live Tables para monitorar métricas aprimoradas de dimensionamento automático para pipelines clássicos. Os eventos de dimensionamento automático aprimorado têm o tipo de autoscale evento. Seguem-se exemplos de eventos:

Evento Mensagem
Solicitação de redimensionamento de cluster iniciada Scaling [up or down] to <y> executors from current cluster size of <x>
Solicitação de redimensionamento de cluster bem-sucedida Achieved cluster size <x> for cluster <cluster-id> with status SUCCEEDED
Solicitação de redimensionamento de cluster parcialmente bem-sucedida Achieved cluster size <x> for cluster <cluster-id> with status PARTIALLY_SUCCEEDED
Falha na solicitação de redimensionamento de cluster Achieved cluster size <x> for cluster <cluster-id> with status FAILED

Você também pode exibir eventos de dimensionamento automático aprimorados consultando diretamente o log de eventos: