Otimize a utilização de cluster de pipelines Delta Live Tables com dimensionamento automático aprimorado
Este artigo discute como usar o dimensionamento automático aprimorado para otimizar seus pipelines do Delta Live Tables no Azure Databricks.
O dimensionamento automático aprimorado é habilitado por padrão para todos os novos pipelines.
Para pipelines sem servidor, o dimensionamento automático aprimorado está sempre ativo e não pode ser desativado. Consulte Configurar um pipeline Delta Live Tables sem servidor.
O que é o dimensionamento automático avançado?
O dimensionamento automático aprimorado do Databricks otimiza a utilização do cluster alocando automaticamente os recursos do cluster com base no volume da carga de trabalho, com impacto mínimo na latência de processamento de dados de seus pipelines.
O dimensionamento automático avançado melhora a funcionalidade de dimensionamento automático do cluster do Azure Databricks com os seguintes recursos:
- O dimensionamento automático aprimorado implementa a otimização de cargas de trabalho de streaming e adiciona aprimoramentos para melhorar o desempenho de cargas de trabalho em lote. O dimensionamento automático aprimorado otimiza os custos adicionando ou removendo máquinas à medida que a carga de trabalho muda.
- O dimensionamento automático aprimorado desliga proativamente os nós subutilizados, garantindo que não haja falhas nas tarefas durante o desligamento. O recurso de dimensionamento automático de cluster existente reduz os nós somente se o nó estiver ocioso.
O dimensionamento automático avançado é o modo de dimensionamento automático padrão quando você cria um novo pipeline na interface do usuário Delta Live Tables. Você pode habilitar o dimensionamento automático aprimorado para pipelines existentes editando as configurações de pipeline na interface do usuário. Você também pode habilitar o dimensionamento automático aprimorado ao criar ou editar pipelines com a API Delta Live Tables.
Quais métricas o dimensionamento automático aprimorado usa para tomar uma decisão de aumento ou redução de escala?
O dimensionamento automático aprimorado usa duas métricas para decidir sobre o aumento ou a redução:
- Utilização de slots de tarefas: esta é a proporção média entre o número de slots de tarefas ocupados e o total de slots de tarefas disponíveis no cluster.
- Tamanho da fila de tarefas: Este é o número de tarefas aguardando para serem executadas em slots de tarefas.
Habilite o dimensionamento automático aprimorado para um pipeline Delta Live Tables
O dimensionamento automático avançado é o modo de dimensionamento automático padrão quando você cria um novo pipeline na interface do usuário Delta Live Tables. Você pode habilitar o dimensionamento automático aprimorado para pipelines existentes editando as configurações de pipeline na interface do usuário. Você também pode habilitar o dimensionamento automático aprimorado ao criar ou editar um pipeline com a API Delta Live Tables.
Para usar o dimensionamento automático avançado, siga um destes procedimentos:
- Defina o modo de cluster como Dimensionamento automático avançado ao criar ou editar um pipeline na interface do usuário Delta Live Tables.
- Adicione a
autoscale
configuração à configuração do cluster de pipeline e defina omode
campo comoENHANCED
. Consulte Configurar computação para um pipeline Delta Live Tables.
Use as seguintes diretrizes ao configurar o dimensionamento automático aprimorado para pipelines de produção:
- Deixe a
Min workers
configuração no padrão. - Defina a
Max workers
configuração como um valor com base no orçamento e na prioridade do pipeline.
O exemplo a seguir configura um cluster de dimensionamento automático aprimorado com um mínimo de 5 trabalhadores e um máximo de 10 trabalhadores. max_workers
deve ser maior ou igual a min_workers
.
Nota
- O dimensionamento automático avançado está disponível apenas para
updates
clusters. O dimensionamento automático herdado é usado paramaintenance
clusters. - A
autoscale
configuração tem dois modos:LEGACY
: Use o dimensionamento automático de cluster.ENHANCED
: Use o dimensionamento automático aprimorado.
{
"clusters": [
{
"autoscale": {
"min_workers": 5,
"max_workers": 10,
"mode": "ENHANCED"
}
}
]
}
Se o pipeline estiver configurado para execução contínua, ele será reiniciado automaticamente após as alterações na configuração de dimensionamento automático. Após o reinício, espere um curto período de maior latência. Após esse breve período de latência aumentada, o tamanho do cluster deve ser atualizado com base na sua autoscale
configuração e a latência do pipeline deve retornar às suas características de latência anteriores.
Limite os custos de pipelines que usam dimensionamento automático aprimorado
Nota
Não é possível configurar trabalhadores para pipelines sem servidor.
Definindo o parâmetro Max workers no painel Computação de pipelines define um limite superior para dimensionamento automático. A redução do número de trabalhadores disponíveis pode aumentar a latência de algumas cargas de trabalho, mas evita que os custos dos recursos de computação aumentem durante operações de computação intensiva.
A Databricks recomenda ajustar as configurações de Max workers para equilibrar a compensação custo-latência para suas necessidades específicas.
Monitore pipelines clássicos habilitados para dimensionamento automático aprimorado
Você pode usar o log de eventos na interface do usuário Delta Live Tables para monitorar métricas aprimoradas de dimensionamento automático para pipelines clássicos. Os eventos de dimensionamento automático aprimorado têm o tipo de autoscale
evento. Seguem-se exemplos de eventos:
Evento | Mensagem |
---|---|
Solicitação de redimensionamento de cluster iniciada | Scaling [up or down] to <y> executors from current cluster size of <x> |
Solicitação de redimensionamento de cluster bem-sucedida | Achieved cluster size <x> for cluster <cluster-id> with status SUCCEEDED |
Solicitação de redimensionamento de cluster parcialmente bem-sucedida | Achieved cluster size <x> for cluster <cluster-id> with status PARTIALLY_SUCCEEDED |
Falha na solicitação de redimensionamento de cluster | Achieved cluster size <x> for cluster <cluster-id> with status FAILED |
Você também pode exibir eventos de dimensionamento automático aprimorados consultando diretamente o log de eventos:
- Para consultar o log de eventos em busca de métricas de lista de pendências, consulte Monitorar lista de pendências de dados consultando o log de eventos.
- Para monitorar solicitações e respostas de redimensionamento de cluster durante operações de dimensionamento automático aprimoradas, consulte Monitorar eventos de dimensionamento automático aprimorado do log de eventos para pipelines sem habilitação sem servidor.