Neste artigo, descrevemos as práticas recomendadas para criar máquinas virtuais (VMs) spot do Azure e incluímos um cenário de exemplo implantável. As VMs spot fornecem acesso à capacidade de computação com descontos significativos para VMs regulares. Este desconto torna-os uma solução atrativa para organizações que procuram otimizar custos, mas a poupança vem acompanhada de uma condição. As VMs spot podem perder o acesso à computação a qualquer momento. Chamamos a este processo um despejo. As cargas de trabalho em execução em VMs locais devem ser capazes de lidar com essas interrupções na computação. A carga de trabalho certa e um mecanismo de orquestração flexível são as chaves para o sucesso. Aqui estão nossas recomendações para criar VMs no local.
Compreender as máquinas virtuais spot
Em um nível técnico, as VMs spot são as mesmas que as VMs comuns. Eles usam as mesmas imagens, hardware e discos que se traduzem no mesmo desempenho. A diferença entre VMs spot e regulares se resume à prioridade e disponibilidade. As VMs spot não têm prioridade para acessar a capacidade de computação e não têm garantias de disponibilidade depois de acessar essa capacidade de computação. Vamos discutir a prioridade e a disponibilidade com mais detalhes.
Sem acesso prioritário. As VMs regulares têm acesso prioritário à capacidade de computação. Eles acessam a capacidade de computação sempre que a solicitam. As VMs spot, por outro lado, só são implantadas quando há capacidade de computação sobressalente e só permanecem em execução quando uma VM normal não precisa do hardware subjacente.
Sem garantia de disponibilidade. As VMs spot não têm garantias de disponibilidade. Eles não têm contratos de nível de serviço (SLAs). As VMs spot podem perder o acesso à capacidade de computação imediatamente ou a qualquer momento após a implantação (remoção). As VMs spot são mais baratas devido à possibilidade de despejo. Sempre que o Azure precisar da capacidade de computação de volta, um aviso de remoção é enviado e remove a VM local. O Azure fornece um aviso prévio mínimo de 30 segundos antes que o despejo real ocorra. Para obter mais informações, consulte Monitorar continuamente a remoção neste artigo.
Compreender os preços das máquinas virtuais spot
As VMs spot podem ser até 90% mais baratas do que as VMs normais (pré-pagas). O desconto varia de acordo com a demanda, o tamanho da VM, a região de implantação e o sistema operacional. Recomendamos que você use a ferramenta de preços de VM spot do Azure para obter uma estimativa da economia de custos. Para mais informações, consulte:
- da ferramenta de preços de VM spot do Azure
- Visão geral dos preços do Spot VM
Você também pode consultar a API de preços de varejo do Azure para obter programaticamente o preço spot para qualquer SKU de interesse.
Compreender cargas de trabalho interruptíveis
As cargas de trabalho interruptíveis são o melhor caso de uso para VMs spot. As cargas de trabalho interruptíveis têm algumas características comuns. Eles têm restrições de tempo mínimas ou nenhumas, baixa prioridade organizacional e tempos de processamento curtos. Eles executam processos que podem parar de repente e retomar mais tarde sem prejudicar processos organizacionais essenciais. Exemplos de cargas de trabalho interruptíveis são aplicativos de processamento em lote, análise de dados e cargas de trabalho que criam um agente de implantação contínua de integração contínua para um ambiente que não seja de produção. Esses recursos contrastam com cargas de trabalho regulares ou de missão crítica que têm SLAs (Service Level Agreements, contratos de nível de serviço), sessões rígidas e dados com monitoração de estado. A tabela fornece exemplos para ambos os tipos de carga de trabalho.
Recursos de carga de trabalho interruptível | Recursos regulares de carga de trabalho | |
---|---|---|
Características | Restrições de tempo mínimas ou nulas Baixa prioridade organizacional Tempos de processamento curtos |
Contratos de nível de serviço (SLAs) Requisitos de sessões adesivas Cargas de trabalho com monitoração de estado |
Você pode usar VM spot em cargas de trabalho ininterruptas, mas elas não devem ser a única fonte de capacidade de computação. Use quantas VMs regulares precisar para atender aos seus requisitos de tempo de atividade.
Entenda o despejo
As VMs spot não têm contratos de nível de serviço (SLAs) depois de serem criadas e podem perder o acesso à computação a qualquer momento. Chamamos isso de perda computacional de despejo. A computação de oferta e demanda impulsiona a remoção. Quando a demanda por um tamanho de VM específico excede um determinado nível, o Azure remove VMs spot para disponibilizar computação para VMs regulares. A procura é específica da localização. Um aumento na demanda na região A não afeta as VMs spot na região B.
As VMs spot têm duas opções de configuração que afetam a remoção. Essas configurações são o "tipo de despejo" e a "política de despejo" da VM local. Você define essas configurações ao criar a VM spot. O "tipo de despejo" define as condições de um despejo. A "política de despejo" determina o que o despejo faz com a sua VM local. Vamos abordar ambas as opções de configuração.
Tipo de despejo
Mudanças de capacidade ou de preço causam despejos. A maneira como as alterações de capacidade e preço afetam as VMs spot dependem do tipo de remoção escolhido quando a VM foi criada. O tipo de despejo define as condições de um despejo. Os tipos de despejo são "despejo apenas de capacidade" e "despejo de preço ou capacidade".
Capacidade apenas despejo: Este tipo de despejo desencadeia um despejo quando o excesso de capacidade de computação desaparece. Por padrão, o preço é limitado à taxa de pré-pagamento. Use esse tipo de remoção quando estiver disposto a pagar até o preço da VM pré-pago.
Preço ou capacidade de despejo: Este tipo de despejo tem dois gatilhos. O Azure remove uma VM spot quando o excesso de capacidade de computação desaparece ou o custo da VM excede o preço máximo definido. Este tipo de despejo permite-lhe definir um preço máximo muito abaixo do preço pré-pago. Use este tipo de despejo para definir seu próprio limite de preço.
Política de despejo
A política de despejo escolhida para uma VM spot afeta sua orquestração. Por orquestração, entende-se o processo de tratamento de um despejo. Abordaremos a orquestração em detalhes mais tarde. As políticas de despejo são a "Política de parada/desalocar" e "Política de exclusão".
política Stop/Deallocate: A política de despejo Stop/Deallocate é melhor quando a carga de trabalho pode aguardar a capacidade de liberação no mesmo local e tipo de VM. A política Parar/Desalocar interrompe a VM e encerra sua concessão com o hardware subjacente. Parar e deslocalizar uma VM spot é o mesmo que parar e deslocalizar uma VM normal. A VM permanece acessível no Azure e você pode reiniciar a mesma VM mais tarde. Com a política Parar/Desalocar, a VM perde capacidade de computação e endereços IP não estáticos. No entanto, os discos de dados da VM permanecem e ainda incorrem em encargos. A VM também ocupa núcleos na assinatura. As VMs não podem ser movidas de sua região ou zona, mesmo quando paradas/deslocalizadas. Para obter mais informações, consulte estados de energia ede faturamento da VM.
Excluir política: Use a opção "Excluir política" se a carga de trabalho puder alterar o local ou o tamanho da VM. Alterar o local e/ou o tamanho da VM permite que a VM seja reimplantada mais rapidamente. A política Excluir exclui a VM e qualquer disco de dados. A VM não ocupa núcleos em assinaturas. Para obter mais informações sobre políticas de despejo, consulte política de despejo.
Design para orquestração flexível
Orquestração é o processo de substituição de uma VM local após uma remoção. É a base da construção de uma carga de trabalho interruptível de forma confiável. Um bom sistema de orquestração tem flexibilidade incorporada. Por flexibilidade, queremos dizer projetar sua orquestração para ter opções, usar vários tamanhos de VM, implantar em diferentes regiões, estar ciente da remoção e levar em conta diferentes cenários de remoção para melhorar a confiabilidade e a velocidade da carga de trabalho.
Design para velocidade
Para uma carga de trabalho executada em VMs locais, a capacidade de computação é um tesouro. O potencial iminente de despejo deve elevar seu apreço pelo tempo de computação alocado e deve se traduzir em decisões de projeto significativas que priorizam a velocidade da carga de trabalho. Em geral, você deve otimizar o tempo de computação que você tem. Você deve criar uma imagem de VM com todo o software necessário pré-instalado. O software pré-instalado ajuda a minimizar o tempo entre a remoção e um aplicativo totalmente em execução. Você deseja evitar o uso do tempo de computação em processos que não contribuem para a finalidade da carga de trabalho. Uma carga de trabalho para análise de dados, por exemplo, deve concentrar a maior parte do tempo de computação no processamento de dados e o mínimo possível na coleta de metadados de remoção. Elimine processos não essenciais do seu aplicativo.
Usar vários tamanhos e locais de VM
Recomendamos criar uma orquestração para usar vários tipos e tamanhos de VM para aumentar a flexibilidade. O objetivo é dar opções de orquestração para substituir uma VM removida. O Azure tem diferentes tipos e tamanhos de VM que fornecem recursos semelhantes pelo mesmo preço. Você deve filtrar VMs min vCPUs/Cores e/ou min RAM e preço máximo para encontrar várias VMs que têm o poder de executar sua carga de trabalho e caber dentro do seu orçamento.
Cada tipo de VM tem uma taxa de despejo expressa como um intervalo percentual (0-5%, 5-10%, 10-15%, 15-20%, 20+%). As taxas de despejo podem variar entre as regiões. Você pode encontrar uma taxa de remoção melhor para o mesmo tipo de VM em uma região diferente. Você pode encontrar as taxas de remoção para cada tipo de VM no portal na guia "Básicos". Selecione os links "Tamanho" ("Ver histórico de preços" ou "Ver todos os tamanhos"). Você também pode obter programaticamente dados de VM spot usando o Azure Resource Graph.
Além disso, considere usar o recurso Spot Placement Score para avaliar a probabilidade de sucesso de implantações individuais do Spot como parte do seu sistema de orquestração. Para mais informações, consulte:
- Taxas de despejo
- do Azure Resource Graph
- Spot Placement Score (Pré-visualização)
Use a política de despejo mais flexível
A política de despejo da VM local despejada afeta o processo de substituição. Uma política de despejo de exclusão é mais flexível do que uma política de despejo interrompido/desalocado.
Considere a política de exclusão primeiro: Recomendamos o uso de uma política de remoção de exclusão se sua carga de trabalho puder lidar com isso. A exclusão permite que a orquestração implante VMs spot de substituição em novas zonas e regiões. Essa flexibilidade de implantação pode ajudar sua carga de trabalho a encontrar capacidade de computação ociosa mais rápido do que uma VM parada/desalocada. As VMs paradas/desalocadas precisam aguardar a capacidade de computação sobressalente na mesma zona em que foram criadas. Para a política de exclusão, você precisa de um processo para monitorar remoções externas ao aplicativo e orquestra implantações em diferentes regiões e/ou com diferentes SKUs de VM.
Compreender a política interrompida/desalocada: A política interrompida/desalocada tem menos flexibilidade do que a política de exclusão. As VMs spot devem permanecer na mesma região e zona. Não é possível mover uma VM parada/desalocada para outro local. Como as VMs têm um local fixo, você precisa de algo no local para realocar a VM quando a capacidade de computação estiver disponível. Não há como prever a disponibilidade da capacidade de computação. Portanto, você deve usar um pipeline de agendamento automatizado para tentar uma reimplantação após uma remoção. Uma remoção deve acionar o pipeline de agendamento, e as tentativas de reimplantação devem verificar continuamente a capacidade de computação até que ela fique disponível.
Política | Quando | |
---|---|---|
Suprimir | Computação e dados efêmeros Não quer pagar por discos de dados Orçamento mínimo |
|
Parado/Desalocado | Precisa de um tamanho de VM específico Não é possível alterar a localização Longo processo de instalação de aplicativos |
Tempo de espera indefinido Não impulsionado apenas pela redução de custos |
Monitore continuamente o despejo
O monitoramento é a chave para a confiabilidade da carga de trabalho em VMs locais. As VMs spot não têm SLA após a criação e podem ser removidas a qualquer momento. A melhor maneira de melhorar a confiabilidade da carga de trabalho em VMs locais é antecipar quando elas serão removidas. Com essas informações, você pode tentar um desligamento normal da carga de trabalho e acionar a automação que orquestra a substituição.
Usar eventos agendados: Use o serviço Eventos agendados para cada VM. O Azure envia sinais para VMs quando a manutenção da infraestrutura vai afetá-las. Os despejos qualificam-se como manutenção de infraestruturas. O Azure envia o sinal de Preempt
para todas as VMs no mínimo 30 segundos antes de serem removidas. Um serviço chamado Schedule Events permite capturar esse sinal de Preempt
consultando um ponto de extremidade em um endereço IP estático e não roteável 169.254.169.254
.
Use consultas frequentes: Consulte o ponto de extremidade Agendar eventos com frequência suficiente para orquestrar um desligamento normal. Você pode consultar o ponto de extremidade de Eventos Agendados a cada segundo, mas a frequência de um segundo pode não ser necessária para todos os casos de uso. Essas consultas devem vir de um aplicativo em execução na VM local. A consulta não pode vir de uma fonte externa. Como resultado, as consultas consomem capacidade de computação da VM e roubam poder de processamento da carga de trabalho principal. Você precisa equilibrar essas prioridades concorrentes para atender à sua situação específica.
Automatize a orquestração: Depois de coletar o sinal Preempt
, sua orquestração deve agir sobre esse sinal. Dadas as restrições de tempo, o sinal de Preempt
deve tentar um desligamento normal da sua carga de trabalho e iniciar um processo automatizado que substitua a VM local. Para mais informações, consulte:
- Eventos agendados
- Tipos de Evento Agendado
- de frequência de consulta de pontos finais
Criar um sistema de implantação
Sua orquestração precisa de um pipeline automatizado para implantar novas VMs spot quando removidas. O pipeline deve ser executado fora da própria carga de trabalho interruptível para garantir a permanência. A maneira como o pipeline de implantação deve funcionar depende da política de remoção selecionada para suas VMs spot.
Para uma política de exclusão, recomendamos a criação de um pipeline que use tamanhos de VM diferentes e implante em regiões diferentes. Para uma política de parada/desalocação, o pipeline de implantação precisa de duas ações distintas. Para a criação inicial de uma VM, o pipeline precisa implantar as VMs de tamanho certo no local certo. Para uma VM removida, o pipeline precisa tentar reiniciar a VM até que ela funcione. Uma combinação de alertas do Azure Monitor e do Azure Functions é uma das várias maneiras de automatizar um sistema de implantação. O pipeline poderia usar modelos de bíceps. Eles são declarativos e idempotentes e representam uma prática recomendada para a implantação de infraestrutura.
Prepare-se para o despejo imediato
É possível para o Azure remover uma VM local assim que você criá-la e antes que sua carga de trabalho seja executada. Só porque havia capacidade para criar uma VM spot, não significa que ela persista. As VMs spot não têm garantias de disponibilidade (SLAs) após a criação. Sua orquestração precisa dar conta de despejos imediatos. O sinal de Preempt
fornece um aviso mínimo de 30 segundos de antecedência do despejo.
Incorpore verificações de integridade de VM em sua orquestração para se preparar para despejos imediatos. A orquestração para despejos imediatos não pode depender do sinal de Preempt
Schedule Events. Somente a própria VM pode consultar o sinal de Preempt
, e não há tempo suficiente para iniciar um aplicativo, consultar o ponto de extremidade Schedule Events e desligar normalmente. Portanto, a verificação de integridade precisa residir fora do ambiente de carga de trabalho. As verificações de integridade precisam observar o status da VM spot e iniciar o pipeline de implantação para substituir a VM spot quando o status mudar para deslocalização ou parada.
Planeje vários despejos simultâneos
Se você estiver executando um cluster de VMs spot, deverá arquitetar a carga de trabalho para suportar várias remoções simultâneas. Várias VMs spot na carga de trabalho podem ser removidas ao mesmo tempo. Uma remoção simultânea de várias VMs pode afetar a taxa de transferência do aplicativo. Para evitar essa situação, seu pipeline de implantação deve ser capaz de coletar sinais de várias VMs e implantar várias VMs de substituição simultaneamente.
Design para um desligamento gracioso
Os processos de desligamento da VM devem ter menos de 30 segundos e permitir que a VM seja desligada antes de uma remoção. A quantidade de tempo que o desligamento deve levar depende da frequência com que sua carga de trabalho consulta o ponto de extremidade de Eventos Agendados. Quanto mais vezes você consultar o ponto de extremidade, mais longo poderá ser o processo de desligamento. O processo de desligamento deve liberar recursos, drenar conexões e liberar logs de eventos. Você deve criar e salvar pontos de verificação regularmente para salvar o contexto e criar uma estratégia de recuperação mais eficiente. O ponto de verificação é apenas informações sobre quais processos ou transações a próxima VM precisa iniciar. Eles devem indicar se a VM deve retomar onde a VM anterior parou ou se a nova VM deve reverter as alterações e iniciar todo o processo novamente. Você deve armazenar os pontos de verificação fora do ambiente de VM local. Uma conta de armazenamento funcionaria.
Teste a orquestração
Recomendamos simular eventos de remoção para testar a orquestração em ambientes de desenvolvimento/teste. Para obter mais informações, consulte simular despejo.
Projetar uma carga de trabalho idempotente
Recomendamos projetar uma carga de trabalho idempotente. O resultado do processamento de um evento mais de uma vez deve ser o mesmo que processá-lo uma vez. Os despejos podem levar a desligamentos forçados, apesar dos esforços para garantir desligamentos graciosos. Desligamentos forçados podem encerrar processos antes da conclusão. Cargas de trabalho idempotentes podem receber a mesma mensagem mais de uma vez e o resultado permanece o mesmo. Para obter mais informações, consulte idempotência.
Use um período de aquecimento do aplicativo
A maioria das cargas de trabalho interruptíveis executa aplicativos. Os aplicativos precisam de tempo para instalar e tempo para inicializar. Eles precisam de tempo para se conectar ao armazenamento externo e coletar informações de pontos de verificação. Recomendamos ter um período de aquecimento do aplicativo antes de permitir que ele comece a ser processado. Durante o período de aquecimento, o aplicativo deve estar inicializando, conectando-se e preparando-se para contribuir. Você só deve permitir que um aplicativo comece a processar dados depois de validar a integridade do aplicativo.
Configurar identidades gerenciadas atribuídas pelo usuário
Recomendamos o uso de identidades gerenciadas atribuídas pelo usuário para simplificar o processo de autenticação e autorização. As identidades gerenciadas atribuídas pelo usuário permitem evitar colocar credenciais no código e não estão vinculadas a um único recurso, como identidades gerenciadas atribuídas pelo sistema. As identidades gerenciadas atribuídas pelo usuário contêm permissões e tokens de acesso do Microsoft Entra ID que podem ser reutilizados e atribuídos a VMs spot durante a orquestração. A consistência de token entre VMs spot ajuda a simplificar a orquestração e o acesso aos recursos de carga de trabalho que as VMs spot têm.
Com identidades gerenciadas atribuídas pelo sistema, uma nova VM spot pode obter um token de acesso diferente do ID do Microsoft Entra. Se você precisar usar identidades gerenciadas atribuídas ao sistema, recomendamos tornar as cargas de trabalho resilientes a respostas 403 Forbidden Error
. Sua orquestração precisa obter tokens do Microsoft Entra ID com as permissões certas. Para obter mais informações, consulte identidades gerenciadas.
Cenário de exemplo
O cenário de exemplo implanta um aplicativo de processamento de fila que se qualifica como uma carga de trabalho interinterrupta. Os scripts no cenário são ilustrativos. O cenário orienta você por um push manual único para implantar recursos. Não há um pipeline de implantação com essa implementação. Mas um pipeline de implantação é essencial para automatizar o processo de orquestração. O diagrama ilustra a arquitetura do cenário de exemplo.
As notas a seguir explicam os principais aspetos da arquitetura:
- definição de aplicativo VM: A definição de aplicativo VM é criada na Galeria de Computação do Azure. Ele define o nome do aplicativo, o local, o sistema operacional e os metadados. A versão do aplicativo é uma versão numerada da definição do aplicativo VM. A versão do aplicativo é uma instanciação do aplicativo VM. Ele precisa estar na mesma região que a VM local. A versão do aplicativo vincula-se ao pacote do aplicativo de origem na conta de armazenamento.
-
Conta de armazenamento: A conta de armazenamento armazena o pacote do aplicativo de origem. Nessa arquitetura, é um arquivo tar compactado chamado
worker-0.1.0.tar.gz
. Ele contém dois arquivos. Um arquivo é o script bashorchestrate.sh
que instala o aplicativo de trabalho .NET. -
VM spot: A VM spot é implantada. Ele deve estar na mesma região que a versão do aplicativo. Ele baixa
worker-0.1.0.tar.gz
para a VM após a implantação. O modelo bicep implanta uma imagem do Ubuntu em uma VM da família Standard. Essas configurações atendem às necessidades deste aplicativo e não são recomendações gerais para seus aplicativos. - fila de armazenamento: O outro serviço em execução no trabalhador .NET contém lógica de fila de mensagens. O Microsoft Entra ID concede à VM local acesso à fila de armazenamento com uma identidade atribuída ao usuário usando RBAC.
-
aplicativo de trabalho .Net: O script orchestrate.sh instala um aplicativo de trabalho .NET que executa dois serviços em segundo plano. O primeiro serviço consulta o ponto de extremidade Schedule Events e procura o sinal de
Preempt
e envia esse sinal para o segundo serviço. O segundo serviço processa mensagens da fila de armazenamento e escuta o sinal dePreempt
do primeiro serviço. Quando o segundo serviço recebe o sinal, ele interrompe o processamento da fila de armazenamento e começa a ser desligado. - ponto de extremidade de Eventos Agendados de Consulta: Uma solicitação de API é enviada para um endereço IP estático não roteável 169.254.169.254. A solicitação de API consulta o ponto de extremidade de evento agendado para sinais de manutenção de infraestrutura.
- Application Insights: A arquitetura usa o Application Insights apenas para fins de aprendizagem. Não é um componente essencial da orquestração de carga de trabalho interruptível. É como uma maneira de validar a telemetria do aplicativo de trabalho .NET. O aplicativo de trabalho .NET envia telemetria para o Application Insights. Para obter mais informações, consulte habilitar métricas ao vivo do aplicativo .NET.
Implantar este cenário
Há um repositório GitHub chamado carga de trabalho interruptível no local com modelos, scripts e instruções passo a passo para implantar essa arquitetura.
Próximo passo
Para obter mais informações sobre Máquinas Virtuais Spot, consulte Máquinas Virtuais Spot do Azure.