O que é o Workspace do Azure CycleCloud para Slurm?
O Slurm é um dos gerenciadores de cargas de trabalho de software livre mais populares e amplamente usados para IA/HPC e computação em nuvem. O Slurm permite que os usuários executem aplicativos paralelos e distribuídos em larga escala em um conjunto de nós de computação e fornece recursos como agendamento de trabalho, gerenciamento de recursos, tolerância a falhas e gerenciamento de energia. O slurm é usado por muitos dos principais supercomputadores, institutos de pesquisa, universidades e empresas do mundo.
No entanto, configurar e gerenciar clusters slurm na nuvem pode ser desafiador e demorado, especialmente para usuários que não estão familiarizados com o ambiente de nuvem ou com a configuração do Slurm. Os usuários devem lidar com tarefas como provisionamento e dimensionamento de nós de computação, instalação e atualização de software Slurm, configuração de rede e armazenamento, monitoramento da integridade e desempenho do cluster e solução de problemas. Essas tarefas podem distrair os usuários de seus principais objetivos de pesquisa ou negócios e reduzir a produtividade e a eficiência de suas cargas de trabalho de IA/HPC.
O Workspace do Azure CycleCloud para Slurm é um modelo de solução do Azure Marketplace que permite que os usuários criem, configurem e implantem facilmente clusters slurm predefinidos com o CycleCloud no Azure, sem exigir nenhum conhecimento prévio do Azure ou do Slurm. Os clusters slurm serão pré-configurados com PMix v4, Pyxis e enroot para dar suporte a trabalhos de AI/HPC Slurm em contêineres. Os usuários podem acessar o nó de logon provisionado usando o SSH ou o Visual Studio Code para executar tarefas comuns, como enviar e gerenciar trabalhos do Slurm.
Embora o Azure CycleCloud já permita que você faça algumas delas, ela não implanta a infraestrutura de IA/HPC para você. Os usuários devem lidar com tarefas como instalar e configurar o CycleCloud, configurar a rede e o armazenamento e criar e configurar o cluster Slurm. O Workspace do Azure CycleCloud para Slurm executa essas tarefas para você em um Modelo de Solução do Marketplace que pode ser implantado diretamente no Portal do Azure ou por meio da CLI do Azure. Você estará pronto em minutos e não em dias ou semanas.
Quais são os benefícios do Workspace do Azure CycleCloud para Slurm?
O Azure CycleCloud é uma ótima solução quando você deseja criar um ambiente de IA/HPC no Azure, seja para levantar e deslocar parte da carga de trabalho de IA/HPC local ou para criar um novo. No entanto, criar um ambiente completo de IA/HPC de ponta a ponta não é uma tarefa fácil e você precisará decidir como você precisaria projetar sua rede, qual componente de armazenamento usar como um sistema de arquivos compartilhado, qual tipo de VM para executar sua carga de trabalho e muitas pequenas coisas que podem tornar seu projeto complexo de entrega.
O Workspace do Azure CycleCloud para Slurm oferece vários benefícios para usuários que desejam executar cargas de trabalho do Slurm no Azure, como:
criação de cluster fácil e rápida: os usuários podem criar clusters slurm no Azure em minutos seguindo algumas etapas simples na GUI. Isso deve ser comparado a dias ou semanas de trabalho no passado sem o Workspace do Azure CycleCloud para Slurm. Os usuários podem escolher entre uma variedade de tamanhos e tipos de VM (máquina virtual) do Azure e personalizar as configurações de cluster, como o número de nós, a configuração de rede, as opções de armazenamento do Azure NetApp Files para o Azure Managed Lustre Filesystem e os parâmetros Slurm.
de gerenciamento de cluster flexível e dinâmico: os clusters slurm serão escalados verticalmente ou reduzidos pelo Azure CycleCloud. Os usuários também podem monitorar o status, o desempenho e a utilização do cluster, bem como exibir os logs de cluster e as métricas na GUI. Os usuários também podem excluir seus clusters slurm quando não forem mais necessários e pagar apenas pelos recursos que usam.
Como criar um workspace do Azure CycleCloud para Slurm?
O Workspace do Azure CycleCloud para Slurm pode ser implantado no Azure Marketplace ou usando a CLI do Azure. Para implantar no Marketplace, primeiro pesquise por Slurm e clique no botão Criar. Para implantar usando a CLI do Azure, você precisará criar um arquivo de parâmetro de entrada primeiro e, em seguida, implantar usando o comando az deployment sub create
. Instruções detalhadas podem ser encontradas aqui Como implantar um ambiente de workspace do CycleCloud Slurm usando a CLI
O que o Workspace do Azure CycleCloud para Slurm não é?
O Workspace do Azure CycleCloud para Slurm não é um serviço de PaaS: toda a infraestrutura será implantada em seu locatário, permitindo que você implante tudo (implantação greenfield) ou especifique os recursos existentes a serem reutilizados (implantação brownfield), como o Grupo de Recursos de destino, a Rede Virtual, o Azure NetApp Files e muito mais.
Como é um workspace do Azure CycleCloud para ambiente implantado por slurm
de arquitetura de visão geral
Aqui está a arquitetura típica do que será implantado pelo Workspace do Azure CycleCloud para Slurm. Haverá recursos obrigatórios, como uma Máquina Virtual para executar o CycleCloud, um sistema de arquivos compartilhado para diretórios domésticos dos usuários, uma conta de armazenamento para armazenamento de projetos do CycleCloud.
A Rede Virtual pode ser implantada pelo Workspace do Azure CycleCloud para Slurm ou uma existente na qual os recursos serão criados. Opcionalmente, um sistema de arquivos lustre gerenciado do Azure será criado em sua própria sub-rede.
Se as regras de segurança da sua empresa não permitirem IP público (e muitos permitem), você poderá criar um emparelhamento de vnet para uma Rede Virtual existente em um padrão de hub e spoke usuais. Em seguida, o hub conterá todos os serviços de conectividade, como um Gateway de Rede Virtual ou um Azure Bastion.
Por fim, em um IP sem público, sem ambiente VPN, um Bastion será necessário e fornecerá toda a conectividade protegida para se conectar ao portal da Web do CycleCloud e ao SSH nos nós de logon.