Freigeben über


Was ist Azure CycleCloud Workspace für Slurm?

Slurm ist einer der beliebtesten und am häufigsten verwendeten Open-Source-Workload-Manager für KI/HPC und Cloud Computing. Slurm ermöglicht Es Benutzern, parallele und verteilte Anwendungen über eine Reihe von Computeknoten hinweg auszuführen und Features wie Auftragsplanung, Ressourcenverwaltung, Fehlertoleranz und Energieverwaltung bereitzustellen. Slurm wird von vielen der weltweit führenden Supercomputer, Forschungsinstitute, Universitäten und Unternehmen verwendet.

Das Einrichten und Verwalten von Slurm-Clustern in der Cloud kann jedoch schwierig und zeitaufwändig sein, insbesondere für Benutzer, die nicht mit der Cloudumgebung oder der Slurm-Konfiguration vertraut sind. Benutzer müssen sich mit Aufgaben wie Bereitstellung und Skalierung von Computeknoten befassen, Slurm-Software installieren und aktualisieren, Netzwerk und Speicher konfigurieren, Clusterintegrität und Leistung überwachen und Probleme beheben. Diese Aufgaben können Benutzer von ihren Kernforschungs- oder Geschäftszielen ablenken und die Produktivität und Effizienz ihrer KI/HPC-Workloads reduzieren.

Azure CycleCloud Workspace für Slurm ist eine Azure Marketplace-Lösungsvorlage, mit der Benutzer problemlos vordefinierte Slurm-Cluster mit CycleCloud auf Azure erstellen, konfigurieren und bereitstellen können, ohne dass zuvor Kenntnisse von Azure oder Slurm erforderlich sind. Slurm-Cluster werden mit PMix v4, Pyxis und enroot konfiguriert, um containerisierte KI/HPC Slurm-Aufträge zu unterstützen. Benutzer können mithilfe von SSH oder Visual Studio Code auf den bereitgestellten Anmeldeknoten zugreifen, um allgemeine Aufgaben wie das Übermitteln und Verwalten von Slurm-Aufträgen auszuführen.

Azure CycleCloud ermöglicht Ihnen zwar bereits einige dieser Aktionen, stellt aber nicht die KI/HPC-Infrastruktur für Sie bereit. Benutzer müssen sich mit Aufgaben befassen, z. B. das Installieren und Konfigurieren von CycleCloud, das Konfigurieren von Netzwerk und Speicher sowie das Erstellen und Konfigurieren des Slurm-Clusters. Azure CycleCloud Workspace für Slurm führt diese Aufgaben für Sie in einer Marketplace-Lösungsvorlage aus, die direkt über das Azure-Portal oder über die Azure CLI bereitgestellt werden kann. Sie werden in Minuten und nicht in Tagen oder Wochen bereit sein.

Welche Vorteile bietet Azure CycleCloud Workspace für Slurm?

Azure CycleCloud ist eine großartige Lösung, wenn Sie eine KI/HPC-Umgebung in Azure erstellen möchten, entweder um einige Ihrer lokalen AI/HPC-Workload zu heben und zu verschieben oder eine neue zu erstellen. Das Erstellen einer vollständigen END-to-End-KI/HPC-Umgebung ist jedoch keine einfache Aufgabe, und Sie müssen entscheiden, wie Sie Ihr Netzwerk entwerfen müssen, welche Speicherkomponente als freigegebenes Dateisystem verwendet werden soll, welcher VM-Typ für die Ausführung Ihrer Workload verwendet werden soll, und viele kleine Dinge, mit denen Ihr Projekt komplex zu liefern ist.

Azure CycleCloud Workspace für Slurm bietet mehrere Vorteile für Benutzer, die Slurm-Workloads in Azure ausführen möchten, z. B.:

  • einfache und schnelle Clustererstellung: Benutzer können Slurm-Cluster in Azure in Wenigen Minuten erstellen, indem Sie einige einfache Schritte in der GUI ausführen. Dies muss mit Tagen oder Wochen der Arbeit in der Vergangenheit ohne Azure CycleCloud Workspace für Slurm verglichen werden. Benutzer können aus einer Vielzahl von Größen und Typen von virtuellen Azure-Computern (VM) wählen und die Clustereinstellungen anpassen, z. B. die Anzahl der Knoten, die Netzwerkkonfiguration, die Speicheroptionen von Azure NetApp Files bis zum Azure Managed Lustre Filesystem und die Slurm-Parameter.

  • Flexible und dynamische Clusterverwaltung: Slurm-Cluster werden von Azure CycleCloud nach oben oder unten skaliert. Benutzer können auch den Clusterstatus, die Leistung und die Nutzung überwachen sowie die Clusterprotokolle und Metriken in der GUI anzeigen. Benutzer können ihre Slurm-Cluster auch löschen, wenn sie nicht mehr benötigt werden und nur für die ressourcen bezahlen, die sie verwenden.

Wie erstelle ich einen Azure CycleCloud-Arbeitsbereich für Slurm?

Azure CycleCloud Workspace für Slurm kann entweder über den Azure Marketplace oder über die Azure CLI bereitgestellt werden. Um sie über den Marketplace bereitzustellen, suchen Sie zuerst nach Slurm, und klicken Sie dann auf die Schaltfläche "Erstellen". Um die Bereitstellung mithilfe der Azure CLI durchzuführen, müssen Sie zuerst eine Eingabeparameterdatei erstellen und dann mithilfe des Befehls az deployment sub create bereitstellen. Detaillierte Anweisungen finden Sie hier Bereitstellen einer CycleCloud Slurm Workspace-Umgebung mithilfe der CLI-

Was Azure CycleCloud Workspace für Slurm ist nicht?

Azure CycleCloud Workspace für Slurm ist kein PaaS-Dienst: Die gesamte Infrastruktur wird in Ihrem Mandanten bereitgestellt, wodurch Sie alles (Greenfield-Bereitstellung) bereitstellen oder vorhandene Ressourcen angeben können, die wiederverwendet werden sollen (Brownfield-Bereitstellung), z. B. die Zielressourcengruppe, virtuelles Netzwerk, Azure NetApp-Dateien und vieles mehr.

Wie ein Azure CycleCloud-Arbeitsbereich für slurm-bereitgestellte Umgebung aussieht

Übersichtsarchitektur

Dies ist die typische Architektur, die von Azure CycleCloud Workspace für Slurm bereitgestellt wird. Es gibt obligatorische Ressourcen wie einen virtuellen Computer für die Ausführung von CycleCloud, ein freigegebenes Dateisystem für die Heimverzeichnisse von Benutzern, ein Speicherkonto für CycleCloud-Projekte Speicher.

Das virtuelle Netzwerk kann entweder von Azure CycleCloud Workspace für Slurm oder einer vorhandenen bereitgestellt werden, in der Ressourcen erstellt werden. Optional wird ein azure Managed Lustre Filesystem in einem eigenen Subnetz erstellt.

Wenn Ihre Unternehmenssicherheitsregeln keine öffentliche IP zulassen (und viele tun), können Sie ein vnet-Peering zu einem vorhandenen virtuellen Netzwerk in einem üblichen Hub- und Speichenmuster erstellen. Der Hub enthält dann alle Konnektivitätsdienste, z. B. ein Virtuelles Netzwerkgateway oder eine Azure Bastion.

Schließlich ist in einer no-public IP keine VPN-Umgebung erforderlich und eine Bastion wird alle gesicherten Konnektivität zum Herstellen einer Verbindung mit dem CycleCloud-Webportal und SSH in den Anmeldeknoten bereitgestellt.

Nächste Schritte