Creazione di un cluster HPC Pack a disponibilità elevata in Azure
In questo articolo verranno forniti i passaggi e la considerazione per creare un cluster HPC Pack a disponibilità elevata in Azure.
Considerazioni sulla disponibilità elevata del cluster
Un tipico cluster HPC Pack è costituito da un SQL Server con i database che archivia processi HPC; Un nodo head server che esegue servizi critici, ad esempio il servizio SDM del servizio utilità di pianificazione; Set di nodi di calcolo che si connettono ai servizi nel nodo head eseguono i carichi di lavoro HPC dell'utente. Inoltre, è necessario anche un controller di dominio che gestisce l'autenticazione per i client. Tutti questi componenti sono connessi tra loro tramite rete.
In un ambiente cloud di Azure uno dei componenti precedenti potrebbe non riuscire, ad esempio il nodo head riavviato per windows update, alcuni nodi di calcolo potrebbero essere riavviati perché si usa una macchina virtuale con priorità bassa. In questo modo è possibile configurare un cluster HPC Pack a disponibilità elevata che soddisfa:
Qualsiasi componente menzionato in precedenza non è riuscito, il carico di lavoro dell'utente può comunque essere in esecuzione senza essere annullato o non riuscito
Le attività in esecuzione in nodi di calcolo non riusciti devono essere pianificate nuovamente in altri nodi di calcolo
Il cluster sarà comunque in grado di gestire le funzionalità, tra cui la gestione dei cluster, la gestione dei processi
Si esaminerà quindi ogni situazione di errore del componente e la relativa soluzione a disponibilità elevata.
Gestione dell'errore del database
È possibile scegliere di ottenere un database SQL a disponibilità elevata nel cloud:
Uso di database SQL di Azure
Usando il modello di Resource Manager per distribuire un cluster SQL AlwaysOn, è possibile fare riferimento a questo blog
Gestione dell'errore del nodo head
Configurare almeno 3 nodi head cluster. Con questa configurazione, qualsiasi errore del nodo head comporterà lo spostamento del servizio HPC attivo da questo nodo head ad altri.
Gestione dell'errore di Active Directory
Quando HPC non è riuscito a connettersi al controller di dominio, l'amministratore e l'utente non saranno in grado di connettersi al servizio HPC in modo da non poter gestire e inviare processi al cluster. E i nuovi processi non potranno essere avviati nei nodi computer aggiunti al dominio perché il servizio NodeManager
Avere distribuito un controller di dominio a disponibilità elevata con il cluster HPC Pack in Azure
Uso del servizio di dominio Azure AD. Durante la distribuzione del cluster, è sufficiente aggiungere tutti i nodi del cluster a questo dominio e ottenere il servizio di dominio a disponibilità elevata da Azure.
Usando soluzione di integrazione di Azure AD di HPC Pack senza aggiungere i nodi del cluster a un dominio. Pertanto, purché il servizio HPC disponga della connettività al servizio Azure AD.
Gestione dell'errore di rete
La rete stessa nel data center di Azure è a disponibilità elevata, pertanto non è necessario disporre della rete di backup.
Creazione di un cluster HPC Pack a disponibilità elevata
È disponibile un modello di Resource Manager qui, selezionare che è in grado di distribuire un cluster HPC a disponibilità elevata con opzioni di:
Creare un database SQL di Azure
Connettersi al dominio Active Directory esistente
Creare un cluster HPC Pack a 3 nodi head
modello di : cluster a disponibilità elevata con database SQL di Azure per carichi di lavoro Windows con di dominio Active Directory esistente
Questo modello distribuisce un cluster HPC Pack con disponibilità elevata per i carichi di lavoro HPC di Windows in una foresta di dominio Active Directory esistente. Il cluster include tre nodi head, database sql di Azure e un numero configurabile di nodi di calcolo Windows.
Condivisioni cluster HPC Pack
Attualmente in tutti i modelli arm di HPC Pack viene creata la condivisione cluster in uno dei nodi head che non è a disponibilità elevata, come se il nodo head fosse inattivo, la condivisione non sarà accessibile al servizio HPC in esecuzione in un altro nodo head. Fondamentalmente, non avrà alcun impatto sull'esecuzione dei processi e sulla gestione dei nodi.
Con File di Azure, queste condivisioni file possono essere spostate in condivisioni file di Azure con autorizzazioni SMB per renderle a disponibilità elevata. Fare riferimento a questo documento.
Nome condivisione | Utilizzo | Percorso predefinito | Impatto in caso di inattivo | Modo per rendere disponibile l'elevata |
---|---|---|---|---|
Condivisione di installazione remota | Dopo l'installazione del cluster, i file binari di installazione di HPC Pack vengono inseriti in questa cartella di condivisione in modo che i computer client e i computer di calcolo possano eseguire la directory di installazione da questa condivisione. | \\<HN3>\REMINST |
Quando questa condivisione è inattiva o non è accessibile, non ha alcun impatto sulle funzionalità esistenti del cluster HPC. | L'amministratore del cluster può anche creare le stesse condivisioni negli altri due nodi head e copiare i file binari configurati in tale posizione, in modo che qualsiasi nodo head sia ancora disponibile. |
Condivisione di registrazione SOA HPC | Questa condivisione archivia il file di registrazione del servizio SOA | \\<HN3>\HpcServiceRegistration |
Il processo del servizio SOA che si basa sui file di registrazione in questa condivisione non riuscirà a essere eseguito | Quando si registra un nuovo file di configurazione del servizio SOA, non inserire il file di registrazione nella condivisione, ma usando Importa file di configurazione a disponibilità elevata... da Gestione cluster per importare il file di registrazione del servizio SOA nell'archivio affidabile del cluster HPC in modo che il file di registrazione sia disponibile anche quando la condivisione è inattiva |
Condivisione di runtime SOA HPC | Questa condivisione archivia i dati comuni del processo SOA | \\<HN3>\Runtime$ |
Il processo SOA con dati comuni avrà esito negativo | Il client SOA deve inserire i dati comuni nell'archiviazione di Azure in modo che i dati comuni siano ancora disponibili anche la condivisione di runtime sia inattiva |
HPC SOA TraceRepository | Repository delle tracce di diagnostica Soa. | \\<HN3>\TraceRepository |
Se la traccia diagnostica SOA è attivata, la traccia non riuscirà a raccogliere. | Usare la condivisione file di Azure. |
Condivisione di diagnostica HPC | Questa condivisione archivia i risultati del test di diagnostica | \\<HN3>\Diagnostics |
Quando questa condivisione è inattiva, il processo di diagnostica HPC avrà esito negativo perché non ha luogo per scrivere il risultato del test. | L'amministratore del cluster può passare a una nuova condivisione diag quando vuole eseguire test diag. Per passare a una nuova condivisione diag, eseguire HPC PowerShell cmd set-HpcClusterRegistry -PropertyName DiagnosticsShare -PropertyValue "\\<HN2>\diagnostics" |
CcpSpoolDir | Condivisione di spooling di output per i nodi di calcolo. | \\<HN3>\CcpSpoolDir |
Se usato per l'output dell'attività, l'attività non scriverà i dati di output. | Usare la condivisione file di Azure. |