Risolvere i problemi dei cluster Big Data tramite Jupyter Notebook e Azure Data Studio

Articolo
03/18/2023

Questa pagina è un indice dei notebook per i cluster Big Data di SQL Server. I notebook eseguibili (con estensione ipynb) sono progettati per facilitare la risoluzione dei problemi dei cluster Big Data in SQL Server 2019.

Importante

Il componente aggiuntivo per i cluster Big Data di Microsoft SQL Server 2019 verrà ritirato. Il supporto per i cluster Big Data di SQL Server 2019 terminerà il 28 febbraio 2025. Tutti gli utenti esistenti di SQL Server 2019 con Software Assurance saranno completamente supportati nella piattaforma e fino a quel momento il software continuerà a ricevere aggiornamenti cumulativi di SQL Server. Per altre informazioni, vedere il post di blog relativo all'annuncio e Opzioni per i Big Data nella piattaforma Microsoft SQL Server.

Ogni notebook è progettato per cercare le proprie dipendenze. L'opzione per l'esecuzione di tutte le celle viene completata correttamente oppure genera un'eccezione con un hint di collegamento ipertestuale a un altro notebook per risolvere la dipendenza mancante. Seguire il collegamento ipertestuale al notebook di destinazione contenuto nell'hint e fare clic sull'opzione per l'esecuzione di tutte le celle. Al termine dell'operazione, tornare al notebook originale, quindi fare clic sull'opzione per l'esecuzione di tutte le celle.

Se vengono installate tutte le dipendenze, ma il comando Run all cells (Esegui tutte le celle) non viene eseguito, ogni notebook analizzerà i risultati e, dove possibile, produrrà un hint con collegamento ipertestuale a un altro notebook per facilitare la risoluzione del problema.

Per altre informazioni su come usare i notebook per gestire i cluster Big Data di SQL Server, vedere Gestire cluster Big Data di SQL Server con notebook di Azure Data Studio.
Per la posizione dei notebook di amministrazione del cluster Big Data, vedere Dove trovare i notebook di amministrazione dei cluster Big Data di SQL Server.

Risoluzione dei problemi dei cluster Big Data

Questa sezione contiene un set di notebook che consente di ottenere i log da un cluster Big Data di SQL Server.

Nome	Descrizione
TSG100 - Strumento di risoluzione dei problemi dei cluster Big Data	Panoramica di tutti i notebook disponibili per la risoluzione dei problemi dei cluster Big Data e informazioni su quando usarli
TSG101 - Strumento di risoluzione dei problemi di SQL Server	Panoramica di tutti i notebook disponibili per la risoluzione dei problemi di SQL Server e informazioni su quando usarli
TSG102 - Strumento di risoluzione dei problemi relativi a HDFS	Panoramica di tutti i notebook disponibili per la risoluzione dei problemi di HDFS e informazioni su quando usarli
TSG103 - Strumento di risoluzione dei problemi relativi a Spark	Panoramica di tutti i notebook disponibili per la risoluzione dei problemi di Spark e informazioni su quando usarli
TSG104 - Strumento di risoluzione dei problemi di controllo	Panoramica di tutti i notebook disponibili per la risoluzione dei problemi del controller e informazioni su quando usarli
TSG105 - Strumento di risoluzione dei problemi relativi al gateway	Panoramica di tutti i notebook disponibili per la risoluzione dei problemi del gateway Knox e informazioni su quando usarli
TSG106 - Strumento di risoluzione dei problemi relativi alle app	Panoramica di tutti i notebook disponibili per la risoluzione dei problemi di distribuzione delle app e informazioni su quando usarli

Diagnosticare i problemi dei cluster Big Data

Set di notebook per la diagnostica di situazioni e stati con un cluster Big Data.

Nome	Descrizione
TSG002 - CrashLoopBackoff	Questo TSG si connette a ogni contenitore il cui ultimo tentativo di entrare in uno stato di esecuzione non è riuscito e ottiene i log dei contenitori correnti e precedenti. Questa operazione è utile per il debug dei problemi CrashLoopBackOff segnalati nei pod di kubectl get.
TSG025 - Browser FSM - Query stato FSM controller	Usare questo notebook per connettersi al database del controller e visualizzare lo stato della macchina a stati finiti (FSM, Finite State Machine). Usare questo notebook per elencare le macchine a stati attive e identificare i flussi di lavoro bloccati.
TSG026 - Connettersi al nodo del pool di dati (per eseguire T-SQL)	Usare questo notebook per connettersi al nodo del pool di dati (per eseguire T-SQL)
TSG027 - Osservare la distribuzione del cluster	Usare questo notebook per esaminare la distribuzione del cluster. Il notebook offre indicazioni per risolvere i problemi di creazione dei cluster Big Data di SQL Server. I comandi seguenti risultano spesso utili per individuare le cause sottostanti.
TSG029 - Trovare dump nel cluster	Usare questo notebook per cercare core dump e minidump da processi come SQL Server o controller in un cluster Big Data.
TSG032 - Utilizzo di CPU e memoria per tutti i contenitori	Usare questo notebook per controllare l'utilizzo di CPU e memoria per tutti i contenitori.
TSG037 - Determinare il pod del pool master che ospita la replica primaria	Usare questo notebook per determinare il pod del pool master che ospita la replica primaria per il cluster Big Data quando è abilitata la disponibilità elevata del pool master.
TSG044 - Eseguire sqlcmd nel contenitore del pool master	Usare questo notebook per connettersi direttamente a un nodo del pool master tramite T-SQL.
TSG055 - Tempo Curl in Sparkhead	Usare questo notebook per diagnosticare il passaggio per individuare il tempo di risposta Curl dal pod Controller al pod Sparkhead.
TSG060 - Spazio su disco del volume permanente per tutti i PVC del cluster Big Data	Usare questo notebook per connettersi a ogni singolo contenitore e ottenere lo spazio su disco usato/disponibile per ogni volume permanente (PV) mappato a ciascuna attestazione di volume permanente (PVC) di un cluster Big Data.
TSG078 - Cluster integro	Usare questo notebook per verificare l'integrità del cluster Big Data.
TSG079 - Generare core dump di controller	Usare questo notebook per generare core dump del controller.
TSG086 - Eseguire top in tutti i contenitori	Usare questo notebook per eseguire top in tutti i contenitori.
TSG087 - Usare l'interfaccia della riga di comando hadoop fs sul pod namenode	Usare questo notebook per usare l'interfaccia della riga di comando hadoop fs sul pod namenode.
TSG108 - Visualizzare il mapping di configurazione di aggiornamento del controller	Usare questo notebook per risolvere l'errore che si è verificato durante l'esecuzione dell'aggiornamento di un cluster Big Data tramite azdata bdc upgrade.
TSG112 - Controlli di pre-distribuzione di Active Directory	Usare questo notebook per verificare che la configurazione di un cluster Big Data sia valida per una distribuzione di Active Directory (AD).
TSG115 - Convertitore log di sicurezza SQL Server in Linux	Usare questo notebook per analizzare i log generati dai logger secuirty.ldap e security.kerberos per SQL Server in Linux. Per abilitare questi logger, inserire le righe seguenti in /var/opt/mssql/logger.ini nel computer che esegue SQL Server in Linux. Nota: nel file viene fatta distinzione tra maiuscole e minuscole.
TSG116 - Convertitore log di supporto di sicurezza del cluster Big Data SQL	Usare questo notebook per analizzare i log generati dal servizio di supporto di sicurezza nel cluster Big Data SQL. Per ottenere i log, i log di debug vengono copiati dal cluster ed estratti. Seguire la procedura riportata sotto - Eseguire "azdata bdc debug copy-logs -n <namespace>". Verranno creati diversi dile .tar.gz - Estrarre il contenuti di debuglogs-<namespace>-<date>-<time>.tar.gz - Individuare il log di supporto di sicurezza archiviato in ./<namespace>/control-<…>/security-support/supervisol/log/secsupp-stderr---<…>.log.
TSG119 - Controlli di post-distribuzione di Active Directory	Questo notebook è progettato per convalidare la configurazione del cluster Big Data dopo una distribuzione di AD. Verrà verificata la presenza di voci DNS per tutti gli endpoint con un attributo dnsName. Le voci DNS devono essere record host, non alias (ad esempio record A, non record CNAME). Verranno verificate anche la presenza di account di Active Directory noti e la relativa abilitazione, nonché la presenza dei nomi SPN previsti

Correggere i problemi dai cluster Big Data

Set di notebook per correggere le situazioni e gli stati noti di un cluster Big Data di SQL Server.

Nome	Descrizione
TSG005 - Ciclo di inoltro rilevato	Usare questo notebook per gestire il ciclo di inoltro rilevato, poiché l'utilità dnsmasq può inserire un loopback locale in resolv.conf, che può causare lo stato CrashLoopBackOff dei pod controller durante la distribuzione iniziale del cluster: https://askubuntu.com/questions/627899/nameserver-127-0-1-1-in-resolv-conf-wont-go-away\|
TSG011 - Riavviare il server sparkhistory	Usare questo notebook per riavviare il server sparkhistory poiché il processo Java sparkhistory può smettere di rispondere durante l'avvio. Il riavvio del server sparkhistory (supervisorctl restart sparkhistory) può risolvere questo problema.
TSG018 - Terminare il processo sqlservr nel pool master	Usare questo notebook quando T-SQL SHUTDOWN non ricicla correttamente il processo ./sqlservr. Usare questo notebook per terminare il processo sqlservr principale, che verrà riavviato automaticamente dal processo front-end ./sqlservr.
TSG024 - Namenode in modalità sicura	Usare questo notebook quando HDFS si trova in modalità sicura. Ad esempio, se viene riciclato un numero eccessivo di pod nel pool di archiviazione, è possibile che la modalità sicura venga abilitata automaticamente.
TSG028 - Riavviare lo strumento di gestione dei nodi su tutti i nodi del pool di archiviazione	Usare questo notebook quando è necessario riavviare lo strumento di gestione dei nodi su tutti i nodi del pool di archiviazione.
TSG038 - Errori di creazione BDC a causa di una chiave mancante nel documento	Usare questo notebook in caso di errori di creazione del cluster Big Data causati dalla mancanza di una chiave nel documento.
TSG039 - Nome di oggetto 'role_permissions' non valido	Usare questo notebook quando si verifica un problema di oggetto non valido a causa dell'autorizzazione del ruolo in gateway.log di Knox
TSG040 - Impossibile ottenere i nomi di file dal controller con errore	Usare questo notebook quando si verifica il timeout del gateway 504 durante il recupero dei nomi di file dal controller.
TSG041 - Impossibile creare un nuovo contesto I/O asincrono (aumentare sysctl fs.aio-max-nr)	Usare questo notebook quando non è possibile creare un nuovo contesto I/O asincrono (aumentare sysctl fs.aio-max-nr).
TSG045: Numero massimo di dischi dati che possono essere collegati a una macchina virtuale di questa dimensione (AKS)	Usare questo notebook quando si raggiunge il numero massimo di dischi dati che possono essere collegati a una macchina virtuale di questa dimensione (AKS).
TSG047 - ConfigException - È previsto un solo oggetto con questo nome	Usare questo notebook quando è presente Configexception che prevede un solo oggetto con nome.
TSG048 - La distribuzione si blocca mentre viene visualizzato il messaggio "Waiting for controller pod to be up"	Usare questo notebook quando la distribuzione si blocca quando viene visualizzato il messaggio "Waiting for controller pod to be up".
TSG050 - La creazione del cluster si blocca mentre viene visualizzato il messaggio "timeout expired waiting for volumes to attach or mount for pod"	Usare questo notebook quando la creazione del cluster si blocca quando viene visualizzato il messaggio "timeout expired waiting for volumes to attach or mount for pod".
TSG052 - Tentativo non riuscito di ottenere il DNS master-svc e nuovo tentativo	Usare questo notebook quando la creazione del cluster si blocca quando viene visualizzato il messaggio "timeout expired waiting for volumes to attach or mount for pod".
TSG057 - Errore durante l'avvio del servizio controller .System.TimeoutException	Usare questo notebook quando si verifica System.TimeoutException all'avvio del servizio controller.
TSG067 - Impossibile completare la configurazione kube	Usare questo notebook quando non è possibile completare la configurazione kube.
TSG074 - Eliminazione di App-Deploys	Usare questo notebook in caso di verifichi un problema con l'eliminazione delle app nel cluster Big Data.
TSG075 - Errore FailedCreatePodSandBox perché il plug-in CNI di rete non è riuscito a configurare un pod	Usare questo notebook quando si verifica l'eccezione FailedCreatePodSandBox perché NetworkPlugin cni non ha configurato il pod.
TSG080 - Eliminare sessioni Spark tramite azdata	Usare questo notebook quando si verifica un problema durante l'eliminazione delle sessioni Spark.
TSG109 - Impostare i timeout degli aggiornamenti	Usare questo notebook quando si verificano problemi di aggiornamento del cluster Big Data.
TSG110 - Azdata restituisce ApiError	Usare questo notebook quando Azdata restituisce ApiError.

Passaggi successivi

Per altre informazioni sui cluster Big Data, vedere Introduzione ai cluster Big Data di SQL Server.

Condividi tramite

Risolvere i problemi dei cluster Big Data tramite Jupyter Notebook e Azure Data Studio

Risoluzione dei problemi dei cluster Big Data

Diagnosticare i problemi dei cluster Big Data

Correggere i problemi dai cluster Big Data

Passaggi successivi

Commenti e suggerimenti

Risorse aggiuntive