Affidabilità per data lakehouse
I principi architetturali del pilastro dell'affidabilità rispondono alla capacità di un sistema di recuperare da errori e continuare a funzionare.
Principi di affidabilità
Progettazione in funzione del rischio di errori
In un ambiente altamente distribuito possono verificarsi interruzioni. Sia per la piattaforma che per i vari carichi di lavoro, ad esempio processi di streaming, processi batch, training del modello e query BI, è necessario prevedere gli errori e sviluppare soluzioni resilienti per aumentare l'affidabilità. L'attenzione è la progettazione di applicazioni per il ripristino rapido e, nel migliore dei casi, automaticamente.
Gestire la qualità dei dati
La qualità dei dati è fondamentale per derivare informazioni dettagliate accurate e significative dai dati. La qualità dei dati ha molte dimensioni, tra cui completezza, accuratezza, validità e coerenza. Deve essere gestito attivamente per migliorare la qualità dei set di dati finali in modo che i dati funzionino come informazioni affidabili e affidabili per gli utenti aziendali.
Progettazione per la scalabilità automatica
I processi ETL standard, i report aziendali e i dashboard hanno spesso requisiti di risorse prevedibili in termini di memoria e calcolo. Tuttavia, nuovi progetti, attività stagionali o approcci avanzati, ad esempio il training del modello (per varianza, previsione e manutenzione) creano picchi nei requisiti delle risorse. Per consentire a un'organizzazione di gestire tutti questi carichi di lavoro, è necessaria una piattaforma di archiviazione e calcolo scalabile. L'aggiunta di nuove risorse in base alle esigenze deve essere semplice e deve essere addebitato solo il consumo effettivo. Una volta superato il picco, le risorse possono essere liberate e i costi sono ridotti di conseguenza. Questa operazione viene spesso definita scalabilità orizzontale (numero di nodi) e ridimensionamento verticale (dimensioni dei nodi).
Testare le procedure di ripristino
Una strategia di ripristino di emergenza a livello aziendale per la maggior parte delle applicazioni e dei sistemi richiede una valutazione di priorità, funzionalità, limitazioni e costi. Un approccio di ripristino di emergenza affidabile verifica regolarmente il modo in cui i carichi di lavoro hanno esito negativo e convalidano le procedure di ripristino. L'automazione può essere usata per simulare errori diversi o ricreare scenari che hanno causato errori in passato.
Automatizzare le distribuzioni e i carichi di lavoro
L'automazione di distribuzioni e carichi di lavoro per il lakehouse consente di standardizzare questi processi, eliminare gli errori umani, migliorare la produttività e garantire una maggiore ripetibilità. Ciò include l'uso di "configurazione come codice" per evitare la deriva della configurazione e "infrastruttura come codice" per automatizzare il provisioning di tutti i servizi lakehouse e cloud necessari.
Monitorare sistemi e carichi di lavoro
I carichi di lavoro in lakehouse in genere integrano i servizi della piattaforma Databricks e i servizi cloud esterni, ad esempio come origini dati o destinazioni. L'esecuzione riuscita può verificarsi solo se ogni servizio nella catena di esecuzione funziona correttamente. In caso contrario, il monitoraggio, gli avvisi e la registrazione sono importanti per rilevare e tenere traccia dei problemi e comprendere il comportamento del sistema.