Condividi tramite


Affidabilità per data lakehouse

I principi architetturali del pilastro dell'affidabilità rispondono alla capacità di un sistema di recuperare da errori e continuare a funzionare.

Diagramma dell'architettura lakehouse di affidabilità per Databricks.

Principi di affidabilità

  1. Progettazione in funzione del rischio di errori

    In un ambiente altamente distribuito possono verificarsi interruzioni. Sia per la piattaforma che per i vari carichi di lavoro, ad esempio processi di streaming, processi batch, training del modello e query BI, è necessario prevedere gli errori e sviluppare soluzioni resilienti per aumentare l'affidabilità. L'attenzione è la progettazione di applicazioni per il ripristino rapido e, nel migliore dei casi, automaticamente.

  2. Gestire la qualità dei dati

    La qualità dei dati è fondamentale per derivare informazioni dettagliate accurate e significative dai dati. La qualità dei dati ha molte dimensioni, tra cui completezza, accuratezza, validità e coerenza. Deve essere gestito attivamente per migliorare la qualità dei set di dati finali in modo che i dati funzionino come informazioni affidabili e affidabili per gli utenti aziendali.

  3. Progettazione per la scalabilità automatica

    I processi ETL standard, i report aziendali e i dashboard hanno spesso requisiti di risorse prevedibili in termini di memoria e calcolo. Tuttavia, nuovi progetti, attività stagionali o approcci avanzati, ad esempio il training del modello (per varianza, previsione e manutenzione) creano picchi nei requisiti delle risorse. Per consentire a un'organizzazione di gestire tutti questi carichi di lavoro, è necessaria una piattaforma di archiviazione e calcolo scalabile. L'aggiunta di nuove risorse in base alle esigenze deve essere semplice e deve essere addebitato solo il consumo effettivo. Una volta superato il picco, le risorse possono essere liberate e i costi sono ridotti di conseguenza. Questa operazione viene spesso definita scalabilità orizzontale (numero di nodi) e ridimensionamento verticale (dimensioni dei nodi).

  4. Testare le procedure di ripristino

    Una strategia di ripristino di emergenza a livello aziendale per la maggior parte delle applicazioni e dei sistemi richiede una valutazione di priorità, funzionalità, limitazioni e costi. Un approccio di ripristino di emergenza affidabile verifica regolarmente il modo in cui i carichi di lavoro hanno esito negativo e convalidano le procedure di ripristino. L'automazione può essere usata per simulare errori diversi o ricreare scenari che hanno causato errori in passato.

  5. Automatizzare le distribuzioni e i carichi di lavoro

    L'automazione di distribuzioni e carichi di lavoro per il lakehouse consente di standardizzare questi processi, eliminare gli errori umani, migliorare la produttività e garantire una maggiore ripetibilità. Ciò include l'uso di "configurazione come codice" per evitare la deriva della configurazione e "infrastruttura come codice" per automatizzare il provisioning di tutti i servizi lakehouse e cloud necessari.

  6. Monitorare sistemi e carichi di lavoro

    I carichi di lavoro in lakehouse in genere integrano i servizi della piattaforma Databricks e i servizi cloud esterni, ad esempio come origini dati o destinazioni. L'esecuzione riuscita può verificarsi solo se ogni servizio nella catena di esecuzione funziona correttamente. In caso contrario, il monitoraggio, gli avvisi e la registrazione sono importanti per rilevare e tenere traccia dei problemi e comprendere il comportamento del sistema.

Avanti: Procedure consigliate per l'affidabilità

Vedere Procedure consigliate per l'affidabilità.