Condividi tramite


Eccellenza operativa per data lakehouse

I principi architettonici del pilastro dell'eccellenza operativa coprono tutti i processi operativi che mantengono in esecuzione il lakehouse. L'eccellenza operativa si rivolge alla capacità di gestire il lago in modo efficiente e illustra come operare, gestire e monitorare il lakehouse per offrire valore aziendale.

Operational excellence lakehouse architecture diagram for Databricks.

Principi di eccellenza operativa

  1. Ottimizzare i processi di compilazione e rilascio

    Usare le procedure consigliate per la progettazione software nell'intero ambiente lakehouse. Compilare e rilasciare usando l'integrazione continua e le pipeline di recapito continuo per DevOps e MLOps.

  2. Automatizzare le distribuzioni e i carichi di lavoro

    L'automazione di distribuzioni e carichi di lavoro per il lakehouse consente di standardizzare questi processi, eliminare gli errori umani, migliorare la produttività e garantire una maggiore ripetibilità. Ciò include l'uso di "configurazione come codice" per evitare la deriva della configurazione e "infrastruttura come codice" per automatizzare il provisioning di tutti i servizi lakehouse e cloud necessari.

    Per ML in particolare, i processi devono guidare l'automazione: non tutti i passaggi di un processo possono o devono essere automatizzati. Persone determinare ancora le domande aziendali e alcuni modelli avranno sempre bisogno di supervisione umana prima della distribuzione. Pertanto, il processo di sviluppo è primario e ogni modulo nel processo deve essere automatizzato in base alle esigenze. Ciò consente la compilazione incrementale dell'automazione e della personalizzazione.

  3. Configurare monitoraggio, avvisi e registrazione

    I carichi di lavoro in lakehouse in genere integrano i servizi della piattaforma Databricks e i servizi cloud esterni, ad esempio come origini dati o destinazioni. L'esecuzione riuscita può verificarsi solo se ogni servizio nella catena di esecuzione funziona correttamente. In caso contrario, il monitoraggio, gli avvisi e la registrazione sono importanti per rilevare e tenere traccia dei problemi e comprendere il comportamento del sistema.

  4. Gestire capacità e quote

    Per qualsiasi servizio avviato in un cloud, tenere conto dei limiti, ad esempio limiti di frequenza di accesso, numero di istanze, numero di utenti e requisiti di memoria. Prima di progettare una soluzione, è necessario comprendere questi limiti.

Avanti: Procedure consigliate per l'eccellenza operativa

Vedere Procedure consigliate per l'eccellenza operativa.