Efficienza delle prestazioni del data lakehouse
Questo articolo illustra i principi architetturali del 'efficienza delle prestazioni pilastro, facendo riferimento alla capacità di un sistema di adattarsi alle modifiche del carico.
Principi di efficienza delle prestazioni
Usare architetture serverless
Le architetture serverless non richiedono ai clienti di operare e mantenere l'infrastruttura di elaborazione nel cloud. Ciò elimina il sovraccarico operativo della gestione dell'infrastruttura cloud e riduce i costi delle transazioni perché i servizi gestiti operano su scala cloud. Offrono anche disponibilità immediata, sicurezza predefinita e richiedono una configurazione o un'amministrazione minima.
Progettare carichi di lavoro per ottimizzare le prestazioni
Per i carichi di lavoro ripetuti, come le pipeline di ingegneria dei dati, le prestazioni non devono mai essere una considerazione secondaria. I dati devono essere:
- Leggere in modo efficiente dalla memoria di un oggetto.
- Trasformato in modo efficiente.
- Pubblicato in modo efficiente per il consumo.
Inoltre, la maggior parte delle pipeline o dei modelli di consumo usa una catena di sistemi. Per ottenere prestazioni ottimali, è essenziale considerare e selezionare con attenzione l'intera catena.
Eseguire test delle prestazioni nell'ambito dello sviluppo
Ogni carico di lavoro di sviluppo deve essere sottoposto a test continui delle prestazioni. I test assicurano che qualsiasi modifica alla codebase non influisca negativamente sulle prestazioni del carico di lavoro. Stabilire una pianificazione regolare per l'esecuzione dei test. Eseguire il test come parte di un evento pianificato o come parte di una pipeline di integrazione continua.
Stabilire le linee di base delle prestazioni e determinare l'efficienza corrente dei carichi di lavoro e l'infrastruttura di supporto. La misurazione delle prestazioni rispetto alle baseline può fornire strategie di miglioramento e determinare se l'applicazione soddisfa gli obiettivi aziendali.
Identificare i colli di bottiglia che potrebbero influire sulle prestazioni. Questi colli di bottiglia possono essere causati da errori nel codice o da errori di configurazione di un servizio. In genere, i colli di bottiglia get peggio quando aumenta il carico.
Monitorare le prestazioni
Assicurarsi che le risorse e i servizi rimangano accessibili e che le prestazioni soddisfino le aspettative degli utenti o i requisiti del carico di lavoro. Il monitoraggio consente di identificare colli di bottiglia, risorse insufficienti, configurazioni optimize e rilevare errori nei flussi di lavoro/carichi di lavoro.
Successiva: Procedure consigliate per l'efficienza delle prestazioni
Vedere Procedure consigliate per l'efficienza delle prestazioni.