Condividi tramite


Interoperabilità e usabilità per data lakehouse

Questo articolo illustra i principi architettonici del pilastro interoperabilità e usabilità , facendo riferimento all'interazione del lakehouse con utenti e altri sistemi. Una delle idee fondamentali della lakehouse è quella di offrire un'esperienza utente ottimale per tutti gli utenti che lavorano con esso e per poter interagire con un ampio ecosistema di sistemi esterni.

  • L'interoperabilità è la capacità di un sistema di lavorare e integrarsi con altri sistemi. Implica l'interazione tra componenti e prodotti diversi, possibilmente da più fornitori, e tra versioni passate e future dello stesso prodotto.
  • L'usabilità è la misura dell'efficacia di un sistema che consente agli utenti di eseguire attività in modo sicuro, efficace ed efficiente.

Diagramma dell'architettura lakehouse di interoperabilità e usabilità per Databricks.

I principi di questo pilastro aiutano a:

  • Ottenere un'esperienza utente coerente e collaborativa.
  • Sfruttare le sinergie tra cloud.
  • Semplificare l'integrazione da e verso la lakehouse.
  • Ridurre i costi di formazione e abilitazione.

E alla fine portano a un time-to-value più veloce.

Principi di interoperabilità e usabilità

  1. Definire gli standard per l'integrazione

    L'integrazione ha aspetti diversi e può essere eseguita in molti modi diversi. Per evitare la proliferazione di strumenti e approcci, è necessario definire le procedure consigliate e fornire un elenco di strumenti e connettori ben supportati e preferiti.

    Uno dei principi principali dell'architettura è la modularità e l'accoppiamento libero anziché una stretta integrazione. In questo modo si riducono le dipendenze tra componenti e carichi di lavoro, si eliminano gli effetti collaterali e si abilita lo sviluppo indipendente su scale temporali diverse. Usare set di dati e il relativo schema come contratto. Separare i carichi di lavoro, ad esempio processi di wrangling dei dati, ad esempio il caricamento e la trasformazione dei dati in un data lake, da processi di aggiunta di valore (ad esempio creazione di report, dashboard e progettazione delle funzionalità di data science). Definire un catalogo dati centrale con linee guida per formati di dati, qualità dei dati e ciclo di vita dei dati.

  2. Usare interfacce aperte e formati di dati aperti

    Spesso, vengono sviluppate soluzioni in cui è possibile accedere ai dati solo tramite un sistema specifico. Questo può portare al blocco del fornitore, ma può anche diventare un enorme driver di costo se l'accesso ai dati tramite tale sistema è soggetto a tariffe di licenza. L'uso di interfacce e formati di dati aperti consente di evitare questo problema. Semplificano anche l'integrazione con i sistemi esistenti e aprono un ecosistema di partner che hanno già integrato i propri strumenti con il lakehouse.

    Se si usano ecosistemi open source come Python o R per l'analisi scientifica dei dati, Spark o ANSI SQL per il controllo dei diritti di accesso e accesso ai dati, sarà più semplice trovare il personale per i progetti. Semplifica anche le potenziali migrazioni da e verso una piattaforma.

  3. Semplificare l'implementazione del nuovo caso d'uso

    Per sfruttare al meglio i dati nel data lake, gli utenti devono essere in grado di distribuire facilmente i casi d'uso nella piattaforma. Questo inizia con processi snella per l'accesso alla piattaforma e la gestione dei dati. Ad esempio, l'accesso self-service alla piattaforma consente a un team centrale di diventare un collo di bottiglia. Gli ambienti condivisi e i progetti predefiniti per la distribuzione di nuovi ambienti assicurano che la piattaforma sia rapidamente disponibile per qualsiasi utente aziendale.

  4. Garantire coerenza e usabilità dei dati

    Due attività importanti su una piattaforma dati sono la pubblicazione dei dati e l'utilizzo dei dati. Dal punto di vista della pubblicazione, i dati devono essere offerti come prodotto. I server di pubblicazione devono seguire un ciclo di vita definito tenendo presenti i consumer e i dati devono essere chiaramente definiti con schemi gestiti, descrizioni e così via.

    È anche importante fornire dati coerenti semanticamente in modo che i consumer possano facilmente comprendere e combinare correttamente set di dati diversi. Inoltre, tutti i dati devono essere facilmente individuabili e accessibili ai consumer tramite un catalogo centrale con metadati e derivazione dei dati correttamente curati.

Successiva: Procedure consigliate per l'interoperabilità e l'usabilità

Vedere Procedure consigliate per l'interoperabilità e l'usabilità.