Identificare i servizi dati
Microsoft Azure è una piattaforma cloud che supporta le applicazioni e l'infrastruttura IT per alcune delle più grandi organizzazioni del mondo. Include molti servizi per supportare soluzioni cloud, inclusi i carichi di lavoro dei dati transazionali e analitici.
Di seguito sono descritti alcuni dei servizi cloud più usati per i dati.
Nota
Questo argomento illustra solo alcuni dei servizi dati usati più di frequente per le moderne soluzioni transazionali e analitiche. Sono disponibili anche servizi aggiuntivi.
SQL di Azure
Azure SQL è il nome collettivo di una famiglia di soluzioni di database relazionali basate sul motore di database di Microsoft SQL Server. I servizi specifici di Azure SQL includono:
- Database SQL di Azure: database PaaS (piattaforma distribuita come servizio) completamente gestito ospitato in Azure.
- Istanza gestita di SQL di Azure: istanza ospitata di SQL Server con manutenzione automatizzata, che consente una configurazione più flessibile rispetto al database SQL di Azure, ma con più responsabilità amministrative per il proprietario.
- Macchina virtuale di Azure SQL: macchina virtuale con un'installazione di SQL Server, che consente la massima configurabilità con piena responsabilità della gestione.
Gli amministratori dei database in genere effettuano il provisioning e la gestione dei sistemi di database SQL di Azure per supportare applicazioni line-of-business in cui è necessario archiviare i dati transazionali.
Gli ingegneri dei dati possono usare i sistemi di database SQL di Azure come origini per le pipeline di dati che eseguono operazioni di estrazione, trasformazione e caricamento (ETL) per inserire i dati transazionali in un sistema analitico.
Gli analisti dei dati possono eseguire query direttamente sui database SQL di Azure per creare report, anche se nelle organizzazioni di grandi dimensioni i dati vengono in genere combinati con quelli provenienti da altre origini in un archivio dati analitici per supportare l'analisi aziendale.
Database open source in Azure
Azure include servizi gestiti per i più diffusi sistemi di database relazionali open source, tra cui:
Database di Azure per MySQL: sistema intuitivo di gestione di database open source comunemente usato nelle app dello stack LAMP (Linux, Apache, MySQL e PHP).
Database di Azure per MariaDB: sistema di gestione di database più recente, creato dagli sviluppatori originali di MySQL. Il motore di database è stato riscritto e ottimizzato per migliorare le prestazioni. MariaDB offre la compatibilità con Oracle Database (un altro sistema di gestione di database commerciale diffuso).
Database di Azure per PostgreSQL: database ibrido di oggetti relazionali. È possibile archiviare i dati in tabelle relazionali, ma un database PostgreSQL consente anche di archiviare tipi di dati personalizzati, con le relative proprietà non relazionali.
Come i sistemi di database SQL di Azure, i database relazionali open source vengono gestiti dagli amministratori dei database per supportare le applicazioni transazionali e forniscono un'origine dati per gli ingegneri dei dati che creano pipeline per soluzioni analitiche e per gli analisti dei dati che creano report.
Azure Cosmos DB
Azure Cosmos DB è un sistema di database non relazionale (NoSQL) su scala globale, che supporta più API (Application Programming Interface), consentendo di archiviare e gestire i dati come documenti JSON, coppie chiave-valore, famiglie di colonne e grafici.
In alcune organizzazioni, un amministratore di database può effettuare il provisioning delle istanze di Cosmos DB e gestirle, ma spesso gli sviluppatori software gestiscono l'archiviazione dei dati NoSQL come parte dell'architettura generale dell'applicazione. Gli ingegneri dei dati spesso devono integrare le origini dati di Cosmos DB in soluzioni analitiche aziendali che supportano la modellazione e la creazione di report da parte degli analisti dei dati.
Archiviazione di Azure
Archiviazione di Azure è un servizio di Azure di base che ti consente di archiviare i dati in:
- Contenitori BLOB: risorsa di archiviazione scalabile e conveniente per i file binari.
- Condivisioni file: condivisioni file di rete come quelle tipiche delle reti aziendali.
- Tabelle: archiviazione chiave-valore per le applicazioni che devono leggere e scrivere rapidamente i valori dei dati.
Gli ingegneri dei dati usano Archiviazione di Azure per ospitare i data lake, ovvero archivi BLOB con uno spazio dei nomi gerarchico che consente di organizzare i file in cartelle in un file system distribuito.
Azure Data Factory
Azure Data Factory è un servizio di Azure che ti consente di definire e pianificare le pipeline di dati per trasferire e trasformare i dati. È possibile integrare le pipeline con altri servizi di Azure, il che consente di inserire i dati provenienti dagli archivi dati cloud, elaborare i dati usando il calcolo basato sul cloud e salvare in modo permanente i risultati in un altro archivio dati.
Azure Data Factory viene usato dagli ingegneri dei dati per creare soluzioni di estrazione, trasformazione e caricamento (ETL) che popolano gli archivi dati analitici con i dati provenienti dai sistemi transazionali dell'organizzazione.
Microsoft Fabric
Microsoft Fabric è una piattaforma di analisi Software-as-a-Service (SaaS) unificata basata su un lakehouse aperto e regolamentato che include funzionalità per supportare:
- Inserimento dati ed ETL
- Analisi di data lakehouse
- Analisi di data warehouse
- Data Science e apprendimento automatico
- Analisi in tempo reale
- Effetto di visualizzazione dei dati
- Governance e gestione dei dati
- Informazioni dettagliate basate su intelligenza artificiale
Gli ingegneri dei dati possono usare Microsoft Fabric per creare una soluzione unificata di analisi dei dati che combina pipeline di inserimento dati, data warehouse, analisi in tempo reale, business intelligence e informazioni dettagliate basate su intelligenza artificiale tramite un unico servizio archiviato centralmente con Microsoft OneLake.
Azure Databricks
Azure Databricks è una versione integrata in Azure della popolare piattaforma Databricks, che combina la piattaforma di elaborazione dati Apache Spark con la semantica del database SQL e un'interfaccia di gestione integrata per abilitare l'analisi dei dati su larga scala.
Gli ingegneri dei dati possono usare le competenze esistenti in Databricks e Spark per creare archivi dati analitici in Azure Databricks.
Gli analisti dei dati possono usare il supporto nativo per i notebook in Azure Databricks per eseguire query sui dati e visualizzarli in un'interfaccia basata sul Web facile da usare.
Analisi di flusso di Azure
Analisi di flusso di Azure è un motore di elaborazione del flusso in tempo reale che acquisisce un flusso di dati da un input, applica una query per estrarre e manipolare i dati dal flusso di input e scrive i risultati in un output per l'analisi o un'ulteriore elaborazione.
Gli ingegneri dei dati possono incorporare Analisi di flusso di Azure in architetture di analisi dei dati che acquisiscono i dati in streaming per l'inserimento in un archivio dati analitici o per la visualizzazione in tempo reale.
Esplora dati di Azure
Esplora dati di Azure è una piattaforma di analisi dei Big Data completamente gestita e autonoma che offre query ad alte prestazioni sui dati di log e telemetria.
Gli analisti dei dati possono usare Esplora dati di Azure per eseguire query sui dati che includono un attributo timestamp e analizzarli, ad esempio quelli che si trovano in genere nei file di log e nei dati di telemetria di Internet delle cose (IoT).
Microsoft Purview
Microsoft Purview fornisce una soluzione per la governance e l'individuabilità dei dati a livello aziendale. È possibile usare Microsoft Purview per creare una mappa dei dati e tenere traccia della derivazione dei dati tra più origini dati e sistemi, consentendo di trovare dati attendibili per l'analisi e la creazione di report.
Gli ingegneri dei dati possono usare Microsoft Purview per applicare la governance dei dati in tutta l'azienda e garantire l'integrità dei dati usati per supportare i carichi di lavoro analitici.