Usare Azure Synapse Analytics con analisi su scala cloud

Articolo
12/13/2024

Azure Synapse Analytics è il servizio di analisi integrato di cui è stato effettuato il provisioning che accelera il tempo per ottenere informazioni dettagliate tra data warehouse e sistemi Big Data. Azure Synapse Analytics riunisce:

Le migliori tecnologie SQL usate nel data warehousing aziendale.
Tecnologie Spark usate per Big Data.
Pipeline per l'applicazione dei dati (allineata all'origine) e l'estrazione, la trasformazione e il caricamento (ETL) o l'estrazione, il caricamento e la trasformazione (ELT).

Azure Synapse Studio è uno strumento di Azure Synapse che offre un'esperienza unificata per la gestione, il monitoraggio, la codifica e la sicurezza. Synapse Studio offre un'integrazione approfondita con altri servizi di Azure, ad esempio Power BI, Azure Cosmos DB e Azure Machine Learning.

Nota

Questa sezione descrive le configurazioni previste specifiche per l'analisi su scala cloud. È un complimento alla documentazione ufficiale di Azure Synapse Analytics.

Panoramica

Durante la configurazione iniziale di una zona di destinazione dei dati , è possibile distribuire una singola area di lavoro di Azure Synapse Analytics da usare da tutti gli analisti e i data scientist. È possibile creare più aree di lavoro per integrazioni di dati o prodotti dati specifici.

Potrebbero essere necessarie aree di lavoro aggiuntive di Azure Synapse Analytics, se il prodotto dati deve fornire accesso ai dati standardizzati con sicurezza a livello di riga e a livello di colonna. È possibile fornire queste aree di lavoro con i pool di Azure Synapse. I team dei prodotti di dati potrebbero richiedere la propria area di lavoro per la creazione di prodotti di dati e un'area di lavoro separata dedicata esclusivamente ai team di prodotto con accesso limitato allo sviluppo.

Configurazione di Azure Synapse Analytics

Il primo passaggio della distribuzione di Azure Synapse Analytics consiste nel configurare un'area di lavoro di Azure Synapse connessa a un account Microsoft Purview.

Rete di Azure Synapse Analytics

Una zona di destinazione dei dati crea aree di lavoro con una rete virtuale gestita di Azure Synapse Analytics. La comunicazione con Azure Synapse avviene tramite i tre endpoint esposti: pool SQL, SQL su richiesta e endpoint di sviluppo.

A livello di rete, l'analisi su scala cloud usa endpoint privati gestiti da Synapse. Questi endpoint assicurano che tutto il traffico tra la rete virtuale della zona di destinazione dei dati e le aree di lavoro di Azure Synapse si sposta interamente sulla rete backbone Microsoft.

Controllo di accesso ai dati di Azure Synapse

Usare gli elenchi di controllo di accesso con pass-through Di Microsoft Entra in Azure Synapse Analytics per gestire l'accesso ai file nel data lake.

Per i dati in cui è necessario limitare le colonne e le righe restituite, è consigliabile proteggere a livello di riga e a livello di colonna per limitare l'accesso ai dati nelle tabelle nel pool dedicato o serverless di Azure Synapse SQL. La sicurezza a livello di riga e la sicurezza a livello di colonna vengono implementate a livello di database e oltre ai ruoli del database.

Ad esempio, la sicurezza a livello di riga garantisce che gli utenti in un'applicazione dati specifica (allineata all'origine) o un prodotto di dati visualizzino solo i propri dati. Anche se la tabella contiene dati per l'intera azienda.

È possibile combinare la sicurezza a livello di riga con la sicurezza a livello di colonna per limitare l'accesso alle colonne con dati sensibili. In questo modo, sia la sicurezza a livello di riga che la sicurezza a livello di colonna applicano la logica di restrizione di accesso a livello di database anziché al livello applicazione. L'autorizzazione viene valutata ogni volta che si tenta l'accesso ai dati da qualsiasi livello.

Nota

Il pool SQL serverless di Azure Synapse supporta di sicurezza a livello di colonna per le viste e non per le tabelle esterne. Nel caso di tabelle esterne, è possibile creare una vista logica sopra la tabella esterna e quindi applicare la sicurezza a livello di colonna. In caso di sicurezza a livello di riga, le visualizzazioni personalizzate possono essere usate come soluzione alternativa.

Per altre informazioni, vedere controllo di accesso ai dati di Azure Synapse Analytics.

Controllo di accesso ai dati di Azure Synapse in Azure Data Lake

Quando si distribuisce un'area di lavoro di Azure Synapse Analytics, è necessario disporre di un account di archiviazione Azure Data Lake dalla sottoscrizione o utilizzando manualmente l'URL dell'account di archiviazione. L'account di archiviazione specificato viene impostato come primario per l'area di lavoro di Azure Synapse distribuita per archiviarne i dati. Azure Synapse archivia i dati in un contenitore che include tabelle Apache Spark e log dell'applicazione Spark in una cartella denominata /synapse/{workspaceName}. Include anche un contenitore per la gestione di tutte le librerie che si sceglie di installare.

Mancia

È consigliabile usare un contenitore dedicato nel livello di sviluppo o nel data lake dell'account numero tre. Questo contenitore viene usato come risorsa di archiviazione primaria per archiviare i metadati di Spark.

Per indicazioni su come configurare l'accesso ai dati, consultare il controllo di accesso ai dati di Azure Synapse Analytics.

Condividi tramite