Condividi tramite


Cos’è Data Science in Microsoft Fabric?

Microsoft Fabric offre esperienze di data science per consentire agli utenti di completare flussi di lavoro di data science end-to-end ai fini dell'arricchimento dei dati e delle informazioni aziendali. È possibile completare un'ampia gamma di attività nell'intero processo di data science, dall'esplorazione dei dati, preparazione e pulizia, alla sperimentazione, modellazione, al punteggio del modello e alla gestione di informazioni dettagliate predittive nei report BI.

Gli utenti di Microsoft Fabric possono accedere a una home page di data science. Da qui possono individuare e accedere a varie risorse pertinenti. Ad esempio, possono creare esperimenti, modelli e notebook di apprendimento automatico. Possono anche importare notebook esistenti nella pagina iniziale di data science.

Screenshot della pagina iniziale di data science.

Probabilmete sai come funziona un tipico processo di data science. Si tratta di un processo comune, che viene adottato nella maggior parte dei progetti di apprendimento automatico.

A livello generale, il processo prevede le seguenti fasi:

  • Formulazione dei problemi e ideazione
  • Individuazione e pre-elaborazione dei dati
  • Sperimentazione e modellazione
  • Arricchire e rendere operativi
  • Acquisizione di informazioni approfondite

Diagramma del processo di data science.

Questo articolo descrive le funzionalità di data science di Microsoft Fabric dal punto di vista del processo di data science. Per ogni passaggio del processo di data science, il presente articolo riporta un riepilogo delle funzionalità di Microsoft Fabric che possono essere utili.

Formulazione dei problemi e ideazione

Gli utenti di data science in Microsoft Fabric lavorano sulla stessa piattaforma degli utenti aziendali e degli analisti. Di conseguenza, la condivisione dei dati e la collaborazione risultano più semplici. Gli analisti possono condividere facilmente report e set di dati di Power BI con gli esperti di data science. La facilità con cui i diversi ruoli in Microsoft Fabric possono collaborare rende molto più semplice la fase di formulazione dei problemi.

Individuazione e pre-elaborazione dei dati

Gli utenti di Microsoft Fabric possono interagire con i dati in OneLake usando l'elemento Lakehouse. Lakehouse si collega facilmente a un notebook per esplorare e interagire con i dati.

Gli utenti possono leggere facilmente i dati da un Lakehouse direttamente in un dataframe Pandas. Per l'esplorazione, questo rende possibile la lettura perfetta dei dati da OneLake.

Un potente set di strumenti è disponibile per l'inserimento dati e le pipeline di orchestrazione dei dati con pipeline di integrazione dei dati, una parte integrata in modo nativo di Microsoft Fabric. Le pipeline di dati facili da costruire possono accedere ai dati e trasformarli in un formato fruibile per l’apprendimento automatico.

esplorazione dei dati

Una parte importante del processo di apprendimento automatico consiste nel comprendere i dati tramite l'esplorazione e le visualizzazioni.

A seconda della posizione di archiviazione dei dati, Microsoft Fabric offre un set di strumenti diversi per esplorare e preparare i dati all'analisi e all’apprendimento automatico. I notebook diventano uno dei modi più rapidi per iniziare a usare l'esplorazione dei dati.

Apache Spark e Python per la preparazione dei dati

Microsoft Fabric offre capacità per trasformare, preparare ed esplorare i dati su larga scala. Con Spark, gli utenti possono sfruttare gli strumenti PySpark/Python, Scala e SparkR/SparklyR per la pre-elaborazione dei dati su larga scala. Grazie alle potenti librerie di visualizzazione open source, l'esperienza di esplorazione riculta migliorata per una più facile comprensione dei dati.

Data Wrangler per una perfetta pulizia dei dati

L'esperienza notebook di Microsoft Fabric ha aggiunto una funzionalità per l'uso di Data Wrangler, uno strumento di codice che prepara i dati e genera codice Python. Questa esperienza semplifica l'accelerazione delle noiose attività quotidiane, come la pulizia dei dati, consentendo la replicabilità e l'automazione tramite codice generato. Altre informazioni su Data Wrangler sono disponibili nella sezione Data Wrangler di questo documento.

Sperimentazione e modellazione ML

Con strumenti quali PySpark/Python, SparklyR/R, i notebook possono gestire il training dei modelli di apprendimento automatico.

Gli algoritmi ML e le librerie possono aiutare ad eseguire il training dei modelli di apprendimento automatico. Gli strumenti di gestione delle librerie possono installare queste librerie e algoritmi. Gli utenti hanno quindi la possibilità di sfruttare un'ampia gamma di librerie di apprendimento automatico più diffuse per completare il training del modello di apprendimento automatico in Microsoft Fabric.

Anche altre librerie note, come Scikit Learn, possono sviluppare dei modelli.

Gli esperimenti e le esecuzioni di MLflow possono tenere traccia del training del modello di apprendimento automatico. Microsoft Fabric offre un'esperienza MLflow predefinita con cui gli utenti possono interagire, per registrare esperimenti e modelli. Scopri come usare MLflow per tenere traccia degli esperimenti e gestire i modelli in Microsoft Fabric.

SynapseML

La libreria open source SynapseML (nota in precedenza come MMLSpark), di proprietà e gestione Microsoft, semplifica la creazione di pipeline di apprendimento automatico altamente scalabili. Si tratta di un ecosistema di strumenti che espande il framework Apache Spark in diverse nuove direzioni. SynapseML unifica diversi framework di apprendimento automatico esistenti e nuovi algoritmi Microsoft in un'unica API scalabile. La libreria SynapseML open source include un ricco ecosistema di strumenti di ML per lo sviluppo di modelli predittivi, nonché l'uso di modelli di intelligenza artificiale con training preliminare dai Servizi di Azure AI. Scopri di più su SynapseML.

Arricchire e rendere operativi

I notebook possono gestire i punteggi batch dei modelli di apprendimento automatico con librerie open source per la previsione, o la funzione Spark Predict universale scalabile di Microsoft Fabric, che supporta i modelli in pacchetto MLflow nel registro del modello di Microsoft Fabric.

Acquisizione di informazioni approfondite

In Microsoft Fabric, i valori stimati possono essere scritti facilmente in OneLake e usati direttamente dai report di Power BI con la modalità Direct Lake di Power BI. I professionisti data science possono quindi condividere facilmente i risultati del loro lavoro con gli stakeholder e anche la messa in pratica risulta semplificata.

I notebook che contengono l'assegnazione dei punteggi batch possono essere pianificati per l'esecuzione usando le funzionalità di pianificazione dei notebook. L'assegnazione dei punteggi batch può anche essere pianificata come parte delle attività della pipeline di dati o dei processi Spark. Power BI ottiene automaticamente le previsioni più recenti senza la necessità di caricare o aggiornare i dati, grazie alla modalità Direct Lake in Microsoft Fabric.

Importante

Questa funzionalità si trova in anteprima.

I data scientist e gli analisti aziendali dedicano molto tempo a cercare di comprendere, pulire e trasformare i dati prima di poter avviare qualsiasi analisi significativa. Gli analisti aziendali lavorano in genere con modelli semantici e codificano la propria conoscenza nel settore e logica di business in misure di Power BI. D'altra parte, i data scientist possono lavorare con gli stessi dati, ma in genere in un ambiente di codice o in un linguaggio diverso.

Il collegamento semantico (anteprima) consente ai data scientist di stabilire una connessione tra i modelli semantici di Power BI e l'esperienza di data science synapse in Microsoft Fabric tramite la libreria SemPy Python. SemPy semplifica l'analisi dei dati acquisendo e sfruttando la semantica dei dati man mano che gli utenti effettuano trasformazioni sui modelli semantici. Sfruttando il collegamento semantico, i data scientist possono:

  • evitare di implementare nuovamente la logica di business e la conoscenza nel settore nel codice
  • accedere e usare facilmente le misure di Power BI nel codice
  • usare la semantica per creare nuove esperienze, ad esempio funzioni semantiche
  • esplorare e convalidare le dipendenze funzionali e le relazioni tra i dati

Grazie all'uso di SemPy, le organizzazioni possono attendersi:

  • una maggiore produttività e una collaborazione più immediata tra i team che operano sugli stessi set di dati
  • unja maggiore collaborazione incrociata tra team di business intelligence e team IA
  • una riduzione dell'ambiguità e una curva di apprendimento più semplice durante l'onboarding in un nuovo modello o set di dati

Per altre informazioni sul collegamento semantico, vedi Che cos'è il collegamento semantico (anteprima)?.