Analisi esplorativa dei dati in Azure Databricks: strumenti e tecniche
Questo articolo descrive strumenti e tecniche per l'analisi esplorativa dei dati (EDA) in Azure Databricks.
Che cos'è EDA e perché è utile?
L'analisi esplorativa dei dati include metodi per l'esplorazione dei set di dati per riepilogare le caratteristiche principali e identificare eventuali problemi con i dati. Utilizzando metodi statistici e visualizzazioni, puoi ottenere informazioni su set per determinare la prontezza per l'analisi e decidere quali tecniche applicare per la preparazione dei dati. EDA può anche influenzare gli algoritmi che si sceglie di utilizzare per l'addestramento dei modelli di Machine Learning.
Quali sono gli strumenti EDA in Azure Databricks?
Azure Databricks include strumenti di analisi e visualizzazione predefiniti sia in Databricks SQL che in Databricks Runtime. Per un'illustrazione di list dei tipi di visualizzazioni disponibili in Azure Databricks, vedere Tipi di visualizzazioni.
Analisi Esplorativa dei Dati in Databricks SQL
Di seguito sono riportati alcuni articoli utili sugli strumenti di visualizzazione ed esplorazione dei dati in Databricks SQL:
EDA (Analisi Esplorativa dei Dati) in Databricks Runtime
Databricks Runtime offre un ambiente predefinito con librerie di esplorazione dei dati comuni già installate. È possibile visualizzare la list delle librerie predefinite nelle note sulla versione .
Gli articoli seguenti mostrano anche esempi di strumenti di visualizzazione in Databricks Runtime:
In un notebook Python di Databricks è possibile combinare SQL e Python per esplorare i dati. Quando si esegue il codice in una cella del linguaggio SQL in un notebook Python, i risultati table vengono resi automaticamente disponibili come dataframe Python. Per informazioni dettagliate, vedere Esplorare i risultati delle celle SQL nei notebook Python.