Análise exploratória de dados no Azure Databricks: ferramentas e técnicas
Este artigo descreve ferramentas e técnicas para análise exploratória de dados (EDA) no Azure Databricks.
O que é a AED e por que razão é útil?
A análise exploratória de dados (EDA) inclui métodos para explorar conjuntos de dados para resumir suas principais características e identificar quaisquer problemas com os dados. Usando métodos estatísticos e visualizações, você pode aprender sobre um conjunto de dados para determinar sua prontidão para análise e informar quais técnicas aplicar para a preparação de dados. O EDA também pode influenciar quais algoritmos você escolhe aplicar para treinar modelos de ML.
Quais são as ferramentas EDA no Azure Databricks?
O Azure Databricks tem ferramentas internas de análise e visualização no Databricks SQL e no Databricks Runtime. Para obter uma lista ilustrada dos tipos de visualizações disponíveis no Azure Databricks, consulte Tipos de visualização.
EDA em Databricks SQL
Aqui estão alguns artigos úteis sobre visualização de dados e ferramentas de exploração no Databricks SQL:
EDA no Databricks Runtime
O Databricks Runtime fornece um ambiente pré-construído que já tem bibliotecas populares de exploração de dados instaladas. Você pode ver a lista de bibliotecas incorporadas nas notas de versão .
Além disso, os seguintes artigos mostram exemplos de ferramentas de visualização no Databricks Runtime:
Em um notebook Databricks Python, você pode combinar SQL e Python para explorar dados. Quando você executa código em uma célula de linguagem SQL em um bloco de anotações Python, os resultados da tabela são disponibilizados automaticamente como um Python DataFrame. Para obter detalhes, consulte Explorar resultados de células SQL em blocos de anotações Python.