Explorar dados com NumPy e Pandas
Os cientistas de dados podem usar diversas ferramentas e técnicas para explorar, visualizar e manipular dados. Uma das formas mais comuns de os cientistas de dados trabalharem com os dados é usar a linguagem Python e alguns pacotes específicos para o processamento de dados.
O que é NumPy?
NumPy é uma biblioteca do Python que fornece uma funcionalidade comparável a ferramentas matemáticas como MATLAB e R. Embora NumPy simplifique significativamente a experiência do usuário, também proporciona funções matemáticas abrangentes.
O que é Pandas?
Pandas é uma biblioteca Python extremamente popular para análise e manipulação de dados. O Pandas é como um aplicativo de planilha para o Python e fornece funcionalidades fáceis de usar para tabelas de dados.
Explorar dados em um Jupyter Notebook
Os notebooks Jupyter são uma maneira popular de executar scripts básicos usando o navegador da Web. Normalmente, esses notebooks estão uma única página da Web, dividida em seções de texto e seções de códigos executados no servidor e não no computador local. Executar o código em notebooks Jupyter em um servidor possibilita que você comece rapidamente sem precisar instalar o Python ou outras ferramentas no computador local.
Teste de hipóteses
A exploração e a análise de dados normalmente são um processo iterativo, no qual o cientista de dados usa uma amostra dos dados e executa os seguintes tipos de tarefa para analisá-la e testar as hipóteses:
- Limpar dados para lidar com erros, valores ausentes e outros problemas.
- Aplicar técnicas estatísticas para entender melhor os dados e como pode ser esperado que a amostra represente a população do mundo real dos dados, permitindo variação aleatória.
- Visualizar os dados para determinar as relações entre as variáveis e, no caso de um projeto de aprendizado de máquina, identificar os recursos que sejam potencialmente previsíveis do rótulo.
- Analisar a hipótese e repetir o processo.