Explorar dados com NumPy e Pandas

Concluído

Os cientistas de dados podem usar diversas ferramentas e técnicas para explorar, visualizar e manipular dados. Uma das formas mais comuns de os cientistas de dados trabalharem com os dados é usar a linguagem Python e alguns pacotes específicos para o processamento de dados.

O que é NumPy?

NumPy é uma biblioteca do Python que fornece uma funcionalidade comparável a ferramentas matemáticas como MATLAB e R. Embora NumPy simplifique significativamente a experiência do usuário, também proporciona funções matemáticas abrangentes.

O que é Pandas?

Pandas é uma biblioteca Python extremamente popular para análise e manipulação de dados. O Pandas é como um aplicativo de planilha para o Python e fornece funcionalidades fáceis de usar para tabelas de dados.

Diagrama de DF do Pandas.

Explorar dados em um Jupyter Notebook

Os notebooks Jupyter são uma maneira popular de executar scripts básicos usando o navegador da Web. Normalmente, esses notebooks estão uma única página da Web, dividida em seções de texto e seções de códigos executados no servidor e não no computador local. Executar o código em notebooks Jupyter em um servidor possibilita que você comece rapidamente sem precisar instalar o Python ou outras ferramentas no computador local.

Teste de hipóteses

A exploração e a análise de dados normalmente são um processo iterativo, no qual o cientista de dados usa uma amostra dos dados e executa os seguintes tipos de tarefa para analisá-la e testar as hipóteses:

  • Limpar dados para lidar com erros, valores ausentes e outros problemas.
  • Aplicar técnicas estatísticas para entender melhor os dados e como pode ser esperado que a amostra represente a população do mundo real dos dados, permitindo variação aleatória.
  • Visualizar os dados para determinar as relações entre as variáveis e, no caso de um projeto de aprendizado de máquina, identificar os recursos que sejam potencialmente previsíveis do rótulo.
  • Analisar a hipótese e repetir o processo.