Introdução
Como já esperado, a função de um Cientista de Dados envolve principalmente a exploração e a análise de dados. Embora o resultado final da análise de dados possa ser um relatório ou um modelo de machine learning, os cientistas de dados começam o trabalho com os dados, tendo o Python como a linguagem de programação mais popular usada por eles para trabalhar com os dados.
Depois de décadas de desenvolvimento de software livre, a Python fornece funcionalidades abrangentes com bibliotecas estatísticas e numéricas poderosas:
- NumPy e Pandas simplificam a análise e a manipulação de dados
- Matplotlib fornece visualizações de dados atraentes
- Scikit-learn proporciona análises de dados preditivas simples e eficazes
- TensorFlow e PyTorch fornecem recursos de aprendizado profundo e aprendizado de máquina
Cenário de exemplo
Normalmente, um projeto de análise de dados é projetado para estabelecer insights sobre um cenário específico ou para testar uma hipótese.
Por exemplo, suponha que um professor universitário colete dados de seus alunos, incluindo o número de palestras assistidas, as horas gastas nos estudos e a nota final do exame do final do semestre. O professor pode analisar os dados para determinar se há uma relação entre a quantidade de estudo que um aluno realiza e a nota final obtida. O professor pode usar os dados para testar uma hipótese de que somente os alunos que estudarem por um número mínimo de horas podem esperar obter uma nota para passar de ano.
O que faremos?
Neste módulo de treinamento, exploraremos e analisaremos dados das notas de uma turma universitária fictícia do ponto de vista de um professor. Usaremos notebooks Jupyter e várias ferramentas e bibliotecas do Python para limpar o conjunto de dados, aplicar técnicas estatísticas para testar várias hipóteses sobre os dados e a fim de visualizar os dados para determinar as relações entre variáveis.