A Semantix , por meio de sua plataforma Semantix Academy oferece um treinamento de Big Data Science, onde os aprovados aprenderam sobre:
- Big Data Foundations (Semana 1, 2 e 3)
- Armazenamento e Escrita de Dados (Semana 4)
- Estatística Descritiva (Semana 5)
- Python – Básico (Semana 6 e 7)Scikit-learn (Semana 8 e 9)
- PySpark (Semana 10)
- Redes Neurais (Semana 11)
- AG e NLP (Semana 12)
Como desafio final a Semantix propos para os alunos que analisássemos o banco de dados do Enem 2019 e usássemos as habilidades aprendidas e desenvolvidas no curso. Este repositório apresenta minha análise sobre os dados, incluindo o comando do projeto final, um Jupyter Notebook e um relatório PDF comunicando os achados.
No Enem de 2019, tivemos um total de 5095270 alunos, com 136 features (colunas) com informações diferentes, de 27 estados e 5570 municípios diferentes, com 82 idades diferentes relatadas (de 10 a 94 anos!), divididos entre brasileiros, naturalizados e estrangeiros, com representantes de cada uma das 5 cores/raças oficiais. Diante da riqueza de informações a serem analisadas, serão respondidas questões como:
- Quais regiões brasileiras obtiveram as melhores notas?
- Há diferença nas notas de homens e mulheres?
- A idade influencia na nota?
- Acesso à internet influencia na nota?
Com esta análise desses dados objetiva-se identificar padrões, tendências e oportunidades para habilitar tomadores de decisão a fazer seu trabalho de forma mais acertiva.
- Feature Engineering;
- Exploração de dados;
- Visualização de dados;
Ao final da análise, foi desenvolvido um modelo de regressão para ajudar os tomadores de decisão a prever os resultados e pensar em políticas públicas adequadas.