Para o trabalho prático da disciplina de Introdução à Ciência dos Dados será desenvolvido um processamento dos dados sobre a pandemia do covid-19 no Brasil, além disso, os dados serão comparados a questões como a vacinação, situação socioeconômica e a questões políticas atuais no Brasil. A base de dados base será a disponibilizada no site do Governo sobre o Covid [1], sendo que além dele, para realizar a extração dos dados sobre a informações da vacinação no Brasil será usando o site, também do Governo, no caso do Ministério da Saúde, a extensão DEMAS [2], as informações sobre o PIB dos estados [3]), e por fim, falaremos sobre a relação entre os apoiadores do atual presidente e as demais informações [4].
TAREFAS REALIZADAS
⚪ ANÁLISE E EXTRAÇÃO DE CONHECIMENTO
A fim de facilitar aquilo que será avaliado no trabalho foram desenvolvidas algumas questões para auxiliar, divididas nas categorias citadas anteriormente, que irão se conectar ao tema geral.
- Amostragem dos casos de covid por estado.
- Qual estado tem o maior número de casos acumulados de covid?
- Qual estado apresentou o maior número de casos novos de covid em um determinado dia?
- Qual estado tem a maior taxa de infectados por covid?
- Qual o estado que teve a maior taxa de mortalidade? (a taxa de mortalidade consiste no número de óbitos dividido pelo número de casos)
- Qual a maior taxa de crescimento de casos de covid em cada estado? Em que período isso ocorreu?
- Qual a maior taxa de crescimento de óbitos de covid em cada estado? Em que período isso ocorreu?
- Amostragem dos dados de vacinação por estado.
- Qual o estado com maior taxa de vacinação?
- Qual a região com maior taxa de vacinação?
- Existe uma relação entre a taxa de vacinação e a diminuição de casos em cada estado?
- Existe uma relação entre a taxa de vacinação e a diminuição de casos em cada região?
- Amostragem de situação socioeconômica por estado, através do PIB.
- Os estados com menor PIB, tiveram alguma relação com o aumento de casos de covid?
- Os estados com menor PIB, tiveram alguma relação com o taxa de mortes por covid?
- Os estados com menor PIB, tiveram alguma relação com a taxa de vacinação de covid?
- Amostragem de votos durante a última eleição a favor do atual presidente.
- O apoio ao presidente tem alguma relação com os estados com maior taxa de casos de covid?
- O apoio ao presidente tem alguma relação com os estados com maior taxa de óbitos por covid?
- O apoio ao presidente tem alguma relação com os estados com maior taxa de vacinação?
Após a definição do conjunto de dados utilizados pelo grupo, se faz presente a preparação dos dados em ambiente para análise dos mesmos. Com esta etapa buscamos entender os atributos dos objetos, a tipagem dos atributos, domínio, tratar e identificar ruídos ou a falta de informações sensíveis.
O conjunto de dados relacionado a Covid 19, estava dividido em módulos, assim foi realizada sua junção em somente um dataFrame. A estrutura obtida apresente os seguintes atributos: regiao, estado, municipio, coduf, codmun, codRegiaoSaude, nomeRegiaoSaude, data, semanaEpi, populacaoTCU2019, casosAcumulado, casosNovos, obitosAcumulado, obitosNovos, Recuperadosnovos, emAcompanhamentoNovos, interior/metropolitana. Todos os atributos são do tipo Object.
- regiao - Nomes das regiões
- estado - Nomes dos estados
- municipio - Nomes dos municípios
- coduf - Código identificador da Unidade Federativa, código de cada estado
- codmun - Código identificador do município
- codRegiaoSaude - Código identificador do sistema de saúda da região
- nomeRegiaoSaude - Nome do sistema de sáude da região
- data - Datas de marcação de casos
- semanaEpi - Identificação da semana de epidemia
- populacaoTCU2019 - População TCU
- casosAcumulado - Número de casos acumulados
- casosNovos - Número de novos casos
- obitosAcumulado - Número com o total de obtos acumulados
- obitosNovos - Número com o registro de novos obtos
- Recuperadosnovos - Número com o registro de pacientes recuperados
- emAcompanhamentoNovos - Número de pacientes em acompanhamento
- interior/metropolitana - Marcação da zona sendo interior o metropolitana
A verificação inicial foi realizada com o atributo data, nosso objetivo visou a identificação do período inicial e final da coleta de dados, para assim ter a referência correta do tempo, ou seja, data inicial e final. O resultado obtido foram as datas: 25 de fevereiro de 2020(25/02/2020) e 22 de agosto de 2021. Com isso, foi possível identificar um total de 545 dias e fazer verificações com municípios.
No decorre da análise se deparamos com uma grande quantidade de atributos presente no dataframe. Assim, foi decidido realizar uma redução do tamanho com a remoção dos seguintes atributos: coduf, codmun, codRegiaoSaude, nomeRegiaoSaude, Recuperadosnovos, emAcompanhamentoNovos e interior/metropolitana. Essas colunas não são relevantes para as informações que queremos levantar, assim se fez necessário as suas remoções.
Em relação a retirada de ruídos, em prévia visualização das informações que são relevantes ao estudo, não apresentaram erros prejudiciais à análise. Desse modo, a priori não foi realizada remoção de ruídos.
Os dados presentes para realizar a análise da vacinação, são separados em dois conjuntos. O primeiro conjunto contém informações gerais sobre a campanha de vacinação realizada como: Município, Cód. IBGE, UF, Região, Fabricante, Doses Aplicadas, Dose 1, Dose 2. No segundo conjunto temos das datas referentes a vacinação com ênfase nas datas realizadas.
- Município - Nomes dos municípios
- Cód. IBGE - Número com o códifo do IBGE por município
- UF - Nome da Unidade Federativa, nome do estado
- Região - Nomes das regiões
- Fabricante - Nomes das empressas fabrícantes das vacinas
- Doses Aplicadas - Número com a quantidade de doses aplicadas(Dose 1 + Dose 2)
- Dose 1 - Número com a quantidade da aplicação da primeira dose
- Dose 2 - Número com a quantidade da aplicação da segunda dose
Filtragem em ruídos, se fez necessário somente no segundo conjunto. Foi identificado datas nulas, sendo as mesmas marcadas com '-', assim foram retiradas.
Em relação aos atributos, se fez necessário a remoção dos seguintes: Cód. IBGE, Dose 1, Dose 2. Com foi supracitado, buscamos a redução do dataframe. Além disso, realizar em manter somente atributos relevantes para a análise.
Visto que as informações de PIB e dos votos recebidos ao atual presidente na última eleição (no ano de 2018) serão utilizadas apenas como base de comparação com os demais conjuntos de dados, vistos anteriormente, não foi necessário realizar nenhuma limpeza dos dados, bastando apenas deixar os mesmos registrados no arquivo DadosEleicoesePIB.ipynb
No arquivo que contém as informações podemos verificar os respectivos valores de PIB de cada estado brasileiro, além da porcentagem de votos que o atual presidente (Jair Bolsonaro) recebeu em cada estado brasileiro durante a eleição.
Como uma das partes finais do projeto, temos que foram gerados gráficos, tabelas, além de diversas análises para responder as questões levantadas na primeira sessão, sendo que as mesmas estão presentes no arquivo: AnaliseExtracaoConhecimento.ipynb
Para a última etapa do trabalho foram feitos dois tipos de análises preditivas, uma que demonstra o agrupamento dos dados, mostrando sua correlação, e o outro com categorização. Ambas as análises preditivas estão no final do arquivo: AnaliseExtracaoConhecimento.ipynb.
Para fazermos os agrupamentos, foram usadas as bases de dados de vacinação e os casos e mortes por covid, sendo os mesmos agrupados pelas regiões do Brasil. Para as análises, usamos de regressões lineares, para cada pessoa vacinada impacta de acordo com o coeficiente estimado no número de óbitos. A partir disso foi possível notar que em todas as regiões, os valores do coeficiente estimado e o R² sairam extremamente baixos, sendo isto justificado pela pequena parcela da população vacinada, além do fato, de que as vacinas são efetivas à longo prazo.
Já na categorização foram usados os dados da vacinação relacionados com o PIB e a População de cada região. No primeiro caso, o aprendizado de máquina não supervisionado foi utilizado de forma a analisar a relação entre a Taxa de Vacinados e o PIB, porém, ele não chegou a um agrupamento similar ao real, sendo isso principalmente justificado por termos outliers, como o estado de São Paulo, que ficou categorizado como uma região única. No segundo caso, o aprendizado de máquina não supervisionado foi utilizado de forma a analisar a relação entre o Número de Habitantes e o PIB, que assim como no caso anterior não foi possível chegar próxima do agrupamento real, repetindo o caso citado sobre o estado de São Paulo..
Foi feita uma apresentação após a análise e extração dos conhecimentos dos dados selecionados. Essa apresentação pode ser vista na plataforma do Youtube, em formato de vídeo, ou então os slides usados para a mesma. Os links para ambos os casos é: Vídeo e Slides
No repositório teremos a inserção do Jupyter Notebook utilizado para a validação das informações do trabalho, dessa forma, na pasta base teremos o arquivo .ipynb, e uma pasta com os arquivos do tipo, por exemplo .csv, utilizados durante o processamento do trabalho.
Além disso, teremos o arquivo requirements.txt
utilizado para a instalação do ambiente virtual do trabalho, bastando usar os comandos abaixo, considerando que Virtualenv do Python já está instalado na máquina.
python3 -m venv trabalhoPraticoBrasilemDados
trabalhoPraticoBrasilemDados/bin/pip3 install --upgrade pip
trabalhoPraticoBrasilemDados/bin/pip3 install -r requirements.txt
clear
echo "Pacotes instalados:"
trabalhoPraticoBrasilemDados/bin/pip3 freeze
Após instalado o ambiente virtual utilizado, basta executar o mesmo, e executar o Jupyter Notebook, como mostrado abaixo.
source trabalhoPraticoBrasilemDados/bin/activate
jupyter-notebook
Estela Miranda - Estelamb
João Marcos Ramos - raitocan
Roniel Barbosa - RonielNunes