O Brasil em Dados | Covid, Vacinação, Economia e Política

Para o trabalho prático da disciplina de Introdução à Ciência dos Dados será desenvolvido um processamento dos dados sobre a pandemia do covid-19 no Brasil, além disso, os dados serão comparados a questões como a vacinação, situação socioeconômica e a questões políticas atuais no Brasil. A base de dados base será a disponibilizada no site do Governo sobre o Covid [1], sendo que além dele, para realizar a extração dos dados sobre a informações da vacinação no Brasil será usando o site, também do Governo, no caso do Ministério da Saúde, a extensão DEMAS [2], as informações sobre o PIB dos estados [3]), e por fim, falaremos sobre a relação entre os apoiadores do atual presidente e as demais informações [4].

TAREFAS REALIZADAS

🟣 QUESTÕES A SEREM VALIDADAS

🔵 PREPARAÇÃO DOS DADOS

⚪ ANÁLISE E EXTRAÇÃO DE CONHECIMENTO

🟡 ANÁLISE PREDITIVA

🔴 APRESENTAÇÃO

🟢 ORGANIZAÇÃO DO REPOSITÓRIO

🟠 AUTORES

🟣 QUESTÕES A SEREM VALIDADAS

A fim de facilitar aquilo que será avaliado no trabalho foram desenvolvidas algumas questões para auxiliar, divididas nas categorias citadas anteriormente, que irão se conectar ao tema geral.

🔢 Casos e Mortes por Covid

Amostragem dos casos de covid por estado.
Qual estado tem o maior número de casos acumulados de covid?
Qual estado apresentou o maior número de casos novos de covid em um determinado dia?
Qual estado tem a maior taxa de infectados por covid?
Qual o estado que teve a maior taxa de mortalidade? (a taxa de mortalidade consiste no número de óbitos dividido pelo número de casos)
Qual a maior taxa de crescimento de casos de covid em cada estado? Em que período isso ocorreu?
Qual a maior taxa de crescimento de óbitos de covid em cada estado? Em que período isso ocorreu?

📈 Taxa de Vacinação

Amostragem dos dados de vacinação por estado.
Qual o estado com maior taxa de vacinação?
Qual a região com maior taxa de vacinação?
Existe uma relação entre a taxa de vacinação e a diminuição de casos em cada estado?
Existe uma relação entre a taxa de vacinação e a diminuição de casos em cada região?

💰 Economia

Amostragem de situação socioeconômica por estado, através do PIB.
Os estados com menor PIB, tiveram alguma relação com o aumento de casos de covid?
Os estados com menor PIB, tiveram alguma relação com o taxa de mortes por covid?
Os estados com menor PIB, tiveram alguma relação com a taxa de vacinação de covid?

💼 Política

Amostragem de votos durante a última eleição a favor do atual presidente.
O apoio ao presidente tem alguma relação com os estados com maior taxa de casos de covid?
O apoio ao presidente tem alguma relação com os estados com maior taxa de óbitos por covid?
O apoio ao presidente tem alguma relação com os estados com maior taxa de vacinação?

🔵 PREPARAÇÃO DOS DADOS

Após a definição do conjunto de dados utilizados pelo grupo, se faz presente a preparação dos dados em ambiente para análise dos mesmos. Com esta etapa buscamos entender os atributos dos objetos, a tipagem dos atributos, domínio, tratar e identificar ruídos ou a falta de informações sensíveis.

🔢 Covid

O conjunto de dados relacionado a Covid 19, estava dividido em módulos, assim foi realizada sua junção em somente um dataFrame. A estrutura obtida apresente os seguintes atributos: regiao, estado, municipio, coduf, codmun, codRegiaoSaude, nomeRegiaoSaude, data, semanaEpi, populacaoTCU2019, casosAcumulado, casosNovos, obitosAcumulado, obitosNovos, Recuperadosnovos, emAcompanhamentoNovos, interior/metropolitana. Todos os atributos são do tipo Object.

Informação de Atributos

regiao - Nomes das regiões
estado - Nomes dos estados
municipio - Nomes dos municípios
coduf - Código identificador da Unidade Federativa, código de cada estado
codmun - Código identificador do município
codRegiaoSaude - Código identificador do sistema de saúda da região
nomeRegiaoSaude - Nome do sistema de sáude da região
data - Datas de marcação de casos
semanaEpi - Identificação da semana de epidemia
populacaoTCU2019 - População TCU
casosAcumulado - Número de casos acumulados
casosNovos - Número de novos casos
obitosAcumulado - Número com o total de obtos acumulados
obitosNovos - Número com o registro de novos obtos
Recuperadosnovos - Número com o registro de pacientes recuperados
emAcompanhamentoNovos - Número de pacientes em acompanhamento
interior/metropolitana - Marcação da zona sendo interior o metropolitana

A verificação inicial foi realizada com o atributo data, nosso objetivo visou a identificação do período inicial e final da coleta de dados, para assim ter a referência correta do tempo, ou seja, data inicial e final. O resultado obtido foram as datas: 25 de fevereiro de 2020(25/02/2020) e 22 de agosto de 2021. Com isso, foi possível identificar um total de 545 dias e fazer verificações com municípios.

No decorre da análise se deparamos com uma grande quantidade de atributos presente no dataframe. Assim, foi decidido realizar uma redução do tamanho com a remoção dos seguintes atributos: coduf, codmun, codRegiaoSaude, nomeRegiaoSaude, Recuperadosnovos, emAcompanhamentoNovos e interior/metropolitana. Essas colunas não são relevantes para as informações que queremos levantar, assim se fez necessário as suas remoções.

Em relação a retirada de ruídos, em prévia visualização das informações que são relevantes ao estudo, não apresentaram erros prejudiciais à análise. Desse modo, a priori não foi realizada remoção de ruídos.

📈 Vacinação

Os dados presentes para realizar a análise da vacinação, são separados em dois conjuntos. O primeiro conjunto contém informações gerais sobre a campanha de vacinação realizada como: Município, Cód. IBGE, UF, Região, Fabricante, Doses Aplicadas, Dose 1, Dose 2. No segundo conjunto temos das datas referentes a vacinação com ênfase nas datas realizadas.

Informação de Atributo

Município - Nomes dos municípios
Cód. IBGE - Número com o códifo do IBGE por município
UF - Nome da Unidade Federativa, nome do estado
Região - Nomes das regiões
Fabricante - Nomes das empressas fabrícantes das vacinas
Doses Aplicadas - Número com a quantidade de doses aplicadas(Dose 1 + Dose 2)
Dose 1 - Número com a quantidade da aplicação da primeira dose
Dose 2 - Número com a quantidade da aplicação da segunda dose

Filtragem em ruídos, se fez necessário somente no segundo conjunto. Foi identificado datas nulas, sendo as mesmas marcadas com '-', assim foram retiradas.

Em relação aos atributos, se fez necessário a remoção dos seguintes: Cód. IBGE, Dose 1, Dose 2. Com foi supracitado, buscamos a redução do dataframe. Além disso, realizar em manter somente atributos relevantes para a análise.

💰💼 Economia e Política

Visto que as informações de PIB e dos votos recebidos ao atual presidente na última eleição (no ano de 2018) serão utilizadas apenas como base de comparação com os demais conjuntos de dados, vistos anteriormente, não foi necessário realizar nenhuma limpeza dos dados, bastando apenas deixar os mesmos registrados no arquivo DadosEleicoesePIB.ipynb

No arquivo que contém as informações podemos verificar os respectivos valores de PIB de cada estado brasileiro, além da porcentagem de votos que o atual presidente (Jair Bolsonaro) recebeu em cada estado brasileiro durante a eleição.

⚪ ANÁLISE E EXTRAÇÃO DE CONHECIMENTO

Como uma das partes finais do projeto, temos que foram gerados gráficos, tabelas, além de diversas análises para responder as questões levantadas na primeira sessão, sendo que as mesmas estão presentes no arquivo: AnaliseExtracaoConhecimento.ipynb

🟡 ANÁLISE PREDITIVA

Para a última etapa do trabalho foram feitos dois tipos de análises preditivas, uma que demonstra o agrupamento dos dados, mostrando sua correlação, e o outro com categorização. Ambas as análises preditivas estão no final do arquivo: AnaliseExtracaoConhecimento.ipynb.

AGRUPAMENTO DE DADOS

Para fazermos os agrupamentos, foram usadas as bases de dados de vacinação e os casos e mortes por covid, sendo os mesmos agrupados pelas regiões do Brasil. Para as análises, usamos de regressões lineares, para cada pessoa vacinada impacta de acordo com o coeficiente estimado no número de óbitos. A partir disso foi possível notar que em todas as regiões, os valores do coeficiente estimado e o R² sairam extremamente baixos, sendo isto justificado pela pequena parcela da população vacinada, além do fato, de que as vacinas são efetivas à longo prazo.

CATEGORIZAÇÃO

Já na categorização foram usados os dados da vacinação relacionados com o PIB e a População de cada região. No primeiro caso, o aprendizado de máquina não supervisionado foi utilizado de forma a analisar a relação entre a Taxa de Vacinados e o PIB, porém, ele não chegou a um agrupamento similar ao real, sendo isso principalmente justificado por termos outliers, como o estado de São Paulo, que ficou categorizado como uma região única. No segundo caso, o aprendizado de máquina não supervisionado foi utilizado de forma a analisar a relação entre o Número de Habitantes e o PIB, que assim como no caso anterior não foi possível chegar próxima do agrupamento real, repetindo o caso citado sobre o estado de São Paulo..

🔴 APRESENTAÇÃO

Foi feita uma apresentação após a análise e extração dos conhecimentos dos dados selecionados. Essa apresentação pode ser vista na plataforma do Youtube, em formato de vídeo, ou então os slides usados para a mesma. Os links para ambos os casos é: Vídeo e Slides

🟢 ORGANIZAÇÃO DO REPOSITÓRIO

No repositório teremos a inserção do Jupyter Notebook utilizado para a validação das informações do trabalho, dessa forma, na pasta base teremos o arquivo .ipynb, e uma pasta com os arquivos do tipo, por exemplo .csv, utilizados durante o processamento do trabalho.

Além disso, teremos o arquivo requirements.txt utilizado para a instalação do ambiente virtual do trabalho, bastando usar os comandos abaixo, considerando que Virtualenv do Python já está instalado na máquina.

python3 -m venv trabalhoPraticoBrasilemDados
trabalhoPraticoBrasilemDados/bin/pip3 install --upgrade pip
trabalhoPraticoBrasilemDados/bin/pip3 install -r requirements.txt
clear
echo "Pacotes instalados:"
trabalhoPraticoBrasilemDados/bin/pip3 freeze

Após instalado o ambiente virtual utilizado, basta executar o mesmo, e executar o Jupyter Notebook, como mostrado abaixo.

source trabalhoPraticoBrasilemDados/bin/activate

jupyter-notebook

🟠 AUTORES

Estela Miranda - Estelamb

João Marcos Ramos - raitocan

Roniel Barbosa - RonielNunes

Name		Name	Last commit message	Last commit date
Latest commit History 41 Commits
Dados		Dados
Preparação dos Dados		Preparação dos Dados
.gitignore		.gitignore
AnaliseExtracaoConhecimento.ipynb		AnaliseExtracaoConhecimento.ipynb
BrasilEmDados.pdf		BrasilEmDados.pdf
README.md		README.md
desktop.ini		desktop.ini
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

O Brasil em Dados | Covid, Vacinação, Economia e Política

🟣 QUESTÕES A SEREM VALIDADAS

🔢 Casos e Mortes por Covid

📈 Taxa de Vacinação

💰 Economia

💼 Política

🔵 PREPARAÇÃO DOS DADOS

🔢 Covid

Informação de Atributos

📈 Vacinação

Informação de Atributo

💰💼 Economia e Política

⚪ ANÁLISE E EXTRAÇÃO DE CONHECIMENTO

🟡 ANÁLISE PREDITIVA

AGRUPAMENTO DE DADOS

CATEGORIZAÇÃO

🔴 APRESENTAÇÃO

🟢 ORGANIZAÇÃO DO REPOSITÓRIO

🟠 AUTORES

About

Releases

Packages

Contributors 3

Languages

stardotwav/BrasilEmDados

Folders and files

Latest commit

History

Repository files navigation

O Brasil em Dados | Covid, Vacinação, Economia e Política

🟣 QUESTÕES A SEREM VALIDADAS

🔢 Casos e Mortes por Covid

📈 Taxa de Vacinação

💰 Economia

💼 Política

🔵 PREPARAÇÃO DOS DADOS

🔢 Covid

Informação de Atributos

📈 Vacinação

Informação de Atributo

💰💼 Economia e Política

⚪ ANÁLISE E EXTRAÇÃO DE CONHECIMENTO

🟡 ANÁLISE PREDITIVA

AGRUPAMENTO DE DADOS

CATEGORIZAÇÃO

🔴 APRESENTAÇÃO

🟢 ORGANIZAÇÃO DO REPOSITÓRIO

🟠 AUTORES

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Languages

Packages