Olá, meu nome é Pedro Henrique, e esse é meu repositório referente ao projeto final do módulo 1 do Bootcamp De Data Science Aplicada promovido pela Alura, esse módulo tratou sobre Python e pandas para análise de dados reais. Esse projeto teve como objetivo realizar uma análise exploratória em dados reais do Sistema Único de Saúde(SUS).
A análise exploratória tem como objetivo encontrar possíveis padrões de uma forma muito flexível procurando pistas e indícios sobre o comportamento dos dados, seu próposito é levantar hipóteses sobre a distribuição dos dados sem uma definição prévia e sem tranformações estatísticas.
O projeto foi dividido em 3 pastas diferentes, são elas:
Nesse diretório estão os dados coletados diretos da fonte sem nenhuma limpeza, no total foram coletados 5 bases de dados, 3 delas do datasus, referentes ao valor dos serviços hospitalares, número de AIHs(Autorização de Internação Hospitalar) aprovadas e média de permanência dos pacientes, todas foram coletadas com as colunas indicando o mês e o ano, e o index a Unidade Federativa correspondente.
Além disso foram utilizadas duas bases de dados auxiliares do IBGE, uma referente à população dos estados a cada ano, com o objetivo de realizar uma análise proporcional à população, e a outra referente ao valor do IPCA(Índice Nacional de Preços ao Consumidor Amplo) por mês, e foi utilizado para realizar uma correção nos valores hospitalares a fim de tentar passar uma visão mais real dos gastos ao longo do tempo.
Aqui estão as bases de dados após todos os tratamentos e limpeza realizados a fim de deixar as bases de dados em um padrão que fosse possível comparar todos os valores juntos.
Observação: a base de dados referente ao IPCA foi utilizada como uma base de dados auxiliar apenas para corrigir os valores gastos, portanto ela não foi utilizada na análise final e não precisou ser salva no repositório de dados limpos, além disso a base de dados sobre a população dos estados por ano foi tratada junto com as AIHs aprovadas e esses dados estão juntos no arquivo AIH_aprovadas_e_populacao.
Aqui se encontram os 5 notebooks utilizados na análise e além disso um arquivo python com as funções utilizadas nos notebooks, desses 5 notebooks, em 4 deles foram realizadas as transformações e limpeza necessárias a fim de deixar o notebook com a análise final mais limpo e focado na análise exploratória.
Aqui foi realizada a limpeza dos dados brutos, uma das partes mais importantes do projeto e mais trabalhosas, e, por essa razão, essa parte foi dividida em vários notebooks, seguindo o mesmo padrão:
-Dados restringidos entre Fevereiro de 2008 e Dezembro de 2019, pois ao se analisar dados reais, principalmente envolvendo saúde, temos que tomar cuidado com dados que apresentam dados faltantes ou desatualizados.
-Os dados foram manipulados para ter uma coluna só para as datas, uma coluna só para os estados, uma coluna para região do estado, e por fim uma coluna para os dados numéricos.
Foi realizada a leitura dos dados limpos que estão em 3 arquivos diferentes em 'DataFrames' do pandas, são eles:
-AIH aprovadas e população - arquivo csv dividido em 7 colunas: UF(estado), regiao, data(formato ano-mês-dia), AIH_aprovadas(números de AIH no período pelo estado), ano, pop(população naquele ano), AIH_por_mil(AIHs aprovadas a cada mil habitantes daquele estado)
-Média de permanência - arquivo csv dividido em 4 colunas: UF(estado), regiao, data(formato ano-mês-dia), perm_media(permanência média dos pacientes no período pelo estado)
-Valor hospitalar - arquivo csv dividido em 5 colunas: UF(estado), regiao, data(formato ano-mês-dia), valor_hospitalar(valor dos serviços hospitalares referente às AIH aprovadas no período), valor_corrigido(valor hospitalar gasto corrigido pelo IPCA no período pelo estado)
Nessa parte estão as funções utilizadas nos notebooks.
Nessa etapa do projeto todos três arquivos foram unidos em apenas um 'DataFrame' do pandas a fim de comparar todos os dados obtidos, além disso foram criadas colunas adicionais e novas tabelas agrupando os dados.
Essa foi a última fase do projeto e foi onde eu procurei encontrar o relacionamento dos dados, levantando hipóteses, nela foi possível comparar todas as bases de dados coletadas juntas, além disso foram utilizados diversos gráficos para melhorar o entendimento das variáveis e conseguir extrair informações.