Este repositório contém os projetos desenvolvidos por mim durante o curso de Ciência de Dados da Blue.
No primeiro módulo foram estudados conteúdos introdutórios de Ciência de Dados. As principais ferramentas utilizadas foram: Orange e Pandas. Foram estudados conceitos sobre os seguintes modelos: KNN, Nayve Bayes, Árvore de Decisão, SVM.
No projeto final do módulo foi realizada a implementação de um modelo de árvores de decisão utilizando estruturas condicionais e funções para realizar a classificação das fores do dataset Íris. O objetivo do projeto era praticar o uso do Pandas e estruturas do Python. Foram implementados conceitos de Ciência de Dados como: matriz de confusão e métricas de avaliação de modelos de machine learning (acurácia, precisão, recall).
Neste módulo foram estudados modelos de machine learning para: regressão, classificação e agrupamento. Além da teoria dos modelos também foi visto como implementar os modelos utilizando bibliotecas do Python. As principais ferramentas utilizadas foram: pandas, statsmodel, sklearn, matplotlib e seaborn. O modelo de regressão aprendido foi o de Regressão Linear (simples e múltipla). O módelo de classificação estudado foi a Regressão Logística. O modelos de agrupamento estudados foram: K-Means, K-Medoids e Hierárquico. um texto
No projeto 01 foi realizada a implementação de um modelo de Regressão Linear Multivariada para realizar a predição de preços de imóveis. O Dataset utilizado está dispnível do Kaggle e conta com dados de diversos imóveis da região de King County. O objetivo é implmentar capaz de predizer o valor do imóvel a partir do conjunto de informaçãos fornecidos. Para alcançar o melhor desempenho possível do modelo de Regressão Linear foi realizada a Análise Exploratória dos dados a fim de identificar quais variáveis mais contribuem para o preço dos imóveis da região. Também foi ulizado o método RFE para realizar a seleção automática das variáveis mais importantes para a definição dos preços das casas. O modelo final teve uma acurácia de 0,85 e foram selecionadas as seguintes variáveis como preditores: nº de banheiros, qualidade da vista, latitude, área do imóvel, idade do imóvel.
No projeto 02 foram utilizados dados de de Câncer de Mama do UCI e Regressão Logística para realizar a classificação de pacientes com câncer ou sem câncer. O objetivo deste conjunto de dados é classificar se uma paciente possui ou não câncer de mama a partir destas variáveis obtidas através do exame de sangue. Foi realizada uma análise exploratória para identificar quais as principais caraceterísticas dos pacientes com câncer e verificou-se que pacientes com câncer, neste dataset, tendem a ser mais velhas que as sem câncer além de terem níveis de insulina e glicose mais elevados no sangue. O modelo implementado teve acurácia de 0.86 e precisão de 0.85.
No projeto 03 foi implementado um modelo de agrupamento utilizando o K-Means. Neste projeto o obejtivo era agrupar os clientes de uma rede de vendas de acordo com suas principais caracetrísticas. Para a aplicação do método dos K-Means foi necessário realizar um pré-processamento dos dados para a normalização, já que as variáveis estavam em diferentes escalas de grandeza, o que influencia no desempenho do K-Means que é um método baseado em distância. Na base de dados existia uma coluna referente a Região onde foram feitas as vendas númeradas de 1 a 3, como não há diferença de peso entre as regiões apenas pela ordem numérica estas regiões foram separadas em diferentes colunas utilizando o método get_dummies
do pandas
. O método do K-Means mostrou que, segundo a metodologia aplicada, a melhor forma de agrupamento dos cliente seriam dividi-los em quatro grupos. Nitidamente a região onde foram feitas as compras foi um fator determinante juntamente com a origem do cliente (varejo ou turista).