faza3_1.Rmd

---
title: "Modele predykcji zachorowań na raka"
author: "Patrzycja Matys, Jan Rosa, Krzysztof Rutkowski, Magda Sobiczewska"
date: "18 czerwca 2016"
output: html_document
---

#Wprowadzenie
## Przygotowanie danych
Do predykcji przygotowaliśmy dane dotyczące powiatów, gdzie zmienną objaśnianą jest znormalizowany
(przez liczbę osób w powiecie) **odsetek chorych na raka piersi**. Zaś zmiennymi objaśniającymi
są czynniki wymienione w częsci poświećonej metodologii. Poniższa tabela przedstawia omawiane zmienne.
```{r}
kable(head(y11[,1:6]))
kable(head(y11[,7:12]))
kable(head(y11[,13:18]))
```

## Sposób predykcji

Zdoloność predykcyjną modeli zbadaliśmy estymując model na podstawie danych z **2011** roku, a następnie porównujac predykcję modelu na **2012** roku z rzeczywistymi wartościami. Za kryterium obraliśmy błąd RMSE.

```{r include=FALSE}
mse <- function(pred, y) {
  return(mean((pred-y)^2, na.rm=TRUE))
}
rmse <- function(pred, y) {
  return(sqrt(mean((pred-y)^2, na.rm=TRUE)))
}
```

#Użyte modele
Używaliśy następujących metod:    
<ul>
<li> regresja liniowa </li>
<li> xgboost </li>
</ul>


##########
Widzimy, że najlepiej sprawdzały się **regresja liniowa i xgboost**. Te metody omówimy szerzej.

#Metodologia i wybór czynników

Na podstawie literatury przedmiotu, w poprzedniej fazie zauważyliśmy że następujące czynniki są ważne:
<ul>
<li>wiek</li>
<li>płeć</li> 
<li>stężenie szkodliwych pyłów</li>
<li>stężenie szkodliwych gazów</li>
<li>urbanizację</li> 
<li>gęstość zaludnienia</li>
</ul> 


W trzeciej fazie postanowiliśmy dodać także czynniki:
ul>
<li>spożycie alkoholu alkoholu wśród kobiet (dane dla województw)</li> 
<li>spożycie alkoholu alkoholu wśród mężczyzn (dane dla województw)</li> 
<li>otyłość wśród kobiet (dane dla województw)</li> 
<li>otyłość wśród mężczyzn (dane dla województw)</li> 
<li>liczbę osób zarejestrowanych w poradniach psychologicznych (o zaburzeniach nie alkoholowych ani nie schizofrenicznych)</li> 
<li>liczbę osób z zaburzeniami psychicznymi (dane dla województw)</li>
<li>liczbę osób chorych w poprzednim okresie</li>
</ul>
Za jedne z najważniejszych przyczyn nowotworu złośliwego piersi jest uznawane spożycie alkoholu oraz otyłość, z tego powodu dodaliśmy pierwsze cztery czynniki. Za bardzo ważny determinant uznawany jest również  poziom stresu, który przybliżać mają zmienne opisujące liczbę osób z problemami psychicznymi. 

    
#Użyte modele
##Modele liniowe
W pierwszej kolejnosći sprawdzono 
```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
library(glmnet)
library(knitr)
mse <- function(pred, y) {
  return(mean((pred-y)^2, na.rm=TRUE))
}
rmse <- function(pred, y) {
  return(sqrt(mean((pred-y)^2, na.rm=TRUE)))
}
```
W pierwszej kolejnosci oszacowalismy i przetstowano modele linowe. Estymacji dokonaliśmy na danych z 2011 roku.Następnie przetetowaliśmy moc predykcyjną modeli, porównujac predykcję na 2012 rok z danymi. Ponieważ modele linowe mają podobne własności, postanowiliśmy wybrać najlepszy pod wzgledem RMSE, dokałdne zaś analizy  rozkładu błędów wykonaliśmy przy poróWnaniu najlepszego zmodlei liniowych z innymi typami modeli.   

Z modeli linowych na początku oszacowano zwykły model regresji. W zbiorze zmeinnych objaśnianych znalazły się wszytskie rozważane przez nas zmienne, a także interakcje miedzy zmiennymi wiek a urbanizacja. Pierwszy model wykorzystywał wszystkie zmienne, drugi zmienne wybrane na podstawie kryterium BIC.Otrzymano następujące modele.

```{r cars, echo=FALSE}
#print(getwd())
load(file="regresja_dane.Rdata")
fit1_normal1<-lm(zm_dec.x~ GAZY +GESTOSC+ZIELONE+ URBANIZACJA+
                   ZAGROZENIA+PYLY+GENDER*Fotytly*URBANIZACJA+
                   GENDER*Falkohol*URBANIZACJA+GENDER*Motytly+GENDER*Malkohol+
                   URBANIZACJA+as.factor(AGE_GROUP)*URBANIZACJA+nsrednia.y+zsrednia.y+nsrednia.y*URBANIZACJA+opoznienie, data=y11)

fit1_aic<-step(fit1_normal1,data=grupa_m3, direction="backward",criterion = "BIC", trace=0)
summary(fit1_normal1)
summary(fit1_aic)

```

Jak widać w obu przydadkach, za istotne zmienne, na podstawie testu t, należy uznać: Urbanizację, gestość zaludnenia, wiek, a także liczbę osób zarejestrowanych w poradniach psychologicznych.  

```{r kable, echo=FALSE}
res <- data.frame(matrix(ncol=2, nrow=2))
colnames(res) <- c("model", "wyniki")
res$model <- c("normal", "aic")
res$wyniki <- c(rmse(predict(fit1_normal1,y12), y12$zm_dec.x)*10^5, 
                rmse(predict(fit1_aic,y12), y12$zm_dec.x)*10^5)
kable(res)

b1<-predict(fit1_aic,y12)- y12$zm_dec.x
b2<-as.data.frame(b1)
```

Następnie na oszacowano uogólnione modele regresji  wykorzystujące wszytskie zmienne, oraz zmienne wybrane na podstawie kryterium BIC. Analogicznie do modeli regresji liniowej przetestowano ich moc predykcyjną.
Z współczynnik alfa przyjęto:
<ul>
<li>1.0 (lasso)</li>
<li>0.5</li> 
<li>0.25</li> 
<li>0.0 (ridge)</li> 
</ul>
```{r, echo=FALSE}
f <- as.formula(zm_dec.x~ GAZY +GESTOSC+ZIELONE+ URBANIZACJA+
                  ZAGROZENIA+PYLY+Fotytly*URBANIZACJA+
                  Falkohol+Motytly+GENDER*Malkohol+
                  URBANIZACJA+as.factor(AGE_GROUP)+nsrednia.y+zsrednia.y
                +nsrednia.y*URBANIZACJA+opoznienie)
                
options(na.action='na.omit')

x1 <- model.matrix(f, y11,na.action=NULL)
x2<-as.data.frame(x1)
y1 <- na.omit(y11)
library(glmnet)

wynik_cv_lasso<-cv.glmnet(x=x1,y=as.matrix(y1[,17]), alpha=1)
wynik_cv_ridge<-cv.glmnet(x=x1,y=as.matrix(y1[,17]),alpha=0)
wynik_cv_pol<-cv.glmnet(x=x1,y=as.matrix(y1[,17]),alpha=1/2)
wynik_cv_pol1<-cv.glmnet(x=x1,y=as.matrix(y1[,17]),alpha=1/4)


y12<-subset(y12, TERYT4!=1461)
y2 <- na.omit(y12)
y21 <- y12[complete.cases(y12),]

wynik_cv_lasso_pred<-predict.cv.glmnet(object =wynik_cv_lasso,newx=model.matrix(f, y12,na.action=NULL),)
wynik_cv_ridge_pred<-predict.cv.glmnet(object =wynik_cv_ridge,newx=model.matrix(f, y12,na.action=NULL),)
wynik_cv_pol_pred<-predict.cv.glmnet(object =wynik_cv_pol,newx=model.matrix(f, y12,na.action=NULL),)
wynik_cv_pol1_pred<-predict.cv.glmnet(object =wynik_cv_pol1,newx=model.matrix(f, y12,na.action=NULL),)


```
Wyniki dla uogólnionych modeli
```{r, echo=FALSE}
res <- data.frame(matrix(ncol=2, nrow=4))
colnames(res) <- c("model", "wyniki")
res$model <- c("lasso", "ridge", "alfa 0.5", "alfa 0.25")
res$wyniki <- c(rmse(y2[,17], wynik_cv_lasso_pred)*10^5, 
                rmse(y2[,17], wynik_cv_ridge_pred)*10^5,
                rmse(y2[,17], wynik_cv_pol_pred)*10^5,
                rmse(y2[,17], wynik_cv_pol1_pred)*10^5)
kable(res)
```


```{r, echo=FALSE}
f1<-formula(fit1_aic)

x1 <- model.matrix(f1, y11,na.action=NULL)
y1 <- na.omit(y11)


wynik_cv_lasso<-cv.glmnet(x=x1,y=as.matrix(y1[,17]), alpha=1)
wynik_cv_ridge<-cv.glmnet(x=x1,y=as.matrix(y1[,17]),alpha=0)
wynik_cv_pol<-cv.glmnet(x=x1,y=as.matrix(y1[,17]),alpha=1/2)
wynik_cv_pol1<-cv.glmnet(x=x1,y=as.matrix(y1[,17]),alpha=1/4)



y2 <- na.omit(y12)

wynik_cv_lasso_pred<-predict.cv.glmnet(object =wynik_cv_lasso,newx=model.matrix(f1, y12,na.action=NULL),)
wynik_cv_ridge_pred<-predict.cv.glmnet(object =wynik_cv_ridge,newx=model.matrix(f1, y12,na.action=NULL),)
wynik_cv_pol_pred<-predict.cv.glmnet(object =wynik_cv_pol,newx=model.matrix(f1, y12,na.action=NULL),)
wynik_cv_pol1_pred<-predict.cv.glmnet(object =wynik_cv_pol1,newx=model.matrix(f1, y12,na.action=NULL),)


res <- data.frame(matrix(ncol=2, nrow=4))
colnames(res) <- c("model", "wyniki")
res$model <- c("lasso", "ridge", "alfa 0.5", "alfa 0.25")
res$wyniki <- c(rmse(y2[,17], wynik_cv_lasso_pred)*10^5, 
                rmse(y2[,17], wynik_cv_ridge_pred)*10^5,
                rmse(y2[,17], wynik_cv_pol_pred)*10^5,
                rmse(y2[,17], wynik_cv_pol1_pred)*10^5)
kable(res)

```
Ostaeczne wyniki przedstawia tabela
```{r}
res
b2<-na.omit(b2)
boxplot(b2$b1)
```

Ostaecznie więc przetestowanie mocy predykcyjnej modeli na danych z 2012 roku wskazało iz najlepiej radzi sobie model liniowy, z zestawiem zmiennych wybranych na podtsawie kryterium BIC.  

Przeprowadzono takz analizy dla modeli estymowanych osobno dla obu płci, jednak ich moc predykcyjna okazała sie zdecydowanie gorsza.

##Pozostałe modele
#Końcowy model
```{r}
```

#Wnioski