-
Notifications
You must be signed in to change notification settings - Fork 0
/
lab2.Rmd
187 lines (126 loc) · 7.02 KB
/
lab2.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
---
title: "Problema 1 - Checkpoint 3 - Sua análise"
author: "Thierry Barros"
date: "April 25, 2018"
output:
html_document:
df_print: paged
toc: yes
toc_float: yes
html_notebook:
toc: yes
toc_float: yes
---
```{r setup, echo=FALSE, warning=FALSE, message=FALSE}
library(tidyverse)
library(here)
theme_set(theme_bw())
```
```{r}
episodes = read_csv(here("data/series_from_imdb.csv"),
progress = FALSE,
col_types = cols(.default = col_double(),
series_name = col_character(),
episode = col_character(),
url = col_character(),
season = col_character()))
seriesLongas = group_by(episodes,series_name) %>% summarise(NTemporadas=n_distinct(season)) %>% arrange(desc(NTemporadas))
top40 = head(seriesLongas, n=40)
series8temporadas = top40 %>% filter(NTemporadas==8)
```
#1. Séries com muitas temporadas mantém a qualidade nas avaliações?
Para analisar e responder essa questão selecionei 10 séries com 8 temporadas. Fizemos um gráfico para ver a variação da média de avalição dos usuários no decorrer das temporadas.
```{r}
series8temporadas = episodes %>% filter(series_name %in% series8temporadas$series_name )
avaliacao = group_by(series8temporadas,series_name,season) %>% summarise(Total=mean(user_rating)) %>% arrange(desc(season))
avaliacao %>% ggplot(aes(x = season, y = Total, color = season)) +
geom_point() +
facet_wrap(~ series_name)+ xlab("Temporadas") +
ylab("Média de Avaliação")
avaliacaoDesvio = group_by(series8temporadas,series_name) %>% summarise(Desvio=sd(user_rating))
avaliacaoDesvio[order(avaliacaoDesvio$Desvio),]
```
Olhando podemos ver que em geral as séries tem um inicio mediano, tendem a melhorar até a metade da temporadas e tem um decaída pro final. Mas a variação das médias de notas por temporadas não é muito grande fica em torno de 0.5 pontos para mais ou menos.
```{r}
avaliacao %>%
ggplot(aes(x = series_name, y = Total)) +
geom_boxplot(width = .5, outlier.color = NA) +
geom_jitter(width = .1, size = 2, alpha = .5, color = "red")
```
Outra maneira de vizualizar esses dados é utilizando box_plot para notar a dispersão das notas por temporadas, a variação em geral não passar de 1 ponto de diferença, reforçando a hipótese de que séreis grandes mantém a qualidade.
#Essa próxima análise foi só para checar se existe alguma relação entre o número de votos e o média de avalição nas séries. E também se tem relação entre o número de episódios e a popularidade da série.
```{r}
seriesMaisVotadas = group_by(episodes,series_name) %>% summarise(Media = mean(user_rating),NVotos=sum(user_votes)) %>% arrange(desc(Media))
cor(seriesMaisVotadas$Media,seriesMaisVotadas$NVotos)
seriesLongasEP = group_by(episodes,series_name) %>% summarise(NEpisodios=n(),Popularidade = sum(user_votes)) %>% arrange(desc(NEpisodios))
cor(seriesLongasEP$NEpisodios,seriesLongasEP$Popularidade)
```
O valores de correlação pra os dois casos foram pequenos, mostrando assim que a relação é fraca.
#2. Como se comporta o número de votos por episódio ao decorrer das temporadas?
Isso é pra avaliar se a populariade da série aumenta com o decorrer das temporadas.
Para responder essa questão eu utilizei os dados da série Sobrenatural que tem 12 temporadas.
```{r}
supernatural = episodes %>% filter(series_name == "Supernatural" )
supernatural %>% ggplot(aes(x = season_ep, y = user_votes, color = season)) +
geom_line() +
geom_point() +
facet_wrap(~ season)+ xlab("Episódio") +
ylab("Numero de votos")
```
```{r}
supernatural %>%
mutate (Serie = series_name) %>%
ggplot(aes(x = season,
y = user_votes,
color = Serie)) +
geom_jitter(alpha = 0.7) +
xlab("Temporada") +
ylab("Numero de votos") +
ggtitle("Avaliação geral dos episódios ao longo da série")
```
Pelos gráficos podemos ver que em relação a episódios em cada temporadas se mantém bem constante com pouca variação, exceto alguns picos em episódios, e em relação as temporadas o número de votos também não varia muito. Podemos concluir que popularidade da série se mantem ao longo das temporadas.
```{r}
votosPorTemporada = group_by(supernatural,season_ep) %>% summarise(Media = (sum(user_votes)/n())) %>% arrange(desc(Media))
votosPorTemporada %>% ggplot(aes(x = season_ep, y = Media, color = season_ep)) +
geom_line() +
geom_point() +
xlab("Episódio") +
ylab("Numero de votos")
```
Outra análise que podemos fazer é por episódio em cada temporada, se o primeiro episódio é mais popular que o segundo, e segundo que o terceiro e assim por diante em geral. Podemo ver que o primeiro épisódio em geral é mais popular doque o resto,mas em geral os episódio mantem uma proximidade no numero de votos.Podemos notar que o número do episódio não influencia muito em sua popularidade, exceto pelo primeiro que o último.
```{r}
votosPorTemporada = group_by(episodes,season_ep) %>% summarise(Media = (sum(user_votes)/n())) %>% arrange(desc(Media))
votosPorTemporada %>% ggplot(aes(x = season_ep, y = Media, color = season_ep)) +
geom_line() +
geom_point() +
xlab("Episódio") +
ylab("Numero de votos")
```
Analisando o gráfico acima podemos ver que quanto maior o número de episódio por temporada mais impopular ela fica. Séries com temporadas muito grande tendem a perder o púclico. Podemos concluir que séries com muitos epísódios são menos populares.
#As melhores séries são maiores que a piores?
```{r}
melhores_series = group_by(episodes,series_name) %>% summarise(Tamanho = n(),avaliação = mean(user_rating)) %>% arrange(desc(avaliação))
melhores = head(melhores_series,20)
piores = tail(melhores_series,20)
melhores %>% ggplot(aes(x = avaliação, y = Tamanho, color=Tamanho)) +
geom_line() +
geom_point()
piores %>% ggplot(aes(x = avaliação, y = Tamanho, color=Tamanho)) +
geom_line() +
geom_point()
```
O tamanho da série não influência na avaliação final da série. As piores estão entre 1 e 100 episódios, e a melhores também seguem o mesmo padrão.
#O tamanho da temporada influencia na avaliação?
Para responder essa questão foram pegos as 15 maiores e menores temporadas.
```{r}
maioresTemporadas = group_by(episodes,series_name,season) %>% summarise(Tamanho = n(),avaliação = mean(user_rating)) %>% arrange(desc(Tamanho))
maioresTemporadas10 = head(maioresTemporadas,15)
menoresTemporadas10 = tail(maioresTemporadas,15)
maioresTemporadas10 %>% ggplot(aes(x = Tamanho, y = avaliação, color=Tamanho)) +
geom_line() +
geom_point()
menoresTemporadas10 %>% ggplot(aes(x = Tamanho, y = avaliação, color=Tamanho)) +
geom_line() +
geom_point()
```
Pelos gráficos podemos ver que temporadas bem pequenas tendem a variar muito sua avalição, enquanto temporadas muito grande tem uma variação menor ficando com a nota em médio perto de 7.5.