forked from juba/tidyverse
-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy path14-ressources.Rmd
271 lines (162 loc) · 14.7 KB
/
14-ressources.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
# (APPENDIX) Annexes {-}
# Ressources
## Aide
### Aide de R et RStudio
Il est possible d'obtenir à tout moment de l'aide (en anglais) sur une fonction en tapant `help()` avec comme argument le nom de la fonction dans la console :
```{r eval=FALSE}
help("mean")
```
Vous pouvez aussi aller dans l'onglet *Help* de l'interface de RStudio (dans le quart de l'écran en bas à droite) et utiliser le moteur de recherche intégré.
Chaque page d'aide est très complète mais pas toujours très accessible. Elle est structurée selon différentes sections, notamment :
- *Description* : donne un résumé en une phrase de ce que fait la fonction
- *Usage* : indique la ou les manières de l'utiliser
- *Arguments* : détaille les arguments possibles et leur signification
- *Value* : indique la forme du résultat renvoyé par la fonction
- *Details* : apporte des précisions sur le fonctionnement de la fonction
- *See Also* : renvoie vers d'autres fonctions semblables ou liées, ce qui peut être très utile pour découvrir ou retrouver une fonction dont on a oublié le nom
- *Examples* : donne une série d'exemples d'utilisation
Les exemples d'une page d'aide peuvent être exécutés directement dans la console avec la fonction `example` :
```{r}
example("mean")
```
L'onglet *Help* de RStudio permet d'afficher mais aussi de naviguer dans les pages d'aide de R et dans d'autres ressources :
![Onglet *Help* de Rstudio](resources/screenshots/rstudio_help.png)
Cette page permet d'accéder aux manuels officiels de R (section *Manuals*), qui abordent différents aspects plus ou moins techniques du langage et du logiciel, en anglais. On citera notamment les documents *An Introduction to R* et *R Data Import/Export*. Elle propose également un lien vers la FAQ officielle.
### Aide en ligne
Plusieurs sites proposent une interface permettant de naviguer et rechercher dans l'aide de R et de l'ensemble des extensions existantes.
On notera notamment :
- [RDocumentation](https://www.rdocumentation.org/)
- [rrdr.io](https://rdrr.io/)
### Antisèches
RStudio propose plusieurs *cheat sheets* (antisèches) en anglais qui proposent sur deux pages une synthèse compacte de fonctions et de leur usage selon différentes thématiques, notamment :
- [Manipulation des données avec `dplyr`](https://github.com/rstudio/cheatsheets/raw/master/data-transformation.pdf)
- [Visualisation avec `ggplot2`](https://github.com/rstudio/cheatsheets/raw/master/data-visualization-2.1.pdf)
- [Export avec RMarkdown](https://github.com/rstudio/cheatsheets/raw/master/rmarkdown-2.0.pdf)
- etc.
La liste complète est disponible en ligne :
https://www.rstudio.com/resources/cheatsheets/
Ou directement depuis RStudio, via le menu *Help*, puis *Cheatsheets*.
### Où poser des questions
Outre l'aide intégrée au logiciel, il existe de nombreuses ressources en ligne, forums, listes de discussions, pour poser ses questions et échanger avec des utilisateurs de R.
#### Discussion instantanée
[Grrr](https://r-grrr.slack.com/) ("pour quand votre R fait Grrr") est un groupe Slack (plateforme de discussion instantanée) francophone dédié aux échanges et à l'entraide autour de R. Il est ouvert à tous et se veut accessible aux débutants. Vous pouvez même utiliser un pseudonyme si vous préférez.
Pour rejoindre la discussion, il suffit de suivre le lien d'invitation suivant : https://frama.link/r-grrr
#### Listes de discussion
La liste **R-soc** est une liste francophone spécialement dédiée aux utilisateurs de R en sciences sociales. Toutes les questions y sont les bienvenues, et les réponses sont en général assez rapides. Il suffit de s'y abonner pour pouvoir ensuite poster sa question :
- [https://groupes.renater.fr/sympa/subscribe/r-soc](https://groupes.renater.fr/sympa/subscribe/r-soc)
La liste **semin-r** est la liste de discussion du groupe des utilisateurs de R animé par le Muséum national d'Histoire naturelle. Elle est ouverte à tous et les questions y sont bienvenues :
- [https://listes.mnhn.fr/wws/subscribe/semin-r](https://listes.mnhn.fr/wws/subscribe/semin-r)
Il existe aussi une liste officielle anglophone baptisée **R-help**. Elle est cependant à réserver aux questions les plus pointues, et dans tous les cas il est nécessaire d'avoir en tête et de respecter les [bonnes pratiques](https://www.r-project.org/posting-guide.html) avant de poster sur la liste :
- [https://stat.ethz.ch/mailman/listinfo/r-help](https://stat.ethz.ch/mailman/listinfo/r-help)
#### Sur le Web
Pour les anglophones, la ressource la plus riche concernant R est certainement le site [StackOverflow](https://stackoverflow.com/). Sous forme de questions/réponses, il comporte un très grand nombre d'informations sur R et les réponses y sont très rapides. Avant de poster une question il est fortement recommandé de faire une recherche sur le site, car il y a de fortes chances que celle-ci ait déjà été posée :
- [https://stackoverflow.com/questions/tagged/r](https://stackoverflow.com/questions/tagged/r)
Pour les francophones, on pourra citer le forum du CIRAD, qui comporte une section *questions en cours* assez active. Là aussi, pensez à faire une recherche sur le forum avant de poser votre question :
- [http://forums.cirad.fr/logiciel-R/](http://forums.cirad.fr/logiciel-R/)
## Ouvrages, blogs, MOOCs...
### Francophones
Parmi les ressources en français, on peut citer notamment [R et espace](https://framabook.org/r-et-espace/), manuel d’initiation à la programmation avec R appliqué à l’analyse de l’information géographique, librement téléchargeable en ligne.
La section [Contributed documentation](https://cran.r-project.org/other-docs.html) du site officiel de R contient également des liens vers différents documents en français, plus ou moins accessibles et plus ou moins récemment mis à jour.
Le pôle bioinformatique lyonnais (PBIL) propose depuis longtemps une somme très importante de documents, qui comprend des cours complets de statistiques utilisant R :
- [http://pbil.univ-lyon1.fr/R/](http://pbil.univ-lyon1.fr/R/)
Plusieurs blogs francophones autour de R sont également actifs, parmi lesquels :
- [ElementR](https://elementr.hypotheses.org/), le blog du groupe du même nom, qui propose de nombreuses ressources sur R en général et en particulier sur la cartographie ou l'analyse de réseaux.
- [R-atique](http://perso.ens-lyon.fr/lise.vaudor/), blog animé par Lise Vaudor, propose régulièrement des articles intéressants et accessibles sur des méthodes d'analyse ou sur des extensions R.
Enfin, le site *France Université Numérique* propose régulièrement des sessions de cours en ligne, parmi lesquels une [Introduction à la statistique avec R](https://www.fun-mooc.fr/courses/course-v1:UPSUD+42001+session08/about) et un cours sur l'[Analyse des données multidimensionnelles](https://www.fun-mooc.fr/courses/agrocampusouest/40001S03/session03/about).
### Anglophones
Les ressources anglophones sont évidemment très nombreuses.
On citera essentiellement l'ouvrage en ligne [R for data science](http://r4ds.had.co.nz/), très complet, et qui fournit une introduction très complète et progressive à R, et aux packages du *tidyverse*. Il existe également en version papier.
Pour aborder des aspects beaucoup plus avancés, l'ouvrage également en ligne [Advanced R](http://adv-r.had.co.nz/), d'Hadley Wickham, est extrêmement bien et fait et très complet.
On notera également l'existence du [R journal](https://journal.r-project.org/), revue en ligne consacrée à R, et qui propose régulièrement des articles sur des méthodes d'analyse, des extensions, et l'actualité du langage.
La plateforme [R-bloggers](https://www.r-bloggers.com/) agrège les contenus de plusieurs centaines de blogs parlant de R, très pratique pour suivre l'actualité de la communauté.
Enfin, sur Twitter, les échanges autour de R sont regroupés autour du *hashtag* [#rstats](https://twitter.com/hashtag/rstats).
## Extensions
### Où trouver des extensions intéressantes ?
Il existe plusieurs milliers d'extensions pour R, et il n'est pas toujours facile de savoir laquelle choisir pour une tâche donnée.
Si un des meilleurs moyens reste le bouche à oreille, on peut aussi se reporter à la page [CRAN Task view](https://cran.r-project.org/web/views/) qui liste un certain nombre de domaines (classification, sciences sociales, séries temporelles...) et indique, pour chacun d'entre eux, une liste d'extensions potentiellement intéressantes accompagnées d'une courte description. On peut même installer l'ensemble des extensions d'une catégorie avec la fonction `install.views()`.
Une autre possibilité est de consulter la page [listant l'ensemble des packages existant](https://cran.r-project.org/web/packages/available_packages_by_name.html). S'il n'est évidemment pas possible de passer en revue les milliers d'extensions une à une, on peut toujours effectuer une recherche dans la page avec des mots-clés correspondant aux fonctionnalités recherchées.
Un autre site intéressant est [Awesome R](https://awesome-r.com/), une liste élaborée collaborativement des extensions les plus utiles ou les plus populaires classées par grandes catégories : manipulation des données, graphiques interactifs, etc.
La page [frrrenchies](https://github.com/pachevalier/frrrenchies) liste des packages pouvant être utiles pour des utilisateurs français (géolocalisation, traitement du langage, accès à des API...), ainsi que des ressources francophones.
Enfin, certaines extensions fournissent des "galeries" permettant de repérer ou découvrir certains *packages*. C'est notamment le cas de `htmlwidgets`, qui propose une [galerie d'extensions proposant des graphiques interactifs](http://gallery.htmlwidgets.org/), ou de [R Markdown](http://rmarkdown.rstudio.com/gallery.html).
### L'extension `questionr`
`questionr` est une extension utilisée régulièrement dans ce document et comprenant quelques fonctions
utiles pour l'utilisation du logiciel en sciences
sociales, ainsi que différents jeux de données. Elle est développée en
collaboration avec François Briatte et Joseph Larmarange.
L'installation se fait soit via le bouton *Install* de l'onglet *Packages* de RStudio, soit en utilisant la commande suivante dans la console :
```{r eval=FALSE}
install.packages("questionr")
```
Il est possible d'installer la version de développement à l'aide de la fonction `install_github` de l'extension `devtools` :
```{r eval=FALSE}
devtools::install_github("juba/questionr")
```
`questionr` propose à la fois des fonctions, des interfaces interactives et des jeux de données d'exemple.
#### Fonctions et utilisation
Pour plus de détails sur la liste des fonctions de l'extension et son
utilisation, on pourra se reporter au [site Web de l'extension](https://juba.github.io/questionr/), hébergé sur
GitHub.
L'onglet [Reference](https://juba.github.io/questionr/reference/index.html) liste l'ensemble des fonctions de `questionr`, tandis que l'onglet *Articles* propose une [présentation des
trois interfaces interactives](https://juba.github.io/questionr/articles/recoding_addins.html) (*Addins*) visant à faciliter le recodage de certaines variables.
Ces interfaces sont également abordées dans la partie \@ref(vectorfactor).
#### Jeu de données `hdv2003` {#hdv2003}
`hdv2003` est un extrait comportant 2000 individus et 20
variables provenant de l'enquête *Histoire de Vie* réalisée par
l'INSEE en 2003.
L'extrait est tiré du fichier détail [mis à disposition librement](https://www.insee.fr/fr/statistiques/2532244)
(ainsi que de nombreux autres) par l'INSEE. On trouvera une [documentation complète](https://www.insee.fr/fr/statistiques/2532244#documentation) à la même adresse.
Les variables retenues ont été parfois partiellement recodées. La
liste des variables est la suivante :
**Variable** | **Description**
----------------: | --------------------------------------------------------------------------
`id` | Identifiant (numéro de ligne)
`poids` | Variable de pondération
`age` | Âge
`sexe` | Sexe
`nivetud` | Niveau d’études atteint
`occup` | Occupation actuelle
`qualif` | Qualification de l’emploi actuel
`freres.soeurs` | Nombre total de frères, sœurs, demi-frères et demi-sœurs
`clso` | Sentiment d’appartenance à une classe sociale
`relig` | Pratique et croyance religieuse
`trav.imp` | Importance accordée au travail
`trav.satisf` | Satisfaction ou insatisfaction au travail
`hard.rock` | Écoute du Hard rock ou assimilés
`lecture.bd` | Lecture de bandes dessinées
`peche.chasse` | Pêche ou chasse pour le plaisir au cours des 12 derniers mois
`cuisine` | Cuisine pour le plaisir au cours des 12 derniers mois
`bricol` | Bricolage ou mécanique pour le plaisir au cours des 12 derniers mois
`cinema` | Cinéma au cours des 12 derniers mois
`sport` | Sport ou activité physique pour le plaisir au cours des 12 derniers mois
`heures.tv` | Nombre moyen d’heures passées à regarder la télévision par jour
```{block type='rmdnote'}
Comme il s'agit d'un extrait du fichier, la variable
de pondération n'a en toute rigueur aucune valeur statistique. Elle
a été tout de même incluse à des fins "pédagogiques".
```
#### Jeu de données rp2012 {#rp2012}
`rp2012` est un jeu de données issu du recensement de la population de 2012 de
l'INSEE. Il comporte une petite partie des résultats pour l'ensemble
des communes de plus de 2000 habitants de France métropolitaine, soit au final 5170 communes et 60 variables.
Liste de quelques variables du fichier :
**Variable** | **Description**
---------------: | ------------------------------------------------------------
`commune` | nom de la commune
`code_insee` | Code de la commune
`pop_tot` | Population total
`pop_act_15p` | Population active de 15 ans et plus
`log_rp` | Nombre de résidences principales
`agric` | Part des agriculteurs dans la population active
`indep` | Part des artisans, commerçants et chefs d’entreprises
`cadres` | Part des cadres
`interm` | Part des professions intermédiaires
`empl` | Part des employés
`ouvr` | Part des ouvriers
`chom` | Part des chômeurs
`etud` | Part des étudiants
`dipl_sup` | Part des diplômés du supérieur
`dipl_aucun` | Part des personnes sans diplôme
`proprio` | Part des propriétaires parmi les résidences principales
`hlm` | Part des logements HLM parmi les résidences principales
`locataire` | Part des locataires parmi les résidences principales
`maison` | Part des maisons parmi les résidences principales