-
Notifications
You must be signed in to change notification settings - Fork 0
/
ST_et_DataScience.qmd
300 lines (167 loc) · 11.3 KB
/
ST_et_DataScience.qmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
---
title: "Statistique textuelle et data Science"
format:
revealjs:
theme: style.scss
scrollable: true
smaller: true
---
## Programme
- Statistique textuelle et science des données (data science)
- Corpus et Tableaux lexicaux
- Méthodologie embarquée (dans R)
- Application avec des réponses à une question ouverte issue de l'enquête "[Populations, Espaces de Vie, Environnements](https://data.ined.fr/index.php/catalog/41)" (Collomb, Guerin-Pace, Ined, 1992)
- Illustrations à partir Garnier B., Guérin-Pace F. 2010 - Appliquer les méthodes de la statistique textuelle, \[[Ceped, les clefs pour](http://www.ceped.org/fr/publications-ressources/editions-du-ceped-1988-2012/les-clefs-pour/article/appliquer-les-methodes-de-la)\], Paris
------------------------------------------------------------------------
## Enjeux de la statistique (textuelle)
- **Explorer** : *faire naître des idées*, détecter des similitudes, des différences, des anomalies, ....
- **Résumer** les données à l'aide d' indicateurs, de profils
- **Présenter** des résultats ...
![](images/im_nuage_couverture.png){fig-align="center" height="200"}
mais aussi :
- **Structurer** : le corpus en base de données et le **nettoyer**
------------------------------------------------------------------------
## Place de la Statistique textuelle
et si on allait voir ce que dit [Wikipedia](https://fr.wikipedia.org/wiki/Science_des_donn%C3%A9es) sur la Science des données
![](images/wiki_DS.png){fig-align="center" width="642"}
------------------------------------------------------------------------
## Afficher des concordances
Le concordancier : indispensable tout au long d'une analyse de texte, quel qu'il soit :
![](images/im_concordancier_lexico3.png){fig-align="center" height="500"}
------------------------------------------------------------------------
## Analyse quantitative de données qualitatives
- Calculs d' **occurrences** = s'intéresser à la *forme* des textes en faisant abstraction de leur contenu
Ex : Attributions d'écrits historiques ou littéraires à un auteur, comparaison et évolution du style de différents auteurs, etc.
- Recherche de **cooccurrences** = faire *émerger des structures* de textes au-delà de leur forme
Ex : Analyse des réponses à une question ouverte, analyse d'entretiens, de discours, etc.
S'appuyer sur des *métadonnées* sur les textes
------------------------------------------------------------------------
## L'Analyse des Données
![](images/im_benzecri.png){fig-align="center" height="500"}
------------------------------------------------------------------------
## Statistique textuelle
Pour faire émerger des thématiques au moyen de méthodes statistiques d'analyses multivariées (Analyses Factorielles, Classifications) **sans a priori**
Logiciels *historiques* (Spad, Lexico, Alceste, Hyperbase) aujourd'hui **open source** écrits *à partir de R* (tm, R.temis, TXM, Quanteda, IRaMuteQ ou Xplortext ....)
Les méthodes s'appliquent à des corpus qui diffèrent par leur nature mais qui sont transformés en tableaux de même structure : les **tableaux lexicaux**
------------------------------------------------------------------------
## Usage croissant
![](images/im_chronologie.png){fig-align="center" width="683" height="500"}
------------------------------------------------------------------------
## Text Mining
![](images/im_ricco.png){fig-align="center" height="500"}
------------------------------------------------------------------------
## Topic Model
Modèle probabiliste permettant de déterminer des champs lexicaux dans un document (apprentissage automatique - traitement automatique du langage naturel (TLN))
![](images/im_topic_modeling.png){fig-align="center" height="400"}
------------------------------------------------------------------------
## Chaîne de traitement de textes
![](images/im_flochart_text_analysis.png){fig-align="center" height="400"}
<http://www.tidytextmining.com/topicmodeling.html>
------------------------------------------------------------------------
## Collecter Corpus et métadonnées
*Quels sont les textes les plus semblables en ce qui concerne le vocabulaire et la fréquence des formes utilisées ? Quelles sont les formes qui caractérisent chaque texte, par leur présence ou leur absence ?* (Lebart & Salem, 1994, p.135)
Ne pas oublier les métadonnées
Les questionner, les contextualiser : disponibilités/droits, sources, limites...
------------------------------------------------------------------------
## Nettoyer les données
= Etape de l'analyse *à ne pas sous-estimer*
Diffère selon les types de corpus (questions ouvertes, entretiens, romans, articles, pages Web etc..)
= nettoyer, normaliser, corriger ( encodage, orthographe, abreviations ...)
------------------------------------------------------------------------
## Exemple de question ouverte dans un questionnaire
![](images/im_pee.png){fig-align="center" height="500"}
------------------------------------------------------------------------
# Calcul d'occurrences
------------------------------------------------------------------------
## Le tableau lexical *entier* (TLE)
![](images/TLE_PEE_o.png){fig-align="center" width="538"}
Tableaux dits *hyper-creux*. Présence/absence de **mots** dans les textes (Valeur positive ou nulle). L'ordre des mots n'est pas pris en compte (sacs de mots)
------------------------------------------------------------------------
## Lecture du lexique
- Les *mots* vont constituer le dictionnaire ou **lexique** associé au corpus et deviennent des descripteurs : les **termes**
![](images/liste_voc_pee.png){fig-align="center" height="400"}
Lecture des mots par ordre de fréquence (*occurrence)*, ordre *alphabétique*.
------------------------------------------------------------------------
## Méthodologie embarquée
Réduire la taille du lexique Via l'opération de **lemmatisation**
= rattacher un ou plusieurs mots à une forme dite racine (Lebart, Salem, 1994)
Convertir :
- les formes verbales à l'infinitif
- les substantifs au singulier
- les adjectifs au masculin singulier
Opération **automatisée** avec des dictionnaires et/ou manuelle
------------------------------------------------------------------------
# Détection des cooccurrences
------------------------------------------------------------------------
## Analyse des correspondances sur le tableau lexical entier
Les plans factoriels permettent de visualiser des proximités de mots, des oppositions et ainsi de repérer des **champs lexicaux**
![](images/spgeo_0046-2497_1998_num_27_1_T1_0044_0000_1.png){fig-align="center" width="902"}
(Enquête Populations, Espaces de vie, Environnements, Ined 1992)
Deux mots sont d'autant plus proches que leurs contextes d'utilisation se ressemblent et d'autant plus éloignés qu'ils seront rarement utilisés ensemble
------------------------------------------------------------------------
## Classification sur Tableau Lexical
*Obtenir un classement des unités de textes en fonction de la ressemblance ou de la dissemblance des mots dans ces textes et d'ordonner les textes en cernant les homologies et les oppositions* (Rouré, Reinert, 1993)
![](images/spgeo_0046-2497_1998_num_27_1_T1_0046_0000_1.png){fig-align="center"}
Méthode Alceste ( Reinert, 1983), aujourd'hui implantée dans le *package Rainette* (J. Barnier)
------------------------------------------------------------------------
# Mettre en relation mots et métadonnées
------------------------------------------------------------------------
## Les spécificités
Utilisation d'un test statistique pour dire si l'écart entre la fréquence relative d'une forme dans une partition (*par modalité*) et la fréquence globale calculée sur l'ensemble des réponses est significatif ou non
![](images/specif.png){fig-align="center" width="429"}
(Enquête Populations, Espaces de vie, Environnements, Ined 1992)
Les *mots ou textes caractéristiques* de ces partitions sont restitués selon leur degré de spécificité
------------------------------------------------------------------------
## Le tableau lexical agrégé (TLA)
Tableau de *contingence* qui croise les *mots* du lexique et les *modalités* des métadonnées.
![](images/TLA_PEE.png){fig-align="center" width="960"}
(Populations, Espaces de vie, Environnements, Ined, 1992)
------------------------------------------------------------------------
## Analyse des correspondances sur un Tableau Lexical Agrégé
Le plan factoriel permet d'observer la position réciproque des "mots" et des métadonnées et de faire émerger des champs lexicaux propres à des sous-populations
<img src="images/spgeo_0046-2497_1998_num_27_1_T1_0050_0000_1.png" height="500px"/>
(Enquête Populations, Espaces de vie, Environnements, Ined 1992)
- 2 mots proches = proximité des individus - profils lignes
- 2 caractéristiques proches = univers lexicaux proches - profils colonnes
------------------------------------------------------------------------
## Affiner l'analyse
- Supprimer certains mots ...
- Augmenter le nombre de classes ...
- Personnaliser la lemmatisation ...
- Extraire des sous-corpus à l'aide metadonnées ...
------------------------------------------------------------------------
## Les outils
Liste non exhaustive
![](images/im_outils.png){fig-align="center" width="564" height="500"}
------------------------------------------------------------------------
## Package tm (Text Mining) de R
Feinerer, Hornik, Meyer Wirtschaftsuniversity de Wien, in Journal of Statistical Software (Mars 2008)
- Construction de tableaux lexicaux (**Document Term Matrix**), comptage de mots, calcul d'associations, ... = fonctions de tm
- Rapporte les mots à leurs radicaux (stemming) ou supprime les mots outils (i.e articles) = options de tm
------------------------------------------------------------------------
## Package R.temis de R
Facilite les étapes essentielles de l'analyse textuelle en s'appuyant au maximum sur les packages existants (tm, FactoMineR, explor, igraph...). [R.temis](https://rtemis.hypotheses.org/) implémente les méthodes suivantes :
- importation de corpus au format .csv, .txt, Alceste
- suppression des mots vides,
- lemmatisation automatique et modifiable
- bilan lexical, spécificités, concordances
- nuage de mots
- détection de cooccurrences,
- construction de sous-corpus à partir de termes
- découpage des textes en paragraphes
- analyse des correspondances sur tableau lexical
- classification
- graphes de mots
------------------------------------------------------------------------
## Conclusion
- Analyse de données (non structurées)
- Explorer les données autrement - sans a priori
- Complémentarité des méthodes (qualitative/quantitative)
- Utilisation conjointe de l'informatique tout-automatique et de l'intuition humaine
------------------------------------------------------------------------
## Statistique textuelle : Quali + Quanti + Viz
Calculs statistiques appliqués à des **corpus**
- Chiffres & Mots : **Occurrences & Cooccurrences**, ...
- Calcul de **spécificités**, profils, ...
- **Visualisations** : nuages de mots, graphe de mots, plan factoriels (Analyse des correspondances), dendrogrammes (classifications)
Aides à l'interprétation indispensables : les **concordances**