-
Notifications
You must be signed in to change notification settings - Fork 4
/
h16chikwadraat.Rmd
476 lines (385 loc) · 24.7 KB
/
h16chikwadraat.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
# Chi-kwadraat-toetsen {#ch-chi-kwadraat-toetsen}
## Inleiding {#sec:h16inleiding}
We zagen al eerder dat we niet altijd gebruik kunnen maken van een
parametrische toets zoals de $t$-toets of variantie-analyse, omdat de verzamelde
gegevens niet voldoen aan de aannames. Als de verzamelde gegevens niet
op interval-niveau gemeten zijn (zie hoofdstuk
\@ref(ch-meetniveau)), of als de kansverdeling van de gegevens
verre van normaal is (zie
§\@ref(sec:watalsnietnormaal)), dan verdient een non-parametrische
toets de voorkeur boven zo'n parametrische toets. Als de verzamelde
gegevens wèl voldoen aan de aannames voor een parametrische toets, dan
is een non-parametrische toets minder gevoelig (conservatiever) dan een
parametrische toets, d.w.z. dat de non-parametrische toets een groter
effect vereist en/of een grotere steekproef vereist, en in het algemeen
minder power heeft dan een parametrische toets bij het opsporen van een
effect (zie hoofdstuk \@ref(ch-power)).
In dit hoofdstuk bespreken we de meest gebruikte non-parametrische
toets: de $\chi^2$-toets.
## $\chi^2$-toets voor "goodness of fit" in enkele steekproef {#sec:chi2gof}
Gegevens van het nominale meetniveau worden vaak geanalyseerd met de
zgn. $\chi^2$-toets (met de Griekse letter "chi"). Het aantal ogen op een dobbelsteen
is een voorbeeld van een afhankelijke variabele van nominaal meetniveau:
er is geen ordening tussen de zes zijden, en elke zijde van een
dobbelsteen heeft een even grote kans om als bovenzijde te verschijnen.
Stel, we gooien $60\times$ met een dobbelsteen, en vinden de volgende
frequenties van de zes mogelijke uitkomsten: $14, 9, 11, 10, 15, 1$. Dit
is te beschouwen als een steekproef van $n=60$ worpen uit een oneindige
populatie van mogelijke worpen, en de hier gerapporteerde frequenties
van uitkomsten zijn te beschouwen als een kruistabel van 1 rij en 6
kolommen (d.i. 6 cellen). Hoe groot is de kans op deze verdeling van
uitkomsten? Is de dobbelsteen wel eerlijk?
De $\chi^2$-toets is gebaseerd op de verschillen tussen de verwachte en geobserveerde
frequenties. Volgens de nul-hypothese (de dobbelsteen is eerlijk)
verwachten we 10 uitkomsten in iedere cel ($60/6=10$), m.a.w. de
verwachte frequentie is identiek voor iedere cel (dat wordt een *uniforme* verdeling genoemd).
De geobserveerde
uitkomsten wijken af van de verwachte frequenties van uitkomsten, met
name omdat de uitkomst "zes" nauwelijks voorkomt in deze steekproef. Dat
zou natuurlijk ook toeval kunnen zijn. De $\chi^2$-toets geeft aan hoe groot de kans is
op deze "scheve" verdeling van uitkomsten (of een nog schevere verdeling), als H0 waar is.
De verwachte
uitkomsten worden dus afgeleid uit een verdeling van de uitkomsten
volgens H0, en we onderzoeken hoe goed de geobserveerde uitkomsten
passen bij de verwachte uitkomsten. Deze vorm van de wordt daarom ook
aangeduid als een toets van de 'goodness of fit'.
Voor dit voorbeeld vinden we als uitkomst van de toetsing $\chi^2=12.44$
met 5 vrijheidsgraden (zie
§\@ref(sec:ttoets-vrijheidsgraden) voor uitleg over
vrijheidsgraden), met $p=.03$. We laten deze kanswaarde meestal door de
computer uitrekenen, maar we kunnen die kans ook schatten via een tabel met kritieke $\chi^2$-waarden, zie Bijlage \@ref(app-kritiekechi2waarden), en voetnoot [^fn16-1]).
Als H0 waar is, dan hebben we slechts 3% kans om
deze uitslag te vinden (of een nog extremere verdeling van uitkomsten).
Deze gevonden significantie $p$ is kleiner dan $\alpha=.05$, en dus
verwerpen we H0. We concluderen dat deze dobbelsteen niet eerlijk is: de
gevonden verdeling van uitkomsten wijkt significant af van de verwachte
verdeling volgens H0.
## $\chi^2$-toets voor homogeniteit van een variabele in meerdere steekproeven
De $\chi^2$-toets is ook goed bruikbaar bij een onderzoeksontwerp met *een* nominale
variabele, die we geobserveerd hebben in twee of meer steekproeven. De
vraag is dan of de verdeling van de observaties over de categorieën
gelijk is voor de verschillende steekproeven. Deze toets is
vergelijkbaar met $t$-toets de voor twee onafhankelijke steekproeven
(§\@ref(sec:ttoets-onafh)). De aantallen observaties vatten we dan
doorgaans samen in een kruistabel met meerdere rijen voor de
verschillende steekproeven, en meerdere kolommen voor de categorieën van
de nominale afhankelijke variabele (zie ook
tabel \@ref(tab:cito-kruis)).
De $\chi^2$-toets is weer gebaseerd op de verschillen tussen de verwachte en
geobserveerde frequenties. Volgens de nul-hypothese (er is géén verschil
in verdeling tussen de twee steekproeven) zou de verdeling van
observaties over de kolommen ongeveer gelijk moeten zijn voor alle rijen
(en vice versa).
## $\chi^2$-toets voor verband tussen twee variabelen in enkele steekproef
Tenslotte is de $\chi^2$-toets eveneens goed bruikbaar bij een onderzoeksontwerp met
*twee* nominale variabelen, die we geobserveerd hebben in een enkele
steekproef. De vraag is dan of de verdeling van observaties over
categorieën van de tweede variabele gelijk is voor de verschillende
categorieën van de eerste variabele (en vice versa). De aantallen
observaties vatten we wederom samen in een kruistabel met meerdere rijen
voor de categorieën van de eerste nominale variabele, en meerdere
kolommen voor de categorieën van de tweede nominale variabele.
De $\chi^2$-toets is ook hier gebaseerd op de verschillen tussen de verwachte en
geobserveerde frequenties. Volgens de nul-hypothese (er is géén verband
tussen de twee nominale variabelen) zou de verdeling van observaties
over de rijen ongeveer gelijk moeten zijn voor alle kolommen, en vice
versa. Dat betekent echter *niet* dat we voor alle cellen dezelfde
frequentie verwachten. Dat wordt geïllusteerd in het volgende voorbeeld.
---
> *Voorbeeld 16.1*: In de vroege ochtend
van 15 april 1912 zonk de *Titanic* in de Atlantische Oceaan. Veel
opvarenden verloren het leven. De opvarenden waren te onderscheiden in
vier klassen (1st/2nd/3rd class passagiers, en crew). Was de uitkomst
van de ramp (opvarende heeft de ramp niet of wel overleefd) ongeveer gelijk voor personen van
deze vier klassen? De kruistabel \@ref(tab:titanic) geeft de verdelingen van uitkomsten.
Table: (#tab:titanic) Verdeling van opvarenden van de *Titanic* ($N=2201$), naar klasse van overtocht en naar status als (niet/wel) overlevende. Gegevens ontleend aan dataset `Titanic` in R.
klasse niet wel totaal
-------- ------ ----- --------
1st 122 203 325
2nd 167 118 285
3rd 528 178 706
crew 673 212 885
totaal 1490 711 2201
> Bij de verwachte frequenties moeten we rekening houden met de
verschillende aantallen opvarenden in de verschillende klassen, en met
de ongelijke verdeling van uitkomsten (1490 niet-overlevenden en 711
wel-overlevenden). Als er geen verband zou zijn tussen de klasse en de
overlevingsstatus, dan zouden we voor de eerste-klasse-passagiers
verwachten dat er 220 niet-overlevenden zouden zijn
[$(1490/2201) \times 325 = (325 \times 1490) / 2201 = 220$] en 105
wel-overlevenden [$(711/2201) \times 325 = (325 \times 711) / 2201$ =
105]. Op deze manier kunnen we de verwachte frequenties voor iedere cel
bepalen, rekening houdend met de randtotalen. Met behulp van die
verwachte frequenties berekenen we dan $\chi^2=190.4$, hier met 3 d.f.,
$p<.001$. De gevonden significantie $p$ is kleiner dan $\alpha=.001$, en
dus verwerpen we H0. We concluderen dat de uitkomst van de scheepsramp
(wel/niet overlevende) *ongelijk* verdeeld was voor de vier klassen van
opvarenden van de *Titanic*.
---
Voor de analyse van kruistabellen bestaande uit precies $2\times2$
cellen is de Phi coefficiënt een bruikbaar alternatief (zie
§\@ref(sec:Phi)).
Herlees en onthoud de waarschuwingen over correlatie en causaliteit (§\@ref(sec:correlationcausation))
--- die zijn ook hier van toepassing.
## aannames {#sec:chi2toets-aannames}
De $\chi^2$-toets vereist drie aannames (assumpties) waaraan voldaan moet zijn, om de
toets te mogen gebruiken.
* De gegevens moeten gemeten zijn op nominaal niveau, of moeten
zijn versimpeld tot nominaal niveau (zie hoofdstuk \@ref(ch-meetniveau)).
* Alle observaties moeten onafhankelijk van elkaar zijn, en
gebaseerd op (een) aselecte steekproef(/ven) uit de populatie(s) (zie
§\@ref(sec:aselectesteekproef)), of op aselecte toewijzing van de
elementen uit een steekproef aan onderzoekscondities (randomisatie, zie §\@ref(sec:internevaliditeit), punt 5). Ieder element uit de steekproef mag dus maar één observatie aan één
cel bijdragen[^fn16-2].
* De steekproef is zodanig groot dat de verwachte frequentie
($E$) voor elke cel tenminste 5 is. Als de verwachte frequentie(s) in
één of meerdere cellen minder dan 5 is/zijn, reduceer dan het aantal
cellen door aangrenzende cellen samen te voegen, en de verwachte
frequenties opnieuw te bepalen.
## formules
De toetsingsgrootheid $\chi^2$ is gedefinieerd als
\begin{equation}
(\#eq:chikwadraat)
\chi^2 = \sum \frac{(O-E)^2}{E}
\end{equation}
waarbij $O$ en $E$ de
geobserveerde (Observed) en verwachte (Expected) aantallen observaties
aangeven voor iedere cel van de frequentietabel [@Ferg89]. De verwachte
aantallen kunnen ook gebroken getallen zijn (bijv. $45/6$ voor de 6
mogelijke uitkomsten van een eerlijke dobbelsteen, als we $45\times$
gooien). Naarmate het verschil $(O-E)$ in een of meerdere cellen groter
is, zal $\chi^2$ ook groter zijn. Door het kwadrateren is de
toetsingsgrootheid $\chi^2$ altijd nul of positief, en nooit negatief
[@Ferg89].
De kansverdeling van de toetsingsgrootheid $\chi^2$ wordt bepaald door
het aantal vrijheidsgraden (zie
§\@ref(sec:ttoets-vrijheidsgraden) voor uitleg van dit concept).
Bij een $\chi^2$-toets met één nominale variabele ("goodness of fit") is het aantal
vrijheidsgraden gelijk aan het aantal cellen minus 1. Bij een $\chi^2$-toets met
meerdere steekproeven (homogeniteit) en/of met twee variabelen
(verband), met respectievelijk $k$ en $m$ categorieën, is het aantal
vrijheidsgraden gelijk aan $(k-1)\times(m-1)$.
Voor iedere cel van de frequentietabel (in regel $i$ en kolom $j$) kunnen we ook het ruwe residu berekenen:
\begin{equation}
(\#eq:chi2-rawresidu)
e_{ij} = \frac{(O_{ij}-E_{ij})}{\sqrt{E_{ij}}}
\end{equation}
Als we al deze ruwe residuen $e$ kwadrateren en de kwadraten optellen, dan levert dat de bovenstaande toetsingsgrootheid $\chi2$ op (formule \@ref(eq:chikwadraat)).
Het is echter inzichtelijker om het *gestandardiseerde* residu van iedere cel te bepalen [@Agre07, p.38].
Daarbij houden we dan rekening met de standaardfout van de residuen (via de rij-totalen $R_i$, kolom-totalen $C_j$, en totaal aantal observaties $N$):
\begin{equation}
(\#eq:chi2-stdresidu)
e_{ij} = \frac{(O_{ij}-E_{ij})}{\sqrt{E_{ij}\times(1-\frac{R_i}{N})\times(1-\frac{C_j}{N})}}
\end{equation}
De gestandaardiseerde residuen $e$ kunnen geïnterpreteerd worden alsof het $Z$-waarden zijn, met gebruik van de kritieke $Z$-waarden (zie Bijlage \@ref(app-kritiekeZwaarden)). De aangepaste en gestandaardiseerde residuen laten dus zien welke cellen vooral bijdragen aan een significante uitkomst van de $\chi^2$toets [^fn16-3].
[^fn16-3]: Als er meerdere vergelijkingen worden gedaan, dan moet de kritieke waarde van $\alpha$ worden aangepast, om Type-I-fouten bij die meerdere vergelijkingen te voorkomen. Als er $k$ cellen en dus $k$ vergelijkingen zijn, dan is het veilig om $\alpha/k$ i.p.v. $\alpha$ te gebruiken bij elke vergelijking -- dit staat bekend als Bonferroni's aanpassing van de $\alpha$-waarde, of als Dunn's procedure [@MD04, p.202]. Zie ook §\@ref(sec:anova-oneway-posthoc).
Voor het bovenstaande voorbeeld in §\@ref(sec:chi2gof) vinden we de volgende zes gestandaardiseerde residuen voor de zes mogelijke uitkomsten van de dobbelsteen: $(1.39, -0.35, +0.35, 0.00, 1.73, -3.12)$. De eerste vijf uitkomsten komen ongeveer even vaak voor als verwacht, maar de zesde mogelijke uitkomst is veel minder vaak geobserveerd dan verwacht ($p$=.003).
## SPSS
### goodness of fit: voorbereiding
Als we een nominale variabele willen onderzoeken, dan moet die uiteraard
als kolom in het SPSS databestand zijn aangemerkt. Iedere observatie
vormt een aparte regel in het databestand, en de nominale afhankelijke
variabele is een kolom in het databestand.
Soms beschikken we niet over de afzonderlijke observaties (regels) maar
wel over de tabel van aantallen observaties per categorie van de
nominale variabele. We kunnen daarmee ook verder werken. Stel je voor
dat we twee kolommen hebben, genaamd `uitkomst` en `aantal`, als volgt
(zie §\@ref(sec:chi2gof)):
```
uitkomst aantal
1 14
2 9
3 11
4 10
5 15
6 1
```
Vervolgens moet iedere cel (regel) een gewicht krijgen dat even groot is
als het `aantal` observaties, dat hier genoemd is in de tweede kolom: de
eerste cel (regel) weegt $14\times$ mee, de tweede cel (regel) weegt
$9\times$ mee, enz. Met deze truc hoeven we niet $N=60$ regels in te
vullen (voor elke observatie een regel), maar slechts 6 regels (voor
elke cel een regel).
```
Data > Weigh Cases...
```
Kies `Weigh cases by...` en selecteer de variabele `aantal` in
het invulveld. Bevestig met `OK`.
### goodness of fit: toetsing
```
Analyze > Nonparametric tests > Legacy Dialogs > Chi-square...
```
Selecteer de variabelen `uitkomst` (in "Test variable list" paneel) en
geef aan dat we *gelijke* aantallen observaties verwachten in elke cel.
(Het is ook mogelijk om hier andere verwachte frequenties in te voeren,
als er volgens H0 andere, ongelijke frequenties verwacht worden.)
Bevestig met `OK`.
### kruistabellen: voorbereiding
Als we twee nominale variabelen willen onderzoeken, dan moeten die
allebei als kolommen in het SPSS databestand zijn aangemerkt. Iedere
observatie vormt een aparte regel in het databestand, en de nominale
variabelen zijn kolommen in het databestand. Voor het
voorbeeld 16.1 hierboven zouden we dan een "lang" databestand
gebruiken dat bestaat uit $N=2201$ regels, voor elke opvarende een
aparte regel, met tenminste twee kolommen, voor `klasse` en
`overlevende`.
Soms beschikken we niet over de afzonderlijke observaties (regels) maar
wel over de kruistabel van aantallen observaties voor iedere combinatie
van categorieën van de de nominale variabelen. We kunnen daarmee ook
verder werken. Stel je voor dat we drie kolommen hebben, genaamd
`klasse`, `overlevende` en `aantal`, als volgt:
```
klasse overlevende aantal
1st niet 122
1st wel 203
2nd niet 167
2nd wel 118
3rd niet 528
3rd wel 178
crew niet 673
crew wel 212
```
Vervolgens moet iedere cel (regel) een gewicht krijgen dat even groot is
als het `aantal` observaties, dat genoemd is in de derde kolom: de
eerste cel (regel) weegt $122\times$ mee, de tweede cel (regel) weegt
$203\times$ mee, enz. Met deze truc hoeven we niet $N=2201$ regels in te
vullen (voor elke observatie een regel), maar slechts 8 regels (voor
elke cel een regel).
```
Data > Weigh Cases...
```
Kies `Weigh cases by...` en selecteer de variabele `aantal` in
het invulveld. Bevestig met `OK`.
### kruistabellen: toetsing
De toetsing verloopt op dezelfde wijze als beschreven in
§\@ref(sec:Phi) voor
de samenhang tussen twee nominale variabelen.
```
Analyze > Descriptives > Crosstabs...
```
Selecteer de variabelen `klasse` (in "Rows" paneel) en `overlevende` (in
"Columns" paneel) voor
kruistabel \@ref(tab:titanic).\
Kies `Statistics…` en vink de optie `Chi-square` aan. Bevestig eerst met
`Continue` en daarna nogmaals met `OK`.
## JASP
### goodness of fit: voorbereiding
Als we een nominale variabele willen onderzoeken, dan moet die uiteraard
als kolom in het databestand zijn aangemerkt. Het is gebruikelijk dat iedere observatie dan een aparte regel vormt in dit databestand. Voor de "goodness of fit" $\chi^2$-toets moet de data echter net iets anders worden ingevoerd. Niet alle afzonderlijke observaties moeten worden ingevoerd, maar de aantallen (ook wel 'frequenties' of 'counts') observaties per categorie van de nominale variabele. Hierdoor hoeven we niet $N=60$ regels in te vullen (voor elke observatie een regel), maar slechts 6 regels (voor elke categorie een regel). Voor het voorbeeld uit §\@ref(sec:chi2gof) ziet dit er als volgt uit:
```
uitkomst aantal
1 14
2 9
3 11
4 10
5 15
6 1
```
Om deze data in JASP te krijgen maak je een Excel-bestand aan waar je de data invoert (precies zoals hierboven weergegeven, met de variabele-namen erbij).
Sla dit bestand op als CSV-bestand (.csv, dus niet .xlsx), en open het in JASP.
### goodness of fit: toetsing
Klik in de bovenbalk op:
```
Frequencies > Multinomial Test (onder 'Classical')
```
Selecteer de variabele `uitkomst` en plaats deze in het veld "Factor". Plaats de variabele `aantal` in het veld "Count".\
Onder "Test Values" kun je kiezen voor `Equal proportions (multinomial test)` en `Expected proportions (chi-square test)`.\
De multinomial test is een speciale versie van een $\chi^2$-toets waarbij de nul-hypothese wordt getoetst dat de aantallen gelijk zijn, m.a.w. de verwachte frequentie is identiek voor iedere cel (dat wordt een uniforme verdeling genoemd). Dat betekent in dit voorbeeld dat de dobbelsteen eerlijk is, en dat is ook wat we willen toetsen. Je kan in dit geval dus `Equal proportions (multinomial test)` kiezen.\
Als je `Expected proportions (chi-square test)` kiest, kun je de verwachte aantallen observaties in elke cel aanpassen. Als er volgens H0 andere, ongelijke frequenties verwacht worden, kies je dus deze optie en vul je de verwachting in onder *H0* in de tabel die verschijnt (je geeft de cellen een ander 'gewicht', d.w.z. hoe vaak ze meetellen). De waardes onder *H0* voor elke cel staan echter standaard op 1, waarmee je gelijke frequenties test. Je krijgt dan dezelfde resultaten als met de multinomial test, dus voor ons voorbeeld maakt het niet zoveel uit welke van de twee opties je kiest.
Je kunt ook nog `Descriptives` en `Confidence interval` aanvinken onder "Additional Statistics" en `Descriptives plot` onder "Plots" om meer inzicht te krijgen in wat je toetst.
Het is in JASP niet mogelijk om gestandaardiseerde residuen op te vragen bij deze toets; je kunt die wel zelf uitrekenen met de geobserveerde en verwachte aantallen.
### kruistabellen: voorbereiding
Als we twee nominale variabelen willen onderzoeken, dan moeten die allebei als kolommen in het databestand zijn aangemerkt.
Het is gebruikelijk dat iedere observatie dan een aparte regel vormt in dit databestand. Voor de $\chi^2$-toets met twee nominale variabelen kan zo'n "lang" databestand ook worden gebruikt in JASP. Voor het voorbeeld 16.1 hierboven zouden we dan $N=2201$ regels hebben: voor elke opvarende een aparte regel, met tenminste twee kolommen, voor `klasse` en `overlevende`.\
Soms beschikken we niet over de afzonderlijke observaties (regels) maar
wel over de kruistabel van aantallen observaties voor iedere combinatie
van categorieën van de de nominale variabelen. We kunnen daarmee ook
verder werken in JASP. Hierdoor hoeven we niet $N=2201$ regels in te vullen (voor elke observatie een regel), maar slechts 8 regels (voor elke cel een regel).
Voor voorbeeld 16.1 ziet dit er als volgt uit:
```
klasse overlevende aantal
1st niet 122
1st wel 203
2nd niet 167
2nd wel 118
3rd niet 528
3rd wel 178
crew niet 673
crew wel 212
```
Om deze data in JASP te krijgen maak je een Excel-bestand aan waar je de data invoert (precies zoals hierboven weergegeven, met de variabele-namen erbij).
Sla dit bestand op als CSV-bestand (.csv, dus niet .xlsx), en open het in JASP.
### kruistabellen: toetsing
De toetsing verloopt op dezelfde wijze als beschreven in
§\@ref(sec:Phi) voor de samenhang tussen twee nominale variabelen.
Klik in de bovenbalk op:
```
Frequencies > Contingency Tables (onder 'Classical')
```
Selecteer de variabele `klasse` in het "Rows" paneel, de variabele `overlevende` in het "Columns" paneel en variabele `aantal` in het "Counts" paneel voor kruistabel \@ref(tab:titanic). Open de `Statistics` balk
en zorg dat `Chi-square` ($\chi^2$) is aangevinkt. De waarde voor $\chi^2$ verschijnt dan in de uitvoer in de tabel getiteld *Chi-Squared Tests*.
Open de `Cells` balk en zorg dat `Expected counts` zijn aangevinkt en dat ook `Pearson residuals` en `Standardized (adjusted Pearson)` zijn aangevinkt.
Mocht je toch een "lang" databestand hebben, waarbij elke regel een aparte observatie is, dan hoef je alleen de variabele `klasse` in het "Rows" paneel en de variabele `overlevende` in het "Columns" paneel te selecteren.
Het aantal overlevenden is significant groter dan verwacht onder H0 voor passagiers van de eerste en van de tweede klasse (positieve gestandaardiseerde residuen, beide $p<.001$) en significant geringer dan verwacht onder H0 voor passagier van de derde klasse en voor de bemanning (negatieve gestandaardiseerde residuen, beide ook $p<.001$).
## R
### goodness of fit: toetsing
```{r}
chisq.test( c( 14, 9, 11, 10, 15, 1 ) ) -> dobbel.chi2.htest # dobbelsteen §16.2
print(dobbel.chi2.htest)
dobbel.chi2.htest$residuals # STD.resid. in ...chisq.htest$residuals
```
### kruistabellen: voorbereiding en toetsing
In R is de dataset `Titanic` gegeven als een multidimensionele matrix. We tellen de observaties op en maken een kruistabel van de eerste dimensie (klasse) en de vierde dimensie (uitkomst).
```{r}
apply( Titanic, c(1,4), sum ) -> Titanic.klasseuitkomst
```
Vervolgens gebruiken we deze kruistabel weer als invoer voor een `chisq.test`. Die `chisq.test` slaan we op zijn beurt weer op, om de residuals te inspecteren.
```{r}
chisq.test( Titanic.klasseuitkomst ) -> Titanic.chisq.htest
print(Titanic.chisq.htest)
Titanic.chisq.htest$residuals
```
Opvallend zijn het geringe aantal doden onder de eerste-klasse-passagiers, en het grote aantal doden onder de bemanning.
R toont hier overigens de ruwe (niet gestandaardiseerde) residuen.
## Effectgrootte: odds ratio
Bij het gebruik van de $\chi^2$-toets kan de effectgrootte worden gerapporteerd in de
vorm van de zgn. "odds ratio". De 'odds ratio' wordt afgeleid van de
kruistabel met frequenties per cel; de 'odds ratio' is het meest gebruikelijk bij een $2\times2$ kruistabel.
We leggen een en ander uit aan de hand van het volgende voorbeeld met een $2\times2$ kruistabel.
---
> *Voorbeeld 16.2*:
@DollHill1956 onderzochten de relatie tussen roken en
longkanker. Eerst enqueteerden zij alle Britse artsen over hun leeftijd
en rookgedrag. Vervolgens hielden deze onderzoekers jarenlang de
overlijdensberichten en de doodsoorzaak bij van alle geënqueteerden. De
eerste uitkomsten, na ruim vier jaar, zijn samengevat in
tabel \@ref(tab:dollhill).
Table: (#tab:dollhill) Kruistabel van $N=24354$ Britse artsen van 35 jaar en ouder bij de eerste enquete, onderverdeeld naar rookgedrag (rijen: wel/niet rokend resp. gerookt hebbend) en naar sterfte door longkanker in de afgelopen 4 jaar (kolommen), met letter-aanduiding voor de aantallen observaties.
rokend niet longkanker wel longkanker totaal
---------- ---------------- ------- --------------- ------- -------- -----------
niet (0) 3092 (A) 1 (B) 3093 (A+B)
wel (1) 21178 (C) 83 (D) 21261 (C+D)
totaal 24270 (A+C) 84 (B+D) 24354 (A+B+C+D)
> Op de gebruikelijke wijze vinden we $\chi^2=10.35$, df=1, $p<.01$. We
concluderen dat er een verband is tussen rookgedrag en de sterfte door
longkanker.
---
Voor de effectgrootte berekenen we eerst de 'odds' van sterfte door
longkanker voor de rokers: D/C= $83/21178 =0.00392$. Onder de rokers
staan er 83 sterfgevallen-door-longkanker tegenover 21178
niet-sterfgevallen-door-longkanker (de 'odds' om te overlijden aan
longkanker zijn 1 op de 0.00392). Voor de niet-rokers: B/A=
$1/3092 =0.00032$ (de 'odds' zijn 1 op de 0.00032).
De *verhouding* van deze beide 'odds' voor de beide groepen noemen we de
'odds ratio' (afgekort OR). In dit voorbeeld vinden we (D/C) / (B/A) =
AD/BC =
$(3092 \times 83) / (1 \times 2178) = (0.00392)/(0.00032) = 12.1$. De
'odds' om te sterven aan longkanker zijn dus ruim $12\times$ zo groot
voor de rokers dan voor de niet-rokers. We rapporteren dat als volgt:
> @DollHill1956 vonden een significant verband tussen
> rookgedrag en sterfte door longkanker,
> $\chi^2(1)=10.35, p<.01, \textrm{OR}=12.1$. De 'odds' om te overlijden
> door longkanker bleken ruim $12\times$ zo groot voor rokers als voor
> niet-rokers.
[^fn16-1]: De gevonden waarde $\chi^2=12.44$ ligt iets onder de kritieke waarde voor 5 d.f. en $p=.03$, (daar staat $(\chi^2)^*=12.83$), dus de bijbehorende kans op deze waarde of een grotere waarde is iets groter dan $0.03$.
[^fn16-2]: Als de observaties van één variabele niet onafhankelijk maar gepaard zijn (bijv. voor/na behandeling, wel/niet geslaagd, enz), dan biedt de McNemar test een bruikbaar alternatief.