-
Notifications
You must be signed in to change notification settings - Fork 4
/
h13toetsing.Rmd
1413 lines (1198 loc) · 66.6 KB
/
h13toetsing.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
# (PART\*) Deel III: Toetsende statistiek {.unnumbered}
# Toetsing {#ch-toetsing}
## Inleiding {#sec:toetsing-inleiding}
Vanaf dit hoofdstuk houden we ons bezig met het toetsen van
onderzoekshypothesen, en in het bijzonder met toetsen van
*nul*-hypotheses (null hypothesis significance testing, NHST), zoals
uitgelegd in Hoofdstuk \@ref(ch-onderzoek).
Voor dergelijke toetsingen is in de loop der jaren een groot aantal
technieken ontwikkeld. De toetsen die we behandelen zijn de meest
gebruikte en kunnen we indelen in parametrische en non-parametrische
toetsen. Parametrische toetsen veronderstellen dat de afhankelijke
variabele (tenminste) gemeten is op intervalniveau (zie
hoofdstuk \@ref(ch-meetniveau)), en dat de gemeten uitkomsten of scores
normaal verdeeld zijn (zie §\@ref(sec:normaalverdeling) en
§\@ref(sec:watalsnietnormaal)). Bij non-parametrische toetsen worden,
afhankelijk van de techniek, minder aannamen gemaakt over het
meetniveau, danwel over de verdeling van de geobserveerde scores; het
zijn zogenaamde verdelingsvrije toetsen. Het gevolg is dat de toetsing
iets minder 'gevoelig' is, onder verder gelijke omstandigheden, d.w.z.
dat de nulhypothese onder verder gelijke omstandigheden minder vaak
verworpen kan worden. Deze toetsen hebben derhalve minder power (zie
Hoofdstuk \@ref(ch-power)). Onderzoekers geven daarom meestal de
voorkeur aan parametrische toetsen.
Het algemene principe van toetsing hebben we al kort besproken in
§\@ref(sec:falsificatie) en §\@ref(sec:empirischecyclus). We leggen het
hier nogmaals uit aan de hand van een voorbeeld. We onderzoeken de
bewering H1: 'studenten Taalwetenschap beheersen de traditionele
zinsgrammatica *beter* dan de gemiddelde talen-student'. Als
meet-instrument gebruiken we de zgn. "grammaticatoets"[^h13toetsing-1]
die verplicht is voor de meeste studenten in het talen-domein van de
Universiteit Utrecht. Op grond van eerdere studiejaren verwachten we een
gemiddelde score van 73 op deze toets; dit is het gemiddeld aantal goede
antwoorden uit 100 vragen. We operationaliseren dus eerst H1:
$\mu > 73$, en daaruit leiden we de bijbehorende nulhypothese af die
daadwerkelijk getoetst wordt: $\mu = 73$.
(In §\@ref(sec:ttoets-eenzijdigtweezijdig) hieronder gaan we nader in op
het al dan niet noemen van de *richting* van het verschil in H1).
[^h13toetsing-1]: Wij danken Els Rose voor het beschikbaar stellen van
deze gegevens.
Voor de eerstejaars studenten Taalwetenschap ($n=34$) van een bepaald
studiejaar vinden we een gemiddelde score van 84.4. Dat is inderdaad ver
boven de referentie-waarde van 73, maar dat zou ook toeval kunnen zijn.
Misschien is H0 waar, en zitten er geheel toevallig veel grammaticale
bollebozen in onze steekproef (uit de populatie van mogelijke
eerstejaars studenten Taalwetenschap). We kunnen de kans $P$ op die
situatie uitrekenen, d.w.z. de kans $P$ om een gemiddelde score van
$\overline{x}=84.4$ te vinden gegeven een willekeurige steekproef van
$n=34$ personen en gegeven dat H0 in werkelijkheid waar is (d.w.z.
$\mu=73$): dan blijkt $P=.000000001913$. Deze kans $P$ representeert de
kans om bij toeval deze gegevens te vinden terwijl H0 waar is:
$P(\overline{x}=84.4|\textrm{H0},n=34)$. In dit geval is die kans $P$
zeer klein.
Voor de argumentatie is het essentieel dat de gegevens valide zijn en
betrouwbaar zijn --- juist daarom zijn we uitgebreid ingegaan op
validiteit (Hoofdstuk \@ref(ch-validiteit)) en betrouwbaarheid
(Hoofdstuk \@ref(ch-betrouwbaarheid)). Als we alles goed gedaan hebben,
dan mogen we immers vertrouwen hebben in onze verkregen gegevens. De
lage waarschijnlijkheid van de gegevens volgens H0 kunnen we dan
redelijkerwijs *niet* toeschrijven aan fouten in de operationalisatie,
of aan meetfouten, of aan andere afwijkingen in de gegevens. De logische
conclusie is dan, dat de onwaarschijnlijke uitkomst erop wijst dat de
premisse (H0) waarschijnlijk *niet* waar is: we verwerpen H0; H0 is dus
gefalsifieerd. Onze kennis is daarmee toegenomen, omdat we nu op
gerechtvaardigde gronden mogen aannemen dat H0 onwaar is (en dus dat H1
waar is).
Indien we H0 verwerpen, op basis van bovenstaande redenering, die weer
gebaseerd is op waarschijnlijkheid, dan moeten we wel rekening houden
met de kleine kans $P$ dat het verwerpen van H0 een onterechte
beslissing is (Type-I-fout; zie §\@ref(sec:empirischecyclus)). Er is
immers de kans $P$ dat we deze data vinden terwijl H0 toch waar is (in
dit voorbeeld: terwijl de taalwetenschappers eigenlijk gemiddeld niet
anders scoren dan $\mu=73$).
```{r gramm2013onesample, echo=FALSE, fig.cap="Kansverdeling van de gemiddelde score uit een steekproef (n=34) bij populatiegemiddelde 73 en populatie-s.d. 14. Het gekleurde gebied bestrijkt 5% van de totale oppervlakte onder de curve; uitkomsten langs de X-as van dit gebied hebben dus een kans van ten hoogste 5% om op te treden als H0 waar is."}
# modified from gramm2013onesample.R, HQ 20141010
gramm2013 <- read.csv( file="data/grammaticatoets2013.csv",header=F)
dimnames(gramm2013)[[2]] <- c("score","opleiding")
# N=233
source( url("http://www.hugoquene.nl/R/eda.fnc.R"), echo=FALSE) # echo=FALSE
# mean(gramm2013$score[gramm2013$opleiding!="TW"]) -> testmean # gemiddelde score van NIET-TW studenten
# gebruik die als mu in one-sample t test
testmean <- 73
# with(gramm2013, t.test(score[opleiding=="TW"], mu=round(testmean)) )
# sd(gramm2013$score[gramm2013$opleiding!="TW"]) -> testsd
testsd <- 14
#
curve( dnorm(x, mean=testmean, sd=(testsd/sqrt(34)) ),
n=500, lwd=2, from=65, to=95, xlab="Gemiddelde score (n=34)", ylab="Kansdichtheid" )
abline(v=testmean, lty=2, col="grey")
abline(h=0, lty=2, col="grey")
xx <- seq( testmean+qnorm(.975)*(testsd/sqrt(34)),
testmean+qnorm(.99999)*(testsd/sqrt(34)),
length=25 )
yy <- dnorm( xx, mean=testmean, sd=testsd/sqrt(34) )
polygon( x=c(testmean+qnorm(.975)*(testsd/sqrt(34)), xx),
y=c(0,yy), col="darkorange", border="darkorange" )
abline( v=testmean+qnorm(.975)*(testsd/sqrt(34)), lty=2, col="grey" )
curve( dnorm(x, mean=testmean, sd=(testsd/sqrt(34)) ),
n=500, lwd=3, from=60, to=100, add=T ) # overwrite curve over lines and polygons, long tails!
arrows( 84.4, y0=.04, y1=0.002, lwd=3, col="darkred" )
text( 84.4, .06, "waargenomen\ngemiddelde", adj=1/2 )
```
Figuur \@ref(fig:gramm2013onesample) toont de kansverdeling van het
gemiddelde van de steekproef ($n=34$) als H0 waar is. We zien dat de
waarde 73 de hoogste kans heeft, maar ook 72 of 74 zijn waarschijnlijke
gemiddelde scores volgens H0. Een gemiddelde van 84.4 is echter zeer
onwaarschijnlijk, de kans $P$ op deze gemiddelde score (hoogte van de
curve) is bijna nul volgens H0.
De grenswaarde voor $P$ waarbij we H0 verwerpen, wordt het
significantieniveau genoemd, vaak aangeduid met symbool $\alpha$ (zie
§\@ref(sec:empirischecyclus)). Onderzoekers gebruiken vaak $\alpha=.05$,
maar soms worden andere grenswaarden gebruikt. In
Figuur \@ref(fig:gramm2013onesample) zie je dat de kans op een
gemiddelde score van 77.7 of meer een kans heeft van $P=.05$ of kleiner,
volgens H0. Dit is te zien aan de oppervlakte onder de curve. Het
gekleurde deel heeft precies een oppervlakte van 0.05 van de totale
oppervlakte onder de curve.
De beslissing om H0 wel of niet te verwerpen is gebaseerd op de
waarschijnlijkheid $P$ van de uitkomsten, gegeven H0. De beslissing zou
dus ook onjuist kunnen zijn. De bevinding dat $P < \alpha$ vormt dus
geen *onomstotelijk* bewijs dat H0 onwaar is (en verworpen *moet*
worden); het is ook mogelijk dat H0 toch waar is maar dat het gevonden
effect een toevalstreffer was (Type-I-fout). Omgekeerd vormt de
bevinding dat $P > \alpha$ geen sluitend bewijs dat H0 waar is. Er
kunnen allerlei andere, plausibele redenen zijn waarom een wel bestaand
effect (H0 is onwaar) toch niet goed geobserveerd wordt. Als ik geen
vogels hoor zingen, dan betekent dat niet noodzakelijkerwijs dat er echt
geen vogels zingen. Meer algemeen: "absence of evidence is not evidence
of absence" [@Sagan96, p.121; @Alde04]. Het is daarom goed om ook altijd
de grootte van het gevonden effect of verschil te rapporteren (dit wordt
nader uitgelegd in §\@ref(sec:ttoets-effectgrootte) hieronder).
------------------------------------------------------------------------
> *Voorbeeld 13.1:* Stel H0: 'vogels zingen niet'. Schrijf tenminste
> vier redenen op waarom ik geen vogels hoor zingen, zelfs als er wel
> vogels zingen (H0 is onwaar). Als ik H0 niet verwerp, wat voor type
> fout maak ik dan?
------------------------------------------------------------------------
## $t$-toets voor enkele steekproef {#sec:ttoets-onesample}
De Student $t$-toets wordt toegepast om een verschil te kunnen
onderzoeken tussen de gemiddelde score van een steekproef, en een a
priori veronderstelde waarde van dat gemiddelde. We gebruiken deze toets
als de standaarddeviatie $\sigma$ in de populatie niet bekend is, en dus
geschat moet worden uit de steekproef. De gedachtegang is als volgt.
Op grond van het gemiddelde en de standaarddeviatie in de steekproef, en
van het (volgens H0) veronderstelde gemiddelde, bepalen we de
toetsingsgrootheid $t$. Als H0 waar is, dan is de waarde $t=0$ het meest
waarschijnlijk. Naarmate het verschil tussen het geobserveerde
steekproefgemiddelde en het veronderstelde steekproefgemiddelde groter
wordt, neemt $t$ ook toe. Als de toetsingsgrootheid $t$ groter is dan
een bepaalde grenswaarde $t*$, dus als $t>t*$, dan is de kans op deze
toetsingsgrootheid, als H0 waar is, erg klein:
$P(t|\textrm{H0}) < \alpha$. De kans om dit resultaat te vinden als H0
waar is, is dan zo gering dat we besluiten H0 te verwerpen (zie
§\@ref(sec:empirischecyclus)). We spreken dan van een *significant*
verschil: de afwijking tussen het geobserveerde en het verwachte
gemiddelde is vermoedelijk niet toevallig.
In het eerdere voorbeeld van de grammaticatoets bij studenten
Taalwetenschap (§\@ref(sec:toetsing-inleiding)) hebben we al kennis
gemaakt met deze vorm van de $t$-toets. Als
$\overline{x}=84.4, s=8.4, n=34$, dan is toetsingsgrootheid $t=7.9$
volgens formule \@ref(eq:t-onesample) hieronder.
De kansverdeling van toetsingsgrootheid $t$ onder H0 is bekend; je vindt
de grenswaarde $t^*$ in Bijlage \@ref(app-kritieketwaarden). Anders
gezegd, als de gevonden toetsingsgrootheid $t$ groter is dan de
grenswaarde $t^*$ die in de tabel staat vermeld, dan is
$P(t|\textrm{H0})<\alpha$. Om de tabel in
Bijlage \@ref(app-kritieketwaarden) te kunnen gebruiken moeten we nog
een nieuw begrip introduceren, namelijk het aantal vrijheidsgraden. Dat
begrip wordt uitgelegd in §\@ref(sec:ttoets-vrijheidsgraden) hieronder.
Met het aantal vrijheidsgraden kun je in
Bijlage \@ref(app-kritieketwaarden) opzoeken welke grenswaarde $t^*$
nodig is om een bepaalde overschrijdingskans $p$ te verkrijgen. Laten we
opzoeken wat de overschrijdingskans is voor de gevonden
toetsingsgrootheid $t=7.9$. Eerst zoeken we in de linker kolom het
aantal vrijheidsgraden ('d.f.') op. Als het aantal vrijheidsgraden niet
in de tabel voorkomt, dan dienen we voorzichtigheidshalve naar beneden
af te ronden, hier naar 30 d.f. Dit aantal bepaalt de regel die voor ons
van toepassing is. In de derde kolom staat $t^*=1.697$. Onze gevonden
toetsingsgrootheid $t=7.9$ is groter dan deze $t^*=1.697$, dus de
overschrijdingskans is kleiner dan de $p=.05$ die hoort bij de derde
kolom. Als we verder naar rechts gaan op dezelfde regel, zien we dat de
vermelde $t^*$ nog toeneemt. Onze gevonden toetsingsgrootheid $t$ is
zelfs nog groter dan $t^*=3.385$ in de laatste kolom. De
overschrijdingskans is dus zelfs nog kleiner dan $p=.001$ uit de titel
van die laatste kolom. (Doorgaans berekent het statistische
analyse-programma ook de overschrijdingskans.) We rapporteren het
resultaat als volgt:
> De gemiddelde score van de studenten Taalwetenschap (lichting 2013) is
> 84.4 ($s=8.4$); dit is significant beter dan het veronderstelde
> populatie-gemiddelde van 73 ($t(33)=7.9, p<.001$).
### vrijheidsgraden {#sec:ttoets-vrijheidsgraden}
Om het concept van vrijheidsgraden uit te leggen, beginnen we met een
analogie. Stel dat er drie mogelijke routes zijn om van A naar B te
reizen: een kustpad, een bergpad, of een autoweg. Een wandelaar die van
A naar B wil reizen, heeft weliswaar drie opties, maar er zijn slechts
twee vrijheidsgraden voor de wandelaar: hij of zij hoeft slechts 2
keuzes te maken om te kiezen uit de drie opties. Eerst valt de autoweg
af (eerste kies-moment), en dan het bergpad (tweede kies-moment), en de
gekozen route langs het kustpad blijft als enige over. Er zijn dus twee
keuzes 'vrij', om uiteindelijk één van de drie mogelijke routes te
kiezen. Als we de twee keuzes weten, dan kunnen we daaruit afleiden
welke route gekozen moet zijn.
Nu kijken we naar een student die gemiddeld een $\overline{x}=7.0$ heeft
behaald over de $N=4$ cursussen van het eerste basispakket van zijn of
haar opleiding. Het gemiddelde van $7.0$ kan op vele manieren tot stand
zijn gekomen, bv. $(8,7,7,6)$ of $(5,6,8,9)$. Maar als we van drie
cursussen het resultaat weten, èn we weten dat het gemiddelde een 7.0
bedraagt, dan weten we ook wat de waarde van de vierde observatie moet
zijn. Die laatste observatie is dus niet meer 'vrij' maar wordt nu
vastgelegd door de eerste drie observaties, in combinatie met het
gemiddelde over de $N=4$ observaties. We zeggen dan dat je $N-1$
*vrijheidsgraden* hebt om dit kenmerk van de steekproef te bepalen,
zoals hier het steekproefgemiddelde, of zoals de toetsingsgrootheid $t$.
De vrijheidsgraden worden in het Engels 'degrees of freedom' genoemd,
vaak afgekort tot 'd.f.' (symbool $\nu$, griekse letter "nu") .
In de praktijk is het aantal vrijheidsgraden niet moeilijk te bepalen.
We geven namelijk bij elke toets aan hoe je de vrijheidsgraden bepaalt
--- en het aantal d.f. wordt doorgaans ook berekend door de statistische
analyse-programma's die we gebruiken.
Bij de $t$-toets voor een enkele steekproef is het aantal
vrijheidsgraden het aantal observaties $N-1$. In het hierboven besproken
voorbeeld hebben we dus $N-1 = 34-1 = 33$ vrijheidsgraden.
### formules {#sec:formules13-1}
```{=tex}
\begin{equation}
t = \frac{ \overline{y}-\mu} { s } \times \sqrt{N}
(\#eq:t-onesample)
\end{equation}
```
### aannames {#sec:ttoets-aannames}
De $t$-toets voor een enkele steekproef vereist drie aannames
(assumpties) waaraan voldaan moet zijn, om de toets te mogen gebruiken.
- De gegevens moeten gemeten zijn op intervalniveau (zie hoofdstuk
\@ref(ch-meetniveau)).
- Alle observaties moeten onafhankelijk van elkaar zijn.
- De scores moeten normaal verdeeld zijn (zie
§\@ref(sec:normaalverdeling)).
### SPSS
De hierboven besproken gegevens zijn te vinden in het bestand
`data/grammaticatoets2013.csv`.
Om onze eerdere hypothese te toetsen, moeten we in SPSS eerst de
observaties selecteren van de studenten Taalwetenschap.
```
Data > Select cases...
```
Kies `If condition is satisfied` en druk op knop `If...` om de condities
voor selectie (inclusie) aan te geven.\
Selecteer variabele `opleiding` (sleep naar rechter paneel), kies knop
`=`, en type daarna *`TW`*, zodat de hele conditie luidt
`opleiding = TW`.
Daarna kunnen we onze eerdere hypothese toetsen als volgt:
```
Analyze > Compare Means > One-Sample T Test...
```
Selecteer variabele `score` (sleep naar Test variable(s) paneel).\
Geef op tegen welke waarde van $\mu$ getoetst moet worden: geef op als
Test Value `73`. Bevestig met `OK`.
De uitvoer bevat zowel beschrijvende statistiek als de resultaten van
een *tweezijdige* $t$-toets.
Neem bij het overnemen van die uitvoer goede notitie van de waarschuwing
in §\@ref(sec:pgroterdannul) hieronder: SPSS rapporteert alsof `p=.000`
maar dat is onjuist.
### JASP {#sec:jaspttoetsenkel}
De hierboven besproken gegevens zijn te vinden in het bestand
`data/grammaticatoets2013.csv`.
Om de eerder besproken hypothese te toetsen, moeten we eerst alleen de
observaties van studenten Taalwetenschap selecteren ('filteren'). Ga
daarvoor naar het tabblad met data, en klik op het trechtersymbool
(filter) in de cel linksboven. Er verschijnt dan een werkblad waar je je
selectie kunt specificeren.\
Klik 1x op de variabele `opleiding` (links), die verspringt dan naar het
werkblad. Klik daarna 1x op het symbool `=` (boven) en plaats de cursor
achter het `=` teken op het werkblad, en typ de twee letters `TW` (in
hoofdletters en zonder aanhalingstekens; exact hetzelfde zoals in de
variabele *opleiding*). Op het werkblad staat nu het selectiecriterium:
`opleiding = TW`.\
Klik op de tekst `Apply pass-through filter` onder het werkblad om dit
filter toe te passen. In het tabblad met data zie je nu direct dat de
regels van studenten anders dan `TW` grijs gemaakt zijn. Die regels
(observaties) worden niet verder gebruikt.
Klik daarna voor het toetsen van de hypothese in de bovenbalk op:
```
T-Tests > Classical: One Sample T-Test
```
Selecteer de variabele *score* en plaats deze in het veld "Variables".
Zorg dat `Student` aangevinkt is onder "Tests" en geef bij `Test value:`
op tegen welke waarde van $\mu$ getoetst moet worden; 73. Onder
"Alt.Hypothesis" moet `> Test value` worden geselecteerd voor een
eenzijdige $t$-toets (want H1: $\mu > 73$). Voor meer inzicht kunnen
onder "Additional Statistics" ook `Descriptives` en `Descriptive plots`
worden aangevinkt. Vink hier ook `Effect size` aan (zie
§\@ref(sec:ttoets-effectgrootte) hieronder). Vink als laatste onder het
kopje "Assumption checks" ook de optie `Normality` aan (zie
§\@ref(sec:isvarnormaalverdeeld)).
De uitvoer geeft de resultaten van de eenzijdige $t$-toets, inclusief
effectgrootte. De tabel *Assumption Checks* geeft de resultaten van de
Shapiro-Wilk-toets (die toetst of de afhankelijke variabele normaal
verdeeld is). Als dit is aangevinkt wordt ook een tabel met
beschrijvende statistiek en een "Descriptive plot" gegeven. Hiermee kun
je goed zien waar de waarde $\mu$ ligt waartegen wordt getoetst ten
opzichte van de scores van de studenten Taalwetenschap.
Let op! Voor de toets hebben we een filter aangezet om alleen de
studenten Taalwetenschap mee te nemen, en dit filter blijft aan staan
als je niks doet. Als je later weer alle observaties wilt gebruiken,
maak het filteren dan ongedaan door weer in het data tabblad naar het
filter werkblad te gaan en 2x op de prullenbak te klikken. Als het goed
gaat staat er "Filter cleared" en worden alle observaties weer zwart in
het data tabblad.
### R
Onze hierboven besproken hypothese kan worden getoetst met de volgende
opdrachten:
```{r gramm2013onesample-test}
gramm2013 <- read.csv( file="data/grammaticatoets2013.csv",header=TRUE)
with( gramm2013,
t.test( score[opleiding=="TW"], mu=73, alt="greater" ) )
```
De notatie `1.913e-09` moet gelezen worden als het getal
$(1.913 \times 10^{-9})$.
## Overschrijdingskans $p$ is altijd groter dan nul {#sec:pgroterdannul}
De overschrijdingskans $p$ kan heel klein zijn, maar is altijd groter
dan nul! In het bovenstaande voorbeeld van de grammaticatoets vonden we
$P=.000000001913$, een heel kleine kans, maar wel groter dan nul. Dat is
ook te zien aan de staarten van de bijbehorende kansverdeling, die
asymptotisch naderen naar nul (zie Fig.\@ref(fig:gramm2013onesample))
maar nooit helemaal gelijk aan nul worden. Er is immers altijd een
miniem kleine kans dat je een extreme waarde (of een nog extremere
waarde) van je toetsingsgrootheid zult vinden in een steekproef --- we
onderzoeken de steekproef immers juist omdat de uitkomst van de
toetsingsgrootheid niet a priori vaststaat.
In SPSS worden de overschrijdingskansen echter afgerond, en kunnen dan
in de uitvoer verschijnen als `‘Sig. .000’` oftewel $p=.000$. Dit is
onjuist. De overschrijdingskans of significantie is immers niet gelijk
aan nul, maar is *afgerond naar* nul, en dat is niet hetzelfde.
Rapporteer de overschrijdingskans of significantie altijd met de juiste
nauwkeurigheid, in dit voorbeeld als $p<.001$ [zie ook @Wright03,
p.125].
## Eenzijdige en tweezijdige toetsen {#sec:ttoets-eenzijdigtweezijdig}
De procedure die we hierboven hebben besproken geldt voor het éénzijdig
toetsen. Dat wil zeggen dat de alternatieve hypothese niet alleen stelt
dat de gemiddelden zullen verschillen, maar ook in welke richting dat
zal zijn: H1: $\mu >73$, de studenten Taalwetenschap scoren *beter* dan
het populatiegemiddelde. Als we een verschil zouden vinden in de
tegengestelde richting, zeg $\overline{x}=68$, dan beginnen we niet eens
aan statistische toetsing: de H0 blijft zonder meer in stand. Pas als we
een verschil vinden in de veronderstelde richting is het zinvol om te
inspecteren of dit verschil significant is. Wanneer je nu kijkt naar de
afbeelding bij Bijlage \@ref(app-kritieketwaarden), dan klopt dit ook.
De $p$-waarde correspondeert met de oppervlakte van het gekleurde
gebied.
Indien de alternatieve hypothese H1 de richting van het verschil *niet*
specificeert, dan treedt er een complicatie op. Zowel verschillen in de
ene richting als in de andere richting zijn dan immers relevant. We
spreken dan van tweezijdig toetsen. Om de tweezijdige
overschrijdingskans te berekenen moeten we de $p$-waarde uit
Bijlage \@ref(app-kritieketwaarden) vermenigvuldigen met $2$ (omdat we
nu kijken naar twee gekleurde gebieden, aan beide zijden van de
kansverdeling).
Laten we in het voorbeeld van de grammaticatoets nu tweezijdig toetsen.
We operationaliseren de alternatieve hypothese dan als H1: $\mu \ne 73$.
Wederom is $\overline{x}=73, t=7.9$ met 33 d.f. (afgerond naar 30 d.f.).
Bij de eenzijdige overschrijdingskans $p=.025$ (vierde kolom) vinden we
de kritieke grenswaarde $t^*=2.042$. De tweezijdige overschrijdingskans
voor deze grenswaarde is $2 \times .025 = .05$. Onze gevonden
toetsingsgrootheid $t=7.9$ is groter dan deze $t^*=2.042$, dus de
tweezijdige overschrijdingskans is kleiner dan $p=2\times.025=.05$. Onze
gevonden toetsingsgrootheid $t$ is zelfs groter dan $t^*=3.385$ in de
laatste kolom, dus de tweezijdige overschrijdingskans is zelfs kleiner
dan $2\times.001$. We kunnen onze tweezijdige toetsing als volgt
rapporteren:
> De gemiddelde score van de studenten Taalwetenschap (lichting 2013) is
> 84.4 ($s=8.4$); dit verschilt significant van het veronderstelde
> populatie-gemiddelde van 73 ($t(33)=7.9, p<.002$).
In de meeste onderzoeken wordt tweezijdig getoetst; als de richting van
de toets niet wordt vermeld dan mag je daarom aannemen dat er tweezijdig
is getoetst.
## Betrouwbaarheidsinterval van het gemiddelde {#sec:t-betrouwbaarheidsinterval-gemiddelde}
Deze paragraaf gaat dieper in op een onderwerp dat eerder al aan bod
kwam in §\@ref(sec:betrouwbaarheidsinterval-gemiddelde), en illustreert
het betrouwbaarheidsinterval van het gemiddelde met de scores van de
grammaticatoets.
Het gemiddelde van de steekproef, $\overline{x}$, kunnen we beschouwen
als een goede schatting van het onbekende gemiddelde in de populatie,
$\mu$. Het betrouwbaarheidsinterval (confidence interval, CI) geeft aan
hoeveel vertrouwen we in die schatting mogen hebben, d.w.z., met hoeveel
(on)zekerheid het gemiddelde van de steekproef, $\overline{x}$,
overeenkomt met het gemiddelde van de populatie $\mu$ [@Cumm12]. We
kennen zulke foutenmarges ook uit verkiezingsuitslagen, waar ze aangeven
hoe zeker de uitslag van de gepeilde steekproef (van respondenten)
overeenkomt met de werkelijke verkiezingsuitslag voor de gehele
populatie (van kiezers). Een foutenmarge van 2% betekent dat het voor
95% zeker is dat $x$, het percentage stemmen op een bepaalde partij, zal
liggen tussen $(x-2)$% en $(x+2)$%.
In ons voorbeeld met 30 d.f. vinden we $t^*=2.042$ voor 95%
betrouwbaarheid. Via formule \@ref(eq:t-onesampleCI) komen we tot het
95% betrouwbaarheidsinterval $(81.5, 87.3)$. Wat betekent dit
betrouwbaarheidsinterval? Als we herhaalde steekproeven zouden (kunnen)
trekken uit dezelfde populatie van studenten Taalwetenschap, dan zou het
betrouwbaarheidsinterval in 95% van die herhaalde steekproeven het
werkelijke populatiegemiddelde $\mu$ bevatten, en in 5% van de herhaalde
steekproeven zou het werkelijke populatiegemiddelde buiten het 95% CI
vallen. Het CI geeft dus aan "the confidence in the algorithm and [it
is] not a statement about a single CI"
(<https://rpsychologist.com/d3/ci/>).
We rapporteren het betrouwbaarheidsinterval als volgt:
> De gemiddelde score van de studenten Taalwetenschap (lichting 2013) is
> 84.4, met 95% betrouwbaarheidsinterval (81.5, 87.3), 33 d.f.
In Figuur \@ref(fig:gramm2013CIs) zie je de resultaten van een
computersimulatie om dit te illustreren. Deze figuur is op dezelfde
wijze gemaakt als Figuur \@ref(fig:tempo95CIs) in Hoofdstuk
\@ref(ch-kansverdelingen) en illustreert hetzelfde punt. We hebben
$100\times$ steekproeven getrokken van scores van studenten
Taalwetenschap, met $\mu=84.4$ en $\sigma=8.4$ (zie
§\@ref(sec:standaarddeviatie)) en $N=34$. Voor elke steekproef hebben we
het 95% betrouwbaarheidsinterval getekend. Voor 95 van de 100
steekproeven valt het populatiegemiddelde $\mu=84.4$ inderdaad binnen
het interval, maar voor 5 van de 100 steekproeven ten onrechte niet
(deze zijn gemarkeerd langs de rechterkant). Op de website
<https://rpsychologist.com/d3/ci/> vind je meer visuele uitleg van het
concept van betrouwbaarheidsintervallen.
```{r gramm2013CIs, echo=FALSE, fig.cap="95%-Betrouwbaarheidsintervallen en steekproefgemiddelden, over 100 gesimuleerde steekproeven (n=34) uit een populatie met populatiegemiddelde 84.4, populatie-s.d. 8.4."}
# adapted from similar chunk in Ch.10
set.seed(20200912) # last version
nn <- 34
conf <- .95
mu <- 84.4
sigma <- 8.4
nsim <- 100
crit <- qt( 1-((1-conf)/2), (nn-1) )
se <- function(x) { sd(x)/sqrt(length(x)) }
results <- NA
hits <- rep(NA,nsim)
op <- par( oma=c(0,0,0,0), mar=c(3,1,3,1)+0.1 )
plot( 1:nsim, 1:nsim, type="n",
xlab="Score grammaticatoets", ylab="", xlim=c(72,90), yaxt="n" )
abline( v=0, lty=2 )
for (i in 1:nsim) {
aux <- rnorm(nn,mu,sigma)
lb <- mean(aux)-crit*se(aux)
ub <- mean(aux)+crit*se(aux)
results <- append( results, c(mean(aux),se(aux),lb,ub) )
# 20231120 function hqmisc::is.inrange is broken
# hits[i] <- is.inrange( mu, c(lb,ub) )
hits[i] <- (mu>lb) & (mu<ub)
lines( x=c(lb,ub), y=rep(i,2), type="l",lwd=2,
col=ifelse(hits[i],"black","red") )
points( x=mean(aux), y=i, pch=20, cex=.5 ) # added 20090319
}
results <- results[2:length(results)]
results <- matrix(results,ncol=4,byrow=T)
mtext("Score grammaticatoets", side=1, line=2)
# mtext("Spreektempo (lettergreep/seconde)", side=3, line=2)
abline(v=mu, col="grey", lty=2)
abline(v=73, col="grey", lty=2) # see previous chunk, gemidd van niet-TW
axis(side=1, at=73) # tick and label
# xx <- seq(0.18,0.26,by=0.02)
# axis(side=3, at=xx, labels=round(1/xx,2) )
axis(side=4, at=which(!hits), labels=F) # ticks only
# clean up
rm(nn,conf,mu,sigma,nsim,crit,i)
rm(aux,lb,ub)
# keep results matrix
par(op)
```
Uit formule \@ref(eq:t-onesampleCI-nogmaals) volgt logischerwijze, dat als de
standaarddeviatie $s$ afneemt, en/of als de steekproefgrootte $N$
toeneemt, het betrouwbaarheidsinterval dan kleiner wordt, m.a.w., we
kunnen er meer vertrouwen in hebben dat het geobserveerde gemiddelde van
de steekproef dicht bij het onbekende gemiddelde van de populatie ligt.
### formules {#sec:formules13-2}
Het tweezijdige betrouwbaarheidsinterval voor $B$% betrouwbaarheid voor een populatie-gemiddelde $\mu$ is
\begin{equation}
\overline{y} \pm t^*_{1-B,N-1} \times \frac{s}{\sqrt{N}}
(\#eq:t-onesampleCI-nogmaals)
\end{equation}
(zie ook eerdere formule \@ref(eq:t-onesampleCI)).
### SPSS
```
Analyze > Descriptive Statistics > Explore...
```
Selecteer afhankelijke variabele (sleep naar Dependent List paneel).\
Kies knop `Statistics` en vink aan `Descriptives` met Confidence
Interval 95%.\
Bevestig met `Continue` en met `OK`.\
De uitvoer bevat meerdere beschrijvende statistische maten, waaronder nu
ook het 95% betrouwbaarheidsinterval van het gemiddelde.
### JASP
In JASP kun je het betrouwsbaarheidsinterval van het gemiddelde
aanvragen bij een $t$-toets. We voeren dus wederom een $t$-toets uit en
vinden het betrouwbaarheidsinterval van het gemiddelde in de uitvoer.
Zorg dat het filter aanstaat zodat alleen de observaties van studenten
Taalwetenschap geselecteerd zijn (zie §\@ref(sec:jaspttoetsenkel)).
Klik daarna in de bovenbalk op:
```
T-Tests > Classical: One Sample T-Test
```
Selecteer de variabele *score* en plaats deze in het veld "Variables".
Zorg dat `Student` aangevinkt is onder "Tests" en laat `Test value:` op
0 staan. Vink onder "Additional Statistics" `Location parameter` aan en
ook `Confidence interval`. Hier kun je zelf het betrouwbaarheidsniveau
opgeven; dit staat standaard op 95%.
De uitvoer geeft nu als 'Mean Difference' het gemiddelde aan (want er
wordt vergeleken met 0; dat is de 'Test value'). In dezelfde tabel zie
je het '95% CI for Mean Difference', wat in dit geval dus het
betrouwbaarheidsinterval van het gemiddelde is.
### R
R vermeldt het betrouwbaarheidsinterval van het gemiddelde (met een zelf
op te geven betrouwbaarheidsniveau) bij een $t$-toets. We voeren dus
wederom een $t$-toets uit en vinden het betrouwbaarheidsinterval van het
gemiddelde in de uitvoer.
```{r}
with( gramm2013, t.test( score[opleiding=="TW"] ) )
```
## $t$-toets voor twee onafhankelijke steekproeven {#sec:ttoets-onafh}
De Student $t$-toets wordt toegepast om een verschil te kunnen
onderzoeken tussen de gemiddelde scores van twee onafhankelijke
steekproeven, bv van vergelijkbare jongens en meisjes. Op grond van de
gemiddelden en de standaarddeviaties van de twee steekproeven bepalen we
de toetsingsgrootheid $t$. Als H0 waar is, dan is de waarde $t=0$ het
meest waarschijnlijk. Naarmate het verschil tussen de twee gemiddelden
groter wordt, neemt $t$ ook toe. Wederom verwerpen we H0 indien $t>t^*$
voor het gekozen significantieniveau $\alpha$.
Als eerste voorbeeld nemen we een onderzoek naar de omvang van de
productieve woordenschat bij Zweedse meisjes en jongens van 18 maanden
oud [@Ande11]. We onderzoeken de veronderstelling dat de woordenschat
van meisjes verschilt van die van jongens, d.w.z. H1: $\mu_m \ne \mu_j$.
We kunnen niet a priori aannemen dat een eventueel verschil slechts één
richting op kan gaan; we toetsen daarom tweezijdig, zoals al blijkt uit
H1. De bijbehorende nul-hypothese die we toetsen is H0: $\mu_m = \mu_j$.
In dit onderzoek werd de woordenschat geschat op grond van vragenlijsten
aan de ouders van de kinderen in de steekproeven. Deelnemers waren
(ouders van) $n_1=123$ meisjes en $n_2=129$ jongens, allen 18 maanden
oud. Uit de resultaten blijkt dat de meisjes een gemiddelde woordenschat
hebben van $\overline{x_1}=95$ woorden ($s_1=82$), en voor de jongens is
dat $\overline{x_2}=85$ woorden ($s_2=98$). Met deze gegevens bepalen we
de toetsingsgrootheid $t$ volgens formule \@ref(eq:t-homoskedastic),
resulterend in $t=0.88$ met 122 d.f. De bijbehorende kritieke
grenswaarde $t^*$ zoeken we wederom op in
Bijlage \@ref(app-kritieketwaarden). In de regel voor 100 d.f. (na
afronding naar beneden) vinden we $t^*=1.984$ in de vierde kolom. Voor
tweezijdige toetsing moeten we de overschrijdingskans behorend bij deze
kolom verdubbelen (zie §\@ref(sec:ttoets-eenzijdigtweezijdig)),
resulterend in $p=.05$. De gevonden toetsingsgrootheid $t < t^*$, dus
$p>.05$. We besluiten om H0 *niet* te verwerpen, en rapporteren dat als
volgt:
> De gemiddelde productieve woordenschat van Zweedse kinderen van 18
> maanden oud verschilt nauwelijks tussen meisjes en jongens
> ($t(122)=0.88, p>.4$). Meisjes produceren gemiddeld 95 verschillende
> woorden ($s=82$), en jongens gemiddeld 85 verschillende woorden
> ($s=98$).
Als tweede voorbeeld nemen we een onderzoek naar het spreektempo van
twee groepen sprekers, nl. afkomstig uit het Westen (eerste groep) en
uit het Noorden (tweede groep) van Nederland. De spreeksnelheid wordt
hier uitgedrukt als de gemiddelde duur van een gesproken lettergreep,
gemiddeld over een interview van ca 15 minuten (zie voorbeeld
\@ref(ch-variantieanalyse).1). We onderzoeken H0: $\mu_W = \mu_N$ met
tweezijdige toetsing. Uit de resultaten blijkt dat de westerlingen
($n=20$) een gemiddelde lettergreepduur hebben van
$\overline{x_W}=0.235$ s ($s=0.028$), en voor de noorderlingen (ook
$n=20$) is dat $\overline{x_N}=0.269$ s ($s=0.029$). Met deze gegevens
bepalen we wederom de toetsingsgrootheid $t$ volgens formule
\@ref(eq:t-homoskedastic), resulterend in $t=-3.76$ met 38 d.f. De
bijbehorende kritieke grenswaarde $t^*$ zoeken we wederom op in
Bijlage \@ref(app-kritieketwaarden). De juiste d.f. zijn niet in de
tabel vermeld, dus ronden we naar beneden af (d.i. in conservatieve
richting) naar 30 d.f. In die regel vinden we $t^*=2.042$ in de vierde
kolom. Voor tweezijdige toetsing moeten we de overschrijdingskans
behorend bij deze kolom verdubbelen (zie
§\@ref(sec:ttoets-eenzijdigtweezijdig)), resulterend in $p=.05$. De
gevonden toetsingsgrootheid $t < t^*$, dus $p<.05$. We besluiten daarom
om H0 *wel* te verwerpen, en rapporteren dat als volgt:
> De gemiddelde duur van een lettergreep gesproken door een spreker uit
> het westen van Nederland is $0.235$ seconde ($s=0.03$). Dit is
> significant korter dan bij sprekers uit het Noorden van Nederland
> ($\overline{x}=0.269$ s, $s=0.03$) ($t(38)=-3.76, p<.05$). In de
> onderzochte opnames uit 1999 praten de sprekers uit het Westen dus
> sneller dan die uit het Noorden van Nederland.
### aannames {#sec:ttoets-ongepaard-aannames}
De Student $t$-toets voor twee onafhankelijke steekproeven vereist vier
aannames (of assumpties) waaraan voldaan moet zijn, om de toets te mogen
gebruiken.
- De gegevens moeten gemeten zijn op intervalniveau (zie
§\@ref(sec:interval)).
- Alle observaties moeten onafhankelijk van elkaar zijn.
- De scores moeten normaal verdeeld zijnin beide groepen (zie
§\@ref(sec:isvarnormaalverdeeld)).
- De variantie van de scores moet gelijk zijn in beide steekproeven.
Schending van deze aanname is ernstiger naarmate de twee
steekproeven meer in grootte verschillen. Het is daarom verstandig
om te werken met even grote, en liefst niet te kleine steekproeven.
Als de steekproeven even groot zijn dan is het schenden van deze
aanname van gelijke varianties niet zo ernstig. Zie ook
§\@ref(sec:ttoets-formules) direct hieronder.
### formules {#sec:ttoets-formules}
#### toetsingsgrootheid
Voor de berekening van de toetsingsgrootheid $t$ zijn verschillende
formules in gebruik.
Indien de steekproeven ongeveer **gelijke variantie** hebben, dan
gebruiken we eerst de "pooled standard deviation" $s_p$ als tussenstap.
De beide standaarddeviaties van de twee steekproeven worden daarin
gewogen naar hun steekproefomvang.
\begin{equation}
s_p = \sqrt{ \frac{(n_1-1) s^2_1 + (n_2-1) s^2_2} {n_1+n_2-2} }
(\#eq:sd-pooled)
\end{equation}
Vervolgens
\begin{equation}
(\#eq:t-homoskedastic)
t = \frac{ \overline{x_1}-\overline{x_2} } { s_p \sqrt{\frac{1}{n_1}+\frac{1}{n_2}} }
\end{equation}
Indien de steekproeven **niet gelijke varianties** hebben, en de vierde
aanname hierboven dus is geschonden, dan wordt Welch's benadering
gebruikt:
\begin{equation}
(\#eq:sd-WS)
s_{\textrm{WS}} = \sqrt{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2} }
\end{equation}
Vervolgens
\begin{equation}
(\#eq:t-WS)
t = \frac{ \overline{x_1}-\overline{x_2} } { s_{\textrm{WS}} }
\end{equation}
#### vrijheidsgraden {#vrijheidsgraden}
Meestal wordt de $t-toets$ uitgevoerd door een computerprogramma.
Daarbij wordt dan meestal de volgende benadering gebruikt van de
vrijheidsgraden ($\nu$, zie §\@ref(sec:ttoets-vrijheidsgraden)). Eerst
worden $g_1=s^2_1/n_1$ en $g_2=s^2_2/n_2$ berekend. Het aantal
vrijheidsgraden van $t$ is dan
\begin{equation}
(\#eq:df-WS)
\nu_\textrm{WS} =
\frac {(g_1+g_2)^2} {g^2_1/(n_1-1) + g^2_2/(n_2-1)}
\end{equation}
Het aantal vrijheidsgraden volgens deze benadering heeft als liberale
bovengrens $(n_1+n_2-2)$, en als conservatieve ondergrens de kleinste
van $(n_1-1)$ of $(n_2-1)$. Je kunt dus ook altijd deze conservatieve
ondergrens gebruiken. Indien de twee groepen ongeveer dezelfde variantie
hebben (d.i. $s_1 \approx s_2$), dan kan je ook de liberale bovengrens
gebruiken.
Voor het tweede voorbeeld hierboven geeft de benadering van formule
\@ref(eq:df-WS) de schatting van $37.99 \approx 38$ d.f. De
conservatieve ondergrens is $n_1-1 = n_2-1 = 19$. De liberale bovengrens
is $n_1+n_2 -2 = 38$. (In de tabel met kritische waarden $t*$, in
Bijlage \@ref(app-kritieketwaarden), is het meestal raadzaam om de regel
te gebruiken met de eerstvolgende kleinere waarde voor het aantal
vrijheidsgraden.)
### SPSS {#sec:SPSS-ttoets-ongepaard}
Het tweede bovenstaande voorbeeld wordt hier uitgewerkt.
```
Analyze > Compare Means > Independent-Samples T Test
```
Sleep de afhankelijke variabele `syldur` naar paneel Test Variable(s).
Sleep de onafhankelijke variabele `region` naar paneel Grouping
Variable. Definieer de twee groepen: waarde W voor regio groep 1 en
waarde N voor regrio groep 2. Bevestig met `Continue` en `OK`.
Zoals je hierboven kon zien, is de berekening van de $t$-toets
afhankelijk van het antwoord op de vraag of de standaarddeviaties van de
twee groepen ongeveer gelijk zijn. SPSS lost dat zeer onhandig op: je
krijgt alle relevante uitvoer te zien, en moet daar zelf een keuze uit
maken.
#### Test for equality of variances
Met Levene's test wordt onderzocht H0: $s^2_1 = s^2_2$, d.w.z. of de
varianties (en daarmee de standaarddeviaties) van de twee groepen gelijk
zijn. Als je een kleine waarde vindt voor de toetsingsgrootheid $F$, en
een $p>.05$, dan hoef je deze H0 niet te verwerpen. Je mag dan aannemen
dat de varianties gelijk zijn. Als je een grote waarde vindt voor $F$,
met $p<.05$, dan dien je deze H0 wel te verwerpen, en je mag niet
aannemen dat de varianties van de twee groepen gelijk zijn. Gebruik en
rapporteer de juiste t-toets uit de uitvoer.
#### Test for equality of means
Afhankelijk van deze uitkomst van Levene's test moet je de eerste of de
tweede regel gebruiken van de uitvoer van de Independent-Samples Test
(een toets die onderzoekt of de gemiddelden van de twee groepen gelijk
zijn). In dit voorbeeld zijn de varianties ongeveer gelijk, zoals de
Levene's test ook aangeeft. We gebruiken dus de eerste regel van de
uitvoer, en rapporteren $t(38)=-3.76, p=.001$.
### JASP {#sec:jaspttoetsongepaard}
Het tweede bovenstaande voorbeeld wordt hier uitgewerkt: het spreektempo
van sprekers uit het Westen en Noorden van Nederland wordt vergeleken.
#### voorbereiding
Hiervoor moeten we eerst zorgen dat alleen de regio's Noord en West zijn
geselecteerd. Dit doe je door in het data tabblad op de variabele-naam
*region* te klikken. Er opent een veld met daarin de verschillende
waardes ('Values'; in dit geval regio's) van de nominale variabele. Je
kunt hier bepaalde waardes (regio's) van de nominale variabele tijdelijk
filteren. In de kolom "Filter" staan standaard alleen maar vinkjes, wat
betekent dat alle observaties worden meegenomen. Klik op de vinkjes bij
de waardes (regio's) die je tijdelijk niet mee wilt nemen, *S* (Zuid) en
*M* (Midden), zodat het kruizen worden. In het data tabblad zie je de
bijbehorende observaties dan grijs worden. Zorg dus dat er alleen nog
maar bij *N* (Noord) en *W* (West) een vinkje staat om alleen de
observaties van sprekers uit het Westen en Noorden van Nederland te
selecteren.\
(Vergeet niet later de kruizen weer terug te veranderen in vinkjes als
je wel weer alle observaties wilt meenemen!).
#### *t*-toets
Klik na het filteren van de goede regio's in de bovenbalk op:
```
T-Tests > Classical: Independent Samples T-Test
```
Selecteer de variabele *syldur* en plaats deze in het veld "Variables".
Plaats de variabele *region* in het veld "Grouping Variable". Als een
variabele meer dan twee groepen bevat geeft JASP aan dat er een probleem
is (je kunt immers maar twee groepen vergelijken); daarom filteren we
hierboven zo dat we alleen Noord en West meenemen in de variabele
*region*.\
Zorg dat `Student` aangevinkt is onder "Tests" en onder "Alt.Hypothesis"
moet de eerste optie (de groepen zijn niet hetzelfde) worden aangevinkt
voor een tweezijdige $t$-toets. Voor meer inzicht kunnen onder
"Additional Statistics" ook `Descriptives` en `Descriptive plots` worden
aangevinkt. Vink hier ook `Effect size` (Cohen's d) aan (zie
§\@ref(sec:ttoets-effectgrootte) hieronder).\
Vink onder het kopje "Assumption checks" ook de optie `Normality` aan
(§\@ref(sec:ttoets-ongepaard-aannames), derde assumptie, zie ook
§\@ref(sec:isvarnormaalverdeeld)) en eveneens `Equality of variances`
(§\@ref(sec:ttoets-ongepaard-aannames), vierde assumptie).
De uitvoer geeft de resultaten van de tweezijdige $t$-toets, inclusief
effectgrootte.\
Onder *Assumption Checks* vind je de resultaten van de
Shapiro-Wilk-toets, die toetst of de afhankelijke variabele normaal
verdeeld is in beide groepen. Ook zie je de tabel 'Test of Equality of
Variances (Levene's)'. Met Levene's test wordt onderzocht H0:
$s^2_1 = s^2_2$, d.w.z. of de varianties (en daarmee de
standaarddeviaties) van de twee groepen gelijk of ongelijk zijn (zie
§\@ref(sec:ttoets-formules) hierboven). Als je een kleine waarde vindt
voor de toetsingsgrootheid $F$, en een $p>.05$, dan hoef je deze H0 niet
te verwerpen. Je mag dan aannemen dat de varianties wel gelijk zijn.
Gebruik en rapporteer dan de *Student* versie van de $t$-toets (die is
hierboven gekozen onder "Tests"). Als je een grote waarde vindt voor
$F$, met $p<.05$, dan dien je deze H0 wel te verwerpen, en je mag dan
niet aannemen dat de varianties van de twee groepen gelijk zijn. Kies
dan onder het kopje "Tests" de optie `Welch`, en gebruik en rapporteer
dan de *Welch* versie van de *t*-toets.\
In dit voorbeeld geven de toetsen voor normaliteit en voor gelijke
varianties geen significante resultaten. Dat betekent dat aan de derde
en vierde bovengenoemde assumptie is voldaan; we gebruiken en
rapporteren dan de Student $t$-toets: $t(38)=3.76, p<.001, d=1.2$.
Als dit is aangevinkt wordt als laatste in de uitvoer een tabel met
beschrijvende statistiek en een "Descriptive plot" gegeven. Hiermee kun
je goed zien hoe de scores van de twee groepen van elkaar verschillen.
### R {#sec:R-ttoets-ongepaard}
```{r}
require(hqmisc)
data(talkers)
with(talkers, t.test( syldur[region=="W"], syldur[region=="N"],
paired=F, var.equal=T ) )
```
## $t$-toets voor gepaarde waarnemingen {#sec:ttoets-gepaard}
De Student $t$-toets wordt ook toegepast om een verschil te onderzoeken
tussen de gemiddelden van twee afhankelijke of gepaarde waarnemingen.
Daarvan is sprake als we slechts één steekproef trekken (zie hoofdstuk
\@ref(ch-steekproeftrekking)), en van de leden van deze steekproef
vervolgens twee observaties verzamelen, nl. één observatie onder elk van
beide condities. De twee observaties zijn dan gepaard, d.w.z. aan elkaar
gerelateerd, en deze observaties zijn dus niet onafhankelijk (want
afkomstig van hetzelfde lid van de steekproef). Eén van de assumpties
van de $t$-toets is daarmee geschonden.
Als voorbeeld nemen we een denkbeeldig onderzoek naar het gebruik van
*U* of *je* als aanspreekvorm op een website. De onderzoeker maakt twee
versies van een webpagina, de ene met *U* en de andere met *je*. Elke
respondent moet beide versies beoordelen op een schaal van 1 tot 10. (Om
redenen van validiteit wordt de volgorde van de twee versies gevarieerd
tussen respondenten; de volgorde waarin de pagina's beoordeeld zijn, kan
dus geen invloed hebben op de totaalscore per conditie.) In
Tabel \@ref(tab:data-uje-paired) zijn de oordelen van $N=10$
respondenten samengevat.
| id | conditie *U* | conditie *je* | $D$ |
|:---:|-------------:|--------------:|:-------------------:|
| 1 | 8 | 9 | -1 |
| 2 | 5 | 6 | -1 |
| 3 | 6 | 9 | -3 |
| 4 | 6 | 8 | -2 |
| 5 | 5 | 8 | -3 |
| 6 | 4 | 6 | -2 |
| 7 | 4 | 8 | -4 |
| 8 | 7 | 10 | -3 |
| 9 | 7 | 9 | -2 |
| 10 | 6 | 7 | -1 |
| | | | $\overline{D}$=-2.2 |
: (#tab:data-uje-paired) Fictieve oordelen over een webpagina met *U* of
*je* als aanspreekvorm, door $N=10$ respondenten.
Het paar van observaties voor het $i$-de lid van de steekproef heeft een
verschil-score die we kunnen schrijven als: $D_i = x_{1i} - x_{2i}$
waarbij $x_{1i}$ de score is van de afhankelijke variabele is voor het
$i$-de lid van de steekproef in conditie 1, en $x_{2i}$ de score voor
het $i$-de lid voor conditie 2. Deze verschilscore is ook vermeld in
Tabel \@ref(tab:data-uje-paired).
Deze verschilscore $D$ wordt vervolgens eigenlijk geanalyseerd met de
eerder besproken $t$-toets voor één enkele steekproef (zie
§\@ref(sec:ttoets-onesample)), waarbij H0: $\mu_D=0$, d.w.z. volgens H0
is er geen verschil tussen condities. We berekenen het gemiddelde van de
verschilscore, $\overline{D}$, en de standaarddeviatie van de
verschilscore, $s_{D}$, op de gebruikelijke wijze (zie
§\@ref(sec:standaarddeviatie)). We gebruiken dit gemiddelde en deze
standaarddeviatie om de toetsingsgrootheid $t$ te berekenen, via formule
\@ref(eq:t-pairedsamples), met $(N-1)$ vrijheidsgraden. Tenslotte
gebruiken we weer Bijlage \@ref(app-kritieketwaarden) om de grenswaarde
$t^*$ te bepalen, en daarmee de overschrijdingskans $p$ voor de gevonden
waarde van de steekproefgrootheid $t$ onder H0.
Voor het bovengenoemde voorbeeld met *U* of *je* als aanspreekvorm
vinden we aldus $\overline{D}=-2.2$ en $s_D=1.0$. Als we dit invullen in
formule \@ref(eq:t-pairedsamples) vinden we $t=-6.74$ met $N-1=9$ d.f.
De bijbehorende kritieke grenswaarde $t^*$ zoeken we wederom op in
Bijlage \@ref(app-kritieketwaarden). Daarbij negeren we het teken van
$t$, omdat de kansverdeling van $t$ immers symmetrisch is. In de regel
voor 9 d.f. vinden we $t^*=4.297$ in de laatste kolom. Voor tweezijdige
toetsing moeten we de overschrijdingskans behorend bij deze kolom
verdubbelen (zie §\@ref(sec:ttoets-eenzijdigtweezijdig)), resulterend in
$p=.002$. De gevonden toetsingsgrootheid $t > t^*$, dus $p<.002$. We
besluiten om H0 *wel* te verwerpen, en rapporteren dat als volgt:
> Het oordeel van $N=10$ respondenten over de pagina met *U* als
> aanspreekvorm is gemiddeld 2.2 punten lager dan hun oordeel over de
> vergelijkbare pagina met *je* als aanspreekvorm; dit is een
> significant verschil ($t(9)=-6.74, p<.002$).
### aannames {#aannames-1}
De $t$-toets voor gepaarde waarnemingen binnen een enkele steekproef
vereist drie aannames (assumpties) waaraan voldaan moet zijn, om deze
toets te mogen gebruiken.
- De gegevens moeten gemeten zijn op intervalniveau (zie
§\@ref(sec:interval)).
- Alle *paren* van observaties moeten onafhankelijk van elkaar zijn.
- De *verschilscores* $D$ moeten normaal verdeeld zijn (zie
§\@ref(sec:isvarnormaalverdeeld)); als het aantal paren van
waarnemingen in de steekproef echter groter is dan ca 30 dan is de
$t$-toets doorgaans goed bruikbaar.
### formules {#sec:formules13-4}
```{=tex}
\begin{equation}
(\#eq:t-pairedsamples)
t = \frac{ \overline{D}-\mu_D} { s_D } \times \sqrt{N}
\end{equation}
```
### SPSS {#sec:SPSS-ttoets-gepaard}
De gegevens voor het bovenstaande voorbeeld zijn te vinden in bestand
`data/ujedata.csv`.
```
Analyze > Compare Means > Paired-Samples T Test
```
Sleep eerste afhankelijke variabele `cond.u` naar paneel Paired
Variables onder Variable1, en sleep tweede variabele `cond.je` naar
zelfde paneel onder Variable2. Bevestig met `OK`.
### JASP {#sec:jaspttoetsgepaard}
Het bovenstaande voorbeeld wordt hier uitgewerkt. De gegevens zijn te
vinden in bestand `data/ujedata.csv`.
Klik in de bovenbalk op: