This repository has been archived by the owner on Jun 17, 2024. It is now read-only.
-
Notifications
You must be signed in to change notification settings - Fork 0
/
Quarto-Beispiel.qmd
226 lines (160 loc) · 5.42 KB
/
Quarto-Beispiel.qmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
---
title: "Einführung in Quarto"
author: "Matthias Gehrke"
format:
html:
toc: true
html-math-method: katex
pdf:
toc: true
number-sections: false
colorlinks: true
papersize: a4
---
```{r}
#| label: setup
#| include: false
# Optionen
knitr::opts_chunk$set(echo = TRUE, warning = FALSE, message = FALSE)
# Paket laden
library(mosaic)
```
## Quarto verwenden
Quarto ist der Nachfolger von R Markdown.
### Text
Text kann **fett** oder *kursiv* sein. Manchmal ~~durchgestrichen~~ und^[manchmal steht er in der Fußnote].
Oder ^hochgestellt^ und ~tiefgestellt~.
Man kann Aufzählungen machen^[Beachten Sie die Leerzeile!]
- Quarto ist einfach
- Aber flexibel
- Und unterstützt reproduzierbares Arbeiten
Natürlich geht auch eine numerierte Liste
1. Erster Punkt
2. Zweiter Punkt
Links gehen so [Einführung](https://ismayc.github.io/rbasics-book/).
LaTeX Formeln gehen $y=f(x)$, auch abgesetzt:
$$\bar{x}=\sum_{i=1}^n x_i$$
Hier vielleicht ein paar wichtige LaTeX-Symbole in der Statistik:
$$\mu, \sigma, \pi, \alpha, \beta, y_0, x^2, \hat{x}, \bar{x}, \neq, \leq, \geq$$
Sogar R-Befehle können mit in die Gleichungen eingebaut werden. So gilt z.B. $e^0=`r exp(0)`$.
### R Befehle
Über sogenannte Code-Chunks werden R-Befehle ausgeführt, die Ausgabe wird sichtbar gemacht.
```{r}
data(Galton) # Ein berühmter Datensatz...
inspect(Galton)
```
Siehe auch `?Galton`.
Kennzahlen gehen
```{r}
mean(height ~ sex, data = Galton)
```
genau wie Abbildungen:
```{r}
gf_point(mother ~ father, data = Galton )
```
Aber auch Datenvorverarbeitung wird transparent:
```{r}
Galton <- Galton |>
mutate(midparent = (mother+father)/2)
gf_point(height ~ midparent, color = ~sex, data = Galton)
```
Modellierung etc.:
```{r}
erg.reg <- lm(height ~ midparent + sex, data = Galton)
plotModel(erg.reg)
summary(erg.reg)
```
Solche Chunks werden eingefügt über `Insert -> R` oder dem Tastenkürzel: Strg-Alt-I (Ctrl-Opt-I auf dem Mac)
## Simulationsbasierte Inferenz
Z.B. Untersuchung des Größenvergleichs von Männern und Frauen:
```{r}
gf_violin(height ~ sex, data = Galton) |>
gf_point(height ~ sex, data = Galton,
stat = "summary", color = "red")
```
Wenig überraschend: sieht halbwegs normalverteilt aus -- und die Männer sind im Mittelwert (roter Punkt) größer:
```{r}
mean(height ~ sex, data = Galton)
```
D.h. es gibt eine Differenz von:
```{r}
diffmean(height ~ sex, data = Galton)
```
im Mittelwert der Größe zwischen den Geschlechtern.
### Bootstrapping
Aber: eine *andere* Stichprobe hätte auch i.d.R. eine *andere* Differenz der Mittelwerte ergeben. Wir haben nur die eine, aber wir können sie resamplen:
```{r}
set.seed(1896) # Zufallszahlengenerator: Reproduzierbarkeit
diffmean(height ~ sex, data = resample(Galton))
```
Oder öfter:
```{r}
set.seed(1896) # Zufallszahlengenerator: Reproduzierbarkeit
do(5)* diffmean(height ~ sex, data = resample(Galton))
```
Die Boostrapverteilung der Differenz der Mittelwerte ist einfach erzeugt:
```{r}
set.seed(1896) # Zufallszahlengenerator: Reproduzierbarkeit
Bootvtlg <- do(1000)* diffmean(height ~ sex, data = resample(Galton))
```
Ein Vorteil ist, dass diese Verteilung visualisiert werden kann:
```{r}
gf_histogram( ~ diffmean, data = Bootvtlg)
```
Der geschätzte Standardfehler ist dann:
```{r}
sd( ~ diffmean, data = Bootvtlg)
```
Bzw. das 95%-Bootstrap Perzentil Konfidenzintervall:
```{r}
confint(Bootvtlg)
```
### Permutationstest
Unter der Annahme, dass es *keinen* Unterschied in der Verteilung der Größe zwischen Männern und Frauen gibt, das beinhaltet $H_0: \mu_M=\mu_F \Leftrightarrow \mu_M-\mu_F=0$ kann das Geschlecht *permutiert* werden:
```{r}
set.seed(1896) # Zufallszahlengenerator: Reproduzierbarkeit
diffmean(height ~ shuffle(sex), data = Galton)
```
Obwohl es nach *Konstruktion* keinen Unterschied gibt^[Ein evt. Zusammenhang zwischen Größe und Geschlecht wird durch die Permutation gelöst.] beobachten wir in der simulierten Verteilung eine (kleine) Differenz der Mittelwerte:
```{r}
set.seed(1896) # Zufallszahlengenerator: Reproduzierbarkeit
do(5)*diffmean(height ~ shuffle(sex), data = Galton)
```
Die Verteilung unter $H_0$ wird dann wie folgt erzeugt:
```{r}
set.seed(1896) # Zufallszahlengenerator: Reproduzierbarkeit
Nullvtlg <- do(1000)* diffmean(height ~ shuffle(sex), data = Galton)
```
Kritische Werte (zweiseitig, $\alpha=0.05$) sind:
```{r}
cdata(Nullvtlg)
```
Wie oft wurde in den simulierten Daten im Modell der Nullhypothese eine mindestens so große Abweichung wie in der Stichprobe beobachtet?
Visuell:
```{r}
d.Stipro <- diffmean(height ~ sex, data = Galton)
gf_histogram( ~ diffmean, data = Nullvtlg) |>
gf_vline(xintercept = d.Stipro)
```
Nie.
Numerisch:
```{r}
prop( ~ (abs(diffmean)>=abs(d.Stipro)), data = Nullvtlg)
```
Der p-Wert ist also kleiner als $1/1000$: in $1000$ simulierten Stichproben unter $H_0$ kam nicht einmal eine so große (absolute) Abweichung wie in der beobachteten Stichprobe vor.
Diese Ergebnisse stimmen mit dem klassischen t-Test überein:
```{r}
t.test(height ~ sex, data = Galton)
```
<!-- Auch in Quarto kann ich kommentieren... -->
## Versionshinweise
Am Ende sollten vielleicht ein paar technische Informationen nicht fehlen:
- Datum: `r Sys.Date()`
- R Version: `r getRversion()`
- `mosaic` Version: `r packageVersion("mosaic")`
Oder, ausführlich:
```{r}
#| echo: false
sessionInfo()
```
Erzeugt wird das Dokument über `Render`. Sie können zwischen HTML und PDF (Zusatzinstallation notwendig) wählen