-
Notifications
You must be signed in to change notification settings - Fork 0
/
kaavat1-johdesim.Rmd
71 lines (51 loc) · 3.26 KB
/
kaavat1-johdesim.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
---
output:
html_document: default
pdf_document: default
---
# Kaavat ja matemattiset merkinnät
bookdown vaatii alkuun "first or second level heading", eli yksi tai kaksi
risuaitaa. Virheilmoitus tulee Pandocilta.
Ladataan paketit. Herjali tästä YAML-frontmatterissa (#bookdown::html_book: ).
Ei toimi html-tulostus, ja välillä toimii. Onpa hankalaa.
Kaavat on esitettävä bookdown-paketin määrityksillä. Viittausnimien on oltava yksikäsitteisiä koko dokumentissa, jos käytetään "merge and knit" menetelmää. Jos taas jokainen lapsidokumentti on "itsenäinen" ("knit and merge"), tämä koskee vain kyseistä dokumenttia (kts. Bookdown - webkirja).
## Kahden luokittelumuuttuja taulukko
Kahden luokittelumuuttujan riippuvuutta voidaan testata $\chi^{2}$ - testillä. Testisuure saadaan laskemalla yhteen jokaisen solun havaittujen ja odotetettujen (riippumattomuushypoteesi) frekvenssien erotukset muodossa
\begin{equation}
\chi^{2} = \frac{(havaittu - odotettu)^2} {odotettu}
(\#eq:khii21)
\end{equation}
Tämä voidaan esittää ca:han sopivammalla tavalla parilla muunnoksella, jolloin
saamme riveittäin vastaavat termit rivisummalla painotettuna:
\begin{equation}
rivisumma \times \frac{(havaittu \: riviprofiili - odotettu \: riviprofiili)^2} {odotettu \: riviprofiili}
(\#eq:khii22)
\end{equation}
Kun jaamme nämä tekijät havaintojen kokonaismäärällä $n$, rivisumma muuntuu rivin massaksi, ja niiden summa muotoon $\frac{\chi^{2}}{n}$.
\begin{equation}
\frac{\chi^{2}}{n} = \phi^{2}
(\#eq:inert1)
\end{equation}
Huomaa jakajassa n, ei n-1. Tässä ei tn-päättelyä!
Tunnusluku $\phi^{2}$ on korrespondenssianalyysissä kokonaisinertia (total
inertia). Se kuvaa, kuinka paljon varianssia taulukossa on ja on riippumaton
havaintojen lukumäärästä. Tilastotieteessä tunnusluvulla on useita vaihtoehtoisia
nimiä (esim. mean square contingency coefficient), ja sen neliöjuurta kutsutaan
$\phi$ - kertoimeksi.
Tässä siirrytään kahden luokittelumuuttujan taulukosta suhteellisten frekvenssien
taulukkoon. Kaavojen \@ref(eq:khii21) ja \@ref(eq:khii22) yhteyden pitäisi olla selkeä.
Frekvenssitaulukossa (jossa kaikki taulukon luvut on jaettu havaintojen lukumäärällä n) riviprofiilien 1 ja 3 (euklidinen) etäisyys on
\begin{equation}
\sqrt{(p_{11} - p_{31})^2 + (p_{12} - p_{32})^2 + (p_{13} - _{33})^2+ (p_{14} - _{34})^2+ (p_{15} - _{35})^2}
\end{equation}
Rivien $\chi^{2}$ - etäisyys on painotettu euklidinen etäisyys, jossa painoina ovat riviprofiilin odotetut arvot. Ne ovat riippumattomuushypoteesin mukaisesti riviprofiilien keskiarvoprofiilin vastaavat alkioit $r_{i}$ .
\begin{equation}
\sqrt{\frac{(p_{11} - p_{31})^2} { r_{1}} + \dots + \frac{(p_{15} - p_{35})^2} {r_{5}}}
\end{equation}
Inertia voidaa esittää rivien ja ``keskiarvorivin `` (sentroidin) $$\chi^{2}$$ -etäisyyksien neliöiden painotettuna summana, jossa painoina ovat rivien massat $m_{i}$ ja summa lasketaan yli rivien ${i}$.
\begin{equation}
\phi^{2} = \sum_{i} (massa \: m_{i}) \times (profiilin \: i \: \chi^{2} - etaisyys \: sentroidista)^{2}
\end{equation}
Tässä esitystavassa viite on CAiP, teorialiitteessä tarkemmin. Tarkoitus on esittää
yksinkertaisesti taulukon datan analyysin käsitteet ja CA:n peruskäsitteet profiili,
massa ja $\chi^{2}$ - etäisyys