-
Notifications
You must be signed in to change notification settings - Fork 0
/
01-johdanto.Rmd
146 lines (100 loc) · 6.37 KB
/
01-johdanto.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
# Johdanto
**edit** Kirjoitetaan disposition pohjalta, keräillään kaikki yleiset
ca-luonnehdinnat yhteen paikkaan eli johdantoon.
**Mahdollisia lisäyksiä**
1. Tavoitteet, sisältö, rajaukset (jota voi myöhemmin täydentää)
2. Muutamat puutteet/rajaukset, onko kerrottava tässä?
- data: ei huomioida sitä, että otoskoot vaihtelevat aika paljon eli
"maapainot" eri suuruisia
- ei huomioida muitakaan otantaan liittyviä asioita (tämä ainakin
mainittava data-osuudessa)
- kuvaileva menetelmä, mutta mikä on tutkimusongelma? Sellainen pitäisi olla.
**zxy* Mitä on korrespondenssianalyysi? Muutamalla kappaleella. Yksi kappale
historiasta.
## Tutkielman tavoite)
**k** Tässä kerrotaan, miksi tämä työ on kirjoitettu. Esitellään menetelmä
käyttämällä oikeaa dataa. Täsmällisempi esitys sirotellaan esimerkkiaineiston
analyysin tulosten esittelyn lomaan. Pitäisikö tässä tuoda esille ns. "ranskalaisen
koulukunnan" matemaattisen perusteiden korostus, ja data-analyysin filosofia?
Ehkä ei, koska sen pohdinta ei ole pääasia. Se tietysti mainitaan, ja asiaa pohditaan.
**ks** Esitellään korrespondenssianalyysin käsitteet ja graafisen analyysin
periaatteet.
**zxy** -mitä ca on?
- dimensioiden vähentäminen ja visualisointi
- mihin dataan se soveltuu
- määrittele graafinen, deskriptiivinen, eksploratiivinen data-analyysi
- yksinkertainen ca, useamman muuttujan ca
**ks** Tämän voi tehdä yksinkertaisen korrespondenssianalyysin avulla. Yksinkertainen
kahden luokittelumuuttujan korrespondenssianalyysi antaa graafisen analyysin
"...perussäännöt tulkinnalle. Kaikki muut korrespondenssianalyysin muodot ovat
saman algoritmin soveltamista toisen tyyppiisiin datamatriiseihin, ja tulkintaa
sovelletaan vastaavasti (with the consequent adaptation of the interpretation)"
[@RefWorks:doc:5a857a44e4b0ed2d44664d84 , s. 437] .
**zxy** Miksi eksporatiivinen (määrittele!) ja deskriptiivinen (määrittele!)
menetelmä on esitettävä "in vivo", toiminnassa? Oppikirjoissa (viitteitä)
erityisesti MG on havainnolistanut CA:n matemaattista ja geometristä taustaa
synteettisillä aineistoilla. Turha kopioida tähän. Menetelmän ydin on
yksinkertaisen graafisen esityksen -- kartan -- avulla tulkita monimutkaisen
empiirisen aineiston muuttujien riippuvuuksia. Yhteyksiä ei tiivistetä
todennäköisyyspäättelyn kriteereillä tilastolliseen malliin, vaan deskripriivisen
analyysin hengessä esitellään koko aineisto. Mallin sijaan vähennetään ulottuvuuksia,
ja siinä menetetään informaatiota. Tavoitteena on säilyttää yleensä kaksiulotteisessa
kuvassa mahdollisimman suuri osa alkuperäisen datan vaihtelusta. Eksploratiivinen
data-analyysi on vuoropuhelua aineiston kanssa. Analyysiä tarkennetaan, rajataan
ja muokataan, kun aineisto paljastaa jotain kiinnostavaa tai yllättävää. Tästä
saa jonkinlaisen aasinsillan matriisiyhtälöiden puolustukseksi.
Saksan ja Belgian datan jakaminen on hyvä esimerkki, on "osattava tarttua"
menetelmän tulosmatriiseihin.
**k** esitystavan perustelu
- kenelle kirjoitettu? Menetelmästä kiinnostuneelle tilastotieteen ja data-analyysin
perusteet tuntevalle. R-ohjelmisto ei ole rajoitus, SPSS ja SAS sopivat
(SPSS - MG:llä kriittinen huomio "loose ends - paperissa" tai CAip-teorialiitteessä).
## Tärkeimmät lähteet ja ohjelmistot
**zxy** Tarvitaanko tämä, perustelu? Muutamat lähteet aivan keskeisiä, ja MG:n
kurssi pitää mainita.
### Lähteet
Michael Greenacre luennoi lyhyen kurssin korrespondenssianalyysistä Helsingin
yliopistossa keväällä 2017[@RefWorks:doc:5b6ef091e4b0984fd9b8c0ca]. Luennot ja
laskuharjoitukset perehdyttivät minut ensimmäistä kertaa tähän menetelmään, ja
kurssin materiaaleihin olen usein palannut. Niihin voi tutustua
[Moodle-palvelussa] (https://moodle.helsinki.fi) (käyttäjätunnus vaaditaan).
Greenacren kärsivällisesti kirjoitetut perusoppikirjat ovat tehneet menetelmää
laajasti tunnetuksi englantia lukeville.
Ranskalaisen lähestymistan perusoppikirja[@RefWorks:doc:5a857a43e4b0ed2d44664d75] (GDA-kirja?)
esittelee menetelmän matemaattiset perusteet.
Lyhyt historiallinen katsaus ja menetelmä soveltamisen perusajatusten esittely
valaisevat ranskaa taitamattomalle data-analyysin koulukunnan ideoita.
Kirjoittajat esittelevät perusteellisesti joitain empiirisiä tutkimuksia, ja
lyhyt mutta naseva matriisilaskennan kritiikki on hyvä panna merkille.
Korrespondenssianalyysi tuli osaksi suomalaista Survo-ohjelmistoa jo vuonna (**????**),
ja menetelmää on esitelty ainakin kahdessa oppikirjassa[@RefWorks:doc:5a857a44e4b0ed2d44664d95]
ja [@RefWorks:doc:5a857a44e4b0ed2d44664da4].
### Käytetyt ohjelmistot
**edit** Hyvin lyhyesti, lause tai pari. On oma liite tekneisestä ympäristöstä.
**zxy** R, ca-paketti. löytyy myös muita paketteja.
Rmarkdown[@RefWorks:doc:5b6b346fe4b0c619b11b8a3e], ja
bookdown ([@RefWorks:doc:5b6b36dde4b09b7ec442bf8b] ja toinen viite [@R-bookdown]).
Mikäs tuo jälkimmäinen on? PDF-lähdeluettelossa ei ole url-osoitteita.
**k** Helposti toistettavan tutkimukset periaatteet
1. Datastan perusmuunnokset ja muuttujatyypit tehdään kun data luetaan
R-ohjelmistoon.
2. Koodi selkeää ja dokumentoitua. Tärkeä lähde [@RefWorks:doc:5c3759c2e4b0085b307c82b5]
3. R, LaTeX, pandoc - versiot dokumentoidaan
Tarkemmin liittessä.
## Korrespondenssianalyysin historiaa
**k1** Tiivis esitys lähteineen. Historian voi aloittaa jo pari vuosikymmentä
vallineesta tilanteesta. CA on yksi deskriptiivinen (ei-tn-teoriaan perustuvaa
päättelyä) menetelmä muiden joukossa, eristyneisyys murtui hitaasti 80-luvun aikana.
**k2** Historialla on vain historiallista merkitystä. Kiinnostava juttu, mutta
aika laaja ja lavea.
**k3** Peruskäsitys monessa lähteessä (vihreä kirja, GDA-kirja jne.): synty ja
kukoistus Ranskassa, loistava eristys (splendid isolation), pikku hiljaa hyväksyntä.
Syiksi esitetään kaksoismuuria: abstrakti matemaattinen ("bourbakilainen") perusta
ja esitystapa ja kieli.
**k4** Mitä historiasta on hyvä tietää.
1. Matemaattinen perusta on "tosi", mutta onko menetelmän soveltaminen riippuvainen
siitä? Ei ole ollut.
2. Ristiriita data-analyyttisen/kuvailevan jne. lähestymistavan ja tilastollisen
mallintamisen välillä - on läsnä edelleen mutta turha korostaa. Myös tilastollisen
mallintamisen ja päättelyn sisällä on kiistoja, erilaisia näkemysiä ja kuiluja.
3. "Esoteerinen tieteenfilosofia"? Kiinnostava aihe, ehkä. Murgtag-sitaatti.