Johan Fredrik
Shared by: HC120310023925
-
Stats
- views:
- 1
- posted:
- 3/9/2012
- language:
- pages:
- 30
Document Sample


SOS3003:
Anvendt statistisk dataanalyse i
samfunnsvitenskap
(5. forelesning)
► Om å tolke resultater
► Kjapp repitisjon av ulike typer X-variabler
1: Vanlige
2: Ikke-linjære
3: Samspill (ikke-addivitet)
4: Dikotomier
5: Dummy-variabler
► Hvordan bygge en regresjonsmodell?
► Mer matte
JFRYE2005
1
1: Vanlige
2: Ikke-linjære
3: Samspill (ikke-addivitet)
4: Dikotomier
5: Dummy-variabler
JFRYE2005
2
Y = b0 + b1x1 + b2x2 + b3x3 + b4x4 + b5x5
Y = b0 + b1(alder) + b2(kjønn) + b3(region) + b4(ledelse) + b5(utdanning)
Y = b0 + b10x10 + b20x20 + b30x30 + b40x40 + b50x50
b11x11 + b12x12 b31x31 + b32x32 + b51x51 + b52x52
(X12 = X112) b33x33 + b34x34
Skala fra 1- 100
Omkode til 0 og 1 i utgangs-
punktet, ingen
endringer
Samspill: b60x60 (x60 = x40 * x52)
Y = b0 + b11x11 + b12x12 + b20x20 + b31x31 + b32x32 + b33x33 + b34x34 +
b40x40 + b51x51 + b52x52 + b60x60
3
JFRYE2005
4
Å bygge en regresjonsmodell:
Målet med regresjonsmodellen:
Å identifisere de uavhengige variablene (X’ene) som til
sammen forklarer mest mulig av variasjonen i Y.
Dvs.: Spesifisere den ’rette’ modellen
NB: Noen ganger kan hensikten være å vurdere relasjonen
mellom en bestemt X-variabel (eller eventuelt flere X-
variabler) og Y-variabelen.
JFRYE2005
5
I LITTERATUREN ER DET FLERE
FORESLÅTTE FREMGANGSMÅTER
Det har også vært forskjellig praksis på
kurset tidligere. Flere måter er akseptable.
Det følgende er denne foreleserens forsøk
på å foreslå en oversiktlig fremgangsmåte
Fremgangsmåten er grunnleggende sett den
samme for OLS-regresjon og logistisk
regresjon
JFRYE2005
6
Tre trinn i modellutviklingen:
1: Utvikling av en grunnmodell
2: Forbedring av modellen: testing av mer
kompliserte relasjoner mellom X’ene og Y
3: Forenkling av modellen – fjerne ’overflødige’
variabler
JFRYE2005
7
KORT OM TERMINOLOGI
Skiller i det følgende mellom en ’variabel’ og et ’(variabel)ledd’:
Med variabel refererer jeg til utgangsvariabelen slik som den operasjonalisert
gjennom et (eller flere) spørsmål i den opprinnelige datamatrisen.
Med variabelledd viser jeg til ’konstruerte’ variabler som inngår i et mer
komplekst sett av variabelledd, som til sammen er ment å måle forholdet
mellom den opprinnelige X-variablen og Y på en bedre måte.
For eksempel:
Variabelen ’region’ kodes ofte som en dummy, og man får da flere
variabelledd som hver refererer til en enkelt region. NB! Referansekategorien
har ikke et eget ledd – men er selvsagt fortsatt en del av variabelen!
Variabelen ’alder’ er ofte kurvilinjært relatert til Y, og kan derfor ofte deles inn
to ledd: alder og alder2
Et samspill-ledd inngår i fortolkningen av to forskjellige variabler
JFRYE2005
8
Alle variabelledd må i utgangspunktet tolkes samlet sett
Annengradsleddet må tolkes sammen med førstegradsleddet
Det er først og fremst settet av dummyvariabler, og ikke de enkelte leddene,
som er mest interessant
Samspillseffektene må sees i sammenheng med utgangsvariablene
NB: Det er de samme statistiske kravene til variabelleddene som til variablene.
SPSS ’kjenner’ bare variabler – X’er!
JFRYE2005
9
1: Utvikling av grunnmodellen
Ta med alle teoretisk relevante variabler i en
første modell.
Ikke inkluder ikke-linjære relasjoner eller
samspillsledd i denne omgangen.
Som regel blir dette en relativt stor modell, og en
del (og noen ganger mange) av variablene blir
ikke signifikante.
JFRYE2005
10
2: Forbedring av modellen
Forbedre spesifikasjonen av relasjonene mellom
X’ene og Y.
NB: Både forbedringer av de signifikante og de
insignifikante variabler fra den første variablen
a) Bedre med ikke-linjære relasjoner?
>>> potenstransformasjoner av X?
>>> andregradsledd?
>>> dummykoding?
b) Samspillsledd?
JFRYE2005
11
Grunnleggende test-logikk:
Er det nye leddet en forbedring eller ikke?
Test modellen med forbedringer (de nye X’ene) opp mot
modellen uten disse forbedringene.
Hvis forskjellen på modellene er en enkel X
BRUK I UTGANGSPUNKTET EN T-TEST (DVS. SE PÅ P-
VERDI FOR DEN AKTUELLE VARIABELEN) – MEN OFTE
MÅ MAN OGSÅ BRUKE F-TEST I DETTE TILFELLET
Hvis forskjellen på modellene er flere X’er
BRUK F-TEST (DVS. REGN UT F-CHANGE FRA MODELL
UTEN FORBEDRING TIL MODELL MED FORBEDRING)
JFRYE2005
12
t = bk / SEbk
(RSS{K-H} – RSS{K})/H
FHn-K= ---------------------------------
(RSS{K})/(n-K)
JFRYE2005
13
Transformerte X’er: T-testen
Sammenlign:
a) Styrke (standardiserte koeffisenter)
b) Signifikans (p-verdi)
NB: Hvis den ikke-transformerte og den
transformerte variabelen er mer eller mindre
like gode, velg den ikke-transformerte, ut fra
hensynet til tolkingen av variabelen
JFRYE2005
14
Andregradsledd: F-testen
Se først på T-testen: Indikerer om det nye leddet er
signifikant i seg selv
Vanlig problem:
Verken annengradsleddet eller den originale
variabelen er signifikante i den nye modellen?
Men kan annengradsleddet likevel være en
signifikant forbedring av modellen?
Bruk F-test på modellene med / uten
annengradsleddet
JFRYE2005
15
Dummyvariabler: F-testen
1: Blir settet av dummyvariabler signifikant?
2: Sammenlign de to modellene, spesielt med
tanke på justert R.
JFRYE2005
16
Samspillsledd: F-testen
Se først på T-testen: Indikerer om det nye leddet
er signifikant i seg selv
Vanlig problem:
Verken samspillet eller de originale variablene
blir signifikante.
Men kan samspillsleddet likevel være en
signifikant forbedring av modellen?
Bruk F-test på modellene med / uten
samspillsleddet
JFRYE2005
17
NB: Vanlig feil!
Man tester den opprinnelige variabelen samtidig
som man tester leddet som skal forbedre
modellen.
Eks. på testing som er gal:
Man skal teste et annetgradsledd for alder (alder2).
Sammenligner Mod. 1 (som er modellen uten noen
aldersvariabler i det hele tatt) mot Mod. 2 (som inneholder
både alder og alder2).
Resultatet av denne testen vil kun vise om alder og alder2
til sammen er signifikant – ikke om annetgradsleddet
representerer en forbedring isolert sett
JFRYE2005
18
NB: Problemet med multikollinaritet
Oppstår naturlig nok i forbindelse med
annengradsledd og samspillsledd.
Hvorfor? Jo – vi måler bevisst det samme flere
ganger
Vi aksepterer høy grad av multikollinaritet til
konstruerte variabler hvis det gjør modellen
bedre ut fra substansielle tolkningshensyn.
Men: ’Prisen’ vi betaler er mer usikre estimater
JFRYE2005
19
3: Forenkling av modellen
Fjern insignifikante variabler.
Start med den som er mest insignifikant
Fortsett til det bare er signifikante variabler igjen
Dummyvariabler: Sig. vurderes ut fra F-test
(NB: Dette arbeidet har man for så vidt allerede
startet med allerede under pkt. 2)
JFRYE2005
20
MEN:
Enkelte ganger er man interessert i variablene selv om de
ikke er signifikante – nettopp insignifikansen kan være et
funn.
F.eks.: En studie av sammenhengen mellom kjønn og
seksuelle overgrep: Hvis B = 0 (dvs. kvinner ikke mer utsatt
for overgrep), så er det kanskje det aller mest interessante
funnet!
Da bør man også rapportere dette på lik linje med andre
resultater.
Ofte presenteres den ureduserte modellen (etter pkt. 2)
JFRYE2005
21
LA ALDRI SPPS GJØRE JOBBEN MED Å
REDUSERE MODELLEN LA ALDRI SPPS
GJØRE JOBBEN MED Å REDUSERE
MODELLEN LA ALDRI SPPS GJØRE JOBBEN
MED Å REDUSERE MODELLEN LA ALDRI
SPPS GJØRE JOBBEN MED Å REDUSERE
MODELLEN LA ALDRI SPPS GJØRE JOBBEN
MED Å REDUSERE MODELLEN LA ALDRI
SPPS GJØRE JOBBEN MED Å REDUSERE
MODELLEN LA ALDRI SPPS GJØRE JOBBEN
MED Å REDUSERE MODELLEN LA ALDRI
SPPS GJØRE JOBBEN MED Å REDUSERE
MODELLEN. ALDRI.
JFRYE2005
22
GENERELLE PROBLEMER
Alle relevante variabler skal være
med
Det mangler ’alltid’ noen variabler
Ingen irrelevante variabler skal være
med
Fisketurproblematikken
JFRYE2005
23
SIGNIFIKANSNIVÅ: TO TYPER FEIL
1: Man lar være å forkaste en ukorrekt 0-hypotese
2: Man forkaster en korrekt 0-hypoteser
Tradisjon innen samfunnsvitenskapene:
95-prosentsnivå – dvs. p < 0,05
Men dette er for så vidt et vilkårlig valg
NB1: Statistiske feilmargin vs andre feilmarginer
NB2: Brudd på forutsetningene kan gi usikre tester
NB3: Multikollinaritet kan overestimere standardfeilene
JFRYE2005
24
R2 = et statistisk mål på modellens forklaringskraft
Umulig å angi hvilken R2 som er ’høyt’/’bra’ nok –
dette må tolkes substansielt.
Eks.: Hvis du med en godt spesifisert modell for
intergenerasjonell sosial reproduksjon får R2 = 0, så har du
tidens sosiologiske regresjonsmodell!
Kan ikke brukes ukritisk – økning i R2 er ingen
garanti for at modellen er bedre.
En hver ny X-variabel vil per definisjon øke R2
Faresignal! R2 synker når man utvider modellen – det skal
aldri kunne skje (du må ha gjort en eller annen feil – som
regel fjernet en variabel fra modellen)
Sjekk ift. R2 adjusted
JFRYE2005
25
Vær oppmerksom på at vi så langt bare har etablert
den beste modellen…
…men vi har ikke testet den i forhold til
forutsetningene – det vil si: sjekket om den beste
modellen er holdbar (jfr. heterodastisitet,
autokorrelasjon, normalfordelte feilledd, uteliggere
osv.)
Det kan hende at disse testene fører til at man
må gå tilbake og revidere modellen ytterligere,
for eksempel transformere X eller Y for å unngå
heterodastisitet og ikke-normalfordelte feilledd.
JFRYE2005
26
JFRYE2005
27
Statistikk er en rimelig eksakt vitenskap
Samfunnsvitenskap er det ikke!
Alltid et snev av vilkårlighet
Prøv deg frem
Bruk teori som ledetråd
Ingen endelige, definitive, autorative
og universielt aksepterte løsninger
JFRYE2005
28
Husk:
Det viktigste er alltid å være reflektert &
nyansert, og være klar over at valgene
man tar, har konsekvenser.
Bruk teori (sunn samfunnsvitenskaplig
fornuft) som ledetråd.
Dere kan gjøre mye i en semester-
oppgave, så lenge dere argumenterer
for den valgte fremgangsmåten!
JFRYE2005
29
Regresjonanalyser skal kommuniseres!
Regresjonsanalysen skal formidles til et publikum.
Det er derfor ønskelig at modellen ikke er mer
komplisert enn ’nødvendig’.
Hvor sterkt dette skal vektlegges, er avhengig av
publikum.
En forskerkollega som selv arbeider med kvantitativ
metode bør kunne takle mer kompliserte modeller
enn kvalitative forskere, som bør forstå mer enn
byråkrater i en kommuneadminsitrasjon, som bør
forstå mer enn deltakerne på et foreldremøte, osv…
JFRYE2005
30
Related docs
Other docs by HC120310023925
de palabras que consiste en aplicar prefijaci�n y sufijaci�n simult�neamente sobre una misma base
Views: 27 | Downloads: 0
Get documents about "