Johan Fredrik

Shared by: HC120310023925
Categories
Tags
-
Stats
views:
1
posted:
3/9/2012
language:
pages:
30
Document Sample
scope of work template
							               SOS3003:
     Anvendt statistisk dataanalyse i
          samfunnsvitenskap
             (5. forelesning)
► Om å tolke resultater
► Kjapp repitisjon av ulike typer X-variabler
    1: Vanlige
    2: Ikke-linjære
    3: Samspill (ikke-addivitet)
    4: Dikotomier
    5: Dummy-variabler
► Hvordan bygge en regresjonsmodell?
► Mer matte


                                                JFRYE2005



                                                1
1: Vanlige
2: Ikke-linjære
3: Samspill (ikke-addivitet)
4: Dikotomier
5: Dummy-variabler




                               JFRYE2005



                               2
        Y = b0 + b1x1 + b2x2 + b3x3 + b4x4 + b5x5
        Y = b0 + b1(alder) + b2(kjønn) + b3(region) + b4(ledelse) + b5(utdanning)
        Y = b0 + b10x10       + b20x20   + b30x30        + b40x40       + b50x50

            b11x11 + b12x12          b31x31 + b32x32 +              b51x51 + b52x52
            (X12 = X112)             b33x33 + b34x34

                                                    Skala fra 1- 100
                  Omkode til 0 og 1                 i utgangs-
                                                    punktet, ingen
                                                    endringer

                                                            Samspill: b60x60 (x60 = x40 * x52)




Y = b0 + b11x11 + b12x12 + b20x20 + b31x31 + b32x32 + b33x33 + b34x34 +
    b40x40 + b51x51 + b52x52 + b60x60
                                                                                           3
JFRYE2005



4
Å bygge en regresjonsmodell:
Målet med regresjonsmodellen:
Å identifisere de uavhengige variablene (X’ene) som til
sammen forklarer mest mulig av variasjonen i Y.
Dvs.: Spesifisere den ’rette’ modellen

NB: Noen ganger kan hensikten være å vurdere relasjonen
mellom en bestemt X-variabel (eller eventuelt flere X-
variabler) og Y-variabelen.




                                                          JFRYE2005



                                                          5
I LITTERATUREN ER DET FLERE
FORESLÅTTE FREMGANGSMÅTER

Det har også vært forskjellig praksis på
kurset tidligere. Flere måter er akseptable.
Det følgende er denne foreleserens forsøk
på å foreslå en oversiktlig fremgangsmåte

Fremgangsmåten er grunnleggende sett den
samme for OLS-regresjon og logistisk
regresjon

                                               JFRYE2005



                                               6
Tre trinn i modellutviklingen:

1: Utvikling av en grunnmodell

2: Forbedring av modellen: testing av mer
kompliserte relasjoner mellom X’ene og Y

3: Forenkling av modellen – fjerne ’overflødige’
variabler



                                                   JFRYE2005



                                                   7
KORT OM TERMINOLOGI
Skiller i det følgende mellom en ’variabel’ og et ’(variabel)ledd’:

Med variabel refererer jeg til utgangsvariabelen slik som den operasjonalisert
gjennom et (eller flere) spørsmål i den opprinnelige datamatrisen.

Med variabelledd viser jeg til ’konstruerte’ variabler som inngår i et mer
komplekst sett av variabelledd, som til sammen er ment å måle forholdet
mellom den opprinnelige X-variablen og Y på en bedre måte.

For eksempel:
Variabelen ’region’ kodes ofte som en dummy, og man får da flere
variabelledd som hver refererer til en enkelt region. NB! Referansekategorien
har ikke et eget ledd – men er selvsagt fortsatt en del av variabelen!
Variabelen ’alder’ er ofte kurvilinjært relatert til Y, og kan derfor ofte deles inn
to ledd: alder og alder2
 Et samspill-ledd inngår i fortolkningen av to forskjellige variabler

                                                                                   JFRYE2005



                                                                                    8
Alle variabelledd må i utgangspunktet tolkes samlet sett

Annengradsleddet må tolkes sammen med førstegradsleddet
Det er først og fremst settet av dummyvariabler, og ikke de enkelte leddene,
som er mest interessant
Samspillseffektene må sees i sammenheng med utgangsvariablene

NB: Det er de samme statistiske kravene til variabelleddene som til variablene.
SPSS ’kjenner’ bare variabler – X’er!




                                                                             JFRYE2005



                                                                                9
1: Utvikling av grunnmodellen

Ta med alle teoretisk relevante variabler i en
første modell.

Ikke inkluder ikke-linjære relasjoner eller
samspillsledd i denne omgangen.

Som regel blir dette en relativt stor modell, og en
del (og noen ganger mange) av variablene blir
ikke signifikante.


                                                      JFRYE2005



                                                      10
2: Forbedring av modellen

Forbedre spesifikasjonen av relasjonene mellom
X’ene og Y.

NB: Både forbedringer av de signifikante og de
insignifikante variabler fra den første variablen

a) Bedre med ikke-linjære relasjoner?
>>> potenstransformasjoner av X?
>>> andregradsledd?
>>> dummykoding?
b) Samspillsledd?

                                                    JFRYE2005



                                                    11
Grunnleggende test-logikk:

Er det nye leddet en forbedring eller ikke?

Test modellen med forbedringer (de nye X’ene) opp mot
modellen uten disse forbedringene.

Hvis forskjellen på modellene er en enkel X
BRUK I UTGANGSPUNKTET EN T-TEST (DVS. SE PÅ P-
VERDI FOR DEN AKTUELLE VARIABELEN) – MEN OFTE
MÅ MAN OGSÅ BRUKE F-TEST I DETTE TILFELLET

Hvis forskjellen på modellene er flere X’er
BRUK F-TEST (DVS. REGN UT F-CHANGE FRA MODELL
UTEN FORBEDRING TIL MODELL MED FORBEDRING)


                                                        JFRYE2005



                                                        12
           t = bk / SEbk




         (RSS{K-H} – RSS{K})/H
FHn-K= ---------------------------------
             (RSS{K})/(n-K)




                                           JFRYE2005



                                           13
Transformerte X’er: T-testen

Sammenlign:
a) Styrke (standardiserte koeffisenter)
b) Signifikans (p-verdi)

    NB: Hvis den ikke-transformerte og den
    transformerte variabelen er mer eller mindre
    like gode, velg den ikke-transformerte, ut fra
    hensynet til tolkingen av variabelen



                                                     JFRYE2005



                                                     14
Andregradsledd: F-testen

Se først på T-testen: Indikerer om det nye leddet er
signifikant i seg selv

Vanlig problem:
Verken annengradsleddet eller den originale
variabelen er signifikante i den nye modellen?
Men kan annengradsleddet likevel være en
signifikant forbedring av modellen?

Bruk F-test på modellene med / uten
annengradsleddet


                                                       JFRYE2005



                                                   15
Dummyvariabler: F-testen

1: Blir settet av dummyvariabler signifikant?
2: Sammenlign de to modellene, spesielt med
tanke på justert R.




                                                JFRYE2005



                                                16
Samspillsledd: F-testen

Se først på T-testen: Indikerer om det nye leddet
er signifikant i seg selv

Vanlig problem:
Verken samspillet eller de originale variablene
blir signifikante.
Men kan samspillsleddet likevel være en
signifikant forbedring av modellen?

Bruk F-test på modellene med / uten
samspillsleddet
                                                    JFRYE2005



                                                    17
NB: Vanlig feil!

Man tester den opprinnelige variabelen samtidig
som man tester leddet som skal forbedre
modellen.

Eks. på testing som er gal:
         Man skal teste et annetgradsledd for alder (alder2).
         Sammenligner Mod. 1 (som er modellen uten noen
         aldersvariabler i det hele tatt) mot Mod. 2 (som inneholder
         både alder og alder2).
         Resultatet av denne testen vil kun vise om alder og alder2
         til sammen er signifikant – ikke om annetgradsleddet
         representerer en forbedring isolert sett



                                                                 JFRYE2005



                                                                 18
NB: Problemet med multikollinaritet

Oppstår naturlig nok i forbindelse med
annengradsledd og samspillsledd.
Hvorfor? Jo – vi måler bevisst det samme flere
ganger

Vi aksepterer høy grad av multikollinaritet til
konstruerte variabler hvis det gjør modellen
bedre ut fra substansielle tolkningshensyn.
Men: ’Prisen’ vi betaler er mer usikre estimater


                                                   JFRYE2005



                                                   19
3: Forenkling av modellen

Fjern insignifikante variabler.
Start med den som er mest insignifikant
Fortsett til det bare er signifikante variabler igjen

Dummyvariabler: Sig. vurderes ut fra F-test

(NB: Dette arbeidet har man for så vidt allerede
startet med allerede under pkt. 2)


                                                        JFRYE2005



                                                        20
MEN:

Enkelte ganger er man interessert i variablene selv om de
ikke er signifikante – nettopp insignifikansen kan være et
funn.

F.eks.: En studie av sammenhengen mellom kjønn og
seksuelle overgrep: Hvis B = 0 (dvs. kvinner ikke mer utsatt
for overgrep), så er det kanskje det aller mest interessante
funnet!

Da bør man også rapportere dette på lik linje med andre
resultater.

Ofte presenteres den ureduserte modellen (etter pkt. 2)

                                                               JFRYE2005



                                                               21
  LA ALDRI SPPS GJØRE JOBBEN MED Å
  REDUSERE MODELLEN LA ALDRI SPPS
    GJØRE JOBBEN MED Å REDUSERE
MODELLEN LA ALDRI SPPS GJØRE JOBBEN
 MED Å REDUSERE MODELLEN LA ALDRI
 SPPS GJØRE JOBBEN MED Å REDUSERE
MODELLEN LA ALDRI SPPS GJØRE JOBBEN
 MED Å REDUSERE MODELLEN LA ALDRI
 SPPS GJØRE JOBBEN MED Å REDUSERE
MODELLEN LA ALDRI SPPS GJØRE JOBBEN
 MED Å REDUSERE MODELLEN LA ALDRI
 SPPS GJØRE JOBBEN MED Å REDUSERE
           MODELLEN. ALDRI.


                                      JFRYE2005



                                      22
GENERELLE PROBLEMER

Alle relevante variabler skal være
med
Det mangler ’alltid’ noen variabler


Ingen irrelevante variabler skal være
med
Fisketurproblematikken

                                         JFRYE2005



                                         23
SIGNIFIKANSNIVÅ: TO TYPER FEIL

1: Man lar være å forkaste en ukorrekt 0-hypotese
2: Man forkaster en korrekt 0-hypoteser

Tradisjon innen samfunnsvitenskapene:
95-prosentsnivå – dvs. p < 0,05

Men dette er for så vidt et vilkårlig valg

NB1: Statistiske feilmargin vs andre feilmarginer
NB2: Brudd på forutsetningene kan gi usikre tester
NB3: Multikollinaritet kan overestimere standardfeilene


                                                          JFRYE2005



                                                          24
R2 = et statistisk mål på modellens forklaringskraft

Umulig å angi hvilken R2 som er ’høyt’/’bra’ nok –
dette må tolkes substansielt.
       Eks.: Hvis du med en godt spesifisert modell for
       intergenerasjonell sosial reproduksjon får R2 = 0, så har du
       tidens sosiologiske regresjonsmodell!

Kan ikke brukes ukritisk – økning i R2 er ingen
garanti for at modellen er bedre.

En hver ny X-variabel vil per definisjon øke R2
       Faresignal! R2 synker når man utvider modellen – det skal
       aldri kunne skje (du må ha gjort en eller annen feil – som
       regel fjernet en variabel fra modellen)

Sjekk ift. R2 adjusted
                                                                      JFRYE2005



                                                                      25
Vær oppmerksom på at vi så langt bare har etablert
den beste modellen…

…men vi har ikke testet den i forhold til
forutsetningene – det vil si: sjekket om den beste
modellen er holdbar (jfr. heterodastisitet,
autokorrelasjon, normalfordelte feilledd, uteliggere
osv.)

Det kan hende at disse testene fører til at man
må gå tilbake og revidere modellen ytterligere,
for eksempel transformere X eller Y for å unngå
heterodastisitet og ikke-normalfordelte feilledd.

                                                       JFRYE2005



                                                       26
JFRYE2005



27
Statistikk er en rimelig eksakt vitenskap
Samfunnsvitenskap er det ikke!

Alltid et snev av vilkårlighet
Prøv deg frem
Bruk teori som ledetråd
Ingen endelige, definitive, autorative
og universielt aksepterte løsninger

                                          JFRYE2005



                                          28
Husk:
Det viktigste er alltid å være reflektert &
nyansert, og være klar over at valgene
man tar, har konsekvenser.
Bruk teori (sunn samfunnsvitenskaplig
fornuft) som ledetråd.
Dere kan gjøre mye i en semester-
oppgave, så lenge dere argumenterer
for den valgte fremgangsmåten!
                                          JFRYE2005



                                         29
Regresjonanalyser skal kommuniseres!

Regresjonsanalysen skal formidles til et publikum.
Det er derfor ønskelig at modellen ikke er mer
komplisert enn ’nødvendig’.

Hvor sterkt dette skal vektlegges, er avhengig av
publikum.

En forskerkollega som selv arbeider med kvantitativ
metode bør kunne takle mer kompliserte modeller
enn kvalitative forskere, som bør forstå mer enn
byråkrater i en kommuneadminsitrasjon, som bør
forstå mer enn deltakerne på et foreldremøte, osv…

                                                     JFRYE2005



                                                     30

						
Related docs
Other docs by HC120310023925