PowerPoint Presentation by v3sv6B

VIEWS: 0 PAGES: 29

									MTO-3: Causal Inference




        Chris Snijders

          Pav Q 1.07
     c.c.p.snijders@tue.nl



 www.tue-tm.org/snijders/mto3
                    De MTO cyclus
• Probleemstelling
   –   Wat zijn zinnige vragen?
   –   Wat voor soorten (zinnige) vragen zijn er?      MTO-1
• Theorie-ontwikkeling (formulering van hypothesen)
  en toetsingskader
   –   “Hoe verwacht ik dat het antwoord op mijn probleemstelling er
       uit ziet”


• Keuze van een onderzoeksopzet
   (“Hoe ga ik onderzoeken”)
   –   Experiment (met mensen)
   –   Survey (door mensen)                            MTO-1
   –   Case study
   –   Participerend onderzoek
   –   …

• Dataverzameling
   –   Hoe ontwerp ik een experiment?                  MTO-1
   –   Hoe ontwerp ik een vragenlijst?
   –   Hoe kom ik aan respondenten / deelnemers en hoeveel moeten
       dat er eigenlijk zijn?
   –   …


• Analyse van resultaten                               MTO-2
   –   Welke manieren zijn er om te meten wat ik wil meten?
   –   Hoe kan ik de verschillende gemeten begrippen met elkaar in
       verband brengen?


• Conclusies                                           MTO-3
   –   Wat mag ik nu concluderen?

                                                                       2
             Opzet van het vak

BEOORDELEN VAN HET ONDERZOEKSDESIGN
VAN ANDEREN

    Utts, hoofdstuk 2 t/m 6

    2:   Reading the news
    4:   How to get a good sample
    5:   Experiments and observational studies
    6:   Getting the big picture
    3:   Measurements, mistakes, and misunderstandings




MULTIPLE REGRESSIE ANALYSE

    Allison, Regression analysis
    Hele boek + een en ander aan extra’s




                                                         3
              <PS demo>


• Tabblad "Dichotomous"

• Tabblad "t-test"




                          4
             Utts, hoofdstuk 2

Te beoordelen bij een willekeurige studie:

1. Wie heeft het onderzoek uitgevoerd, en voor
   wie?
2. Wie heeft precies contact gehad met de
   respondenten / deelnemers?
3. Wat waren dit voor respondenten / deelnemers?
   • Hoe zijn ze gekozen?
   • Voor wie zijn ze representatief?
   • Hoeveel zijn het er?
4. Hoe zagen de vragen er uit? En hoe de metingen
   die gemaakt zijn uit die vragen?
5. De setting van het onderzoek (laboratorium,
   thuis gebeld, via de post, via internet)
6. Zijn er zaken denkbaar die het gevonden effect
   kunnen verstoren?
7. Hoe groot is het geclaimde effect?




                                                5
Soorten steekproeven              (nb mto-1, ik weet het)




• Willekeurige steekproef
   – Bijvoorbeeld dmv “systematic sampling”
   – Bijvoorbeeld dmv “random digit dialing”


• Gestratificeerde steekproef
   – Stratum (=groep waarnaar je stratificeert,
     meervoud is strata)
   – Maak strata en steek een sample uit ieder stratum


• Cluster steekproef
   = maak strata, selecteer random uit de strata, en
     meet aan alle units in een stratum



(of combinaties van de bovenstaande, bijv.
 selecteer gemeentes, daarbinnen scholen, en
 daarbinnen hele klassen)




                                                            6
    Problematische “steekproeven”

• Sampling frame niet volledig (vb telefonisch
  interview / internet vragenlijst bij landelijke
  representativiteit)

• Andere respondenten dan de gesamplede (vb
  telefonisch interview: degene die opneemt wil
  niet, maar zijn broer wel)

• Lage “response rates” (waarom is dit eigenlijk
  een probleem?)

• Een steekproef van vrijwilligers (degenen die
  reageren verschillen waarschijnlijk van degenen
  die dat niet doen). Of: een sneeuwbal-sample.



  NB in de praktijk wordt dit allemaal wel wat
  ruimer genomen dan hier wordt gesuggereerd
  (wat geen vrijbrief is om dan maar iets doms te
  doen!).



                                                    7
        Conclusies en nieuwe vragen


• De gewenste steekproefgrootte kan nog vies
  tegenvallen (PS software)

   Kan die (survey) steekproef niet wat kleiner?
  Soms, als je handig kunt stratificeren.



• Er zijn behalve de factor waar het je om
  begonnen was vaak interveniërende factoren
  (“confounding variables”; zie het “hangover”
  voorbeeld van vorige keer) die mogelijk het
  verband waarin je bent geïnteresseerd beter
  verklaren (en waar je geen rekening mee hebt
  gehouden).

   Valt er niet op een of andere manier rekening
  te houden met die overige factoren?
     1. Doe een experiment i.p.v. een survey
     2. Meet die overige factoren ook, en hou er
        rekening mee (multiple regressie)



                                                    8
Het nut van gestratificeerde steekproeven

   Voorbeeld: de gemeente Utrecht voert eens in de
   twee jaar de “Utrecht-monitor” uit, een schriftelijke
   vragenlijst die door interviewers bij mensen thuis
   wordt afgenomen.

1 De gemeente wenst uitspraken te doen over de
  gehele bevolking én over subgroepen daarbinnen
  (bijvoorbeeld over allochtonen apart, of over
  bepaalde stadsdelen. Als je een random steekproef
  neemt, kan dat laatste niet.
  Oplossing: stratificatie

2 Stel: je weet dat iets dat je wilt meten meer varieert in
  bepaalde groepen dan in andere
   (bijv: “Vindt u het een goed idee dat de gemeente meer geld uit moet
   geven aan FC Utrecht”; dit geeft vast minder variatie bij vrouwen dan
   bij mannen)
   In dit geval kun je beter verhoudingsgewijs meer
   respondenten kiezen uit de groep die meer varieert.
   (In dit geval krijgen je schattingen de kleinste standaardfouten als je de strata kiest
   proportioneel aan het product van de standaarddeviatie van hetgeen je wilt meten, en de grootte
   van het stratum.)



3 Als een gestratificeerde steekproef nemen
  makkelijker is, bijvoorbeeld omdat interviewers dan
  minder afstand hoeven af te leggen.


                                                                                                 9
               Gemiddelde en variantie voor
             verschillende soorten designs (1)

  VOORBEELD: SCHATTING VAN HET
  GEMIDDELDE IN EEN POPULATIE
                                                      Dus?
• “gewone” willekeurige steekproef


  x
      xi                    Var ( x)  (
                                          N  n sx
                                               )
                                                  2


      n                                    N     n

   xi  meting van x aan unit i
   N  aantal elementen in de populatie
    n  aantal elementen in de steekproef

          i1
             n
               ( xi  x) 2
   sx 
    2
                              variantie in de steekproef
                 n 1


  De verwachting en variantie geeft me het 95%-
  betrouwbaarheidsinterval:

   x  1.96 Var ( x) , x  1.96 Var ( x)

                                                             10
              Gemiddelde en variantie voor
            verschillende soorten designs (2)

  VOORBEELD: SCHATTING VAN HET
  GEMIDDELDE IN EEN POPULATIE

• “gewone” willekeurige steekproef

  x
      xi                 Var ( x)  (
                                       N  n sx
                                            )
                                               2


      n                                 N     n
• (vooraf) gestratificeerde steekproef


  xh   
         x   h ,i
                          x str   
                                    N   h   xh
         nh                          N

                     N h  shx  N h  nh 
                          2  2
  Var ( x str )             
                                 N       
                     N  nh          h   

• gestratificeerde steekproef (achteraf)


                    N n    Nh 2 1       2 N  nh
 Var ( x pstr )  (      )   shx  2  shx (     )
                     nN     N      n          N


                                                      11
                   Na stratificatie:
   Als je een gestratificeerde steekproef hebt
   uitgevoerd, dan moet je hier bij het berekenen
   van gemiddeldes, correlaties, regressies, etc wel
   weer rekening mee houden.

   Dit kan / gebeurt op twee manieren:

1. Door de gevallen uit een stratum “terug te wegen” op zo’n
   manier dat de verdeling in de populatie klopt met de
   verdeling in de sample. Als je 500 Nederlanders en 500
   allochtonen had in je steekproef, laat dan de Nederlanders
   “voor drie tellen” (en de allochtonen voor één). Voordeel: dit
   kan in bijna alle standaard statistische pakketten (SPSS,
   Systat, Statistica, MiniTab, SAS). Nadeel: de schatters voor
   het gemiddelde zijn goed, de betrouwbaarheidsintervallen
   fout (je maakt deze i.h.a. te groot  conservatieve
   schatting).

2. Door de gevallen uit een stratum terug te wegen op zo’n
   manier dat rekening wordt gehouden met de kans dat een
   respondent in de data terecht kon komen. Voordeel: dit is
   hoe het eigenlijk moet. Nadeel: dit gaat alleen in SUDAAN
   en Stata goed (en in nog een paar andere programma’s).


   NB Hét boek over steekproefdesigns is
   Levy, P.S. and Lemeshow, S. (1999) Sampling of
   populations. Methods and applications (3rd edition). New
   York: Wiley.



                                                              12
              “Vluchtroutes”
Stel: je hebt een of andere steekproef
getrokken, dat had random gemoeten, en je
weet dat dat niet helemaal netjes gegaan is.

   Bijvoorbeeld: als je sampling frame niet de
   volledige populatie opspant. Bijvoorbeeld als je
   een steekproef neemt uit alle Internetgebruikers,
   terwijl je representatief wilt zijn voor alle
   (volwassen) Nederlanders.

1. ACHTERAF: Probeer geaggregeerde gegevens
te krijgen over de hele populatie, en vergelijk
deze met je steekproef. Weeg zo nodig je
gegevens op zo’n manier dat de gegevens weer
kloppen op populatieniveau [zoals bijv bureau
Interview/NSS dat doet]

   Of, bijvoorbeeld als je een lage response rate hebt
   (niet iedereen die je benadert wil meedoen), en
   reden hebt om te vrezen dat degenen die niet
   meedoen verschillen van degenen die wel
   meedoen.

2. TIJDENS: Probeer, zélfs bij degenen die niet
willen meedoen, nog wat los te krijgen aan
informatie, al is het maar heel weinig.


                                                   13
        Conclusies en nieuwe vragen


• De gewenste steekproefgrootte kan nog vies
  tegenvallen (PS software)

   Kan die (survey) steekproef niet wat kleiner?
  Soms, als je handig kunt stratificeren.



• Er zijn behalve de factor waar het je om
  begonnen was vaak interveniërende factoren
  (“confounding variables”; zie het “hangover”
  voorbeeld van vorige keer) die mogelijk het
  verband waarin je bent geïnteresseerd beter
  verklaren (en waar je geen rekening mee hebt
  gehouden).

   Valt er niet op een of andere manier rekening
  te houden met die overige factoren?
     1. Doe een experiment i.p.v. een survey
     2. Meet die overige factoren ook, en hou er
        rekening mee (multiple regressie)



                                                   14
Experimenten en surveys




                          15
     Experimenten en surveys
              (Utts, hoofdstuk 5)
We zoeken naar samenhang tussen twee
variabelen:

    XY

“vrouw zijn”  “gevoeliger voor drank”
“kaal zijn”    “grotere kans op hartaanval”
“linkshandig”  “eerder dood”
“horen van Mozart” “hoog scoren op een IQ test”

Y = afhankelijke variabele
    respons variabele
    te verklaren variabele

X = onafhankelijke variabele
    verklarende variabele

I.h.a. zijn we geïnteresseerd in causale
samenhang: “X veroorzaakt Y”.




                                                   16
Typische problemen van survey-studies

[Utts, hfdstk 5, p. 84]



Interveniërende variabelen



Gebruik van retrospectieve data



Causale verbanden zijn typisch moeilijk of strikt
genomen soms zelfs onmogelijk te bepalen.

Immers: als ik één survey heb afgenomen (een
zogenaamd “cross-sectioneel survey”), dan vind
ik op z’n best een samenhang tussen twee
variabelen. Of de één tot de ander leidt, of
andersom, daar kun je op statistische gronden
niets over zeggen. Eén van de manieren om hier
toch iets over te kunnen zeggen is surveys af te
nemen (bij dezelfde personen) op verschillende
tijdsmomenten.



                                               17
             Experimenten
Experimenten bekijken de samenhang tussen de
afhankelijke variabele (Y) en een specifiek door
de onderzoeker gekozen “treatment variable”
(X).

Een “conditie” (“treatment”) is één keuze van de
treatment variabele. Bij het meest eenvoudige
experiment, met twee condities (vb: wel of geen
Mozart horen), probeer je er voor te zorgen dat
alle andere omstandigheden zo veel mogelijk
gelijk zijn.

Hét toverwoord bij experimenten is
“randomisatie”. Als je er voor zorgt dat
proefpersonen random worden toegewezen aan
de verschillende condities (en je hebt voldoende
proefpersonen), dan heffen eventuele andere
verschillen tussen proefpersonen elkaar op.

Soms is het onmogelijk een experiment te doen,
omdat de conditie niet te manipuleren valt (bijv.
sexe, linkshandigheid, etc)



                                               18
                <vervolg>
Zowel bij experimenten als bij survey-
onderzoek komt het er vaak op neer om op een
of andere manier de afhankelijke variabele (Y) te
voorspellen, op basis van één of meer X’en.

Meestal doen we dat – bij gebrek aan iets beters
– maar met een lineair model:

    Y = c 0 + c 1 X1 + … + c n Xn

Hét grote verschil tussen experimenten en
survey-onderzoek is dat bij experimenten de
verschillende X’en de verschillende “treatments”
weergeven, terwijl bij survey-onderzoek de X’en
de metingen aan je respondenten weergeven.

Bij experimenten kies je dus als onderzoeker
zelf de waardes van de X’en, terwijl je het bij
survey-onderzoek moet doen met de gemeten
waardes die je vindt in je sample.




                                               19
Randomiseren bij experimenten

Het simpelste voorbeeld: twee condities. Stel je
wilt toetsen of het zo is dat luisteren naar
Mozart je score op een direct daarna afgenomen
IQ test verhoogt.

Je berekent eerst ( PS):
bij =5% en een power van 90%, en als ik een
verschil van 3 IQ punten wil kunnen detecteren,
dan heb ik 2 x 234 = 468 proefpersonen nodig.
[NB veel minder nodig als “paired”]

<voorbeeld verder op volgende slide>


Conclusie: randomiseren helpt je om “vanzelf”
rekening te houden met de zogenaamde
“hoofdeffecten”, maar niet met interactie-
effecten.

NB Realiseer je goed wat nu precies het verschil
is met eenzelfde onderzoek, maar dan opgezet
als survey.



                                                20
      Mozart  IQ omhoog (1)
Interveniërende variabele:
of je ouders hebt die veel gedaan hebben aan je
intellectuele ontwikkeling

Aanname: dit heeft een positief effect op je IQ; als je dit
hebt, dan is je IQ 115. Anders is het 100. Zeg: 40% heeft
dergelijke ouder.

Aanname: er is een effect van het luisteren naar Mozart van
10 IQ-punten (voor iedereen).

Bij een experiment: random toedeling aan de conditie
“Mozart beluisteren voor de test”:

468 proefpersonen

234 niet-Mozart:         140 pp met IQ 100 100
                          94 pp met IQ 115 115
                         Gemiddeld = 106.03

234 Mozart:              140 pp met IQ 100 110
                          94 pp met IQ 115 125
                         Gemiddeld = 116.03

Vergelijking levert het correcte verschil op.



                                                              21
      Mozart  IQ omhoog (2)
Interveniërende variabele:
of je van Mozart houdt.

Aanname: als je niet van Mozart houdt heeft dit een negatief
effect op het effect van naar Mozart luisteren. Zeg 40%
houdt van Mozart.

Aanname: er is een effect van het luisteren naar Mozart van
10 IQ-punten. Als je niet van Mozart houdt, is er een effect
op de IQ-score van -8. EEN INTERACTIE-EFFECT DUS

Bij een experiment: random toedeling aan de conditie
“Mozart beluisteren voor de test”:

468 proefpersonen

234 niet-Mozart:        140 pp met IQ 100 100
                         94 pp met IQ 100 100
                        Gemiddeld = 100

234 Mozart:             140 pp met IQ 100 92
                         94 pp met IQ 100 110
                        Gemiddeld = 99.2

Vergelijking levert geen correct verschil op. Je zult
hier concluderen dat er geen statistisch significant
effect is.

                                                          22
   Twee soorten experimenten
(de eerste soort was: iedere proefpersoon levert
een onafhankelijke meting)



“Matched pair designs”
   Zoek bij iedere proefpersoon in de ene conditie
   iemand in de andere conditie die er zoveel
   mogelijk op lijkt wat betreffend alle van belang
   zijnde variabelen.


“Block designs” of “within-subjects designs”
   Geef aan iedere persoon allebei de condities. Zo
   zijn proefpersonen als het ware hun eigen
   “matched pair”.


NB als er meer treatments / condities zijn (bv
luisteren naar Mozart én luisteren naar Brahms),
randomiseer dan ook de volgorde van de
treatments




                                                      23
  Nog wat standaardbegrippen
Controlegroep: als je het effect wilt weten van
een of andere treatment op Y, dan zul je een
groep moeten bekijken die de treatment niet
heeft gekregen.
<vb uit andere context: welke bedrijven doen
het goed / welke landen innoveren / …>

Placebos: “fake treatment”

Dubbel blind experiment: zowel de
proefpersonen als de experimentator weet niet
aan welke conditie de proefpersoon is
blootgesteld

(Enkel) blind experiment: de proefpersonen
weten niet aan welke conditie ze zijn
blootgesteld, maar de experimentator weet het
wel

Experimenten waar de proefpersonen weten aan
welke conditie ze zijn blootgesteld zijn nooit
goed, omdat ze gevoelig zijn voor het
“experimenter effect”.

                                                  24
  Standaard problemen bij experimenten

• Interveniërende variabelen (confounding
  variables) OPL: Gebruik randomisatie, dan ben je
  van eventuele vervelende hoofdeffecten af

• Interactie-effecten ( volgende slide) OPL potentiële
  interacties mee-meten en erover rapporteren

• Placebo-effect: proefpersonen reageren anders
  omdat ze een “treatment” ondergaan (nb dit
  hoeft niet noodzakelijk op iets medisch te slaan)

• Hawthorne-effect: proefpersonen gedragen zich
  anders omdat er aandacht aan ze wordt besteed
  / omdat ze in het experiment zitten

• Experimentator-effect / “narrative thinking”:
  proefpersonen gedragen zich zoals ze denken
  dat de experimentator dat van ze verwacht,
  gezien de aangeboden condities (“aha, het zal
  wel over … gaan”)

• Lage ecologische validiteit: de mate waarin de
  resultaten overdraagbaar zijn naar situaties
  buiten het laboratorium, is soms klein


                                                      25
Hoofdeffecten en interactie-effecten
 XY

 Als het verband tussen X en Y lineair is, dan zou dus moeten
 gelden dat

       Y = c0 + c1 X1

 In zo’n geval noemen we c1 het “hoofdeffect van X1 op Y”.

 Het is denkbaar dat andere factoren tegelijkertijd ook
 (lineair) met Y samenhangen:

       Y = c0 + c1 X1 + … + cn Xn

 In dit geval spreken we van een model met alleen
 hoofdeffecten.

 Als het verband tussen X1 en Y afhangt van de waarde van
 een andere variabele, dan spreken we van een interactie
 effect.

 Y = c0 + c1 X1, maar c1 = a1 + a2 X2 en dus

 Y = c0 + (a1 + a2 X2) X1 =

   = c0 + a1 X1 + a2 X1 X2

 Hier is dan a2 X1 X2 het interactie-effect.



                                                             26
 Wat je moet kunnen n.a.v. Utts

Je krijgt een beschrijving van een of ander onderzoek,
zoals er in Hoofdstuk 6 van Utts (en in eerdere
hoofdstukken) staan.

Beoordeel dit onderzoek op z’n goede en minder
goede kanten, aan de hand van de lijst met punten
van Utts <zie volgende slide>


                                        Nog maar 2
                                      voorbeelden van
                                          gezien.

Bereken indien mogelijk hoe groot de steekproef (of
het aantal proefpersonen bij een experiment) moet
zijn, m.b.v. PS). Of: bereken hoe groot de power van
de test is, gegeven de in het onderzoek gehanteerde
steekproefgroottes.

Geef een verbeterde opzet (bijvoorbeeld: was
stratificeren hier handig geweest?) Hoe dan?

Geef (indien mogelijk) een alternatieve opzet [Stel:
het was een survey, geef dan een mogelijk
experiment dat ook uitgevoerd had kunnen worden
om hetzelfde idee te toetsen.] en geef aan op welke
punten dit beter of slechter zou zijn dan het
origineel.


                                                        27
              Het stappenplan

1. Bepaal met wat voor soort studie je van doen
   hebt (experiment/survey, wat voor soort
   experiment/survey etc).
2. Loop de “kritische zeven factoren” (zie slide 4)
   langs
3. Bekijk in het bijzonder de typische fouten die
   voor kunnen komen bij de betreffende studie
4. Bekijk of de informatie volledig is. Ga zo nodig
   terug naar het bronnenmateriaal.
5. Vraag je af of de resultaten te begrijpen zijn op
   basis van de door de auteurs geponeerde
   theorie: wordt een verklaring gegeven voor de
   gevonden resultaten?
6. Vraag je af of er alternatieve verklaringen zijn.
7. -




                                                  28
     Te doen voor volgende keer

• Doornemen behandelde hoofdstukken (4, 5, 6)

• Oefen in het beoordelen van onderzoek van
  anderen, en het verzinnen van een
  onderzoeksopzet voor een gegeven probleem.

• Vanaf morgen komen er vijf
  onderzoeksproblemen online te staan. We
  maken vijf groepen. Iedere groep is
  verantwoordelijk voor één van de vijf
  opdrachten. Inleverdatum: <in overleg>

• Oefen in het gebruik van PS. Tot nog toe bekijk
  ik steeds alleen de benodigde sample size, maar
  je moet binnen de tabbladen “t-test” en
  “dichotomous” in principe alles snappen.




                                               29

								
To top