Docstoc

Vorlesung Statistik

Document Sample
Vorlesung Statistik Powered By Docstoc
					10. Stunde: Interaktionen; VA mit Messwiederholung




        Bitte merken Sie sich folgenden Termin                                                               Vorlesung Statistik 2
                          vor:                                                                                   Sommersemester 2008
                                                                                                                 11. Stunde: 25. 6. 2008
                                                                                  • Kurzwiederholung: Interaktionen, Präzision
       • Donnerstag, 17. Juli ab 16.00 Uhr:                                       • Kovarianzanalyse
                                                                                  • Nonparametrische Verfahren: Einführung und
                                                                                    Überblick
       • Sommerfest der Fachschaft mit Präsentation der                           • Nonparametrische Verfahren: Nominaldaten
         Poster der Empiriepraktika                                                      • Eindimensionaler Chi2-Test
                                                                                         • Vierfelder Chi2-Test
                                                                                  • Veranstaltungsevaluation


      Dr. A. Jain: Vorlesung Statistik 2         24.06.2008            Folie 2   Dr. A. Jain: Vorlesung Statistik 2    24.06.2008                        Folie 3




                                           Formen der Interaktion
                                                                                  Interpretation von Interaktion und Haupteffekten
      Wir unterscheiden vier Formen der Interaktion
      Ordinale Interaktion:                                                      • Grundsätzlich ist das Vorliegen einer signifikanten Interaktion und
      In beiden Interaktionsdiagramm sind die Linien nicht parallel,               auch die Art der Interaktion unabhängig vom Vorliegen signifikanter
      schneiden sich aber auch nicht.                                              Haupteffekte (HE).
      Disordinale Interaktion:                                                   • Die Art der vorliegenden Interaktion hat jedoch Konsequenzen für die
      In beiden Interaktionsdiagramm schneiden sich die Linien.                    Interpretierbarkeit der Haupteffekte (sofern diese signifikant sind):
      Hybride oder semidisordinale Interaktion:                                        • Nullinteraktion: HE können uneingeschränkt interpretiert werden
      In einem Interaktionsdiagramm schneiden sich die Linien; im                      • Ordinale Interaktion: HE können uneingeschränkt interpretiert
      anderen Diagramm schneiden sie sich nicht.                                         werden
      Nullinteraktion:                                                                 • Disordinale Interaktion: Beide HE können nicht interpretiert werden
      In beiden Interaktionsdiagrammen sind die Linien parallel                        • Hybride oder semidisordinale Interaktion: Der HE kann interpretiert
            Eine Interpretation der Haupteffekte muss die Form der                       werden, für den die Rangfolge immer gleich bleibt
      Interaktion berücksichtigen!
      Dr. A. Jain: Vorlesung Statistik 2         24.06.2008            Folie 4   Dr. A. Jain: Vorlesung Statistik 2    24.06.2008                        Folie 5




                                                                                           Massnahmen zur Erhöhung der Präzision
                                                Präzision
                                                                                 • In der experimentellen Versuchsplanung gilt die Maxime:
                                                                                   „Maximiere die Primärvarianz und minimiere die Sekundär- bzw
       Die Präzision der Hypothesenprüfung wird definiert                          Fehlervarianz“.
       als die Wahrscheinlichkeit, einen bestehenden                             • Möglichkeiten zur Erhöhung der Primärvarianz werden in der
       Mittelwertsunterschied zwischen experimentellen                             Veranstaltung „Versuchsplanung“ besprochen
       Bedingungen – infolge der Variation der UV(n) – mittels                   • Möglichkeiten zur Reduktion der Fehlervarianz:
       geeigneter versuchsplanerischer Maßnahmen                                   a) Kontrolle von Störvariablen durch Konstanthaltung
       aufdecken zu können, d. h. statistisch nachweisbar zu                       b) Kontrolle von Störvariablen durch Eliminierung
       machen.                                                                     c) Systematische Variation von Störvariablen: Aufnahme als
                                                                                      UV (Kontrollfaktor) in den Versuchsplan
       Die Präzision ist das versuchsplanerische Pendant zur                       d) Messwiederholung (intraindividuelle Bedingungsvariation)
       Teststärke.                                                                    in der Varianzanalyse
                                                                                   e) Statistische Kontrolle der Einflussgröße (Kovariate)
      Dr. A. Jain: Vorlesung Statistik 2         24.06.2008            Folie 6   Dr. A. Jain: Vorlesung Statistik 2    24.06.2008                        Folie 7




Dr. A. Jain; Vorlesung Statistik 2; SS 2008                                                       24.06.2008                                                       Seite 1
10. Stunde: Interaktionen; VA mit Messwiederholung




                                                           Gesamtvariabilität
                          Einfaktorielle Varianzanalyse mit                                                                     Kovarianzanalyse
                                               Effekt der UV Fehler
                        Messwiederholung: Varianzzerlegung
                                                Block  Rest                                • Auch mit der Kovarianzanalyse kann die nicht erklärte Varianz
      • Bei der Varianzanalyse für Messwiederholung erhöht
                                                                                             (Sekundärvarianz) reduziert werden.
        sich in der Regel die Präzision, weil hier die                                         Steigerung der Präzision
        Fehlervarianz weiter aufgeteilt wird:
                                                                                           • Dabei wird der Effekt einer potentiellen Einflussgröße
          - Variation zwischen den Personen (SAQBlock) und                                   („Kovariate“, Kontrollvariable) aus der AV (und der UV)
          - Rest- oder Residualvariation, die weder auf die                                  regressions-analytisch herauspartialisiert.
          Stufen der UV noch auf die Unterschiede zwischen                                     Mithilfe der Kovarianzanalyse wird der Einfluss einer Kovariaten
          den Vpn zurückgeht (SAQRest)                                                         auf die AV sozusagen neutralisiert.

          Die Fehlervarianz (SAQRest), gegen die die                                       • Voraussetzung: Die Kovariate muss intervallskaliert sein.
          Primärvarianz getestet wird, wird also durch
          „Abspaltung“ des Blockfaktors kleiner
      Dr. A. Jain: Vorlesung Statistik 2 24.06.2008                              Folie 8   Dr. A. Jain: Vorlesung Statistik 2       24.06.2008               Folie 9




                                Kovarianzanalyse: Beispiel                                                                      Kovarianzanalyse
      • Wir betrachten wieder unser Therapiebeispiel (Bsp. zur 2-fakt.                     Schematische Illustration des Vorgehens:
        VA). Wir gehen davon aus, dass der Therapieerfolg auch durch
                                                                                           a) Es wird eine Regressionsgleichung ermittelt, mit der die Werte
        das Alter der Patienten beeinflusst wird. Deshalb wird zuerst der
                                                                                              der AV (Ängstlichkeit) aus der Kovariate (Alter) vorhergesagt
        Einfluss des Alters aus dem Therapieerfolg eliminiert
                                                                                              werden.
        (herauspartialisiert).
                                                                                           b) Es resultieren vorhergesagte Werte (für Ängstlichkeit), die
      • Gedankengang: „Wenn wir die unterschiedliche Ängstlichkeit
                                                                                              vollständig durch die Kovariate bedingt sind.
        der Patienten am Ende der Therapie allein aus dem Alter
        vorhersagen können, müssen wir dafür nicht die verschiedenen                       c) Die Differenzen zwischen vorhergesagten und beobachteten
        Therapien „bemühen“.                                                                  Werten sind die durch die Kovariate unbeeinflussten Anteile der
                                                                                              AV.
      • Oder: Der „Anteil“ an Ängstlichkeit, der durch das Alter bedingt
        ist, „überlagert“ den Therapieerfolg, der durch die einzelnen                          Regressionsresiduen
        Verfahren zustande kommt.
      Dr. A. Jain: Vorlesung Statistik 2      24.06.2008                        Folie 10   Dr. A. Jain: Vorlesung Statistik 2       24.06.2008              Folie 11




                                           Kovarianzanalyse                                                                     Kovarianzanalyse
      Regressionsresiduen die neuen Werte der AV, für die die
        bekannte Varianzzerlegung vorgenommen wird.                                        • Die Kovarianzanalyse lässt sich mit allen Arten der
                                                                                             Varianzanalyse kombinieren (ein- und mehrfaktoriell, mit oder
      Voraussetzung: Die Kovariate hat einen signifikanten Einfluss, d.
                                                                                             ohne Messwiederholung).
        h. es besteht eine Korrelation von Kovariate und AV (d.h. das
        Alter hat tatsächlich einen Einfluss auf den Therapieerfolg bzw.                   • Auch lassen sich – im Prinzip - mehr als eine Kovariate in ein
        die Ängstlichkeit)                                                                   Modell aufnehmen.

      • Gleichzeitig wird der Einfluss der Kovariaten auch aus der UV                      • Für unser Therapiebeispiel könnten andere sinnvolle Variablen,
        herauspartialisiert. Insbesondere bei randomisierten Gruppen                         die man statt oder zusätzlich zum Alter als Kovariate
        ist hier allerdings keine Korrelation zu erwarten.                                   berücksichtigen könnte, sein:
                                                                                             Dauer der Störung, Schwere der Störung, Ängstlichkeit vor
      • Es handelt sich also um eine Partialkorrelation zwischen
                                                                                             Therapiebeginn (hier könnte man auch eine VA mit
        UV und AV, bei der der Einfluss der Kovariaten
                                                                                             Messwiederholung einsetzen), Motivation …..
        herauspartialisiert wird.
      Dr. A. Jain: Vorlesung Statistik 2      24.06.2008                        Folie 12   Dr. A. Jain: Vorlesung Statistik 2       24.06.2008              Folie 13




Dr. A. Jain; Vorlesung Statistik 2; SS 2008                                                                 24.06.2008                                                 Seite 2
10. Stunde: Interaktionen; VA mit Messwiederholung




             Kovarianzanalyse: Voraussetzungen                                                                                Kovarianzanalyse und Präzision

      • Voraussetzungen der „normalen“ Varianzanalyse:                                                           Durch die Kovarianzanalyse wird die Präzision erhöht,
        Normalverteilung, Varianzhomogenität                                                                     wenn die Kovariate tatsächlich mit der AV korreliert.

      • Deutliche Korrelation von Kovariate und AV                                                               Dies beruht vor allem auf einer Reduktion der
                                                                                                                 Fehlervarianz.
      • homogene Regressionen innerhalb der einzelnen
        Gruppen:
        Der Zusammenhang zwischen AV und KV soll in allen
        Gruppen gleich sein, da eine gemeinsame Schätzung
        der Regressionsgeraden erfolgt

      Dr. A. Jain: Vorlesung Statistik 2             24.06.2008                                      Folie 14   Dr. A. Jain: Vorlesung Statistik 2             24.06.2008                                         Folie 15




                               Nonparametrische Tests                                                                                  Auswahl eines geeigneten
                                                                                                                                      inferenzstatistischen Tests
       Kommen dann zum Einsatz, wenn die abhängige Variable
                                                                                                                Parametrische Tests: Daten sind intervallskaliert; weitere Voraus-
       nicht (mindestens) intervallskaliert ist oder wenn die                                                   setzungen je nach Test: Normalverteilung, Varianzhomogenität …
       Voraussetzungen der parametrischen Tests nicht erfüllt sind                                                                                                                                         Skalenniveau

       Synonyme: Nonparametrisch, verteilungsfrei
                                                                                                                                                                            Intervall

       Drei Aspekte:
                                                                                                                                    eine Stichprobe                     zwei Stichproben           k>2
             •     Skalenniveau
             •     mathematisch-statistische Voraussetzungen:                                                                          σ bekannt?                              abhängige         abhängige
                   Verteilungsannahmen, Varianzhomogenität                                                                                                                    Stichproben?      Stichproben?

             •     Robustheit: Konsequenzen bei Vorliegen von
                                                                                                                           t-Test                     z-Test                 t-Test            Varianzanalyse
                   Voraussetzungsverletzungen                                                                                                                         unabh. Stichproben     ohne Messwdh.        Wilcox
                                                                                                                                                                         abh. Stichproben          mit Messwdh.
      Dr. A. Jain: Vorlesung Statistik 2             24.06.2008                                      Folie 17   Dr. A. Jain: Vorlesung Statistik 2             24.06.2008                                         Folie 18




                             Auswahl eines geeigneten                                                                                    Nonparametrische Tests
                            inferenzstatistischen Tests
                                                                                                                 Intervalldaten:
          Nonparametrische Tests: Daten nicht intervallskaliert bzw. nicht
          normalverteilt etc.                                                                                         Randomisierungstests, Tests für Ordinaldaten
      alenniveau
                                                                                                                 Ordinaldaten:
                                                    Ordinal                                Nominal               • unabhängige Stichproben:                                 U-Test, Rangvarianzanalyse
                                                                                                                   (Kruskal-Wallis Test)
                            zwei Stichproben                            k>2                                      • abhängige Stichproben: Wilcoxon Vorzeichenrangtest,
                                                                                                                   Friedmans Rangvarianzanalyse
                       abhängige Stichproben?
                                                                                                                 Nominaldaten/ Analyse von Häufigkeiten:
                  U-Test                      Wilcoxons           Rangvarianzanalyse   Chi-Quadrat Tests
             Wilcoxons Rang-               Vorzeichenrang-                              Binomialtest,            Binomialtest, Multinomialtest
                 ( Wilcoxons
               summentest
              Rangsummentest)                    test                                  Multinomialtest
                                                                                                                 Chi-Quadrat-Tests
      Dr. A. Jain: Vorlesung Statistik 2             24.06.2008                                      Folie 19   Dr. A. Jain: Vorlesung Statistik 2             24.06.2008                                         Folie 20




Dr. A. Jain; Vorlesung Statistik 2; SS 2008                                                                                      24.06.2008                                                                                  Seite 3
10. Stunde: Interaktionen; VA mit Messwiederholung




                              Analyse von Häufigkeiten                                                                                Binomial- und Multinomialtest

       • Für die inferenzstatistische Auswertung von nominal-                                                        • Diese Tests berechnen exakte Wahrscheinlichkeiten für
         skalierten Variablen werden Häufigkeiten analysiert.                                                          das Auftreten bestimmter Ereignisse:

       • Diese Häufigkeitstabellen können exakt mit Binomial-                                                        • z.B. wie wahrscheinlich ist es, bei 10 Münzwürfen 8 mal
         oder Multinomialtest und näherungsweise mit Chi-                                                              Zahl zu werfen

         Quadrat-Tests ausgewertet werden.                                                                           • Wahrscheinlichkeitsberechnung erfolgt mithilfe der
                                                                                                                       Wahrscheinlichkeitstheoreme und der Kombinatorik
       • Liegen ordinal- oder intervallskalierte Variablen in
         Kategorien vor, können diese ebenfalls mit diesen                                                           • Binomialtest: dichotomes Ereignis
         Verfahren ausgewertet werden.                                                                               • Multinomialtest (=Polynomialtest): mehr als 2 Abstufungen

      Dr. A. Jain: Vorlesung Statistik 2             24.06.2008                                           Folie 21   Dr. A. Jain: Vorlesung Statistik 2            24.06.2008                                   Folie 22




      Die Chi-Quadrat-Verteilung                                                                                                            Analyse von Häufigkeiten:
                                                                                                                                             Chi-Quadrat-Tests (χ2)
      • Die χ2-Verteilung ist eine Familie
        von mehreren Verteilungen, die                                                                                Die verschiedenen Chi-Quadrat-Verfahren unterscheiden sich
        sich durch die Anzahl der Frei-                                                                               wiederum danach
        heitsgrade (df) unterscheiden.                                                                                    • Wieviele Variablen betrachtet werden (eine, zwei, mehr als zwei)
      • Die     χ2-Größe
                      ist die Quadrat-                                                                                    • Wieviele Abstufungen die Variablen haben (zwei, mehr als zwei)
        summe mehrerer Zufallsvariablen,                                                                                  • Ob es sich um abhängige oder unabhängige Daten handelt.
        die standardnormalverteilt sind                                                                               Gemeinsames Prinzip der Berechnung aller Chi-Quadrat-Tests
        (also von normalverteilten z-Werten).                                                                         ist, dass die empirisch gefundenen Häufigkeiten mit den unter der
        Die Anzahl der quadrierten und summierten z-Werte entspricht                                                  H0 erwarteten Häufigkeiten verglichen werden:
        der Anzahl der Freiheitsgrade.
                                                                                                                                                  (f b - f e ) 2
        Beispiel: χ2-Verteilung mit df = 3   2     2      2       2
                                                                     χ =z +z +z                                               χ2 = ∑                                            fb = beobachtete Häufigkeiten
        ergibt sich nach:                    3    1       2       3                                                                                    fe                       fe = erwartete Häufigkeiten
      Dr. A. Jain: Vorlesung Statistik 2             24.06.2008                                           Folie 23   Dr. A. Jain: Vorlesung Statistik 2            24.06.2008                                   Folie 24




                                                                                                    (f b - f e ) 2
      Eindimensionaler χ2-Test                                                            χ2 = ∑                                              Eindimensionaler χ2-Test
                                                                                                         fe
       • Vergleicht die beobachteten Häufigkeiten eines k-fach gestuften                                                    χ2 = 7,74 (empirischer Wert)
         Merkmals mit den erwarteten Häufigkeiten
                                                                                                                            Freiheitsgrade: Anzahl Kategorien minus 1 (df = k – 1 )
       • Beispiel: Wir wollen überprüfen, ob sich die relativen
         Verkaufszahlen von vier Produkten in einem Kölner Warenhaus                                                        χ2krit für df = 3; α = 5% (abzulesen bei 95%) = 7,81
         von den Anteilen dieser vier Produkte in allen anderen
         Warenhäusern dieser Kette in Deutschland unterscheidet.                                                            Prüfgröße < χ2krit
       Produkt                  Köln            D           p(D)         fe = (p * n)   (fb – fe)2 / fe                     H0 wird beibehalten, die Produkte in Köln verteilen sich nicht
                 A                         70       560           0,22          88      (70 – 88)2 / 88                     signifikant anders als im deutschen Durchschnitt
                 B                     120          680           0,26        104       (120 – 104)2 / 104
                 C                     110          640           0,25        100       (110 – 100)2 / 100
                                       100          700           0,27        108
                D                                                                       (100 – 108)2 / 108
                 Σ                     400      2580                1         400           χ2 = 7,74
      Dr. A. Jain: Vorlesung Statistik 2             24.06.2008                                           Folie 25   Dr. A. Jain: Vorlesung Statistik 2            24.06.2008                                   Folie 26




Dr. A. Jain; Vorlesung Statistik 2; SS 2008                                                                                           24.06.2008                                                                           Seite 4
10. Stunde: Interaktionen; VA mit Messwiederholung




                                                                                                                           Eindimensionaler χ2-Test:
                      Besonderheiten der Chi2-Tests
                                                                                                                               Anpassungstest
      • Alle Chi2-Tests mit mehr als einem Freiheitsgrad testen nur                                 Mithilfe dieses Tests lässt sich auch überprüfen, ob ein Merkmal
        zweiseitig.                                                                                 einer bestimmten Verteilung folgt (z. B. Gleichverteilung,
      • Die Verteilung ist nicht symmetrisch. Es ist immer der Wert auf                             Normalverteilung)
        der „ rechten Seite“ der Verteilung abzulesen, also für 1 – α (z.                           Beispiel: Es soll untersucht werden, ob sich Krankmeldungen an
        B. 0,95).                                                                                   bestimmten Wochentagen häufen. Dazu werden die Krank-
      • Die Chi2-Tabellen (z.B. Bortz) listen in der Regel die Werte für                            meldungen eines bestimmten                    Krankmeldungen (fb)
        den zweiseitigen Test auf. Testet man mit df = 1 einseitig, so ist                          Gebietes in einem bestimmten Dienstag         70
        der Wert für 1 – 2α abzulesen (z. B. 0,90).                                                 Zeitraum für die Wochentage       Mittwoch    120
                                                                                                    Dienstag bis Freitag verglichen. Donnerstag 110
                                                                                                    Es zeigt sich folgendes
                                                                                                                                      Freitag     100
                                                                                                    Ergebnis:
      Dr. A. Jain: Vorlesung Statistik 2       24.06.2008                               Folie 27   Dr. A. Jain: Vorlesung Statistik 2   24.06.2008   Σ              400            Folie 28




            Eindimensionaler χ2-Test: Anpassungstest                                                           Eindimensionaler χ2-Test: Anpassungstest,
                                                                                                                        „Goodness of fit test“
                                 Krankmel-     Erwartete
                                 dungen (fb)   Anzahl (fe)     (fb – fe)2 / fe
                                                                                                   • Mithilfe dieses Tests lässt sich auch überprüfen, ob ein Merkmal
        Dienstag                 70                100         (70 – 100)2 / 100                     einer bestimmten Verteilung folgt (z. B. Gleichverteilung,
        Mittwoch                 120               100         (120 – 100)2 / 100                    Normalverteilung)
        Donnerstag               110               100         (110 – 100)2 / 100
                                                                                                   • Möchte man überprüfen, ob ein bestimmtes, intervallskaliertes
        Freitag                  100               100         (100 – 100)2 / 100
                                                                                                     Merkmal in der Stichprobe normalverteilt ist, geht man nach dem
        Σ                        400               400          14
                                                                                                     selben Prinzip vor.
             χ2emp,df=3 = 14 (empirischer Wert)
                                                                                                                     Man teilt die Werte in Intervalle ein und ermittelt,
                                                                                                   Klausurstoff!




             χ2krit für df = 3, 95% = 7,81                                                                         wieviele Werte in jedes Intervall fallen müssten, wenn
                                                                                                                   Normalverteilung vorliegt.
             χ2emp,> χ2krit
                                                                                                                   Dies geschieht, indem man die Kategoriengrenzen in z-
                                                                                                   kein




             H0 wird abgelehnt, die Krankmeldungen verteilen sich nicht                                            Werte transformiert und dann die zugehörigen Wahr-
             gleichmäßig über die vier Wochentage                                                                  scheinlichkeiten und daraus die Häufigkeiten berechnet.
      Dr. A. Jain: Vorlesung Statistik 2       24.06.2008                               Folie 29   Dr. A. Jain: Vorlesung Statistik 2   24.06.2008                                 Folie 30




                        Zweidimensionale Chi2-Tests                                                                  Zweidimensionale Chi2-Tests
       • Wir betrachten zwei kategoriale Merkmale (z.B. Studienfach und                             • Wir betrachten zwei kategoriale Merkmale (z.B. Studienfach
         sozialer Status)                                                                             und sozialer Status)
       • Die Häufigkeiten in den Kombinationen dieser beiden Merkmale                               • Die Häufigkeiten in den Kombinationen dieser beiden Merkmale
         werden in einer Kontingenztafel dargestellt.
                                                                                                      werden in einer Kontingenztafel dargestellt.
       • Einfachster Fall:
                                                               Männer       Frauen                  • ganz allgemein:
         2 x 2 Kontingenztafel                                                                                                                            Medizin     Jura   BWL   Phil
                                                 mit Brille                                           k * m Kontingenztafel
                                                                                                                                          Unterschicht
                                                ohne Brille
                                                                                                                                          Mittelschicht
       • allgemeiner:                                          Medizin    Jura   BWL   Phil
                                                                                                                                          Oberschicht
         k x 2 Kontingenztafel
                                               Unterschicht
                                               Mittelschicht
                                                                                                    • Es gibt auch Methoden für die simultane Analyse von mehr als
                                                                                                      zwei Merkmalen (Mehrdimensionale Chi2-Tests)

      Dr. A. Jain: Vorlesung Statistik 2       24.06.2008                               Folie 31   Dr. A. Jain: Vorlesung Statistik 2   24.06.2008                                 Folie 32




Dr. A. Jain; Vorlesung Statistik 2; SS 2008                                                                         24.06.2008                                                                Seite 5
10. Stunde: Interaktionen; VA mit Messwiederholung




                                   Vierfelder Chi-Quadrat                                                                                  Vierfelder Chi-Quadrat
       2 dichotome Merkmale                                                                                    Die Daten lassen sich in Form eines 4-Felder Schemas anordnen, in das die
                                                                                                               jeweiligen Häufigkeiten eingetragen werden:
       Fragestellung: Gibt es einen Zusammenhang zwischen den
                                                                                                                                      (f b - f e ) 2                          Männer   Frauen
                                                                                                                χ2 = ∑
       beiden Merkmalen bzw.
       gibt es einen Unterschied zwischen den Personen, die im einen                                                                                                 mit      25       10
                                                                                                                                                                                                   35
       Merkmal Ausprägung A vs B haben hinsichtlich des anderen
                                                                                                                                           fe                        Brille   17,5     17,5

                                                                                                                                                                     ohne     25       40
       Merkmals?                                                                                                                                                                                   65
                                                                                                                   erwartete Häufigkeiten:                           Brille   32,5     32,5
       Beispiel: Männer – Frauen / mit Brille – ohne Brille                                                        Zeilensumme * Spaltensumme /n
                                                                                                                                                                              50       50         100
       Die Daten lassen sich in Form                                       Männer        Frauen
       eines 4-Felder Schemas an-                                                                                     ( 25 − 50 * 35 / 100) (10 − 50 * 35 / 100) ( 25 − 50 * 65 / 100)
                                                                                                                                                   2                     2                    2
                                                              mit Brille        25            10                χ2 =                       +                    +                      + ...
       ordnen, in das die jeweiligen                                                                                       50 * 35 / 100        50 * 35 / 100         50 * 65 / 100
       Häufigkeiten eingetragen                              ohne Brille        25            40               Für jede Zelle wird also die Differenz von beobachteter und erwarteter
                                                                                                               Häufigkeit berechnet und quadriert und an der erwarteten Häufigkeit
       werden:
                                                                                                               relativiert. Diese Differenzen werden über alle Zellen aufsummiert.
      Dr. A. Jain: Vorlesung Statistik 2        24.06.2008                                         Folie 33   Dr. A. Jain: Vorlesung Statistik 2       24.06.2008                                 Folie 34




                                   Vierfelder Chi-Quadrat                                                                                  Vierfelder Chi-Quadrat
                   ( 25 − 50 * 35 / 100)   (10 − 50 * 35 / 100)
                                           2
                                                                  ( 25 − 50 * 65 / 100)
                                                                    2                          2
                                                                                                               •     Ergebnis im Beispiel:
       χ2 =                              +                      +                       + ...
                        50 * 35 / 100          50 * 35 / 100           50 * 65 / 100
                                                                                                               •     Prüfgröße: χ2 = 9,89
                                                                           Männer        Frauen                •     Da bei gegebenen Randsummen nur noch der Wert in einer
       Die Gleichung kann man
       zum schnelleren Berechnen                                 mit       25            10          35              der 4 Zellen frei variieren kann, hat der Vierfelder-Chi-
                                                                                 a             b
                                                                 Brille                                              Quadrat-Test nur einen Freiheitsgrad
       umformen zu:
                                                                 ohne      25            40          65        •     kritischer Wert (1 df, 95%) = 3,84
                                   n(ad − bc)2                  Brille
                                                                                     c         d
      χ   2
          df =1   =                                                                                            Prüfgröße > kritischer Wert:                     Das Ergebnis ist signifikant
                    ( a + b ) * ( c + d ) * (a + c) * ( b + d )            50            50
                                                                                                                    Männer und Frauen unterscheiden sich hinsichtlich des
                                                                                                                    Merkmals „Brillenträger“
       Da bei gegebenen Randsummen nur noch der Wert in einer der 4                                                 Es gibt einen signifikanten Zusammenhang zwischen dem
       Zellen frei variieren kann, hat der Vierfelder-Chi-Quadrat-Test nur                                          Merkmal „Brillenträger“ und dem Geschlecht
       einen Freiheitsgrad.
      Dr. A. Jain: Vorlesung Statistik 2        24.06.2008                                         Folie 36   Dr. A. Jain: Vorlesung Statistik 2       24.06.2008                                 Folie 37




                     Voraussetzungen der Chi2-Tests                                                                           Besonderheiten der Chi2-Tests

      • Jedes Objekt kann eindeutig einer Kategorie (pro                                                      • Alle Chi2-Tests mit mehr als einem Freiheitsgrad
        Merkmal) zugeordnet werden (evtl. Restkategorie                                                         testen nur zweiseitig
        bilden)
                                                                                                              • Die Verteilung ist nicht symmetrisch. Es ist immer der
      • Die erwarteten Häufigkeiten sind nicht zu klein; beim                                                   Wert auf der „ rechten Seite“ der Verteilung abzulesen,
        Test über ein dichotomes Merkmal sollten die                                                            also für 1 – α (z. B. 0,95).
        erwarteten Häufigkeiten ≥ 10, in den anderen Fällen >
                                                                                                              • Die Chi2-Tabellen (z.B. Bortz) listen in der Regel die
        5 sein.
                                                                                                                Werte für den zweiseitigen Test auf. Testet man mit df
            (Andernfalls sind die exakten Tests wie Binomialtest                                                = 1 einseitig, so ist der Wert für 1 – 2α abzulesen (z.
            oder Multinomialtest zu verwenden).                                                                 B. 0,90)
      Dr. A. Jain: Vorlesung Statistik 2        24.06.2008                                         Folie 38   Dr. A. Jain: Vorlesung Statistik 2       24.06.2008                                 Folie 39




Dr. A. Jain; Vorlesung Statistik 2; SS 2008                                                                                    24.06.2008                                                                    Seite 6
10. Stunde: Interaktionen; VA mit Messwiederholung




                             andere Chi-Quadrat-Tests                                   Chi-Quadrat und Korrelation

      • alle Chi-Quadrat-Tests folgen dem gleichen Prinzip,          • Im Falle des Vierfelder-Chi-Quadrat kann der
        nämlich dem Vergleich von beobachteten und                     berechnete Chi-Quadrat Wert einfach in eine
        erwarteten Häufigkeiten, die für alle „Zellen“                 Korrelation umgerechnet werden (Maß der Stärke des
        aufsummiert werden.                                            Zusammenhanges zwischen den beiden Merkmalen)

      • So können in unterschiedlichen Fragestellungen               • Phi- Koeffizient =                          χ2
                                                                                                          φ=
        beobachtete mit erwarteten Häufigkeiten verglichen                                                         N
        werden.
                                                                     • Dieser ist im üblichen Sinne eines Korrelations-
      • hier nicht besprochen: χ2-Tests für abhängige                  koeffizienten zu interpretieren
        Stichproben
      Dr. A. Jain: Vorlesung Statistik 2   24.06.2008     Folie 40   Dr. A. Jain: Vorlesung Statistik 2   24.06.2008      Folie 41




Dr. A. Jain; Vorlesung Statistik 2; SS 2008                                           24.06.2008                                     Seite 7