Docstoc
EXCLUSIVE OFFER FOR DOCSTOC USERS
Try the all-new QuickBooks Online for FREE.  No credit card required.

Folie Leuphana Universitt Lneburg ffb

Document Sample
Folie Leuphana Universitt Lneburg ffb Powered By Docstoc
					  FFB                                               Statistik mit SPSS




                    Statistik mit SPSS
                                      Kurs im Sommersemester 2009

                                 Dipl.-Volkswirt Paul Böhm
                                Dipl.-Kaufmann Tim Rathjen

                                       Forschungsinstitut Freie Berufe
                                       Leuphana Universität Lüneburg



P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


  Organisatorisches (I)
   Termine:
     Freitag          10:00 – 12:00                   C 12.108 (Theorie)

                      12:00 – 13:00                           Pause

                      13:00 – 19:00                7.111 und 7.114 (Praxis)

    Samstag           10:00 – 12:00                   C 12.108 (Theorie)

                      12:00 – 13:00                           Pause

                      13:00 – 16:00                7.111 und 7.114 (Praxis)


   Literatur:
   - Skript
   - Backhaus, u.a.: „Multivariate Analysemethoden“

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS



     Organisatorisches (II)
           Prüfungsleistung Diplomstudiengänge:
              • 4 CP (Wahlpflichtfach EWF oder Freier Bereich)
              • Hausarbeit:     -     Aufgaben (ohne Zusatzaufgabe)
                                -     1-2 Personen
                                -     Umfang: ca. 20 Seiten
                                -     Download der Daten für Hausarbeit:
                                      ab 1. Juli 2009: ffb.uni-lueneburg.de
                                -     Abgabetermin: 15. September 2009

           Prüfungsleistung Komplementärstudium
              • 5 CP
              • Hausarbeit:            -       Aufgaben (mit Zusatzaufgabe)
                                       -       1-2 Personen
                                       -       Umfang: ca. 25 Seiten
                                       -       Download der Daten für Hausarbeit:
                                               ab 1. Juli 2009: ffb.uni-lueneburg.de
                                       -       Abgabetermin: 15. September 2009

           Alternativ: Teilnahmeschein (+ PCP)
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


  Übersicht


             1. Arten von Merkmalen
             2. Deskriptive Statistik
             3. Induktive Statistik                                      Tag 1
             4. Korrelation
             5. Regression
             → Kurzeinführung in SPSS

             6. Logistische Regression
             7. Faktorenanalyse                                          Tag 2
             8. Clusteranalyse


P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


  1.         Arten von Merkmalen – Skalenniveaus



    Nominalskala                         Unterscheidung                  Geschlecht,
                                         möglich                         Staatsangehörigkeit, …

    Ordinalskala                         + Reihenfolge                   Schulnoten,
                                                                         Güteklassen, …
    Metrische Skalen                     + konstanter                    Größenangaben, Geld,
                                           Wertabstand                   Stückzahlen, Alter,…




P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


  1.         Arten von Merkmalen – Skalenniveaus

   Entscheidungsbaum

                  Lassen sich die Merkmalsausprägungen
                   in eine sinnvolle Reihenfolge bringen?
                                        nein                 ja

          Nominalskala                          Sind die Abstände quantifizierbar?
         (Z.B. Geschlecht)
                                                                  nein   ja

                                         Ordinalskala                     Metrische Skalen
                                      (Z.B. Güteklassen)                      (Z.B. Einkommen)



P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


  2.         Deskriptive Statistik

   Ziel:                            Verdichtung von Informationen

   Methoden:                        -      Darstellung von Häufigkeiten (HK)
                                           → von einem Merkmal
                                           → von zwei Merkmalen
                                    -      Lage- und Streuungsparameter




P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS



      HK-Verteilung: Darstellung eines Merkmals

            • Absolute Häufigkeit ni einer Merkmalsausprägung
            • Relative Häufigkeit hi einer Merkmalsausprägung
                    Merkmal Geschlecht                              ni   hi
                    männlich                                      300    0,3
                    weiblich                                      700    0,7

            • Grafen: Balken- und Säulendiagramme, Kreisdiagramme,
              Histogramme, Boxplots, …




P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS



      HK-Verteilung: Darstellung zweier Merkmale

            • Kreuztabellen

                                                 Stadt                   Land
                   männlich                      h11=20%                 h12=25%
                   weiblich                      h21=25%                 h22=30%

            • Grafen: Zweidimensionale Balkendiagramme, …




P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS



      Lage- und Streuungsparameter

                             “Aussehen” de s Da tenfelde s
                                      . pa
                                   z.B S nnwe ite


            1000             2000              3000
                                                 3000              4000
                                                                     4000    inkom m en [E uro]
                                                                             E
                                                                            E inkommen [E uro]

                        a
                       L ge des Da te nfeldes
                             .
                          z.B Mittelwert


   Lageparameter: Geben die Position des Datenfeldes wieder.

   Streuungsparameter: Geben die ‚Form‘ des Datenfeldes (in Bezug
      auf einen Lageparameter) wieder.

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS




   • Lageparameter: Position des Datenfeldes
        Bsp.: - Arithmetisches Mittel
              - Median
              - Modus
              - Quantile (Quartile/Dezile/Perzentile)


   • Streuungsparameter: ‚Form‘ des Datenfeldes
        Bsp.: - Spannweite
              - Varianz (mittlere quadratische Abweichung vom arithm. Mittel)
              - Standardabweichung




P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


  3.         Induktive Statistik

    Ziel:        Schließen von Kennzahlen einer (zufällig gezogenen)
                 Stichprobe auf unbekannte Parameter der Grundgesamtheit

    Methoden:                  1.           Punktschätzung
                               2.           Intervallschätzung
                               3.           Statistische Tests

    Beispiel: Wahlprognose
             (Stichprobe: n = 1000;Grundgesamtheit: N = 50 Mio.)




P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS



      Intervall- und Punktschätzung

     Beispiel: Wahlprognose
           • Stichprobe: n = 1000
           • Grundgesamtheit: N = 50 Mio.

                                                  Punkt-                     IV          IV
          Partei         Stichprobe
                                                schätzung                  (95%)       (99%)
           CDU                 36,0                   36,0               33,0 39,0 32,1 39,9
           SPD                 28,0                   28,0               25,2 30,8 24,3 31,7
            FDP                10,0                   10,0               8,1   11,9   7,6   12,4
          Grüne                10,0                   10,0               8,1   11,9   7,6   12,4
           Linke               12,0                   12,0               10,0 14,0    9,4   14,6

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS



      Statistische Tests
    Theorie: Aufbau eines Tests in fünf Schritten
    1. Formulierung der zu überprüfenden Hypothesen (H0 und HA)
            → überprüfbare Hypothese ist HA
            → Gleichheitszeichen in H0
    2. Festlegen der zulässigen Fehlerwahrscheinlichkeit des
            späteren Testergebnisses (α = 0,05; 0,01; …)
    3. Berechnung einer Prüfgröße (Teststatistik), die sich aus der
            Stichprobe ermitteln lässt
    4. Bestimmung eines kritischen Wertes, dessen Unter- oder
            Überschreiten zur Ablehnung der Nullhypothese führt
    5. Vergleich von Prüfgröße und kritischem Wert und
            Entscheidung
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS



   Beispiele für Hypothesen:

   • Erreicht Schwarz-Gelb die absolute Mehrheit? (Rechtsseitig)
          H0: pSchwarz/Gelb ≤ 0,50
                HA: pSchwarz/Gelb > 0,50

   • Fällt die SPD unter die 25%-Grenze? (Linksseitig)
          H0: pSPD ≥ 0,25
                HA: pSPD < 0,25

   • Ist die Differenz zwischen Grünen und Linken signifikant?
     (Zweiseitig)
           H0: pGRÜNE = pLINKE
                H0: pGRÜNE ≠ pLINKE
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS



   Hypothesen und Fehlerarten:
        → Fehler 1. Art (α)
        → Fehler 2. Art (β)


                                                                         Entscheidung


       In Wirklichkeit gilt                  H0 ablehnen („HA“)                 H0 beibehalten („H0“)

                                               Fehler 1. Art (α)
             H0 ist richtig                                                         kein Fehler
                                                 P („HA“| H0)

             H0 ist falsch                         kein Fehler                    Fehler 2. Art (β)



P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


   Testen mit SPSS – einfaches Beispiel (konstruiert):

     Beispiel: Ist die mittlere Temperatur im Januar von Null
                      verschieden?

     1. H0: μ=0                              HA: μ≠0 (zweiseitiger Test)
     2. Fehlerwahrscheinlichkeit α=0,05. D.h. uns soll der Fehler erster Art
                   mit einer Wahrscheinlichkeit von höchstens 5%
       unterlaufen                       X  0    X 0                S
                                   T                        X 
                                                              
     3. Berechnung der Prüfgröße:       Var  X   X , mit
                                          ˆ         ˆ                 n 1

     4. Bestimmung des kritischen Wertes aus der (theoretischen) t-
            Verteilung
                                      tbeob  tkrit
     5. Vergleich der Prüfgröße mit dem kritischen Wert:
            H0 wird abgelehnt wenn:

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS



    Testentscheidung

                                                                             H0:    μ=0
                                                                             H A:   μ≠0



                                                                  σ
                           α/2                                               α/2
                                                                  tkrit


                                                         μ0=0
                   H0 ablehnen                                            H0 ablehnen
                                                   H0 annehmen



P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS



   Anmerkungen zu Tests mit SPSS:


         • SPSS berechnet für Tests einen Sig.-Wert (= P-Value). Dieser
           gibt den exakten Fehler an, den man begeht, wenn man H0
           ablehnen würde.
             → Ist Sig. kleiner als das vorgegebene Signifikanzniveau α,
               dann wird H0 abgelehnt. Häufig:
                      Sig. < 0,05: „ HA“
                      Sig. > 0,05: „ H0“


         • SPSS berechnet während einiger Testprozeduren auch
           Konfidenzintervalle. Über diese können dann auch
           Testentscheidungen getroffen werden.


P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS



     Beispieloutput von SPSS:

     Einstichprobentest mit                                H 0: μ = 0

                               Statis tik bei eine r Stichprobe

                                                                                Standardf e
                                                              Standardab          hler des
                                  N          Mittelw ert       w eichung        Mittelw ertes
          Temperatur                  100       1,0500            2,90115             ,29011


                                              Tes t be i e ine r Sichprobe

                                                                Testw ert = 0
                                                                                        95% Konf idenzintervall
                                                                           Mittlere          der Dif f erenz
                               T              df        Sig. (2-seitig)   Dif f erenz     Untere         Obere
         Temperatur            3,619               99            ,000      1,05000          ,4743         1,6257



P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS



   Mögliche Tests mit SPSS:
    Mit SPSS besteht die Möglichkeit, aus einer großen Anzahl von
        Tests auszuwählen. Beispiele:

    1.      Einstichprobentest
            - Test auf den Erwartungswert μ
            - Test auf einen Anteilswert p
            - (...)
    2.      Zweistichprobentests – Test auf Differenz ...
            - zweier Erwartungswerte μ
            - zweier Anteilswerte p
            - (...)
    3.      weitere Tests
            - Tests bei Regressionsanalyse (F-Test, t-Test, …)
            - Verteilungs- und Unabhängigkeitstests (Chi²-Tests, …)
            - (...)
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


  4.         Korrelation
    Liegt ein Zusammenhang von zwei Merkmalen vor?

    Interdependenzanalyse (keine kausale Richtung der Abhängigkeit)

    Arten:
         Kontingenzkoef.  Mindestens ein Merkmal nominal skaliert
                           Normierung: 0 ≤ KK ≤ 1 (Stärke)

             Spearman                        Beide Merkmale mindestens ordinal skaliert
                                              Normierung: -1 (Absolut gegenläufig)
                                                           0 (Kein Zusammenhang)
                                                          +1 (Absolut gleichläufig)
                                                          (Stärke und Richtung)

             Pearson                         Beide Merkmale metrisch skaliert
                                              Normier. und Interpr. wie bei Spearman
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


             Korrelation - Kontingenzkoeffizient
             (In SPSS: Analysieren, Deskript. Stat., Kreuztabellen, Statistik)

        Gibt es einen Zusammenhang von Berufswahl und Geschlecht?
        Geschlecht und Tätigkeit sind nominalskaliert

        → Analyse mit dem Kontingenzkoeffizienten
                                    Ges chl e cht * Art der Täti gk ei t Kreu ztabel l e

                                                                           Art der T ät igkeit
                                                                Büro         Bewachun g Man agemen t       Gesamt
         Geschlech t    Män nlich     Anzahl                       15 7            27           74             25 8
                                      Erwart et e Anzahl          19 7,6            14 ,7          45 ,7     54,4 %
                                                                                                             25 8,0
                        W eiblich     Anzahl                        20 6                0            10        21 6
                                      Erwart et e Anzahl          16 5,4            12 ,3          38 ,3     21 %
                                                                                                            45,66,0

         Gesamt                       Anzahl                        36 3              27             84        47 4
                                      Erwart et e Anzahl         76,6 %
                                                                  36 3,0           5,7 %
                                                                                    27 ,0        17,7 ,0
                                                                                                 76,6 %
                                                                                                   84        47 %
                                                                                                            100 4,0


P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


             Korrelation - Kontingenzkoeffizient
                                           S ymm etri sch e Ma ße

                                                                                   Näherungsweise
                                                                         W ert       Signifikan z
         Nominal- bzgl. No min alm aßKon t in genzk oeffizient              ,379              ,000
         Anzahl der gült igen Fälle                                         47 4


     Ist der Zusammenhang signifikant? (α =0,05)
     Hypothesen:
                   H 0: ρ = 0
                   HA: ρ > 0

     Testentscheidung über Signifikanzwert:
                    0,05 = α > Sig. = 0,000

     → H0 kann abgelehnt werden → signifikanter Zusammenhang
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                                          Statistik mit SPSS


             Korrelation – Spearman

    Gibt es einen Zusammenhang von polit. Einstellung und Schulbildung?
                                                            Höchste r Sch u la bsch l u ß

                                                                                               Gült ige     Kumuliert e
                                                           Häufigkeit           P rozen t     P rozen t e    P rozen t e
                           Gült ig   Haup tschule (Quali.)       61 3                64 ,3         64 ,3           64 ,3
                                     Mit t lere Reife                   71             7,4           7,4           71 ,7
                                     Abit ur                           18 4          19 ,3          19 ,3          91 ,0
                                     Universit ät /FH                   86             9,0           9,0         10 0,0
                                     Gesamt                            95 4        10 0,0          10 0,0



                                                        po l i tis che S e lbtei n sch ätzu n g

                                                                                              Gült ige      Kumuliert e
                                                            Häufigkeit        P rozen t      P rozen t e    P rozen t e
                           Gült ig   sehr liberal                  21               2,2              2,2            2,2
                                     liberal                        13 4           14 ,0           14 ,0          16 ,2
                                     eh er liberal                  16 8           17 ,6           17 ,6          33 ,9
                                     gemäßigt                       42 3           44 ,3           44 ,3          78 ,2
                                     eh er k onserv at iv           20 8           21 ,8           21 ,8         10 0,0
                                     Gesamt                         95 4         10 0,0           10 0,0

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                                 Statistik mit SPSS


             Korrelation – Spearman
                                                        Korrel ati on e n

                                                                                        po lit ische
                                                                                       Selbt einsch      Höch st er
                                                                                         ät zun g      Sch ulabschluß
             Sp earman-Rho po lit ische Selbt einschät zun g Korrelat ionsk oeffizient       1,00 0             -,086
                                                              Sig. (2 -seit ig)                   .             ,008
                                                              N                                95 4              95 4



         Ist der Zusammenhang signifikant? (α =0,05)
         Hypothesen: H0: ρ = 0
                       HA: ρ ≠ 0

         Testentscheidung über Signifikanzwert:
                        0,05 = α > Sig. = 0,008

         → H0 kann abgelehnt werden → signifikant negativer Zusammenhang
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


             Korrelation – Bravais Pearson
           Korrelieren die Schuljahre mit dem Einkommen?
           → Schuljahre und Einkommen sind beide metrisch skaliert
           → Bravais Pearson Korrelationskoeffizient
                                                 Korrel ati on en

                                                                       Anzahl       Familieneink
                                                                                      Einkommen
                                                                     Sch uljah re   omm en 199 1
             Anzahl Schuljahre              Korrelat ion nach Pearson           1           ,437
                                            Signifikan z (2 -seit ig)                      ,000
                                            N                              14 96          14 30


          Ist der Zusammenhang signifikant? (α =0,05)
          Hypothesen:            H 0: ρ = 0
                                 HA: ρ ≠ 0
          Testentscheidung über Signifikanzwert: 0,05 = α > Sig. = 0,000
          → H0 kann abgelehnt werden → signifikant positiver Zusammenhang
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


  5.         Regression


     Dependenzanalyse (Richtung des Zusammenhangs bekannt)

     Abhängige Variable:                                                 Metrisch
     (=erklärte Variable; =endogene Variable)

     Unabhängige Variablen:                                              Metrisch
     (=erklärende Variable; =exogene Variable)



     Ordinale Variablen                       Umwandlung in Dummyvariablen (0/1) !!!
     Nominale Variablen                       Umwandlung in Dummyvariablen (0/1) !!!




P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


  Regression: Methode der kleinsten Quadrate




                           y
          abhängige Variable
              (Z.B. Konsum)




                                                                        x
                                                              unabhängige Variable
                                                               (Z.B. Einkommen)


P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


  Regression: Methode der kleinsten Quadrate




                           y
          abhängige Variable                                                e i2
              (Z.B. Konsum)



                                          ei




                                                                        x
                                                              unabhängige Variable
                                                               (Z.B. Einkommen)


P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


  Regression: Interpretation

            Schätzung des Modells:

            yi = β0 + β1x1i + β2x2i + …+ βKxKi + εi

            β0 entspricht Ordinatenabschnitt im x-y-Diagramm
            β1 entspricht der Steigung der Geraden im x-y-Diagramm


            Interpretation des Ausdrucks:
            Gesamterklärungsgüte: R², F-Test
            Koeffizienten: b, t-Tests




P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


  Nominal/Ordinalskalierte Merkmale in der Regression
   Umwandlung in Dummys: Beispiel Familienstand
   Es liegt das Merkmal „Familienstand“ mit folgenden Ausprägungen vor:
            1 = verheiratet; 2 = ledig; 3 = geschieden

   Erstellung von 3 Dummyvariablen (je Ausprägung eine Dummyvariable)
                                                   Ausprägung des jeweiligen Dummys für …
                                        Verheiratete                     Ledige     Geschiedene
      Dummy verheiratet.                       1                           0                0
              Dummy ledig                      0                           1                0
     Dummy geschieden                          0                           0                1


   Bei der Regressionsanalyse muss ein Dummy als Referenzkategorie
   ausgelassen werden.
   Interpretation der Koeffizienten der verbleibenden Dummys nur in Bezug
   auf die Referenzkategorie!!
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


  Regression – Beispiel SPSS Output

   Wagei = β0 + β1*Alteri + β2*Manni + β3*Realschulei+ β4*Abituri+ β5*UniFHi+εi

                                                                      a
                                                     Koe ffi z i en ten

                                       Nicht st andardisiert e       St an dardisiert e
                                          Koeffizient en             Koeffizient en
         Mo dell                         B        St an dardfehler         Bet a           T         Signifikan z
         1          (Kon st ant e)       6,49 9              ,600                         10 ,8 34          ,000
                    Alter                 ,109              ,013                   ,245    8,13 8          ,000
                    Geschlech t
                     Mann                2,72 5             ,327                   ,251    8,32 2          ,000
                    Realschule            ,717              ,604                   ,036    1,18 7          ,236
                    Abit ur              2,47 7             ,410                   ,187    6,04 4          ,000
                    UniFH                4,06 3             ,543                   ,232    7,47 5          ,000
            a. Abhängige Variable: Eink ommen des Befragt en


Wagei = 6,499 + 0,109*Alteri + 2,725*Manni + 0,717*Realschulei + 2,477*Abituri + 4,063*UniFHi + εi

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


  Regression – Beispiel SPSS Output
           Bestimmtheitsmaß/R²
           Wie viel der Varianz in der abhängigen Variable kann durch die
           Varianz der unabhängigen Variablen erklärt werden?

           R2 = 0,210
           21 Prozent der Varianz im Lohnsatz (Wage) der befragten Personen
           ist durch die Variablen Alter, Geschlecht und Schulabschluss
           erklärbar.
                                        Mo del l z usa mme nfa ssu ng

                                                               Korrigiert es   St an dardfehler
               Mo dell            R       R-Quadrat            R-Quadrat        des Sch ät zers
               1                   ,459 a     ,210                     ,206              4,83 9
                   a. Ein flußvariablen : (Ko nst ant e), UniFH, Alt er, Geschlech t ,
                      Realschule, Abit ur

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


  Regression – Beispiel SPSS Output
           F-Test
           Ist das geschätzte Modell insgesamt signifikant?
           H0: β1= β2= β3=… βk = 0
           (alle Koeffizienten β1 bis βk =0; gemeinsam nicht signifikant)
           HA: βk ≠ 0 (k=1,…, K)
                                                           ANO VA

                                                                           Mit t el der
          Mo dell                Quadrat summ e                df          Quadrat e       F         Signifikan z
          1           Regression     54 88 ,5 62                      5    10 97 ,7 12    46 ,8 71          ,000
                      Residuen           20 58 6,022                87 9      23 ,4 20
                      Gesamt             26 07 4,583                88 4

           Testentscheidung:     0,05 = α > Sig. = 0,000
            H0 kann abgelehnt werden  Modell insgesamt signifikant
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


  Ansichten in SPSS


     SPSS öffnet mehrere Fenster zur Erledigung
     verschiedener Aufgaben:

     • Hauptfenster
        Variablenansicht
        Datenansicht
     • Ausgabefenster
     • verschiedene Editorenfenster
     • Syntaxfenster für die Skriptsprache



P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


  Hauptfenster  Variablenansicht (Var. definieren)




                                                                         • Variablentyp
                                                                         • Variablenlabel
                                                                         • Wertelabel
                                                                         • Messniveau




P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


  Hauptfenster  Datenansicht




P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


  Ausgabefenster




P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


  Syntax Fenster




P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


  6.         Logistische Regression

   Bisher: lineare Regression
            → abhängige Variable ist metrisch

   Jetzt: Schätzung einer Gruppenzugehörigkeit
            → abhängige Variable ist kategorial

   Beispiele:
        • Produktkauf oder kein Produktkauf nach Marketingmaßnahme?
        • beschäftigt oder arbeitslos nach einer Ausbildung?
        • Person unterhalb der Armutsgrenze?
        • etc.

   → binäre (dichotome oder zweiwertige) abhängige Variablen
   → Binäre Logistische Regression


P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


  Binäre logistische Regression




                1


                 y
        abhängige
          Variable
(Z.B. Produktkauf)




                0
                                                                       x
                                                             unabhängige Variable
                                                              (Z.B. Einkommen)

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


  Logistische Regression

   Geschätzt wird die Wahrscheinlichkeit, dass ein Ereignis eintritt: P(Y=1|x)

   Nicht linearer Zusammenhang

      E(y| x )  F( x i β )                                   F  log istische oder
                                                                  Normalverteilungsfunktion
                          1
      P( Y  1| x ) 
                      1  e-xi'β
    Schätzung über Maximum Likelihood




P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


      Binäre logistische Regression
      Beispiel: ehrenamtliche Aktivität

      Beobachtet wird, ob eine Person ehrenamtlich aktiv ist oder nicht.
      Abhängige Variable: Dummy_Ehrenamt (1=ja; 0=nein)
      Die Wahrscheinlichkeit, ob eine Person ehrenamtlich aktiv ist wird mit
         Hilfe der binären logistischen Regression geschätzt. Als erklärende
         Größen wurden ausgewählt:
      -    Geschlecht
      -    Alter
      -    Erwerbstätigkeit
      -    Berufsgruppe



P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                                 Statistik mit SPSS


  Binäre logistische Regression: Beispiel Ehrenamt
       Marginale Effekte im Logit/Probit:
         E(y| x ) F( xiβ )
                              f( xiβ ) k → Abhängig vom Niveau aller x-Ausprägungen
           x k      x k
        Koeffizienteninterpretation:
        → marginaler Effekt ist abhängig vom Niveau aller x-Ausprägungen
        → nicht linearer Zusammenhang; nur Vorzeichen interpretierbar
        → positives Vorzeichen:
           mit steigendem x steigt die Wahrscheinlichkeit, dass Y=1
                                                 V ariablen in de r Gle ichung

                                       Regressions        Standardf
                                       koef f iz ientB      ehler        Wald     df       Sig.     Ex p(B)
        Schritt   nicht erw erbs tätig            -,325        ,033      98,012        1     ,000       ,723
        1         Frau                            -,087        ,027      10,134        1     ,001       ,917
                  A lter                           ,013        ,006       4,530        1     ,033      1,013
                  A lter2                          ,000        ,000       1,545        1     ,214      1,000
                  Selbständig                      ,269        ,069      15,167        1     ,000      1,308
                  Kons tante                      -,310        ,110       7,923        1     ,005       ,733

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                                      Statistik mit SPSS


  Binäre logistische Regression: Beispiel Ehrenamt
                       Mode llz us am m e nfas sung

                         -2
                                                                              „Bestimmtheitsmaße“
         Schritt
                        Log-
                     Likelihood
                                     Cox & Snell
                                     R-Quadrat
                                                       Nagelkerkes
                                                        R-Quadrat
                                                                               - Vergleich unterschiedlicher Modelle
         1            31374,732             ,009               ,012


               Om nibus-Te sts de r M ode llkoe ffiz ie nte n                 Omnibus Test:
                               Chi-Quadrat        df          Sig.            - wie F-Test in der linearen
         Schritt 1   Schritt       212,176             5        ,000
                     Bloc k        212,176             5        ,000
                                                                                Regression; testet den Gesamtansatz
                     Modell        212,176             5        ,000            auf Signifikanz
      Wie viele der Beobachtungen wurden vom Modell richtig zugeordnet?
                                             Klass ifiz ie rungstabe lle

                                                                                Vorhergesagt

                                                                           Ehrenamt           Prozentsatz
                     Beobac htet                                       0              1      der Ric htigen
         Schritt 1   Ehrenamt                0                         7722           4213              64,7
                                             1                         6418           4467              41,0
                     Ges amtproz entsatz                                                                53,4

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


  Übersicht Skalierung & Regressionsmodelle
        Regressand                              Regressoren              Modell
        Abhängige Variable                      Unabhängige Variablen


                                                metrisch                 lineare Regression
        metrisch
                                                dichotom                 OLS

        dichotom                                metrisch
                                                                         Logit / Probit
        Dummy (0/1)                             dichotom

                                                metrisch
        polytom                                                          Multinomiales Logit
                                                dichotom

                                                metrisch
                                                                         Ordered Logit/Probit
        ordinal                                 dichotom



P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


  7.         Faktorenanalyse
  Ziel:
  Dimensionsreduktion einer gegebenen Anzahl von Variablen
          →        Zusammenfassung vorhandener Variablen zu
                   wenigen nicht-beobachtbaren (latenten), i.d.R.
                   voneinander unabhängigen Faktoren.


              Var 1 Var 2 Var 3 Var 4 Var 5 Var 6 Var 7 Var 8



                        Faktor 1                            Faktor 2     Faktor 3



P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS



  Beispiel:

  • Schulnoten in vier Fächern: Gibt es Faktoren wie „sprachliche
    Begabung“ oder „mathematische Begabung“?
  • Hier: Deutsch, Englisch, Physik und Mathematik
  • Schritt 1: Korrelationsmatrix

                                  Deutsch                Englisch        Physik   Mathe
           Deutsch                   1,00
           Englisch                  0,58                   1,00
            Physik                   0,25                   0,30          1,00
            Mathe                    0,17                   0,25          0,74    1,00




P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


  Faktorenanalyse – Das Modell

   • Ansatz: zwei Variablen und ein Faktor f


                z1k:          Wert von Variable 1 (standardisiert: z  0 und s z  1
                                                                                   )
                fk:           Wert des Faktors
                a1 :          Faktorladung der ersten Variable
                              (= Maßzahl für den Zsh. zw. Faktor und Variable)
                k:            Beobachtung k

   • Generelle Schreibweise: P Variablen und M Faktoren



                                            Faktorwerte • Faktorladungen
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


   Zur Interpretation der Faktorladungen (aij):

        (1) Kommunalitäten:
                                  2
            Die Kommunalität ( h i ) der i-ten Variable gibt den Anteil der
            Varianz der (standardisierten) Variablen i (mit Varianz
            gleich eins) wieder, die durch alle Faktoren gemeinsam
            aufgeklärt wird.
                            M
                 h   a ij
                    2
                    i
                         2
                                                          ; 0  h i2  1
                           j1

        (2) Eigenwert eines Faktors:
            Der Eigenwert (  j )des j-ten Faktors gibt an, welcher Anteil
            der Gesamtvarianz aller (standardisierten) beobachteten
            Variablen durch diesen Faktor j aufgeklärt wird.
                            P
                  j   a ij
                           2
                                                          ; 0  j  P
                           i 1
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


  Faktorenanalyse – Generelle Vorgehensweise

   (1) Korrelationsmatrix berechnen
        • Sind die Variablen für Faktoranalyse geeignet? (r ≠ 0)
        • Gängigstes Maß: Kaiser-Meyer-Olkin-Kriterium
           → mindestens 0,5 – möglichst größer 0,8
   (2) Schätzung der Faktorladungen → Kommunalitäten/Eigenwerte
        • Bestimmung der Faktorenzahl
        • Gängigstes Kriterium: Kaiser-Kriterium
           → nur Faktoren mit Eigenwert größer 1
   (3) Rotation der Faktoren
              • VARIMAX-Methode (Ziel: möglichst eindeutige Faktorladungen)
   (4) Interpretation der Faktoren und Bestimmung der Faktorwerte


P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


  Faktorenanalyse – Beispiel
   → Wichtigkeitsfragen bei Autos (1 – 10)




P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


  (1) Korrelationsmatrix




        Kaiser-Meyer-Olkin-Kriterium = 0,824
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


  (2a)                    Eigenwerte

    → Wie viel der Gesamtvarianz wird durch die einzelnen Faktoren erklärt?




     Kaiser-Kriterium: Wahl von zwei Faktoren

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


  (2b)                    Kommunalitäten

    → Wie viel % der Varianz einer Variablen wird durch die Faktoren erklärt?




P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


  (3) Rotation der Faktoren




P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


  (4) Interpretation der Faktoren




P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                                Statistik mit SPSS


  8.         Clusteranalyse
  Ziel:
  •     Zusammenfassung von Objekten (Merkmalsträger) zu möglichst
        homogenen Untergruppen (Cluster)
  •       Die gefundenen Cluster sollen in sich homogen sein, wohingegen
          sich die Cluster im Vergleich miteinander unterscheiden sollen.

                                            Person             Var 1 (Alter)   Var 2 (Einkommen)
                                                 1                       (…)          (…)
        Cluster 1
                                                 2                       (…)          (…)
                                                 3                       (…)          (…)
        Cluster 2                                4                       (…)          (…)
                                                 5                       (…)          (…)


  • Anwendungsgebiete: Identifikation ähnlicher Kunden, Regionen, Wähler, …
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


  Clusteranalyse – Einführung
   Hierarchische agglomerative Clustermethoden:
   •   jedes Objekt bildet zunächst seinen eigenen Cluster
   •   sukzessives Zusammenfügen zu (temporären) Clustern
           → Ähnlichkeits- bzw. Distanzmaß
           → Fusionierungsalgorithmus
   •   schließlich fusionieren alle Objekte zu einem einzelnen Cluster.
   Beispiel:




P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


  Clusteranalyse – Distanzmaße
   Schritt 1:                  Bestimmung einer Distanzmatrix
   • Distanzmaße stehen für die (Un-)Ähnlichkeit von Objekten i und j
   • Je größer die Distanz, desto unähnlicher sind die beiden
     betrachteten Objekte
   • Distanzmaße (metrische Variablen):
      - Quadrierte Euklidische Distanz
                        d ij (QE )    x ik  x jk 
                                            K                     2

                                           k 1
          - Euklidische Distanz

                                          x             x jk 
                                            K                       2
                        dij ( E )                  ik
                                           k 1
   • Distanzmaße (nominalskalierte Variablen):
     → vgl. Backhaus et al.
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


   Beispiel:                       Person                  (Alter)
   (nur 1 Var.)                         1                     43
                                        2                     38
                                        3                      6
                                        4                     47
                                        5                     37
                                        6                      9

   Distanzmatrix auf Basis der euklidischen Distanz:
                      1
                     { , 2, 3, 4, 5, 6}

          1                                                          → Exemplarisch:
          2
                                                                     Distanz zwischen erster (i=1)
          3                                                          und zweiter (j=2) Person
          4
          5                                                              d12   (43  38)2  5
          6

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


  Clusteranalyse – Fusionierungsalgorithmen

   Schritt 2:                 Fusionierung der Objekte
   • Grundproblem:                         Nach welchem Kriterium werden die Objekte
                                           zusammengefasst?
   • Algorithmen:
     (1) Single Linkage (‚nächster Nachbar‘)
     (2) Complete Linkage (‚entferntester Nachbar‘) → s. Backhaus
     (3) Ward-Verfahren




P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS



   (1) Single Linkage (‚nächster Nachbar‘), Basis: Euklid. Distanz
                       { , 2, 3, 4, 5, 6}
                        1                                                        {{2,5},1,3, 4, 6}
            1
                                                                         {2,5}
            2
                                                                          1
            3
                                                                          3
            4
                                                                          4
            5
                                                                          6
            6

        • Fusionierung von Person 2 und Person 5
        • Nächster Nachbar:




P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS



         Dendogramm (Single Linkage)




P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


   Beispiel in SPSS:




P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


 (2) Ward-Verfahren (möglichst geringe Varianzerhöhung durch Fusion)
     Basis: Quadr. Euklid. Distanz
                   1      ,    ,
                  { , 2, 3 4, 5 6}
                                                                                 {{2,5},1, 3, 4, 6}
         1
         2                                                               {2,5}
         3                                                                1
         4                                                                3
         5                                                                4
         6                                                                6

        • Fusionierung von Person 2 und Person 5
        • Ward:




P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


   Beispiel in SPSS:




P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
  FFB                                               Statistik mit SPSS


   Vergleich Fusionierungsalgorithmen:

    (1) Single Linkage (‚nächster Nachbar‘)
        • Vereinigung von Objekten, die die kleinste Distanz aufweisen
        • es entstehen viel kleine und wenig große Cluster
        • Problem: Kettenbildung

    (2) Ward-Verfahren
        • es werden die Objekte zu Gruppen zusammengefasst, die die
            Varianz in einer Gruppe so wenig wie möglich erhöhen
        • bildet etwa gleich große Gruppen




P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

				
DOCUMENT INFO
Shared By:
Categories:
Tags:
Stats:
views:46
posted:3/22/2011
language:German
pages:69