Statistik II f�r Diplomsportwissenschaftler

Document Sample
Statistik II f�r Diplomsportwissenschaftler Powered By Docstoc
					        Statistik II
für Diplomsportwissenschaftler
             SS 2006
   Prof. Dr. Reinhard Blickhan
                             Literatur:
***A. Bühl, P. Zöfel (1996) SPSS für Windows 6.1.
 (1xBibliothek, Kochbuch)
***F. Brosius (1998) SPSS 8 Professionelle Statistik unter
Windows. (3xBibliothek, Kochbuch mit Erklärung)
A. Bryman, D. Cramer, (1997) Quantitative Dataanalysis
with SPSS for Windows.
M. R. Spiegel (1990) Statistik
(Ausführlich mit vielen Beispielen für einführende Fragen)
R. H. Shumway (1988) Applied Time Series Analysis
(mathematisch)
R.R. Sokal, F-J. Rohlf (1995) Biometry
(ausführliche internationale Bibel für Biowissenschaftler)
L. Sachs (1974) Angewandte Statistik
(alte deutsche Bibel für Biowissenschaftler)

http://www.psychologie.uni-freiburg.de/studium.lehre/skripten   /   2
Prof. Dr. R. Blickhan          Statistik II


        1. Arbeiten mit SPSS
        1.1 Dateneingabe

         SPSS aufrufen
         Variablennamen definieren
         •Muß mit Buchstaben beginnen
         •nicht länger als 64 Zeichen
                 (kurz und prägnant, ausführlich im Label)
         •Nicht erlaubt: Leerzeichen, Umlaute, !, ?, *
         •Groß- und Kleinschreibung wird nicht berücksichtigt.

         •Dialogbox: „Variablentyp definieren“


                                                                 4
Prof. Dr. R. Blickhan    Statistik II


        1. Arbeiten mit SPSS
        1.1 Dateneingabe

          Dialogbox: „Variablentyp definieren“ (siehe Hilfe)

          SPSS kennt folgende Variablentypen:
          •Numerisch
          •Komma
          •Punkt
          •wiss. Notation
          •Datum
          •Währung
          •String

                                                               5
Prof. Dr. R. Blickhan    Statistik II


        1. Arbeiten mit SPSS
        1.1 Dateneingabe

          Versuchen Sie ein Feld mit Variablen und eine dazugehörige
          Datei selbst zu erzeugen:
          Frage sex       alter partei

          W-001 1       22        1
          W-002 2       33        5
          W-003 2       24        2
          O-001 1       18        3
          O-002 0       99        4
          O-003 5       34        1

                                                                       6
Prof. Dr. R. Blickhan    Statistik II


        1. Arbeiten mit SPSS
        1.1 Überblick (Beispiel: Wahl.sav)
          Informationen über Dateien:
          Extras, Variablen.
          Siehe auch Extras, Datei-Info.

          Oder Klicken Sie einfach am unteren Rand Variablenansicht
          an.

          Ähnliche Informationen können Sie über eine Datei erhalten,
          die gegenwärtig nicht Arbeitsdatei ist: Datei, Info über
          Datendatei


                                                                    7
 Prof. Dr. R. Blickhan    Statistik II


         1. Arbeiten mit SPSS
         1.1 Überblick (Beispiel: Wahl.sav)
           Öffnen Sie das Programm Wahl.sav

           Wählen Sie als statistische Anwendung: Analysieren,
           Deskriptive Statistiken, Häufigkeiten
           und die Variable Partei aus und tippen Sie auf OK
           Grob ergibt sich die folgende Tabelle (interpretiere):
     r                                                    t

ü u
  lt i
oz
 z
 fz e
    e
   ig
3
05
 5
2
79
 4 F
0
0
4
9
0
3
8
3
3
4
2
1
7
9
1
2
7
9
0
2
7
0
9
3
1k
 F  e
  8
0
0
Prof. Dr. R. Blickhan     Statistik II


        1. Arbeiten mit SPSS
        1.1 Überblick (Beispiel: Wahl.sav)
          Berechnen Sie jetzt für die Variable alter Mittelwert,
          Standardabweichung etc. (Option Statistik unter
          Häufigkeit). Interpretiere.

          Gehen Sie wieder zurück zur Datei.

          Wählen Sie unter Extras Variablen anzeigen.


          Gehen Sie einmal die Symbole in der oberen
          Menüleiste durch.

                                                                   9
Prof. Dr. R. Blickhan    Statistik II


        1. Arbeiten mit SPSS
        1.1 Überblick (Beispiel: Wahl.sav)
          Versuchen Sie jetzt eine Graphik:
          Am besten als Option innerhalb der Analysieren,
          Deskript. Statistiken, Häufigkeiten:
          Dialogbox: Diagramme, Balkendiagramme,
          Prozente. Doppelklick auf Grafik. Schauen Sie sich
          die Möglichkeiten an.




                                                               10
Prof. Dr. R. Blickhan    Statistik II


        1. Arbeiten mit SPSS
        1.1 Überblick (Beispiel: Wahl.sav)
          Zur Darstellung der Ergebnisse gibt es das Ausgabefenster.
          Über Datei, Neu, SPSS-Ausgabe kann ein neues
          Ausgabefenster eröffnet werden.
          Das Hauptausgabefenster kann nicht geschlossen werden.

          Im Syntaxfenster können SPSS-Befehle eingegeben und
          ausgeführt werden: Neu, SPSS-Syntax. Wenn Sie noch die
          WAHL-Datei im Speicher haben, tippen Sie folgende
          Befehlsreihe ein:
          FREQUENCIES
               VARIABLES = sex alter partei .
           Menütaste mit dem nach rechts gerichteten Pfeil drücken.
                                                                       11
Prof. Dr. R. Blickhan     Statistik II


        1. Arbeiten mit SPSS
        1.1 Überblick (Beispiel: Wahl.sav)
          Befehle aus der Dialogbox können in das Syntaxfenster
          übertragen werden:
          Wählen Sie aus den Menüs
          Analysieren, Deskriptive Statistik, Häufigkeiten.
          Löschen Sie durch zurücksetzen die vorhergehenden
          Einstellungen. Übertragen Sie die Variable alter in die
          Zielvariablenliste. Klicken Sie auf Statistik und aktivieren
          Sie Mittelwert, Minimum, Maximum. Bestätigen Sie mit
          weiter. Deaktivieren Sie Häufigkeitstabelle anzeigen und
          klicken Sie auf Einfügen. Damit sind die Befehle in das
          Syntaxfenster übertragen.

                                                                         12
Prof. Dr. R. Blickhan     Statistik II


        1. Arbeiten mit SPSS
        1.1 Überblick (Beispiel: Wahl.sav)
          Vielleicht ist es an dieser Stelle ganz nützlich, sich durch das
          Tutorial von SPSS durchzuarbeiten. Am besten gelingt dies
          über das Hilfesystem.




                                                                        14
Prof. Dr. R. Blickhan   Statistik II


        1. Arbeiten mit SPSS
        1.2 Auswählen, modifizieren, umkodieren,
        aggregieren, gewichten
          •Aus einem Datensatz bestimmte Teile auswählen. (zufällig,
          nach bestimmten Kriterien)
          •Datensätze ändern bzw. neue Spalten aus alten erstellen.
          Auch die Summation von Werten für neue Spalten gehört
          dazu.
          •Die Umkodierung ist besonders nützlich, wenn neue
          Kategorien erstellt werden müssen.
          •Beim Aggregieren werden Daten sinnvoll zusammengefasst.
          •Bei der Gewichtung werden ausgewählte Gruppen von
          Daten neu gewichtet.
                                                                  15
          •Mehrfachantworten
Prof. Dr. R. Blickhan    Statistik II


        1. Arbeiten mit SPSS
        1.2 Datenselektion - Auswahl (Beispiel: wahl.sav)
          Datenselektion ist häufig notwendig. Häufig sind die
          Protokolle nicht in einer Form, daß sie für direkte Statistik
          geeignet sind. Hier hilft SPSS gut weiter und Studenten, die
          eine schwache Ahnung vom Programmieren haben, müßten
          eigentlich ganz gut damit zurecht kommen. Ladet wieder die
          Wahldatei.
          Wertet jetzt das Wahlergebnis nur für die männlichen Wähler
          aus: Daten, Fälle auswählen, Falls..., sex =2
          oder (alter > 30) & (alter< 60),
          oder substr(fragebnr,1,1) = „O“.
          Filter können entweder gelöscht werden oder durch Alles
          auswählen unwirksam gemacht werden.
          Jetzt schaut Euch ruhig einige Funktionen und Symbole an.16
          Aber einen neuen Programmierkurs gibt es jetzt nicht.
Prof. Dr. R. Blickhan     Statistik II


        1. Arbeiten mit SPSS
        1.2 Datenselektion - Auswahl (Beispiel: wahl.sav)
          Versuchen Sie verschiedene Statistiken auszuprobieren.
          a) Sind die männlichen und weiblichen Wähler gleich alt?
          b) Hat Ost und West gleich gewählt?
          c) Unterscheidet sich das Wahlverhalten von jungen (<30)
              und alten (>=30) Wählern?
          Jetzt benötigen Sie vor allem Ihre Kenntnisse aus Statistik I.
          Welchen Test benötigt man? Wo findet man ihn? Benutzen
              Sie nur Ihnen vertraute Ergebnisse.




                                                                       17
Prof. Dr. R. Blickhan    Statistik II


        1. Arbeiten mit SPSS
        1.2 Datenselektion - Stichproben (Beispiel: studium.sav)
          In manchen Fällen ist es angebracht, Zufallsstichproben zu
          ziehen: Daten, Fälle auswählen..., Zufallsstichprobe,
          Stichprobe.

          Neben der Sortierung kann die Gruppenbildung hilfreich
          sein: Daten, Daten zu Analyse aufteilen. Jetzt können Sie
          noch einmal einfache Statistik durchführen.




                                                                       18
Prof. Dr. R. Blickhan   Statistik II


        1. Arbeiten mit SPSS
        1.2 Datenmodifikation - Berechnen
        (Beispiel: studium.sav)

          Je nachdem wie die Protokolle aussehen oder wie die Daten
          abgespeichert wurden ist es notwendig, die Daten zu
          transformieren. Nehmen wir an, sie interessieren sich
          insbesondere für Studenten, welche die Regelstudienzeit
          überschritten haben: Transformieren, Berechnen, in
          Zielvariable: regel eintragen, in Numerischer Ausdruck:
          semester - 8, in Typ & Label: Überschreitung
          Regelstudienzeiten.


                                                                  19
Prof. Dr. R. Blickhan    Statistik II


        1. Arbeiten mit SPSS
        1.2 Datenmodifikation - Berechnen
        (Beispiel: studium.sav)

          Stellen wir auch hier ein paar Fragen an den Datensatz:

          1. Wie viel Prozent der Studenten überschreitet die
             Regelstudienzeit?
          2. Um wie viel Semester im Mittel?
          3. Ist die Überschreitung bei Frauen und Männern
             unterschiedlich?
          4. *Gibt es einen Zusammenhang zwischen der
             Überschreitung und der Studienleistung?

                                                                    20
Prof. Dr. R. Blickhan    Statistik II


        1. Arbeiten mit SPSS
     1.2 Datenmodifikation - Funktionen (Beispiel: studium.sav)
          Bei dieser Gelegenheit ist es nocheinmal nützlich, sich den
          Funktionsumfang vorzunehmen.
          Denken Sie an arithmetische Funktionen wie ABS oder
          SQRT.
          Sehr hilfreich sind auch die Zeitfunktion, aus welchen sich
          z.B. Zeiträume aus Zeit und Datumsangaben errechnen
          lassen: YRMODA
          Man kann sich bei der Zuweisung auf den vorhergehenden
          Fall beziehen: LAG
          Auch die wichtigsten statistischen Verteilungen stehen als
          Funktionen zur Verfügung: CDF...

                                                                        21
Prof. Dr. R. Blickhan    Statistik II


        1. Arbeiten mit SPSS
        1.2 Datenmodifikation - Zählen (Beispiel: sport.sav)
          Mitunter ist es nützlich, in der Tabelle Ereignisse entlang
          bestimmter Zeilen aufzusummieren: Transformieren,
          Zählen. Markieren Sie die Variablen v3_1 bis V3_9 und
          übertragen Sie diese in die Variablenliste. Geben Sie der
          Zielvariablen den Namen sports und das Label Anzahl der
          Sportarten. Klicken Sie auf die Schaltfläche Werte
          definieren. Geben Sie nun als Wert eine 1 ein und Klicken
          Sie auf den Schalter hinzufügen. Bestätigen Sie Ihrer Eingabe
          mit Weiter und OK.
          Im Beispiel erhält man die Anzahl der vom Probanden
          ausgeübten Sportarten.

                                                                     22
Prof. Dr. R. Blickhan    Statistik II


        1. Arbeiten mit SPSS
        1.2 Datenmodifikation - Zählen (Beispiel: sport.sav)
          Fragen zum Datensatz:
          1. Spielt das Alter bei der Zahl der ausgewählten Sportarten
             eine Rolle?
          2. *Werden die Individual- oder die Mannschaftssportarten
             bevorzugt?




                                                                    23
Prof. Dr. R. Blickhan     Statistik II


        1. Arbeiten mit SPSS
        1.2 Datenmodifikation - Umkodieren
        (Beispiel: Wahl.sav)
          Stellen Sie sich vor, Sie wollen die Parteien in einen linken
          und einen rechten Flügel aufteilen. Hier hilft Ihnen die
          vorhandenen Information nichts. Sie müssen an dem
          Datensatz arbeiten und ihn umkodieren: Transformieren,
          Umkodieren, In andere Variablen, partei in Eingabevar.
          -> Ausgabevar. Geben Sie den Namen lire ein, Ändern, in
          Label die Bezeichnung Parteispektrum, Ändern, Alte und
          neue Werte, 1->2, 2->2, 3->1, 4->1, 5->1, 6->2, Alle
          anderen Werte, 0 eingeben, Hinzufügen, Weiter, OK.

          Doppelklick in Tabelle auf Variablenansicht von lire, Typ auf
          1 byte 0 Stellen. Labels 0 nicht definiert, 1 links, 2 rechts, 0:
                                                                          24
          Missing Wert . Zählen Sie jetzt die Häufigkeiten.
Prof. Dr. R. Blickhan   Statistik II


        1. Arbeiten mit SPSS
        1.2 Datenmodifikation - Umkodieren
        (Beispiel: Wahl.sav)

        Fragen zum Datensatz:
        1. Wählen Frauen eher konservativ?
        2. Wählen Personen unter 30 eher links?




                                                  25
Prof. Dr. R. Blickhan       Statistik II


        1. Arbeiten mit SPSS 7.4.00
        1.2 Datenmodifikation – Umkodieren (nicht notwendig)
        (Beispiel: string.sav)
          Auch die Häufigkeit bestimmter Begriffe kann leicht ausgezählt werden.
          Leider ist im Ausdruck der String auf 8 byte begrenzt. Versuchen Sie
          beispielsweise die Häufigkeiten auszuzählen. IN der alten Version erfolgt
          eine eine Fehlermeldung. Hier kann man sich helfen: Transformieren,
          Automatisch umkodieren, Variable übertragen (es erscheinen auf der
          rechten Seite Fragezeichen) in Neuer Name beschw20 eintragen und
          Neuer Name anklicken.
          Sie bekommen dann eine neue Listung der Variablen und können damit
          neu die Häufigkeiten berechnen.
          (Natürlich gibt es auch hier wieder die Möglichkeit der bedingten
          Berechnung.)


                                                                                 26
Prof. Dr. R. Blickhan    Statistik II


        1. Arbeiten mit SPSS
        1.2 Datenmodifikation (Beispiel: ingle.sav)
          Natürlich gibt es auch hier wieder die Möglichkeit der
          bedingten Berechnung. Schauen Sie sich zunächst die Werte
          der Variablen v108, v109, v110, v111 an.
          In der Spalte v112 sind Typen angegeben. Diese (Inglehart-
          Index, etwas für Sozialwissenschaftler) ergeben sich aus den
          vorhergehenden Spalten und zwar durch bestimmte
          Kombinationen z.B.: v108 wichtigstes Ziel v110 zweit
          wichtigstes Ziel => reiner Materialist etc.. Man muß jetzt
          natürlich alle Kombinationen einprogrammieren. Hier ist es
          gut wenn man das Programm schon abgespeichert hat.
          Schauen Sie mal in ingle.sps (alle Kommandos auswählen
          und auf Pfeil nach rechts drücken). Ihr seht, irgendwann
          lohnt es es sich, Programme zu schreiben oder              27
          abzuspeichern.
Prof. Dr. R. Blickhan    Statistik II


        1. Arbeiten mit SPSS
        1.2 Datenmodifikation - Aggregieren
        (Beispiel: schwein.sav)

          Es wurde die Schweinehaltung untersucht. Verglichen
          werden 2 Ställe und 8 Schweine. Diese werden jeweils 20
          Tage in einem und 20 Tage in dem anderen Stall gehalten.
          Uns interessiert hier nicht die Zeitabhängigkeit, sondern der
          Stall. Es liegt also nahe, die 20 Tageswerte aufzusummieren:
          Daten, Aggregieren; stall und nr werden als Break-Variablen
          definiert; wühlen, fressen und massage als
          Aggregierungsvariablen; wählen Sie als Funktion für alle
          Variablen die Summe (eingestellt sind Mittelwerte); nennen
          Sie Ihre neue Datei pigaggr.sav. Nach Weiter und OK
          schauen Sie sich die neue Datei an.                         28
Prof. Dr. R. Blickhan     Statistik II


        1. Arbeiten mit SPSS
        1.2 Datenmodifikation- t-Test (Beispiel: pigaggr.sav)
          Frage:

          Hat der Stall Einfluss auf das Verhalten der Tiere?

          Analysieren, Mittelwertvergleiche, T-test bei unabhängigen
          Stichproben. Definieren Sie stall als Gruppenvariable mit
          den Gruppendefinitionen 1 und 2. Wählen Sie fresse_1,
          massage_1 und wühle_1 als Testvariable.OK, schauen Sie
          sich das Ergebnis an, und interpretieren Sie es. Geht hier
          etwas schneller als im Anfängerkurs. Dafür wissen Sie jetzt
          besser was Statistik eigentlich ist. Beachte die Unterschiede
          bei ungleichen Varianzen.
          Eigentlich wäre hier ein gepaarter Test und evtl. auch       29
          einseitig korrekt.
Prof. Dr. R. Blickhan    Statistik II


        1. Arbeiten mit SPSS
        1.2 t-Test (Beispiel: pigaggr.sav)
          Aber Vorsicht! Eigentlich hätten wir die Voraussetzungen
          prüfen müssen. Voraussetzung für einen t-Test ist die
          Normalverteilung. SPSS bietet hier etwas in der Deskriptiven
          Statistik, Explorativen Datenanalyse an. Es lohnt sich immer,
          sich den Datensatz genauer anzuschauen: fresse, massage,
          wühle als abhängige Variable, stall als Faktor. Beide also
          Statistik und Diagramme anzeigen.
          Schauen Sie sich die Ausgabe an. Was bedeutet ein Q-Q-
          Plot? Welche Variable ist normalverteilt? Welche Tests
          wurden angeboten, welchen kennen Sie? Wie sind die Box-
          Plots zu interpretieren (größte Werte, Ausreißer, größter und
          kleinster Wert, der noch keinen Ausreißer darstellt
          (Fehlerbalken), Median,75 % Perzentil, 25 %-Perzentil)? 30
Prof. Dr. R. Blickhan    Statistik II


        1. Arbeiten mit SPSS
        1.2 Datenmodifikation - Ränge
          Nichtparametrische Tests sind häufig auf Rangbildung
          angewiesen. Allerdings bilden die Testfunktionen von SPSS
          sich diese Ränge aus den Daten selbst, so daß hier auf diese
          Option nicht näher eingegangen wird. Beschreibung: siehe
          Bühl und Zöfel S 176.




                                                                     31
Prof. Dr. R. Blickhan     Statistik II


        1. Arbeiten mit SPSS
        1.2 Datenmodifikation- Gewichten (Beispiel: beamte.sav)
          Bei einer Umfrage was für Personen das wichtigste,
          zweitwichtigste, drittwichtigste und das viertwichtigste ist
          (Inglehart s.o.) wurde eine nichtrepräsentative Stichprobe
          gezogen. Schauen Sie sich die Häufigkeiten der Variablen
          Beamter und thema3 an. In der Stichprobe gab es 10.5 %
          Beamte. Sie wissen aber in Wirklichkeit sind es 8.4 %.
          Erstellen Sie zunächst eine Kreuztabelle und einen Chi^2-
          Test: Statistik, Deskriptive Statistik, Kreuztabelle; in Zeilen:
          thema3, in Spalten: beamter; in Zellen: Zeilen- und
          Spaltenweise Prozentwerte; in Statistiken: Chi^2.OK.
          Schauen Sie sich‘s an.

                                                                         32
Prof. Dr. R. Blickhan    Statistik II


        1. Arbeiten mit SPSS
        1.2 Datenmodifikation - Gewichten (Beispiel: beamte.sav)
          Jetzt erstellen Sie eine Gewichtungsvariable: Datei, Neu,
          SPSS-Syntax
          IF beamter = 1 gewicht = 8.4/10.4 .
          IF beamter = 2 gewicht = 91.6/89.5 .
          EXECUTE .

          Lassen Sie dieses Programm laufen und schauen Sie sich
          Ihre Datei an. Jetzt Daten, Fälle gewichten, und machen Sie
          die Variable gewicht zur Gewichtungsvariablen
          (Häufigkeitsvariable). Jetzt erstellen Sie wieder eine
          Kreuztabelle und den Chi^2 test. Sie sehen, es hat sich
          einiges getan.
                                                                      33
Prof. Dr. R. Blickhan    Statistik II


        1. Arbeiten mit SPSS
        1.2 Datenmodifikation - Gewichten (Beispiel: grippe.sav)
          Sie sehen die Datenbehandlung ist ein wichtiges Kapitel in
          der Nutzung von SPSS.
          Frage: Hängt der höhere Grippeanteil mit der Zufriedenheit
          der Angestellten zusammen?
          Daten, Fälle gewichten, Fälle gewichten mit der .. Freq.
          Verlassen. Analysieren, Deskriptive Statistik, Kreuztabelle,
          Statistiken, Chi^2.
          Ist der Chi^2-Test Valide? Beachte die kleinen Häufigkeiten.
          Welcher Test liefert ein zuverlässiges Ergebnis?




                                                                    34
Prof. Dr. R. Blickhan     Statistik II


        1. Arbeiten mit SPSS
        1.2 Datenmodifikation - Gewichten (Beispiel: wiese.sav)
          Frage: Hängt die Heuschreckenpopulation von der Wiese ab?
          Daten, Daten gewichten.., Fälle gewichten, Fälle gewichten
          mit der...h. OK. Analyse, Deskriptive Statistik, Kreuztabellen,
          heuschr zur Zeilen- und wiese zur Spaltenvariable
          Zellen...Ausgabe der Häufigkeiten und der standardisierten
          Residuen. (zur Standardisierung werden die Residuen durch
          die Quadratwurzel der erwarteten Häufigkeiten dividiert).

          Führen Sie auch hier einen Chi^2-Test durch.




                                                                       35
Prof. Dr. R. Blickhan   Statistik II


        1. Arbeiten mit SPSS
        1.3 Datenexploration
          Hier möchte ich aus Zeitgründen nur einige Bemerkungen
          machen und den interessierten auf das Lehrbuch verweisen.
          Im Wesentlichen wird einfache Statistik beschrieben.
          Enthalten sind gewichtete Mittelwertbildungen, Stem-and-
          Leaf plots, Normal Q-Q-Plots.




                                                                  36
Prof. Dr. R. Blickhan    Statistik II


        1. Arbeiten mit SPSS
        1.4 Kreuztabellen
          Diese sind und bereits begegnet und wir kennen einfache
          Varianten aus der Einführungsveranstaltung.




                                                                    37
Prof. Dr. R. Blickhan    Statistik II


        1. Arbeiten mit SPSS
        1.4 Analyse von Mehrfachantworten
          Dies ist ein wichtiges Kapitel bei bestimmten
          Fragebogengestaltungen. Man unterscheidet zwischen
          dichotomen und kategorialem Design. Es hängt von der
          Komplexität des Gegenstandes ab, welche Methode
          angebrachter ist. Wenn ich einfach frage, „in welchem
          Urlaubsland waren Sie bereits?“, so kann ich dichotom für
          jedes Land eine Variable definieren und das Ergebnis durch 0
          und 1 markieren (Beispiel: urlaub1.sav). Frage ich aber nach
          einer Reihung der Lieblingsländer (maximal 4 Angaben), so
          genügt dies nicht mehr. Jedem Land wird dann eine Wertung
          zugeordnet. Dies ist die kategoriale Methode (Beispiel:
          urlaub2.sav; kenia.sav). SPSS ermöglicht die Auswertung
          solcher Daten.                                             38
Prof. Dr. R. Blickhan    Statistik II


        1. Arbeiten mit SPSS
        1.4 Analyse von Mehrfachantworten (urlaub2.sav)
          Analyse, Mehrfachantworten, Sets definieren, anwählen
          Variablen im Set, Kategorien, Bereich 1 bis 7, Testset in
          Name, Hinzufügen, Schließen.

          Analysieren, Mehrfachantworten, Kreuztabellen, sex in
          Zeilen, $Testset in Spalten




                                                                      39
Prof. Dr. R. Blickhan                 Statistik II


        2. Varianzanalyse
        2.1 Einfaktorielle ANOVA (Beispiel: hyper.sav)
          Für den Vergleich zweier Mittelwerte haben wir unter anderem den t-Test
          kennengelernt. Müssen mehr als zwei unabhängige Stichproben
          verglichen werden, so hilft die Varianzanalyse weiter.
          Nehmen wir an, wir haben k Stichprobengruppen mit je ni und insgesamt
          n Stichprobenelementen. Die k normalverteilten Grundgesamtheiten
          haben die gleiche, aber unbekannte Varianz (Homogenität,
          Voraussetzungen). Es wird nun angenommen, die Summe der
          Abweichungsquadrate setze sich zusammen aus der der Werte bzgl. der
          Gruppenmittelwerte (innerhalb) + dem der Gruppenmittelwert bzgl. des
          Gesamtmittelwertes (zwischen):

                         x         x   xij  xi    ni xi  x 
                                        2              2                2
                               ij
                        i, j                 i, j           i



                                                                               40
Prof. Dr. R. Blickhan    Statistik II


        2. Varianzanalyse
        2.1 Einfaktorielle ANOVA (Beispiel: hyper.sav)
          Die Nullhypothese ist, daß alle Gruppenmittelwerte identisch
          sind. Die Freiheitsgrade „zwischen“ betragen k-1 und
          innerhalb n-k. Man führt nun einen Prüfquotienten F ein. Er
          entspricht dem Verhältnis aus der Varianz zwischen den
          Gruppen (Stichprobenfehler) zu der innerhalb
          (Versuchsfehler). Je größer der Prüfkoeffizient, desto größer
          ist die Wahrscheinlichkeit dafür, daß die Stichproben nicht
          aus der gleichen Grundgesamtheit sind: Analyse,
          Mittelwertvergleiche, Einfaktorielle ANOVA, abhängige
          Variable chol0, Faktor ak(1,4). Für das Beispiel ergibt sich
          ein F von 1.3293 und ein p = 0.2665. Somit ist der
          Unterschied nicht signifikant..
                                                                     41
Prof. Dr. R. Blickhan    Statistik II


        2. Varianzanalyse
        2.1 Einfaktorielle ANOVA (Beispiel: hyper.sav)
          Vielleicht einige Bemerkungen zu Ergebnistabelle. In der
          zweiten Spalte werden die Summen der Fehlerquadrate
          aufgelistet. Die Gesamtvariation ist die Summe der
          Fehlerquadrate bzgl. 0. Sie wird in der Regel vom konstanten
          Term dominiert. In der dritten Spalte ist der Freiheitsgrad
          angegeben. Die in der vierten Spalte angegebenen Mittel der
          Quadrate ist die Quadratsumme dividiert durch die
          Freiheitsgrade. Der Prüfquotient F in der nächsten Spalte ist
          der Quotient aus der mittleren Varianz zwischen den
          Gruppen durch den Quotienten der Varianz innerhalb der
          Gruppen (hier als Fehler bezeichnet).

                                                                     42
Prof. Dr. R. Blickhan    Statistik II


        2. Varianzanalyse
        2.1 Einfaktorielle ANOVA (Beispiel: hyper.sav)
          Auch hier müssen eigentlich zunächst die Voraussetzungen
          geprüft werden. Die Daten müssen einer Zufallsstichprobe
          entstammen und die Grundgesamtheit muß normalverteilt
          sein (Verteilungsdiagramm, K-S-Test). Darüber hinaus
          sollten die Varianzen der Gruppen gleich sein (Levene-Test
          unter Optionen), Alternative Tests für inhomogene Varianzen
          (Welch, Brown-Forsythe) sind ebenfalls unter Optionen zu
          erreichen.




                                                                   43
Prof. Dr. R. Blickhan    Statistik II


        2. Varianzanalyse
        2.1 Einfaktorielle ANOVA (Beispiel: hyper.sav)
          Das Ergebnis der bisherigen Analyse zeigt, dass kein
          Einfluss des Alters auf die Cholesterinwerte nachgewiesen
          werden kann. Es könnte nun sein, daß lediglich eine Gruppe
          unterschiedlich ist. Hierüber gibt aber der Test keine
          Auskunft. Eine einfache Lösung wären jeweils paarweise t-
          Tests. Bei 4 Altersgruppen müssten also 4!/(2!*2!)=k*(k-
          1)/2=6 Tests durchgeführt werden. Dies ist eigentlich noch
          erträglich. Speziellere Tests, welche nicht nur Paare
          vergleichen, können allerdings trennschärfer sein. Hier
          helfen die PostHoc-Tests weiter.


                                                                   44
Prof. Dr. R. Blickhan       Statistik II

        2. Varianzanalyse
        2.1 Einfaktorielle ANOVA (Beispiel: hyper.sav)
          Unter PostHoc werden eine Vielzahl von Mittelwertvergleichen
          angeboten. Im Wesentlichen werden die Samples in diesen Tests in
          unterschiedlichen Gruppierungen und Gewichtungen untereinander
          verglichen.
          LSD: LeastSignificant Difference: einzelne t-Tests. Irrtümer leicht mögl.
          Bonferroni: einzelne T-Tests bei gleichzeitiger Überwachung des
          Mittelwertes.
          Sidak: Multibler t-Test mit Korrektur des Signifikanzniveaus für die
          simultane Betrachtung mehrerer Tests.
          Scheffe: Basiert auf F-Verteilung. Bildet Kontraste zwischen allen
          möglichen Gruppierungen und Zusammenfassungen dieser Stichproben.
          ist für Vergleiche mit weniger als allen möglichen Stichprobenpaaren
          geeignet.
          Tukey ehrliche Methode ist für alle paarweisen Vergleiche der
          Stichproben geeignet.
          Dunnett: Vergleich mit einem Kontrollwert.                              45
          Zur Beruhigung: Auf diesem Gebiet wird noch geforscht!
Prof. Dr. R. Blickhan             Statistik II

        2. Varianzanalyse
        2.1 Einfaktorielle ANOVA (Beispiel: hyper.sav)
          Empfehlungen nach Sokal und Rolf (m: Zahl der Vergleiche; k: Zahl der
                 Gruppen):
          Weniger als alle paarweise Vergleiche m < k(k-1)/2:
                        Dunn-Sidak; Bonferroni;
          Alle paarweisen Vergleiche m=k(k-1)/2:
                        Tukey (ähnliche Sample-Größen); GT2 (unterschiedliche
                        Sample-Größen); Tukey-Kramer (unterschiedliche Sample
                        Größen); Welsch od. Student-Newman-Keuls (gleiche Sample
                        Größen)
          Alle möglichen Kontraste m > k(k-1)/2:
                        Scheffe‘ od. Gabriel (kleines a, die meisten ci ungl. 0); Tukey
                        (Nahezu gleiche Samplegröße)
          Alle möglichen Vergleiche m >> k(k-1)/2:
                        SS-STP sum of squares simultaneous test procedure
                                                                                          46
Prof. Dr. R. Blickhan             Statistik II

        2. Varianzanalyse
        2.1 Einfaktorielle ANOVA (Beispiel: hyper.sav)
          Kontraste:
          Man kann die miteinander zu vergleichenden Gruppen zu zwei Gruppen
          zusammenfassen und für jede der beiden Gruppen gewichtete Durchschnitte der
          ursprünglichen Gruppenmittelwerte berechnen. Diese beiden Gruppen werden
          dann mit Hilfe des t-Testes auf signifikante Unterschiede untersucht. Hier besteht
          also eine Eingriffsmöglichkeit bzgl. der Gruppenbildung.
          Mittelwertvergleiche, Einfaktorielle Anova, chol0 in abhäng. Variable, ak in
          Faktor, Kontraste, -1; 0,4, 0,4; 0,2 weiter, ok. Die Gewichte entsprechen hier also
          dem prozentualen Anteil der Meßwerte der einzelnen Gruppen.
          Im Vergleich der Kontraste ergibt sich nahezu Signifikanz.
          Die Kontraste müssen so gewählt werden, dass ihre Summe 0 ergibt. Die Werte in
          den Kontrasten entsprechen den Gewichten der einzelnen Gruppen. Man kann
          eine Gruppe A gegen 3 weitere Gruppen B, C, D prüfen, indem man die
          Kontraste -3, 1, 1, 1 wählt. Eine sinnvolle Wahl ergibt sich aus der Lage der
          Mittelwerte. Damit werden die Kontraste zu einem wichtige Instrument.

          Es kann die Varianz zwischen den Gruppen in Trendkomponenten zerlegt werden. Die gewichteten
                                                                                                         47
          Gruppen korrigieren entsprechend der Gruppengröße. (Bei unausgewogenem Design bevorzugt.)
Prof. Dr. R. Blickhan       Statistik II

        2. Varianzanalyse
        2.1 Beispiel Einfaktorielle ANOVA (studium.sav)
          1.   Welche Variablen kommen als Faktor in Frage, welche als abhängige
               Größe?
          2.   Reduzieren Sie die Faktorstufen durch Datenmodifikation, d.h. durch
               Erzeugung einer neuen Variable mit neuen Kategorien.
          3.   Führen Sie damit die ANOVA durch. Was wurde geprüft, mit
               welchem Ergebnis?
          4.   Ein Faktor enthält nur zwei Stufen, vergleichen Sie das damit
               gewonnene Ergebnis mit den Ergebnissen eines t-Tests.

          5.   Sind eigentlich die Voraussetzungen erfüllt? Lassen Sie sich von dem
               Ergebnis nicht beeindrucken. Was können Sie prinzipiell noch tun,
               wenn die Voraussetzungen nicht erfüllt sind?

          6.   Wenn Sie jetzt noch Zeit haben, führen Sie auch einen passenden
               PostHoc-Test durch.
                                                                                 48
Prof. Dr. R. Blickhan   Statistik II
        2. Varianzanalyse
        2.3 SPSS und ANOVA und ANCOVA
     1. Univariat mehrfaktoriell: Eine Variable mehrere Faktoren
         s.o.
         Hauptterme
         Wechselwirkung
     2. Kovarianz: Intervallskalierte Variable, mit Einfluss auf
         abhängige Variable.
     3. Multivariat..: Mehrere abhängige Variablen.
     4. Meßwertwiederholung: Wiederholung der Messung an den
         gleichen Probanden (Prä- u. Posttest etc.)




                                                                   49
Prof. Dr. R. Blickhan         Statistik II
        2. Varianzanalyse
        2.3 SPSS und ANOVA und ANCOVA
     Mathematisch nimmt die Varianzanalyse eine lineare
     Superposition der Varianzanteile an. Die einzelnen Messwerte
     Xjk sind die Gruppenmittelwerte mj plus Messfehler ejk oder
     bezogen auf den Gesamtmittelwert m setzen sich die Messwerte
     zusammen aus dem Gesamtmittelwert m, dem Abstand der
     Gruppenmittelwerte aj = mj-m von diesem Gesamtmittelwert
     und dem Messfehler ejk bezogen auf den Gruppenmittelwert
     (Wilkinson –Roger-Syntax):
                     Xjk = m  aj + ejk
     Der untersuchte Faktor, in unserem Beispiel die Altersklasse,
     könnte zu Unterschieden in den Gruppenmittelwerten führen,
     die sich in der Gesamtvarianz verbergen.
     Der globale Mittelwert (konstanter Term) muss bei dem linearen Modell berücksichtigt 50
     werden. Nur dann aus dem Modell streichen, wenn er a priori Null ist.
Prof. Dr. R. Blickhan     Statistik II
        2. Varianzanalyse
        2.3 SPSS und ANOVA und ANCOVA
     In der bifaktoriellen Analyse (Zweiweg-Klassifikation) nimmt
     man zwei Einflußgrößen (Faktoren) auf einen Datensatz an.
     Das Modell wird also lediglich erweitert:

                        Xjkl = m  aj + bk + ejkl

     bk: Abweichung der Meßwerte in Gruppen bzgl. des zweiten
     Faktors.




                                                                51
Prof. Dr. R. Blickhan   Statistik II
        2. Varianzanalyse
        2.3 SPSS und ANOVA und ANCOVA
     Wechselwirkung: Sind die Faktoren nicht völlig unabhängig, so
     treten Wechselwirkungsglieder auf. Eine Zweiweg-ANOVA hat
     zwei Faktoren und damit ein Wechselwirkungsglied (z.B.
     Medikament + Alkohol). Das Modell wird also um die
     Produktterme erweitert:
                    Xjkl = m + aj + bk + (a*b)ki + ejkl.

     Eine Dreiweg-ANOVA hat bereits drei Wechselwirkungsglieder
     erster Ordnung (a mit b etc.). Hinzu kommt jetzt aber eines
     zweiter Ordnung (a mit b mit g). Sie sehen jetzt, die
     Komplexität steigt mit der Zahl der Faktoren (und Kovarianten).
     Dreiweg-ANOVA ohne Wechselwirkung:
                     Xjkl = m + aj + bk + gi + ejkl.              52
Prof. Dr. R. Blickhan   Statistik II
        2. Varianzanalyse
        2.3 SPSS und ANOVA und ANCOVA
     Bei mehrfacher Wiederholung bleiben die Einflußgrößen
     (Faktoren) gleich. Es kommt aber eine zusätzliche Variation der
     Meßwerte durch die Wiederholung ejkl hinzu (g entspricht hier
     dem alten e.
                     Xjk = m  aj + bk + gjk +ejkl

     Je nachdem welche Nullhypothese angesetzt wird, können ein
     oder mehrere Summanden Null sein. Die Nullhypothese
     bestimmt also die Formulierung der Gleichung, bzw. die
     Nullhypothese wird durch die Formulierung der Gleichung
     präzisiert!!

                                                                   53
Prof. Dr. R. Blickhan   Statistik II
        2. Varianzanalyse
        2.3 SPSS und ANOVA und ANCOVA
     Wir sind bisher davon ausgegangen, daß die Gruppengrößen
     gleich groß sind (balancierter Fall). Dies erleichtert die
     Berechnung. Häufig sind die Gruppen jedoch unterschiedlich
     groß (unbalancierter Fall). Eine weitere Komplikation entsteht
     dadurch, daß die Stufen der Faktorvariablen fest vorgegeben
     und ausgewählt sind (Modell I). Aber es kann sein, daß dies im
     Experiment nicht möglich ist (Modell II), dass also Stufen
     vorgegeben wurden, aber es der Experimentator nicht unter
     Kontrolle hat, ob das Ereignis so eintritt oder nicht. Damit
     kommt eine weitere Zufallsgröße hinzu.


                                                                 54
Prof. Dr. R. Blickhan         Statistik II
        2. Varianzanalyse
        2.3 SPSS und ANOVA und ANCOVA
     In den bisherigen Ansätzen wurde angenommen, daß die
     betrachteten Messwerte nur durch nominalskalierte Variablen
     beeinflusst werden. Es kann aber auch wie wir aus Satistik I
     wissen ein Einfluss durch eine intervallskalierte Variable
     erfolgen (Korrelation, lineare Regression).
     Für den Fall, dass diese allein den Zusammenhang ausreichend
     erklären ergäbe sich:
                           X ij  b within ( xij  xi )
       also einfache Geradengleichungen. In der allgemeinen linearen
       Analyse kann dieser Term zusätzlich berücksichtigt werden:
                        X ij  m  a i  b within ( xij  xi )  e ij
       Die Berücksichtigung einer intervallskalierten Variable nach Gruppierung
       als Faktor verschenkt Beschreibungskraft!                                55
Prof. Dr. R. Blickhan           Statistik II
        2. Varianzanalyse
        2.3 SPSS und ANOVA und ANCOVA
     Die in der Regression berücksichtigte gleichsinnige Variation
     der Variablen haben wir mit dem Begriff der Kovarianz
     beschrieben (vgl. Definition des Korrelationskoeffizienten).
                                   1
                        S xy         ( yi  y )( xi  x )
                                 n 1 i
      Bezogen auf zwei Variablen x und y gibt es also zwei Varianzen Sxx und Syy
      sowie zwei Kovarianzen Sxy = Syx. Für drei ergibt sich bereits eine Matrix aus
      3x3 Gliedern. Hiervon sind drei die bekannten Varianzen und drei die
      Kovarianten. (Die anderen drei sind wieder gleich.)
      Intervallskalierte Variable werden also in der Varianzanalyse
      nicht als Faktor sondern als Kovariante betrachtet. Die Analyse
      nennt sich dann ANCOVA.
                                                                                 56
Prof. Dr. R. Blickhan           Statistik II
        2. Varianzanalyse
        2.3 SPSS und ANOVA und ANCOVA
     Wichtig ist hier, daß für alle Stichproben der Untersuchung die
     gleiche Kovarianz angenommen wird. Führe ich also eine
     Kovariante ein, so wird in dem Modell für alle Stichproben der
     gleiche Anstieg der linearen Abhängigkeit angenommen (nur ein
     b, siehe Gleichung oben).
     Die folgenden Optionen sind in alten SPSS-Versionen noch enthalten und müssen jetzt über
     Kommandos eingegeben werden.
     Unter Methode drei unbalanced Designs (bei gleicher Zellgröße unerheblich):
     Regression: alle Effekte werden gleichzeitig betrachtet.
     Hierarchisch: Effekte werden in der Reihenfolge der gegebenen Faktoren berechnet.
     Entwickeln sich die Faktoren baumartig im Untersuchungsdesign, so nennt man es hierarchisch.
     Beispiel: Einfluss der unterschiedlichen Curricula in den Bundesländern auf sportliche Leistung.
     Innerhalb der Länder Varianz aufgrund der Herkunft (reich, arm; Stadt, Land). Innerhalb dessen
     Varianz aufgrund der Schulbildung.
     Experimentell: Effekte werden in folgender Reihenfolge geschätzt: Kovariaten, Haupteffekte,
     Wechselwirkungen.
                                                                                                  57
Prof. Dr. R. Blickhan     Statistik II
        2. Varianzanalyse
        2.3 SPSS und ANOVA und ANCOVA
        Anmerkung um Problem der Summenbildung (kann übersprungen
          werden)
        Typ I. Diese Methode ist auch als die Methode der hierarchischen
          Zerlegung der Quadratsummen bekannt. Jeder Term wird nur für den
          Vorläuferterm im Modell angepasst. Quadratsummen vom Typ I
          werden gewöhnlich in den folgenden Situationen verwendet:

        • Ein ausgeglichenes ANOVA-Modell, in dem alle Haupteffekte vor den
          Wechselwirkungseffekten 1. Ordnung festgelegt werden, alle
          Wechselwirkungseffekte 1. Ordnung wiederum vor den
          Wechselwirkungseffekten 2. Ordnung festgelegt werden und so weiter.
        • Ein polynomiales Regressionsmodell, in dem alle Terme niedrigerer
          Ordnung vor den Termen höherer Ordnung festgelegt werden.
        • Ein rein verschachteltes Modell, in welchem der zuerst bestimmte
          Effekt in dem als zweiten bestimmten Effekt verschachtelt ist, der
          zweite Effekt wiederum im dritten und so weiter. (Diese Form der
          Verschachtelung kann nur durch Verwendung der Befehlssprache
          erreicht werden.)
                                                                             58
Prof. Dr. R. Blickhan       Statistik II
        2. Varianzanalyse
        2.3 SPSS und ANOVA und ANCOVA

        Anmerkung zum Problem der Summenbildung (kann übersprungen
          werden)

        Typ II. Bei dieser Methode wird die Quadratsumme eines Effekts im
           Modell angepasst an alle anderen "zutreffenden" Effekte berechnet.
           Ein zutreffender Effekt ist ein Effekt, der mit allen Effekten in
           Beziehung steht, welche den untersuchten Effekt nicht enthalten. Die
           Methode mit Quadratsummen vom Typ II wird gewöhnlich in den
           folgenden Fällen verwendet:

        •   Bei ausgeglichenen ANOVA-Modellen.
        •   Bei Modellen, die nur Haupteffekte von Faktoren enthalten.
        •   Bei Regressionsmodellen.
        •   Bei rein verschachtelten Designs. (Diese Form der Verschachtelung
            kann durch Verwendung der Befehlssprache erreicht werden.)
                                                                                  59
Prof. Dr. R. Blickhan        Statistik II
        2. Varianzanalyse
        2.3 SPSS und ANOVA und ANCOVA
            Anmerkung um Problem der Summenbildung (kann übersprungen
              werden)

            Typ III. Voreinstellung. Bei dieser Methode werden die Quadratsummen
               eines Effekts im Design als Quadratsummen orthogonal zu den
               Effekten (sofern vorhanden), die den Effekt enthalten, und mit
               Bereinigung um alle anderen Effekte, die diesen Effekt nicht enthalten,
               berechnet. Der große Vorteil der Quadratsummen vom Typ III ist, dass
               sie invariant bezüglich der Zellenhäufigkeiten sind, solange die
               allgemeine Form der Schätzbarkeit konstant bleibt. Daher wird dieser
               Typ von Quadratsumme oft für nicht ausgeglichene Modelle ohne
               fehlende Zellen als geeignet angesehen. In einem faktoriellen Design
               ohne fehlende Zellen ist diese Methode äquivalent zu der Methode der
               gewichteten Mittelwertquadrate nach Yates. Die Methode mit
               Quadratsummen vom Typ III wird gewöhnlich in folgenden Fällen
               verwendet:

            • Alle bei Typ I und Typ II aufgeführten Modelle.
            • Alle ausgeglichenen oder unausgeglichenen Modelle ohne leere       60
              Zellen.
Prof. Dr. R. Blickhan       Statistik II
        2. Varianzanalyse
        2.3 SPSS und ANOVA und ANCOVA

            Anmerkung um Problem der Summenbildung (kann übersprungen
              werden)

            Typ IV. Diese Methode ist dann geeignet, wenn es fehlende Zellen gibt.
               Für alle Effekte F im Design: wenn F in keinem anderen Effekt
               enthalten ist, dann gilt, dass Typ IV = Typ III = Typ II. Wenn F in
               anderen Effekten enthalten ist, werden bei Typ IV die Kontraste
               zwischen den Parametern in F gleichmäßig auf alle Effekte höherer
               Ordnung verteilt. Die Methode mit Quadratsummen vom Typ IV wird
               gewöhnlich in folgenden Fällen verwendet:

            • Alle bei Typ I und Typ II aufgeführten Modelle.
            • Alle ausgeglichenen oder unausgeglichenen Modelle mit leeren
              Zellen.

                                                                              61
Prof. Dr. R. Blickhan                   Statistik II
            2. Varianzanalyse
            2.3 SPSS und ANOVA und ANCOVA
            Verbindung zur Allgemeinen Linearen Analyse
   Faktor     Variable       Kontante       Kodiervariable 1        Kodiervariable 2   Betrachte eine Variable, die durch
   a1                    2              1                      1                   0   einen Faktor a in drei Gruppen
                         3              1                      1                   0   unterteilt wird. Zusätzlich führen wir
                         4              1                      1                   0   drei Gruppen ein, die den Konstanten
                         3              1                      1                   0   Term und zusätzlich die zwei
   a2                    2              1                      1                   0   Gruppenfreiheitsgrade in Form von
                         3              1                      0                   1   Kontrasten repräsentieren. Die Daten
                         4              1                      0                   1   können jetzt in Matrixschreibweise
                         6              1                      0                   1   durch ein lineares Gleichungssystem
                         5              1                      0                   1   beschrieben werden:
                                                                                             y  b0  b1 x1  b2 x2
   a3                    7              1                      0                   1
                         5              1                      -1                 -1
                         6              1                      -1                 -1   Wobei x1 und x2 die Kodiervariablen
                         7              1                      -1                 -1   darstellen. Führt man eine
                         6              1                      -1                 -1   entsprechende lineare Regression
                         8              1                      -1                 -1   (Fehlerquadratminierung) durch so
                                                                                       erhält man:
                                                                                               y  4,733  1,933x1  0, 267 x2
                                                                                               62
 b0: Gesamtmittelwert; b1+b0: Mittelwert der ersten Gruppe; b2+b0: Mittelwert der zweiten Gruppe; -b1-
 b2+b0: Mittelwert der dritten Gruppe. Regressionskoeffizient: R2=0,647.
Prof. Dr. R. Blickhan                  Statistik II
        2. Varianzanalyse
        2.3 SPSS und ANOVA und ANCOVA
        Verbindung zur Allgemeinen Linearen Analyse
Als Matrix formuliert:
                                         Kürzer:
                                                      y  A* b  c0 c1 c2  * b
      2  1     1     0
     3  1      1     0
                       
      4  1     1     0
                       
     3  1      1     0
                                         Lösung:
      2  1     1     0
                       

                                                                     
     3  1      0     1                                                1
      4  1
       
                  0     1  b0 
                          
                                                      b A *A  T
                                                                               * AT * y
     6   1    0     1  *  b1 
                               
     5  1            1  b3 
                            
                  0
       
     7  1      0     1
                                                  Wer möchte kann es mit MATLAB
     5  1      -1    -1
     6  1                                          probieren.
                  -1    -1
                       
     7  1      -1    -1
     6  1      -1    -1
                       
     8  1
               -1    -1
                                                                                         63
Prof. Dr. R. Blickhan   Statistik II
        2. Varianzanalyse
        2.3 SPSS und ANOVA und ANCOVA
     Noch einmal einiges zu den Voraussetzungen für ANOVA.
     1. Stichproben müssen zufällig sein.
     2. Bei mehrfachen Stichproben müssen diese unabhängig sein.
     3. Die Varianzen müssen homogen sein, d.h. die ejk müssen
     gleich sein. (Homogenitätstest)
     4. Die Verteilungen der Grundgesamtheit müssen normal sein.
     5. Die Effekte müssen additiv sein (Tukey Test). Bei
     multiplikativen Effekten empfiehlt sich eine
     Transformation (durch logarithmieren erhält man
     wieder additive Effekte).

                                                               64
Prof. Dr. R. Blickhan    Statistik II
        2. Varianzanalyse
        2.3 SPSS und ANOVA und ANCOVA
     Beispiel: Mehrfaktorielle univariate ANOVA (varana.sav)

     Erster Schritt: Einfaktorielle:

     1 Faktor, mit 3 Stufen. Fallzahlen sind unterschiedlich.
     Allgemeines lineares Modell, Univariat, m1 in abhängige
     Variable, alter als fester Faktor.

     Korrigiertes Modell: Korrektur wegen unterschiedlicher
     Stichprobengröße.
     F: jeweils das Verhältnis der Terme durch die Fehlerquadrate.
     Unten: Korrelationskeffizient^2 aus der Regression.
                                                                     65
Prof. Dr. R. Blickhan   Statistik II
        2. Varianzanalyse
        2.3 SPSS und ANOVA und ANCOVA
     Beispiel: Mehrfaktorielle univariate ANOVA (varana.sav)

     Zweiter Schritt: Einfaktorielle mit Zufallsfaktor:

     1 Faktor, mit 3 Stufen. Fallzahlen sind unterschiedlich.
     Allgemeines lineares Modell, Univariat, m1 in abhängige
     Variable, alter als Zufallsfaktor.

     Jetzt tauchen 2 Fehler auf. Der eine wird dem Alter der andere
     der Konstanten zugeordnet und die Formeln der M(ean)
     S(quares) sind unter der Tabelle angegeben. Man sieht, dass fast
     die gesamte Varianz des Alters in den Fehler eingeht.
                                                                   66
Prof. Dr. R. Blickhan   Statistik II
        2. Varianzanalyse
        2.3 SPSS und ANOVA und ANCOVA
     Beispiel: Mehrfaktorielle univariate ANOVA (varana.sav)

     Zweiter Schritt: Einfaktorielle mit Zufallsfaktor:

     1 Faktor, mit 3 Stufen. Fallzahlen sind unterschiedlich.
     Allgemeines lineares Modell, Univariat, m1 in abhängige
     Variable, alter als Zufallsfaktor.

     Jetzt tauchen 2 Fehler auf. Der eine wird dem Alter der andere
     der Konstanten zugeordnet und die Formeln der M(ean)
     S(quares) sind unter der Tabelle angegeben. Man sieht, dass fast
     die gesamte Varianz des Alters in den Fehler eingeht, F wird
     deutlich kleiner und damit die Irrtumswahrscheinlichkeit p     67
     größer.
Prof. Dr. R. Blickhan   Statistik II
        2. Varianzanalyse
        2.3 SPSS und ANOVA und ANCOVA
     Beispiel: Mehrfaktorielle univariate ANOVA (varana.sav)
     Mit Zufallsfaktor

     2 Faktoren, mit 2 und 3 Stufen, ergibt 6 Zellen oder Gruppen
     von Probanden. Fallzahlen sind unterschiedlich.
     Allgemeines lineares Modell, Univariat, Einfach mehrfaktoriell,
     m1 in abhängige Variable, geschl als fester Faktor und alter als
     Zufallsfaktor.




                                                                   68
Prof. Dr. R. Blickhan     Statistik II
        2. Varianzanalyse
        2.3 SPSS und ANOVA und ANCOVA
     Beispiel: Mehrfaktorielle univariate ANOVA (varana.sav)

     Wir erhalten die Mittelwerte, ihre Zuordnung und die Fallzahlen.
     Schauen wir uns die Signifikanz von F an: Es gibt eine globale
     Signifikanz bei den Haupteffekten. Sie ist aber im Alter und nicht
     im Geschlecht begründet. (Dies hätte man bereits aus den
     Mittelwerten vermuten können). Wechselwirkung liegt ebenfalls
     keine vor. Die Gedächtnisleistung nimmt mit dem Alter ab.

     Was fehlt: Prüfung auf Normalverteilung und Homogenität. Sowie Scheffe-Test
     zur Prüfung welche Zelle signifikant unterschiedlich ist.


                                                                           69
Prof. Dr. R. Blickhan     Statistik II
        2. Varianzanalyse
        2.3 SPSS und ANOVA und ANCOVA
     Aufgabe: Univariate Varianzanalyse (hyper.sav)

     Frage: Haben Medikamente, Altersgruppe und Geschlecht einen
     Einfluss auf den diastolischen Blutdruck nach 12 Monaten? Führen
     Sie eine Varianzanalyse durch. Überlegen Sie sich ihr Modell. Wie
     lautet das Ergebnis der Analyse und wie lässt es sich interpretieren?

               http://www.biomechanik.uni-jena.de/Spezial

                Medien  Statistik



                                                                    70
Prof. Dr. R. Blickhan   Statistik II
        2. Varianzanalyse
        2.3 SPSS und ANOVA und ANCOVA
     Beispiel: Kovarianzanalyse (gewicht.sav)

     11 Männer und 9 Frauen wollten abnehmen und unterziehen sich
     einer festgelegten Diät. 11 Probanden schlossen sich zusätzlich einem
     Verein an. Das Körpergewicht wurde registriert und durch
     Berechnung des Broca-Indexes (Normalgewicht = Körperlänge in cm
     – 100; BROCA=Körpergewicht*100/Normalgewicht; Heute durch
     BMI abgelöst).
     Allgemeines lineares Modell, Einfach mehrfaktoriell, die Differenz
     brocaab zur abhängigen Variablen, beh u. g zu Faktoren.
     Nehmen Sie ein Modell nur mit Haupteffekten. Die Vereinsgruppe
     zeigt eine deutlich höhere Abnahme, diese ist auch signifikant.
     (Schauen Sie sich das vielleicht auch in einem Graphen an.)
                                                                  71
Prof. Dr. R. Blickhan   Statistik II
        2. Varianzanalyse
        2.3 SPSS und ANOVA und ANCOVA
     Beispiel: Kovarianzanalyse (gewicht.sav)

     Schaut man sich die Daten genauer an, so stellt man fest, daß das
     Ausgangsgewicht der Vereinsgruppe deutlich höher ist. Das
     Abnehmen wird damit natürlich leichter. Damit wird das
     Gewichtindex broca0 zur Kovariaten. Und siehe da, die wichtigste
     Größe ist in der Tat der Ausgangswert. Wird er in einem gesättigten
     Modell berücksichtigt, so sind die anderen Einflüsse nicht mehr
     signifikant. Schlecht für den Verein!




                                                                   72
Prof. Dr. R. Blickhan   Statistik II
        2. Varianzanalyse
        2.3 SPSS und ANOVA und ANCOVA
     Beispiel: Univariate ANOVA mit Meßwiederholung (varana.sav)

     Statistik, Allgemeine Lineare Modelle, Meßwiederholungen, Faktoren
     definieren,
     für Faktor 1: zeit mit 4 Niveaus,Hinzufügen, Definieren, M1 bis M4
     als Innersubjekt Variablen, alter und geschl in Zwischensubjekt
     Faktoren, in Optionen Mittelwerte für geschl und alter ausgeben
     lassen, OK
     Die ungew. Mittelwerte beziehen sich auf die tatsächlichen
     Zellumfänge, die gewichteten sind für den Fall ungleicher
     Zellumfänge mit einer Korrektur versehen.
     Aus dem Schema der Varianzanalyse ergibt sich wieder ein
     hochsignifikanter Effekt bezüglich des Alters.
                                                                73
Prof. Dr. R. Blickhan         Statistik II
        2. Varianzanalyse
        2.3 SPSS und ANOVA und ANCOVA
     Beispiel: Univariate ANOVA mit Meßwiederholung (varana.sav)

     Der Faktor Zeit wird nach dem allgemeinen linearen Modell berechnet
     (multivariate ANOVA). Die fremden Namen Pillai‘s Trace, Hotelling‘s Trace,
     Wilk‘s Lambda und Roy‘s largest Root sind dazugehörige Prüfgrößen. Sie werden
     durch einen F-Wert angenähert. Die unterschiedlichen Maße führen zu nahezu den
     gleichen Ergebnissen. Er ist damit weitgehend wechselwirkungsfrei. Allerdings
     zeigt die Zeit einen hochsignifikanten Einfluß. Dies bestätigt sich auch in dem zum
     Schluß angegebenen univariaten Verfahren.
     (Die Prüfung der Sphärizität zeigt, dass die Kovarianzmatrix sphärisch ist, also ähnlich für
     alle Komponenten.)
     Bei der Prüfung über Kontraste wird geprüft ob Zusammenhänge linearer oder
     höherer Ordnung zu beobachten sind. Die Zeit hat nicht nur einen Einfluss, sondern
     ihr Einfluss wächst linear an. Diese weitergehende Annahme führt auch zu einer
     Signifikanz der altersbezogenen Interaktionsterme. Die zunehmenden Effekte
     treten also insbesondere in Kombination mit bestimmten Altersgruppen auf. 74
     Schauen Sie sich die Mittelwerte an.
Prof. Dr. R. Blickhan   Statistik II
        2. Varianzanalyse
        2.3 SPSS und ANOVA und ANCOVA
     Beispiel: Multivariate Varianzanalyse (hyper.sav)

     Hier wird der Einfluß von Variablen und Kovariaten auf mehrere
     Variablen gleichzeitig untersucht. Dies sollte man aber nur dann
     tun, wenn die abhängigen Variablen untereinander
     Korrelationen aufweisen!

     In der Hypertoniestudie zeigt sich eine deutliche Korrelation
     zwischen den Ausgangswerten des systolischen und diastolischen
     Blutdruckes, des Cholesterins und des Blutzuckers (rrs0, rrd0, chol0,
     bz0). Prüfen Sie dies nach (Regression, Korrelation).


                                                                   75
Prof. Dr. R. Blickhan        Statistik II
        2. Varianzanalyse
        2.3 SPSS und ANOVA und ANCOVA
     Beispiel: Multivariate Varianzanalyse (hyper.sav)

     Zur Wiederholung: Wiederholen Sie eine mehrfaktorielle
     Varianzanalyse unter Berücksichtigung von Kovarianten (ANCOVA)
     sowie eine multivariable.

     Was ist der Unterschied zwischen einer multivariaten Analyse und einer Analyse mit
     Messwiederholungen?




                                                                                      76
Prof. Dr. R. Blickhan      Statistik II
        3. Faktoranalyse
        3.1 Grundlagen
     Auch der Faktorenanalyse liegt ein lineares Modell zugrunde.
     Allerdings ist sie vor allem ein Hilfsmittel, um die Komplexität zu
     reduzieren. Ziel ist es, eine möglichst geringe Zahl von Faktoren zu
     finden, welche die gefundenen Abhängigkeiten möglichst weitgehend
     erklären.
     Im ersten Schritt werden die Variablenwerte standardisiert (z-Transformation)
     anschließend werden die Korrelationskoeffizienten zwischen den Variablen
     berechnet. Diese sind gegenüber einer linearen Transformation unabhängig. Es
     ergeben sich also die gleichen Werte, wenn man die alten Meßwerte linear
     transformiert, d.h. neue Variablen (Faktoren) einführt, die sich als
     Linearkombination aus den alten ergeben (Koeffizientenmatrix der

                                   z ij   a il f lj
     Komponentenwerte).

                                           l
     Wobei ail die Ladungen zum Faktor fl darstellen.                          77
     G. Clauß, H. Ebner, Grundlagen der Statistik, Volk und Wissen, Berlin, 1983
Prof. Dr. R. Blickhan        Statistik II
        3. Faktorenanalyse
        3.1 Grundlagen
     Es macht offenbar keinen Sinn, eine Faktoranalyse mit unkorrelierten Daten durchzuführen!
     Prüfen Sie also zunächst die Korrelationsmatrix. Dies kann man unter Berücksichtigung der
     Standardisierung ausformulieren. Hieraus ergibt sich, dass die Korrelationskoeffizienten
     zweier Variablen gleich dem Skalarprodukt der Ladungsvektoren der eingeführten
     Faktoren ist. Das Skalarprodukt zweier Vektoren ist unabhängig von der Orientierung des
     Koordinatensystems. Damit hat auch die Lösung eine gewisse Beliebigkeit. Die
     Maximierung der Ladungsquadrate des ersten Faktors (das Skalarprodukt muss immer noch
     die Korrelationskoeffizienten ergeben) führt zu einer Eigenwertgleichung (also einer
     definierten Drehung des Koordinatensystems). Zur Korrelationsmatrix werden also die
     Eigenwerte und die Eigenvektoren bestimmt. Die Eigenwerte entsprechen dem Anteil der
     Varianz, der durch den Faktor erklärt wird. (Gesamtwert: Zahl der Variablen * 1.) Die
     Eigenwerte werden in absteigender Folge sortiert. Extrahiert werden üblicherweise
     Eigenwerte > 1. Faktoren, die also weniger Varianz beschreiben als durch eine Variable
     gegeben ist (1), werden ausgeschlossen (Kaisers Kriterium). Eine weitere Methode ist der
     Scree- oder Gerölltest, indem nach einem Knick in den aufgetragenen Eigenwerten gesucht
     wird.

                                                                                     78
Prof. Dr. R. Blickhan        Statistik II
        3. Faktorenanalyse
        3.1 Grundlagen
     Zu den Kommunalitäten und Eigenwerten:
     Der Eigenwert gibt also an, welcher Teil der Gesamtstreuung aller Variablen durch einen
     bestimmten Faktor erklärt wird. Er ist ein Qualitätsmaß für den jeweiligen Faktor und
     ergibt aus der Summe der quadrierten Faktorladungen für den jeweiligen Faktor.
     (Spaltenwerte der Komponentenmatrix quadriert und summiert)
     Die Kommunalität gibt an, welcher Teil der Streuung einer Variablen durch die
     extrahierten Faktoren erklärt wird. Er wird berechnet aus der Summe der quadrierten
     Ladungen der beteiligten Faktoren. (Zeilenwerte der Komponentenmatrix quadriert und
     summiert)

     Nach der Standardisierung beträgt die Streuung jeder Variablen 1. Die Gesamtstreuung
     entspricht also der Zahl der Variablen. Wenn die Streuung der Variablen restlos durch die
     neu eingeführten Faktoren erklärt wird, wird also auch wieder der Wert 1 erreicht. Dies
     gilt also für die anfängliche Zerlegung. Wird jedoch eine begrenzte Zahl von Faktoren
     extrahiert, so können diese nicht mehr die gesamte Varianz erklären, die Kommunalitäten
     werden kleiner als 1.

                                                                                        79
Prof. Dr. R. Blickhan      Statistik II
        3. Faktorenanalyse
        3.1 Grundlagen
     Die zu den Eigenwerten gehörenden Eigenvektoren nennt man Faktoren, ihre
     Elemente Faktorladungen. Diese entspricht den durch diesen Faktor erklärten
     Varianzen. Die Faktoren sind orthogonal, d.h. Varianzen, welche durch einen
     Faktor erklärt werden, treten im nächsten Faktor nicht wieder auf.

     Zur Datenstruktur: Es sollten mehr Proben als Variable vorhanden sein. Die
     Stichprobe sollte zuverlässig sein.
     Aufgrund der Beliebigkeit des Koordinatensystems verbleibt die Schwierigkeit der
     Interpretation. Was bedeuten die Faktoren? Hier ist die Fantasie und das
     Verantwortungsbewußtsein des Wissenschaftlers gefragt.

     Diese beschriebene Art der Analyse nennt sich exploratorisch. Es gibt aber auch
     konfirmatorische, in welchen mit einer hypothetischen Ladungsverteilung
     verglichen wird.

                                                                               80
Prof. Dr. R. Blickhan   Statistik II
        3. Faktorenanalyse
        3.1 Grundlagen
     Rotation:
     Die ersten Faktoren werden so ermittelt, daß maximale Korrelationen
     entstehen. Es ist nun oft so, daß zahlreiche Zellen sich auf den ersten
     Faktor beziehen, obgleich die einzelnen Korrelationen gering sind.
     Es macht also Sinn Rotationen derart einzuführen, daß eine enge
     Beziehung zwischen einzelnen Faktoren und einzelnen Zellen
     besteht.
     Durch die Rotation z.B. mit Hilfe der Varimax-Methode ermittelt
     man orthogonale Faktoren (Hauptachsen), die also unabhängig sind.
     Vergleichen Sie die Faktorladungen vor und nach der Rotation. Es
     gibt aber auch Bestrebungen, schräge Bezugsgrößen einzuführen.
     Unabhängige Faktoren können artifiziell sein. Hat man die hierzu
     gehörigen Eigenwerte ermittelt, so werden die zahlreichen Variablen
                                                                      81
     mit Hilfe weniger Faktoren beschrieben.
Prof. Dr. R. Blickhan   Statistik II
        3. Faktorenanalyse
        3.1 Grundlagen
     Hauptkomponenten und Hauptachsen (für Spezialisten):
     Die Faktoranalyse beschreibt nur die gemeinsame Varianz, also nur
     die, die durch Wechselwirkung zu erklären ist. Die eigene
     wechselwirkungsfreie Varianz (z.B. alpha) wird mit dem Meßfehler
     epsilon in einen Topf geworfen und nicht untersucht. In der
     Hauptkomponentenanalyse wird sogar so getan, als gäbe es diesen
     Anteil (alpha und epsilon nicht), die gesamte Varianz erhält den Wert
     1. Dies ist ein Unterschied zur Hauptachsenfaktorisierung. Dort wird
     also nur die gemeinsame Varianz erklärt und nicht die eigene. In der
     Hauptachsenfaktorisierung liegt die Testvarianz oder Kommunalität
     zwischen 0 und 1. In jedem Fall liegen unabhängige Eigenwerte zu
     Grunde. Uff! Jetzt haben wir genug „Grundlagen“ gelegt.
                                                                   82
Prof. Dr. R. Blickhan       Statistik II
        3. Faktorenanalyse
        3.1 Beispiele (ausland.sav) selbst bearbeiten
     An zwei Betrieben in Hessen wird die Einstellung gegenüber
     AusländerInnen untersucht. 90 Personen wurden befragt. Vorgelegt
     wurden 15 Aussagen (leider sind sie nicht in der Datei!):
     1. Die Integration der Ausländer muß verbessert werden.
     2. Das Flüchtlingselend muß gelindert werden.
     3. Deutsches Geld sollte für deutsche Belange ausgegeben werden.
     4. Deutschland ist nicht das Sozialamt der Welt.
     5. Ein gutes Miteinander ist anzustreben.
     6. Das Asylrecht ist einzuschränken.
     7. Die Deutschen werden zur Minderheit.
     8. Das Asylrecht ist europaweit zu schützen.
     9. Die Ausländerfeindlichkeit schadet der deutschen Wirtschaft.
     10. Wohnraum sollte zuerst für Deutsche geschaffen werden.
     11. Wir sind auch Ausländer fast überall.
     12. Multikulturell bedeutet multikriminell.
     13. Das Boot ist voll.
     14. Ausländer raus.                                                83
     15. Ausländerintegration ist Völkermord.
Prof. Dr. R. Blickhan   Statistik II
        3. Faktorenanalyse
        3.1 Beispiele (ausland.sav)
     Die Antworten wurden mit einer Skala von sieben Punkten gegeben
     (1: völlige Ablehnung, 7 völlige Zustimmung).
     Analysieren, Dimensionsreduktion, Faktorenanalyse, Deskr.
     Statistiken: Anfangslösung, Extraktion: Hauptkomponenten,
     Rotation: Varimax,
     Werte: Regressionsmethode, Als Variablen speichern,
     Koeffizientenmatrix anzeigen,
     Optionen: Koeffizienten sortiert nach Größe, Unterdrücken von
     Absolutwerten kleiner 0,5
     OK



                                                               84
Prof. Dr. R. Blickhan         Statistik II
        3. Faktorenanalyse
        3.1 Beispiele (ausland.sav)
     Jetzt kommt der spannende Teil: Die Interpretation. Vorsicht, in der ersten Extraktion zur
     Analyse (Hauptkomponenten und-Achsen) markieren die *** Grenzen innerhalb der
     Tabelle. Der erste Faktor hat also nichts mit der ersten Variablen zu tun. Schauen Sie, an
     welchen Kreuzungspunkten die Faktoren am höchsten belegt sind (bis ca. 0.5):
     Faktor 1: A14, A12, A15, A13, A4, A7,
     Faktor 2: A5, A8, A2, A1, A9
     Faktor 3: A6, A3, A10, A7,
     Das können Sie jetzt weiter umsetzen!
     Faktor 1: Aggressive Ausländerfeindlichkeit,
     Faktor 2: Ausländerfreundliche Einstellung.
     Faktor 3: Soziale Bedenken




                                                                                         85
Prof. Dr. R. Blickhan   Statistik II
        3. Faktorenanalyse
        3.1 Beispiele (ausland.sav)
     Schauen Sie sich auch für einzelne Personen die Faktorbelegung
     an. Sie ist entsprechend unserem Befehl jetzt in der Tabelle zu
     finden. Nehmen Sie als Beispiel Fall 4, Fall 17 und Fall 6. Sie
     werden sehen, wie gut sich die Personen einordnen lassen.

     Schauen Sie sich noch einmal die Voraussetzungen an. Wie hoch
     sind die Korrelationen? Sie können sich auch die Signifikanz
     dieser Korrelationen anzeigen lassen. Weitere brauchbare
     Prüfungen sind diesbzgl. das KMO- oder Kaiser-Meyer-Olki-Maß
     und der Bartlett Test auf Sphärizität. Das KMO-Maß für die
     Angemessenheit der Stichprobe bedeutet 0.9 - 1 fabelhaft, 0.8-
     0.9:recht gut;0.7-0.8: mittelprächtig; 0.6 - 0.7: mäßig; 0.5-
     0.6:schlecht; unter 0.6 inakzeptabel.
                                                                  86
Prof. Dr. R. Blickhan      Statistik II
        3. Faktorenanalyse
        3.1 Beispiele (fkv.sav)
     Freiburger Fragebogen zur Krankheitsverarbeitung:
     1. Information über Erkrankung und Behandlung suchen
     2. Nicht-Wahrhaben-Wollen des Geschehens
     3. Herunterspielen der Bedeutung und Tragweite
     4. Wunschdenken und Tagträumen nachhängen
     5. Sich selbst die Schuld geben
     6. Andere verantwortlich machen
     7. Aktive Anstrengungen zur Lösung der Probleme unternehmen
     8. Einen Plan machen und danach handeln
     9. Ungeduldig und gereizt auf andere reagieren
     10. Gefühle nach außen zeigen
     11. Gefühle unterdrücken, Selbstbeherrschung
     12.Stimmungsverbesserung durch Alkohol und Beruhigungsmittel suchen
     13. Sich mehr gönnen
     14. Sich vornehmen intensiver zu leben
     15. Entschlossen gegen die Krankheit ankämpfen
     16. Sich selbst bemitleiden
     17. Sich selbst Mut machen                                            87
Prof. Dr. R. Blickhan       Statistik II
        3. Faktorenanalyse
        3.1 Beispiele (fkv.sav)
     18. Erfolge und Selbstbestätigung suchen
     19. Sich abzulenken versuchen
     20. Abstand zu gewinnen versuchen
     21. Die Krankheit als Schicksal annehmen
     22. Ins Grübeln kommen
     23. Trost im religiösen Glauben suchen
     24. Versuch in der Krankheit einen Sinn zu sehen
     25. Sich damit trösten, daß es andere noch schlimmer getroffen hat
     26. Mit dem Schicksal hadern
     27. Genau den ärztlichen Rat befolgen
     28. Vertrauen in die Ärzte setzen
     29. Den Ärzten mißtrauen, die Diagnose überprüfen lassen, andere Ärzte aufsuchen.
     30. Anderen Gutes tun wollen
     31. Galgenhumor entwickeln
     32. Hilfe anderer in Anspruch nehmen
     33. Sich gern umsorgen lassen
     34. Sich von anderen Menschen zurückziehen
     35. Sich auf frühere Erfahrungen mit Ähnlichen Schicksalsschlägen entsinnen     88
3. Faktorenanalyse
3.1 Beispiele (fkv.sav)

• Der Psychologe vermerkt die Ausprägung:
  1: gar nicht, 2: wenig, 3: mittelmäßig, 4:
  ziemlich, 5: sehr stark
• 160 Patienten




                                               89
Prof. Dr. R. Blickhan   Statistik II
           4. Pfadanalyse
           4.1 Grundlagen
     Die Pfadanalyse stellt eine spezielle Version der multiblen
     Regression dar. Hypothetisch wird ein bestimmtes Ursache-
     Wirkungs-Gefüge angenommen. Es gibt also Einflußgrößen und
     Zielgrößen. Die Einflußgrößen zeigen nur untereinander
     Wechselwirkung und zeigen keine Wechselwirkung mit den
     Zielgrößen. Letztere werden dagegen untereinander und von den
     Einflußgrößen beeinflußt. Auch hier werden lineare
     Zusammenhänge angenommen.

                 b11                   Y1
            X1
                                        a21
     r13
            X2                         Y2

                              b13
            X3                         Y3                       94
Prof. Dr. R. Blickhan             Statistik II
        4. Pfadanalyse
        4.1 Grundlagen
     Die multible Regression gibt den Zusammenhang mit mehreren Variablen
     wieder. Die Regressionskoeffizienten (Achsenabschitt und partiellen Anstiege
     legen den Zusammenhang fest.
    y a a x a x
             0     1 1       2 2
                                      Um die Stärke des Zusammenhangs
                                      vergleichbar machen zu können, werden die
                                      Größen z-Transformiert. Dann fallen die
                                      Achsenabschnitte weg und die Anstiege
                                      entsprechen den Korrelationskoeffizienten
       y
                                      (beta in SPSS, vgl. Statistik 1)

                                                 Y
                                                               Y  b1 X 1  b 2 X 2
                        x2
                                                     X2

                             x1                                                95
                                                          X1
Prof. Dr. R. Blickhan              Statistik II
        4. Pfadanalyse
        4.1 Grundlagen
     Wirkt die Größe X3 indirekt über X1 auf Y so gilt:

          Y  b1 X 1  Rest1
          X 1  b 2 X 3  Rest 2
          
          Y  b1 ( b 2 X 3 )  b1Rest 2  Rest1
          Y  b1 ( b 2 X 3 )  Rest


         Der Einfluß der über Umwegen wirkenden
         Größen ergibt sich also aus dem Produkt der
         Korrelationskoeffizienten.



                                                          96
Prof. Dr. R. Blickhan          Statistik II
        4. Pfadanalyse
        4.1 Grundlagen
     Nach der Skizze des Pfades erfolgt also die Formulierung der
     linearen, normalisierten Regressionsgleichungen:

                        Y1  b11 X 1  b12 X 2  b13 X 3  e1
                        Y2  b 21 X 1  b 22 X 2  a 21Y1  e 2
                        Y3  b 31 X 1  a 31Y1  a 32Y2  e 3


     Die verbleibenden Fehler haben den Betrag 1-R2.



                                                                    97
Prof. Dr. R. Blickhan       Statistik II
        4. Pfadanalyse
        4.2 Beispiele (hyper.sav)
     Aus dem Diagramm ergeben sich für jede abhängige Variable die Gleichungen. Wir
     müssen jetzt für jede dieser Variablen die entsprechende lineare Regression
     errechnen.         Bz0 = b1 gew + b2 a + e1;
                        chol0 = b3 gew + b4 a + e2;
                        gew = b5 a + b6 gr + e3
     Die b des Ausdrucks entsprechen den standardisierten Koeffizienten (bi; b1= rBz0,g).
     Die ei betragen
                               1  ri2




               Alter: a                     Gewicht:gew

                                            Cholesterinspl.: chol0
                Größe: gr
                                            Blutzucker: bz0                     98
Prof. Dr. R. Blickhan     Statistik II
        4. Pfadanalyse
        4.2 Beispiele (hyper.sav)
     Wir implementieren die erste Gleichung:
     Analysieren, Regression, Linear, bz0 in abh. Variable, gew und a in
     unabh. Variable, Methode: Einschluß, Statistik: Schätzungen und
     Anpassungsgüte des Modells, OK
     Auf gleiche Weise implementieren wir die restlichen 3 Gleichungen.
     Aus dem Ausdruck können wir die unten eingetragenen
     Koeffizienten entnehmen.                  .93
               Alter: a         -.21         Gewicht:gew
                                                        .97     .17   .03
                                         .17
                                             Cholesterinspl.: chol0
                Größe: gr .26                            .98
                                         .16 Blutzucker: bz0                99
Prof. Dr. R. Blickhan   Statistik II
        4. Pfadanalyse
        4.2 Beispiele (hyper.sav)
     Die Regressionskoeffizienten sind natürlich gering. Dies kann man
     auch den Daten ansehen, wenn man einen Streuplot durchführt. Jedes
     andere Ergebnis hätte uns wohl eher irritiert. Eine Bemerkung: Die
     Variable a wirkt auf zwei Pfaden auf den Blutzuckerwert ein, einmal
     direkt und einmal auf dem Umweg über das Gewicht. Die
     Nettowirkung über das Gewicht beträgt (-0.21)*(0.17) = (-0.036). In
     unserem Beispiel ist das natürlich nicht mehr viel. Die Summe des
     direkten und indirekten Effektes beträgt also 0.16 - 0.036 = 0.124.
     Versuchen Sie mit den anderen Variablen dieser Datei ein besseres
     Modell. Früher war die Pfadanalyse aufgrund ihres Aufwandes
     verpönt, heute ist sie ein Standardwerkzeug. Übrigens, hier wurde
     nichts anderes als mehrfach eine multible lineare Regression
     durchgeführt.
                                                                100
Prof. Dr. R. Blickhan     Statistik II
        4. Pfadanalyse
        4.2 Beispiele (hyper.sav)
     Korrigiertes R^2:
     Nimmt man bei multibler Regression eine weitere Variable hinzu, so wächst der
     Regressionskoeffizient. Hier besteht also die Verführung, durch eine möglichst
     hohe Zahl beschreibender Größen den Korrelationskoeffizienten anzuheben. Damit
     wird die Beurteilung für die Qualität von Daten geschwächt. Der korrigierte
     Koeffizient berücksichtigt die Zahl der beschreibenden Größen. Er zeigt für eine
     bestimmte Zahl von Größen ein Maximum und ist besser als Maß für die Güte der
     Anpassung geeignet. Wir benötigen allerdings nur die partiellen Koeffizienten.




                                                                            101
Prof. Dr. R. Blickhan   Statistik II
        4. Pfadanalyse
        4.2 Beispiel (Europa.sav)


  Der Datensatz enthält Daten zur Kindersterblichkeit und
  Lebenserwartung in Europa, sowie geographische und klimatische
  Daten. Führen Sie eine neue Variable ein, die die geographische Lage
  (Nord-Süd) wiedergibt. Entwerfen Sie mit den vorliegenden
  Variablen ein Pfaddiagramm, stellen Sie die Gleichungen auf und
  führen Sie eine Pfadanalyse durch. Formulieren Sie das Ergebnis der
  Analyse.




                                                                102
5. Reliabilitätsanalyse
5.1 Hintergrund

Die Reliabilitätsanalyse ist eng mit der Varianzanalyse und der Korrelation
verwandt. Typische Anwendungsgebiete sind die Beurteilung von
Kampfrichtern oder des Designs von Fragebögen. Stellen Sie sich vor, die
gleiche Übung muss von mehreren Kampfrichtern beurteilt werden, dann
ist die Übung dieselbe, aber das Kampfrichterurteil in der Regel nicht. Es
ist auch nicht ausgeschlossen, dass der Kampfrichter die gleiche Übung an
unterschiedlichen Tagen unterschiedlich bewerten würde. Bei Fragebögen
nimmt man an, dass bestimmte Inhalte abgefragt werden und dann auch
eindeutig zugeordnet werden können. Stellen Sie sich vor, Sie erhalten den
gleichen Fragebogen zweimal und würden ihn beim zweiten Mal völlig
anders ausfüllen. Sie würden dann entweder den Fragebogen oder die
befragte Person nicht als sehr zuverlässig betrachten. Die Kunst besteht
also darin, dass der Fragebogen möglichst zuverlässig entworfen wird. Sie
möchten jetzt ein Maß hierfür haben. Als ein solches Maß kann die
IntraClassCorrelation (Korrelation in Klassen) dienen.                   103
5. Reliabilitätsanalyse
5.1 Hintergrund
 Nehmen wir an, wir führen mit einer Reihe von Beobachtern eine
 Beurteilung durch und führen dieser einer Varianzanalyse zu. Dann
 errechnen wir als Zwischenschritte Varianzen innerhalb der Gruppen
 (within) und die Varianz zwischen den Gruppen (between). Wir führen jetzt
 eine Korrelation ein
                                             within 2
                            ICC   
                                      between 2   within 2
Diese Intra-Class-Correlation geht gegen 1 wenn die Varianz zwischen
den Gruppen verschwindet. Dominiert diese Varianz, so ist diese
Korrelation gering.

  Klassische Referenzen sind Shrout und Fleiß (1979) und Griffin und Gonzales (1995).
  (Die ICC ist auch dann von Bedeutung, wenn keine eindeutige Zuordnung zwischen
  abhängiger und unabhängiger Variable möglich ist. Wer ist beispielsweise bei Zwillingen
  die Person 1 und wer die 2?)                                                        104
    5. Reliabilitätsanalyse
    5.1 Hintergrund

Wichtige Verfahren zur Bestimmung der Reliabilität:
•   Test-Retest-Reliabilität: Das Messinstrument wird bei den gleichen
    Untersuchungspersonen wiederholt eingesetzt. Dieses Verfahren ist dann
    geeignet, wenn angenommen werden kann, dass die entsprechende Eigenschaft
    konstant bleibt (sonst würden Änderungen der Messergebnisse auftreten, die man
    als mangelnde R. interpretieren würde) und die Untersuchungspersonen durch die
    erste Messung nicht "lernen" (denn sonst würde die zweite Messung auch wegen
    des Lerneffekts mit der ersten übereinstimmen und so die R. überschätzt).
•   Split-Half-Reliabilität: Ein Messinstrument, das aus mehreren Items besteht, kann
    in zwei Hälften geteilt werden; die Übereinstimmung dieser beiden Hälften kann
    als R. interpretiert werden.
•   Die interne Konsistenz eines aus mehreren Items bestehenden Messinstruments,
    grob gesprochen der Zusammenhang zwischen den einzelnen Items und der
    Gesamtheit der übrigen Items. Die interne Konsistenz wird im allg. anhand von
    Cronbachs Alpha bestimmt.
                                                                                  105
 5. Reliabilitätsanalyse
 5.1 Hintergrund
Cronbachs Alpha: Modell der inneren Konsistenz beruht auf der
durchschnittlichen Korrelation zwischen den Items.
                                        kr
                              a
                                   1  r (k  1)
Dabei steht k für die Zahl der Items und r für den Mittelwert aus allen bivariaten
Korrelationen zwischen den Items.

Konsistenz: Schätzfunktion nähert sich mit zunehmender Stichprobengröße den wahren Wert.




                                                                                     106
5. Reliabilitätsanalyse
5.1 Hintergrund

• Das hier geschilderte Beispiel ist typisch für die Ein-Weg-ICC
  Zufallsmodell oder ICC(1,k) mit k Urteilen.
    – Einweg: Personeneffekte zufällig.

• Es sind auch Zwei-Weg-Korrelationen möglich.
    – Zweiweg gemischt: Personeneffekte zufällig; Itemeffekte fest;
    – Zweiweg zufällig: Itemeffekte zufällig, Personeneffekte zufällig.
    Sowie absolute und Konsistenz-Analysen.

• Voraussetzung:
    – Daten können dichotom, ordinal- und intervallskaliert sein und sollten in
      numerischer Form vorliegen. Fehler zwischen den Items dürfen nicht
      korrelieren, jedes Paar sollte bivariat normalverteilt sein; die Skalen
      sollten additiv sein.


                                                                              107
5. Reliabilitätsanalyse
5.2 Beispiel: Wertung.sav
Die Datei enthält eine fiktive Punktewertung von 4
Punktrichtern.
Analysieren, Skalieren, Reliabilitätsanalyse, Modell: Alpha;
Statistik: Item, Skala, Skala wenn Item gelöscht, ANOVA: F-Test,
Korrelationskoeffizient in Klassen; Modell: Ein-Weg, zufällig,




                                                           108
5. Reliabilitätsanalyse
5.2 Beispiel: Wertung.sav
Zuverlässigkeitsstatistik: Cronbachs alpha ist hoch (sollte größer als 0.7 sein).
Die Korrelation jedes Urteiles (Items) mit den übrigen Urteilen ist hoch.
Die Matrix gibt die Korrelation zwischen allen Paaren an. Richtig schlechte
Urteile sind hier nicht zu erkennen.
Die Gesamtitemstatistik zeigt die korrigierte Korrelation, d.h. die Korrelation
zwischen dem Item und der Skala an, die aus den übrigen Itemwerten
gewonnen wurden. Hinzu kommt Cronbachs Alpha, welches für die Itemas
ohne das ausgewählte ermittelt wurde.
Die ANOVA zeigt keine signifikanten Unterschiede zwischen den Gruppen an.
Korrelationskoeffizient in Klassen: Die „single-rater intra-class correlation“
(einzelne Maße) ist hochsignifikant und zeigt sehr hohe Korrelationen.
Bei den durchschnittlichen Maßen „average of raters“ wird Bezug auf eben
diesen fiktiven mittleren Datensatz genommen. Der hohe Wert zeigt an, dass
der mittlere Datensatz eine gute Richtlinie für die allgemeine Wertung ist.

                                                                         109
5. Reliabilitätsanalyse
5.2 Beispiel: Judge.sav
Die Datei enthält eine große Anzahl von Wertungen von
Punktrichtern unterschiedlicher Nationen. Hängt die Wertung
von den Punktrichtern ab? Sein die Wertungen zuverlässig? Sind
sie konsistent?
Wie sieht in diesem Zusammenhang der „Armchair“-
Kampfrichter aus?
Nehmen wir an, Ihnen stünden lediglich eine Stichprobe aus den
ersten 20 Personen zur Verfügung?




                                                         110
Prof. Dr. R. Blickhan   Statistik II
        6. Klassifizierung
        6.1 Vorbemerkung
     Die Diskriminanzanalyse ist ein Spezialfall der allgemeinen
     MANOVA. Während dort aber die Beschreibung der
     Zusammenhänge im Vordergrund steht, versucht man hier die
     Methode zur Trennung von Gruppen zu verwenden. Entsprechend
     wurde die Methode in Verbindung mit der biologischen Taxonomie
     in den 30er Jahren entwickelt. Häufig werden Regressionen und
     Korrelationsanalysen ohne Rücksicht auf möglicherweise
     bestehende Gruppen durchgeführt und man bekommt vollkommen
     irreführende Aussagen. Manchmal sind die Populationen auch
     ganz eng miteinander verquickt, so dass auf den ersten Blick eine
     Trennung schwierig ist.


                                                                 111
Prof. Dr. R. Blickhan      Statistik II
        6. Klassifizierung
        6.2 Theorie
     Der Weg der Diskriminazanalyse besteht nun darin, wieder eine
     Funktion als Linearkombination aus den bekannten Variablen
     einzuführen (lineare Diskriminanzfunktion-Analyse), die bzgl. der
     zu bildenden Gruppen eine hohe Trennschärfe besitzt. Die so
     gewonnene Funktion kann als Diskriminante zur Unterscheidung
     und Trennung der Gruppen dienen. Die lineare
     Diskriminanzanalyse setzt eine normalverteilte in den einzelnen
     Komponenten unabhängige Grundgesamtheit voraus. Desweiteren
     wird Homogenität erwartet. Im klassischen Ansatz von Fischer
     wird die Funktion so ausgewählt, daß die Differenz des
     Mittelwertes der beiden Gruppen möglichst groß und die Summe
     der Standardabweichungen zu den Gruppenmittelwerten möglichst
     klein ist. Es können Diskriminanzanalysen auch für mehrere Gruppen durchgeführt
     werden bzw. mehrere Diskriminanzfunktionen bestimmt werden.              112
Prof. Dr. R. Blickhan      Statistik II
        6. Klassifizierung
        6.2 Beispiel: lung.sav
     Nehmen wir ein Beispiel aus der Medizin. Für Patienten mit
     schwerer Lungenschädigung wurden folgende Daten erfaßt:
     out: 0 = gestorben, 1 = überlebt; alter: Alter; bzeit: Beatmungszeit
     in Stunden; kob: Konzentration des Sauerstoffs in der
     Beatmungsluft; agg: Aggressivität der Beatmung; geschl:
     Geschlecht; gr: Körpergröße. Out definiert bereits zwei Gruppen.
     Die anderen Variablen sollen jetzt zur Einteilung in zwei Gruppen
     dienen, bzw. es soll geprüft werden ob die Einteilung sinnvoll ist.
     Analysieren, Klassifizieren, Diskriminanzanalyse, out in Gruppenvariable
     (Bereich: 0,1);agg, alter, bzeit, gr, kob in unabhängige Variable; Statistiken:
     Mittelwert, Univariate ANOVAs, Funktionskoeffizienten nicht standardisiert,
     Korrelation innerhalb der Gruppen; Klassifizieren: Diagramme Kombinierte
     Gruppen, Fallweise Ergebnisse, Zusammenfassende Tabelle; Speichern: Werte
     der Diskriminanzfunktion.
                                                                               113
Prof. Dr. R. Blickhan           Statistik II
        6. Klassifizierung
        6.2 Beispiel: lung.sav
     In etwa haben in der Stichprobe etwa die Hälfte überlebt. Die Mittelwerte zeigen geringe
     Unterschiede an, die aber, betrachtet man die Standardabweichung im direkten Vergleich, nicht
     signifikant sein dürften (Sie können es ja prüfen). Etwa 63 % der Frauen ist gestorben. Von den
     Korrelationen ist eigentlich nur die zwischen Geschlecht und Größe erheblich. Hier könnte man sich
     überlegen, ob nicht eine von beiden Größen ausreichen würde. Die einfache Varianzanalyse ergibt
     signifikante Unterschiede zwischen den Gruppen (Ausnahme: Alter). Über Wilk‘s Lambda
     (Quotient aus Summe der quadratischen Abweichungen innerhalb der Gruppe/gesamte Summe der
     quadratischen Abweichungen) wird geprüft, ob sich die Werte der Diskriminanzfunktion für beide
     Gruppen signifikant unterscheiden. Wilk‘s Lambda gibt also an, welcher Anteil der Varianz durch
     die Diskriminate nicht erklärt wird. Ein kleiner Wert wäre besser. Trotz der hohen Restvarianz ist
     das Ergebnis signifikant. Der unter Eigenwert wiedergegebene Wert ist das Verhältnis der
     Quadratsumme zwischen den Gruppen zu der Qadratsumme innerhalb der Gruppen. Man erhält
     diese Werte, wenn man die Werte der Diskriminanzfunktion einer Varianzanalyse unterzieht. Hohe
     Eigenwerte zeigen eine gute Diskriminanzfunktion an. Bei mehreren Diskriminanzfunktionen
     zeigen die Eigenwerte die Lage der Hauptachsen und die Bedeutung der Diskriminanzfunktionen
     an. Der kanonische Korrelationskoeffizient ist die Wurzel aus dem Quotienten der Quadratsumme
     zwischen den Gruppen durch die gesamte Summe (eta bei Varianzanalyse oder r bei zwei Gruppen).
     In der Tabelle ist die Korrelation zwischen Diskriminanzfunktion und den Variablen aufgelistet
     (mittlere Werte für beide Gruppen). Dann folgt die Ausgabe der standardisierten und
     unstandardisierten Koeffizienten der Diskriminanzfunktion.                                   114
Prof. Dr. R. Blickhan         Statistik II
         6. Klassifizierung
         6.2 Beispiel: lung.sav
     Zu den fallweisen Statistiken:

     P(Gi): A-priorie Wahrscheinlichkeit: Wahrscheinlichkeit für Gruppenzugehörigkeit ohne
     weitere Information. Das Ergebnis der Stichprobe gilt dann als repräsentativ für die
     Grundgesamtheit. Wenn also in unserem Fall 63 von 131 Personen überlebt haben, gibt
     dies P(G1) an.
     P(D | Gi): Bedingte Wahrscheinlichkeit: Wahrscheinlichkeit für einen bestimmten Wert
     der Diskriminanzfunktion wenn der Fall einer bestimmten Gruppe entstammt.

     P(Gi | D): Wahrscheinlichkeit mit der ein Fall mit einem bestimmten Funktionswert einer
     bestimmten Gruppe zugehört:

     |
                                             P ( D | Gi ) P (Gi )
                              P (Gi | D ) 
                                             P( D | Gi ) P(Gi )
                                                                                     115
Prof. Dr. R. Blickhan      Statistik II
        6. Klassifizierung
        6.2 Beispiel: lung.sav
     Unter Klassifizierungsergebnisse wird die Treffergenauigkeit
     quantifiziert. Sie ist mit 68 % recht gering. Stellen Sie sich vor Sie
     sind Patient. Für einen Patienten, der 25 Jahre alt und 184 groß ist,
     der 5 Stunden beatmet wurde, bei dem die Sauerstoffkonzentration
     einen Wert von 0.7 und die Aggressivität der Beatmung einen Wert
     von 10 hat ergibt sich ein Wert für die Diskriminanzfunktion von
     (vgl. kanon. Diskriminanzfunktion)
      d = 2.753 + 0.034*10+ 0.041*25 + 0.06 *5 -0.043*184+2.500*0.7=-1.744

     Es ist häufig angebracht schrittweise vorzugehen:
     Schrittweise Methode verwenden; Mahalanobis Abstand;
     Klassifizieren: Zusammenfassende Tabelle
     Mahalanobis Abstand gründet sich auf den Euklidischen Abstand der z-Werte.
     Durch Weglassen ungeeigneter Variablen hat sich die Trefferquote leicht 116
     verbessert.
Prof. Dr. R. Blickhan   Statistik II
        6. Klassifizierung
        6.2 Beispiel: mkarz.sav
     Führen Sie eine entsprechende Analyse mit mkarz.sav durch.
     |Vorsicht bei der Auswahl der Variablen.




                                                                  117
7. Clusteranalyse
7.2 Beispiel: Cluster_EU.sav
Die Clusteranalyse ist ein typisches Verfahren der Evolutionsbiologie und der
modernen Genetik. Es ergeben sich aber auch sehr interessante Anwendungen
in der Verhaltensforschung.
Die Grundidee der Clusteranalyse ist es aus den Abständen zahlreicher
Variablen (Merkmale) Stammbaumartige Gliederungen zu entwickeln. Zweige
mit geringen Entfernungen haben die gleiche Wurzel und liegen
nebeneinander. Jeder Zweig enthält eine relativ homogene Gruppe (Cluster).
Die baumartige Struktur legt ein hierarchisches Vorgehen nahe, (wobei SPSS
für große Datensätze nicht hierarchische Alternativen bietet).

Für die Datenstruktur ist also typisch, dass es Variablen gibt, die eine
Clusterbildung erlauben, und Objekte, die verglichen werden sollen.




                                                                           118
7. Clusteranalyse
7.2 Beispiel: Cluster_EU.sav
Das Beispiel (aus Brosius SPDSS 8) enthält für EU-Beitrittsstaaten
Kenndaten zur Preisstabilität (Januar 1998), Defizit (1997) des öffentlichen
Haushaltes, Schuldenstand (1997) des öffentlichen Haushaltes, die
langfristigen Zinssätze (1998) und WKM (seit 1997), ob der Staat
mindestens seit 2 Jahren am Wechselkursmechanismus des
Währungssystems teilgenommen hat.
Objekte sind also die Staaten, die Variablen sind aufgelistet.




                                                                        119
7. Clusteranalyse
7.2 Beispiel: Cluster_EU.sav
Entscheidend sind die trennenden oder zusammenfassenden Maße. Das einfachste Maß
ist die quadrierte Euklidische Distanz. Bei zwei Objekten X, Y also
                     wobei n die Anzahl der Variablen wiedergibt.
       v
  D   X Y 
                         2
  2            i     i
      i 1



Andere Maße sind:                                                                        Block:
Euklidischer Abstand                                                                              Dist X ,Y   X i  Yi

                             v

                          X             Yi 
                                                  2
              D2                    i                                                   Minkowski:
                         i 1
Kosinus:                                                                                                             v

                                                                                                                     X        Yi 
                                                                                                                                        p
                                                                                                  Dist X ,Y    p

                                                       X Y 
                                                                                                                           i
                                                                                                                    i 1
             ÄhnlichkeitX , Y                                   i i

                                                      x y
                                                         i
                                                             2
                                                                       i
                                                                           2
                                                                                         Benutzerdefiniert:
Pearson-Korrelation:
                                                                                         wie Minkowski mit abweichenden
             Ähnlichkeit X ,Y 
                                                        Z                Xi   ZY i    Exponenten
                                                                   N 1
Tschebeyscheff:
              Dist X ,Y  Max  X i  Yi                 
                                 i


             Manche Maße sind standardisiert (z-Transformation). Dies ist ein wichtiger
                                                                                   120
             Aspekt, da der Vergleich unterschiedlicher Dimensionen problematisch ist.
7. Clusteranalyse
7.2 Beispiel: Cluster_EU.sav
Enthalten die Variablen Häufigkeiten, so sollen entsprechende
Entfernungsmaße zugrunde gelegt werden:
Chi-Quadrat:                 X  E( X )  Y  E (Y ) 
                                                                  2                              2

                    Dist X ,Y            i

                                               E( X i )
                                                          i
                                                                         i

                                                                                E (Yi )
                                                                                         i




Phi-Quadrat:                           X i  E( X i )                Yi  E (Yi ) 
                                                              2                              2

                                          E( X i )
                                                                  
                                                                               E (Yi )
                   Dist X ,Y 
                                                              N

Bei binären Dateien geht die Häufigkeit der in den Objekten
auftretenden binären Information ein.



                                                                                                     121
7. Clusteranalyse
7.2 Beispiel: Cluster_EU.sav
Jetzt müssen die Distanzmaße dazu verwendet werden, um aus mehreren
Objekten (Personen, Arten, Verhalten …) Cluster zu bilden. Im Fall der
hierarchischen Analyse wird zunächst angenommen, dass jedes Objekt bereits
ein eigenständiges Cluster ist. Dann werden die beiden Objekte gesucht, deren
Entfernung zueinander am geringsten ist und zu einem neuen Cluster
zusammengefasst. Damit vermindert sich die Anzahl der Cluster um 1. Dieser
Prozess wird nun mit dem neuen Cluster wiederholt bis letztendlich alle
Cluster zu einem neuen Cluster zusammengefasst werden. Das entscheidende
ist, dass auf diesem Weg Cluster unterschiedlicher Stufe gebildet werden, die
man darstellen kann, der Prozess wird visualisiert, bzw. der Baum wird nicht
vom Stamm aus sondern von der Krone aus rekonstruiert.




                                                                      122
  7. Clusteranalyse
  7.2 Beispiel: Cluster_EU.sav
Sobald mehr als zwei Objekte in den beiden zu vergleichenden Clustern sind ergibt
sich die Frage, wie mit diesen Objekten umgegangen wird. Dies legt die Cluster-
Methode fest.
Linkage zwischen den Gruppen: Hier wird der arithmetische Mittelwert zwischen allen
Paaren (Objekten) zwischen den verglichenen Clustern gebildet.
Linkage innerhalb der Gruppen: Hier werden auch die Entfernungen von Objekten
innerhalb der Gruppen (Cluster) in die Mittelwertbildung einbezogen.
Nächstgelegener Nachbar: Hier wird nur die beiden Objekte und deren Distanz
ausgewählt, die den geringsten Abstand zwischen den beiden Clustern haben.
Entferntester Nachbar: Dito mit größter Entfernung.
Zentroid-Clustering: Mittelwerte der Variablen innerhalb der Cluster. Dann das
verwandte Distanzmaß.
Median-Clustering: Beim Zentroid-Clustering wird der Zentroid als Mittelwert unter
Berücksichtigung der Zahl der Messwerte gebildet , während hier das ungewichtete
arithmetische Mittel erzeugt wird.
Ward: Hier werden auch die Variablenmittelwerte gebildet. Dann werden alle
Distanzen aller Objekte (nicht nur eines Clusters) zum Clustermittelwert gebildet.
Schließlich fasst man die beiden Gruppen zusammen, die hierdurch den geringsten
Zuwachs an der Gesamtdistanz ergibt.                                               123
7. Clusteranalyse
7.2 Beispiel: Cluster_EU.sav

Sie sehen, dass es hier keine starren Schemata und viele Möglichkeiten
ergeben. Sie erhöhen sich noch durch die möglichen Normalisierungen der
Variablen und der Distanzmaße.

Beispiel: Analysieren, Klassifizieren, Hierarchische Cluster, Mitgliedstaat ist
Objekt (Fallbeschriftung), der Rest sind die Variablen, Cluster: Fälle;
Anzeigen: Statistik und Diagramme; In Statistik: Zuordnungsübersicht und
Distanzmatrix; in Diagramm: Dendrogramm, Alle Cluster, Horizontal; in
Methode: Linkage zwischen den Gruppen; Maß: Intervall, Quadrierter
Euklidischer Abstand; Standardisieren: Nach Variablen, Z-Werte.




                                                                         124
7. Clusteranalyse
7.2 Beispiel: Europa.sav
Zur Übung: Sind aufgrund der vorgegebenen Daten
Klassifizierungen möglich? Welche ergeben sich? Sind
die Ergebnisse sinnvoll.




                                                125
               Wiederholungsaufgaben
                Dateien: lehrsit.sav
Die Datei lehrsit.sav enthält die Ergebnisse der Befragung zur
Studiensituation am Institut für Sportwissenschaft im Jahre
2000. Die Variablenlabels enthalten die Fragen des Bogens.

a) Prüfen Sie ob die Zufriedenheit mit dem Studium (Var03)
von den familiären Verpflichtungen abhängen. Wie eng ist der
Zusammenhang? (beachte bei der Auswahl des Testverfahrens
dass die Fragebogenergebnisse nicht intervallskaliert sind.
b) Schätzen Frauen und Männer die allgemeine Belastung im
Studium unterschiedlich ein? Hinweis: Nichtparametrischer
Test für rangskalierte Variablen.
                                                            126
Prof. Dr. R. Blickhan      Statistik II



       Wiederholungsaufgaben
       Dateien: Europa.sav; mkarz.sav)

     1a) Schauen Sie sich das Beispiel Europa an. Was bedeuten die einzelnen
     Variablen?
     1b) Führen Sie eine Varianzanalyse (ANCOVA) der Kindersterblichkeit durch.
     1c) Erstellen Sie ein Flußdiagramm für eine Pfadanalyse. Formulieren Sie die
     Regressionsgleichungen. Notieren Sie die Korrelationen im Flußdiagramm.
     1d) Führen Sie eine Faktoranalyse durch. Welche Bedeutung haben die Faktoren?
     1e) Benutzen Sie einen neuen Faktor „Lage_1“ und führen Sie hiermit eine
     Varianzanalyse durch.

     2a) Führen Sie eine neue Variable „Lage“ mit drei Kategorien ein: EWG, OST,
     WEST ein. Führen Sie mit diesem Faktor eine ANOVA durch.

     3a) Betrachten und interpretieren Sie die Variablen in mkarz.sav.
                                                                           127
     3b) Führen Sie eine Varianzanalyse durch.
Prof. Dr. R. Blickhan    Statistik II

                        Wiederholungsaufgaben
                         Dateien: ruecken.sav
     Die Datei ruecken.sav enthält Ergebnisse einer laufenden
        Untersuchung der Stabilität des Rückens. An einer Hand wird
        unerwarted eine Serie von Impulsen appliziert. Diese führt
        zur Verbiegung der Wirbelsäule und zur Änderung der
        Muskelaktivierung. Aus den Labels kann man etwa ablesen
        was gemeint ist. Vorsicht: Es kommen Variablen mit
        unterschiedlicher Skalierung vor.
     • a) Unterscheidet sich die Höhe der maximalen Aktivierung
        zwischen linkem M. obliqus internis und linkem M. rectus
        abdominis?
     • b) Prüfen Sie, ob der Rampentyp einen Einfluss auf die
        maximale Aktivität des linken M. obliqus internis hat.    128
     • c) Spielt die Reihenfolge (ramp) eine Rolle?
              Wiederholungsaufgaben
               Dateien: ruecken.sav

d) Wählen Sie aus dem Datensatz alle Fälle aus, bei welchen
die Augen geschlossen waren, der Rampentyp in einer
Entlastung bestand, und an der linken Hand gezogen wurde.
Prüfen Sie für den Fall des M. obliqus internis die maximale
Amplitude vom Nachweis eines Reflexes, vom
Reflexintervall und von der Voraktivierung abhängt.




                                                           129
              Wiederholungsaufgaben
               Dateien: ruecken.sav
f) Versuchen Sie für die ausgewählten Fälle für die maximale
   Amplitude der EMGs der gemessenen Muskulatur eine
   Dimensionsreduktion vorzunehmen. Versuchen Sie die
   neuen Variablen und die Qualität der Analyse zu
   beurteilen.




                                                          130
Prof. Dr. R. Blickhan   Statistik II
        8. Zeitreihenanalyse
        8.1 Spektralanlyse
     Die Zeitreihenanalyse ist ein sehr spezielles, in den
     Naturwissenschaften und den Wirtschaftswissenschaften sehr
     verbreitetes Instrument. Ingenieure und Physiker lernen die
     Grundlage der Spektralanalyse meist bereits im ersten oder
     zweiten Semester. Einfache Routinen findet man in MATLAB aber
     auch bereits in Excel.
     Bei der Spektralanalyse wird das periodische Signal in seine
     Sinus- bzw. Cosinusanteile zerlegt. Umgekehrt formuliert kann
     eine Zeitreihe durch Reihen aus Sinus- und Cosinusfunktionen
     unterschiedlicher Frequenz angenähert werden.
                            
                     1
             y (t )  a0   (an cos(nt )  bn sin(nt ))
                     2     n 1
                                                             131
Prof. Dr. R. Blickhan   Statistik II
        8. Zeitreihenanalyse
        8.1 Spektralanlyse
     Für eine Rechteckfunktion gilt beispielsweise:

                 4       4              4
    y(t )  sin(1t )     sin(3t )     sin(5t )  ....
                       3             5

      Die harmonische Analyse erfordert allerdings ausreichend lange
      Zeitreihen.




                                                                 132
Prof. Dr. R. Blickhan      Statistik II
        8. Zeitreihenanalyse
        8.1 Spektralanlyse (Zahn.sav --> Zahn1.sav)
     Wir „verfremnden“ zur Erzeugung geeigneter Zeitreihen eine vorhandene Datei.
     Stellen Sie die Spalte cpitn als Zeitreihe dar: Graphik, Sequenz. (Ein Eindruck
     von cpitn erhalten Sie auch in der entsprechenden Datei). Um einen besseren
     Eindruck zu erhalten reduzieren Sie die Zahl der dargestellten Punkte auf 200
     (Anklicken der Serie und Änderung der Punktezahl ist ziemlich zeitraubend und
     sollte erste einmal zurückgestellt werden. Hier ist SPSS katastrophal). Sie sehen,
     daß diese Zeitreihe ziemlich chaotisch ist. Wir kommen darauf zurück. Es ist
     aber sinnvoll an dieser Stelle etwas zu experimentieren. Wir stellen und einfache
     Kombinationen von Sinusfunktionen her, und identifizieren dieselben in der
     Analyse. Als erstes benötigen wir ein definitives Zeitsignal. Hierzu numerieren
     wir die Fälle einfach durch. Leider können die Fallnummern von SPSS nirgends
     abgerufen werden.
     Stellen sie eine neue Variable (test) mit lauter Einsen her (Transformieren,
     Berechnen).

                                                                                133
Prof. Dr. R. Blickhan   Statistik II
        8. Zeitreihenanalyse
        8.1 Spektralanlyse (Zahn.sav --> Zahn1.sav)
     Jetzt summieren Sie die Einsen in einer neuen Variablen (Nr) auf.
     (Transformieren, Zeitreihen erstellen, kumulierte Summe).
     Vorsicht, hier ist das Programm etwas trickreich mit der
     Variablenbenennung. Jetzt können Sie zur Kontrolle einen Scatter-
     oder Streuplot der Variablen erstellen. Damit es so ähnlich aussieht
     wie vorher müssen Sie die Linien und Symbole ändern.
     Jetzt können wir uns einen Sinus erzeugen:
     Transformieren, Berechnen, sin=2*sin(nr*2*3.1416/200).
     Wie groß ist seine Periode?
     Schauen Sie sich die neue Zeitreihe an (s.o.). Jetzt können Sie eine
     Spektralanalyse durchführen: Grafik, Zeitreihe, Spektralanalyse,
     kein Spektralfenster, Periodogramm nach Periode. Achten Sie auf
     die Achsen. Ändern Sie die logarithmische Achse in eine lineare.
                                                                   134
Prof. Dr. R. Blickhan   Statistik II
        8. Zeitreihenanalyse
        8.1 Spektralanlyse (Zahn.sav --> Zahn1.sav)
     Wir erzeugen jetzt eine weitere Zeitreihe mit gemischten Signalen:
     Transformation, Berechnen,
     2sin=2*sin(nr*2*3.1416/200)+1*sin(nr*2*3.1416/200).
     Schauen Sie sich auch jetzt wieder die Sequenz und das Spektrum
     an (s.o.).
     Wir erzeugen eine weitere Zeitreihe mit den aufgezählten drei
     Termen für ein Rechtecksignal:
     Transformation, Berechnen,
     resyn=4/3.1416*sin(nr*2*3.1416/200)+4/(3*3.1416)*sin(3*nr*2*
     3.1416/200)+ 4/(5*3.1416)*sin(5*nr*2*3.1416/200). Wie sieht
     das Signal und sein Spektrum aus?
     Jetzt erzeugen wir uns ein richtiges Rechtecksignal und
     analysieren es: Transformation, Berechnen, rechte = 1 falls sin>0,
                                                                   135
     rechte =-1 falls sin<=0. Vergleichen Sie Signal und Spektrum.
Prof. Dr. R. Blickhan   Statistik II
        8. Zeitreihenanalyse
        8.1 Spektralanlyse (Zahn.sav --> Zahn1.sav)
     Jetzt führen Sie eine Spektralanalyse von cpitn durch. Sie sehen
     hier ist von jeder Frequenz etwas enthalten. Jetzt erzeugen wir uns
     ein stark verrauschtes Signal:
     Transformieren, Berechnen, sinver=0.5*sin+2*cpitn.
     Bei der Spektralanalyse können Sie den periodischen Anteil
     deutlich sehen.

     Erzeugen Sie für die Signale cpitn, sin und sinver ein Histogramm
     der Amplitudenverteilung und vergleichen Sie dies mit der
     Normalverteilung (kein Test)(Statistik, Deskriptive Statistik,
     Häufigkeiten, Grafiken, Histogram, Normalverteilung). Ein
     Rauschen mit normalverteilter Amplitude nennt man weißes
     Rauschen.
                                                                   136
Prof. Dr. R. Blickhan           Statistik II
        8. Zeitreihenanalyse
        8.2 Autokorrelation und Kreuzkorrelation
        (Zahn.sav --> Zahn1.sav)
     Die Autokovarianz ist wie folgt definiert:

                                               n k
                                      1
                        cxx,l (k ) 
                                     n k
                                                (x
                                               t 1
                                                         t ,l    xl )(xt  k ,l  xl )

      Die Autokorrelation läßt sich hieraus wie folgt berechnen:
                                                      cxx,l (k )
                                   rxx,l (k ) 
                                                      cxx,l (0)
       Dieser Wert ist offensichtlich hoch, wenn sich Anteile des
       Signals mit der Periode von k wiederholen.
                                                                                          137
Prof. Dr. R. Blickhan   Statistik II
        8. Zeitreihenanalyse
        8.2 Autokorrelation und Kreuzkorrelation
        (Zahn.sav --> Zahn1.sav)
     Berechnen Sie die Autokorrelation für die Signale sin, recht, cpitn,
     sinver.
     Berechnen sie die Kreuzkorrelation zwischen den Signalen sinver
     und sin, sowie sinver und cpitn. (Achten Sie darauf, daß Sie
     genügend Punkte (ca. 500) mitnehmen.




                                                                    138
Prof. Dr. R. Blickhan    Statistik II
        8. Zeitreihenanalyse
        8.3 (Auto)regression
        (Zahn.sav --> Zahn2.sav)
     In der Autoregression werden lineare Modelle mit den Zeitreihen
     angesetzt:
               y (t )  b 0  b1 x1 (t )  b 2 x2 (t )  w(t )

     Berechnen Sie die Regression von sinver als abhängige Variable
     bezüglich der unabhängigen Variablen sin und cpitn (statistik,
     Zeitreihe, Autoregression, sinver in abhängige und sin und cpitn in
     unabhängige Variable.). Schauen Sie sich unter Grafik, Sequenz
     den Graphen von fit_1 und sinver an.Sie sehen nur einen. Klicken
     Sie den Grafen an und führen Sie für eine der beiden Sequenzen
     größere Punkte un keine Linien ein. Natürlich liefert der Fit jetzt
                                                                     139
     eine fehlerfreie Anpassung und die richtigen Koeffizienten.
Prof. Dr. R. Blickhan   Statistik II
        8. Zeitreihenanalyse
        8.3 (Autor)egression
        (Zahn.sav --> Zahn2.sav)
     Sie können das Beispiel etwas glaubwürdiger gestalten, indem sie
     ein weitere weißes Rauschen hinzuaddieren. Hierzu generieren Sie
     die neue Variable sinvera = sinver + normal(1). 1 gibt die
     Standardarbweichung des hinzugezählten Rauschens an.

     Die Dokumentation der Autoregressiven Modelle in SPSS ist
     unbefriedigend.




                                                                 140
Prof. Dr. R. Blickhan   Statistik II
        8. Zeitreihenanalyse
        8.4 Arima Grundlagen
     SPSS bietet ein besonderes, immer wichtiger werdendes
     Schmankerl, ARIMA: AutoRegressiveIntegrativeMovingAverage.
     Mit der Varianzanalyse als Basis ist dieses Kapitel nicht schwer.
     Während die Fouriertransformation lange Zeitreihen erfordert, ist
     mit der ARMA bzw. ARIMA schon mit wenigen Samples etwas zu
     machen. Leider liefert hier das Buch wieder keine Beispiele. Ich
     hoffe etwas auftreiben zu können.




                                                                 141
Prof. Dr. R. Blickhan      Statistik II
        8. Zeitreihenanalyse
        8.4 ARIMA Grundlagen
     Die Grundidee der ARMA ist die Zeitabhängigkeit eines Signals
     durch ein Trend oder Grundmuster zu beschreiben auf dem ein
     Zufallssignal (Rauschen) liegt. Durch die Möglichkeit, für ein
     Signal zum Zeitpunkt t auf frühere Samples zurückzugreifen erhält
     das Verfahren eine historische Dimension.

     Überlegen wir uns zunächst einmal was Rauschen bedeutet. Zunächst einmal
     bedeutet es, daß in zeitlicher Reihenfolge zufällig bestimmte Signalamplituden
     auftreten. Für die Dauer meiner Aufnahme kann ich die Häufigkeit ausmessen
     mit welcher in den Samples eine bestimmte Amplitude auftritt, so erhalte ich bei
     einer Serie von zufälligen Rechteckimpulsen natürlich zwei ausgeprägte
     Maxima. Bei einem Gauß‘schen oder weißen Rauschen sind die Amplituden
     normalverteilt. Ein solches Rauschen wird bei der ARIMA berücksichtigt.

                                                                               142
Prof. Dr. R. Blickhan      Statistik II
        8. Zeitreihenanalyse
        8.4 ARIMA Grundlagen
     Wählt man im Menü ARIMA aus, so müssen die Begriffe
     Autoregressiv (p), Differenz (d) und gleitender Durchschnitt (q)
     eingestellt werden. Je nach Einstellung nennt man die Analyse eine
     (p,d,q)-ARIMA. Grundlage ist die (p,q)-ARMA und diese sollte
     auch zunächst durchgeführt werden.

     Autoregressiv „Selbstregressiv“: Trägt man bei einer Zeitreihe x(t+p) als
     Funktion von x(t) in einem Streugraphen auf, so kann sich unter Umständen ein
     linearer Zusammenhang (Trend) ergeben.

     Moving Average „Gleitender Durchschnitt“: Auch hier werden Samples zur Zeit
     t mit vorangegangenen t-q verglichen, aber diesmal mit der Vorstellung, daß sie
     im Mittel verschwinden. Dieser Teil enthält also das Rauschen.
     Entsprechend werden in den ARMA-Modellen die Funktionen angesetzt.
                                                                              143
Prof. Dr. R. Blickhan       Statistik II
        8. Zeitreihenanalyse
        8.4 ARIMA Grundlagen
     Ein (2,2) ARMA-Modell bedeutet also der Ansatz:
              xt  1 xt 1   2 xt 2  wt  1wt 1   2 wt  2
     (w(t): Rauschanteil)
     Nun führt man zwei Operatoren ein: B mit
                            Bxt  xt 1
                            d  (1  B) d

     In vielen Fällen läßt sich dieser differentielle Anteil separieren und
     damit als ARIMA-Modell schreiben.


                                                                      144
Prof. Dr. R. Blickhan        Statistik II
        8. Zeitreihenanalyse
        8.4 ARIMA Grundlagen
     Ein (0,2,2) ARIMA-Modell bedeutet also den Ansatz:
                         2 xt  (1  1 B   2 B 2 ) wt
     oder
                 xt  2 xt 1  xt 2  wt  1wt 1   2 wt 2

     Allgemein:              1  1B  ...  q B q 1
                        xt                            wt
                             1  1B  ...  p B 
                                                  p  d




       Jetzt ist klar wofür die Zahlen stehen.      Integrator
       Je höher d desto höhere Ordnung besitzt das
                                                                   145
       Polynom, welches als Trend beschrieben werden kann.
Prof. Dr. R. Blickhan   Statistik II
        8. Zeitreihenanalyse
        8.4 ARIMA Grundlagen
     In vielen Fällen besitzt das Signal eine Periodizität. Dies läßt sich
     für ein bestimmtes Signal mit Hilfe der Autokorrelationsfunktion
     untersuchen (s.o.). Im Rahmen der Graphiken kann unter
     Zeitreihen die Autokorrelationsfunktion und Anderes errechnet
     werden. Bei einer ARIMA, bei der mit periodischen (täglichen,
     jährlichen etc.) Schwankungen zu rechnen ist, kann entsprechend
     dieser Anteil berücksichtigt werden:




                                                                      146
Prof. Dr. R. Blickhan        Statistik II
        8. Zeitreihenanalyse
        8.4 ARIMA Grundlagen
     Man kann für den saisonalen Effekt allein jetzt wieder eine
     ähnliche Formulierung einführen, wie wir sie bereits kennen:

                         1  1B S  ... Q B QS     1
                  xt                                     wt
                         1  1B S  ...  P B PS   S
                                                        D


         Allgemein ergibt sich also eine Überlagerung beider Effekte:

        1  1 B S  ... Q B QS           1  1 B  ...  B q  1 1
  xt                                                                    w
        1   B S  ...  B PS             1   B  ...  B p   D  d t
             1             P                     1           p     S
          Hierbei wurde angenommen, daß der Mittelwert 0 ist, sonst kommt noch etwas
          dazu. Dies ist also ein ARIMA(p,d,q)x(P,D,Q)S
                                                                            147
Prof. Dr. R. Blickhan        Statistik II
        8. Zeitreihenanalyse
        8.4 ARIMA Grundlagen
     Ein ARIMA (0,1,1) x (0,1,1)12 entspricht also folgendem Modell:

                         12 xt  (1  B )(1  B) wt
                                             12



       Oder ausformuliert:
     xt  xt 1  xt 12  xt 13  wt  wt 1  wt 12  wt 13

     Jetzt wissen Sie auch was mit den saisonalen Einflüssen passiert. Ist also
     eigentlich kein Problem. Das Problem bei SPSS ist, daß es nur so dumme
     Perioden wie, Tage, Stunden oder Wochen zuläßt, die vorher durch Datum
     definieren eingestellt werden müssen. Andernfalls kommt man an diese Option
     nicht dran. Sie sehen wieder, auch scheinbar üppige Software ist schnelle
     begrenzt.                                                                  148
Prof. Dr. R. Blickhan   Statistik II
        8. Zeitreihenanalyse
        8.5 ARIMA Beispiel: geburten.sav
     Dieses Beispiel ist eigentlich nicht für ARIMA konstruiert. Also
     ein Versuch. Schauen Sie sich zunächst die Daten an:
     Graphik, Scatterplot, Einfach, Definition, anz in y-Achse, jahr in
     x-Achse, wo in Gruppenvariable. Die Geburten im Westen nehmen
     zu im Osten nehmen sie ab. ARIMA wird die Gruppenvariable
     ignorieren, das ist also ein ziemlich zackiger Verlauf.
     Statistik, Zeitreihenanalyse, ARIMA, anz in abhängige Variable,
     jahr in unabhängige Variable, (1,1,1) in (p,d,q), OK
     Graphik, Scatterplot, Überlagert, Definition,anz - jahr und fit_1-
     jahr in Y-X Paare,OK.
     Gar nicht schlecht. Aus dem Ausdruck geht hervor, daß vor allem
     der AR-Anteil signifikant hoch ist.
                                                                  149
Prof. Dr. R. Blickhan   Statistik II
        8. Zeitreihenanalyse
        8.5 ARIMA Beispiel: zahn2.sav
     Im Beispiel Zahn2.sav ist das differentielle Verhalten dominierend.
     Ein (1,2,1)-Modell ergibt eine ganz passable Vorhersage. Schauen
     Sie sich das Ergebnis der angepaßten Sequenz an.




                                                                  150
Prof. Dr. R. Blickhan   Statistik II
        9. Schlußbemerkung

     Zu SPSS gibt es Handbücher. Stößt man mit dem bisher gelernten
     an seine Grenzen, so sollte man die Handbücher konsultieren. Ich
     vermute auch, daß SPSS direkt über die Befehlsspache sehr viel
     flexibler und mächtiger ist. Für den häufigen Routinebetrieb lohnt
     es sich also sich angepaßte Algorithmen zusammenzustellen.




                                                                  151

				
DOCUMENT INFO
Shared By:
Categories:
Tags:
Stats:
views:88
posted:12/3/2011
language:German
pages:145