; Statistische Datenanalyse
Documents
Resources
Learning Center
Upload
Plans & pricing Sign in
Sign Out
Your Federal Quarterly Tax Payments are due April 15th Get Help Now >>

Statistische Datenanalyse

VIEWS: 193 PAGES: 55

  • pg 1
									                             Statistische Datenanalyse
                                    Mitschrift W
                                     S 2008/2009

                                         Sitzung 1
Zur Klärung einer bestimmten Fragestellung werden in wissenschaftlichen Untersuchungen Daten
über den interessierenden Gegenstandsbereich gesammelt und zur weiteren Verarbeitung nach
bestimmten Regeln geordnet.
Die Daten können durch Fragebögen, Beobachtungen oder Experimente gewonnen werden.
Der Gegenstandsbereich sollte klar umgrenzt und bestimmt sein.
Die Objekte dieses Gegenstandbereiches, über die Aussagen formuliert werden sollen, werden als
Untersuchungseinheiten (UEen) bezeichnet.
Dies sind zum Beispiel Versuchspersonen, Gruppen, Länder, Firmen, Organisationen, etc.

Entsprechend der Fragestellung sollen bestimmte Eigenschaften oder Aspekte der UE untersucht
werden. Zum Beispiel Alter, Schulform, IQ, Ausgaben pro Jahr, Managergehälter,
Spendeneinnahmen, etc.
Diese Aspekte werden als Merkmale bzw. Variablen bezeichnet.
Die Menge aller möglichen Realisierungen eines Merkmales nennt man
Merkmalsausprägungen bzw. Werte der Variablen.

Die im Versuch realisierten Einzelergebnisse jeder UE werden systematisch beobachtet und
protokolliert. Zum Beispiel ist eine Realisierung des Merkmals 'Alter' eines Studenten in einer
Untersuchung das Alter 25, die Realisierung der Schulform Hochschule, etc.
Die Merkmale müssen so konzipiert sein, dass jede UE genau eine einzige Merkmalsausprägung pro
Merkmal hat.

Die gesammelten Daten können dann in Form einer Matrix angeordnet werden, wobei pro Zeile eine
UE und pro Spalte ein Merkmal aufgeführt wird.

Auszug aus einem Fragebogen zur Studiensituation

Einige Angaben zu Ihrer Person:                    Alter in Jahren:
                                                   Geschlecht: weibl.: 0 männl.: 1
  Körpergröße in cm:                               Gewicht in kg:
                     Wie viele Zigaretten rauchen Sie im Schnitt pro Tag?
Zur familiären Situation:        Wie viele ältere Geschwister haben Sie?
                               Wie viele jüngere Geschwister haben Sie?

Ihr Familienstand?                 verlobt, bzw. fest                     getrennt, gesch.,
                        Ledig 0                           Verheiratet 2
                                   liiert 1                               verwitwet 3

Welche Schulbildung haben Ihre                                                   Vater        Mutter
Eltern?                                  Volksschule                               1            1
Kreuzen sie bitte - für Vater und Mutter Höhere Schule (mit/ohne mittlere Reife)   2            2
getrennt - die höchste Stufe an!         Abitur                                    3            3
                                         Ing.-schule oder Päd. HS, mit Abschluß    4            4
                                         Universität/TH, ohne Abschluß             5            5
                                         Universität/TH, mit Abschluß              6            6
                                                              Sonstiges, weiß nicht                                7             7

Bei einem exklusivem Antwortmuster (z.B.Geschlecht/Wohnform) kann eine Spalte angelegt werden,
in der die unterschiedlich kodierten Ausprägungen (z.B. 0/m für männlich, 1/w für weiblich) notiert
werden.


UE Alter Sex Größe                             Gewicht Anz.      Anz.                 Anz.             Fam.         Bildung Bildung
                                                       Zigarett. jünger.              älterer          stand        Vater   Mutter
                                                                 Geschwister          Geschw.
1      24        m       182                   80      8         --                   2                Ledig        4             3
..



In einer Spalte darf nie mehr als eine Information verzeichnet werden.

Manchmal werden die UE auch kontrollierten Behandlungen (Treatments) ausgesetzt.
Ein Beispiel für dieses zentrale Element des Experimentierens findet sich im Alten Testament im
Buch Daniel (1. Kap.).
Daniel und seine Freunde (Ananias, Misael, und Azarias) sind als jüdische Jugendliche vornehmer Herkunft während der babylonischen
Gefangenschaft an den Hof Nebukadnezars verschleppt worden.
Sie erhalten dort eine babylonische Erziehung und bekommen das gleiche Essen wie der König. Daniel und seine Freunde würden allerdings
lieber streng jüdische Essensvorschriften einhalten; sie wollen auf das dargebotene Fleisch und den Wein verzichten. Sie wenden sich mit
dieser Bitte an den Oberkämmerer. Seine Bedenken bezüglich der Schönheit und Vollheit der Freunde kann Daniel durch ein Experiment zer-
streuen.

Aufgrund des folgenden Berichtes sind zwar die Ergebnisse des Experimentes nicht exakt bekannt. Dem Bericht würden die folgenden Daten
zumindest nicht widersprechen (Schönheit und Vollheit seien auf einer Skala mit 5 Stufen gemessen worden).

Da sprach der Oberkämmerer zu Daniel: „Ich fürchte meinen Herrn, den König, der euch Speis und Trank bestimmte. Fänd er, dass euere
Gesichter schmächtiger als die der anderen Knaben eueres Alters wären, so brächtet ihr beim König mich um meinen Kopf“. Darauf sprach
Daniel zum Wächter, den der Oberkämmerer über Daniel, Ananias, Misael und Azarias gesetzt:

„Versuch es bitte doch 10 Tage lang mit deinen Knechten. Man gebe uns nur Gemüse zu essen und Wasser zu trinken. Besieh dir dann
unsere Gesichter und die der anderen Knaben, die von der königlichen Kost genießen. Und je nachdem, wie der Befund ausfällt, magst du
mit deinen Knechten verfahren“.
Nach Ablauf der 10 Tage aber waren ihre Gesichter sichtlich schöner wie auch voller als die aller anderen Knaben, die von königlicher
Speise zu genießen pflegten. So ließ fortan der Wächter ihre Speise wegnehmen mitsamt dem Wein, den sie genießen sollten; er brachte
ihnen dafür nur Gemüse. (AT Daniel, 1. Kap:, Vers 10-16)1




                                6



                                5                                            M            D


                                4                                            Az       An
                                     schoen4
                             Schön




                                3                             3


                                2                     6       4      1


                                1                             5         2
                                                                                D
                                0
                                         0        1       2         3       4         5        6
                                                                   Voll
                                                                   v oll4
                                     Datenmatrix

                                       name     gruppe    Schoen   Voll
                             1. UE       1      control     2       3
                             2. UE       2      control     1       3
                             3. UE       3      control     3       2
                             4. UE       4      control     2       2
                             5. UE       5      control     1       2
                             6. UE       6      control     2       1
                             7. UE    Daniel      exp       5       5
                             8. UE    ananias     exp       4       5
                             9. UE    azarias     exp       4       4
                            10. UE    misael      exp       5       4




Die Datenpunkte können in die Form einer Datenmatrix übertragen werden mit den Merkmalen Schön
und Voll. Als weitre Merkmale werden noch der Name der Versuchsperson (=Vp) und die
Gruppenzugehörigkeit zur Experimental- bzw. Kontrollgruppe eingeführt.


Da eine zufällige Zuordnung der VP in diesem speziellen Falle nicht möglich war, interessiert die
Frage, ob der Unterschied zwischen den Gruppen in Vollheit und Schönheit schon vor der Behandlung
bestanden hat, bzw. wie die Behandlung über den untersuchten Zeitraum verlaufen ist.
Der gefundene Unterschied könnte also nicht durch das Treatment entstanden sein, sondern von einer
anderen Variable abhängig sein.

Zum Zwecke der Überprüfung dieser Möglichkeit können Messungen an Tag 1,4,7 und 10 der
Untersuchung bzgl. der Vollheit und Schönheit durchgeführt werden.
Die erhaltenen Daten können auf zwei Arten gruppiert werden – in der horizontalen Form, die auch als

Bei solch einem Vorgehen muss die Abhängigkeit der Messungen beachtet werden.
UE in Zeitreihenanalysen sind nicht unterschiedliche ‘Entitäten‘ (Versuchspersonen, Organisationen
etc.) sondern verschiedene Zeitpunkte.
Die Messungen einer Person zu verschiedenen Zeitpunkten sind voneinander nicht völlig unabhängig
(wie in unverbundenen Stichproben, in denen die UEen verschiedene Versuchspersonen sind).
Zur Behebung dieses Problems kann eine Personenvariable eingeführt werden, die interindividuelle
Unterschiede vergleichbar machen lässt. (z.B. Korrektur durch die Varianz).

Weitere Datenstrukturen, die Abhängigkeiten enthalten, sind
Mehrebenendatensätze (Land - Bundesland - Schule - Klasse - Lehrer)
und Netzwerke.(z.B. Interaktionen zwischen VP oder Gruppen)

Auch ein Buch kann als Datenstruktur mit mehreren Ebenen bezeichnet werden
(Kapitel - Unterkapitel - Paragraph - Absatz - etc. )


1.2 Zusammenfassung zur uni- und bivariaten Statistik
                                             Deskription                                      Induktion
Variablen                             Verbal              Grafisch
1                               Lagemaße               Histogramme                 , , ,...
                                Streuungsmaße etc.     Boxplots                    - Anpassungstest,
                                                                                   Mittelwertstest etc.
2                               Kovarianz                  Streudiagramm           ,
                                Korrelation                Mosaicplots
                                2-Test
                                auf Unabhängigkeit
                                PRE-Maße
                                Regressionsanalyse


    Hat eine der Variablen distinkte Ausprägungen (z.B. Geschlecht), kann das 3dimensionale
    Streudiagramm auf zwei Dimensionen abgebildet werden.

    Meist wird die 3. Variable als Kontrollvariable eingeführt, um Scheinkorrelationen oder Schein-
    Nichtkorrelationen ausschließen zu können.
                                                                           Würde man etwa den Zusammenhang zwischen
                                                                           der Variable „Anzahl gegessener Äpfel am Tag“
                                     A                                     und der Variable „Verbrachte Jahre mit den
                                                                           Dritten“ in einer Männerstichprobe untersuchen,
Anzahl Jahre mit den




                                                                           könnte man aufgrund einer Scheinkorrelation die
                               B
                                                                           Annahme machen, je mehr Äpfel man zu sich
                                                                           nehme, desto schneller fielen einem die Zähne
                                                                           aus.
„Dritten“




                                                                           Betrachtet man jedoch die dritte Variable
                                                                           „Alter“(hier in zwei Kreisen als zwei Kohorten –
                                                                           Männer zwischen 50-70 (A) und Männer
                                                                           zwischen 20 -50 (B) - skizziert) entpuppt sich die
                                     Anzahl Äpfel am Tag                   Annahme einer Korrelation zwischen x und y als
                                                                           fehlerhaft.



                                                                  Fragen
                       1.    Was sind Untersuchungseinheiten und welchen Platz nehmen sie im Experiment ein?
                       2.    Was sind Variablen? Geben Sie Beispiele.
                       3.    Wandeln Sie den Studentenfragebogen in eine Datenmatrix um.
                       4.    Wieviele Spalten würden Sie für ein Merkmal mit exklusivem Antwortmuster (z.B.
                             ‘Geschlecht‘) angelegen? Begründen Sie Ihre Entscheidung.
                       5.    Wieviele Informationen dürfen Sie maximal in einer Spalte angeben?
                       6.    Was gilt als zentrales Element des Experimentes?
                       7.    Was ist ein Quasi-Experiment? Geben Sie Beispiele.
                       8.    Wandeln Sie das Streudiagramm der Daniel-Daten in eine Datenmatrix um.
                       9.    Was ist eine Zeitreihenanalyse? Welche UE werden hier untersucht?
                       10.   Geben Sie ein Beispiel für eine Zeitreihenanalyse mit mehreren Variablen.
                       11.   Was ist eine Mehrebenenuntersuchung? Geben Sie ein Beispiel.
                       12.   Welche Untersuchung würde zu einer Datenstruktur in Form eines Netzwerkes führen?
                       13.   In wiefern sind Daten aus Mehrebenenuntersuchungen, Zeitreihenanalysen und Netzwerken
                             abhängig?
                       14.   Geben Sie Beispiele für eine univariate und eine bivariate Fragestellung.
                       15.   Wozu wird meist eine dritte Variable eingeführt?
                       16.   Was ist eine Scheinkorrelation? Geben Sie Beispiele.
                       17.   Was ist eine Schein-Nichtkorrelation? Geben Sie Beispiele.
18. Welche Maßzahlen verwendet man zur Beschreibung univariater Daten? Welche für
    bivariate?
19. Wie können bivariate Daten grafisch dargestellt werden?
20. Was bedeutet Induktion? Nennen Sie Beispiele für die Induktion von Maßzahlen univariater
    Datensätze.
                                                Sitzung 2
Erste Schritte in R

    - Commander laden
Taskleiste (TL) Pakete – Lade Paket – Rcmdr

    - Datenmatrix bearbeiten
Die Datenmatrix kann verändert werden. Wird gerade eine Statistik gerechnet, lässt sich diese Option nicht
anwählen, stattdessen kann die Datenmatrix betrachtet werden.

   - Ein Streudiagramm erstellen
TL Grafiken

   - Daten importieren
TL Datenmanagment – Daten importieren



    1. Nennen Sie eine mögliche Fragestellung zur ersten Analyse der Danieldaten.
    2. Welche Fragestellungen könnten bei der Untersuchung eines intervallskalierten y-
        Merkmals und eines nominalen x-Merkmals untersucht werden?
    3. Mit welchem Test kann man Mittelwertsunterschiede der Gruppen untersuchen?
    4. Was ist eine zweiseitige Fragestellung?
    5. Wann wird ein Test signifikant?
    6. Was bedeutet das Signifikanzniveau alpha?
    7. Was ist der Fehler 2.Art?
    8. Was ist die Macht des Testes (Power)? Wann erst kann die Macht eines Testes
        berechnet werden?
    9. Was ist der p-Wert?
    10. Was meint die Bezeichnung „95% Konfidenzintervall“?
    11. Warum kann man u.U. von einem Konfidenzintervall die Signifikanz eines Testes
        ablesen?
    12. Welcher Test kann zur Überprüfung der Gleichheit zweier Varianzen verwendet
        werden?
    13. Welche zwei Freiheitsgrade müssen bei einer Testung mit der F-Verteilung angegeben
        werden?
    14. Welche Voraussetzung muss gegeben sein, um einen parametrischen Test anwenden
        zu können?
    15. Welcher Teststatistiken kann man sich bedienen, wenn diese Voraussetzung nicht
        erfüllt ist?
    16. Nennen Sie einen nichtparametrischen Test zur Untersuchung von Lageunterschieden,
        wenn
            a. die Variablen ordinalskaliert sind
            b. die Variablen intervallskaliert sind
    17. Wofür steht die Bezeichnung „Location Shift“?
    18. Wann können parametrische Tests trotz der Verletzung der
        Normalverteilungsannahme angewendet werden?
    19. Was ist der sog. Standardfehler?
                                  Lösungsvorschläge
1. Zum Beispiel: Gibt es einen systematischen Unterschied zwischen Kontroll- und
Experimentalgruppe? Oder anders formuliert: Gibt es zwischen der Variable ‚Gruppe’ und
der Ausprägung der Variable ‚Vollheit’/ ‚Schönheit’ einen systematischen Zusammenhang?

2. Sind die Verteilungen unterschiedlich? Unterscheiden sich einzelne Parameter? (z.B.
Mittelwerte, Mediane, Streuungen, etc. )

3. In dem Falle der Danieldaten wähle man einen t-test für unabhängige Stichproben, unter
der Voraussetzung, dass die Varianzen verschieden sind.(s. auch Frage 12) -> Welch 2-
Sample t-test. Freiheitsgrade sind in dieser Lösung nicht ganzzahlig. Sie können aber
gerundet werden.
(In R: TL Statistik – Mittelwerte vergleichen – t-test für unabhängige SP)

4. Die Formulierung einer Alternativhypothese zur Nullhypothese „Es gibt keine
Unterschiede (zwischen den Gruppen, zwischen den Behandlungen etc.)“ bzw. μ1 = μ2 (μ1 -
μ2 = 0) kann entweder einseitig oder zweiseitig formuliert werden.
Die Testung einer einseitig formulierten Alternativhypothese etwa der Form μ1 - μ2 > 0 ist nur
gerechtfertigt, wenn Größenunterschiede in die entgegengesetzte Richtung ausgeschlossen
werden können – wenn man also sicher ist, dass eine zweiseitige Testung nicht notwendig ist.
Solch ein Trugschluss könnte etwa entstehen, wenn man zur Nullhypothese „Es lassen sich
keine Intelligenzunterschiede zwischen Schwarzen und Weißen feststellen“ die einseitige
Alternativhypothese „Weiße sind intelligenter als Schwarze“ testen würde, ohne ausschließen
zu können, dass Schwarze intelligenter sind als Weiße.
Eine zweiseitig formulierte Alternativhypothese führt also zu einem zweiseitigen kritischen
Bereich unter Geltung der Nullhypothese, die Richtung des Effektes ist nicht im Vorhinein
festgelegt.

5. Wenn der TW (Testwert) in den kritischen Bereich (KB) fällt. Bzw. der p-Wert kleiner als
das vorgegebene Signifikanzniveau ist.

6. Der alpha-Fehler (der Fehler 1.Art ) bezeichnet unter Geltung der Nullhypothese die
W´keit, den Fehler zu machen, die Nullhypothese abzulehnen, obwohl sie richtig ist. Je
kleiner alpha, desto höher ist das Signifikanzniveu. Ein Signifikanzniveau von 0.05 wird als
signifikant, eines von 0.01 als sehr signifikant und eines von 0.001 als hochsignifikant
bezeichnet.

7. Der Fehler 2.Art(oder β-Fehler) bezeichnet die W´keit die Alternativhypothese abzulehnen,
obwohl sie richtig ist. Er ist vom wahren Wert des Populationsparameters abhängig.
Da dieser bei der Formulierung der Alternativhypothese nicht bekannt ist, kann der Fehler
2.Art nicht berechnet werden.
Der Fehler 2.Art wird kleiner
 -  je größer der Unterschied zwischen μ0 (angenommener Parameterwert) und μ1
    (tatsächlicher Parameterwert) wird
 -  je kleiner die Streuung ist
 -  je größer die Stichprobe ist
 -  je größer alpha ist.

Zu den Zusammenhängen zwischen Fehler 1.Art und 2.Art siehe:
http://www.uni-konstanz.de/FuF/wiwi/heiler/os/vt-normtest.html




Grafische Darstellung des Fehlers 1. und 2.Art.
Aus: http://page.mi.fu-berlin.de/mielke/eis/Weber-Fehlerquellen-Parametertest.pdf

8. Die Macht des Testes (1-β) bezeichnet die W´keit, die Alternativhypothese anzunehmen,
wenn sie richtig ist. Diese Teststärke ändert sich nach bestimmten Kriterien. (s.o.). Bei der
Formulierung einer exakten Alternativhypothese, kann die Macht des Tests und darüber auch
der beta-Fehler berechnet werden.
Wird ein Test nicht signifikant und die Power des Testes ist niedrig, kann sowohl Null- als
auch Alternativhypothese zutreffen. Ist die Power allerdings hoch und der Test nicht
signifikant, ist dies ein Hinweis auf die Geltung der Nullhypothese.


9. Der p-Wert bezeichnet unter Geltung der Nullhypothese die W´keit, einen Wert gleich oder
extremer dem Testwert im Sinne der Alternativhypothese zu erhalten.

10. Mit einer 95% - W´keit überdeckt das angegebene Intervall den wahren Parameterwert.
( Achtung: Es gibt nicht nur ein Intervall, sondern mehrere, die den wahren Parameterwert
überdecken, daher wird eine W´keit angegeben. )

11. Liegt der angenommene Parameterwert nicht im Konfidenzintervall, wird die
Nullhypothese abgelehnt.

12. Der Varianzen-Levene-Test.

13. Zähler: df1 = n( Stichprobe 1) - 1
    Nenner: df2= n (Stichprobe 2) – 1

14. Die Werte in der Population müssen normalverteilt sein.

15. Man kann sich eines nichtparametrischen Tests bedienen.

16a. Vorzeichentest
16b. Wilcoxon-Rangsummen-Test

17. Location Shift bezeichnet die Annahme, zwei Verteilung könnten durch Verschieben zur
Deckung gebracht werden. Bei dem Wilcoxon-Rangsummen-Test bezeichnet der Location
Shift die Alternativhypothese.
18. Bei großer Stichprobengröße nähert sich die Verteilung der Mittelwerte einer NV. Je nach
Lageparametern der Stichprobe (Schiefe, Streuung, etc.) variiert die hierzu erforderliche
Größe der Stichprobe.

19. Die Standardabweichung der Verteilung einer bestimmten Maßzahl (z.B. des
Mittelwertes, der Standardabweichung, Regressionskoeffizienten, etc.)
                                                Sitzung 3
R
-- Versehentliches Schließen des Rcmdr
Geben Sie in die Befehlszeile (ganz unten, beginnend mit ´>´) den Befehl ´Commander ( )´ ein.

-- Konvertieren der numerischen Variablen in Faktoren
Ist ein Faktor, zum Beispiel Gruppenzugehörigkeit der VPn, als numerische Variable kodiert ( etwa: 0 -
Experimentalgruppe, 1-Kontrollgruppe ),
werden von R nicht alle t-tests zur Ausführung angeboten, da zwischen Faktor und Variable in diesem Fall
nicht automatisch unterschieden werden kann.
Um dieses Problem zu beheben, gehen Sie zur TL Datenmanagment
- Variablen bearbeiten - Konvertiere
numerische Variablen in Faktor. Geben Sie nun die entsprechende Variable an, die konvertiert werden soll.
Wählen Sie die Option `Etikette´ wird ein neuer Stempel vergeben - es wird eine neue Spalte angelegt
(Name: Grf - Gruppenfaktor) und Sie werden dazu aufgefordert, die unterschiedlichen Ausprägungen
zu benennen.

1. Warum liegt ein Wert nicht mit einer bestimmten Wahrscheinlichkeit im
Konfidenzintervall?
2. Der Mittelwert verschiedener Stichproben streut weniger stark denn die Stichprobe selbst.
Um welchen Faktor? Wie nennt man den somit berechneten Faktor?
3. Was ist die Effektstärke und wie kann sie berechnet werden?
4. Wie verfährt man bei unterschiedlicher Stichprobenvarianz?
5. Warum benötigt man die Effektgröße neben der Berechnung eines statistisch signifikanten
Unterschiedes?
6. Wie hängt der t-Wert und d zusammen? Geben Sie eine Formel zu Berechnung an.
7. Wann kann bei verbundenen Stichproben, die den Einfluss einer Behandlung anhand
zweier Zeitpunkte untersuchen (e.g. Vorher-Nachher) auf die Analyse des ersten Zeitpunktes
verzichtet werden?
8. Welche Voraussetzungen müssen für die Durchführung eines parametrischen Tests
gegeben sein?
9. Welcher Test wird, wenn diese Voraussetzungen erfüllt sind, schneller signifikant:
Ein parametrischer oder ein nicht-parametrischer Test?
10. Was berechnet die sog. Power-Efficiency?
11. Welche Fragestellungen können mittels einer Regressionsanalyse untersucht werden?
Geben Sie ein Beispiel.
12. Welche Vorteile hat eine Regressionsanalyse gegenüber einem t-test?
13. Was ist der sog. Regressionskoeffizient?
14. Was ist die sog. Regressionskonstante?
15. Angenommen, Sie untersuchten den Zusammenhang zwischen der Anbaufläche (in
Hektar) auf die Menge an Ernte (in Kg).
Was bedeutet der Regressionskoeffizient(Anbaufläche)=2.5?
16. Angenommen, Sie verwendeten zusätzlich die Variable Frost (in Tagen) als Prädiktor für
Ernte - übersetzen Sie bitte folgende
Angabe eines Bauers in Zahlen: "Jeder Tag Frost kostet mich 2 Kilo meiner Ernte."
                                      Lösungsvorschläge


1. Zum Einen ist der tatsächliche Parameter der Population keine Zufallsvariable. Es ist ein
fester Wert und besitzt daher
keine Auftretenswahrscheinlichkeit. Zum anderen ist das Konfidenzintervall kein stets
gleichbleibender Bereich. Mit jeder Stichprobenziehung ändern sich die Grenzen des KI. Die
Angabe eines 95%-konfidenzintervalls
kann beispielsweise folgendermaßen verbalisiert werden:
Zu 95% enthält der angegebene Bereich Konfidenzintervalle, die den wahren Wert
überdecken.

2. Die Verteilung des sog. Standardfehler des Mittelwerts (allg.: eines Parameters) streut
weniger stark denn die Verteilung der Stichprobenwerte um den Faktor 1/√n.
.

3. Mittelwertsunterschiede werden in der Einheit der Standardabweichungen angegeben und
sind daher von der Stichprobengröße unabhängig.
Ein beliebtes Maß ist Cohen´s d:




Nach Cohen´s Faustregel gilt eine Effektstärke unter 0.2 als sehr klein, unter 0.5 als klein,
unter 0.8 als mittel und 0.8 und größer als starker Effekt.
Bei einer kleinen Stichprobe ohne signifikantes Ergebnis sollte trotzdem die Effektstärke
angegeben werden. Je weniger zwei Verteilungen überlappen (je größer also der Unterschied
zwischen zwei Verteilungen ist) und/oder je geringer die Streuung ist, desto größer ist die
Effektstärke.
Siehe hierzu: http://www.bolderstats.com/jmsl/doc/CohenD.html

4. Es muss die mittlere Stichprobenvarianz berechnet werden: pooled = [(1²+ ²) / 2]

5. Die Berechnung der Effektstärke dient der Bestimmung praktischer Bedeutsamkeit eines
experimentellen Effektes.

Bei der Durchführung eines statistischen Testes kann durch eine Vergrößerung der Stichprobe
und durch eine Senkung der Streuung (etwa durch die Auswahl sehr homogener
Versuchsteilnehmer) eine Signifikanz erhöht oder erreicht werden.

Um nun herauszufinden, ob der Unterschied abgesehen von der Signifikanz tatsächlich und
aussagekräftig ist, zieht man die Effektsärke zu Rate.

6. d = 2t / √df

7. Wenn die VPn durch eine randomisierte Auswahl den Gruppen zugeordnet wurden.
Mithilfe dieses Verfahrens wird die Annahme verfolgt, durch Randomisierung eine
ausgewogenen Verteilung evtl. Unterschiede der VPn, die einen störenden oder verzerrenden
Einfluss auf die Versuchsergebnisse haben könnten, auf die beiden Gruppen erreicht zu
haben.
Die Gruppen seien demzufolge vor der Behandlung in allen relevanten Hinsichten gleich.
Ergo kann auf die Analyse des ersten Zeitpunktes verzichtet werden.

8. Intervallskalierte Variablen und normalverteilte Populationswerte.

9. Ein parametrischer Test.

10. Wenn alle Voraussetzungen für einen parametrischen Test erfüllt sind, berechnet die sog.
Power-Efficiency die Anzahl der Fälle, in denen ein nicht-parametrischer Test signifikant
wird, wenn auch der parametrische Test signifikant geworden ist. Die Power-Efficiency
beträgt beispielsweise für den Wilcoxontest .95 und für den Mediantest .65.

11. Mittels Regressionsanalyse soll eine abhängige Variable durch eine oder mehrere
unabhängige Variablen erklärt werden. Zum Beispiel kann
die Ernte eines Jahres (abhängige Variable) durch Wettereinflüsse (Regenmenge,
Sonnenstunden, Niedrigsttemperatur etc.), durch verwendete Dünger, die Anbaufläche,
etc. prognostiziert, bzw. erklärt werden. Zur Beschreibung des Zusammenhanges zwischen
abhängiger und unabhängiger/n Variablen können verschiedene Funktionen verwendet
werden. (z.B. lineare oder logistische Regression). Es soll immer die bestmögliche Anpassung
der erklärenden Gerade/Kurve an die Daten erreicht werden.

12. Der t-test eignet sich nicht zur Überprüfung der Einflüsse einer oder mehrerer
unabhängiger Variablen auf die abhängige/n Variable/n.

13. Der Regressionskoeffizient misst den Einfluss der unabhängigen Variable X auf die
abhängige Variable Y. Bei einer linearen Regression ist dieser Einfluss (" Wie verändert sich
Y, wenn sich X um eine Einheit ändert?") unabhängig von der Größe von X immer gleich und
entspricht der Steigung der Geraden.

14. Die Regressionskonstante entspricht dem Wert der abhängigen Variable Y, wenn der Wert
der unabhängigen Variablen X Null beträgt. (sog. „Intercept“). Die Interpretation ist nur dann
sinnvoll, wenn die unabhängige Variable X tatsächlich einen Wert von Null annehmen kann.

15. Etwa: Bei Vergrößerung der Anbaufläche um einen Hektar, steigt die erhaltene Ernte um
2.5 Einheiten.

16. y= a - 2x + ε
                                       Sitzung 4
1. Welchen Vorteil hat eine Regressionsanalyse gegenüber einem t-test?
2. Was ist der Unterschied zwischen einer multivariaten und einer multiplen
    Regressionsanalyse?
3. Wie bezeichnet man eine Regressionsanalyse, die den Einfluss mehrerer unabhängiger
    Variablen auf eine abhängige Variable untersucht?
4. Führen Sie eine univariate Regressionsanalyse (UV=Gruppenzugehörigkeit i.e.
    Experimentalgruppe =0, Kontrollgruppe = 1; AV= 'Change', i.e. Score_1 – Score_2)
    der Magnetdaten (http://onlinestatbook.com/rvls.html) mithilfe von R durch und
    interpretieren Sie die Ergebnisse.
    a. Durch welche Punkte wird die Regressionsgerade gelegt?
    b. Wie lässt sich der angegebene Intercept interpretieren?
    c. Wie lässt sich der negative Regressionskoeffizient interpretieren?
    d. Was würde ein positiver Regressionskoeffizient bedeuten?
    e. Wie müsste der Regressionskoeffizient aussehen, wenn die Kontrollgruppe zum
    zweiten Zeitpunkt einen höheren Wert als zum ersten Zeitpunkt aufweisen würde?
5. Wie unterscheidet sich dieses Ergebnis der univariaten Regression von einem t-test
    auf Mittelwertsunterschiede unter der Annahme der Homoskedastizität?
6. Was ist eine Dummy-Variable?
7. Wie kann in R eine Variable in eine Dummy-Variable umgewandelt werden?
8. Führen Sie nun eine Regressionsanalyse mit den Prädiktorvariablen Gruppe und
    Score_1 durch. Erläutern Sie, was man dabei unter Konstanthaltung versteht und wie
    dieses Konzept in diesem Kontext zum Tragen kommt.
9. Zeigen Sie anhand einer Gleichung, warum bei einer Regressionsanalyse mit einer
    Dummy-Variable als Prädiktor und einer Differenz zweier intervallskalierter
    Variablen (z.B. Messzeitpunkte, i.e. y2-y1) als Kriterium der Intercept an der Stelle
    x=0 problemlos interpretiert werden kann. / wann kann bei einer Dummy-Variable als
    Prädiktor und einer blabla .. der durch die Regressionsanalyse herausgerechnete
    Intercept problemlos interpretiert werden?
10. Die in Frage 11 vorgestellte Regression soll nun durch eine weitere Prädiktorvariable
    Z erweitert werden. Zeigen Sie anhand einer Gleichung, wann in dieser Anordnung
    der Intercept als Mittelwert der mit Null kodierten Ausprägung interpretiert werden
    kann.
11. Was sind Odds?
12. Was ist eine Odds-Ratio?
13. Berechnen Sie die Odds das Gymnasium zu besuchen und das Abitur zu machen für
    Kinder mit und ohne Migrationshintergrund. Berechnen Sie die Odds-Ratio.
                                                                        Abitur     Kein Abitur
    Kinder mit     Migrationshintergrund                               24               82
    Ohne Migrationshintergrund                                         76               18

14. Warum und wie rechnet man Odds in Logits um?
15. Was ist die logistische Regression?
16. Welche Unterschiede bestehen zwischen logistischer Regression und linearer
    Regression?
17. Warum ist die lineare Regression nicht zur Analyse einer binären Variable geeignet?
18. Für die Chile-Daten erhält man folgende Häufigkeiten Odds und Logits:
                                   N            Y       Odds(py)       Logit(pY)
                w                       363          480 1.32231405           0.27938327
                m                       526          388 0.73764259          -0.30429587
   a) Wie groß ist der Unterschied zwischen männlich und weiblich bezüglich der Yes-
      Logits?
   b) Wie groß ist der Yes-Logit für die Frauen?

19. Welches lineare Modell muss hier verwendet werden und warum?
20. Bei einer Berechnung mithilfe des generalisierten linearen Modells (Prädiktor: sex,
    Prädikand: vote) werden folgende Ergebnisse ausgegeben:

   Coefficients:
               Estimate Std. Error z value Pr(>|z|)
   (Intercept) 0.27938 0.06956 4.017 5.90e-05 ***
   sex[T.M] -0.58368 0.09652 -6.047 1.48e-09 ***

   Interpretieren Sie den Intercept und den Einfluss von Sex.



                                     Lösungsvorschläge

1. Es kann der Einfluss mehrerer unabhängiger Variablen auf eine oder mehrere
   abhängige Variablen untersucht werden.
2. Eine multivariate Regressionsanalyse untersucht die Auswirkung auf mehrere
   abhängige Variablen, wohingegen die multiple Regressionsanalyse den Einfluss
   mehrerer unabhängiger Variablen beschreibt.
3. Univariate multiple Regression.
   (s. weiterführend: http://www.uni-landau.de/schreiber/archiv/ws03_32/Multivariate1-korr_WHS.pdf )
4. a. Durch die Mittelwerte der beiden Gruppen.
   b. Die Regressionskoeffizienten ändern sich stets, wenn eine neue erklärende Variable
   oder eine neue zu erklärende Variable hinzukommt. Bei dieser einfachen, univariaten
   Versuchsanordnung lässt sich der Intercept jedoch als Mittelwert der
   Experimentalgruppe (Active 1) interpretieren.
   c. Da Change über Score_1 – Score_2 definiert ist, bedeutet ein kleinerer Ergebnis
   weniger Veränderung – die Experimentalgruppe zeigt also einen stärkeren Rückgang
   der Schmerzen bzw. eine kleineren Score zum zweiten Zeitpunkt.
   d. Die Veränderung der Kontrollgruppe wäre, im Vergleich zur Experimentalgruppe
   noch kleiner, d.h. Change würde in der Kontrollgruppe einen höheren Wert aufweisen.
   e. Wenn sich die Schmerzen in der Kontrollgruppe zum zweiten Zeitpunkt gesteigert
   haben sollten, müsste der Regressionskoeffizient größer sein als der Mittelwert der
   Experimentalgruppe, da der Mittelwert der Kontrollgruppe negativ wäre.
5. Betrachtet man die vom t-test angegebenen Mittelwerte, sollte der Mittelwert der
   Experimentalgruppe gleich dem Intercept sein und der Mittelwert der Kontrollgruppe
   gleich dem von der Regressionsanalyse prädizierten Wert bei X=1 sein (i.e. Y2=
   5.24139– 4.1461)
6. Eine dichotome Variable (z.B. männlich, weiblich), die auf 0 und 1 kodiert ist.
7. 'Erzeuge neue Variable' (TL Datenmanagment – Variablen bearbeiten ), dann *Gruppe
   == “exp“ '
   Die neue Variable wird in der Datenmatrix angezeigt. Sollten die Ausprägungen noch
   mit 'True' und 'False' angegeben sein, können Sie im Skriptfenster den Befehl:
      'NamederDatenmatrix$exp <-- with(NamederDatenmatrix, (Gruppe==“exp“*1))'
      eingeben bzw. abändern. Durch diese Multiplikation mit 1 wird die Ausprägung False
      mit Null und die Ausprägung True mit 1 kodiert.
   8. Durch die Konstanthaltung von Störgrößen soll der Effekt eines Treatments unverzerrt
      sichtbar werden.
      Im vorliegenden Falle könnte der Zustand der VPen zum ersten Zeitpunkt einen
      Einfluss auf die AV haben. Die Konstanthaltung in diesem Fall gibt also Ausschluss
      darüber, wie groß der Effekt der Behandlung ist, wenn alle VPen die gleiche
      Schmerzintensität zum ersten Zeitpunkt berichten.
   9. Bei Intervallskalen ist der Abschnitt (= Intercept) schon für einfachste Aussagen nicht
      sinnvoll interpretierbar. Zulässig bei intervallskalierten Variablen sind
      Lineartransformationen, so dass Y folgendermaßen ersetzt werden kann (X sei eine
      Dummy-Variable: 0 bzw. 1) :
       Y = a +bX;      Man betrachte folgende Behauptung: der Abschnitt ist 0 (hier a=0)


                 Y -> A +BY (zulässige Transformation bei Intervallskalenniveau)
         d.h. Nach zulässiger Transformation gilt: A+BY = a +bX -> Y = (a-A)/B + b/B X
       gilt für die Aussage (der Abschnitt ist 0: (a/B – A/B) = 0. Diese Aussage ist nur dann
       zulässig, wenn A = 0 ist; d. h. diese Aussage wäre nur bei einer Verhältnisskala
       sinnvoll.
       Für Differenzen: Soll nun eine Differenz zweier solcher Variablen durch die
       Regressionsanalyse prädiziert werden Y2-Y1 = a + bX, kürzt sich das in der linearen
       Transformationen enthaltene A raus:
             Nach zulässiger Transformation A+BY gilt:
             A+BY2 - (A +BY1) = a + bX
           -> BY2 – BY1 = a +bX        -> Y2 –Y1 = a /B + b/B X
       Hier ist die Aussage (der Abschnitt ist 0) äquivalent in Vergleich der der
       transformierten und untransformierten Regressionsgleichung, und daher zulässig.

            Die abhängige Variable ist die Differenz. Die Regressionsgerade wurde anhand der
            Regressionsgleichung geschätzt: Y2 –Y1 = a + b X + e.
            (mit X=0 für Kontrollgruppe und X=1 für Experimentalgruppe).
            Der Kleinst-Quadrateschätzer liefert
            für die Kontrollgruppe (X=0) die Differenzenmittelwerte: y 2 (0)  y1 (0)  a und
            für die Experimentalgruppe (X=1) die Differenzenmittelwerte: y 2 (1)  y1 (1)  a +b.
            b ist daher gerade die Differenz der Differenzmittelwerte:
( y 2 (1)  y1 (1))  ( y 2 (0)  y1 (0)) .


   10. Y2 – Y1 = a +bX +cZ An der Stelle, an der Z=0 ist.

   11. Odds sind Verhältnisangaben von Anteilen oder Häufigkeiten. Zum Beispiel kann der
       Anteil der Kinder unter 18 Jahren einer Horrorkinovorstellung zum Verhältnis der
       Jungerwachsenen und Erwachsenen über 18 Jahren dargestellt werden – etwa 1:19.
       Dies würde der Angabe entsprechen, dass sich unter 20 Kinobesuchern eine Person
       unter 18 Jahren befindet oder dass der prozentuale Anteil an Minderjährigen bei 5%
       liegt.

   12. Odds finden oft in Wetteinsätzen Verwendung – hier geht es um einen Vergleich der
       Gewinnchancen: in einem Würfelspiel etwa liegen die Odds, eine Sechs zu würfeln,
       bei 1:5. Odds-Ratio – das Verhältnis von Odds – setzt Odds zweier Gruppen
   zueinander in Beziehung und soll somit Aussagen über die Stärke von
   Zusammenhängen geben. Beispiel: Es interessiert, wie hoch die Wahrscheinlichkeit
   für Kinder mit Migrationshintergrund ist, eine weiterführende Schule zu besuchen, im
   Vergleich zu Kindern ohne Migrationshintergrund.

13. Die Odds für Kinder mit Migrationshintergrund, eine weiterführende Schule zu
    besuchen, betragen 12:41, für Kinder ohne 38:9. Die Odds-Ratio beträgt 14.42 für
    Kinder ohne Migrationshintergrund und Abitur. D.h. die Chancen, dass ein Kind ohne
    Migrationshintergrund ein Abitur macht, sind 14,42 mal so hoch, als dass ein Kind mit
    Migrationshintergrund das Abitur macht. Liegt die Odds-Ratio über 1, sind die Odds
    für die erste Gruppe höher, liegt sie unter 1 sind die Odds für die zweite Gruppe höher.

14. Odds haben einen beschränkten Wertebereich. Sie sind zwar nach oben hin offen,
    nähern sich jedoch asymptotisch Null an. Indem man sie in Logits umwandelt, erreicht
    man einen unbeschränkten Wertebereich. Der Logit ist der natürliche Logarithmus
    eines Odds.

15. Die logistische Regression ist ein Verfahren zur Beurteilung des Zusammenhangs
    zwischen einer dichotomen abhängigen Variable und mindestens einer unabhängigen ,
    mindestens intervallskalierten Variable.
                            Typisch sind abhängige Variablen, die das Eintreten eines
    Ereignisses erfassen und sich gegenseitig ausschließen – Ereignis tritt ein oder
    Ereignis tritt nicht ein. Es interessiert der Einfluss der unabhängigen Variable/n und
    die konkrete Wahrscheinlichkeit für das Eintreten des Ereignisses.

16. Im linearen Regressionsmodell ist die abhängige Variable metrisch skaliert und es
    wird keine Wahrscheinlichkeit vorhergesagt, sondern die konkrete Ausprägung von Y.
    Die logistische Regression unterstellt einen nicht-linearen Zusammenhang zur
    Wahrscheinlichkeit des Auftretens des ‚abhängigen’ Ereignisses, das durch eine
    Ausprägung der abhängigen Variablen charakterisierbar ist.

                                                      exp()
   1. Die logistische Funktion lautet: p1 () :                     mit   a  bx
                                                    1  exp()
                                                                       p1 ()
   2. Andererseits gilt dann: log it (p1 ())  ln(Odds ())  ln(              ) :  mit   a  bx
                                                                     1  p1 ()
17. Die Voraussetzung der Homoskedastizität der Residualvarianzen ist nicht erfüllt. Die
    Residuen sind nicht normalverteilt. Weiterhin ist ein linearer Zusammenhang
    zwischen der/n unabhängigen Variable/n und der Eintrittswahrscheinlichkeit nicht
    anzunehmen. Vielmehr geht man von einem „Sättigungseffekt“ aus – die
    Wahrscheinlichkeiten nähern sich den Extremwerten asymptotisch an. Und es können
    für bestimmte Ausprägungen von X Werte geschätzt werden, die unter 0 oder über 1
    liegen.

18. a) -0.5837 b) 0.279

19. Es muss das generalisierte lineare Modell verwendet werden, da Prädikand (Yes/No)
    und Prädiktor (Male/Female) qualitative Variablen sind.

20. Da eine Dummy-Variable automatisch von R kodiert wird – je nachdem, welche
   Ausprägung die vordere Stelle im Alphabet einnimmt (in diesem Falle Female) wird
   mit 0 kodiert. Daher ist der Intercept als Logit der Frauen zu interpretieren
         (   a  bx . x= 0 ). Der Einfluss von Sex ist genau der Unterschied zwischen dem
         Logit der Frauen und dem Logit der Männer. (-0.58368)

                                          Sitzung 5
    1. Beschreiben Sie den Zusammenhang zwischen den Differenzen der Logits und den
        Odds-Ratios.
    2. Welche Voraussetzungen sollten die Prädiktoren bei einer multiplen Regression
        erfüllen?
    3. Was ist der Unterschied zwischen dem linearen Modell und dem generalisierten
        linearen Modell(GLM)?
    4. Was ist die Poisson-Verteilung? Geben Sie ein Beispiel.
    5. Wie können die Parameter im GLM geschätzt werden?
    6. Geben Sie eine Formel zur Berechnung der Schätzer für die GLM –Parameter an.
    7. Was ist die sog. Goodness-of-Fit? Welches Goodness-of-Fit-Maß kann bei GLM
        berechnet werden?
    8. Geben Sie ein Beispiel für einen Test, mit dem die Güte der Modellanpassung
        überprüft werden kann. ( Bezüglich der Chile-Daten. Man verwende zur Prädiktion
        von „Vote“ die Dummy- Variable „Sex“ in einem generalisierten linearen Modell. )
    9. Welcher Hypothese entspricht die Relevanzbewertung der Gruppenunterschiede?
    10. Wie kann die Null-Steigungshypothese β=0 geprüft werden?
    11. Warum wird bei der logistischen Regression kein Störglied eingefügt?
    12. Was ist der Standardfehler?
    13. Was ist ein Konfidenzintervall?
    14. Wie kann die Schätzung des Regressionskoeffizienten in einen z-Wert umgewandelt
        werden?

Coefficients:

Estimate Std. Error z value Pr(>|z|)

sex[T.M] -0.58368 0.09652 -6.047 1.48e-09 ***




    15. Welche Hypothese wurde hier überprüft und warum ist das Ergebnis signifikant?
    16. Was ist der p-Wert?
    17. Wie kann das Konfidenzintervall eines Regressionskoeffizienten berechnet werden?
    18. Was versteht man unter AIC?
    19. Was ist ein Bootstrapping-Verfahren?
    20. Welche Fragestellungen könnten nach einem Bootstrap-Verfahren im Rahmen einer
        Regressionsanalyse interessieren?

Interaktionen und Haupteffekte (Datensatz: Wohnen; Balanciert und Unbalanciert)

    21. Woran kann man die Existenz eines Haupteffektes an einer graphischen Darstellung
        überprüfen?
    22. Wie kann ein Haupteffekt interpretiert werden?
    23. Woran erkennt man an einer graphischen Darstellung einen Interaktionseffekt?
    24. Welches Modell kann man wählen, wenn ausschließlich Haupteffekte vorliegen oder
        die Daten ausschließlich anhand solcher dargestellt werden sollen?
25. Was ist der Unterschied zwischen symmetrischen und asymmetrischen Restriktionen?
26. Prädizieren Sie die Zellmittelwerte der Wohnen_Balanced- Daten mithilfe einer
    asymmetrischen Restriktion, wobei α1 und β2 als Normalfall betrachtet werden sollen.
27. Was sind (mathematisch) die Interaktionseffekte?
28. Wie können die Effekte in der Stichprobe geschätzt werden?
29. Wie groß sind die Effekte der Wohnen_Balanced-Daten? Wie können die einzelnen
    Zellenmittelwerte mittels linearem Modell prädiziert werden?
30. Wie kann der Fehler (ohne) berechnet werden?
31. Welche Hypothesen können bei der zweifaktoriellen Varianzanalyse gestellt werden?
32. Wie kann überprüft werden, ob bei vorhandener Interaktion zusätzlich noch ein
    Haupteffekt vorliegt?
33. Was ist ein sog. Hybrideffekt?
34. Welche Teststatistik kann zur Überprüfung der Hypothesen herangezogen werden?
    Welche Eigenschaften sollte sie haben?
35. Was sind die sog. ‘mean sum of squares’?
36. Was bildet in der F-Statistik den Zähler, was den Nenner?
37. Was ist ein unbalanciertes Design?
38. Welche Probleme bringt solch ein unbalanciertes Design bezüglich der Faktoren mit
    sich?
39. Welches Problem gibt es bei unbalancierten Designs bezüglich der Interpretation der
    Effekte?
40. Woran liegt das?
41. Welche Fehlerreduktion eines Faktors sollte dann zur Interpretation herangezogen
    werden?
42. Was ist die sog. Kleinste-Quadrate Eigenschaft des Mittelwertes?
43. Warum ist eine Aussage der Art „Die Hypothese, der F-Wert sei Null soll überprüft
    werden“ eher ungeschickt?

                                          Lösungsvorschläge


   1. Der Logarithmus eines Quotienten entspricht der Differenz des Logarithmus des
      Nenners zum Logarithmus des Zählers :

                                                          p1 ( )
       log it ( p1 ( ))  log it ( p 2( ))  log it (           )  ln(Oddsratio( ))
                                                          p2 ( )
                                            p1 ( )
       mit log it ( p1 ( ))  ln(Odds( ))  ln(     )
                                          1  p1 ( )
       Die Oddsratios können also ganz einfach erhalten werden, indem die e-Funktion
       auf die Differenz der Logits angewendet wird.

2. Sie sollten mind. Intervallskalenniveau haben und nicht linear voneinander abhängig
   sein, auch nicht kollinear voneinander abhängig. (linear – ein Regressor wäre durch
   die anderen mittels einer multiplen Regression exakt prädizierbar; kollinear – ein
   Regressor wäre durch die anderen mittels einer multiplen Regression fast exakt
   prädizierbar ). Sie dürfen allerdings miteinander korrelieren.
3. Im Gegensatz zu linearen Modellen, in denen man von normalverteilten abhängigen
   Variablen ausgeht, nimmt man in generalisierten linearen Modellen (GLM) an, dass
   die abhängige Variable eine Verteilung aus der Klasse der exponentiellen Familien
          besitzt. Zu diesen Klassen gehören neben der Normalverteilung die Binomial-,
          Poisson-, Gamma- und die inverse Gaußverteilung.

          Achtung bei den in der Literatur verwendeten Abkürzungen: Manchmal wird das
          generelle lineare Modell (aus dem Englischen von General linear Model) mit GLM
          abgekürzt. In Anlehnung an die in R verwendete Bezeichung „Lineares Modell“ und
          „Generalisiertes lineares Modell“ habe ich lieber GLM für das Generalisierte lineare
          Modell verwendet.

      4. Die Poissonverteilung entsteht bei der mehrmaligen Durchführung eines Bernoulli-
         Experimentes und ist eine diskrete Wahrscheinlichkeitsverteilung. Die Fragestellung
         bezieht sich auf die Anzahl des Eintretens eines bestimmten Ereignisses in einer Zeit-,
         Raum- oder sonstigen Einheit. Zum Beispiel könnte die Frage interessieren, wie oft
         ein Blitz im November in einem bestimmten Stadtviertel einschlägt.
      5. In generalisierten linearen Modellen erfolgt die Parameterschätzung mithilfe der
         Maximum-Likelihood-Schätzung. In linearen Modellen minimiert man die Summe der
         Fehlerquadrate.
      6. Es kann keine allgemeine geschlossene Form zur Berechnung der Schätzer angegeben
         werden. Sie werden jeweils über ein iterativ numerisches Verfahren gefunden
         (Newton-Raphson-Verfahren).
      7. Das Goodness-of-Fit -Maß misst die Güte der Anpassung. Dieses Maß soll minimiert
         werden. Als Kriterium wird die Devianz – die Abweichung vom Idealwert -
         betrachtet. -2LL (LL für LogLikelihood) wird als Devianz bezeichnet und ist
         annähernd χ²-verteilt. Bei perfekter Modellanpassung ergäbe sich eine Devianz von 0.
         Je kleiner die Devianz also ist, desto besser ist die Anpassung des Modells an die
         Daten.
      8. Es bietet sich zum Beispiel ein Likelihood-Ratio-Test ( ??oder Pearson -χ² Test) an,
         der die Devianz des Modells mit dem Prδdiktor „Sex“ mit dem „Nullmodell“
         vergleicht: Das Nullmodell erhδlt man, wenn alle Regressionskoeffizienten auf Null
         gesetzt werden und nur noch die Regressionskonstante ins Modell einflieίt.

          Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) 0.27938 0.06956 4.017 5.90e-05 ***

sex[T.M] -0.58368 0.09652 -6.047 1.48e-09 ***

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1




Null deviance: 2435.5 on 1756 degrees of freedom

Residual deviance: 2398.5 on 1755 degrees of freedom
9. Die Relevanzbewertung der Gruppenunterschiede (z.B. der Gruppe Männlich vs.
    Weiblich == Prädiktor „Sex“) entspricht der Hypothese, der zugehörige
    Regressionskoeffizient sei Null, bzw. dass die Anteile für alle x-Werte gleich sind.
10. Mit dem allgemeinen Likelihood-Ratio-Test.
11. Weil man annimmt, dass Y binomialverteilt ist.

   12. Als Standardfehler bezeichnet man die Streuung der Stichprobenkennwerte um
   den wahren Wert des gesuchten Parameters der Population. Der Standardfehler hängt
   direkt mit der Breite des Konfidenzintervalles zusammen – je größer der
   Standardfehler, desto größer ist das Konfidenzintervall.

   13. Ein 95% Konfidenzintervall enthält zu 95% Intervalle, die den gesuchten
   Populationsparameter enthalten. Wichtig: Das Konfidenzintervall enthält nicht mit
   einer bestimmten Wahrscheinlichkeit den Populationsparameter, da dieser keine
   Zufallsvariable ist und daher nicht mit einer bestimmten Wahrscheinlichkeit
   aufzufinden ist. Das Konfidenzintervall ist auch kein festes Intervall, sondern
   schwankt mit jeder Stichprobe, die aus einer Grundgesamtheit gezogen wird.

   14. Indem die Schätzung des Regressionskoeffizienten ( -0.58368 ) durch den
   Standardfehler geteilt wurde.

   15. Es wurde die Hypothese überprüft, der Regressionskoeffizient des Prädiktors
   „Sex“ ( β1) sei Null. Die Hypothese wurde abgelehnt, da der z-Wert in den kritischen
   Bereich fällt.

   16. Der p-Wert bezeichnet unter Geltung der Nullhypothese die Wahrscheinlichkeit,
   einen Wert gleich oder extremer dem Testwert im Sinne der Alternativhypothese zu
   erhalten.

   17. Angenommen, es werde das 95% - Intervall gesucht: KI = β1 +- 1.96ζβ

   18. Das sogenannte Akaike Information Criterion ist ein Maß zur Beurteilung jener
   multivariater Modelle, die auf Maximum-Likelihood-Schätzern basieren und soll den
   Vergleich unterschiedlicher nicht-geschachtelter Modelle zum selben Datensatz
   unterstützen. Jedes dieser Modelle enthält mindestens eine Variable, die in dem
   jeweils anderen Modell nicht enthalten ist. Es geht also um die Frage, welches Modell
   die beste Anpassung an die Daten liefert. Angestrebt wird ein möglichst einfaches
   Modell mit wenigen Variablen. Dieses Vorgehen bezeichnet man auch als Backward-
   Strategie – ausgehend vom komplexen Modell wird die Zahl der Variablen reduziert.

   19. Das Bootstrapping ist eine Methode, Konfidenzintervalle statistischer Kennwerte
   zu bilden, indem aus einer Stichprobe wiederholt Stichproben „mit Zurücklegen“
   gezogen werden.

20. Bei einer Stepwise- Regression interessiert unter anderem die Fragestellung, ob die
Regressionskoeffizienten immer dasselbe Vorzeichen haben. Bei der Stepwise-Regression
ist allerdings das Problem, dass nicht alle möglichen Kombinationen (2I, mit I = Faktoren)
untersucht werden, sondern jeweils ein Faktor additiv zum Modell hinzugefügt wird.

   21. Bei einem Haupteffekt sind die die Daten zweier Gruppen
   anzeigenden/verbindenden Linien parallel.
         22. Man kann Aussagen über die Stufen eines Faktors treffen, ohne den anderen
         Faktor zu berücksichtigen. Etwa: Männer haben, unabhängig von der Wohnform, ein
         höheres Einkommen als Frauen.

         23. Beide Linien sind nicht mehr parallel. Will heißen: Es kann keine Aussage über
         die Stufen eines Faktors getroffen werden, ohne den anderen Faktor zu
         berücksichtigen. Oder: Der Unterschied zwischen den Stufen des einen Faktors (z.B.
         Unterschiede zwischen Männern und Frauen im Einkommen) ist auf mindestens einer
         Stufe des anderen Faktors unterschiedlich.

    24. Die Effekte bezüglich der Faktoren können durch additive Kombinationen dargestellt
        werden. Gesucht ist die additive Darstellung der Zellenmittelwerte aus Summanden,
        die den tatsächlichen Mittelwerten in der Population möglichst nahe kommt. Es muss
        unterschieden werden zwischen asymmetrischen und symmetrischen Restriktionen.

         Merke: α und β sind eigentlich Regressionskoeffizienten. Es hat sich aber
         eingebürgert, sie als Effekte zu bezeichnen.

    25. In der symmetrischen Restriktion beziehen sich die Effekte auf ein generelles Niveau
        und ergeben in der Summe Null. In der assymetrischen Restriktion beziehen sich die
        Effekte auf eine Vergleichsgruppe, deren Effekt auf Null gesetzt wird. Dies bietet sich
        an, wenn eine Gruppe als der 'Normalfall' betrachtet werden kann.
    26. Die mittels asymmetrischer Restriktion prädizierten Zellenmittelwerte entsprechen
        den mittels symmetrischer Restriktion prädizierten.
    27. Die Interaktionseffekte sind die Differenz der Zellmittelwerte zum rein additiven
        Modell. Wie auch die Haupteffektgrößen sind sie als Parameter der Population
        gedacht, die in der Stichprobe zu schätzen sind.
    28. Mittels der Methode der kleinsten Quadrate.
    29. Die Zellenmittelwerte können in einer Regressionsgleichung mithilfe von Dummy-
        Variablen prädiziert werden.

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 6.000e+01 5.774e+00 10.392 4.65e-05 ***

sex[T.w] 1.941e-14 8.165e+00 2.38e-15 1.0000

wohnen[T.Privat] 2.000e+01 8.165e+00 2.449 0.0498 *

wohnen[T.Wg] 1.000e+01 8.165e+00 1.225 0.2666

sex[T.w]:wohnen[T.Privat] 1.000e+01 1.155e+01 0.866 0.4198

sex[T.w]:wohnen[T.Wg] 2.000e+01 1.155e+01 1.732 0.1340


         Im Falle der Wohnen_Balanced Daten zeigte die Regressionsgleichung dergestalt:

         Einkommen = 60 + 0 Sex + 20 Privat + 10 WG + 10 weibl.Privat + 20 weibl.WG

         Für die Wohnform werden zwei Dummys benötigt:
                                                Daheim                WG                                Privat
Privat                                          0                     0                                 1
WG                                              0                     1                                 0




Männlich und Weiblich werden mit 0 und 1 kodiert.

Die einzelnen Zellenmittelwerte (hier zur Veranschaulichung durchnummeriert)


         1          2             3

1        11         12            13

2        21         22            23




können folgendermaßen prädiziert werden:


11                        μ

12                        μ+β2
13                        μ+β3
21                        μ+α2
22                        μ+α2+ β2 + αβ22
23                        μ+α2+ β3 + αβ23




     30. Von Hand:
               I1    I2       J

                y
              i1 1 i 2 1 j 1
                                  2
                                  i 1i 2 j    I 1 I 2 Jy 2
                                                          




     31. Zum Einen ist die Formulierung zweier Haupteffekthypothesen möglich:

             a. Null-Hypothese zum Faktor x1: die Mittelwerte der x1-Gruppen sind gleich.

             Beispiel: Der Einkommensmittelwert eines Studenten ist gleich dem Einkommensmittelwert einer Studentin.
     Die Einkommenseffekte von Sex sind 0.


     b. Null-Hypothese zum Faktor x2: die Mittelwerte der x2-Gruppen sind gleich.

     Beispiel: Die Einkommensmittelwerte unterscheiden sich nicht nach Wohnform.




     Zum anderen können drei Interaktionseffekthypothesen aufgestellt werden:

     c. Null-Hypothese zur Interaktion zwischen den beiden Faktoren x1 und x2. D.h. das
     rein additive Modell der Haupteffekte ist richtig.

     Beispiel: Alle Interaktionseffektsparameter sind null. Auf Grund der Restriktionen sind allerdings nur zwei
     Interaktionseffektsparameter zu betrachten; es genügt zu fordern, dass: 11= 12=0. Auf Grund der Restriktionen sind dann alle
     Effektparameter 0.


d.   Die Mittelwertunterschiede zwischen den x1-Gruppen sind gleich in allen x2-Stufen.

     Beispiel: Der Einkommensunterschied zwischen Studenten und Studentinnen ist in allen Wohnformen gleich groß.


      e. Die Mittelwertunterschiede zwischen den x2-Gruppen sind gleich in allen x1-
      Stufen.

     Beispiel: Die Einkommensunterschiede zwischen daheim versus in WG zu wohnen ist gleich groß für Studenten wie für
     Studentinnen.


  32. Indem man einen Faktor nicht berücksichtigt (z.B. Wohnform) und die
      Gesamtmittelwerte in den einzelnen Ausprägungen des anderen Faktors (hier: Sex )
      bildet. In diesem Beispiel würde das bedeuten, dass man die Einkommensunterschiede
      zwischen Männern und Frauen unabhängig von der Wohnform betrachtet. Diese
      Vorgehensweise bezeichnet man auch als Konstanthaltung.

  33. Obwohl eine Interaktion der Faktoren festgestellt werden konnte, lässt sich zudem
      noch ein Haupteffekt erkennen. Solch eine Interaktion bezeichnet man als hybrid.
  34. Unter Geltung der Nullhypothese sollte die Stichprobenmaßzahl klein, unter Geltung
      der Alternativhypothese groß werden. Diese Eigenschaften erfüllen die
      Fehlerreduktions-quadratsummen. Diese Quadratsummen werden zudem relativiert
      auf die Variabilität innerhalb der Zellen einerseits, andererseits werden auch die
      Freiheitsgrade berücksichtigt. Die resultierenden Teststatistiken sind F-Statistiken
  35. Als mean sum of squares (msq) sind jeweils die sum of squares des Modells, die durch
      die entsprechenden Freiheitsgrade geteilt wurden.
  36. Den Zähler bilden die mean sum of squares des Modells, dessen Effekt in der
      Nullhypothese überprüft werden soll. Den Nenner bilden die mean sum of squares des
      Modells, das sowohl Interaktions- als auch Haupteffekte berücksichtigt.( Dies
      entspricht der Variabilität innerhalb der Zellen. Durch kein anderes Modell kann
      diese Variabilität noch weiter reduziert werden. ) Dies wird auch als msqe(within)
      bezeichnet. Hier für den Faktor x1 :
Baumstruktur der Fehlerreduktion durch die einzelnen Modelle:
   Studenten-Einkommens-Beispiel: für alle Faktoren-Modelle wurden die Fehler berechnet. Dargestellt wird jeweils das Fehlermaß der
   Modelle (ssqe). Darauf aufbauend sind ebenfalls die Fehlerreduktionen eingetragen; hier zusätzlich mit rein additivem Modell.

                                                -                                                                                         -
                                             ssqe(-) 1                                                                                  23 1
                           FR(a)                                 FR(b)                                             3                                            14

              a       I1                                                       b       I2               a                                                                b
           ssqe(a)                                                           ssqe(b)                    20 2                                                             9 3
                             FR(b . a)                   FR(a . b)                                                        14                                3


           Rein additives Modell            a, b   I1+I2-1                                                                              a, b
                                         ssqe(a,b)                                                                                        6 4


                                                                                                                                              2
              FR. durch Interaktion                 FR(ab. (a,b) )

                                                                                   FR(ab)                                                                                           19
                                            ab                                                                                         ab
                                         ssqe(ab) I1I2                                                                                   4       6

                                                                                             z     Anzahl linear unabhängiger Parameter




      37. Versuche, bei denen ungleiche oder unproportionale Zellbesetzungen gegeben sind,
          werden als unbalancierte Designs bezeichnet.
      38. Bei nichtbalancierten Designs korrelieren im Allgemeinen die Faktoren, da die
          Häufigkeiten nicht proportional zu den Randhäufigkeiten sind.
      39. Bei den Modellen, die verschiedene Faktoren berücksichtigen, sind die geschätzten
          Effekte je nach Modell unterschiedlich groß.

              Die Fehlerreduktion durch einen bestimmten Faktor ohne Konstanthaltung ist nicht
              gleich groß wie die Fehlerreduktion dieses Faktors bei Konstanthaltung eines anderen
              Faktors.




Studenten-Einkommens-Beispiel: Prädiktionsfehlerberechnung für nicht balancierte Daten. Hier ist wiederum die Fehlerreduktion durch
einen Faktor unterschiedlich je nach Konstanthaltung (z.B. FR(b) =17.85 ungleich FR(b . a)=15.2).

                                         -                                                                                        -
                                    ssqe(-)                                                                                     26.85
                     FR(a)                                   FR(b)                                          5.35                                       17.85

       a                                                                 b                        a                                                                  b
    ssqe(a)                                                          ssqe(b)                     21.5                                                                9
                       FR(b . a)                    FR(a . b)                                                      15.2                               2.7


     Rein additives Modell            a, b                                                                                       a, b
                                   ssqe(a,b)                                                                                     6.3


                                                                                                                                  2.3
       FR. durch Interaktion                 FR(ab. (a,b) )
                                                                     FR(a, b, ab)                                                                                            22.85
                                     a, b, ab                                                                                  a, b, ab
                                   ssqe(ab)                                                                                      4
40. Die Gruppenmittelwerte der verschiedenen Stufen eines Faktors sind nicht gleich dem
    ungewichteten Mittelwerte über die Zellmittelwerte. Diese Gleichheit besteht bei
    balancierten Designs.
41. Wenn ein Faktor unterschiedliche Fehlerreduktionen je nach Konstanthaltung
    aufweist, sollte zur Interpretation jene Fehlerreduktion herangezogen werden, die die
    maximale Konstanthaltung aufweist.
42. Kleinste- Quadrate Eigenschaft des Mittelwerts: Wenn die Summe der quadrierten
    Abweichungen als Fehlermaß betrachtet wird, soll der Mittelwert verwendet werden,
    da er das besterklärendste Maß darstellt. Nähme man die Beträge als
    Abweichungsmaß, wäre etwa der Median besser.
43. Vielleicht: Es soll die Hypothese überprüft werden, die Hinzunahme des Faktors x
    führt zu keiner signifikanten Fehlerreduktion. Bzw. der Haupteffekt des Faktors x in
    der Population ist Null.


                                     Sitzung 7




1. Welcher Art sind die unabhängigen Variablen, die in der linearen Regression, dem
    linearen Modell und dem generalisierten linearen Modell verwendet werden können?
2. Was ist die Kovarianzanalye? Was ist die Kovarianzanalye im engeren Sinn?
3. Welche unterschiedliche graphische Darstellung muss in der multiplen
    Regressionsanalyse gewählt werden? Was ist der Intercept?
4. Was sind Störgrößen?
5. Geben Sie ein Beispiel.
6. Welche Voraussetzungen müssen die Störgrößen im linearen Modell erfüllen?
7. Wenn bei Testinstrumenten zwei Faktoren korrelieren, diese Korrelation aber
    ausgeschaltet oder zumindest verringert werden soll: Welche Möglichkeiten hat man
    hierzu in der Regressionsanalyse?
8. Welche Korrelationen der Prädiktoren sind in der multiplen Regression erlaubt?
    Welche nicht?
9. Welche Verteilungsannahmen hat man in Bezug auf die Störgrößen?
10. Wie können sich die Regressionskoeffizienten in einer multiplen Regressionsanalyse
    in verschiedenen Modellen unterscheiden? Bei welchem Fall unterscheiden sie sich
    nicht?
11. Wieviele unabhängige Variablen darf man maximal in einer Regressionsanalyse
    verwenden?
12. Nennen Sie die Eigenschaften der Residuen der multiplen Regression.
13. Was ist der multiple quadrierte Korrelationskoeffizient?
14. Wieviele verschiedene Modelle gibt es bei der multiplen Regressionsanalyse mit p
    Prädiktoren?
   15. Welche Aussage kann bezüglich der Korrelation der Prädiktoren getroffen werden,
       wenn sich die Regressionskoeffizienten in verschiedenen Modellen unterscheiden?
   16. Wann ist die prädiktive Relevanz eines Merkmales sequenzunabhängig?
   17. Was sind semipartielle Determinationskoeffizienten?
   18. Was sind partielle Determinationskoeffizienten?
   19. Verbalisieren Sie:

         2              FR ( a. gs)       F( gs )-F (ags )
       r ya . gs          F(gs)                F(gs)
                   =                  =                         = 0.159.

       Welcher Determinationskoeffizient wurde hier berechnet?

   20. Verbalisieren Sie:

         2                FR ( a. gs)        F( gs )-F (ags )
       r y ( a. g s )
             = F(-) =                              F(-)
                                                                 = 0.048. Welcher Determinationskoeffizient wurde hier
       berechnet?

   21. Warum ist der partielle Determinationskoeffizient größer oder gleich wie der
       semipartielle Determinationskoeffizient?
   22. Wie kann der multiple Determinationskoeffizient additiv oder multiplikativ durch
       semipartielle oder partielle Determinationskoeffizienten dargestellt werden?



                                                                    Lösungsvorschläge



1. In der linearen Regression müssen alle unabhängigen Variablen quantitativ sein. (Dummys
gelten als quantitativ). Im linearen Modell können die unabhängigen Variablen quantitativer
oder qualitativer Art sein, die abhängige Variable sollte, wie in der linearen Regression,
mindestens Intervallskalenniveau besitzen. Im generalisierten linearen Modell können sowohl
unabhängig als auch abhängige Variablen qualitativer oder quantitativer Art sein. Die
Varianzanalyse wird als lineares Modell ( mit qualitativen UV ) betrachtet. Faktoren
entsprechen den UV, man sollte sich daher nicht verwirren lassen, wenn bei der
Varianzanalyse von Faktoren gesprochen wird.



2. Als Kovarianzanalyse bezeichnet Scheffè (1959) jede Regressionsanalyse, die sowohl
quantitative Merkmale als Prädiktoren als auch qualitative Prädiktoren enthält. Etwas
eingeschränkter wird unter Kovarianzanalyse ein Verfahren verstanden, das erlaubt
Gruppenunterschiede (qualitativer Faktor) zu untersuchen, obwohl bekannt ist, dass die
Gruppen in einem (oder mehreren) quantitativen Merkmal (Kovariate genannt)
unterschiedlich sind, das seinerseits für den Prädikanden relevant ist. Durch ‚Konstanthaltung
der Kovariaten’ soll die Vergleichbarkeit hergestellt werden. Diese Form der Analyse sei als
„Kovarianzanalyse im engeren Sinne“ bezeichnet, die allgemeinere, von Scheffè (1959)
eingeführte, Bezeichnung als Kovarianzanalyse im weiteren Sinn.


3. Multiple Regression (mit mindestens zwei Faktoren) führt nicht mehr zu einer
zweidimensionalen Prädiktionsgeraden wie die einfache Regression, sondern zu einer Ebene
im dreidimensionalen Raum. Der Intercept ist hier dann jene Stelle, an der x1 und x2 Null sind.

In manchen Untersuchungssituationen ist es inhaltlich unsinnig, den Intercept an den
Nullstellen der beiden Prädiktoren gesetzt zu haben. (z.B. in einer Prädiktion von
Körpergröße und Alter auf den Prädikand Gewicht). Daher wird manchmal auf die
Mittelwerte zentriert, so dass der Intercept dann an der Stelle der Mittelwerte von x1 und x2
ist.



4. Als „Störgrößen“ werden die Abweichungen der wahren Werte von den durch die
Regressionsanalyse prädizierten Werten bezeichnet.



5. Wohnenbeispiel: Eigentlich müsste ein Mann 17.5 Euro pro Woche bekommen, wenn er
zuhause wohnt. Jetzt sind seine Eltern aber so reich, dass er zwanzig Euro bekommt. Diese
2.5 Euro bezeichnet man als Störgröße (man könnte sie vielleicht auch erklären, aber man
lässt diesen Faktor raus, um es nicht zu kompliziert werden zu lassen.)



Störgrößen sind auch die Summen jener Variablen, die man rauslässt, um das Modell nicht zu
kompliziert werden zu lassen. ABER! Bemerke, diese Einflüsse haben keinen systematischen
Effekt! (Es gibt zum Beispiel auch Eltern, die arm sind und der Sohn daher ein wenig weniger
als 17.5 Euro bekommt)



Wenn man die Parameter der Population hätte, könnte man die Störgrößen genau prädizieren.



6. Voraussetzung für das lineare Modell

Man unterstellt auch, dass die Störgrößen nicht mit den unabhängigen Variablen korrelieren.
Wenn die Störgrößen korrelieren, muss das lineare Modell verworfen werden. Auch die
Residuen werden so konstruiert, dass sie nicht mit den UV korrelieren.



7. Beispiel: Kreativitätsmessung.

In der Messung mithilfe von Instrumenten (also zum Beispiel in Kreativitätstests ) ist die
Kreativität meist nicht unkorreliert mit Intelligenz.

Wie kann man es schaffen, dass die beiden überhaupt nicht mehr korrelieren?

Man stelle sich eine einfache Regression vor, mit einem zweidimensionales Streudiagramm.
In die Daten kann die Regressionsgerade gelegt werden und die Residuen angegeben werden.
→ Residuen sind nun jene Werte, die von der Intelligenz nicht prognostiziert werden können.
Man kann also sagen, die Residuen stellten die Kreativität dar, bereinigt durch den Einfluss
von Intelligenz. Das Residuum korreliert dann nicht mehr mit IQ.



8. Unabhängige Variablen dürfen in der Regressionsanalyse miteinander korrelieren, aber auf
keinen, auf gar keinen Fall mit der Störgröße.

Achtung auch bei einer Korrelation eines Faktor Z, dessen Ausprägungen vielleicht nicht
erhoben worden sind, der eine Korrelation zwischen der Störgröße und einer oder mehreren
der UV herstellt.

Auch eine solche Korrelation ist strengstens verboten.

Sie dürfen korrelieren, aber nicht linear oder kolinear abhängig sein.

Es gibt keinen Prüfwert auf Kollinearität, R2 sollte aber nicht über .95 liegen.

9. Annahme: Bei der Datengenerierung werden die Störgrößen unabhängig aus einer NV
gezogen.

Das heißt die Störgrößen der Person haben die gleiche Variabilität (
Homoskedastizitätsannahme ).

10. Durch eine Einführung einer weiteren UV können sich die Regressionskoeffizienten der
anderen UVs ändern, u.U. auch von positive in negative Werte.

Es genügt nicht zu schauen, wie hoch die Korrelation zwischen AV und UV ist, da sich diese
Korrelation auch erst ergeben kann, wenn eine andere UV hinzugefügt wird.

Daraus resultiert der Irrtum, sich nur eine UV anzusehen. Denn man kann immer nur die
einzelnen UVs betrachten, wenn sie alle untereinander zu Null korrelieren. (das ist meist nicht
der Fall)



Wenn UV zu Null korrelieren, bleiben Regressionskoeffizienten in allen Modellen gleich.



Achtung: Es kann sein, dass bei Hinzufügen einer weiteren Variable mehr prognostiziert
werden kann (also Fehlerquadrate reduziert werden können), das muss aber nicht sein.




11. Daumenregel: Für jede Variable, die man hat, braucht man ca. 5-10 Fälle.
Es hängt auch von der Korrelation zwischen den UV ab. Wenn die Korrelation zwischen den
Prädiktoren 0 sind, braucht man weniger Versuchspersonen; dann verändern sich die
Regressionskoeffizienten nicht, wenn zusätzliche Prädiktoren hinzugefügt werden.

Die Anzahl der Beobachtungen wird beim Testen berücksichtigt (z.B. beim F-Test in den
Freiheitsgraden von ssqe(within) und ssqe(total))



12. Der arithmetische Mittelwert aller Residuen ist Null. Die Korrelation der Residuen mit
allen x Variablen ist Null.



13. Ein PRE- Maß, das das Mit-Fehlermaß (Summe der quadrierten Residuen; enthält alle p
Prädiktoren) und das Ohne-Fehlermaß (Summe der quadrierten Abweichungen vom
Mittelwert)



14. 2p Modelle.



15. Wenn sich die Regressionskoeffizienten in verschiedenen Modellen unterscheiden,
korrelieren sie miteinander.



16. Wenn die Prädiktoren nicht wechselseitig korrelieren.



17. Der semipartielle Determinationskoeffizient ist die globalanteilige Reduktion des Fehlers
durch ein Merkmal ‚unter Konstanthaltung’ anderer Merkmale. Basis der Anteilsbildung ist
der Fehler ohne jedes Merkmal.



18. Der partielle Determinationskoeffizient ist die anteilige Reduktion des Fehlers durch ein
Merkmal ‚unter Konstanthaltung’ anderer Merkmale. Basis der Anteilsbildung ist der Fehler
an der Stelle, an der das Merkmal hinzugefügt wurde.



19. Unter Konstanthaltung von g und s kann die Prädiktion von y durch a um 15.9%
verbessert werden. Dies ist ein partieller Determinationskoeffizient.
20. Unter Konstanthaltung von g und s kann die Prädiktion von y durch a um 4.8% global
verbessert werden. Dies ist ein semipartieller Determinationskoeffizient.



21. Weil der semipartielle Determinationskoeffizient durch einen größeren Fehler dividiert
wird als der partielle.



22. Der multiple Determinationskoeffizient kann additiv durch semipartielle, multiplikativ
durch partielle Determinationskoeffizienten dargestellt werden.



                                                Sitzung 8
Semipartielle und partielle Determinationskoeffizienten

             1. Der semipartielle Determinationskoeffizient

                  r y2( a. g s )

                 kann auch als quadrierte Korrelation zweier Variablen beschrieben werden.
                 Welche Variablen sind dies?

             2. Der partielle Determinationskoeffizient

                    2
                  r ya . gs

                 kann auch als quadrierte Korrelation zweier Variablen beschrieben werden.
                 Welche Variablen sind dies?

             3. Auch der multiple Determinationskoeffizient kann als Korrelation zweier
                Variablen intepretiert werden. Welche?

Für die Formeln zur Berechnung der Korrelationen siehe Skript zur Einführung in die Statistik, Abschnitt 5.4.4.2
Semipartielle und partielle Korrelation.

Venn-Diagramme



                                                               y
                                                       E
                                                  A        B
                                                      C
                                                      D
                                      x                             z
           4. Angenommen, die abhängige Variable Y werde durch die beiden Prädiktoren
              X und Z erklärt. Welcher Teil der Grafik stellt den semipartiellen
              Determinationskoeffizient r 2y(x.z) dar ?

           5. Welcher Teil der Grafik stellt den einfachen Determinationskoeffizienten r2yx
              dar?

           6. Welcher Teil der Grafik stellt den multiplen Determinationskoeffizient dar?
              Welcher Teil 1- R2?

           7. Wie kann mithilfe einiger Teile der Grafik ein partieller
              Determinationskoeffizient beschrieben werden? (am Beispiel: r2yx.z)

           8. Was ist bei einer Darstellung mittels Venn-Diagramm zu beachten? Auf
              wieviele Merkmale kann eine Darstellung erweitert werden?

Analyse zweier Merkmale – zusammenfassende Wiederholung

           9. Nennen Sie die wichtigsten Verfahren, die zur Analyse einer quantitativen
              abhängigen Variable (mind. intervallskaliertes y-Merkmal) durchgeführt
              werden können.

           10. Nennen Sie die wichtigsten Verfahren zur Analyse einer qualitativen
               abhängigen Variable.

           11. Welche Vorteile hat der t-Test gegenüber einer Regressionsanalyse? Welche
               Nachteile gibt es?

Standardisierte Regressionskoeffizienten

           12. In einer multiplen Regressionsanalyse kann die Frage interessieren, welche
               Variable den stärksten Effekt hat. Wodurch wird der Effekt einer Variable
               ersichtlich?

           13. Wodurch kann die Vergleichbarkeit der Regressionskoeffizienten verhindert
               werden?

           14. Was kann getan werden, um die Regressionskoeffizienten vergleichbar zu
               machen?

           15. Verbalisieren Sie, welchen Einfluss ein standardisierter Regressionskoeffizient
               angibt.

           16. Warum ist es daher unsinnig, eine dichotome Variable zu standardisieren?

           17. Welche Einschränkungen müssen bezüglich der standardisierten
               Regressionskoeffizienten unterschiedlicher Datensätze beachtet werden?

           18. Was ist der Unterschied zwischen der Normierung und der Standardisierung?

           19. Welche Fehlermaße gibt es außer Cohens d?

           20. Wann ist Cohens d äquivalent zum standardisierten Regressionskoeffizienten?
Faktorenanalyse



          21. Welche Fragestellung soll mittels Faktorenanalyse untersucht werden?

          22. In welcher Beziehung stehen manifeste und latente Variablen?

          23. Es gibt verschiedene Vorgehensweisen, bzw. Annahmen über Koeffizienten.
              Welche?

          24. Was sind die sog. Ladungen?

          25. Was ist das Modell der gemeinsamen Faktoren (common factors model)?

          26. Beim Modell der gemeinsamen Faktoren wird zusätzlich zu den gemeinsamen
              Faktoren noch eine andere Größe mit in die Linearkombination genommen.
              Welche ist das und welche Voraussetzung muss sie erfüllen?

          27. Unter welchen Voraussetzungen sind die Ladungen gleich den Korrelationen
              zwischen den Faktoren und den manifesten Variablen?

          28. Was ist das Hauptkomponentenmodell?

          29. Was bedeutet Orthogonalität?

          30. Warum können Korrelationen zwischen X-Variablen, die von demselben
              Faktor erklärt werden, als Scheinkorrelationen enttarnt werden?

          31. Was ist eine Kommunalität?

          32. Geben Sie eine Formel zur Berechnung der Varianz eines Items bei Erklärung
              durch einen Faktor an.

          33. Geben Sie eine Formel zur Berechnung der Varianz eines Items bei Erklärung
              durch zwei Faktoren an.

          34. Wie können die Faktoren interpretiert werden?

          35. Was ist eine Spezifität?

          36. Wie hoch korrelieren die Spezifitäten mit den Faktoren?

          37. Wie wird die Varianz, die ein Faktor in allen Variablen erklärt, berechnet?
              Wofür ist diese Berechnung wichtig?



                                     Lösungsvorschläge
1. Der semipartielle Determinationskoeffizient kann als quadrierte Korrelation
    zwischen y und den Residuen von a unter der Konstanthaltung von gs
    interpretiert werden.
2. Der partielle Determinationskoeffizient kann als quadrierte Korrelation
    zwischen dem Residuum y.s und und dem Residuum a.gs interpretiert werden.
3. Die multiple Korrelation kann als einfache Korrelation der y-Werte mit den
                        ˆ                                                          ˆ
    Prädiktionswerten y( x 1 , x 2 ,..., x p ) interpretiert werden, kurz: Korr(y, y ). Die
    quadrierte Korrelation ist dann auch der Determinationskoeffizient, der angibt,
    wie gut die y-Werte durch die p x-Variablen prognostizierbar sind.
4. A - die Schnittfläche zwischen x und y ohne C - stellt den semipartiellen
    Determinationskoeffizient r 2y(x.z) dar.
5. A+C
6. A+B+C. Der Varianzanteil der Variablen y, der nicht durch die Prädiktoren x
    und z erklärt werden kann ist mit E graphisch dargestellt. (und entspricht 1-
    R2).
                                                                           A
7. Der partielle Determinationskoeffizient r2yx.z kann durch                    beschrieben
                                                                       ( A  E)
    werden.
8. Bei Darstellung von mehr als zwei Variablen sind auch negative Flächen
    möglich. Je mehr Variablen hinzugenommen werden, desto größer wird die
    Gefahr negativer Flächen. Grundsätzlich können mehr als drei Variablen
    dargestellt werden, im Einzelfalle sollte aber zu Gunsten der Übersichtlichkeit
    davon abgeraten werden.
    Bei einer Darstellung mithilfe eines Venn-Diagramms ist zu beachten, dass
    durch die Darstellung mit Kreisen keine flächengetreue Darstellung möglich
    ist.
9. Bei qualitativen unabhängigen Variablen: Vergleiche zweier Mittelwerte,
    Varianzanalyse, Vergleiche von Varianzen. Nichtparametrische Verfahren (bei
    Verletzung von Verteilungs-Voraussetzungen)
    Bei ordinalen unabhängigen Variablen: Mittelwerttests, Varianzanalyse
    Bei quantitativen unabhängigen Variablen: Pearson- Korrelation,
    Regressionsanalyse
    Merke: Auch eine qualitative unabhängige Variable kann als Prädiktor in eine
    Regressionsanalyse eingeführt werden und zwar dann, wenn sie als Dummy
    kodiert wurde.
10. Bei qualitativen unabhängigen Variablen: Kreuztabellenanalysen, Chi-
    Quadrat, Nominale Korrelation (Chi-Quadrat-Normierungen, GOODMANs ,
    KRUSKALs , kappa), Analyse mit loglinearen und nominal-logistischen
    Modellen.
    Bei quantitativen unabhängigen Variablen: Analyse mit nominal-logistischen
    Modellen (logistische Regression)
    Auch bei qualitativen abhängigen Variablen gilt in der Regressionsanalyse die
    Verwendung qualitativer unabhängiger Variablen als Dummy-Variablen
    kodiert als zulässig.
11. Ein Vorteil des t-Test gegenüber der Regressionsanalyse liegt darin, dass im t-
    test unterschiedliche Varianzen berücksichtigt werden können (vgl. Welch 2-
    sample test), wohingegen die Gleichheit der Varianz in der Regressionsanalyse
    vorausgesetzt ist.
    Ein Vorteil der Regressionsanalyse gegenüber dem t-Test ist, dass mehrere
    unabhängige Variablen und deren Einfluss beachtet werden kann. Ein weiterer
    liegt natürlich darin, dass verschiedene Funktionen herangezogen werden
    können, um die Daten zu beschreiben (vgl. logistisches Modell,
    Linearkombination, Poisson-Verteilung etc.)
12. Der jeweilige Regressionskoeffizient misst den Effekt der Variable.
13. Werden die Prädiktoren in unterschiedlichen Masseinheiten angegeben, ist die
    Vergleichbarkeit zwischen ihnen erschwert, bzw. verhindert.
14. Die Regressionskoeffizienten werden vergleichbar, wenn sie standardisiert
    wurden. Multipliziert man die unstandardisierten Regressionskoeffizienten mit
    den Standardabweichungen der jeweiligen unabhängigen Variable und teilt
    dies durch die Standardabweichung der abhängigen Variable, erhält man die
    standardisierten Regressionskoeffizienten, die nunmehr vergleichbar sind.

   Zum Beispiel: y  a  b1 s(x1) * x1
                             s(y) s ( x1)

    Achtung: Die Koeffizienten sind nicht auf einen bestimmten Wertebereich
    begrenzt, können also größer als 1 und kleiner als -1 werden.
15. Der standardisierte Regressionskoeffizient gibt an, um wieviele
    Standardabweichungen sich die abhängige Variable ändert (senkt oder erhöht,
    je nach Vorzeichen des Regressionskoeffizienten), wenn sich die unabhängige
    Variable um eine Standardabweichung erhöht.
16. Es ist unmöglich, den Fall zu interpretieren, dass sich zum Beispiel
    ‚Geschlecht‘ um eine Standardabweichung ändert.
17. Wird dasselbe Regressionsmodell in unterschiedlichen Datensätzen berechnet,
    ist die Vergleichbarkeit der Regressionskoeffizienten eingeschränkt bzw.
    verhindert, da die Variablen unterschiedliche Streuungen aufweisen können.

18. Bei einer Normierung wird durch die Standardabweichung geteilt. Bei der
    Standardisierung wird zusätzlich noch der Mittelwert abgezogen (vgl. z-
    Transformation).
19.
    - Determinations-Koeffizient 1. und 2. Art
    - Prozentuale Fehlerreduktion
    - Entropiereduktion
    - β-Koeffizient
    - Kappa
    - Vergleich von Anteilen nur nach Arcsin-Transformation (Umkehrfunktion
    vom Sinus)
    - etc.
20. Bei einer dichotomen x-Variable.
21. Mittels Faktorenanalyse soll die Fragestellung untersucht werden, inwieweit
    manifeste Variablen auf eventuell wenige zugrundeliegende Faktoren (latent)
    zurückgeführt werden können.
22. Die manifesten Variablen werden in der Faktorenanalyse als
    Linearkombination der latenten Variablen (Faktoren) dargestellt.
23. Konfirmatorisches Vorgehen: Es existieren inhaltlich begründete Annahmen
    über die Koeffizienten.
    Beim explorativen Vorgehen werden keine Annahmen über die Koeffizienten
    gemacht. Es ist primär ein Vorgehen zum Auffinden einer bestimmten
    Faktorenstruktur, Hypothesen können im Gegensatz zum konfirmatorischen
    Vorgehen nicht untersucht werden.
24. Als Ladungen werden die in der Regressionsgleichung zur Prädiktion der
    manifesten Variablen verwendeten Regressionskoeffizienten bezeichnet.

25. Beim Modell der gemeinsamen Faktoren wird entweder theoriegeleitet oder
    auf Grund empirischer Analyse eine bestimmte Anzahl gemeinsamer Faktoren
    festgelegt. Jede manifeste Variable wird als Linearkombination der
    gemeinsamen Faktoren und einer Störgröße dargestellt. Gegeben sind die
    Korrelationen (bzw. Kovarianzen) der manifesten Variablen; gesucht sind die
    Ladungen und die Varianzen der Störgrößen. Falls nicht zu viele Faktoren im
    Modell gefordert werden, sind die Ladungen eindeutig (bis auf Rotation des
    Koordinatensystems) und die Varianzen der Störgrößen eindeutig bestimmbar.

26. Zusätzlich zu gemeinsamen Faktoren wird in der Linearkombination noch eine
    Störgröße hinzugenommen. Diese enthält Messfehler und Varianzanteile, die
    nicht durch die gemeinsamen Faktoren abgedeckt werden können. Sie selbst
    sollen unkorreliert sein und nicht mit den Faktoren korrelieren.
27. Meist werden die Varianzen der Faktoren auf 1 normiert. Als manifeste
    Variablen dienen die standardisierten X-Variablen.
     Var(Xi) = 1 für alle manifesten Variablen und Var(Fj)=1 für alle Faktoren.
    Unter diesen Voraussetzungen sind die Ladungen gleich den Korrelationen
    zwischen den Faktoren und den manifesten Variablen.
28. Beim Hauptkomponentenmodell werden i. a. gleich viele latente Variable (hier
    auch Hauptkomponenten genannt) eingeführt wie linear unabhängige
    manifeste Variable existieren. Auf Störgrößen wird verzichtet. Damit in
    diesem Modell die Hauptkomponenten (bis auf das Vorzeichen) eindeutig
    bestimmt werden können, wird vorausgesetzt, dass die Hauptkomponenten
    nicht korrelieren und zudem so gebildet werden, dass die erste Komponente
    maximal viel Varianz in den manifesten Variablen erklärt, die zweite
    Hauptkomponente die zweit meiste Varianz usw. Nur die Vorzeichen der
    Hauptkomponenten sind dann nicht eindeutig (geometrisch bedeutet der
    Vorzeichenwechsel eine Spiegelung einer Koordinatenachse am Nullpunkt im
    Koordinatenraum).
29. Die Kovarianz zwischen den Faktoren ist Null. (Die Faktoren sind
    unkorreliert)
30.
    Cov(X1 ,X 2) = ?

   X1 = F1 a1 + U1
   X2 = F1 a2 + U2

   ==> Cov (F1 a1 + U1, F1 a2 + U2) = a1 a2 Cov (F1, F1) + a1 Cov (F1, U2) + a2
   Cov (F1, U1) + Cov (U1, U2) = a1 a2 Var(F1), da alle anderen Cov = 0.

   ==> Cov (X1 ,X 2) = a1 a2

31. Die Kommunalität einer Variablen beschreibt den Anteil der Varianz dieser
    Variablen, der durch die gemeinsamen Faktoren erklärt wird. Die manifeste
    Variable ist im vorliegenden Modell der Regressand, die Faktoren entsprechen
    den Regressoren. Von der einfachen Regressionsanalyse her ist der
    Determinationskoeffizient 1. Art bekannt: die quadrierte Korrelation des
   Regressors mit dem Regressanden; das gilt auch hier und ist erweiterbar auf
   mehrere Regressoren.

   Wenn die Regressoren unkorreliert sind, ist der Determinationskoeffizient für
   mehrere Regressoren (multipler Determinationskoeffizient) die Summe der
   quadrierten Korrelationen zwischen Regressand und Regressoren, daher für die
   i. manifeste Variable:

   h i2  a i2  a i22    a im
             1
                               2
                                    (die Kommunalität wird mit h2 abgekürzt).

   Die Wurzel aus der Kommunalität ist zudem die Länge des Vektors vom
   Koordinatennullpunkt zum Punkt im gemeinsamen Faktorraum.

32. Berechnung der Varianz eines Items bei einem Faktor:
    X1 = a1F1 + U1
    Var (X1) = Cov (X1, X1) = a1² Var(F1) + Var(U1) + 2 Cov (a1F1, U1)

   Var (X1) = a1² + Var(U1)

    mit Var(U1) = Itemspezifische Varianz, die sich der Kenntnis entzieht       und
    a1² = Kommunalität, der Anteil erklärter Varianz
33. Berechnung der Varianz eines Items bei 2 Faktoren:
    X1 = a1F1 + U1         + b1F2 + U2
    Var (X1) = a1² + b1² * Var (U1)     und a1² + b1² = Kommunalität

34. Für jede manifeste Variable wird untersucht, auf welchem Faktor sie am
    höchsten lädt. Alle manifesten Variablen, die ihre höchste Ladung auf diesen
    Faktor aufweisen werden zusammengefasst. Diese Gruppe muss nun etikettiert
    werden – man kennt das etwa aus der Diagnostik. (vgl. Items verschiedener
    Fragebögen, die entweder unter ‚Offenheit‘ oder unter ‚Extraversion‘
    zusammengefasst werden.)
35. Die Varianz der Störgröße der i. manifesten Variablen wird als Spezifität der i.
    manifesten Variable bezeichnet.
           Var(Ui) = 1 – Kommunalität.
    Die Spezifizität besteht aus der Messfehlervarianz und zusätzlich aus der
    ‚Eigenart’-Varianz der Variablen.
36. Die Spezifitäten sind mit den Faktoren unkorreliert.
37. Die Varianz, die ein Faktor in allen Variablen erklärt, wird durch die
    summierten quadrierten Korrelationen des Faktors mit den Variablen
    berechnet. Dies ist wichtig für die Entscheidung, welche Faktoren
    berücksichtig werden sollen. (falls nicht schon durch theoretische Annahmen
    festgelegt) Der Scree-Plot stellt diese Varianzen für alle Faktoren dar.
Anwendungen der Kovarianzregeln (siehe Skript: Einführung in die Statistik)

Die Anwendungen der Kovarianzregeln in linearen Modellen kann durch die
„Pfaddiagrammregeln“ zur Darstellung von Kovarianzen erleichtert werden. Sie
repräsentieren Anweisungen, die auch bei Gleichungssystemen die „richtige
Hintereinanderschaltung“ der Einsetzungsschritte gewährleisten. Die Kovarianz zwischen
zwei Variablen X und Y kann folgendermaßen berechnet werden:
    1. Beginne einen Pfad in X (bzw. Y) entgegen der Pfeilrichtung. Der Pfad wird
       weiterverfolgt, bis die „Zielvariable“ Y (bzw. X) erreicht ist. Dabei ist höchstens eine
       Richtungsänderung zulässig. Das Pfadstück mit der Richtungsänderung sei die
       „Traverse“. Falls keine Richtungsänderung eintritt ist die „Zielvariable“ die Traverse.
    2. Multipliziere alle Koeffizienten (=Konstanten der Linearkombinationen) entlang eines
       Pfades. Bei der Traverse multipliziere die Kovarianz zwischen den Variablen (bei
       Doppelpfeil-Traversen), sonst die Varianz.
    3. Addiere die Produkte aller verschiedenen Pfade (Zwei Pfade sind verschieden, wenn
       nur ein einzelnes Teilstück verschieden ist).

Bei standardisierten Variablen sind die Varianzen gleich 1 und die Kovarianzen gleich den
Korrelationen.
Beispiel 1: Scheinkorrelation und Mediatoren
                                         Gleichungen:             Korrelation (Annahme: X, Y, Z standartisiert):
            a
                     Y            εy
                                               Y = a Z + εy       Cor (X,Y) = a b
        Z

            b                                  Xx = b Z+ εx       Dies ist eine Scheinkorrelation: X und Y haben
                     X            εx                              keinen direkten Einfluss aufeinander, korrelieren
                                                                  aber trotzdem.
                                              Gleichungen:        Variablen, die einen Einfluss „vermitteln“,
                                                                  bezeichnet man als Mediatoren. Hier ist z ein
            b                 a
        X            Z             Y           Y = a Z + εy       Mediator. Die durch z entstandene
                                                                  Scheinkorrelation zwischen y und x läßt sich
                                               X = b Z + εz       durch Konstanthaltung beheben, indem man die
                     εy            εy                             partielle Korrelation zwischen x und y unter
                                                                  Konstanthaltung von z verwendet:
                                                                                           rxy  rxz  ry z
                                                                  rxy.z = r(x.z) (y.z) =
                                                                                                 2         2
                                                                                           (1 - ry z)(1  rxz )


Beispiel 2: Regressions- und Pfadanalyse
                                               Gleichungen:        Korrelationen (Annahme: X, Y, Z standardisiert):
                    εx                                             Corr(X,Y) = b + a c
                                             Y = b X + a Z + εy    Unter Umständen kann eine solche Korrelation
        X                                                          Null sein (hypothetisches Beispiel):
                b
                                                X = c Z + εx       Corr(X,Y) = 24 + (-6)* 4 = 0
    c                     Y             εy                         Dennoch besteht zwischen den Variablen ein
        Z       a                                                  Einfluss, der sich allerdings rechnerisch aufhebt.
                                                                   Corr(X, Z) = c

Beispiel 3: Doppelpfeile, Regressionsanalyse mit 2 Prädiktoren
                                       Doppelpfeile spezifizieren einen nicht näher bestimmten
            X                          Zusammenhang. Sie bedeuten aber nicht, dass der ‚kausale’ Einfluss
                   b
                                       wechselseitig ist. Doppelpfeile sind u. a. nützlich, um ganze
         Cov (X,Z)         Y           Variablennetze zu vereinfachen: Man läßt die Variablen weg, die einen
                                       nicht interessieren, die aber einen Einfluss haben, und ersetzt sie durch
                   a
            Z                          den Doppelpfeil. Dabei wird eine von 0 verschiedene Kovarianz
                                       unterstellt. Bei der Berechnung der Kovarianz zwischen zwei Variablen
                                       steht ein Doppelpfeil immer für eine Richtungsänderung.
Beispiel 4: Faktorenanalyse
                                                   Gleichungen:       Bei der Faktorenanalyse wird versucht, von
                         X1               U1                          gemessenen Variablen auf zugrundeliegende,
            a1                                  X1= a1F1 + b1F2 +U1   latente Faktoren zu schließen. Korrelieren die
  F1         a2                                 X2= a2F1 + b2F2 +U2   Faktoren nicht miteinander, spricht man von
             a3          X2               U2    X3= a3F1 + b3F2 +U3   einer orthogonalen Faktorenanalyse, korrelieren
       a4
                                                X4= a4F1 + b4F2 +U4   sie, spricht man von einer schiefwinkeligen
       b1                                                             Faktorenanalyse. Die Regressionskoeffizienten
             b2          X3               U3                          bezeichnet man als Ladungen, die Störgrößen
  F2
              b3                                                      werden mit u abgekürzt.
            b4
                         X4               U4                          Corr(X1, X2) = a1 a2 + b1 b2
                                                                      Corr(F1, X1) = a1
                                                                      Alle X- und F-Variablen seien standartisiert.


Danke an Jan und Mia!



                                                      Sitzung 9
                   1.         Angenommen, mittels Hauptkomponentenmodell sollen vier manifeste
                              Variablen durch vier latente Faktoren erklärt werden. Nun soll nur ein Faktor
                              angestrebt werden und die restliche Varianz der einzelnen Variablen soll in
                              'variablenspezifische' Störgrößen überführt werden. D.h., der spezifische
                              Einfluss von Faktor 2, 3 und 4 auf x1 und die Spezifität von x1 werde in einer
                              Störgröße U1 zusammengefasst. Welche Konsequenzen hat dies bezüglich der
                              Unkorreliertheit der Störgrößen? Warum?
                   2.         Wie korrelieren die Faktoren in der Hauptkomponentenanalyse?
                   3.         Wie sind Hauptkomponenten definiert?
                   4.         Warum ist die Spezifität (Varianz der Störgröße einer Variablen) gleich 1-
                              Kommunalität? Geben Sie eine Formel an.
                   5.         Wie kann man anhand eines Scree-Plots bestimmen, welche Faktoren in die
                              Analyse mit einbezogen werden sollten?
                   6.         Welches Vorgehen bezüglich der Bestimmung der Faktoren durch die beiden
                              vorgestellten Modelle wird meist gewählt?
                   7.         Wann ist die inhaltliche Interpretation von Faktoren einfach?
                   8.         Was ist das Varimax-Kriterium?
                   9.         Was ist Zweck der Rotation und Spiegelung der Faktorenachsen?
                   10.        Welche fünf Eigenschaften gelten bei jeder Rotation (inklusive Spiegelung)?
                   11.        Welche Parameter müssen in der Faktorenanalyse geschätzt werden?
                   12.        Angenommen, zwei Faktoren a und b erklären zwei manifeste Variable x1
                              und x2. Geben Sie eine Formel für die Kovarianz zwischen beiden Variablen
                              an.
                   13.        Was kann man als Kriterium zur Beurteilung der Güte der Modellanpassung
                              heranziehen?

                              Clusteranalyse

                   14.        Was ist das Ziel der Clusteranalyse?
                   15.        Welche Objekte können zu Clustern zusammengefasst werden? Nennen Sie
                              zwei Techniken.
                   16.        Wie bestimmt sich die Anzahl der Cluster?
     17.        Was ist ein sog. Dendrogramm?
     18.        In der hierarchischen Clusteranalyse gibt es verschiedene Methoden, die
                Abstände zu kalkulieren. Beschreiben Sie Single, Complete und Average
                Linkage Funktionen.
     19.        Wodurch wird die Ähnlichkeit zwischen Objekten charakterisiert?
     20.        Beschreiben sie das Unähnlichkeitsmaß Euklidische Distanz.
     21.        Beschreiben Sie das Unähnlichkeitsmaß Manhattan (City Block)

                                      Lösungsvorschläge

     1.         Hauptkomponentenmodell:

                              x1

                              x2
                F1                        F2      F3          F4
                              x3

                              x4


Zusammenfassung in spezifische Störgrößen:

                                                        b1
                             x1             U1
                                                                        F2
                     a1                     11               b2
                             x2             U2               c1
                      a2
           F1                                          c2          F3
                      a3     x3            U3
                                            3
                     a4
                             x4            U4



Zwecks der Übersichtlichkeit sind in obigem Schaubild nur Teile der Faktorladungen
über die Störgrößen aufgezeichnet. Dieses Schaubild soll klarmachen, warum im
Hauptkomponentenmodell die Unkorreliertheit der Störgrößen nicht gewährleistet ist:
Es wird ersichtlich, dass die Korrelation zwischen U1 und U2 = b1*b2 + c1*c2.

2.                                                   Der zweite Faktor steht
   orthogonal zum ersten Faktor, der dritte Faktor orthogonal zum ersten und zweiten
   Faktor usw.
3.                                                   Damit Hauptkomponenten
   Hauptkomponenten sind, muss die erste Hauptkomponente die meiste Varianz
   aufklären, die zweite die zweitmeiste etc. (Wird später bei der Betrachtung der
   orthogonalen Rotation wichtig, s. Frage 7)
4.                                                   Angenommen, die manifeste
   Variable X1 werde durch zwei orthogonale Faktoren erklärt, dann ist die Varianz
   dieser Variable:
               Var (X1) = Var ( a1F1 + b1F2 + U1)
   Nach dem Additionssatz für Varianzen folgt:
                       = a2 Var(F1) + b2Var(F2) + 12Var(U1)
                                                                    mit Var(F1),Var(F2),Var (X1) =1

     Daraus folgt:
                              1 = a2 + b2 + Var (U1)                            a1² + b1² = Kommunalität


          Var(Ui) = 1 – Kommunalität

5.                                                    In einem Scree-Plot werden die
     Faktoren und der jeweilige Anteil erklärter Varianz aufgetragen.
              Scree-Plot
             2.5
             2.0
             1.5
             1.0
             0.5
               0
                   1              2            3          4             5




     Nun wird ‚von hinten her‘, also vom letzten Faktor in Richtung der ersten Faktoren,
     eine Gerade angepasst. Der Faktor, bei dem die Anpassung durch eine Gerade nicht
     mehr sinnvoll nachvollzogen werden kann, soll in die Analyse mit einbezogen
     werden.
6.   Meist wird mit einem Hauptkomponentenmodell begonnen, dann werden möglichst
     wenige Faktoren im Sinne eines Common factor models aus der
     Hauptfaktorenlösung verwendet mit dem Ziel, möglichst viel Information zu
     erhalten (viel Varianz der ursprünglichen Daten durch die Faktoren).Für die
     endgültige Schätzung eines Common factor models sollte aber nach Möglichkeit
     eine echte Schätzmethode verwendet werden (etwa ML-Schätzung oder gewichtete
     bzw. ungewichtete KQ-Schätzung).
7.   Wenn jede manifeste Variable auf einen Faktor die höchste Ladung aufweist und
     auf den/ die anderen Faktor/en möglichst geringe, oder am besten Nullladungen
     aufweist. D.h., wenn die Ladungen eine sog. Einfachstruktur aufweisen.
8.   Das Varimax-Kriterium als eine der vielen möglichen Varianten einer Definition
     einer Einfachstruktur fordert, dass die Summe der quadrierten (und durch die
     Kommunalitäten geteilten)Varianzen der Ladungen der Faktoren maximal ist. Die
     Varianz wird also als Kriterium herangezogen: Die Ladungen sollen „extremer“
     werden, d.h. die Ladung einer Variable auf den gewünschten Faktors soll größer
     und die Ladung auf den anderen, nicht gewünschten Faktor soll kleiner werden.Je
     extremer die Ladungen sind, desto größer ist die Summe der quadrierten Varianz.
     Daher heißt das Kriterium auch Varimax-Kriterium. Siehe hier:
             Vor Rotation                                 Nach Rotation
                    F1          F2   Komm.                     F1     F2         Komm.
      FAn           0.4         0.86    0.90       FAn           0.93    0.20         0.90
      WS            0.7        -0.42    0.67       WS           -0.26    0.78         0.67
      ZAn            0          0.82    0.67       ZAn           0.80   -0.18         0.67
      SBK           0.1         0.67    0.46       SBK           0.67   -0.05         0.46
      SErg           1            0      1         SErg          0.22    0.98           1
      Durch                                        Durch
      die                                          die
      Faktoren         1.66    2.03     3.69       Faktoren      2.06   1.629          3.69
      erklärte                                     erklärte
      Varianz                                      Varianz
9. Eine besser interpretierbare Faktorenstruktur zu erhalten (in Richtung der
    Einfachstruktur).
10. Bei jeder Rotation (inklusive Spiegelung) gelten folgende Eigenschaften:
    1. Nur die Achsen werden rotiert, die Abstände der Punkte zueinander bleiben
    unverändert.
    2. Die Kommunalitäten werden durch die Rotation nicht verändert.
    3. Die durch jeden Faktor erklärte Varianz ändert sich.
    4. Rotierte ML-Schätzer sind ebenfalls ML-Schätzer.
    5. Die rückgerechneten Korrelationen bleiben trotz Rotation gleich.
11. Als Modellparameter müssen Ladungen und Spezifitäten geschätzt werden.
12. Cov( a1F1 + b1F2+ U1 , a1F1 + b2F2 + U2) = a a  b b .        1   2   1   2

                        Die Kovarianzen sind gleich den Korrelationen.
13. Die Parameter sollten so geschätzt werden, dass die Differenz zwischen den
    tatsächlichen Korrelationen (zwischen den manifesten Variablen) und den durch die
    Faktoren prädizierten Korrelationen minimal wird. Diese Differenzen werden auch als
    Restkorrelationen bezeichnet. Mithilfe der Faktorenstruktur soll also die ursprüngliche
    Korrelationsmatrix möglichst gut angenähert werden.
14. Ziel der Clusteranalyse ist, ungeordnete Daten zu Gruppen zusammenzufassen. Die
    Gruppenanzahl soll möglichst klein sein, die Homogenität innerhalb von Gruppen und
    die Heterogenität zwischen den Gruppen möglichst groß sein.
15. Als Objekte können Merkmale zusammengefasst werden, die bezüglich der UEen
    ähnlich sind. (R-Technik). Es können aber auch UEen zusammengefasst werden, die
    sich bezüglich einiger Merkmale ähnlich sind (Q-Technik).
16. Es gibt Verfahren, bei denen von vorneherein klar sein muss, wie viele Cluster
    entstehen sollen. Bei anderen Verfahren wird sukzessive vorgegangen (Hierarchische
    Clusteranalyse). Hierbei kann agglomerativ oder diversiv organisiert werden. Bei
    agglomerativer Organisation wird jedes einzelne Objekt zuerst als Cluster angesehen
    und man fasst diese einzelnen Cluster schrittweise zu neuen zusammen. Beim
    diversiven Vorgehen werden alle Objekte vorerst als Cluster angesehen und dann
    sukzessiv aufgeteilt.
17. Das Dendrogramm wird im Rahmen der hierarchischen Clusteranalyse dazu
    verwendet, die Verschmelzung oder Teilung der Cluster zu jedem Schritt der Analyse
    in einem zweidimensionalen Diagramm darzustellen.




    aus: http://www.resample.com/xlminer/help/HClst/HClst_intro.htm
18.
      Single Linkage Clustering: Die Distanz zwischen Gruppen ist über die Distanz der am
      nächsten liegenden Teile beider Gruppen definiert (next neighbour method):

                                                                        Es werden also Paare
                                                                        betrachtet, wobei der eine
                                                                        Teil aus Cluster A und der
                                                                        andere Teil aus Cluster B
                                                                        sein muss. Jedes mögliche
                                                                        Paar zwischen beiden
                                                                        Clustern wird betrachtet, die
                                                                        kleinste Differenz gilt als
                                                                        Distanz zwischen Cluster A
                                                                        und Cluster B.



      Complete Linkage Clustering: Das Gegenteil des Single Linkage Clustering. Es wird
      nun die weiteste Distanz als Distanz zwischen den Clustern definiert.

      Average Linkage Clustering: Es wird der Durchschnitt der Distanzen aller Paare als
      Maß der Distanz der Cluster definiert.
                                    D(r,s) = TAB / ( NA * NB)
      TAB ist die Summe aller Paardistanzen, NA und NB beschreiben die Größen der
      Cluster.




      aus: http://www.resample.com/xlminer/help/HClst/HClst_intro.htm


19. Die unterschiedlichen Arten der Clusteranalyse entscheiden sich durch ihre präzise
    Formulierung der Ähnlichkeit. Meist wird die Distanz zwischen Objekten betrachtet.
    Man spricht daher meist von Unähnlichkeitsmaßen, da das zentrale Kriterium zur
    Unterscheidung der Gruppen, deren Unähnlichkeit ist. Die Unähnlichkeitsmaße
    werden mit d(i,j) abgekürzt ( für die Distanz zwischen den Objekten i,j = 1,..,n). Meist
    werden die Rohdaten in eine Unähnlichkeitsmatrix formiert. Ein Unähnlichkeitsmaß
    muss bestimmte Anforderungen erfüllen: Die Unähnlichkeit mit sich selbst muss Null
    betragen. Es sind keine negativen Werte möglich. Die Unähnlichkeitsmaße sind
    symmetrisch (d(i,j)= d(j,i))
20. Die Euklidische Distanz setzt mind. intervallskalierte Variablen voraus. Diese werden
    meist standardisiert, um die Invarianz gegenüber Skalentransformationen zu
    gewährleisten.
           aus: http://ki.informatik.uni-wuerzburg.de/teach/ws-2004-2005/wms/documents/WMS_2004_05_5.4.pdf
   21. Die Manhattan-Metrik (auch Cityblock – oder Mannheim-Metrik) hat ihren Namen
       dem Problem der Wegzurücklegung entlehnt. Die Strecke etwa, die ein Taxifahrer
       zurücklegen muss, um von A nach B zu gelangen, entspricht nicht der Luftlinie,
       sondern eher einem sich um die Häuserblocks schlängelnden Wegs. Es sind also nur
       vertikale und horizontale Wegstrecken möglich, diagonal darf nicht über Hausdächer
       gefahren werden. Geometrisch:




       aus: http://www.gitta.info/Accessibilit/de/html/NotaSpatDist_metrik.html




Zusatz: AIC und BIC -Kriterien. bei der Faktorenanalyse in R (Rcmdr):
Die beiden Informationskriterien werden im allgemeinen definiert als Funktionen der
Likelihood (= -2ln(Likelihood(k)) und der Parameteranzahl (= Parameteranzahl(k)) bei k
Faktoren:

   AIC(k) = -2ln(Likelihood(k)) +2*Parameteranzahl(k);
   BIC(k) = -2ln(Likelihood(k)) + ln(n)*Parameteranzahl(k); mit n = die Anzahl der Fälle.

Die Anzahl der Parameter, die in einem Modell mit k Faktoren implizit geschätzt werden
muss, ist gleich (k+1)*m -(k*(k-1)/2), wobei m die Anzahl der Variablen symbolisiert.
           Parameteranzahl(k) = (k+1)*m -(k*(k-1)/2).

Ich habe bisher im Faktorenanalysepaket in Rcmdr keine Möglichkeit gefunden, AIC, BIC
oder -2ln(Likelihood(k)) auszugeben. Der einzige dafür verwertbare Teil im Ausdruck ist das
Chi**2. Denn dieses Chi**2 ist eine BARTLETT-Korrigierte Differenz von Likelihoods:
   Chi**2 =LDiff(k)*( n-1 -(4k +2m+5)/6))/(n-1),
   wobei LDiff(k) := -2ln(Likelihood(k) - -2ln(Likelihood(gesättigtes Modell)) .

LDiff kann daher folgendermaßen berechnen werden:
        LDiff(k):=Chi**2 * (n - 1)/( n-1 -(4k +2m+5)/6)).

Aus diesem LDiff kann nun eine zu AIC bzw. BIC nur um eine additive Konstante
( = -2ln(Likelihood(gesättigtes Modell)) ) differierende Größe gebildet werden, die hier als
AIC' bzw. BIC' bezeichnet werden soll:

 AIC’(k) = LDiff(k):+2*Parameteranzahl(k);
 BIC’(k) = LDiff(k)+ ln(n)*Parameteranzahl(k).

Verglichen mit der obigen Definition gilt:
  AIC’(k) = AIC(k) + 2ln(Likelihood(gesättigtes Modell));
  BIC’(k) = BIC(k) + 2ln(Likelihood(gesättigtes Modell));
Da die Likelihood allemal nicht voll eindeutig, sondern nur bis auf eine multiplikative
Konstante eindeutig definiert ist, ist die additive Konstante (= 2ln(Likelihood(gesättigtes
Modell))) irrelevant für die Definition von AIC und BIC.


Beispiel: Sei n=73, m=45,
 Für k=1 erhält man: Chi**2=1550.2863 LDiff=2011.18; Parameteranzahl(1)=90;
AIC'=2191.18; BIC'=2397.32
 Für k=2 erhält man: Chi**2=1353.9225 LDiff=1777.79; Parameteranzahl(2)=134
AIC'=2045.79; BIC'=2352.72
StaDat11

      1. Mit welchem Test kann überprüft werden, ob ein Faktor zur Beschreibung der Daten
         ausreichend ist?
      2. Der Likelihood-Ratio-Test folgt der Chi-Quadrat-Verteilung. Welche Konsequenzen
         hat eine große Stichprobe auf einen signifikanten Testwert?
      3. Was ist das Akaike-Infomation-Criterion(AIC)?
      4. Was ist das sog. BIC?
      5. Wie unterscheiden sich die beiden Kriterien bezüglich der Gewichtung mehrere
         Parameter?
      6. Beschreiben Sie, wieviele Parameter bei 6 Variablen maximal geschätzt werden
         können.
      7. Beschreiben Sie, wieviele Parameter bei 6 Variablen und 3 Faktoren geschätzt
         werden.
      8. Ist eine additive Konstante für die Definition von AIC und BIC relevant? Warum?



Übung in R – Erfolgsmodell

Darstellung einer Struktur zwischen mehreren Variablen. Die Störgrößen, die auch im Modell
enthalten sind, sind standardnormalverteilt und voneinander unabhängig. Nur Covarianzen
und Varianzen können betrachtet werden, die Strukturen an sich kann man nicht beobachten,
diese will man aber finden! Diese Analyse nennt man Pfadanalyse.



Unter der Annahme, das Modell stelle die „wahren“ Strukturen dar, d.h. das Erfolgsmodell
stelle die Strukturen der Population dar, werde nun eine Stichprobe der Größe 1000 gezogen.
Ziel ist, zu sehen, wie Strichprobenmaßzahlen, die aus einer Grundgesamtheit gezogen
werden (und wir wissen in diesem Fall, wie die Maßzahlen der Grundgesamtheit sind!),
ausfallen.Es gibt zehn Variablen im Modell und dementsprechend zehn Störgrößen.
(Zusätzlich gibt es auch noch die Variable Geschlecht zu der keine Störgröße angegeben
werden muss)Eine Stichprobe der Größe 1000 mit 10 Variablen hat also insgesamt 10*1000=
10 000 Werte. Diese können in R generiert werden: (zur Programmierung in R siehe http://www.rpad.org/Rpad/R-
refcard.pdf)




a<-rnorm(10000)
Die Werte sollen aus einer Normalverteilung gezogen werden. (Erkennbar an „norm“ im
Befehl). Der nach links gerichtete Pfeil ist die Zuordnungsfunktion.
Nun werden die Werte als Matrix strukturiert (10 Spalten(Col) mit jeweils 1000 Zeilen (row))
und dem Namen 'b' zugeordnet:
b<-matrix(a,nrow=1000, ncol=10)
zusätzlich wird die Matrix in ein Data-Frame umgewandelt und als erf gespeichert:
erf<-data.frame(b)
(Der Vorteil einer Speicherung der Werte in einem Data-Frame: Variablen unterschiedlichen
Typs, z.B.Zahlen wie auch Texte, sind als Spalten zugelassen)
Zur Formulierung von Variablennamen werden als Vektor die Zahlen 1 bis 10 generiert
num<-1:10
Mithilfe von 'paste' wird der vorher generierte Zeilenvektor, durch ein Leerzeichen (sep=““)
getrennt, mit „eps“ betitelt und dem Namen xxx zugeordnet:
xxx<-paste("eps",num,sep="")
Im Vektor xxx stehen nun die Namen: eps1, eps2, …, eps10.
Mit dem Befehl names(erf)<-xxx werden die Namen als Variablennamen dem Dataframe erf
zugeordnet.
Nun werden die Variablen nach den Strukturen des Erfolgsmodells generiert:
erf$sex<- 1*(erf$eps1>0)
Sind die Ausprägungen der Variable in Spalte 1 größer als Null, soll sie mit 'Wahr', ansonsten
mit 'Falsch' etikettiert werden.



Vergleiche Erfolgsmodell:

erf$Iz<- erf$eps2*15

→ Die Ausprägungen der Variable in Spalte 2 mal 15 nehmen und in eine neue Spalte mit
dem Namen Iz schreiben.
Und fortfolgend:
erf$Kreativ <- erf$eps3*15
erf$GemKreativ <- erf$Iz+erf$Kreativ
erf$ZukOrient <- 10*erf$sex + 0.5*erf$Iz+ erf$eps4
erf$ArbMotiv <- erf$ZukOrient + 10*erf$sex +erf$eps5
erf$ErfMotiv <- 10*erf$sex+erf$ZukOrient+10*erf$eps6
erf$Angst <- 0.25*erf$ZukOrient-0.5*erf$Iz+10*erf$eps7
erf$Depr <- 4*erf$Angst+10*erf$eps8
erf$Schulerf <- erf$ArbMotiv+erf$ErfMotiv-erf$Depr+10*erf$eps9
erf$Erfolg <-0.5*erf$Schulerf+erf$Kreativ+10*erf$eps10



Zeigt die Namen der Spalten an.



Nun können Statistiken anhand der generierten Stichprobe berechnet werden. Etwa ein
lineares Modell mit den Prädiktoren 'Sex' und Zukunftsorientierung('ZukOrient').



Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.10380 0.45062 -0.23 0.818
sex[T.TRUE] 10.24803 0.75395 13.59 <2e-16 ***
ZukOrient 1.05883 0.04153 25.50 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 9.923 on 997 degrees of freedom
Multiple R-squared: 0.638, Adjusted R-squared: 0.6372
F-statistic: 878.5 on 2 and 997 DF, p-value: < 2.2e-16
Besonders beachtet werden sollte, dass dies ein Ergebnis aufgrund einer Stichprobenziehung
ist. Die Regressionsanalyse hat die wahren Werte aufgrund der Stichprobe nachgebildet.
Würde man alle möglichen Stichproben ziehen, läge das Ergebnis bei 10 für Sex und bei 1 für
Zukunftsorientierung (siehe Erfolgsmodell: Dies gilt als Population). Man kann hieran sehen,
wie genau die Schätzer sind.



Lösungsvorschläge

   1. Mit einem χ2 Anpassungstest. Das Modell, das nur einen Parameter enthält wird mit
      dem Modell, dass alle maximalen Parameter enthält, verglichen. Bei einem Faktor
      kann die Nullhypothese „Ein Faktor ist ausreichend“ und die Alternativhypothese „Ein
      Faktor ist nicht ausreichend“ formuliert werden.
   2. Je größer die Stichprobe ist, desto größer wird der Testwert (er steigt linear mit n): Je
      größer die Stichprobe, desto eher steigt die Evidenz i.a. gegen ein Modell.
   3. s.Sitzung 5, Frage 18.
   4. Das sog. Bayesianische Informations-Kriterium (BIC) entspricht seiner Art nach dem
      AIC – ein Maß zur Beurteilung der Güte der Anpassung von auf ML-Schätzungen
      basierenden nicht-geschachtelten Modellen – unterschiedet sich aber in der additiven
      Konstante: Statt zu die zweifache Parameteranzahl(k) zu addieren, wird die
      Parameteranzahl* ln(n) – mit n= Anzahl der Fälle – addiert.
   5. Bei mehr als n=8 ist der Faktor, mit dem die Parameteranzahl multipliziert wird
      größer als 2. Demnach größer als beim AIC. Daher fällt hier die Zahl der Parameter
      als „Strafe“ stärker ins Gewicht. Warum als Strafe? Je mehr Parameter berücksichtigt
      werden, desto umfassender und komplexer ist das Modell: Gesucht ist aber ein
      möglichst einfaches Modell.
   6. m*(m+1)/2 ; mit m= Anzahl Variablen.
   7. m*(k+1)- k(k-1)/2. In dem vorliegenden Fall: 6*(4) -4*(3)/2 = 18
   8. Da die Likelihood nicht eindeutig, sondern nur bis auf eine multiplikative Konstante
      definiert ist, ist eine additive Konstante, wie sie etwa zur Umwandlung zu AIC' und
      BIC' vorgenommen wird, für die Definition von nicht relevant.(s.o.)
                                        Sitzung 11



   1.   Was sind Störgrößen?
   2.   Was sind Residuen?
   3.   Sind deren Einflüsse systematischer oder unsystematischer Art?
   4.   Wie hängen Residuen und Störgrößen zusammen?
   5.   Was ist das Gesetz der großen Zahl?
   6.   Erwartungswert einer Linearkombination E(Z) (mit Z=a*X + b*Y) ?
   7.   Varianz einer Linearkombination E(Z)?
   8.   Was ist das sog. LISREL - Modell?
   9.   Innerhalb eines komplexen Strukturgleichungsmodelles kann die Frage auftauchen,
        welche direkten Effekte, aber auch welche indirekten Effekte Variablen auf eine
        Zielvariable haben. Beschreiben Sie mithilfe von Matrizen anhand des schematischen
        Beispieles, wie solche Effekte dargestellt werden können.


                                x1          a1
                       b1
                                                  Z1
                                x2      a2
                         b2
               Y
                         b3     x3          a3

                                            c2   c1

                                       c3
                                                 Z2



   10. Was ist ein Moderator?



1. Als Störgrößen werden die Abweichungen der wahren Daten von den durch ein Modell
prädizierten Daten bezeichnet. Der Einfluss von Variablen, die in dem geprüften Modell
vergessen oder nicht berücksichtigt wurden, gehören zu dieser Kategorie. Als Verteilung der
Störgrößen nimmt man eine NV mit dem Mittelwert Null an.



2. Als Residuen bezeichnet man die Differenzen des Modells zu den beobachteten Werten.
Dies dient häufig als Ersatz für die Störgrößen.



3. Der Einfluss der Störgrößen ist nicht systematisch. Der Einfluss der Residuen ist
systematisch.
4. Eigentlich soll getestet werden, ob die Störgrößen normalverteilt sind. Da man die
Störgrößen aber nicht kennt, verwendet man stattdessen die Residuen.

Wenn die 'tatsächliche Gerade' z.B. einer Regressionsanalyse bekannt ist, entsprechen die
Residuen genau den Störgrößen.



5. Bei identischen Zufallsexperimenten wird die Wahrscheinlichkeit, dass die relative
Häufigkeit eines Zufallergebnisses (z.B. Mittelwert) von dessen Erwartungswert abweicht,
mit steigender Anzahl der Wiederholungen kleiner.

Die Stichprobengröße spielt keine Rolle!



6. E(Z)=a* E(X) + b*E(Y)



7. Var(Z)= a2 Var(X) + b2 Var(Y) + 2Cov(X,Y)

Enthält die Linearkombination mehr als zwei Variablen, kann als Hilfe eine Tabelle
verwendet werden:


                         a1 x1                    a2 x2                    a3 x3
a1 x1                    a12 Var(x1)              a1 a2 Cov(x1, x2)        a1a3 Cov(x1, x3)
                                                       2
a2 x2                    ..                       a2 Var(x2)               a2 x3Cov(x1, x2)
a2 x2                    ..                       ..                       a32 Var(x3)

Die Tabelle ist symmetrisch, daher sind die leeren Zellen mit den entsprechenden
Covarianzen der rechten Seite aufzufüllen.

Die Varianz einer Linearkombination a1 x1 + a2 x2 + a3 x3 ist dann wie folgt:

a12 Var(x1) + a22 Var(x2) + a32 Var(x3) + 2 a1 a2 Cov(x1, x2) + 2 a1a3 Cov(x1, x3) + 2 a2
x3Cov(x1, x2)

Für Übungen siehe: Erfolgsmodell

    8. Das LISREL – Modell (von LInear Structural RELation ) ist eine Verbindung von
       Faktorenstruktur und Pfadanalyse. Das Modell beinhaltet latente und manifeste
       Variablen. Schematisch:
    9. X1, X2 und X3 haben einen direkten Einfluss auf die Zielvariable Y.

        Als Linearkombination: Y = b1 x1 + b2 x2+ b3 x3 + ε1
         In Matrizenschreibweise: (Erwartungswerte werden nur verwendet, damit der Term der Störgröße herausfällt)
E(Y) =           b1 b2 b3     E( x1 )
                                   x2
                                   x3
 mit: x1 = a1z1 + c1z2
       x2 = a2z1 + c2z2
       x3 = a3z1 + c3z2
 Die X-Variablen als Matrixschreibweise:

 E( x1 ) = a1 c1            E( z1        )
    x2     a2 c2               z2
    x3     a3 c3
 Wird nun in der die Zielvariable Y beschreibenden Gleichung der X-Vektor durch den z-
 Vektor inklusive Ladungsmatrix substituiert, kann geschrieben werden:

 Y=        ä ö        z1
                      z2
 wobei die                 Matrix äö den indirekten Einfluss von z beschreibt:
 ä ö =          b1 b2      b3 a1 c1
                                a2 c2
                                a3 c3
 Es wird also die Summe aller Wege sowohl von z1 als auch von von z2 über x1, x2 und x3
 beschrieben.
 Vergleiche Erfolgsmodell: Die Variable Sex hat einen direkten Einfluss auf ErfMotiv und
 ZukOrient und einen indirekten Einfluss auf ArbMotiv.


 Angenommen, zwei Variablen X und Z beeinflussen jeweils die Zielvariable Y.
                                                                 Z

                                                 a

                            Y
                                                 b               x3



 Y= aZ + bX
 Beeinflusst nun Z den Einfluss zwischen X und Y, bezeichnet man Z als Moderator:

                                                            Z
                                                                           β
                                             a
                                                      γ
                       Y
                                             b              x3
mit b=β + γZ
Somit kann die Zielvariable folgendermaßen durch die Gleichung beschrieben werden:
Y = aZ + βX + γZX
Zu beachten ist jedoch, dass nur das Produkt von ZX berechnet wird – welche Variable daher
als Moderator fungiert, wird nicht ersichtlich.
Ist der Einfluss von X auf die Zielvariable Y von β und γ folgender Art :
Y= a + bx X und bx = β + γX
 Y = a + βX + γX2

Wenn eine Produktvariable in der Gleichung vorkommt (X^2 oder X*Z), sollte immer auch
der Faktor X bzw. Zelbst in der Gleichung enthalten sein, wenn X bzw. Z Intervallskalen sind
(siehe dazu Nagl: Statistische Datenanalyse mit SAS, S155 ff)

Wenn die X-Variable mindest eine Verhältnisskala ist (oder die X- bzw. Z- Variablen
zentriert sind, wodurch die Intervallskalen zu Verhältnisskalen werden), können auch Modelle
betrachtet werden, die nur das Produkt enthalten (vgl. Fallgesetze: s(t)=g/2 *t**2; mit g =
9.8. wobei s(t) der zurückgelegte Weg in Metern und t die Zeit in Sekunden ist).

Beachte: Die Interaktion entspricht dem Fall der Moderation.
10. Eine Mediatorvariable ist ein „Vermittler“ zwischen zwei Variablen:

                               Hier ist z Mediator. Ist c gleich Null spricht man von z als strikten
 x    a     z    b     y       Mediator. Ob dies der Fall ist, kann man auf mehre Arten herausfinden.
                               Eine Möglicheit besteht darin, die partielle Korrelation zwischen x und y
            c                  unter Konstanthaltung von z zu errechnen. Diese wird Null, wenn c Null
                                                  rxy  ryzrxz              (c  b  a)  a  (b  c  a)
                               ist: pry(x.z) =                          =                                   = 0 wenn c = 0
                                                       2         2
                                                 (1  ryz )(1  rxz )
                                                                                      ..........
                                         Sitzung 12
Klausur Freitag, 13. Februar in Raum G420!!

   1. Welche Arten von Zusammenhängen der UV in einer Regressionsanalyse sind erlaubt?
   2. Dürfen unabhängige Variablen weggelassen werden? Wenn ja, welche Schritte müssen dann
       vorgenommen werden?
   3. Wie können aus einer Regression mit mehreren UVs einige UVs weggelassen werden und
       neue Regressionskoeffizienten errechnet werden?
   4. Wann ändern sich die Koeffizienten nicht, wenn einige UVs weggelassen werden? Warum?
   5. Wieviele Regressionen müssen bei fünf Variablen berechnet werden, wenn sie auf zwei
       Variablen dezimiert werden sollen?
   6. Was sind verbundene Stichproben?
   7. Geben Sie Beispiele für verbundene Stichproben.
   8. Warum sollte immer ein repeated - measurement Design angestrebt werden?
   9. Was ist der Unterschied zwischen einer Zeitreihe und Vpn als UEen, deren Merkmale über
       mehrere Zeitpunkte als verbundene Stichprobe miteinander verglichen werden?
   10. Was bedeutet die Aussage, zwei Faktoren seien vollständig gekreuzt?
   11. Geben Sie ein Beispiel für zwei vollständig gekreuzte Faktoren.
   12. Was bedeutet die Aussage, zwei Faktoren seien genested?
   13. Geben Sie ein Beispiel.
   14. Was ist ein Personenfaktor und was bedeutet die Aussage, der Personenfaktor sei im
       Gruppenfaktor genested?
   15. Was bedeutet die Aussage, ein Faktor sei in der Interaktion zwischen zwei anderen Faktoren
       genested? Geben Sie ein Beispiel für ein Versuchsdesign.
   16. Was ist bezüglich der Vergleichbarkeit zu beachten?
   17. Welche Aussagen sind bezüglich des Kreuzens bei Withinfaktoren und Betweenfaktoren zu
       machen?
   18. Skizzieren Sie für eine Personen und vier Messzeitpunkte der Variable ‚Schön‘ und der
       Variable ‚Voll‘ einen horizontalen und einen vertikalen Datensatz.
   19. Was sind stochastische Faktoren?
   20. Geben Sie Beispiele für stochastische Faktoren.
   21. Was sind fixe Faktoren? Geben Sie ein Beispiel.


                                       Lösungsvorschläge

   1. Die UV dürfen korrelieren, aber in keinem Fall linear voneinander abhängig sein.
   2. Ja, es dürfen unabhängige Variablen weggelassen werden. Dazu müssen allerdings neue
      Regressionskoeffizienten mithilfe von Pfadregeln berechnet werden.
   3. Sind die Korrelationen zwischen UVs bekannt, können Hilfsregressionen zur Berechnung der
      neuen Regressionskoeffizienten herangezogen werden.
                             β1                                                x1          δ1      y
                  x1                                   y
            γ13                   β2                                                          δ2
      γ14               x2
                                       β3
γ15               γ23                                                                    x2
                              x3            β4
        γ24                                                δ1 = β1 + β3 γ13 + β4 γ14 + β5 γ15
                                                  β5       δ2 = β2 + β3 γ23 + β4 γ24 + β5 γ25
            γ25                        x4

                                                 x5

      γ13, γ14, …, γ25 sind die Hilfsregressionen. Für den neuen Regressionskoeffizienten δ1 müssen
      alle Wege über x1 zu y aufsummiert werden (vgl. direkte und indirekte Effekte). Genauso wird
      für δ2 vorgegangen.

4. Wenn die UV untereinander nicht korrelieren, ändern sich die Koeffizienten nicht. Die
   Hilfsregressionen sind gleich Null und daher besteht die Summe für den ‚neuen‘
   Regressionskoeffizienten δ nur aus dem ‚alten‘ Regressionskoeffizienten β. Bei
   randomisierten UVs ist die Wahrscheinlichkeit sehr gering, dass sie mit anderen UVs
   korrelieren  daher immer randomisierte Designs durchführen!
5. Es müssen insgesamt fünf Regressionen berechnet werden:

      a.     y|x1 , x2 , x3 , x4, x5
      b.     y| x1, x2
      c.     x3| x1, x2
      d.     x4| x1, x2
      e.     x5| x1, x2
             Für Übungen: Exceldatensatz RegSpezif


6. Wenn eine Zuordnungsregel formuliert werden kann, die einer Messung in Gruppe 1 eindeutig
    eine Messung in Gruppe 2 zuordnet, spricht man von verbundenen Stichproben.
7. Beispiele für verbundene Stichproben sind etwa Messungen einer Person vor und nach einer
    Behandlung, die Messung von der Intelligenz zweier Partner, die Messung der rechten und
    linken Gehirnhälfte, der Verschmutzungsgrad an zwei Seiten einer Tür etc. Auch die Messung
    einer Person zu verschiedenen Zeitpunkten (vgl. Danieldaten) bezeichnet man als verbundene
    Stichproben.
8. Unterschiedliche VP bergen zusätzliche Varianz. Sollen etwa Effekte einer Behandlung zu
    verschiedenen Zeitpunkten untersucht werden, werden nicht nur Effekte und verschiedene
    Zeitpunkte miteinander verglichen, sondern auch verschiedene Personen. Bei verbundenen
    Gruppen kann der Unterschied eher dem Gruppenmerkmal zugeordnet werden.
9. Eine Zeitreihenanalyse ist nur dann eine Zeitreihenanalyse, wenn nur EINE UE in ihrem
    Verlauf über die Zeit betrachtet wird. Dies können zwar auch Personen sein, dann ist
    allerdings nur die Beobachtung EINER VP zulässig, z.B. Blutwerte eines Sportlers über die
    Monate vor einer Olympiade hinweg. Klassische Zeitreihenanalysen sind Börsenkurse.
10. Wenn für jede Stufe des Faktors A in allen Stufen des Faktors B UEen vorhanden sind,
    bezeichnet man beide Faktoren als vollständig gekreuzt.
11. Angenommen, Faktor A sei ein Faktor mit 6 Stufen (6 UEen, z.B. VPn mit einem
    interessierenden Merkmal) und Faktor B seien 3 Messzeitpunkte. Wird das Merkmal jeder UE
    zu jedem der drei Zeitpunkte beobachtet, sind die beiden Faktoren vollständig gekreuzt. Es
    handelt sich um eine verbundene Stichprobe.
12. Zwei Faktoren sind genested, wenn für jede Stufe eines Faktors A nur ganz bestimmte Stufen
    des Faktor B besetzt sind.
13. Angenommen, Faktor A sei ein Faktor mit 6 Stufen (s.o.) und Faktor B seien 3
    Messzeitpunkte, dann ist Faktor B in Faktor A (bzw. in den Stufen von Faktor A) genested,
    wenn etwa die ersten zwei UE nur zu Zeitpunkt 1, die dritte und vierte UE nur zu Zeitpunkt 2
    und die fünfte und sechste UE nur zu Zeitpunkt 3 in den Ausprägungen des interessierenden
    Merkmales beobachtet werden.
14. Bei repeated-measurement-designs wird eine Vorraussetzung der Statistik – die
    Unabhängigkeit der UEen - verletzt. Zur Behebung dieses Problems wird ein Personenfaktor
    eingeführt, der interindividuelle Unterschiede in sich vereint und dadurch als möglicherweise
    verzerrenden Einfluss zusammenfasst. Die Daten werden vergleichbar und die Varianz fließt
    nicht mehr als Störgröße in eine UV ein (und dadurch wird Signifikanz schneller erreicht!).
    Zum Selbstsehen: In R ein lineares Modell mit Zeit*Gruppe berechnen lassen und
    dann mit einem zweiten linearen Modell mit Zeit*Gruppe + Name vergleichen.
    Gruppeneffekte können aus dem Personenfaktor erzeugt werden.
15. Angenommen, an drei Messzeitpunkten (Faktor B, z.B. vor der Behandlung, ein Tag nach der
    Behandlung, ein Jahr nach der Behandlung) sollen zwei Gruppen (Faktor C, z.B. EG und KG)
    mit jeweils 6 VP (Faktor A) in den Ausprägungen eines interessierenden Merkmals (z.B.
    Zigarettenkonsum pro Tag) untersucht werden:

             Gruppe 1                                      Gruppe 2
    VP       Zeitpunkt   Zeitpunkt Zeitpunkt               Zeitpunkt     Zeitpunkt Zeitpunkt 3
             1           2         3                       1             2
    1        ×
    2        ×
    3                    ×
    4                    ×
    5                                ×
    6                                ×
    7                                                      ×
    8                                                      ×
    9                                                                    ×
    10                                                                   ×
    11                                                                               ×
    12                                                                               ×

    Man spricht in einem solchen Fall davon, dass der Personenfaktor in der Interaktion zwischen
    Zeit- und Gruppenfaktor genested ist.
16. Zwischen genesteten Faktoren ist keine Interaktion definierbar (da die Randmittelwerte des
    genesteten Faktors identisch mit den Zellmittelwerten sind). Jede Stufe des Faktors A wird ja
    nur in einer Stufe des Faktors B betrachtet: Eine Aussage darüber zu treffen, wie Faktor A mit
    verschiedenen Stufen des Faktor B interagiert ist unsinnig. Vergleiche zwischen den Stufen
    der Faktoren sind nur eingeschränkt möglich: Innerhalb einer Stufe von B (z.B.
    Messzeitpunkte) können nur manche Stufen von A miteinander verglichen werden. Ein
    Vergleich verschiedener Stufen des Faktor B sind implizit Vergleiche zwischen den A-
    Stufen.
17. Within-Faktoren sind mit dem Personenfaktor gekreuzt; Between-Faktoren sind mit dem
    Personenfaktor nicht kreuzbar.
   18. Horizontaler Datensatz:
                 Schön1 Schön2         Schön3     Schön4     Voll1      Voll2      Voll3     Voll4
       VP1       ..        ..          ..         ..         ..         ..         ..        ..



       Vertikaler Datensatz:
                                 Schön                               Voll
        VP1                      ..                                  ..
        VP1                      ..                                  ..
        VP1                      ..                                  ..
        VP1                      ..                                  ..

       Um einen Personenfaktor in eine Regressionsanalyse mit ein zu beziehen, muss in R der
       vertikale Datensatz verwendet werden.
   19. Faktoren werden als stochastisch bezeichnet, wenn die Stufen des Faktors als eine
       Zufallsauswahl aus einer Population von Stufen angesehen werden. Schlussfolgerungen aus
       Versuchsergebnissen sollen für die Population aller Faktorstufen gelten. Es interessiert daher
       nicht der einzelne Stufeneffekt, sondern die Variabilität in der Stufenpopulation. Diese
       Variabilität wird durch die Varianz operationalisiert.
       Es muss ein Stichprobenfehler beachtet werden.
   20. Am eingänglichsten ist als Beispiel für einen stochastischen Faktor der Personenfaktor. Es ist
       unmöglich, in einem Experiment alle Personen einer Grundgesamtheit zu untersuchen. Daher
       wird aus der Population eine Stichprobe, eine Zufallsauswahl gezogen. Das Ziel ist, die
       Ergebnisse zu generalisieren. Die Ergebnisse sollen sich auf alle Stufen des Faktors in der
       Population beziehen, nicht nur auf die Personen, die untersucht wurden. Der Effekt einer
       einzelnen Person interessiert also nicht. Weitere stochastische Faktoren sind der Interview-,
       Länder-, Schulen-, Betriebe –Faktoren etc.
   21. Bei fixen Faktoren interessieren die Effekte der Stufen. Geschlecht zum Beispiel ist ein
       fixer Faktor – andere Stufen in der Population gibt es nicht. Interaktionen zwischen
       fixen und stochastischen Faktoren sind jeweils wieder stochastisch.

   Empfehlung für ein Programm:
G-Power. Hier kann etwa berechnet werden, wie groß die Gruppengröße sein muss, damit eine
bestimmte Effektgröße erwartet werden kann.

								
To top