PowerPoint Prsentation LMU Mnchen Institut fr Statistik
Shared by: sanmelody
-
Stats
- views:
- 44
- posted:
- 3/22/2011
- language:
- German
- pages:
- 26
Document Sample


Lineare Regressionsanalyse mit
SPSS von Susanne Konrath
Inhaltsverzeichnis
Bestehenden Datensatz importieren
Neue Daten eingeben
Start der linearen Regression
Dialogbox lineare Regression
Festlegen der Regressionsgleichung
Festlegen von Blöcken und der
Variablenselektionsmethode
Zu der Variablebselektionsmethoden
Mögliche Bedingungen
Gewichtete Regression
Statistiken
Diagramme
Speichern
Optionen
Anpassungslinien in Streudiagramm zeichnen
Anhang: Mehr zur Regression
1
Bestehenden Datensatz importieren
Nach dem Start von SPSS öffnet sich automatisch der
Daten-Editor
Es können hier bestehende Daten mit Hilfe der Menüwahl
Datei>Öffnen>Daten
geladen werden.
Es können verschiedene Dateitypen geladen werden. Der
Import wird durch eine Dialogbox gesteuert.
2
Neue Daten eingeben
Neue Variablen können mit der Registerkarte
„Variablenansicht“ am unteren Rand des Spreadsheets
definiert werden.
Die neuen Daten können dann in der „Datenansicht“
eingegeben werden.
Variablendefinition
Dateneingabe
3
Start der linearen Regression
Auswahl des Menüpunktes „Linear...“ unter
Analysieren
Regression
Linear...
4
Dialogbox lineare Regression
Es öffnet sich die Dialogbox „Lineare Regression“
Alle zur Verfügung stehenden Variablen befinden sich im
linken Feld
Zur Variablenselektion ist die Methode
Einschlußverfahren voreingestellt
5
Festlegen der Regressionsgleichung
Die abhängige Variable (hier: y) und die unabhängigen
Variablen (hier: x1, x2) werden durch ziehen mit der
Maus in die dafür vorgesehenen Felder eingefügt
Der Intercept (hier: x0) muß nicht extra mit in die
Modellgleichung aufgenommen werden
6
Festlegen von Blöcken und der
Variablenselektionsmethode
Bestimmung von
Variablenblöcken
Einstellung
des Verfahrens
zur
Variablenselektion
pro Block
Durch die Auswahl der Methode kann festgelegt werden, wie
unabhängige Variablen in die Analyse eingeschlossenen werden.
Die verfügbaren Methoden sind:
Einschluß
Auschluß
Vorwärts
Rückwärts
Schrittweise
Es besteht die Möglichkeit die unabhängigen Variablen in Blöcke
zusammenzufassen. Es können dann verschiedene Methoden für
unterschiedliche Untergruppen von Variablen angegeben werden.
Beispielsweise kann man einen Block von Variablen durch
schrittweises Auswählen und einen zweiten Block durch
Vorwärtsselektion in das Regressionsmodell einschließen.
7
Zu den Variablenselektionsmethoden
Einschluß
Alle unabhängigen Variablen des Blockes werden auf
einmal in die Analyse einbezogen.
Auschluß
Um die Variablen in einem einzigen Schritt aus dem
Block zu entfernen
Schrittweise Methoden
Vorwärts
Es werden nacheinander die Variablen des Blockes mit
dem höchsten partiellen Korrelationskoeffizienten mit der
abhängigen Variablen in die Gleichung aufgenommen
Rückwärts
Zunächst werden alle unabhängige Variablen des
Blockes in einem einzigen Schritt in die Gleichung
eingeschlossen und anschließend diejenigen Variablen
mit dem kleinsten partiellen Korrelationskoeffizienten mit
der abhängigen Variablen nacheinander entfernt soweit
der zugehörige Regressionskoeffizient nicht signifikant
ist (Signifikanzniveau: 0,1)
Schrittweise
Funktioniert ähnlich wie die Vorwärtsmethode. Allerdings
werden nach jedem Schritt die jeweils aufgenommenen
Variablen nach der Rückwärtsmethode untersucht.
8
Mögliche Bedingungen (optional)
Es kann eine Auswahlvariable
zum Begrenzen der Analyse
auf eine Untergruppe von
Fällen mit einem bestimmten
Wert oder bestimmten Werten
für diese Variable angegeben
werden.
Es können Variablen zur
Fallunterscheidung unter
Fallbeschriftungen
ausgewählt werden, um Punkte
in Diagrammen zu
identifizieren.
9
Gewichtete Regression (optional)
Gewichtete kleinste Quadrate (WLS) geben
Beobachtungen verschiedene Gewichtungen, zum
Beispiel zum Ausgleich unterschiedlicher Meßgenauigkeit.
Als Gewicht kann nur eine numerische Variable verwendet
werden
Die effektive Stichprobengröße wird nicht geändert.
10
Statistiken
Regressionskoeffizienten
Mit Schätzer werden die Regressionskoeffizienten B =
Betadach, die Standardfehler von B, das Beta des
standardisierten Koeffizienten?, die t-Werte für B und das
zweiseitige Signifikanzniveau von t angezeigt.
->Viewer: Koeffizienten
Mit Konfidenzintervalle werden die individuellen 95%-
Konfidenzintervalle für jeden Regressionskoeffizienten
angezeigt. ->Viewer: Koeffizienten
Mit Kovarianzmatrix wird eine Varianz-Kovarianz-Matrix und
die Korrelationsmatrix der Regressionskoeffizienten
angezeigt ->Viewer: Korrelation der Koeffizienten
11
Statistiken
Anpassungsgüte des Modells
Die aufgenommenen und entfernten Variablen aus dem Modell
werden aufgelistet
->Viewer: Aufgenommene/Entfernte Variable
Die folgenden Statistiken der Anpassungsgüte werden angezeigt:
multiples R, R-Quadrat und korrigiertes R-Quadrat, Standardfehler
des Schätzers
->Viewer: Modellzusammenfassung
Und die Tabelle zur Varianzanalyse.
->Viewer: ANOVA
Änderung in R-Quadrat
Hier werden Änderung in R-Quadrat, Änderung in F und die
Signifikanz der Änderung in F angezeigt.
(siehe z.B. Toutenburg, LINEARE MODELLE, 2. Auflage, 2003, S147f.)
->Viewer: Modellzusammenfassung, Änderungsstatistiken
Deskriptive Statistik
Liefert die Anzahl gültiger Fälle, Mittelwert und
Standardabweichung für jede Variable in der Analyse.
->Viewer: Deskriptive Statistiken
Außerdem wird eine Korrelationsmatrix der Variablen nach
Pearson mit einem einseitigen Signifikanzniveau und die Anzahl
der Fälle für jede Korrelation angezeigt.
->Viewer: Korrelationen
12
Statistiken
Teil- und partielle Korrelationen
Hiermit werden Korrelationen nullter Ordnung, Teil- und
partielle Korrelationen ? angezeigt.
->Viewer: Koeffizienten, Korrelationen
Kollinearitätsdiagnose
Eigenwerte der skalierten und unzentrierten
Kreuzproduktmatrix, Konditionsindex, Proportionen der
Varianzzerlegung
->Viewer: Kollinearitätsdiagnose
Varianzfaktoren (VIF), Toleranzen für einzelne Variablen
->Viewer: Koeffizienten
Residuen
Durbin-Watson-Test für Reihenkorrelationen der Residuen
->Viewer: Modellzusammenfassung
Fallweise Diagnose für die Fälle, die das Auswahlkriterium
(Ausreißer über n Standardabweichungen) erfüllen werden
standardisierte, nichtstandardisierte Residuen,
nichtstandardisierter Vorhersagewert ausgegeben.
->Viewer: Fallweise Diagnose
13
Diagramme
Streudiagramme
Es können je zwei der folgenden Elemente aufgetragen
werden:
DEPENDENT die abhängige Variable Y
*ZPRED standardisierte vorhergesagte Werte für Y
*ZRESID standardisierte Residuen
*DRESID ausgeschlossene Residuen
*ADJPRED korrigierte vorhergesagte Werte
*SRESID studentisierte Residuen
*SDRESID studentisierte ausgeschlossene Residuen
Es können mehrere Streudiagramme im Feld
„Streudiagramm 1 von 1“ über die Schaltfläche Weiter
erzeugt werden.
14
Diagramme
Alle partiellen Diagramme erzeugen.
Erzeugt Streudiagramme der Residuen aller
unabhängigen Variablen und der Residuen der
abhängigen Variablen, wenn für den Rest der
unabhängigen Variablen beide Variablen einer getrennten
Regression unterzogen werden.
Zum Erzeugen eines partiellen Diagramms müssen
mindestens zwei unabhängige Variablen in der Gleichung
enthalten sein.
Diagramme der standardisierten Residuen.
Histogramme standardisierter Residuen
Normalverteilungsdiagramme, welche die Verteilung
standardisierter Residuen mit einer Normalverteilung
vergleichen.
Bemerkung:
Beim Anfordern von Diagrammen werden
Auswertungsstatistiken für standardisierte vorhergesagte
Werte und standardisierte Residuen (*ZPRED und
*ZRESID) angezeigt.
15
Speichern
Mit jedem Auswahlvorgang werden der Datendatei die
ausgewählten Größen als neue Variablen hinzugefügt.
Vorhergesagte Werte.
Dies sind die nach dem Regressionsmodell für die
abhängige Variable vorhersagten Werte.
Nicht standardisiert (pre*)
Standardisiert (zpr*)
Korrigiert (adj*)
Standardfehler des Mittelwerts (sep*)
->Viewer: Residuenstatistik
16
Speichern
Distanzen
Dies sind Maße zum Auffinden von Fällen mit
ungewöhnlichen Wertekombinationen bei der
unabhängigen Variablen und von Fällen, die einen großen
Einfluß auf das Modell haben könnten.
Mahalanobis (mah*)
Nach Cook (coo*)
Hebelwerte (lev*)
->Viewer: Residuenstatistik
Vorhersageintervalle
Die oberen und unteren Grenzen sowohl für Mittelwert als
auch für einzelne Vorhersageintervalle.
Mittelwert (lmci*,umci*)
Individuell (lici*,uici*)
Konfidenzintervall
17
Speichern
Residuen
Der tatsächliche Wert der abhängigen Variablen minus
dem vorhergesagten Wert aus der Regressionsgleichung.
Nicht standardisiert (res*)
Standardisiert (zre*)
Studentisiert (sre*)
Ausgeschlossen (dre*)
Studentisiert, ausgeschlossen (sdr*)
->Viewer: Residuenstatistik
Einflußstatistiken
Die Änderung in den Regressionskoeffizienten und
vorhergesagten Werten, die sich aus dem Ausschluß
eines bestimmten Falls ergibt.
DfBeta: (dfb0*,dfb1*, ...)
Regressionskoeffizienten
Standardisierte(s) DfBeta: (sdb0*,sdb1*, ...)
DfFit: (dff*)
vorhergesagten Werten
Standardisiertes DfFit (sdf*)
Kovarianzverhältnis: (cov*)
Dies ist das Verhältnis der Determinante der Kovarianzmatrix
für einen bestimmten ausgeschlossenen Fall zur
Determinante der Kovarianzmatrix für alle Fälle.
18
Speichern
In neuer Datei speichern
Hiermit werden Regressionskoeffizienten in einer
anzugebenen Datei gespeichert.
Modellinformation in XML-Datei exportieren
Hiermit werden Modellinformationen in die angegebene
Datei exportiert. Diese Datei kann von SPSS-
Zusatzprodukten wie SmartScore und zukünftigen
Versionen von WhatIf? verwendet werden.
19
Optionen
Kriterien für schrittweise Methode.
Diese Optionen eignen sich für den Fall, daß die
Vorwärts-, Rückwärts- oder schrittweise Methode der
Variablenauswahl angegeben wurde. Variablen im Modell
werden eingeschlossen/entfernt in Abhängigkeit von
F-Wahrscheinlichkeit, d.h. der Signifikanz
(Wahrscheinlichkeit) des F-Werts
F-Wert
20
Optionen
Konstante in Gleichung einschließen
Als Voreinstellung enthält das Regressionsmodell einen
konstanten Term (intercept). Wenn diese Option
deaktiviert ist, wird die Regression durch den Ursprung
gezwungen.
Achtung: Manche Resultate einer durch den Ursprung verlaufenden
Regression lassen sich nicht mit denen einer Regression vergleichen, die eine
Konstante aufweist. Beispielsweise kann R-Quadrat nicht in der üblichen
Weise interpretiert werden.
Tip: Option deaktivieren und Intercept eigenhändig als Variable einfügen.
Dies führt zur vollständigen Ausgabe der Kovarianzmatrix und der
Korrelationsmatrix
Fehlende Werte
Listenweiser Fallausschluß.
Nur Fälle mit gültigen Werten für alle Variablen werden in die
Analyse einbezogen.
Paarweiser Fallausschluß.
Fälle mit vollständigen Daten für das korrelierte Variablenpaar
werden zum Berechnen des Korrelationskoeffizienten
verwendet, auf dem die Regressionsanalyse basiert.
Durch Mittelwert ersetzen.
Alle Fälle werden für Berechnungen verwendet, wobei der
Mittelwert der Variablen die fehlenden Beobachtungen
ersetzt.
21
Anpassungslinien in Streudiagramm
zeichnen
Doppelklick auf das Streudiagramm, dann
Diagramme
Optionen...
22
Anhang: Mehr zur Regression
Folgende Menüpunkte stehen zur Verfügung unter
Analysieren
Regression
Linear...
Abhängige Variable: intervallskaliert / ordinalskaliert.
Unabhängige Variablen: beliebiges Skalenniveau
23
Anhang: Mehr zur Regression
Kurvenanpassung...
Mit der Prozedur "Kurvenanpassung" werden
Regressionsstatistiken zur Kurvenanpassung und zugehörige
Diagramme für 11 verschiedene Regressionsmodelle zur
Kurvenanpassung erstellt. Binär logistisch...
Binär logistisch...
Abhängige Variable: dichotom, d.h. 2 Kategorien
Unabhängige Variablen: beliebiges Skalenniveau
Multinomial logistisch...
Abhängige Variable: mehr als 2 Kategorien, nominal
Unabhängige Variablen: nominal / ordinal
Ordinal... (ab V.10.0)
Abhängige Variable: mehr als 2 Kategorien, ordinal
Unabhängige Variablen: nominal / ordinal
Probit...
Dosis-Wirkungskurven-Analyse. Diese Prozedur mißt die Beziehung
zwischen der Stärke eines Stimulus und dem Anteil der Fälle, die
eine bestimmte Response auf den Stimulus zeigen.
24
Anhang: Mehr zur Regression
Nichtlinear...
Mit der nichtlinearen Regression können Modelle mit willkürlichen
Beziehungen zwischen den abhängigen und unabhängigen
Variablen geschätzt werden. Dies wird durch den Einsatz eines
iterativen Schätzungsalgorithmus erreicht.
Gewichtungsschätzung...
Bei Verletzung der Varianzhomogenität liefert die lineare
Regression unter Verwendung der gewöhnlichen kleinsten
Quadrate keine optimalen Modellschätzungen.
Wenn die Differenzen in der Variabilität von einer anderen
Variablen vorhergesagt werden können, dann können die
Koeffizienten eines linearen Regressionsmodells mit der Prozedur
"Gewichtungsschätzung" unter Verwendung von gewichteten
kleinsten Quadraten (WLS) berechnet werden. Dabei wird den
genaueren Beobachtungen (jene mit kleinerer Variabilität) ein
größeres Gewicht beim Bestimmen der Regressionskoeffizienten
zugewiesen. Mit der Prozedur "Gewichtungsschätzung" werden
eine Reihe von Gewichtungstransformationen getestet, und es
wird angezeigt, welche die beste Anpassung an die Daten ergibt.
Zweistufige kleinste Quadrate...
Standardmodelle für die lineare Regression gehen davon aus, daß
Fehler in der abhängigen Variablen nicht mit den unabhängigen
Variablen korrelieren. Ist dies nicht der Fall (zum Beispiel, wenn
zwischen den Variablen eine Wechselwirkung besteht), dann liefert
die lineare Regression unter Verwendung von gewöhnlichen
kleinsten Quadraten keine optimalen Modellschätzungen mehr.
Man verwendet die zweistufige Regressionsmethode der kleinsten
Quadrate.
25
Anhang: Mehr zur Regression
Optimale Skalierung...
Durch die kategoriale Regression werden kategoriale Daten
quantifiziert, indem den Kategorien numerische Werte zugewiesen
werden. Dadurch ergibt sich für die transformierten Variablen eine
optimale lineare Regressionsgleichung.
Das Standardverfahren der linearen Regressionsanalyse
beinhaltet die Minimierung der Summe von quadrierten
Differenzen zwischen einer Antwortvariablen (abhängig) und einer
gewichteten Kombination von Einflußvariablen (unabhängig).
Variablen sind in der Regel quantitativ, wobei (nominale)
kategoriale Daten in Binär- oder Kontrastvariablen umkodiert
werden. Infolgedessen dienen kategoriale Variablen einer
Aufteilung in verschiedene Gruppen von Fällen, so daß jeweils
separate Parametersätze für jede Gruppe geschätzt werden. Die
geschätzten Koeffizienten geben die Auswirkung einer Änderung
in den Einflußvariablen auf die Antwortvariable wider. Die Antwort
kann für jede beliebige Kombination von Einflußwerten
vorhergesagt werden.
Eine andere Methode besteht darin, daß die Antwort auf die
kategorialen Einflußwerte selbst einer Regression unterzogen wird.
Folglich wird für jede Variable ein Koeffizient geschätzt. Bei
kategorialen Variablen sind die Kategoriewerte jedoch willkürlich.
Durch verschiedene Kodierungsarten der Kategorien ergeben sich
jeweils unterschiedliche Koeffizienten, wodurch ein
analysenübergreifender Vergleich gleicher Variablen erschwert
wird.
CATREG erweitert die Standardmethode durch eine gleichzeitige
Skalierung nominaler, ordinaler und numerischer Variablen. Die
Prozedur quantifiziert kategoriale Variablen, so daß in den
Quantifikationen die Merkmale der ursprünglichen Kategorien zum
Ausdruck kommen. Dadurch werden quantifizierte kategoriale
Variablen auf dieselbe Weise wie numerische Variablen behandelt.
Durch die Verwendung nichtlinearer Transformationen können
Variablen auf einer Vielzahl von Ebenen analysiert und somit das
jeweils geeignetste Modell gefunden werden.
26
Get documents about "