PowerPoint Prsentation LMU Mnchen Institut fr Statistik

Document Sample
PowerPoint Prsentation LMU Mnchen Institut fr Statistik Powered By Docstoc
					    Lineare Regressionsanalyse mit
    SPSS von Susanne Konrath

Inhaltsverzeichnis



   Bestehenden Datensatz importieren
   Neue Daten eingeben
   Start der linearen Regression
   Dialogbox lineare Regression
   Festlegen der Regressionsgleichung
   Festlegen von Blöcken und der
    Variablenselektionsmethode
   Zu der Variablebselektionsmethoden
   Mögliche Bedingungen
   Gewichtete Regression
   Statistiken
   Diagramme
   Speichern
   Optionen
   Anpassungslinien in Streudiagramm zeichnen
   Anhang: Mehr zur Regression




                                                 1
    Bestehenden Datensatz importieren




   Nach dem Start von SPSS öffnet sich automatisch der
    Daten-Editor

   Es können hier bestehende Daten mit Hilfe der Menüwahl
     Datei>Öffnen>Daten
    geladen werden.

   Es können verschiedene Dateitypen geladen werden. Der
    Import wird durch eine Dialogbox gesteuert.


                                                             2
    Neue Daten eingeben

   Neue Variablen können mit der Registerkarte
    „Variablenansicht“ am unteren Rand des Spreadsheets
    definiert werden.

   Die neuen Daten können dann in der „Datenansicht“
    eingegeben werden.




                 Variablendefinition


                Dateneingabe




                                                          3
    Start der linearen Regression




   Auswahl des Menüpunktes „Linear...“ unter
     Analysieren
       Regression
         Linear...




                                                4
    Dialogbox lineare Regression




   Es öffnet sich die Dialogbox „Lineare Regression“

   Alle zur Verfügung stehenden Variablen befinden sich im
    linken Feld

   Zur Variablenselektion ist die Methode
    Einschlußverfahren voreingestellt


                                                              5
    Festlegen der Regressionsgleichung




   Die abhängige Variable (hier: y) und die unabhängigen
    Variablen (hier: x1, x2) werden durch ziehen mit der
    Maus in die dafür vorgesehenen Felder eingefügt

   Der Intercept (hier: x0) muß nicht extra mit in die
    Modellgleichung aufgenommen werden




                                                            6
    Festlegen von Blöcken und der
    Variablenselektionsmethode




                                                Bestimmung von
                                                Variablenblöcken


                                                   Einstellung
                                                 des Verfahrens
                                                       zur
                                                Variablenselektion
                                                    pro Block



   Durch die Auswahl der Methode kann festgelegt werden, wie
    unabhängige Variablen in die Analyse eingeschlossenen werden.

   Die verfügbaren Methoden sind:
        Einschluß
        Auschluß
        Vorwärts
        Rückwärts
        Schrittweise


   Es besteht die Möglichkeit die unabhängigen Variablen in Blöcke
    zusammenzufassen. Es können dann verschiedene Methoden für
    unterschiedliche Untergruppen von Variablen angegeben werden.
    Beispielsweise kann man einen Block von Variablen durch
    schrittweises Auswählen und einen zweiten Block durch
    Vorwärtsselektion in das Regressionsmodell einschließen.



                                                                      7
Zu den Variablenselektionsmethoden


    Einschluß
        Alle unabhängigen Variablen des Blockes werden auf
        einmal in die Analyse einbezogen.
    Auschluß
        Um die Variablen in einem einzigen Schritt aus dem
        Block zu entfernen


 Schrittweise Methoden

    Vorwärts
        Es werden nacheinander die Variablen des Blockes mit
        dem höchsten partiellen Korrelationskoeffizienten mit der
        abhängigen Variablen in die Gleichung aufgenommen
    Rückwärts
        Zunächst werden alle unabhängige Variablen des
        Blockes in einem einzigen Schritt in die Gleichung
        eingeschlossen und anschließend diejenigen Variablen
        mit dem kleinsten partiellen Korrelationskoeffizienten mit
        der abhängigen Variablen nacheinander entfernt soweit
        der zugehörige Regressionskoeffizient nicht signifikant
        ist (Signifikanzniveau: 0,1)
    Schrittweise
        Funktioniert ähnlich wie die Vorwärtsmethode. Allerdings
        werden nach jedem Schritt die jeweils aufgenommenen
        Variablen nach der Rückwärtsmethode untersucht.




                                                                     8
    Mögliche Bedingungen (optional)




   Es kann eine Auswahlvariable
    zum Begrenzen der Analyse
    auf eine Untergruppe von
    Fällen mit einem bestimmten
    Wert oder bestimmten Werten
    für diese Variable angegeben
    werden.

   Es können Variablen zur
    Fallunterscheidung unter
    Fallbeschriftungen
    ausgewählt werden, um Punkte
    in Diagrammen zu
    identifizieren.



                                      9
    Gewichtete Regression (optional)




   Gewichtete kleinste Quadrate (WLS) geben
    Beobachtungen verschiedene Gewichtungen, zum
    Beispiel zum Ausgleich unterschiedlicher Meßgenauigkeit.

   Als Gewicht kann nur eine numerische Variable verwendet
    werden

   Die effektive Stichprobengröße wird nicht geändert.




                                                           10
    Statistiken




   Regressionskoeffizienten

        Mit Schätzer werden die Regressionskoeffizienten B =
         Betadach, die Standardfehler von B, das Beta des
         standardisierten Koeffizienten?, die t-Werte für B und das
         zweiseitige Signifikanzniveau von t angezeigt.
          ->Viewer: Koeffizienten

        Mit Konfidenzintervalle werden die individuellen 95%-
         Konfidenzintervalle für jeden Regressionskoeffizienten
         angezeigt. ->Viewer: Koeffizienten

        Mit Kovarianzmatrix wird eine Varianz-Kovarianz-Matrix und
         die Korrelationsmatrix der Regressionskoeffizienten
         angezeigt ->Viewer: Korrelation der Koeffizienten



                                                                      11
    Statistiken

   Anpassungsgüte des Modells
    Die aufgenommenen und entfernten Variablen aus dem Modell
    werden aufgelistet
    ->Viewer: Aufgenommene/Entfernte Variable

    Die folgenden Statistiken der Anpassungsgüte werden angezeigt:
    multiples R, R-Quadrat und korrigiertes R-Quadrat, Standardfehler
    des Schätzers
    ->Viewer: Modellzusammenfassung

    Und die Tabelle zur Varianzanalyse.
    ->Viewer: ANOVA


   Änderung in R-Quadrat
    Hier werden Änderung in R-Quadrat, Änderung in F und die
    Signifikanz der Änderung in F angezeigt.
    (siehe z.B. Toutenburg, LINEARE MODELLE, 2. Auflage, 2003, S147f.)

    ->Viewer: Modellzusammenfassung, Änderungsstatistiken


   Deskriptive Statistik
    Liefert die Anzahl gültiger Fälle, Mittelwert und
    Standardabweichung für jede Variable in der Analyse.
    ->Viewer: Deskriptive Statistiken

    Außerdem wird eine Korrelationsmatrix der Variablen nach
    Pearson mit einem einseitigen Signifikanzniveau und die Anzahl
    der Fälle für jede Korrelation angezeigt.
    ->Viewer: Korrelationen


                                                                         12
    Statistiken

   Teil- und partielle Korrelationen
    Hiermit werden Korrelationen nullter Ordnung, Teil- und
    partielle Korrelationen ? angezeigt.
    ->Viewer: Koeffizienten, Korrelationen

   Kollinearitätsdiagnose
    Eigenwerte der skalierten und unzentrierten
    Kreuzproduktmatrix, Konditionsindex, Proportionen der
    Varianzzerlegung
    ->Viewer: Kollinearitätsdiagnose
    Varianzfaktoren (VIF), Toleranzen für einzelne Variablen
    ->Viewer: Koeffizienten

   Residuen
        Durbin-Watson-Test für Reihenkorrelationen der Residuen
         ->Viewer: Modellzusammenfassung
        Fallweise Diagnose für die Fälle, die das Auswahlkriterium
         (Ausreißer über n Standardabweichungen) erfüllen werden
         standardisierte, nichtstandardisierte Residuen,
         nichtstandardisierter Vorhersagewert ausgegeben.
          ->Viewer: Fallweise Diagnose




                                                                      13
    Diagramme




   Streudiagramme
    Es können je zwei der folgenden Elemente aufgetragen
    werden:
        DEPENDENT   die abhängige Variable Y
        *ZPRED      standardisierte vorhergesagte Werte für Y
        *ZRESID     standardisierte Residuen
        *DRESID     ausgeschlossene Residuen
        *ADJPRED    korrigierte vorhergesagte Werte
        *SRESID     studentisierte Residuen
        *SDRESID    studentisierte ausgeschlossene Residuen


   Es können mehrere Streudiagramme im Feld
    „Streudiagramm 1 von 1“ über die Schaltfläche Weiter
    erzeugt werden.




                                                                 14
    Diagramme

   Alle partiellen Diagramme erzeugen.
    Erzeugt Streudiagramme der Residuen aller
    unabhängigen Variablen und der Residuen der
    abhängigen Variablen, wenn für den Rest der
    unabhängigen Variablen beide Variablen einer getrennten
    Regression unterzogen werden.
    Zum Erzeugen eines partiellen Diagramms müssen
    mindestens zwei unabhängige Variablen in der Gleichung
    enthalten sein.

   Diagramme der standardisierten Residuen.
        Histogramme standardisierter Residuen
        Normalverteilungsdiagramme, welche die Verteilung
         standardisierter Residuen mit einer Normalverteilung
         vergleichen.


   Bemerkung:
    Beim Anfordern von Diagrammen werden
    Auswertungsstatistiken für standardisierte vorhergesagte
    Werte und standardisierte Residuen (*ZPRED und
    *ZRESID) angezeigt.




                                                                15
    Speichern




   Mit jedem Auswahlvorgang werden der Datendatei die
    ausgewählten Größen als neue Variablen hinzugefügt.

   Vorhergesagte Werte.
    Dies sind die nach dem Regressionsmodell für die
    abhängige Variable vorhersagten Werte.
       Nicht standardisiert (pre*)
       Standardisiert (zpr*)
       Korrigiert (adj*)
       Standardfehler des Mittelwerts (sep*)
     ->Viewer: Residuenstatistik


                                                          16
    Speichern

   Distanzen
    Dies sind Maße zum Auffinden von Fällen mit
    ungewöhnlichen Wertekombinationen bei der
    unabhängigen Variablen und von Fällen, die einen großen
    Einfluß auf das Modell haben könnten.
       Mahalanobis (mah*)
       Nach Cook (coo*)
       Hebelwerte (lev*)
     ->Viewer: Residuenstatistik


   Vorhersageintervalle
    Die oberen und unteren Grenzen sowohl für Mittelwert als
    auch für einzelne Vorhersageintervalle.
        Mittelwert (lmci*,umci*)
        Individuell (lici*,uici*)
        Konfidenzintervall




                                                           17
    Speichern

   Residuen
    Der tatsächliche Wert der abhängigen Variablen minus
    dem vorhergesagten Wert aus der Regressionsgleichung.
       Nicht standardisiert (res*)
       Standardisiert (zre*)
       Studentisiert (sre*)
       Ausgeschlossen (dre*)
       Studentisiert, ausgeschlossen (sdr*)
     ->Viewer: Residuenstatistik


   Einflußstatistiken
    Die Änderung in den Regressionskoeffizienten und
    vorhergesagten Werten, die sich aus dem Ausschluß
    eines bestimmten Falls ergibt.
        DfBeta: (dfb0*,dfb1*, ...)
         Regressionskoeffizienten
        Standardisierte(s) DfBeta: (sdb0*,sdb1*, ...)
        DfFit: (dff*)
         vorhergesagten Werten
        Standardisiertes DfFit (sdf*)
        Kovarianzverhältnis: (cov*)
         Dies ist das Verhältnis der Determinante der Kovarianzmatrix
         für einen bestimmten ausgeschlossenen Fall zur
         Determinante der Kovarianzmatrix für alle Fälle.




                                                                    18
    Speichern

   In neuer Datei speichern
    Hiermit werden Regressionskoeffizienten in einer
    anzugebenen Datei gespeichert.

   Modellinformation in XML-Datei exportieren
    Hiermit werden Modellinformationen in die angegebene
    Datei exportiert. Diese Datei kann von SPSS-
    Zusatzprodukten wie SmartScore und zukünftigen
    Versionen von WhatIf? verwendet werden.




                                                           19
    Optionen




   Kriterien für schrittweise Methode.
    Diese Optionen eignen sich für den Fall, daß die
    Vorwärts-, Rückwärts- oder schrittweise Methode der
    Variablenauswahl angegeben wurde. Variablen im Modell
    werden eingeschlossen/entfernt in Abhängigkeit von
        F-Wahrscheinlichkeit, d.h. der Signifikanz
         (Wahrscheinlichkeit) des F-Werts
        F-Wert




                                                        20
    Optionen

   Konstante in Gleichung einschließen
    Als Voreinstellung enthält das Regressionsmodell einen
    konstanten Term (intercept). Wenn diese Option
    deaktiviert ist, wird die Regression durch den Ursprung
    gezwungen.
    Achtung: Manche Resultate einer durch den Ursprung verlaufenden
    Regression lassen sich nicht mit denen einer Regression vergleichen, die eine
    Konstante aufweist. Beispielsweise kann R-Quadrat nicht in der üblichen
    Weise interpretiert werden.
    Tip: Option deaktivieren und Intercept eigenhändig als Variable einfügen.
    Dies führt zur vollständigen Ausgabe der Kovarianzmatrix und der
    Korrelationsmatrix


   Fehlende Werte
        Listenweiser Fallausschluß.
         Nur Fälle mit gültigen Werten für alle Variablen werden in die
         Analyse einbezogen.
        Paarweiser Fallausschluß.
         Fälle mit vollständigen Daten für das korrelierte Variablenpaar
         werden zum Berechnen des Korrelationskoeffizienten
         verwendet, auf dem die Regressionsanalyse basiert.
        Durch Mittelwert ersetzen.
         Alle Fälle werden für Berechnungen verwendet, wobei der
         Mittelwert der Variablen die fehlenden Beobachtungen
         ersetzt.




                                                                               21
Anpassungslinien in Streudiagramm
zeichnen

            Doppelklick auf das Streudiagramm, dann
            Diagramme
               Optionen...




                                                  22
    Anhang: Mehr zur Regression




Folgende Menüpunkte stehen zur Verfügung unter
    Analysieren
         Regression

   Linear...
    Abhängige Variable:      intervallskaliert / ordinalskaliert.
    Unabhängige Variablen:   beliebiges Skalenniveau




                                                                    23
    Anhang: Mehr zur Regression

   Kurvenanpassung...
    Mit der Prozedur "Kurvenanpassung" werden
    Regressionsstatistiken zur Kurvenanpassung und zugehörige
    Diagramme für 11 verschiedene Regressionsmodelle zur
    Kurvenanpassung erstellt. Binär logistisch...


   Binär logistisch...
    Abhängige Variable:           dichotom, d.h. 2 Kategorien
    Unabhängige Variablen:        beliebiges Skalenniveau


   Multinomial logistisch...
    Abhängige Variable:           mehr als 2 Kategorien, nominal
    Unabhängige Variablen:        nominal / ordinal


   Ordinal... (ab V.10.0)
    Abhängige Variable:           mehr als 2 Kategorien, ordinal
    Unabhängige Variablen:        nominal / ordinal


   Probit...
    Dosis-Wirkungskurven-Analyse. Diese Prozedur mißt die Beziehung
    zwischen der Stärke eines Stimulus und dem Anteil der Fälle, die
    eine bestimmte Response auf den Stimulus zeigen.




                                                                       24
    Anhang: Mehr zur Regression

   Nichtlinear...
    Mit der nichtlinearen Regression können Modelle mit willkürlichen
    Beziehungen zwischen den abhängigen und unabhängigen
    Variablen geschätzt werden. Dies wird durch den Einsatz eines
    iterativen Schätzungsalgorithmus erreicht.

   Gewichtungsschätzung...
    Bei Verletzung der Varianzhomogenität liefert die lineare
    Regression unter Verwendung der gewöhnlichen kleinsten
    Quadrate keine optimalen Modellschätzungen.
    Wenn die Differenzen in der Variabilität von einer anderen
    Variablen vorhergesagt werden können, dann können die
    Koeffizienten eines linearen Regressionsmodells mit der Prozedur
    "Gewichtungsschätzung" unter Verwendung von gewichteten
    kleinsten Quadraten (WLS) berechnet werden. Dabei wird den
    genaueren Beobachtungen (jene mit kleinerer Variabilität) ein
    größeres Gewicht beim Bestimmen der Regressionskoeffizienten
    zugewiesen. Mit der Prozedur "Gewichtungsschätzung" werden
    eine Reihe von Gewichtungstransformationen getestet, und es
    wird angezeigt, welche die beste Anpassung an die Daten ergibt.

   Zweistufige kleinste Quadrate...
    Standardmodelle für die lineare Regression gehen davon aus, daß
    Fehler in der abhängigen Variablen nicht mit den unabhängigen
    Variablen korrelieren. Ist dies nicht der Fall (zum Beispiel, wenn
    zwischen den Variablen eine Wechselwirkung besteht), dann liefert
    die lineare Regression unter Verwendung von gewöhnlichen
    kleinsten Quadraten keine optimalen Modellschätzungen mehr.
    Man verwendet die zweistufige Regressionsmethode der kleinsten
    Quadrate.




                                                                        25
    Anhang: Mehr zur Regression

   Optimale Skalierung...
    Durch die kategoriale Regression werden kategoriale Daten
    quantifiziert, indem den Kategorien numerische Werte zugewiesen
    werden. Dadurch ergibt sich für die transformierten Variablen eine
    optimale lineare Regressionsgleichung.
    Das Standardverfahren der linearen Regressionsanalyse
    beinhaltet die Minimierung der Summe von quadrierten
    Differenzen zwischen einer Antwortvariablen (abhängig) und einer
    gewichteten Kombination von Einflußvariablen (unabhängig).
    Variablen sind in der Regel quantitativ, wobei (nominale)
    kategoriale Daten in Binär- oder Kontrastvariablen umkodiert
    werden. Infolgedessen dienen kategoriale Variablen einer
    Aufteilung in verschiedene Gruppen von Fällen, so daß jeweils
    separate Parametersätze für jede Gruppe geschätzt werden. Die
    geschätzten Koeffizienten geben die Auswirkung einer Änderung
    in den Einflußvariablen auf die Antwortvariable wider. Die Antwort
    kann für jede beliebige Kombination von Einflußwerten
    vorhergesagt werden.
    Eine andere Methode besteht darin, daß die Antwort auf die
    kategorialen Einflußwerte selbst einer Regression unterzogen wird.
    Folglich wird für jede Variable ein Koeffizient geschätzt. Bei
    kategorialen Variablen sind die Kategoriewerte jedoch willkürlich.
    Durch verschiedene Kodierungsarten der Kategorien ergeben sich
    jeweils unterschiedliche Koeffizienten, wodurch ein
    analysenübergreifender Vergleich gleicher Variablen erschwert
    wird.
    CATREG erweitert die Standardmethode durch eine gleichzeitige
    Skalierung nominaler, ordinaler und numerischer Variablen. Die
    Prozedur quantifiziert kategoriale Variablen, so daß in den
    Quantifikationen die Merkmale der ursprünglichen Kategorien zum
    Ausdruck kommen. Dadurch werden quantifizierte kategoriale
    Variablen auf dieselbe Weise wie numerische Variablen behandelt.
    Durch die Verwendung nichtlinearer Transformationen können
    Variablen auf einer Vielzahl von Ebenen analysiert und somit das
    jeweils geeignetste Modell gefunden werden.


                                                                    26

				
DOCUMENT INFO
Shared By:
Categories:
Tags:
Stats:
views:47
posted:3/22/2011
language:German
pages:26