Regressionsanalyse - AAU -uddannelser, forskning og by 3QU3z74

VIEWS: 4 PAGES: 33

									             Grundlæggende teoretisk statistik


                             Regressionsanalyse -
                             del 1
                             Simpel lineær regression




Side 1
07.12.2009
            Lineær regressionsanalyse

               Regressionsmodeller beskriver sammenhængen
                mellem en
                –   Responsvariabel (den forklarede/ afhængige variabel)
                –   Én el. flere forklarende variable (uafhængige variable)
               Den simpleste regressionsmodel er den lineære
                model med 1 forklarende variable:

                                 y   0  1  x
               β1 og β0 kaldes regressionskoefficienter
Side 2
7-12-2009
            Regression / Korrellation

               Regression beskriver sammenhængens ART
                (her lineær) mellem variablene

               Korrellation beskriver styrken af den linieære
                sammenhæng




Side 3
7-12-2009
            Eksempel: El-produktion som
            funktion af brændselsforbrug

                         Elpro- Brændsels-                         Elpro-      Brændsels-
              Måned     duktion   forbrug      År       Måned     duktion        forbrug
            Januar       150.638   1.422.044          Januar         124.743      1.178.430
            Februar      139.907   1.338.445          Februar        115.333      1.078.701
            Marts        127.849   1.225.643          Marts          112.994      1.086.166
            April        117.390   1.144.123          April          123.229      1.176.552
            Maj           96.450     967.955          Maj             58.400        561.176


                                               2005
            Juni         113.148   1.150.605          Juni            17.670        192.242
            Juli         141.873   1.342.686          Juli             3.394         39.189
            August       177.661   1.736.447          August         136.598      1.310.817
            September     20.296     216.282          September       69.840        692.139
            Oktober       92.359     865.543          Oktober         69.941        689.855
            November      92.735     879.298          November       122.615      1.166.354
            December     131.728   1.267.052          December       116.869      1.129.953

Side 4
7-12-2009
            El-produktion vs.
            Brændselsforbrug

                                                El-produktion - Brændselsforbrug

                                  200.000
                                  180.000
                                  160.000

                                  140.000
                  El-produktion




                                  120.000
                                  100.000
                                   80.000
                                   60.000

                                   40.000
                                   20.000
                                      -
                                            -          500.000       1.000.000      1.500.000   2.000.000

                                                                 Brændselsforbrug
Side 5
7-12-2009
            Regressionsmodellen

               Populationsmodellen:
                               y   0  1  x  e
               Ingen eksakt lineær sammenhæng. Der er altid
                et restled, her benævnt e.
               Den statistiske model:

                yi  0  1  xi  ei   for   i  1, 2,3,........n

Side 6
7-12-2009
            Model og forudsætninger

               Restleddet omfatter:
                –   Målefejl
                –   Summen af alle andre forklarende variable vejer
                    hinanden op og giver en tilfældig variation




Side 7
7-12-2009
            Model og forudsætninger (p. 172-74)


               Forudsætninger om fejlleddet:

            E (ei )  0            for    i  1, 2, 3,....., n
            V (ei )      2
                                   for    i  1, 2, 3,....., n
            Cov (ei , e j )  0           for       i j
            ei ~ N (0; ) for  2
                                          i  1, 2, 3,....., n
Side 8
7-12-2009
            Modelkontrol / residual-analyse

             Residuals                                        Residuals



                   0                                                0



                                                                                                            
                                                                                                       x or y
                                                          
                                                     x or y

                                                              Heteroscedasticity:
            Homoscedasticity: = Varianshomogenitet.           Ej konstant varians – varierer med X.

                                                              Residuals
             Residuals


                                                                    0
                  0



                                                                                                            
                                                                                                       x or y
                                                    Time
Side 9                                                        Afhængighed mellem residualer og X, således der
7-12-2009   Residualer vokser med tiden - ej uafhængige
                                                              er tale om en ikke-lineær sammenhæng.
            Residualplot –
            el-produktion /brændselsforbrug
                                                           Brændselsforbrug Residualplot


                           4000



                           2000



                              0
              Residualer




                           -2000



                           -4000



                           -6000



                           -8000
                                   -   200.000   400.000   600.000   800.000   1.000.000   1.200.000   1.400.000   1.600.000   1.800.000   2.000.000
Side 10                                                                Brændselsforbrug
7-12-2009
            Estimerede
            regressionskoefficienter i Bewi

            KOEFFICIENTER OG KONFIDENSINTERVALLER

                                          Koefficienter
            Skæring                      -1564,559199
            Brændselsforbrug               0,105258


            Skæringen med y-aksen!
            D.v.s. el-produktionen når                Hældningskoefficienten!
            brændselsforbruget, X=0.                  D.v.s. den marginale
                                                      produktion ved forøgelse af
            Denne kan naturligt ikke                  brændselsforbruget med 1
Side 11
7-12-2009   være negativ!                             enhed.
            Styrken af regressionen

               Variansanalyse - variationselementer
                –   SAKy – Den totale variation i Y
                –   SAKreg – Variationen der skyldes regressionen
                –   RKS – Den uforklarede (rest-)variation
               Determinationskoefficienten
               Korrellationskoefficienten
               Estimation af σ – Variansen på rest-/fejl-leddet

Side 12
7-12-2009
            Variationselementer

                190                                                RKS



                                                         (Y  Y )
                180                                                 


                                   (Yi  Y )                   i        i
                170        SAKy
                                                          (Y  Y )
                                                           
                                                               i
            Y




                160                                                         Y
                150                                            SAKreg
                140

                130
                      85          95               105                          115
Side 13
7-12-2009
            Variansanalyse og
            determinationskoefficient

            Total variation=Forklaret +Uforklaret variation
                      SAK y = SAKreg +           RKS
                n                          n                     n       

                (Yi  Y )
               i 1
                             2
                                          (Y i  Y )
                                          i 1
                                                         2
                                                                 (Yi  Y i )2
                                                                 i 1




                                     Forklaret variation
                                 R 
                                  2

                                       Total variation
Side 14
7-12-2009
             Variansanalyse i Bewi

            Responsvariabel:
            Elproduktion                          Determinationskoefficienten = R2

            R-kvadreret          0,997276                 (Determinationskoefficient)
            Justeret R-kvadreret 0,997153
            Standardafvigelse    2328,52                  Varians = 5422004,4
            Observationer           24


            KVADRATSUMMER OG F-TEST                             SAKreg

                               Frihedsgrader Kvadratsum            F-værdi              p-værdi(ss)
            Regression               1     43675845462           8055,29508                  ~0
            Residual                 22     119284097,1
            I alt (SAKy)             23    43795129559
Side 15
7-12-2009                           SAKy                    RKS
            Restled vs. Residualer

               Restled refererer til modellen (i ”populationen”)
               Residualer er estimater/ approximationer til
                restleddene:
                                       
                                                  ˆ     ˆ
                         ei  (Yi  Y i )  (Yi  0  1  xi )
                         ˆ
               Variansen på restleddet, 2 estimeres med
                                           n

                                           ˆ
                                            ei 2
                                              RKS
                                   2
                                 se =       
                                           i=1

Side 16
                                      (n-2)   n-2
7-12-2009
             Residual-analyse i Bewi

            Responsvariabel:
                                                 Standardafvigelsen på
            Elproduktion
                                                 residualerne = se
            R-kvadreret          0,997276                 (Determinationskoefficient)
            Justeret R-kvadreret 0,997153
            Standardafvigelse    2328,52                  Varians = 5422004,4
            Observationer           24
                                                                                      RKS
                                                                               se 
                                                                                2

                                                                                      n-2
            KVADRATSUMMER OG F-TEST

                               Frihedsgrader Kvadratsum            F-værdi              p-værdi(ss)
            Regression               1     43675845462           8055,29508                  ~0
            Residual                 22     119284097,1
            I alt (SAKy)             23    43795129559
Side 17
7-12-2009                                                   RKS
             Frihedsgrader = (n-2)
            Korrellationsanalyse

               Korellationskoefficienter til vurdering af
                sammenhænge mellem variable
               Kun lineære sammenhænge
               Populationskorrellationskoefficient, ρxy (rho)
                                     Cov ( x, y )
                             xy 
                                       x  y

               Stikprøvens korrellationskoefficient, rxy
                                    Cov( x, y )
                            rxy 
Side 18                              sx  s y
7-12-2009
            Korrellationskoefficienter i Bewi


                KVADREREDE
                KORRELATIONER
                                   El-       Brændsels-
                                produktion     forbrug
                El-
                Produktion          1        0,997276
                Brændsels-
                forbrug         0,997276         1



Side 19
7-12-2009
            Test på korrellation (p. 168)

               Både X og Y skal være normalfordelte
                –   (X,Y) skal være en 2-dimensional Normalfordeling
               Test-statistikken:            rxy             rxy  (n  2)
                                        t               
                                             1 r    2
                                                    xy          (1  rxy )2
                                             n2
               følger en Students t-fordeling med (n-2) frihedsgrader
               Tommelfinger-regel for lineær sammenhæng
                                                         2
                                             rxy 
                                                          n
Side 20
7-12-2009
            Hypotesetest og konf.interval (p. 168-69)

               Middelrette                ˆ
                                         E(β 0 )=β 0
                                           ˆ
                                         E(β )=β
                                             1    1



               Variansen               ˆ        1  x2
                                   σ =V(β 0 )=σ ( +
                                    2
                                    ˆ
                                    β0
                                                       2
                                                         )
                                                 n SAK x          Bemærk her, at jo større
                                                                  spredning på x, jo mindre

                                        ˆ      σ2                 bliver variansen på den

                                   σ =V(β1 )=
                                    2
                                    ˆ
                                    β1
                                                                  estimerede
                                                                  hældningskoefficient
                                              SAK x
               Fordelingen
                    (Hvis alle Y’er er normalfordelte er begge estimatorer også
Side 21              normalfordelte)
7-12-2009
            KI for ß0 og ß1 (p. 169)

                 (1-α)% konfidensintervaller:
                                                   2
                 ˆ                         1   x
                 β 0 ±t     α        se     +
                          1- ,n-2
                            2              n SAK x

                 ˆ                           1
                 β1 ±t     α         se
                         1- ,n-2
                           2               SAK x
Side 22
7-12-2009
            Konf.intervaller i Bewi

            KOEFFICIENTER OG
            KONFIDENSINTERVALLER
                                                               95%-
                                                       konfidensintervaller
                            Koefficienter Standardafv. n. grænse   ø. grænse
            Skæring          -1564,55     1258,99     -4175,54     1046,42

            Brændsels-
            forbrug          0,105258     0,001173    0,102826     0,10769



Side 23
7-12-2009
            t-test på modellens parametre


                                ˆ
                                β 0 -β 0               ˆ
                                                       β0
              H0 : 0  0    t=          =
              H1 :  0  0        sβˆ             1   x     2
                                    o
                                             se     +
                                                  n SAK x
              H 0 : 1  0      ˆ
                                β1 -β1            ˆ
                                                  β1
                             t=        =
              H1 : 1  0         sβ
                                   ˆ                1
                                    1        se
                                                  SAK x
Side 24
7-12-2009
            Test på regress.koefficienter i Bewi


            KOEFFICIENT-                        p-værdi p-værdi
            TESTS                                 (ss)    (ss)  H1        H1
                           Koeffici-              To-     En-   To-       En-
                            enter      t-stat    sidet   sidet sidet     sidet
            Skæring        -1564,56 -1,2427 0,227       0,113   b0 ≠ 0   b0 < 0

            Brændsels-
            forbrug        0,10525     89,75     ~0      ~0     b1 ≠ 0   b1 > 0



Side 25
7-12-2009
            F-test på β1


                                    H 0 : β1 =0
                                    H1 : β1  0

                               SAK reg /1          SAK reg
                         F=                    =          2
                              RKS/(n-2)               s   e

               Når H0 er sand er både tæller og nævner estimater på σ2.
               F-fordelingen bruges til test på om 2 varianser er ens
Side 26        Én frihedsgrad i tæller og (n-2) i nævneren
7-12-2009
            F-test i Bewi

            KVADRATSUMMER
            OG F-TEST

                            Friheds-                            p-værdi
                             grader     Kvadratsum      F-værdi   (ss)
            Regression         1       43.675.845.462 8055,3       ~0
            Residual          22         119.284.097
            I alt (SAKy)      23       43.795.129.559



Side 27
7-12-2009
            To-sidet F-test på β1


             2 - sidet F - test på regressionskoefficienten, 1
             H0 : 1  0
             H1 : 1  0
             Afvis H0 , når
                  SAK reg
             F         2
                             F(1,n  2 ),
                    s   e
Side 28
7-12-2009
            Prediction / prognoseintervaller (p. 169)

               Konfidensintervaller på middelværdien af Y
                                                   2
                                       1 (x 0 -x)
                       y0 ±t α  s e 
                       ˆ                +
                            1- ,n-2
                              2        n SAK x
               Prognose-intervaller på en enkelt Y-værdi:

                                      1 (x 0 -x) 2
                     y0 ±t α  se  1+ +
                     ˆ
                          1- ,n-2
                            2         n SAK x
Side 29
7-12-2009      Interpolation vs. ekstrapolation
            Predictionsintervaller i Bewi

            PROGNOSEINTERVALLER FOR Elproduktion, NÅR
            Brændselsforbrug ER 1000000

                                          nedre     øvre     Punkt-
                                         grænse    grænse    estimat
            95-% forudsigelsesinterval
            for Y                        98.765    108.622   103.693
            95-% konfidensinterval for
            E(Y)                         102.708   104.679   103.693



Side 30
7-12-2009
            Grafisk / Modelkontrol

               Residual-diagrammer          
                –   Afsæt residualerne mod Y i eller mod xi
               Visuelt check om residualerne er korrellerede
                –   Især relevant ved tidsrækker
               Konstant varians
                –   Standardiserede residualer har konstant varians
               Normalfordelingen
                –   Brug et normalfraktildiagram

Side 31
7-12-2009
            Indflydelsesrige observationer

               Søg så bred en understøttelse af data
               Små ændringer i data må ikke have betydning
               Pas på ekstreme værdier!




Side 32
7-12-2009
            Kapitel I - Opgaver

               Opgavesamling i Statistik 2009 fra Statistica:
                –   AØT: 67, 68, 70, 73, E2 excl. spg. 4, E6, E9, E14




Side 33
7-12-2009

								
To top