LE MATRICI DI COVARIANZA E DI CORRELAZIONE by qC40ShL

VIEWS: 329 PAGES: 26

									  LE MATRICI DI
COVARIANZA E DI
 CORRELAZIONE


 Elementi di Statistica
     a.a. 2009/10


      13 matrice cov e R aa20009/10
    OSSERVAZIONI INTRODUTTIVE
   Riprendiamo in esame la matrice dei dati,
    di dimensione np e supponiamo che tutte
    le p variabili siano quantitative.
   Lo studio delle relazioni fra i fenomeni può
    essere effettuato con riferimento a
    ciascuna delle possibili coppie di variabili,
    che verranno indicate con:
        Xs ed Xv             s, v = 1, 2, …, p
                    13 matrice cov e R aa20009/10
MATRICE DI COVARIANZA

I valori della covarianza tra ciascuna delle
coppie di variabili possono essere scritti in
forma compatta in una matrice detta di
covarianza    (o        anche              di      varianze-
covarianze), di dimensioni pp


                   13 matrice cov e R aa20009/10
  MATRICE S

    VAR ( X1 )   COV ( X1, X 2 )              COV ( X1, X p ) 
   COV ( X , X ) VAR ( X )                    COV ( X 2 , X p )
S        2    1           2
                                                                 
                                                            
   COV ( X , X ) COV ( X , X )                VAR ( X p )     
          p    1        p     2




                    13 matrice cov e R aa20009/10
PROPRIETA’ I

 La matrice di covarianza è simmetrica,

 essendo:


      COV(Xs, Xv) = COV(Xv, Xs)



              13 matrice cov e R aa20009/10
PROPRIETA’ II

Presenta lungo la diagonale principale i valori

delle varianze delle p variabili, dato che:



             COV(Xs, Xs) = VAR(Xs)




                  13 matrice cov e R aa20009/10
TRACCIA

La traccia (ovvero la somma dei valori
sulla diagonale principale) rappresenta la
VARIANZA TOTALE:
                          p

          Tr (S) =       var( X )
                         i 1
                                         i




                13 matrice cov e R aa20009/10
MATRICE DI CORRELAZIONE
 Essendo

              COV ( X s , X v )
       rsv 
             VAR ( X s ) VAR ( X v )


 la conoscenza della matrice di covarianza
 consente di calcolare la seguente matrice di
 correlazione
                13 matrice cov e R aa20009/10
MATRICE R


        1 r12              r1p 
       r    1              r2 p 
     R                          
          21

                         
       r                   1   
        p1 rp 2


            13 matrice cov e R aa20009/10
    PROPRIETA’ I
   E’ simmetrica, essendo rsv = rvs e per tale motivo ci si
    limita talvolta a scrivere soltanto i valori al di sopra
    della diagonale principale.
   Presenta valori tutti uguali ad 1 lungo la diagonale
    principale.
   Pone in luce le relazioni lineari tra le coppie di
    variabili.




                       13 matrice cov e R aa20009/10
    PROPRIETA’ II
    Con riferimento alle sole relazioni bidimensionali, essa
    permette di conoscere:
•     quali   coppie   di    variabili       forniscono   informazioni
      pressoché ripetitive (coefficiente di correlazione in
      modulo  1)
•     quali coppie di variabili non sono correlate linearmente
      (coefficiente di correlazione  0).


                         13 matrice cov e R aa20009/10
ESEMPIO

 Considerino le seguenti variabili rilevate per 14 paesi in via di sviluppo:

 X1 = CO2 emissions, industrial (metric tons per capita) 2000

 X2 = Life expectancy at birth, total (years) 2000

 X3 = Urban population (% of total) 2000

 X4 = GNI per capita, Atlas method (current US$) 2000




                            13 matrice cov e R aa20009/10
                             X1 CO2
                             emissions,
                             industrial           X2 Life                              X4 GNI per
                             (metric tons         expectancy at      X3 Urban          capita, Atlas
                             per capita)          birth, total       population (%     method (current
COUNTRY_NAME                 2000                 (years) 2000       of total) 2000    US$) 2000
Argentina                               3,79                 73,85              88,2                7480
Bangladesh                              0,18                 61,19                25                370
Botswana                                2,42                 38,97            49,03                 3650
Burkina Faso                            0,09                 44,22            16,52                 210
Cameroon                                0,12                 50,05            48,92                 580
Central African Republic                0,07                 43,47            41,19                 280
Chile                                   4,06                 75,65            85,79                 4590
China                                       2,5              70,26            35,79                 840
Congo, Rep.                             0,64                 51,32            65,39                 570
Costa Rica                              1,39                 77,48            59,01                 3830
Dominican Republic                          2,5              67,33            65,39                 2120
Ecuador                                 2,16                 69,59                63                1190
Egypt, Arab Rep.                        1,72                 67,46            42,68                 1490
El Salvador                                  1               70,15            60,31                 2000
Media                                 1,617                 61,499           53,301            2085,714

                           13 matrice cov e R aa20009/10
CALCOLO DI R


   paesi        X1            X2           X3           X4

           X1         1         0,58             0,71    0,78

           X2                      1             0,53    0,47


           X3                                      1     0,74

           X4                                                1




                 13 matrice cov e R aa20009/10
INTERPRETAZIONE E
COMMENTI
Dalla matrice si nota che ogni coppia di variabili ha
un’elevata correlazione positiva. In particolare, il
maggiore legame lineare è presente tra emissione di
CO2 e GNI pro-capite (r = 0,78), quello inferiore,
seppur non modesto in termini assoluti, fra speranza di

vita alla nascita e % di popolazione urbana (r = 0,53).



                    13 matrice cov e R aa20009/10
CALCOLO DI │R │SU SERIE
STORICHE MULTIPLE

                PIL Consumi Investimenti                Correlazioni
 PIL              1     0,997          0,949          riferite ai valori
 Consumi                     1         0,955
                                                          assoluti
 Investimenti                                1

                PIL Consumi Investimenti
 PIL              1    0,748           0,587            Correlazioni
 Consumi                    1          0,469          riferite ai n.i. a
 Investimenti                                1          base mobile


                      13 matrice cov e R aa20009/10
OSSERVAZIONI

   Si nota che le correlazione tra i n.i. a base mobile
    sono più deboli, non essendo influenzate dal trend
    crescente di entrambe le serie storiche.
   Si può affermare che le variazioni da un anno
    all’altro degli aggregati presentano tra loro un
    legame lineare abbastanza debole, mentre i valori
    in termini assoluti presentano un legame molto
    forte (influenzato dalla correlazione spuria)




                     13 matrice cov e R aa20009/10
     OSSERVAZIONI CONCLUSIVE SULLA
     CORRELAZIONE (Significato della
     correlazione )
L’esistenza d’una correlazione elevata non implica una relazione causa-
effetto tra le due variabili. Infatti, un valore di r prossimo a +1 (–1) tra le
variabili Xv ed Xs può manifestarsi:
 • quando Y dipende effettivamente da X o viceversa; ad esempio, con
    riferimento ad n famiglie, la spesa per consumi è funzione del reddito;

 •   quando X ed Y dipendono da una terza variabile Z o da un complesso di
     altre variabili; ad es. relazione tra Povertà assoluta (nel confronto tra
     Paesi) e livello dello sviluppo umano (HDI)  dipende dal livello di
     sviluppo economico (PIL), dalla distribuzione del reddito, ecc…;

 •   quando tra le due variabili si è accertata una semplice concordanza (o
     discordanza) di andamento, senza che esista un nesso logico tra le
     stesse.



                              13 matrice cov e R aa20009/10
    OSSERVAZIONI CONCLUSIVE
    SULLA CORRELAZIONE SPURIA
   Relazioni spurie si manifestano più frequentemente se
    si calcola la correlazione tra i dati di due serie storiche,
    poiché in tal caso la presenza d’un trend crescente in
    entrambe porta comunque ad ottenere valori molto
    elevati di r anche se non vi è alcuna relazione, di natura
    logica, tra le due variabili.
   Nell’analisi esplorative dei dati, riferita ad n unità
    statistiche, è meno agevole riconoscere le correlazioni
    spurie, poiché uno degli obiettivi della ricerca è proprio
    quello di porre in luce relazioni non ancora inquadrate in
    schemi teorici precisi

                          13 matrice cov e R aa20009/10
OSSERVAZIONI CONCLUSIVE
SULLA CORRELAZIONE SPURIA
Il problema sarà affrontato al paragrafo 15
Quando si parlerà di “correlazione
  parziale”




               13 matrice cov e R aa20009/10
UN ESEMPIO DI CORRELAZIONE
SPURIA
Consideriamo tre indicatori socioeconomici disponibili per 47
    province di un paese in via di sviluppo.
I tre indicatori considerati sono:

   1. una misura di fertilità (nati per donna) standardizzata in
    maniera tale che vari tra 0 e 100 [FERTILITA].
 2. la percentuale degli occupati in agricoltura sul totale degli
    occupati (che può anche essere vista come un indicatore di
    quanto è urbanizzata la provincia) [AGRICOLTURA].
 3. il logaritmo della percentuale della popolazione con un
    istruzione superiore alla scuola primaria (il logaritmo è stato
    scelto perchè ci occuperemmo di relazioni lineari e la linearità
    sembra maggiore utilizzando questa
    trasformazione)[ISTRUZIONE].
Il problema che ci poniamo è di cercare di descrivere le relazioni
    esistenti tra i tre indicatori.
                         13 matrice cov e R aa20009/10
La matrice dei diagrammi di dispersione

  Il grafico mostra la matrice dei diagrammi di dispersione di tutte le
     possibili coppie di variabili.

                                       0    20   40       60   80

                                                                                        90


                                                                                        70
                         1

                                                                                        50
                    FERTILITA
                                                                                        30


          80

          60

                                                      2
          40
                                           AGRICOLTURA
          20

           0

                                                                                        4

                                                                                        3

                                                                        ISTRUZIONE2
                                                                           3

                                                                                        1

                                                                                        0

               30   50       70   90                                0   1   2   3   4




                                       13 matrice cov e R aa20009/10
Commenti
I grafici precedenti mostrano che:

1)    la percentuale di occupati in agricoltura e fertilità sono “positivamente
      associati”: provincie con una alta percentuale di occupati in agricoltura hanno
      anche una alta fertilità, viceversa, basse percentuali di occupati in agricoltura
      si osservano in provincie con bassi livelli di fertilità;
2)    esiste una “associazione negativa” tra istruzione e fertilità; ovvero provincie
      con un alto livello di istruzione hanno una fertilità più bassa delle provincie
      con un basso livello di istruzione.
3)    lo stesso (associazione negativa) può essere detto per la relazione tra
      agricoltura e istruzione
4)    almeno in prima approssimazione le relazioni sembrano lineari. la relazione
      tra agricoltura e fertilità sembra più debole della relazione esistente tra
      agricoltura ed istruzione (si pensi, ad esempio, alla dispersione intorno a
      delle ipotetiche rette di regressione).
5)    Meno facile è valutare la forza relativa delle relazioni intercorrenti tra
      istruzione e, rispettivamente, agricoltura e fertilità. La prima (istruzione verso
      agricoltura) sembra però in una qualche misura più forte della seconda (si
      osservi in particolare l'allargarsi del grafico fertilità verso istruzione per valori
      bassi dell'istruzione.

                                13 matrice cov e R aa20009/10
La matrice delle varianze e
covarianze
   In situazioni tipo quella che stiamo considerando può
    essere interessante essere in grado di descrivere
    compattamente sia la direzione che la forza delle
    relazioni intercorrenti tra le varie variabili.
   Tipicamente, le covarianze per tutte le coppie di
    variabili vengono organizzate, insieme alle varianze
    delle singole variabili, in una matrice, chiamata
    matrice delle varianze e covarianze o matrice di
    dispersione, che nel caso in esame sarebbe:



                     13 matrice cov e R aa20009/10
La matrice delle varianze e
covarianze

 Nella Tabella, l'elemento (s; v) è dato dalla covarianza tra la variabile s-
esima e la variabile v-esima. Poichè, come è immediato verificare, cov(Y; Y)
= var(Y), sulla diagonale troviamo le varianze. Ad esempio, in questo caso
152;7 è la varianza della fertilit à. Si osservi che, poichè cov(X; Y) =
cov(Y;X), la matrice di dispersione è per costruzione simmetrica.


                            X                Y               Z


                                fertilita’   agricoltura      educazione
 X       fertilita’             152,7         98.00.00            -5.1
 Y       agricoltura         0,353079            504,8           -11.9
  Z      educazione           -0,52429        -0,67592            0,61

                             13 matrice cov e R aa20009/10
Coefficienti di correlazione delle tre
variabili considerate. La matrice di
correlazione
 Nel caso in esame, è immediato dalla matrice delle varianze e
    covarianze data, calcolare
  cor(fertilità,agricoltura) =   0;35;
  cor(fertilità,istruzione) =   -0;52;
  cor(agricoltura,istruzione) = -0;68:
 Similmente a quanto visto per le covarianze spesso, i coefficienti di
    correlazione sono organizzati in una matrice, detta matrice di
    correlazione, del tipo

                                        X                Y             Z

                                            fertilita’   agricoltura       istruzione

            X       fertilita’                   1,00           0,35             -0,52

            Y       agricoltura                  0,35           1,00             -0,68

            Z       istruzione                  -0,52          -0,68              1,00


                                 13 matrice cov e R aa20009/10

								
To top