Documents
Resources
Learning Center
Upload
Plans & pricing Sign in
Sign Out

APLIKOVANá ANALYZA DAT PRO KI

VIEWS: 0 PAGES: 31

									    MULTI VARIATE VARIABLE

      n-th 
    OBJECT




                               m-th 
                             VARIABLE




1
    STATISTICAL DEPENDANCE


      CORRELATION –  relationship between  
      QUANTIVATIVE (measured) data
        CONTINGENCE – relationship between  
      QUALITATIVE (descriptive) data




2
    CORRELATION


      
          simple –  for two variables,
          multiple – for more then two variables,
        parcial –  describes  relationship  of  two  variables  in 
     multivariable  data  set  (we  exclude  influence  of  all  other 
     variables)  




3
    CORRELATION


     positive     negative




4
    Correlation

                           RESIDUAL 
              TOTAL 
            VARIABILITY   VARIABLITY




                            MODEL 
                          VARIABILITY




5
    CORRELATION

       COEFF. OF DETERMINATION




         COEFF. OF 
         CORRELATION


6
     COEFF. OF DERETMINATION
       quantifies which part of total variability of the response is 
       explained by model 

      r2 = 0.9




    r2 = 
    0.05                                                    r2 = 1


7
    COEFF. OF CORRELATION

       simple correlation
                Pearson
                Spearman (rank correlation)
                Spearman




8
    PEARSON COEFF. OF CORRELATION 

    BIVARIATE 
    normal distribution


                      = standardised covariance




9
     COVARIANCE
     COVARIANCE:
       measure of linear relationship
       always is non – negative
       product of standard deviations is its upper limit
       its magnitude is depend on units of arguments Þ 
       standardisation is necessary




10
     PEARSON COEFF. OF CORRELATION

     Basic properties:

           It is dimensionless measure of correlation;
           0 – 1 for positive correlation,  0 – (-1) for negative 
           correlation;
           0 means that there is no linear relationship between 
           variables (can be nonlinear!)  or this relationship is 
           not  statistically  significant  on  the  basis  of  available 
           data;
           1 or (-1) indicates a functional (perfect) relationship;
           Value  of  correlaion  coefficient  is  the  same  for 
           dependence  x1  on x2  and for reverse dependence x2
11         on  x1.
     SPEARMAN CORRELATION 
     COEFFICIENT

     nonparametric correlation coeff. based on ranks




                                             difference between 
                                             ranks of X and Y in 
                                             one row


12
     SPEARMAN CORRELATION 
     COEFFICIENT

          influential points (extremes)
              Pearson R = -0,412 
              (influential points are fully    Spearman R = +0,541 
              counted)                         (influential points are 
                                               stronly limited)




13
     CONFIDENCE INTERVAL R (CI)

     CI (r) includes interval of possible values of population 
     correlation coefficient r (with probability 1 - a)

     Because distribution of corr. coeff. is not normal, we must 
     use Fisher transformation




     with appox. normal distribution with mean E(Z) = Z(r) and 
     variance  D(Z) = 1/(n-3). 
14
      CONFIDENCE INTERVAL R (CI)

                                                     half of CI of transformed value

                                                                   lower and 
         Fisher transformation                                     upper 
     R                              Z(R)                           boundary of 
                                                                   CI in Fisher 
                                                                   tranformation


     lower and                                                     lower and 
     upper         retransformation Z(R) to correlation coeff.
                                                                   upper 
     boundary of                                                   boundary of 
     CI in Fisher                                                  CI of 
     tranformation                                                 correlation 
                                                                   coeff.


15
     CONFIDENCE INTERVAL R (CI)
                                                                           Fisher 
                                                                           value
              R = 0.95305            fisherz(0.95305) = 1.864

            CI Fisher  value:



                                           1.21                 1.864                2.517
           CI correlation coeff:
           =fisherz2r(1.2107) = 0.83689
           =fisherz2r (2.5174) = 0.98707

                                           0.837                             0.953    0.987   
16
     REGRESSION ANALYSIS

                                             MEASURED VALUES
       dependent, explained, response var.




                                                                         MODEL VALUES




                                                 independent (explanatory) variable
17
     REGRESSION MODEL




        response                         explanatory variable(s)               regression    random
         variable                                                                              parameters    error

18                                      y = X b + e 
     REGRESSION MODEL


                                                         regression 
                                                         parameter 
                                                             b
        response 




                                 intercept a


                    independent (explanatory) variable


19
     CONFIDENCE INTERVAL  OF MODEL
        VALUE OF REGRESSION                                      CI of one 
        MODEL ( these values are only                            model 
        point estimates )                                        value




        upper boundary of CI                lower boundary of CI
                                    Area where all possible models 
                                    computed from any sample (coming 
                                    from  the same population) are appear  
                                    with probability 1 - a



20
     CI  OF  Y VALUES – 
     PREDICTION  INTERVAL

     is an estimate of an interval in which future observations will 
     fall, with a certain probability 1 - a 




21
     CONFIDENCE INTERVAL OF MODEL (CI), 
     PREDICTION INTERVAL OF RESPONSE (PI)




22
     COMPARISON OF REGRESSION 
     MODELS

           Akaike information criterion (AIC) 

                               RSC    rezidual sum of squares
                               m      number of parameters


          The AIC is smaller, the model is better
           (from the statistical point of view!!). 



23
     REGRESSION DIAGNOSTICS

     Diagnostics of residuals:
      •  normality
      •  homoscedasticity (constant variance)
      •  independence




24
     REGRESSION DIAGNOSTICS




     Breusch–Pagan test  (and many others…)

      Weighted OLS method 
25
     REGRESSION DIAGNOSTICS




26
     REGRESSION DIAGNOSTICS


                    Influential points




27
       REGRESSION DIAGNOSTICS

      HAT VALUES (leverages)
      the hat matrix, H, relates the fitted values to the 
      observed values. It describes the influence each 
      observed value has on each fitted value. 


      The diagonal elements of the hat matrix are the 
      leverages, which describe the influence each observed 
      value has on the fitted value for that same observation.


28
     REGRESSION DIAGNOSTICS

      Cook distance
     measures the effect of deleting a given observation. Data points 
     with large residuals (outliers) and/or high leverage may distort 
     the outcome and accuracy of a regression.




29
     REGRESSION DIAGNOSTICS

     DFFITS
     statistic is a scaled measure of the change in the predicted 
     value for the ith observation and is calculated by deleting the ith 
     observation. A large value indicates that the observation is very 
     influential in its neighborhood of the X space.

                                  A general cutoff to consider is 2; 
                                  a size-adjusted cutoff recommended 
                                  is



30
     REGRESSION DIAGNOSTICS


     DFBETAS
     are the scaled measures of the change in each parameter 
     estimate and are calculated by deleting the ith observation




     General cut off value is 2, size adjusted


31

								
To top