Docstoc

r88035

Document Sample
r88035 Powered By Docstoc
					2.8 Residuales y graficas de residuales

Como se ha indicado anteriormente, el análisis de los residuos es básico para
chequear si se verifican las hipótesis del modelo de regresión. Por ello, a continuación
se exponen las propiedades matemáticas de los mismos. Considérese el modelo de
regresión lineal múltiple



   Los residuos mínimo-cuadráticos vienen dados por



   o en forma matricial



                                   -1 t
Como = H , siendo H = X              X la matriz de proyección ortogonal. Es fácil
probar que la matriz H es idempotente             y simétrica         . En base a
esto

    =    -       =     -H        =       =
    =X       +       -HX    -H       =       ,

donde se utilizó que HX = X. Se calcula la matriz de varianzas de los residuos,



   Por tanto, ei es una variable aleatoria con distribución


                                                                                  (9.9)

donde hii es el valor de influencia de i. que mide la “distancia estadística” de i. a .
Un residuo “grande” indica que la observación está lejos del modelo estimado y, por
tanto, la predicción de esta observación es mala. Las observaciones con residuos
grandes se denominan observaciones atípicas o heterogéneas (outliers).

Como los residuos tienen varianza variable y son dimensionados (tienen las unidades
de la variable Y ), normalmente se tipifican




los residuos tipificados siguen una distribución normal estándar, pero como 2
es desconocido, se sustituye por su estimador, la varianza residual R2 y se
obtienen los residuos estandarizados, definidos como
                                                                               (9.11)

Por la hipótesis de normalidad los residuos estandarizados siguen una distribución t
con n-         grados de libertad. Como ya se indicó en el estudio del modelo de
regresión lineal simple, en el cáluco de ri existe el problema de que hay una relación
de dependencia entre el numerador y el denominador de ri. Para evitar ésto, con
mayor esfuerzo computacional, se calcula para cada i, i = 1,...,n, el estimador R, , la
varianza residual del modelo de regresión obtenido a partir de la muestra en la que se
ha eliminado la observación          . Ahora se definen los residuos estudentizados
como

                                                                               (9.12)

Los residuos estudentizados siguen una distribución t con        -       grados de
libertad. Si el tamaño muestral       es grande, los residuos estandarizados y los
estudentizados son casi iguales y muy informativos, pudiéndose considerar grandes
los residuos estandarizados tales que    > 2.

    Con los residuos estandarizados o estudentizados se pueden construir los
siguientes gráficos de interés:

  El gráfico de dispersión matricial, de todas las variables del modelo (respuesta y
  regresoras). En el estudio de un modelo de regresión lineal múltiple es el primer
  gráfico que se debe observar. Proporciona una primera idea de la existencia de
  relación lineal o de otro tipo entre la respuesta y las regresoras y también da una
  idea de posibles relaciones lineales entre las variables regresoras, lo que crea
  problemas de multicolinealidad.

El gráfico de dispersión matricial para los datos del Ejemplo 7.1. se
representa en la Figura 9.2.




          Figura 9.2. Gráfico matricial con los datos del Ejemplo 7.1.
  El histograma de los residuos, que sirve para observar la existencia de
  normalidad, simetría y detectar observaciones atípicas.
  El gráfico probabilístico de normalidad (p-p y q -q) y el gráfico de simetría, que
  permite contrastar la normalidad (simetría) de la distribución de los residuos.
  El gráfico de residuos       frente a las predicciones        , que permite detectar
  diferentes problemas:

    Heterocedasticidad, la varianza no es constante y se deben de transformar los
    datos (la variable Y ) o aplicar mínimos cuadrados ponderados.
    Error en el análisis, se ha realizado mal el ajuste y se verifica que los residuos
    negativos se corresponden con los valores pequeños i y los errores positivos se
    corresponden con los valores grandes de i, o al revés.
    El modelo es inadecuado por falta de linealidad y se deben de transformar los
    datos o introducir nuevas variables que pueden ser cuadrados de las existentes o
    productos de las mismas. O bien se deben introducir nuevas variables
    explicativas.
    Existencia de observaciones atípicas o puntos extremos.
    Tener en cuenta que se debe utilizar el gráfico de residuos          frente a las
    predicciones       en lugar del gráfico de residuos       frente a las
    observaciones        porque las variables e están correladas, mientras que las
    variables e no lo están.
  El gráfico de residuos           frente a una variable explicativa              , permite
  deducir si la existencia de heterocedasticidad o la falta de linealidad en el modelo
  son debidas a la variable explicativa representada.

  Gráficos de este tipo son los representados en las Figuras 9.3 y 9.4. En la primera
  de ellas se observa que la relación con la variable xj no es lineal y, probablemente,
  un ajuste cuadrático sea adecuado, también se tendrían dudas acerca de la
  homocedasticidad del modelo.




      Figura 9.3. Gráfico de residuos frente a variable regresora. Ajuste no lineal.

    En la Figura 9.3 se observa que el modelo es heterocedástico y la causa de este
problema puede ser la variable explicativa xj. Por ello, la solución se basa en
transformar el modelo teniendo en cuenta este hecho.
      Figura 9.4. Gráfico de residuos frente a variable regresora.
                          Heterocedasticidad.

El gráfico de residuos    frente a una variable omitida, permite valorar si esta
variable influye en el modelo y por lo tanto se debe incluir como una nueva
variable regresora.

En la Figura 9.5. de residuos frente a una variable omitida          se
observa que existe una relación lineal con esta variable y por tanto se
mejora el ajuste si se incluye la variable xomit.




          Figura 9.5. Gráfico de residuos frente a variable omitida.
Una situación frecuente se produce cuando se tienen observaciones de diferentes
poblaciones y se debe de incluir una variable de clasificación en el modelo de
regresión. Esto se puede observar en el gráfico de residuos frente a predicciones
como se puede ver en la Figura 9.6.
             Figura 9.6. Necesidad de una variable de clasificación.
El gráfico de los residuos frente a la variable de clasificación omitida se
presenta en la Figura 9.7.




          Figura 9.7. Residuos frente a variable de clasificación omitida.
El gráfico parcial de residuos, es útil para valorar la influencia real de una
variable regresora, esto es, conocer la información nueva que aporta la variable
regresora en estudio y que no aportan las otras variables regresoras.

Según el paquete estadístico que se utilice los gráficos parciales de residuos se
pueden construir de diferentes formas.

Tipo 1.

Si se tienen k variables regresoras                 y se desea obtener el gráfico
parcial de residuos respecto a la variable xk, se procede de la siguiente
    forma:

                 1.           se calcula el modelo de regresión respecto a las restantes
                              variables regresoras,




                 2.           Se calculan los residuos




    que representan la parte de Y no explicada por las variables x1,x2,...,xk-1.

                 3.     Por tanto, la gráfica de los residuos “parciales” ek* frente a la
                 variable xk permite valorar la importancia real de esta variable.

    Tipo 2.

Un gráfico muy parecido y más fácil de calcular se obtiene de la siguiente forma.
Calcular

     *
    k    =   +        k   k   =       +   k       k


        = -
                                                                                   *
Se obtiene un nuevo gráfico parcial representando los residuos “parciales”        k    frente a
la variable xk.
                                                                                                 *
Si la variable xk es ortogonal a las restantes variables explicativas los estimadores        i           y
                                                                                     *               *
  i, i = 1,...,k - 1, serán muy próximos y, por tanto, también lo son los vectores ek y      k
. Lo que hace que los dos gráficos de residuos parciales sean casi iguales en este
caso.

Gráficos parciales son representados en las Figuras 9.8 y 9.9. En ambos casos se
observa que existe una relación lineal entre las variables regresoras y la variable de
interés.

Un gráfico muy parecido y más fácil de calcular se obtiene de la siguiente forma.
Calcular

     *
    k    =   +        k   k   =      +    k   k




         =   -
                                                                                              *
Se obtiene un nuevo gráfico parcial representando los residuos “parciales”                   k
frente a la variable xk.

Si la variable xk es ortogonal a las restantes variables explicativas los
estimadores i* y i, i = 1,...,k - 1, serán muy próximos y, por tanto, también lo
son los vectores ek* y k * . Lo que hace que los dos gráficos de residuos
parciales sean casi iguales en este caso.

Gráficos parciales son representados en las Figuras 9.8 y 9.9. En ambos casos
se observa que existe una relación lineal entre las variables regresoras y la
variable de interés.




Tipo 3.

Otro gráfico parcial de interés que proporcionan algunos paquetes estadísticos
es el siguiente (se quiere calcular el gráfico parcial respecto a xk):
Se calculan los modelos de regresión de las variables Y y xk respecto a las
restantes        variables regresoras,




Ahora se representa el gráfico de residuos de ek* frente a los residuos e
,k. Esto es, el gráfico de los pares        . Este gráfico da una idea de la
relación entre la variable Y y la variable xk una vez que se ha eliminado la
influencia de las otras variables regresoras.

Utilizando los datos del ejemplo 7.1. se obtienen los siguientes gráficos
parciales:

				
DOCUMENT INFO
Shared By:
Categories:
Tags:
Stats:
views:0
posted:4/5/2013
language:Spanish
pages:8