INFERENCIA Y PREDICCION EN EL MLG

Document Sample
INFERENCIA Y PREDICCION EN EL MLG Powered By Docstoc
					TEMA 2. INFERENCIA Y PREDICCION EN EL MLG

Introducción

      Muchas investigaciones tienen como fin contrastar una hipótesis
simplificatoria del tipo “una población es idéntica a otra”. Esto permite
aprender de los datos de forma rápida y segura.

      Un ejemplo consiste en ver si un cambio legal afecta o no al precio
medio de la vivienda. En este caso, se contrasta que la ley no haya tenido
efecto y que el precio medio de la vivienda (descontados otros factores) es
igual antes y después de la ley. Otro ejemplo es contrastar si la
productividad marginal del trabajo coincide con el salario (considerado
como exógeno) y por tanto, esta empresa se encuentra en equilibrio como
nos dice la teoría económica.

        Una hipótesis se contrasta comparando nuestras predicciones con la
realidad. Si coinciden, dentro de un margen de error admisible,
mantenemos la hipótesis. En caso contrario, la rechazamos y buscamos
otras que sean capaces de explicar los datos. Por tanto, contrastar una
hipótesis consiste en comparar la predicción que se deriva de ella con los
datos. Cuando existe variabilidad o errores de medida, esta contrastación ha
de hacerse estadísticamente. Normalmente, planteamos una hipótesis nula
( H 0 ) a priori creíble y sólo la rechazamos cuando existe suficiente
evidencia en los datos en contra de la misma.

       El nombre de hipótesis nula supone que será la hipótesis que
mantendremos a no ser que los datos evidencien su falsedad y es, por tanto,
una hipótesis neutra. Si rechazamos la H 0 , implícitamente no rechazamos
otra hipótesis llamada alternativa ( H1 ).

      El ejemplo más habitual es un juicio. En él debe decidirse si el
acusado es inocente o culpable. La hipótesis nula es que el acusado es
inocente (hasta que no se demuestre lo contrario). El juicio (contraste) se
lleva a cabo para tener evidencia en contra de la nula (que siempre es la
hipótesis de inocencia). El veredicto del juicio es el resultado del contraste.

   Suponiendo que la H 0 es simple, es decir, del tipo H 0 : i   , siendo 
un valor conocido, la H1 puede ser de distintos tipos:

   1) Si rechazamos la H 0 , no sabemos en qué dirección puede ser falsa,
      por lo que la H1 : i   (contraste bilateral o de dos colas).

                                                                             1
2) Si rechazamos la H 0 , sabemos que forzosamente se cumple que
   i   (contraste unilateral o de una sola cola).

Etapas del contraste: Son tres:

1) Definir claramente la H 0 y la H1 .
2) Definir una medida de discrepancia entre la H 0 y los datos. La
   medida de discrepancia debe tener una distribución conocida cuando
   la H 0 es cierta. Asi, una discrepancia es grande cuando tiene una
   probabilidad de ocurrir muy pequeña, siendo la H 0 cierta. La
   discrepancia es pequeña cuando es una discrepancia “probable”
   siendo la H 0 cierta.
3) Definir una regla para decidir qué discrepancias son demasiado
   grandes como para atribuirlas al azar o a errores de medida y qué
   discrepancias son pequeñas. Esto es definir la zona de rechazo y la
   zona de no rechazo de la H 0 .

Al llevar a cabo el contraste pueden ocurrir varias cosas:

    Resultado del                               Realidad
      contraste           H 0 cierta                 H 0 falsa
No rechazamos H 0        Acierto                     Error tipo II
Rechazamos H 0           Error tipo I                Acierto

Error de tipo I = Probabilidad [Rechazar la H 0 / H 0 es cierta] =  (nivel
de significación del contraste).
Error de tipo II = Probabilidad [No rechazar la H 0 / H 0 es falsa] =  .

El nivel de confianza del contraste es 1   y la potencia es 1   , aunque
ambas probabilidades no son independientes.

Contraste de hipótesis sobre un solo parámetro (contraste bilateral)

   Supongamos que se ha estimado la función de producción de una
empresa y se quiere contrastar si está en equilibrio igualando la
productividad marginal del trabajo (PmgL) al salario (S). Es decir:

                                 H 0 : i  
                                 H1 :  i  




                                                                          2
donde i  PmgL y   S . Una respuesta érronea es comparar
directamente la estimación de  i con S directamente. Esto es incorrecto
                                                             ˆ
por varias razones: en primer lugar, es muy difícil que ï coincida
exactamente con S , aunque la H 0 sea cierta. Además, estamos
suponiendo que  i ha sido estimado sin incertidumbre. Aprovechando
                                    ˆ
la información que tenemos sobre ï , sabemos que:

                            ˆ
                                 N[ , 2 ( X T X )1 ]

y un estimador concreto, como el i-ésimo

                            ˆ
                            i    N[i , 2 ( X T X )ii1 ]
                                                     



                  
donde ( X T X )ii1 es el elemento i-ésimo de la diagonal principal de
( X T X ) 1 y se asume la hipótesis de normalidad de las perturbaciones.
Estandarizando esta normal, se tiene que:

                                 ˆ
                                 í  i
                                                 N (0,1)
                              2 ( X T X )ii1
                                          




y apoyándonos en la función de distribución de una normal estándar
podríamos derivar el intervalo de valores en el que con una determinada
probabilidad se encuentra el verdadero  i . No obstante, esto sólo es
posible si conocemos el valor de  2 . Como lo más frecuente en la
práctica es que sea un parámetro desconocido, debemos usar su
estimador y su distribución. En el caso MCO, tenemos que (ver
Apéndice del Tema 1):

                                 nk
                                          MCO
                                          ˆ2      nk
                                                   2

                                    2




que combinada con la N (0,1) y sabiendo que ambas distribuciones son
independientes, formará una distribución t de Student. Es decir:

                                     N (0,1)
                                                  tn  k
                                  nk / n  k
                                   2




En nuestro caso, el estadístico de contraste es el ratio:




                                                                       3
                                 ˆ
                                 i  i              ˆ
                                                      i  i
                                                                  tn  k
                              MCO ( X T X )ii1
                              ˆ2                       ˆ ˆ
                                                      dt ( i )


donde ahora todo es conocido salvo el verdadero valor de  i . Las dos
maneras de contrastar esta hipótesis nula son: La primera, construir el
intervalo de confianza del 1   % para el parámetro  i apoyándonos en
la distribución t de Student y comprobar si el valor  cae dentro del
intervalo (en cuyo caso, no podemos rechazar la nula) o no cae dentro
del intervalo (en cuyo caso rechazamos la nula a favor de la alternativa a
ese nivel de significación). Es decir, teniendo en cuenta la distribución t
de Student:

                                                      ˆ
                                                      í  i
                         1    Pr ob[t / 2                  t / 2 ]
                                                        ˆ ˆ
                                                      dt ( í )

y operando

                              ˆ           ˆ ˆ            ˆ           ˆ ˆ
                1    Pr ob[i  t / 2dt (i )  i  i  t / 2dt (i )]

donde t / 2 es un valor crítico que deja en ambas colas de la distribución
 / 2 masa de probabilidad. La otra posibilidad es evaluar el estadístico
de contraste en la nula y comparar en valor absoluto con el valor crítico
que deja a la derecha de la distribución  / 2 masa de probabilidad. Es
decir, si:

                                         ˆ
                                        i  
                                                    t / 2
                                             ˆ
                                        dtˆ(  i )

se rechaza la hipótesis nula a favor de la alternativa al  % de
significación y a la inversa.

Contraste de significación individual de un parámetro: el ratio t .

   Este contraste es un caso particular del anterior. Dado un modelo
lineal de regresión:

                      yt   0  1 xt1  ...  i xti  ...   k xtk   t

se quiere contrastar la H 0 : i  0 frente a la alternativa de que H1 : i  0 .
Queremos saber si la variable xti tiene efecto sobre la yt , una vez que


                                                                                4
ésta ha sido explicada por todos los regresores, salvo la xti . El
estadístico de contraste en este caso, es conocido como el ratio t y es el
                                                                ˆ
resultado de dividir la estimación puntual de  i , es decir, í , por su
desviación típica estimada. Por tanto:

                                       iˆ
                                t               tn  k
                                      ˆ ˆ
                                     dt ( i )

Conviene recordar que el estadístico t tiene el mismo signo que el
                             ˆ
coeficiente estimado  i , ya que la desviación típica siempre es positiva.
Estamos intentando ver si H 0 : i  0 , pero en ninguna aplicación con
                    ˆ
datos reales,  i será exactamente cero, sea o no cierta la H 0 . La
pregunta relevante es ¿está suficientemente alejado o cercano al cero?
                  ˆ
Un valor de  i muy alejado del cero, proporcionará evidencia en contra
de la H 0 y a la inversa. No obstante, hay un error de estimación de  i
                                                                   ˆ
medido por su desviación típica, por lo que la distancia de  i al cero hay
que ponderarla por su error estándar. El estadístico t , de hecho, mide en
                                                      ˆ
cúantas desviaciones típicas está alejado í del cero. Valores del
estadístico suficientemente alejados del cero generarán un rechazo de la
H 0 y viceversa. Dada la H1 :  i  0 , queremos saber si xi tiene efecto
sobre la y , sin especificar si el efecto es positivo o negativo (contraste
bilateral). Por tanto, dada la distribución t de Student, se rechaza la nula
si t  t / 2 , donde t / 2 es un valor crítico que se escoge para que deje en
ambas colas de la distribución el  / 2 % de probabilidad.

   Si se rechaza la hipótesis nula, decimos que xi es una variable
individualmente significativa a un nivel de significación del  % y si no
se puede rechazar, decimos que no es estadísticamente significativa a
ese nivel de significación.

Contrastes unilaterales o de una sola cola.

Por alguna razón, normalmente porque así lo dicta la teoría económica,
podemos descartar valores de un parámetro negativos (o positivos).
Como ejemplo, queremos contrastar que:

                                  H 0 : i  0
                                     H1 :  i  0




                                                                             5
En este caso, bajo la hipótesis alternativa se espera que el valor del
estadístico t sea positivo. En definitiva, buscamos un valor de la t
positivo y suficientemente grande como para rechazar la nula a favor de
la alternativa. No obstante, valores negativos de la t no proporcionan
evidencia a favor de la H1 , sino a favor de la H 0 . Por tanto, se rechaza la
nula si el valor del estadístico es tal que t  t , donde t es el valor
crítico que deja a la derecha de la distribución el  % de masa de
probabilidad.

Ejercicio propuesto para el estudiante: Encontrar la regla de rechazo y
de no rechazo si el contraste es H 0 : i  0 frente a la H1 : i  0 .

Cálculo e interpretación del valor p (p-value).

Hay un componente de arbitrariedad en el enfoque clásico de contrastar
una hipótesis escogiendo previamente el valor de  , es decir, el nivel de
significación del contraste. En realidad, no existe un nivel de
significación correcto, ya que para algunas aplicaciones podemos
preferir trabajar con un nivel de significación distinto a los habituales
(5% y 1%). Además, puede ser engañoso trabajar con un nivel de
significación prefijado. Por ejemplo, supongamos que queremos
contrastar la significatividad individual de una variable en un modelo,
teniendo 40 grados de libertad y siendo el valor del estadístico t  1.85 .
En este caso, el valor crítico de la distribución, t / 2 , es igual a 2.021 al
5%, pero es igual a 1.684 al 10%. Por tanto, la hipótesis nula no se
rechaza al 5%, pero sí al 10%.

En lugar de llevar a cabo un contraste usando distintos niveles de
significación prefijados (1%, 5% y 10%), es más conveniente calcular el
nivel de significación más pequeño al que se rechazaría la nula en cada
caso (éste es el valor p o p-value). En el contraste de significación
individual de un parámetro, el p-value se define como:

                        p  Pr ob[ tnk  t / H0 es cierta]

donde tnk representa una variable aleatoria que sigue una distribución t
de Student con n  k grados de libertad y t el valor del estadístico de
contraste bajo la nula. En el ejemplo anterior, p  Pr ob[ t40  1.85]  0.0718
y por tanto, p  0.05 , por lo que no se rechaza la nula al 5%, pero sí al
10%. En otras palabras, el p-value resume la contundencia con la que
los datos rechazan la nula. Cuanto menor es el valor de este p-value,
más contundentes son los datos a la hora de rechazar la hipótesis nula y

                                                                             6
a la inversa. En el caso de un contraste de una sola cola, como por
ejemplo H 0 : i  0 frente a H1 : i  0 , el valor del p-value del contraste
sería p  Pr ob[tn  k  t / H 0 es cierta] y si la H 0 : i  0 frente a H1 : i  0 ,
entonces p  Pr ob[tnk  t / H 0 es cierta].

Contraste general de hipótesis: el estadístico F.

Supongamos que se desea contrastar un conjunto de m restricciones
lineales sobre los parámetros del modelo Y  X    . En este caso
general, la hipótesis nula se puede escribir como:

                                       H 0 : A  c

donde la hipótesis alternativa es H1 : A  c , A es una matriz fija de
tamaño (m  k ) con m  k y c un vector fijo de tamaño (m1) .Como
ejemplo, supongamos que en un modelo como:

                              yt   0  1 xt1   2 xt 2   t

se quiere contrastar:

                                   H 0 : 1  0,  2  0
                                   H1 : 1  0,  2  0

La hipótesis nula en forma matricial se escribe fácilmente imponiendo
que:

                                            0 
                            0 1 0                   0
                          A       ;    1  ; c  0 
                            0 0 1        2          
                                            

La idea es que puesto que no conocemos  , sino ˆ , se trata de medir la
distancia a la que está el estimador MCO de  de satisfacer la hipótesis
                                                      ˆ
nula. Esta distancia o discrepancia es el vector d  A  c , de manera que
si la discrepancia es “grande” se rechazará la nula y si es “pequeña” no
se podrá rechazar la hipótesis nula. No obstante, hay que conseguir una
forma de medir el tamaño de ese vector distancia que sea escalar,
adimensional y que tenga una distribución conocida bajo la nula.

De hecho, se puede construir un estadístico válido a partir de una
distancia de Mahalanobis:

                                                                                     7
                                          d T [var(d )]1 d

                       ˆ               ˆ
donde la E (d )  E ( A  A )  AE (    )  0 , bajo la nula y la matriz de
varianzas-covarianzas, var(d ) , tiene la expresión:

                                  ˆ        ˆ
                  var(d )  E[ A(    )(    )T AT ]   2 A( X T X ) 1 AT

                 ˆ
y puesto que  N [  ,  2 ( X T X ) 1 ] , el vector distancia hereda la
distribución normal al ser una combinación lineal de ˆ . Es decir:

                                 d    N [0,  2 A( X T X ) 1 AT ]

y aplicando un resultado estadístico sobre la distribución de formas
cuadráticas (ver Apéndice 1, resultado 4), sabemos que:

                                     d T [var(d )]1 d        m
                                                               2


                                            m                 m

                                ˆ                                 ˆ
           d T [var(d )]1 d ( A  c)T [ A( X T X ) 1 AT ]1 ( A  c)          m
                                                                                   2
Por tanto:                  
                  m                            m 2                               m

Este estadístico es una medida escalar de distancia al cumplimiento de
la hipótesis nula, pero depende de un parámetro desconocido, que es  2 .
No obstante, bajo la hipótesis de normalidad de las perturbaciones,
sabemos que:

                                           MCO
                                           ˆ2         nk
                                                       2


                                           2        nk

y bajo las hipótesis del MLG, se sabe que ambas distribuciones  2 son
independientes entre sí y el ratio entre ellas, sigue una distribución F de
Snedecor. En general:

                                            m / m
                                             2
                                     F                      Fm,nk
                                           nk / n  k
                                            2




y en nuestro caso:

                                  ˆ                                 ˆ
             d T [var(d )]1 d ( A  c)T [ A( X T X ) 1 AT ]1 ( A  c)
        F                                                                  F (m, n  k )
                 m ˆ                            m ˆ
                      2                               2

                      2

                                                                                             8
donde ya todo es calculable. A partir de la distribución F , se escoge un
nivel de significación,  , tal que F es un valor crítico que deja a la
izquierda el (1   )% de probabilidad. De este modo, si el valor del
estadístico bajo la nula, F  F , se rechaza la nula a favor de la
alternativa y a la inversa. Es decir, se rechaza cuando el tamaño de ese
vector distancia es suficientemente grande con respecto a la distribución
 F.

Contraste de hipótesis particulares:

   A partir del estadístico general F , es posible derivar contrastes de
hipótesis particulares, algunos de ellos muy usados en la validación de
un modelo de regresión previamente estimado.

Contraste de significación global de todos los parámetros
(incluyendo la constante)

En un MLG, este contraste consiste en:

                                      H 0 : 1  0
                                          2  0
                                                 .
                                          k  0

y en la alternativa, todos los parámetros son distintos de cero. Es fácil
comprobar que esta hipótesis escrita en la forma matricial A  c ,
implica que la matriz A  I , c  0 y el número de restricciones bajo la
nula m  k . Por tanto, el estadístico de contraste se puede calcular como:

                                    ˆ       ˆ
                                    T XT X 
                               F                    F( k ,n  k )
                                       k 2
                                         ˆ

        ˆ       ˆ
ya que A  c   y la matriz [ A( X T X )1 AT ]1  X T X .

Contraste de una sola restricción bajo la nula

En el caso que se desee contrastar una sola restricción bajo la nula, ésta
se puede escribir como:

                                     H 0 : aT   c




                                                                         9
                                       H1 : aT   c

donde aT es un vector fila conocido y c un escalar, pues m  1. El
estadístico F de contraste queda reducido a :

                                        ˆ
                                   ( aT   c ) 2
                             F  2 T T 1                 F1,nk
                                 a (X X ) a
                                 ˆ

En este caso, el contraste se puede llevar a cabo utilizando la F , o bien,
la t de Student, ya que una F1,nk  tnk . Luego, tomando la raíz cuadrada
                                      2


al estadístico F , se tiene que:

                                 ˆ
                              aT   c              ˆ
                                                 aT   c
                     t                                              tn  k
                        aT  2 ( X T X ) 1 a
                            ˆ                         ˆ ˆ
                                                aT var(  )a

Como ejemplo, supongamos que en un modelo lineal se desea contrastar
 H 0 : 1   2  1 , frente a la H1 : 1   2  1 . Si usamos el estadístico t , se
tiene que:

                                        ˆ ˆ
                                       1   2  1
                     t                                               tn  k
                             ˆ ˆ         ˆ ˆ            ˆ ˆ ˆ
                           var( 1 )  var(  2 )  2 cov( 1 2 )

o bien, el cuadrado de este estadístico que seguirá una distribución F :

                                        ˆ ˆ
                                     ( 1   2  1)2
                     F                                              F1,nk
                            ˆ ˆ          ˆ ˆ          ˆ ˆ ˆ
                          var( 1 )  var(  2 )  2cov( 1 2 )

Ejercicio para el estudiante: comprobar que un caso particular del
estadístico F es el contraste de significación individual de un
parámetro. Escriba la H 0 en forma matricial y la expresión del
estadístico de contraste al usar una F.

Contraste de hipótesis mediante la comparación de sumas de
cuadrados de residuos

Una forma alternativa de usar el estadístico F para llevar a cabo
cualquier contraste es expresar el numerador del estadístico F (escrito
en forma del vector distancia) como la diferencia entre la Suma de
Cuadrados de los Residuos (SR) de dos modelos: el modelo restringido
(o modelo bajo la hipótesis nula) y el modelo libre (o modelo bajo la
hipótesis alternativa). (Véase el Apéndice 2 para la demostración).

                                                                                  10
A modo de ejemplo, supongamos que en el siguiente modelo lineal:

yt   0  1 xt1   2 xt 2  1t                                    (1)

se quiere contrastar la significatividad individual de la primera
pendiente, es decir, H 0 : 1  0 frente a H1 : 1  0 . El modelo libre es el
dado en (1), donde al estimar por MCO se obtendrá la suma de
cuadrados de residuos, denotada por SRL. El modelo restringido (o bajo
la hipótesis nula) es aquél en el que no aparece el regresor xt1 , es decir:

yt   0   2 xt 2   2t                                            (2)

donde la estimación por MCO devolverá una suma de cuadrados de
residuos diferente, denotada por SRR. El numerador del estadístico F se
puede calcular como la distancia entre la SRR y la SRL. Por tanto:

                                          ( SRR  SRL) / m
                                     F                      Fm,nk
                                             SRL / n  k

donde en este contraste, m  1. La idea del contraste mediante sumas
residuales es sencilla. Supongamos que la hipótesis nula es cierta.
Entonces, la variable xt1 no es significativa y no puede empeorar mucho
el ajuste al usar el modelo restringido, en donde no aparece esta
variable. Si la hipótesis nula es cierta, ambas sumas residuales no se
diferenciarán mucho y el numerador del estadístico F es “pequeño”,
indicando que la distancia al cumplimiento de la nula es “pequeña” y no
se rechazará. En el caso contrario, cuando la nula es falsa, la variable xt1
es relevante y por tanto, al eliminarla en el modelo restringido, habrá
pérdida en términos de ajuste. Por ello, cuanto mayor es la diferencia
entre la SRR y la SRL, más fácil es rechazar la nula a favor de la
alternativa.

Esta es una manera muy sencilla de realizar cualquier contraste en
donde siempre hay que estimar dos modelos: el libre y el restringido. En
el caso de usar el estadístico F convencional (en función del vector
distancia), sólo es necesario estimar el modelo libre, pero a cambio, hay
más álgebra matricial.

Para validar un modelo lineal estimado por MCO, es fundamental llevar
a cabo los contrastes de significación individual de cada parámetro.
Pero, además, es importante realizar algún contraste de significación


                                                                            11
conjunta de todos los parámetros. El más habitual en la práctica es
contrastar la significación conjunta de todas las pendientes del modelo
(es decir, de todos los parámetros menos el término constante). Vemos a
continuación, que usar el estadístico F en función de sumas residuales
es también la forma más sencilla de realizar este contraste.

Sea el MLG yt  0  1 xt1   2 xt 2  ...   k xtk  1t , y se quiere contrastar que:
                                          H 0 : 1  0
                                               2  0
                                                      .
                                               k  0

El modelo restringido, o bajo la nula, es simplemente yt   0   2t . El
estadístico de contraste es:

     ( SRR  SRL) / k  1 [(1  RR )  (1  RL )]/(k  1) ( RL  RR ) /(k  1)
                                  2           2              2     2
                                                                                    RL / k  1
                                                                                      2
F                                                                           
         SRL / n  k             (1  RL ) / n  k
                                        2
                                                            (1  RL ) / n  k
                                                                  2
                                                                                 (1  RL ) / n  k
                                                                                        2



                                                                        2
donde se han dividido las dos sumas residuales por la suma total, RL es
                                                       2
el coeficiente de determinación del modelo libre, RR es el del modelo
restringido y se sabe que en un modelo como yt   0   2t , el coeficiente
de determinación es nulo. Como puede observarse, este contraste de
significación global tan sólo necesita el cálculo del R 2 del modelo libre.

Ejercicio propuesto para el estudiante: Usando los datos y los resultados
de la estimación MCO del ejercicio numérico 1 del Tema 1, lleve a cabo
los siguientes contrastes:

       a)   La significación individual de todos los parámetros.
       b)   La significatividad conjunta de todos los parámetros.
       c)   La significatividad conjunta de las pendientes del modelo.
       d)   La hipótesis nula de H 0 : 1   2  3 , frente a la H1 : 1   2  3 .

Utilizar, en todos los casos, un nivel de significación del 5%.

Ejercicio numérico (tomado del examen del 24 de septiembre de 1999):
En un estudio sobre las ventas de tabaco en Estados Unidos, se ha
especificado el siguiente modelo:

                      ln Vt  1   2 ln Pt  3 ln GCt   4 ln GPt   t




                                                                                            12
donde V son las ventas (en millones de cigarrillos) de las principales
empresas tabacaleras, P es el precio (en dólares de 1958) unitario de los
cigarrillos, GC son los gastos (en miles de dólares de 1958) en
publicidad en cine, televisión y radio y GP son los gastos (en miles de
dólares de 1958) en publicidad en prensa escrita y vallas publicitarias.
Algunos resultados de la estimación MCO del modelo anterior, usando
datos anuales desde 1930 hasta 1978 (ambos inclusive), son:

                    2.50                1.47 0.30 0.028 0.05 
                    0.30                    0.068 0.004 0.003 
                 
                ˆ           ; var(  )  
                                 ˆ ˆ                               
                    0.04                           0.002 0.003
                                                                
                    1.45                                  0.011 


a) Interprete económicamente la estimación  2 .ˆ
b) Contraste la H 0 : 3   4 frente a la H1 : 3   4 a un 5% de
   significación. Interprete el resultado del contraste.
c) Algunos piensan que una posible medida para controlar las ventas de
   tabaco consiste en limitar el volumen de publicidad. Sin embargo,
   otros creen que esta medida no sería eficaz, ya que, según ellos, la
   publicidad no afecta a las ventas de tabaco. ¿Cómo contrastaría esta
   última afirmación? Realice el contraste oportuno e interprete el
   resultado del mismo.

Solución:

                                      ˆ
a) La interpretación económica de  2 es la elasticidad estimada de las
   ventas de cigarrillos con respecto al precio de los mismos. Es decir:

                                       ln Vt Vt / Vt
                               2                     eV  P
                                       ln Pt Pt / Pt

                    ˆ
Por tanto, ya que 2  0.30 , un incremento de un 1% en el precio del
cigarrillo hará disminuir las ventas en un 0.30%, dejando fijos el resto
de factores que afectan a las ventas.

b) Podemos usar como estadístico de contraste:

         ˆ    ˆ
       3   4                    ˆ
                                  3   4ˆ                            0.04  1.45
t                                                                                          10.23
                ˆ
           ˆ  )
     dt ( 3
      ˆ                ˆ ˆ         ˆ ˆ            ˆ ˆ ˆ         0.002  0.011  2  (0.003)
                 4   var( 3 )  var(  4 )  2 cov( 3  4 )




                                                                                          13
Para los grados de libertad del modelo n  k  49  4  45 , el valor crítico
de la t que deja al lado izquierdo el 97.5% de probabilidad, es igual a
t0.025 2 . Por tanto, t  2 y se rechaza la H 0 :  3   4 al 5% de
significación.

La interpretación del resultado de este contraste es que las elasticidades
de las ventas con respecto a gastos en publicidad de distinto tipo no son
estadísticamente iguales. Es decir, la eficacia de la publicidad en cine,
televisión y radio es distinta a la eficacia que tiene el gasto en
publicidad en prensa y vallas publicitarias. En esta muestra, es más
eficaz gastar en prensa y vallas publicitarias dado que el valor estimado
de esta elasticidad es de 1.45 frente al valor de la otra elasticidad (0.04).

c) Habría que contrastar la siguiente hipótesis nula conjunta:
   H 0 : 3  0,  4  0 frente a la H1 : 3  0,  4  0 , ya que éstos son los dos
   parámetros asociados a gastos en publicidad.

Si se rechaza la nula, la publicidad (de cualquier tipo) afecta a las ventas
de tabaco, mientras que si no se rechaza, podemos decir que gastar en
publicidad no es una medida eficaz para incrementar las ventas de
cigarrillos. El estadístico de contraste ha de ser la F de Snedecor ya que
la hipótesis nula contiene 2 restricciones sobre los parámetros. La
hipótesis nula escrita en la forma matricial A  c es:

                                             1 
                                             
                           0 0 1 0         2        0 
                         A         ;      ; c  0 
                           0 0 0 1           3         
                                             
                                             4 
                                             

y el estadístico de contraste, usando la expresión en función del vector
            ˆ
distancia A  c , es:

                                          1
                  ˆ ˆ    ˆ ˆ ˆ                 ˆ
                                                3 
            ˆ var( 3 ) cov( 3  4 ) 
                                                                                1
                                                                  0.002 0.003 0.04 
     
       ˆ
      3   4  
                                                 0.04 1.45 
                                                                                    
                  .
                          ˆ ˆ 
                         var(  4 )             ˆ
                                                4 
                                                              .      0.011  1.45 
F
                       m                                              2

y operando F  175.79 . El valor crítico de una F0.5 para los grados de
libertad (m, n  k )  (2, 45) es, mirando las Tablas, aproximadamente igual
a 3.23. Por tanto, F  F0.5 y se rechaza la nula al 5%. Es decir, parece que
la publicidad sí afecta estadísticamente a las ventas y es eficaz.


                                                                                     14
                    Mínimos Cuadrados Restringidos

Una vez que no ha sido rechazada por los datos una H 0 : A  c , sería
interesante volver a estimar el modelo Y  X    incorporando esas
restricciones en los parámetros. La razón de hacer esto es que mejorará
la eficiencia de los estimadores, al introducir nueva información en el
modelo no rechazada por los datos. Estimar por MCO el modelo
Y  X    incorporando la hipótesis nula en el mismo, es estimar por
Mínimos Cuadrados Restringidos (MCR). Una manera alternativa de
estimar por MCR es resolver el siguiente problema de optimización:

                              min (Y  X  )T (Y  X  )
                              s.a A  c

Para resolver este problema, necesitamos definir un multiplicador de
Lagrange por cada restricción bajo la nula. Como tenemos m
restricciones, se define un vector de multiplicadores denotado por  T de
tamaño (1 m) tal que T  1 2 ...m  . Formando el lagrangiano:

                      L  (Y  X  )T (Y  X  )  2 T ( A  c)

donde se ha hecho un cambio de escala al vector  T multiplicándolo por
2, sin que ello altere la solución.

Condiciones de primer orden:

                         L
                             2 X T X   2 X T Y  2 AT   0
                         

                                L
                                    2( A  c)  0
                                

donde se ha usado que el término  T A   T AT  , al ser un escalar y el
                                                         z T y
resultado sobre derivadas vectoriales de que                     y , donde z e y son
                                                          z
dos vectores. Resolviendo ese sistema para  y  , se obtiene la
expresión de un nuevo estimador de  , el mínimo cuadrático
                               ˆ
restringido (que denotamos por MCR ) y el vector de multiplicadores de
                   ˆ
Lagrange óptimo (  ):

             ˆ      ˆ                                              ˆ
             MCR  MCO  ( X T X )1 AT [ A( X T X )1 AT ]1 ( AMCO  c)


                                                                                  15
                           ˆ                            ˆ
                             [ A( X T X )1 AT ]1 ( AMCO  c)

La interpretación de esta nueva fórmula es el que el estimador por MCR
es el MCO (o no restringido) menos un término que se llama término de
corrección. El tamaño de esa corrección depende de la distancia del
                                                         ˆ
estimador MCO al cumplimiento de la nula (es decir, AMCO  c ). Pueden
ocurrir dos cosas:

               ˆ
      1) Si AMCO  c , es decir, si el estimador por MCO ya satisface las
         restricciones bajo la nula (hecho poco habitual), el estimador
          ˆ      ˆ
         MCR  MCO . En este caso, los datos no rechazan esa hipótesis a
         cualquier nivel de significación y no tiene sentido volver a
         estimar por MCR.
               ˆ
      2) Si AMCO  c , es decir, si el estimador por MCO no cumple una
         a una las restricciones bajo la nula (hecho habitual aunque la
         hipótesis no sea rechazada por los datos), entonces el
         estimador por MCR difiere del MCO.

Es evidente que el estimador por MCR siempre debe satisfacer las
                                                             ˆ
restricciones bajo la nula. Es decir, siempre se cumple que AMCR  c .

Ejercicio propuesto para el estudiante: Probar que siempre se cumple
       ˆ
que AMCR  c usando la expresión de estimador MCR.

Propiedades estadísticas del estimador por MCR:

a) Es insesgado, sólo si las restricciones bajo las cuales se ha obtenido
                                                      ˆ
   son ciertas. Es decir, si A  c , se cumple que E(MCR )   . Basta con
   tomar esperanzas en la expresión del estimador MCR, sabiendo que
   el MCO es insesgado y que la nula es cierta, para probar esta
   propiedad. Si se incorpora al modelo una hipótesis nula falsa, el
   estimador por MCR tendrá sesgo.
b) La matriz de varianzas y covarianzas del estimador por MCR es
   siempre inferior (o igual) a la del estimador MCO, tanto si se
   introducen restricciones ciertas como falsas en el modelo. De hecho,
   la relación entre ambas matrices de varianzas-covarianzas cuando la
   hipótesis nula es cierta es (Veáse el apéndice 3 para la prueba):

           ˆ            ˆ
       var(MCR )  var(MCO )   2 ( X T X )1 AT [ A( X T X )1 AT ]1 A( X T X )1



                                                                                          16
donde la matriz al lado derecho de la igualdad es definida negativa por
construcción.

Este resultado implica que al introducir una hipótesis cierta en el
modelo, el estimador MCR es más eficiente. Si se introduce una
hipótesis nula falsa, el estimador MCR tiene sesgo, aunque una matriz
de varianzas-covarianzas inferior a la del criterio MCO. No obstante,
esto no implica que en este caso sea más eficiente estimar por MCR.

Ejercicio propuesto para el estudiante: Comprobar que la relación entre
las matrices de varianzas-covarianzas del estimador por MCR y por
MCO es la misma que la dada arriba, cuando la hipótesis nula es falsa.

Predicción en el MLG

Uno de los objetivos básicos de un estudio econométrico es la
predicción. Supongamos que hemos estimado el MLG, con datos de
series temporales, escrito como:

                                    yt  xtT    t


donde xtT   xt1 xt 2 ...xtk  y  es un vector columna que contiene todos
los parámetros. Queremos utilizar este modelo estimado para predecir
los valores futuros que tomará la variable yt , condicionado a que
conocemos el valor futuro de las variables explicativas (hecho poco
habitual en la práctica). Como el modelo anterior representa la relación
lineal existente entre las variables x y la y , es lógico que usemos dicho
modelo para predecir el futuro de la y , salvo que esta relación sea
inestable en el tiempo.

Predicción puntual para y N 1

Suponiendo que tenemos una muestra de tamaño N , es decir,
t  1, 2,..., N , la mejor relación entre las variables en el período N  1,
será:

                                 y N 1  xT 1   N 1
                                           N



donde xT 1   xN 1,1 xN 1,2 ...xN 1,k  , es decir, contiene los valores futuros
         N                                
de las variables explicativas en el período N  1 y  N 1 es la perturbación
del modelo en ese período, que seguimos asumiendo que tiene


                                                                                  17
esperanza nula, varianza constante e igual a  2 , ausencia de
autocorrelación con las demás pertubaciones y una distribución normal.

La predicción óptima de la variable y , usando datos hasta el instante N ,
a horizonte un período hacia adelante, es la esperanza condicionada a
ese conjunto de información. Es decir:

            y N 1  EN [ yN 1 ]  EN [ xN 1   N 1 ]  EN [ xN 1 ]  EN [ N 1 ]
            ˆ                             T                        T




Por tanto, para calcular esta predicción puntual es necesario:

                                                   ˆ
1) Calcular el término EN [ xT 1 ]  EN [ xT 1 ] , donde ˆ es el estimador
                                    N          N

   MCO de  obtenido con N observaciones.
2) Predecir el valor futuro de las exógenas, el valor de xN 1 . Si las
   variables explicativas son variables de control (por una empresa o
   por un banco central, por ejemplo), se puede considerar conocido el
   valor futuro de las mismas. Por ejemplo, es posible predecir el
   volumen de ventas de una empresa asumiendo un determinado gasto
   futuro en publicidad. En caso contrario, habría que predecir el valor
   de las exógenas, para después predecir el de la endógena. En temas
   más avanzados (Econometría II) se verá cómo predecir el valor
   futuro de una variable utilizando como información su propia
   historia pasada.
3) Calcular el término EN [ N 1 ] . Puesto que el error del modelo no tiene
   autocorrelación, el término  N 1 es independiente de lo que haya
   pasado hasta el instante N y su historia pasada no ayuda a predecir
   el futuro. Por tanto, lo mejor que se puede decir de la EN [ N 1 ] es que
   es igual a la E[ N 1 ]  0 , por hipótesis.

Por tanto, la predicción puntual de la endógena del modelo a horizonte
un período y considerando conocido el valor futuro de las exógenas es:

                                                       ˆ
                                          yN 1  xT 1
                                          ˆ        N



Predicción por intervalo para y N 1

En la práctica habitual, es más interesante proporcionar un intervalo de
valores en el que, con una determinada probabilidad, caerá el valor
futuro de la variable endógena. Dado el modelo teórico en el período
 N  1:



                                                                                            18
                                         y N 1  xT 1   N 1
                                                   N



y la predicción puntual que acabamos de obtener, se puede definir el
error de predicción un período hacia delante con información hasta el
instante N como:

                                                            ˆ
                          N (1)  yN 1  yN 1   xT 1 (   )   N 1
                         ˆ                 ˆ          N



que tiene esperanza nula y una varianza igual a:

                                                     ˆ                            ˆ
    var[ N (1)]  E[ N (1) N (1)T ]  E[( xT 1 (   )   N 1 )( N 1  (   )T xN 1)]
        ˆ            ˆ      ˆ                                             T
                                               N



donde la esperanza de los dos términos cruzados es nula (Ejercicio
propuesto para el estudiante) y la esperanza de los términos al cuadrado
dependen de la varianza del error  N 1 y de la matriz de varianzas del
estimador MCO de  . Es decir:

                           var[ N (1)]   2  xT 1 2 ( X T X ) 1 xN 1
                               ˆ                 N



La distribución del error de predicción es una normal, ya que se puede
escribir como una combinación lineal de ˆ y de  N 1 , que siguen
también distribuciones normales. Luego:

                       y N 1  y N 1
                                ˆ         N [0,  2  xT 1 2 ( X T X ) 1 xN 1 ]
                                                       N



y estandarizando:

                                         yN 1  yN 1
                                                 ˆ
                                                                    N (0,1)
                               xT 1 ( X T X )1 xN 1  1
                                 N



Este ratio ya sabemos que no es útil porque depende del valor
desconocido de  . No obstante, bajo la hipótesis de normalidad de las
perturbaciones, sabemos que:

                                              2
                                              ˆ           nk
                                                           2


                                              2      nk

y combinando la normal estándar con esta  2 , tenemos una distribución
t de Student que ya servirá para encontrar el intervalo de confianza de
y N 1 :



                                                                                                     19
                                        yN 1  yN 1
                                                ˆ
                                                                     tn  k
                               xT 1 ( X T X )1 xN 1  1
                               ˆ N

donde el intervalo de valores que con una confianza del 1   % tomará
el dato futuro y N 1 es:

                   yN 1  t / 2 dt [ N (1)]  y N 1  y N 1  t / 2 dt [ N (1)]
                   ˆ               ˆ ˆ                    ˆ                ˆ ˆ


siendo t / 2 el valor crítico de la distribución t que deja en ambas colas
de la distribución el  / 2% de probabilidad y por simplicidad, se denota
por dtˆ[ˆ´ N (1)] a la desviación típica estimada del error de predicción a
horizonte un período, es decir, dtˆ[´N (1)]   xT 1 ( X T X )1 xN 1  1 . Como se
                                    ˆ           ˆ N
observa, la predicción por intervalo está centrada siempre en la
predicción puntual y el tamaño del intervalo depende, entre otras cosas,
de la desviación típica estimada del error de previsión. Cuanto mayor es
ésta, más ancho es el intervalo y a la inversa.

Predicción puntual y por intervalo para E ( yN 1 )

A veces, se quiere dar una previsión del valor esperado de y N 1 , en lugar
de predecir y N 1 . Lógicamente, predecir la E ( yN 1 ) tendrá una menor
incertidumbre asociada, ya que no contiene la perturbación aleatoria del
modelo que es imprevisible. Dado el modelo en el período futuro N  1:

                                       y N 1  xT 1   N 1
                                                 N



la variable a predecir ahora es la E ( yN 1 )  xT 1 , ya que por hipótesis la
                                                  N

perturbación aleatoria en ese período tiene esperanza nula. La expresión
de la predicción puntual para esta variable es trivial:

                                        ˆ                 ˆ
                                        E( yN 1 )  xT 1
                                                      N



          ˆ
donde E( yN 1 ) representa la predicción de la E ( yN 1 ) a horizonte un
período y se asumen conocidos los valores de las variables exógenas en
N  1. Por tanto, no hay diferencias en la predicción puntual del valor de
                                      ˆ
y N 1 y de la E ( yN 1 ) , es decir E( yN 1 )  yN 1 . La diferencia estará en la
                                                   ˆ
predicción por intervalo, en concreto, en el tamaño de ese intervalo. El
error de previsión en este caso será:

                                             ˆ                     ˆ
                       N (1)  E( yN 1 )  E( yN 1 )   xT 1 (   )
                      ˆ                                      N




                                                                                         20
que también tiene esperanza nula y una varianza igual a
var[ N (1)]  xT 1 2 ( X T X ) 1 xN 1 (Ejercicio propuesto para el estudiante).
     ˆ          N

Usando la distribución normal que sigue este error de previsión y la  2
que sigue la varianza de las perturbaciones, encontramos la expresión
del intervalo de confianza para la E ( yN 1 ) :

                 y N 1  t / 2 dt [ N (1)]  E ( y N 1 )  y N 1  t / 2 dt [ N (1)]
                 ˆ                ˆ ˆ                          ˆ                ˆ ˆ


donde la dtˆ[´N (1)]   xT 1 ( X T X )1 xN 1 . Como ya se adelantaba, la
               ˆ         ˆ N
desviación típica estimada del error de previsión es más pequeña que la
correspondiente a la predicción del dato real y N 1 .

Práctica con datos reales

Para estudiar los determinantes del peso al nacer de un grupo de bebés
se dispone de una sección cruzada de 1387 recién nacidos, con
información para cada uno de ellos sobre su peso al nacer en gramos
(PESO), los ingresos anuales de sus padres en miles de euros (INGR), el
número medio de cigarrillos diarios consumidos por su madre durante el
embarazo (CIGM), si es niño (SEXO=1) o niña (SEXO=0) y si es blanco
(RAZA=1) o negro (RAZA=0). Los datos se pueden encontrar en la
página web de la asignatura, en un workfile llamado reciennacidos.wf1.
Se pide, usando Eviews:

a) Usando sólo las variables de INGR y CIGM, estimar el modelo que
   relaciona el PESO de los bebés con estas variables. Interpretar el
   significado de las estimaciones MCO de los parámetros.
b) ¿Es razonable el valor obtenido del R 2 en el modelo estimado?
c) Contrastar la significación individual de los parámetros al 1% y al
   5% y la significación global de las pendientes del modelo al 5%.
d) Calcule el PESO esperado de un bebé (en Kilos) si su madre fuma
   durante el embarazo una cajetilla al día (20 cigarrillos) y los ingresos
   anuales de los padres son de 30 mil euros. Calcule un intervalo de
   confianza para este PESO a un 5% de significación (Ejercicio
   propuesto para el estudiante).
e) Suponga que ahora se añade un nuevo regresor al modelo estimado
   en el apartado a), que es el SEXO. ¿Cómo se interpreta el parámetro
   asociado a esta nueva variable? Estime por MCO este nuevo modelo
   e interprete la estimación numérica del parámetro asociado a SEXO.
f) ¿Es diferente el peso de un niño del de una niña, para el mismo nivel
   de ingresos de los padres y los mismo cigarrillos fumados por la
   madre?

                                                                                              21
Ejercicios propuestos para el estudiante:

g) Usando los datos del workfile y Eviews, añada al modelo estimado
   en el apartado e) la variable de RAZA. Esta variable toma valor 1 si el
   niño es blanco y 0 si es negro. ¿Cómo se interpreta el parámetro
   asociado a esta nueva variable? Estime por MCO este nuevo modelo
   e interprete la estimación numérica del parámetro asociado a RAZA?
h) Contraste la hipótesis de que el peso de dos recién nacidos (con los
   mismos valores para las variables INGR y CIGM) no difiere ni por
   razones de sexo ni por razones de raza. Utilizar un nivel de
   significación del 5%.
i) Calcular el peso esperado al nacer de una niña blanca, cuya madre no
   fume durante el embarazo y cuyos padres tengan unos ingresos
   anuales de 60 mil euros.

Solución a los apartados a-f)

a) La estimación por MCO del modelo propuesto con término
   constante,    PESOi   0  1 INGRi   2CIGM i   i , proporciona los
   siguientes resultados:

      Dependent Variable: PESO
      Method: Least Squares
      Date: 11/23/05 Time: 10:50
      Sample: 1 1387
      Included observations: 1387
      Variable             Coefficient Std. Error   t-Statistic   Prob.
      C                    3316.128 29.14154        113.7938      0.0000
      INGR                 2.518626 0.810991        3.105615      0.0019
      CIGM                 -13.01832 2.544119       -5.117025     0.0000
      R-squared            0.029860    Mean dependent var         3362.020
      Adjusted R-squared   0.028458    S.D. dependent var         565.4636
      S.E. of regression   557.3596    Akaike info criterion      15.48646
      Sum squared resid    4.30E+08    Schwarz criterion          15.49778
      Log likelihood       -10736.86   F-statistic                21.29883
      Durbin-Watson stat   1.948432    Prob(F-statistic)          0.000000


La interpretación de los parámetros estimados es la siguiente:

ˆ
0  3316.13 indica que el peso, en media, de un bebé cuya madre no
fuma durante el embarazo y cuyos padres carecen de ingresos, es de
3.316 Kilos.




                                                                             22
       PESOi                   ˆ
1              Por tanto, si 1  2.52 , indica que por término medio, cada
       INGRi
1000 euros adicionales de ingresos anuales de los padres supone un
incremento de 2.52 gramos en el peso del bebé.

       PESOi                  ˆ
2              Por tanto, si 2  13.02 , indica que por término medio, un
       CIGM i
cigarrillo más al día consumido durante el embarazo reduce el peso del
bebé en 13.02 gramos.

b) El valor del R 2 es muy bajo. De hecho, aproximadamente el 3% de
   la variabilidad del peso de un recién nacido viene explicada por los
   ingresos de los padres y por los cigarrillos fumados por la madre en
   el embarazo. No obstante, esto no significa que el ajuste sea malo,
   sino simplemente que existen otros muchos factores relevantes para
   el explicar el peso del bebé que no se han incluido (condiciones
   físicas de los padres, alimentación de la madre, enfermedades de los
   progenitores, zona donde el bebé nace, sexo y raza del niño, edad de
   la madre, etc).

c) El valor del estadístico (o ratio) t para contrastar la significatividad
   individual de cada variable es calculado siempre por Eviews. Como
   ejemplo, para contrastar la significatividad individual de INGR, el
   valor del estadístico de contraste es:
                                         1ˆ
                                  t              3.10
                                        ˆ ˆ
                                       dt ( 1 )

A la derecha del valor del estadístico de contraste, Eviews calcula el p-
value del contraste. En este ejemplo:

                       prob[ t1384  3.10/ H0 es cierta]=0.0019

que es inferior a un nivel de significación del 1% y del 5%. Es decir, la
 p  0.01 y p  0.05 . Por tanto, se rechaza la nula a favor de la alternativa.
La variable INGR es individualmente significativa tanto al 1 como al
5%. Con respecto a los otros dos contrastes de significación individual,
el p-value del contraste es cero, por lo que los datos rechazan
contundentemente (a cualquier nivel de significación) la nula a favor de
la alternativa. Es decir, tanto los ingresos de los padres como el número
de cigarrillos diarios fumados por la madre influyen en el peso del
recién nacido.



                                                                            23
Con respecto a la significación global de las pendientes del modelo ( 1
y  2 ), la tabla estándar de estimación de un modelo con Eviews,
proporciona tanto el valor del estadístico de contraste (F-statistic=21.30)
como el p-value del contraste. En este caso, se observa que la
 prob[ F(2,1387)  21.30 / H 0 es cierta]=0.0000 , inferior a cualquier nivel de
significación prefijado. Por tanto, tanto INGR como CIGM son variables
conjuntamente significativas para explicar el PESO.

d) El modelo estimado para el PESO de un bebé, se puede escribir
                  ˆ    ˆ        ˆ
   como: PESOi  0  1INGR  2CIGMi   i y el peso esperado de un
                                         ˆ
   bebé con esas características será:

            PESOi  3316.13  2.52  30 13.02  20  3131.3 gramos

teniendo en cuenta que INGR se mide en miles de euros, CIGM en
número de cigarrillos al día y PESO en gramos. El peso del bebé en
Kilos es de 3.1313.

e) El modelo que incluye SEXO es:

                PESOi   0  1 INGRi   2CIGM i  3 SEXOi   i

donde SEXOi es una variable ficticia que toma valor 1 si es niño y 0 si es
niña. La interpretación del parámetro  3 es diferente a la de un
parámetro asociado a una variable continua. En este caso, de la ecuación
anterior, podemos escribir dos modelos: el del peso esperado de un niño
y el de una niña:

Niño:
              E ( PESOi / SEXOi  1)   0  1INGRi   2CIGM i  3
Niña:
                E ( PESOi / SEXOi  0)   0  1INGRi   2CIGM i

Por tanto,  3 es la diferencia esperada en el peso de un niño con
respecto al de una niña, para los mismos valores de INGR y CIGM. Si
esta diferencia es positiva indica que se espera que un niño pese más
que una niña y a la inversa. Los resultados de la estimación del modelo
que incorpora SEXO, usando Eviews son los siguientes:




                                                                             24
      Dependent Variable: PESO
      Method: Least Squares
      Date: 11/24/05 Time: 12:50
      Sample: 1 1387
      Included observations: 1387
      Variable             Coefficient Std. Error   t-Statistic   Prob.
      C                    3263.088    33.53925     97.29162      0.0000
      INGR                 2.642354    0.809311     3.264943      0.0011
      CIGM                 -12.94525   2.535986     -5.104622     0.0000
      SEXO                 94.57164    29.89647     3.163304      0.0016
      R-squared            0.036829      Mean dependent var       3362.020
      Adjusted R-squared   0.034739      S.D. dependent var       565.4636
      S.E. of regression   555.5549      Akaike info criterion    15.48069
      Sum squared resid    4.27E+08      Schwarz criterion        15.49579
      Log likelihood       -10731.86     F-statistic              17.62712
      Durbin-Watson stat   1.955276      Prob(F-statistic)        0.000000


La estimación del parámetro asociado a SEXO indica que un niño pesa
en media 94.57 gramos más que una niña, para los mismos ingresos y
número de cigarrillos fumados por la madre.

f) Esta diferencia en el peso es significativa tanto al 1% como al 5%, ya
que la H 0 : 3  0 se rechaza a favor de la H1 : 3  0 (el p-value del
contraste es igual a 0.0016).




                                                                             25
                                      Apéndices

Apéndice 1.Resultados sobre distribuciones de formas cuadráticas
                                                     T Q
Resultado 1: La distribución de la forma cuadrática                           q , si se
                                                                               2

                                                      2
cumple que:

1)  N (0,  2 I ) y  es un vector columna de tamaño n
2) Q es una matriz idempotente de tamaño n y la tr (Q)  q .

Resultado 2: Sea una forma cuadrática  T Q y una función lineal de  ,
R donde se cumple que:

1)  N (0,  2 I ) y  es un vector columna de tamaño n
2) Q es una matriz idempotente de tamaño n y la tr (Q)  q
3) R es una matriz fija de tamaño m  n

Ambas formas se distribuyen de forma independiente si y sólo si
RQ  0 .

Resultado 3: Dos formas cuadráticas como  T Q y  T R donde:

1)  N (0,  2 I ) y  es un vector columna de tamaño n
2) Q y R son dos matrices idempotentes con la tr (Q)  q y la tr ( R)  r ,

se distribuyen de forma independiente si y sólo si RQ  0 .

Resultado 4: La forma cuadrática  T  1 se distribuye como una  n2
sabiendo que:

1)      N (0, ) y  es un vector columna de tamaño n .

Apéndice 2. Prueba de que el numerador del test F en función del
vector distancia se puede escribir en función de sumas residuales

El vector de residuos resultantes de la estimación del modelo por MCR,
se puede escribir como:

                     ˆ            ˆ        ˆ        ˆ
        MCR  Y  X MCR  Y  X MCO  X MCR  X MCO   MCO  X (MCR  MCO )
       ˆ                                                   ˆ          ˆ      ˆ


y su traspuesto:


                                                                                      26
                                            ˆ      ˆ
                            MCR   MCO  (MCR  MCO )T X T
                           ˆT      ˆT

La suma de cuadrados de residuos por MCR se puede escribir como una
función de la suma de cuadrados de residuos por MCO:

                                        ˆ      ˆ              ˆ      ˆ
              MCR MCR   MCO MCO  (MCR  MCO )T X T X (MCR  MCO )
             ˆT ˆ         ˆT ˆ

donde se ha usado la propiedad de ortogonalidad entre la matriz X y el
vector de residuos MCO. La distancia entre el estimador MCR de  y el
MCO, sabemos que es igual a:

             ˆ      ˆ                                               ˆ
             MCR  MCO  ( X T X )1 AT [ A( X T X )1 AT ]1 ( AMCO  c)

y usando esto en la expresión anterior, se obtiene que:

                                      ˆ                                   ˆ
          MCR MCR   MCO MCO  ( AMCO  c)T [ A( X T X )1 AT ]1 ( AMCO  c)
         ˆT ˆ         ˆT ˆ

Como se observa, la diferencia entre la suma de cuadrados de residuos
del modelo restringido ( SRR  ˆMCRˆMCR ) y la suma de cuadrados del
                                 T


modelo libre estimado por MCO ( SRL  ˆMCOˆMCO ) coincide exactamente
                                            T


con el numerador del estadístico F y además, se cumplirá siempre que:

                                   MCR MCR   MCO MCO
                                  ˆT ˆ         ˆT ˆ


Apéndice 3. Expresión de la matriz de varianzas-covarianzas del
estimador por MCR.

La expresión de la matriz de varianzas-covarianzas del estimador por
MCR, suponiendo que la hipótesis nula es cierta, es decir, si A  c , se
calcula como:

                            ˆ           ˆ          ˆ
                        var(MCR )  E[(MCR   )(MCR   )T ]

ya que sabemos que es un estimador insesgado. De acuerdo con la
expresión del estimador por MCR, se tiene que:

                       ˆ          ˆ               ˆ
                       MCR    MCO    N ( AMCO  A )

donde la matriz N  ( X T X )1 AT [ A( X T X )1 AT ]1 y se trabaja bajo la
hipótesis nula, es decir, c  A . Utilizando la expresión anterior:

                                                                                      27
       ˆ             ˆ                 ˆ              ˆ                ˆ                   
  var(  MCR )  E [(  MCO   )  NA(  MCO   )][(  MCO   )T  (  MCO   )T AT N T ]


y tomando la esperanza del producto de los cuatro términos en la
expresión anterior, se tiene:

       ˆ            ˆ               ˆ            ˆ                      ˆ
   var(MCR )  var(MCO )  NA var(MCO )  var(MCO ) AT N T  NA var(MCO ) AT N T

                                        ˆ           ˆ
donde se puede demostrar que NA var(MCO )  NA var(MCO ) AT N T (Ejercicio
propuesto para el estudiante). Por tanto:

                            ˆ            ˆ            ˆ
                        var(MCR )  var(MCO )  var(MCO ) AT N T

                                                          ˆ
y sustituyendo en la expresión anterior que var(MCO )   2 ( X T X )1 y que
N  ( X T X ) 1 AT [ A( X T X ) 1 AT ]1 , tenemos que:

            ˆ            ˆ
        var(MCR )  var(MCO )   2 ( X T X )1 AT [ A( X T X )1 AT ]1 A( X T X )1




                                                                                                28

				
DOCUMENT INFO
Shared By:
Categories:
Tags:
Stats:
views:13
posted:1/4/2012
language:
pages:28