ESTUDIO ESTADÍSTICO SOBRE DOS ESTIMADORES DE LA VARIANZA POBLACIONAL Jesús by rockman19

VIEWS: 0 PAGES: 11

									ESTUDIO ESTADÍSTICO SOBRE DOS
 ESTIMADORES DE LA VARIANZA
        POBLACIONAL




               Jesús Ángel Miguel Álvarez

               Dpto. Métodos Estadísticos

               Fac. Ciencias Económicas

               Universidad de Zaragoza
Trabajo voluntario de Estadística II



INTRODUCCIÓN

        Este trabajo pretende estudiar el comportamiento de dos estimadores de la
varianza poblacional de una distribución normal. Para ello se analizarán las propiedades
de insesgadez, consistencia y eficiencia desde el punto de vista empírico y corroborando
los resultados teóricos.

        En primer lugar, haremos uso del método de Monte Carlo para simular muestras
aleatorias simples de distribuciones normales y construiremos ambos estimadores. A
partir de ellos estudiaremos sus principales características para compararlos y
representaremos las densidades de frecuencia para mostrar la validez del Teorema de
Fisher. Un segundo objetivo será ilustrar empíricamente los intervalos de confianza,
haciendo hincapié en el concepto de nivel de confianza.

        El trabajo consta de tres partes: en la primera se realizará el análisis de las
propiedades de los dos estimadores, seleccionando el más adecuado para las otras
secciones del trabajo. En la segunda, se utilizará dicho estimador para ilustrar el
concepto de intervalo de confianza. Finalmente, se presentarán las conclusiones más
relevantes del trabajo.



1.- COMPARACIÓN                 DE     DOS   ESTIMADORES         DE     LA    VARIANZA
     POBLACIONAL

        Como se ha dicho en la introducción, supondremos que la población estudiada
tiene una distribución normal cuyos parámetros son desconocidos. Para facilitar las
simulaciones y el tratamiento de las muestras, dado que la media de la distribución no
afecta, supondremos que la media es cero. Los dos estimadores que comparamos son la
varianza muestral y la cuasivarianza muestral porque conocemos sus propiedades
teóricas que podemos comparar con los resultados empíricos que obtendremos en esta
sección. En resumen, sea X la variable poblacional cuya distribución es normal de
media cero y desviación típica σ; y denotamos por (X1,X2,…,Xn) una muestra aleatoria
simple de tamaño n. Los estimadores a estudiar son:


                             ∑ (X i − X )                     ∑ (X i − X )
                           1 n           2                 1 n            2
                    S2 =                          S1 =
                                                   2

                           n i =1                        n − 1 i =1




                                              2
Trabajo voluntario de Estadística II


        Mediante el uso del método de Monte Carlo, simularemos diferentes muestras
aleatorias del mismo tamaño n para aproximar las características del estimador. El
número M de muestras que utilizaremos es 1000 y 5000. Los tamaños muestrales para
estudiar su influencia serán 20, 50 y 100. El programa que se utiliza para estas
simulaciones es Microsoft Excel, aunque no es el más adecuado resulta de fácil manejo
y aprendizaje. Dado que la varianza poblacional es el parámetro desconocido
utilizaremos diferentes valores para comprobar su incidencia en el estimador. En
concreto, la hoja de cálculo se puede construir en función de ese valor desconocido. Los
resultados obtenidos empíricamente se mostrarán para diferentes valores de la varianza
poblacional.

        Por otro lado, utilizando el Teorema de Fisher conocemos la distribución de la
varianza muestral y de la cuasivarianza muestral en el muestreo de poblaciones
normales:

                                       nS 2 (n − 1)S1
                                                    2
                                           =          ~ χ 2 −1
                                                          n
                                       σ 2
                                               σ 2



        Esto nos permitirá conocer las características teóricas y su comparación con las
observadas empíricamente.

        En las Tablas 1.1, 2.1 y 3.1 se presentan las principales características de la
varianza muestral cuando los valores para la varianza poblacional son 1, 0,5 y 5,
respectivamente. En primer lugar, podemos comprobar en dichas tablas que los
resultados empíricos observados coinciden con los valores esperados teóricamente. Esta
similitud es más clara cuando el número de muestras es elevado (M=5000), como era
lógico. Por otro lado, dado que el objetivo era estimar la varianza poblacional se puede
afirmar que el tamaño de la muestra influye en la precisión del estimador, siendo ésta
mayor cuando el tamaño muestral aumenta. Por ejemplo, en la Tabla 3.1, si n=20 la
varianza muestral nos daría estimaciones alrededor de 4,75 cuando la varianza
poblacional es 5. En cambio cuando n=100, la varianza muestral nos daría estimaciones
alrededor de 4,95. En este mismo sentido, podemos observar que si n=20 entonces el
50% de las estimaciones están entre 3,64 y 5,679 mientras que si n=100 entonces dichas
estimaciones se concentran entre 4,459 y 5,405. Finalmente, la asimetría y curtosis de la
distribución de la varianza muestral disminuyen cuando el tamaño muestral aumenta,
pasando de valores de 0,649 y 0,632 cuando n=20 a 0,284 y 0,121 cuando n=100. Todo
esto nos afirma que la varianza muestral es un estimador sesgado pero consistente, es


                                                 3
Trabajo voluntario de Estadística II


decir, el valor medio de las estimaciones no coincide con el valor del parámetro pero
dichas estimaciones se distribuyen más cerca del valor objetivo cuando el tamaño
muestral aumenta.

En las Tablas 1.2, 2.2 y 3.2 se presentan las principales características de la
cuasivarianza muestral cuando los valores para la varianza poblacional son 1, 0,5 y 5,
respectivamente. En principio, podemos comprobar en dichas tablas que los resultados
empíricos observados coinciden con los valores esperados teóricamente. Igual que en el
caso del otro estimador, la aproximación a los valores teóricos es más clara cuando el
número de muestras aumenta. Por ejemplo, en la Tabla 2.2, la cuasivarianza muestral
nos daría estimaciones alrededor de 1 cuando la varianza poblacional es 1,
independientemente del tamaño muestral. En este mismo sentido, podemos observar
que si n=20 entonces el 50% de las estimaciones están entre 0,766 y 1,196 mientras que
si n=100 entonces dichas estimaciones se concentran entre 0,901 y 1,092. Finalmente, la
asimetría y curtosis de la distribución de la varianza muestral disminuyen cuando el
tamaño muestral aumenta, pasando de valores de 0,649 y 0,632 cuando n=20 a 0,284 y
0,121 cuando n=100. Todo esto nos afirma que la varianza muestral es un estimador
insesgado y consistente, es decir, el valor medio de las estimaciones coincide con el
valor del parámetro y éstas se distribuyen más cerca del valor objetivo cuando el tamaño
muestral aumenta.

        Los Gráficos 1, 2 y 3 representan la densidad de frecuencia de ambos
estimadores. Los colores indican el tamaño muestral, la línea continua corresponde a la
cuasivarianza muestral mientras que la línea discontinua representa la varianza
muestral. En todos ellos, observamos que la densidad de la varianza muestral está
desplazada ligeramente a la izquierda, signo evidente de la infraestimación que realiza
dicho estimador, es decir, queda claramente detectado el sesgo de la varianza muestral.
Por el contrario, la cuasivarianza muestral está centrada sobre el valor objetivo.
Además, se manifiesta que cuando el tamaño muestral es mayor entonces las posibles
estimaciones están más cerca del valor real, es decir, ambos estimadores van a ser
consistentes porque podemos reducir el error de estimación mediante el uso de mayor
información muestral.




                                           4
Trabajo voluntario de Estadística II



      TABLA 1.1 ESTUDIO DE LAS CARACTERÍSTICAS DE LA VARIANZA MUESTRAL

    σ2=1                   Teórico              Nº de muestras = 1000       Nº de muestras = 5000

Tamaño           n=20       n=50 n=100          n=20     n=50 n=100         n=20          n=50 n=100

Media            0,95       0,98         0,99   0,960   0,988 0,994         0,948     0,979 0,990

Varianza        0,095 0,039 0,020               0,095   0,039 0,020         0,095     0,040 0,020

1º Cuartil      0,728 0,840 0,892               0,742   0,854 0,899         0,727     0,841 0,890

3º Cuartil      1,136 1,105 1,081               1,151   1,114 1,086         1,132     1,104 1,082

Asimetría       0,649 0,404 0,284               0,611   0,275 0,196         0,660     0,447 0,276

Curtosis        0,632 0,245 0,121               0,551    -0,02 -0,004       0,674     0,373 0,093


   TABLA 1.2 ESTUDIO DE LAS CARACTERÍSTICAS DE LA CUASIVARIANZA MUESTRAL

    σ2=1                   Teórico              Nº de muestras = 1000       Nº de muestras = 5000

Tamaño           n=20       n=50 n=100          n=20     n=50 n=100         n=20          n=50 n=100

Media           1,000 1,000 1,000               0,997   0,997 0,995         0,998     0,999 1,000

Varianza        0,105 0,041 0,020               0,107   0,042 0,020         0,105     0,042 0,021

1º Cuartil      0,766 0,857 0,901               0,758   0,860 0,894         0,766     0,858 0,899

3º Cuartil      1,196 1,128 1,092               1,203   1,125 1,093         1,192     1,126 1,093

Asimetría       0,649 0,404 0,284               0,524   0,311 0,191         0,660     0,447 0,276

Curtosis        0,632 0,245 0,121               0,243   0,003 -0,189        0,674     0,373 0,093

        GRÁFICO 1. DENSIDAD DE FRECUENCIA DE LOS ESTIMADORES (M=5000)
                  3




                 2,5
                                                                    n=20
                  2                                                 n=50

                 1,5
                                                                    n=100

                  1




                 0,5




                  0
                       0           0,5          1         1,5           2           2,5




                                                    5
Trabajo voluntario de Estadística II


      TABLA 2.1 ESTUDIO DE LAS CARACTERÍSTICAS DE LA VARIANZA MUESTRAL

  σ2=0,50                    Teórico        Nº de muestras = 1000         Nº de muestras = 5000

Tamaño                n=20    n=50 n=100         n=20   n=50 n=100        n=20     n=50 n=100

Media                 0,475 0,490 0,495      0,481      0,495 0,496       0,477   0,492 0,495

Varianza              0,024 0,010 0,005      0,024      0,010 0,005       0,024   0,010 0,005

1º Cuartil            0,364 0,420 0,446      0,374      0,425 0,449       0,368   0,423 0,446

3º Cuartil            0,568 0,553 0,540      0,573      0,561 0,541       0,571   0,556 0,540

Asimetría             0,649 0,404 0,284      0,745      0,457 0,258       0,679   0,375 0,262

Curtosis              0,632 0,245 0,121      0,699      0,233 0,086       0,690   0,131 0,050


   TABLA 2.2 ESTUDIO DE LAS CARACTERÍSTICAS DE LA CUASIVARIANZA MUESTRAL

  σ2=0,50                    Teórico        Nº de muestras = 1000         Nº de muestras = 5000

Tamaño                n=20    n=50 n=100         n=20   n=50 n=100        n=20     n=50 n=100

Media                 0,500 0,500 0,500      0,506      0,505 0,501       0,502   0,502 0,500

Varianza              0,026 0,010 0,005      0,026      0,010 0,005       0,026   0,010 0,005

1º Cuartil            0,383 0,429 0,450      0,394      0,434 0,453       0,387   0,431 0,450

3º Cuartil            0,598 0,564 0,546      0,603      0,573 0,546       0,601   0,568 0,546

Asimetría             0,649 0,404 0,284      0,745      0,457 0,258       0,679   0,375 0,262

Curtosis              0,632 0,245 0,121      0,699      0,233 0,086       0,690   0,227 0,094

        GRÁFICO 2. DENSIDAD DE FRECUENCIA DE LOS ESTIMADORES (M=5000)
              6




              5
                                                                      n=20
              4                                                       n=50

              3
                                                                      n=100

              2




              1




              0
                  0                        0,5                        1




                                                    6
Trabajo voluntario de Estadística II



      TABLA 3.1 ESTUDIO DE LAS CARACTERÍSTICAS DE LA VARIANZA MUESTRAL

    σ2=5                   Teórico       Nº de muestras = 1000         Nº de muestras = 5000

Tamaño              n=20    n=50 n=100       n=20   n=50 n=100         n=20     n=50 n=100

Media               4,750 4,900 4,950    4,796      4,885 4,921        4,777   4,898 4,942

Varianza            2,375 0,980 0,495    2,398      0,964 0,523        2,412   0,942 0,479

1º Cuartil          3,640 4,201 4,459    3,693      4,204 4,418        3,675   4,220 4,473

3º Cuartil          5,679 5,527 5,405    5,774      5,479 5,392        5,721   5,493 5,385

Asimetría           0,649 0,404 0,284    0,670      0,644 0,450        0,641   0,470 0,277

Curtosis            0,632 0,245 0,121    1,123      1,833 0,804        0,557   0,672 0,246

   TABLA 3.2 ESTUDIO DE LAS CARACTERÍSTICAS DE LA CUASIVARIANZA MUESTRAL

    σ2=5                   Teórico       Nº de muestras = 1000         Nº de muestras = 5000

Tamaño              n=20    n=50 n=100       n=20   n=50 n=100         n=20     n=50 n=100

Media               5,000 5,000 5,000    5,048      4,985 4,971        5,028   4,998 4,992

Varianza            2,632 1,020 0,505    2,657      1,003 0,534        2,673   0,981 0,489

1º Cuartil          3,832 4,287 4,504    3,887      4,289 4,463        3,868   4,306 4,518

3º Cuartil          5,978 5,639 5,459    6,078      5,590 5,446        6,022   5,605 5,440

Asimetría           0,649 0,404 0,284    0,670      0,644 0,450        0,641   0,470 0,277

Curtosis            0,632 0,245 0,121    1,123      1,833 0,804        0,557   0,672 0,246

        GRÁFICO 3. DENSIDAD DE FRECUENCIA DE LOS ESTIMADORES (M=5000)
              0,6




              0,5
                                                             n=20
              0,4

                                                             n=50
              0,3



                                                             n=100
              0,2




              0,1




               0
                    0          2,5       5            7,5         10            12,5




                                                7
Trabajo voluntario de Estadística II


       TABLA 4. ESTUDIO DEL ERROR CUADRÁTICO MEDIO DE LOS ESTIMADORES

                         Teórico           Nº de muestras = 1000   Nº de muestras = 5000

 σ2              n=20     n=50 n=100       n=20     n=50 n=100      n=20    n=50 n=100

  1       S2    0,100 0,040 0,020          0,097   0,039 0,020     0,098   0,040 0,020
          2
         S1     0,105 0,041 0,020          0,107   0,042 0,020     0,105   0,042 0,021

 0,5      S2    0,025 0,010 0,005          0,024   0,010 0,005     0,025   0,010 0,005
          2
         S1     0,026 0,010 0,005          0,026   0,010 0,005     0,026   0,010 0,005

  5       S2    2,500 1,000 0,500          2,440   0,977 0,529     2,462   0,952 0,482
          2
         S1     2,632 1,020 0,505          2,657   1,003 0,534     2,673   0,981 0,489



        Por lo tanto, el estimador cuasivarianza muestral parece más adecuado que la
varianza muestral porque es insesgado. En la Tabla 4 se resume el error cuadrático
medio de ambos estimadores, éste se obtienen como la suma del cuadrado del sesgo más
la varianza del estimador. Se puede observar que la varianza muestral tiene en todos los
casos un error cuadrático medio menor. Se observa que ambos errores son
prácticamente iguales cuando el tamaño muestral es elevado (n=100). Los valores
teóricos son los siguientes:

                                   2σ 4                     2σ 4
                           ECM S =( )
                                    n
                                       2
                                                         ( )
                                                    ECM S =2
                                                           1
                                                            n −1

por lo tanto, observamos que es más precisa la varianza muestral.

        Por último, debemos seleccionar uno de ambos estimadores para las otras
secciones del trabajo. Aunque la varianza muestral tiene un error cuadrático medio
menor, es cierto que este estimador es sesgado y de hecho el intervalo intercuartílico
está desplazado asimétricamente respecto del valor objeto de la estimación. Por lo que,
en la mayoría de las veces tenderíamos a infravalorar el valor real de la varianza
poblacional. Esta justificación nos lleva a decidir que el estimador que usaremos para la
varianza poblacional es la CUASIVARIANZA MUESTRAL.




                                               8
Trabajo voluntario de Estadística II


2.- INTERVALOS DE CONFIANZA PARA LA VARIANZA POBLACIONAL

          En esta sección se pretende ilustrar el concepto de intervalo de confianza, en este
caso el correspondiente a la varianza poblacional de una normal univariante. La idea es
construir intervalos de confianza y comprobar la frecuencia de cubrimiento de éstos
para compararla con el nivel de confianza fijado a priori. El intervalo de confianza para
un nivel (1-2α)100% se construye de la siguiente forma:

                                           (n − 1)S1 (n − 1)S1
                                                     2            2
                                                                      
                                                      , 2            
                                           χ2           χ n −1;α     
                                           n −1;1−α                  
donde los percentiles de la distribución ji-cuadrado se presenta en la tabla 5 para los tres
niveles de confianza analizados: 80, 90 y 95%.

                  TABLA 5. PERCENTILES DE LA DISTRIBUCIÓN JI-CUADRADO.

                                                 Nivel de confianza

                         80%                               90%                             95%

                 n=20    n=50     n=100       n=20         n=50       n=100       n=20     n=50     n=100

  χ 2 −1;1−α
    n           11,65    36,82    81,45       10,12        33,93      77,05       8,91     31,55    73,36

   χ 2 −1;α
     n          27,20    62,04 117,41         30,14        66,34 123,23           32,85    70,22 128,42



               TABLA 6. TASAS DE COBERTURA DE LOS INTERVALOS DE CONFIANZA.

                                                   Nivel de confianza

                          80%                               90%                             95%

 σ2      M        n=20    n=50     n=100        n=20        n=50          n=100    n=20     n=50     n=100

 1     1000 0,809         0,808    0,802        0,901       0,909         0,909    0,939    0,951    0,947

       5000 0,812         0,800    0,806        0,902       0,903         0,903    0,949    0,953    0,951

0,5 1000 0,776            0,833    0,791        0,885       0,912         0,898    0,946    0,956    0,954

       5000 0,792         0,808    0,803        0,894       0,902         0,903    0,945    0,950    0,953

 5     1000 0,819         0,772    0,811        0,898       0,881         0,902    0,955    0,937    0,953

       5000 0,805         0,795    0,793        0,901       0,894         0,894    0,952    0,947    0,948


                                                       9
Trabajo voluntario de Estadística II


          Para cada muestra aleatoria simple extraída de la población normal se construirá
el correspondiente intervalo de confianza. Por lo tanto, tendremos 1000 y 5000
intervalos de confianza que nos permitirán calcular la proporción de éstos que cubren el
valor de la varianza poblacional. En la Tabla 6 se presentan las tasas de cobertura
obtenidas. En principio, podemos observar que dichas tasas son próximas al nivel de
confianza teórico, aún más cuando el número de muestras es elevado (M=5000).
Además, dicha aproximación entre las tasas de cobertura empírica y teórica es más
visible cuando el tamaño muestral es mayor porque el estimador es más preciso.

          En el Gráfico 4 se presentan 10 intervalos de confianza extraídos cuando el
muestreo se realiza sobre una población normal de varianza 5. Éste valor está
representado por la línea roja. Se puede observar que los intervalos de confianza tienen
los extremos aleatorios por encima y por debajo de dicho valor. En concreto, hay 8
intervalos de confianza que cubren el valor teórico de 5 y existen 2 intervalos de
confianza que no cubren dicho valor, uno por exceso y otro por defecto. La ilustración
del concepto de intervalo de confianza a un nivel fijado a priori es clara: El (1-2α)100%
de los intervalos contienen en su interior al parámetro que queremos estimar. El
investigador sólo calcula uno de esos intervalos de confianza aleatorios, como existe
una probabilidad muy alta que dichos intervalos cubran el valor deseado entonces se
tiene confianza de seleccionar uno de ellos. Sin embargo, cuando el investigador calcula
su intervalo de confianza no conoce con exactitud si éste contiene o no el valor del
parámetro. Además, este cubrimiento será determinístico, es decir, lo cubre o no (no
tiene sentido hablar de probabilidad sólo podemos nombrar el concepto de confianza).

      GRÁFICO 4. INTERVALOS DE CONFIANZA PARA LA VARIANZA CONDICIONAL.
    14
    13
    12
    11
    10
      9
      8
      7
      6
      5
      4
      3
      2
          0     1        2       3     4   5        6    7      8     9      10     11




                                               10
Trabajo voluntario de Estadística II



3.- CONCLUSIONES
        Este trabajo ha estudiado el comportamiento de dos estimadores de la varianza
poblacional de una normal. Los estimadores utilizados son la varianza muestral y la
cuasivarianza muestral. Para ello, se ha utilizado el método de Monte Carlo con el
objetivo de corroborar empíricamente la teoría existente.
        Los resultados conseguidos avalan las explicaciones ya conocidas. Ambos
estimadores son consistentes, por lo que, podemos mejorar nuestras estimaciones
cuando disponemos de mayor información muestral. Se ha evidenciado que la varianza
muestral es un estimador sesgado mientras que la cuasivarianza muestral es insesgado,
por lo tanto, el uso de la varianza muestral nos lleva a una infravaloración sobre la
variabilidad o dispersión de la variable analizada. En cuanto a la eficiencia relativa, la
varianza muestral es más eficiente que la cuasivarianza muestral. Por otro lado, las
densidades de frecuencia corresponden a distribuciones ji-cuadrado, cuestión avalada
teóricamente por el Teorema de Fisher.
        En la sección anterior, se ha comprobado empíricamente el funcionamiento de
los intervalos de confianza lo que ha permitido ilustrar el concepto de nivel de
confianza. Como era lógico, las tasas de cobertura empíricas se aproximan a las reales,
aún más cuando el tamaño muestral es mayor.
        Finalmente, podemos afirmar que cuanta mayor información tengamos, es decir,
mayor tamaño muestral mejor se comportan los estimadores y para estudiar
empíricamente éstos se necesita un número mayor de muestras. Así por ejemplo,
cuando M=5000 los resultados obtenidos son prácticamente los teóricos demostrados en
clase, mientras que para M=1000 existe mayor incertidumbre.




                                           11

								
To top