ANÁLISIS DE LA VARIANZA CON DOS FACTORES REALIZADO POR ARACELI by rockman19

VIEWS: 10,428 PAGES: 22

									  ANÁLISIS DE LA
        VARIANZA
CON DOS FACTORES:



            REALIZADO POR:

ARACELI RUIZ GUILLAMÓN 4º AGRÓNOMO
                                   1. INTRODUCCIÓN


      El análisis de la varianza (o Anova: Analysis of variance) es un método
para comparar dos o más medias, que es necesario porque cuando se quiere
comparar más de dos medias. Este tipo de análisis utiliza una sola variable
numérica mediada en los elementos de la muestra para probar la hipótesis nula
de medias poblacionales. Esta variable puede ser de intervalo o de escala de
razón y algunas veces recibe el nombre de variable dependiente.
      Es incorrecto utilizar repetidamente el contraste basado en la t de
Student. por dos motivos:
      En primer lugar, y como se realizarían simultánea e independientemente
varios contrastes de hipótesis, la probabilidad de encontrar alguno significativo
por azar aumentaría. En cada contraste se rechaza la “H0” si la “t” supera el
nivel crítico, para lo que, en la hipótesis nula, hay una probabilidad “α”. Si se
realizan contrastes independientes, la probabilidad de que en la hipótesis nula
                                                              m
ningún estadístico supere el valor crítico es “(1 - α)            , por lo tanto, la
                                                         m
probabilidad de que alguno lo supere es “1 - (1 - α)         , para valores de “α”
próximos a “0” es aproximadamente igual a “αm”. Una primera solución,
denominada método de Bonferroni, consiste en bajar el valor de “α”, usando en
su lugar “α/m”, aunque resulta un método muy conservador.
      Por otro lado, en cada comparación la hipótesis nula es que las dos
muestras provienen de la misma población, por lo tanto, cuando se hayan
realizado todas las comparaciones, la hipótesis nula es que todas las muestras
provienen de la misma población y, sin embargo, para cada comparación, la
estimación de la varianza necesaria para el contraste es distinta, pues se ha
hecho en base a muestras distintas.
      El método que resuelve ambos problemas es el Anova, aunque es algo
más que esto: es un método que permite comparar varias medias en diversas
situaciones; muy ligado, por tanto, al diseño de experimentos y, de alguna
manera, es la base del análisis multivariante.
      La hipótesis nula y alternativa en Anova son:
       Ho : σ 1 = σ 2 = σ 3 = ... = σC
       H 1 : No todas las poblaciones tienen la misma media.
       En la prueba ANOVA, se reúne evidencia muestral de cada población
bajo estudio y se usan estos datos para calcular un estadístico muestral.
Después se consulta la distribución muestral apropiada para determinar si el
estadístico muestral contradice la suposición de que la hipótesis nula es cierta.
Si es así, se rechaza; de lo contrario no se rechaza.
       Hemos de recordar que en la prueba de varianza con dos poblaciones
se calcula el coeficiente de las varianzas muestrales y se verifica con arreglo a
la distribución “F”. Este procedimiento también se usa en ANOVA para probar
la hipótesis nula.
       Se supone que todas las poblaciones bajo estudio tienen la misma
varianza, sin importar si sus medias son iguales. Es decir, ya sea que las
poblaciones tengan medias iguales o distintas, la variabilidad de los elementos
alrededor de su respectiva media es la misma. Si esta suposición es válida,
entonces se puede probar la hipótesis nula de las medias poblacionales iguales
usando la distribución “F”.


2. BASES DEL ANÁLISIS DE LA VARIANZA (Suposiciones del modelo).
       Supónganse “k” muestras aleatorias independientes, de tamaño “n”,
extraídas de una única población normal. A partir de ellas existen dos maneras
independientes de estimar la varianza de la población “σ2”.


       1) Método dentro: para estimar la varianza de las poblaciones produce
          una estimación válida, sea o no cierta la hipótesis nula.
       2) Método entre: produce una estimación válida sólo si la hipótesis nula
          es cierta.


       El paso final en ANOVA requiere el cálculo de un cociente con la
estimación del método entre en el numerador y la estimación del método dentro
en el denominador. Si la hipótesis nula de que las poblaciones tienen la misma
media es cierta, esta razón consiste en dos estimaciones separadas de la
misma varianza poblacional y, se puede obtener la distribución “F” si las
medias poblacionales no son iguales. La estimación en el numerador estará
inflada, y el resultado será un cociente muy grande. Al consultar la distribución
“F” no es probable que un cociente tan grande haya sido obtenido de esta
distribución, y la hipótesis nula será rechazada. La prueba de hipótesis en
ANOVA es de una cola: un estadístico “F” grande llevará al rechazo de la
hipótesis nula y un valor pequeño hará que no se rechace.


      1) Varianza dentro de los grupos o varianza de error, o cuadrados
medios del error (sólo contribuye a ella la varianza dentro de las muestras) y
habitualmente representada por MSE (Mean Square Error) o MSW (Mean
Square Within) que se calcula como la media de las “k” varianzas muestrales
(cada varianza muestral es un estimador centrado de “σ2” y la media de “k”
estimadores centrados es también un estimador centrado y más eficiente que
todos ellos). MSE es un cociente: al numerador se le llama suma de cuadrados
del error y se representa por SSE y al denominador grados de libertad por ser
los términos independientes de la suma de cuadrados.
      El método dentro que produce una estimación válida sin importar la
hipótesis nula de las medias poblacionales iguales es cierta se debe a que la
variabilidad de los factores de la muestra se determina comparando cada
elemento en los datos con la media muestral. Cada valor de la muestra
obtenido de la población A se compara con la media muestral A; cada elemento
obtenido de la población B se compara con la media muestral B, y así
sucesivamente. La ecuación para calcular la estimación de la varianza con el
método dentro es:


      - SSE =   ∑ ± σ (x        − xj)
                       2            2
                           ij



      - K (n − 1)
      - MS = SSE K (n − 1)
      Donde:
                    o MS: Estimación de la varianza muestral con el método
                       dentro.
                    o Xij: i-ésimo elemento de los datos de grupo j.
                    o Xj: media del grupo j.
                    o K: número de grupos.
                    o N= número de elementos de la muestra en cada grupo.
      El doble signo de suma en la ecuación, significa que primero deben
sumarse los valores indicados por el signo de la derecha, y después sumar los
valores indicados por el de la izquierda. Primero, se encuentran las diferencias
entre cada valor x y la media del grupo, se elevan al cuadrado y se suman.
Después, se agregan estas sumas para cada grupo. El resultado es la suma
del cuadrado de las desviaciones entre cada medida de la muestra y la media
de su grupo. Este valor con frecuencia se llama la suma de cuadrados dentro
(SSE). Esta suma se divide después entre el número adecuado de grados de
libertad para poder producir una estimación de la varianza desconocida de la
población.
      El número adecuado de grados de libertad para el método dentro se
calcula como “K(n-1)” si el número de observaciones en cada grupo es igual.
Como a cada elemento del grupo se le resta la media de ese grupo, sólo “(n-1)”
elementos de cada grupo pueden variar. Además como se tienen “K” grupos,
“K” se multiplica por “(n-1)” para así obtener los grados de libertad para el
método dentro.


Ejemplo:


      Se obtienen muestras del peso del llenado de cuatro paquetes de
espinacas congeladas, a partir de tres contenedores. La pregunta es si los
pesos promedio de los paquetes son iguales o diferentes entre los tres
contenedores. Seguidamente se ofrecen los pesos de la muestra, medias de
grupos, media global y estimación de la varianza con el método dentro usando
la ecuación correspondiente.


      Pesos de las muestras:
                                                 12,2 + 13,7 + 11,5 + 10,3
      GRUPO 1: 12,4; 13,7; 11,5; 10,3 Media=                               = 12,00
                                                             4
      GRUPO 2: 11,9; 9,3; 12,1; 10,6    Media= 11,00
      GRUPO 3: 10,3; 12,4; 11,9; 10,2    Media= 11,2


      Media Global 11,4
      Para calcular el SSE:


       SSE =   ∑ ± σ (x        − x1 ) = (12,4 - 12)2 + (13,7 - 12)2 + (11,5 - 12)2 + (10,3 -
                      2            2
                          i


      12)2 = 6,19


       SSE =   ∑ ± σ (x        − x2 ) = (11,9 - 11)2 + (9,3 - 11)2 + (12,1 - 11)2 + (10,6 -
                      2            2
                          i


      11)2 = 5,07


       SSE = ∑ ± σ 2 ( xi − x3 ) = (10,3 - 11,2)2 + (12,4 - 11,2)2 + (11,9 - 11,2)2 +
                                       2




      (10,2 - 11,2)2 = 3,74


       SSE =   ∑ ± σ (x        − x J ) = 2 6,19 + 5,07 + 3,74 = 15
                      2                2
                          IJ


                SSE
       MS =             = 15/9 =1,67
              k (n − 1)
      k(n-1) = 3 (4 - 1) = 9


      Cada valor x en la muestra se compara con la media de su propio
Grupo. Estas diferencias se elevan al cuadrado y se suman. Los resultados se
suman y se dividen entre los grados de libertad. El resultado, 1’67, es una
estimación de la varianza común de las tres poblaciones. Con frecuencia el
término MS se denomina error cuadrático medio (MSE).


      2) Varianza entre grupos o varianza de los tratamientos, o cuadrados
medios de los tratamientos (sólo contribuye a ella la varianza entre las distintas
muestras) y representada por MSA o MSB (Mean Square Between). Se calcula
a partir de la varianza de las medias muestrales y es también un cociente; al
numerador se le llama suma de cuadrados de los tratamientos (se le
representa por SSA) y al denominador “(k-1)” grados de libertad. Produce una
estimación válida sólo si la hipótesis nula es cierta. Para entender el método
entre se compara con el teorema del límite central. Este teorema establece
que la distribución de las medias muestrales tiende a una distribución normal
conforme crece el tamaño de la muestra.
      MSA y MSE, estiman la varianza poblacional en la hipótesis de que las
“k” muestras provengan de la misma población. La distribución muestral del
cociente de dos estimaciones independientes de la varianza de una población
normal es una “F” con los grados de libertad correspondientes al numerador y
denominador respectivamente, por lo tanto se puede contrastar dicha hipótesis
usando esa distribución.
      Si en base a este contraste se rechaza la hipótesis de que MSE y MSA
estimen la misma varianza, se puede rechazar la hipótesis de que las “k”
medias provengan de una misma población.
      Aceptando que las muestras provengan de poblaciones con la misma
varianza, este rechazo implica que las medias poblacionales son distintas, de
modo que con un único contraste se contrasta la igualdad de “k” medias.
Existe una tercera manera de estimar la varianza de la población, aunque no es
independiente de las anteriores. Si se consideran las “kn” observaciones como
una única muestra, su varianza muestral también es un estimador centrado de
σ2:
Se suele representar por MST, se le denomina varianza total o cuadrados
medios totales, es también un cociente y al numerador se le llama suma de
cuadrados total y se representa por SST, y el denominador “(kn -1)” grados de
libertad. La ecuación para calcular la estimación de la varianza con el método
dentro es:

                    ∑ (x                    )
                                            2
          SST   =             j       − x

                 ∑ (x       − x)
                                  2

       MST =
                        j

                    kn − 1
      kn- 1 (grados de libertad)
      j
      Donde:
      •         MST = Estimación de la varianza de la distribución muestral de
medias.
      •         Xj = Media del grupo j.
      •         X = Media Global (media de todos los valores) usada como
estimación de σ.
      •         K = número de grupos.
       •           n = tamaño de la muestra o número de elementos en cada grupo.
       •           J = nº de la columna.


Ejemplo:


      Se obtienen muestras del peso del llenado de cuatro paquetes de
espinacas congeladas, a partir de tres contenedores. La pregunta es si los
pesos promedio de los paquetes son iguales o diferentes entre los tres
contenedores. Seguidamente se ofrecen los pesos de la muestra, medias de
grupos, media global y estimación de la varianza con el método dentro usando
la ecuación correspondiente.


      Pesos de las muestras:
                                                                12,2 + 13,7 + 11,5 + 10,3
      GRUPO 1: 12,4; 13,7; 11,5; 10,3 Media=                                              = 12,00
                                                                            4
      GRUPO 2: 11,9; 9,3; 12,1; 10,6                   Media= 11,00
      GRUPO 3: 10,3; 12,4; 11,9; 10,2                   Media= 11,2


      Media Global 11,4



           ∑ (x                     ) = 12,0 - 11,4)2 + (11,0 - 11,4)2 + (11,2 -11,4) = 0,56
                                     2
SST   =               j       − x

J = 0,56 x 4 (número de elementos) = 2, 24
k- 1= 3 (grupos) – 1 = 2


      ∑ (x         − x)
                          2
                                    2´24
MST =                                    = 1,12
               j
                               =
             kn − 1                   2


       La estimación de la varianza poblacional, calculada con el método entre
es 1,12.


      Los resultados de un Anova se suelen representar en una tabla como la
siguiente:
 Fuente de variación            G.L.           SC               MS           Coeficiente F
                                                          (Estimación
                                                              de σ2)

    Entre grupos                k-1           SSA           SSA/(k-1)             MSA/MSE
    Tratamientos                            nσ(xij-x)2

     Dentro Error              (n-1)k         SSE          SSE/k(n-1)
                                           Σσ(xij-xj)2

           Total                kn-1          SST
                                            Σσ(xij-x)2


      Donde:
                       • j = Número de la columna
                       • i = Número de la fila
                       • K = Número de columnas (grupos)
                       • n = Número de elementos en cada grupo (tamaño de la
                          muestra)


      Y el cociente “F” se usa para realizar el contraste de la hipótesis de
medias iguales..
      La región crítica para dicho contraste es F > F σ(k-1,(n-1)k)
      Es fácil ver en la tabla anterior que:
       GLerror + GLtrata = (n − 1)k + k − 1 = nk − k + k − 1 = nk − 1 = GLtotal
      No es tan inmediato, pero las sumas de cuadrados cumplen la misma
propiedad, llamada identidad o propiedad aditiva de la suma de cuadrados:
      SST = SSA + SSE
      El análisis de la varianza se puede realizar con tamaños muestrales
iguales o distintos, sin embargo es recomendable iguales tamaños por dos
motivos:
      La F es insensible a pequeñas variaciones en la asunción de igual
varianza y si el tamaño es igual.
      Para estimar la varianza desconocida de las poblaciones, se forma un
cociente con estas dos estimaciones MST/σ2 de los dos métodos.
       Si la hipótesis nula es cierta, tanto el numerador como el denominador
de la ecuación son estimaciones válidas de la varianza común de las
poblaciones que se estudian. Este cociente se ajusta a la distribución “F”, Si la
hipótesis nula es falsa y el numerador de la ecuación en realidad es una
estimación inflada de σ2; y el denominador sigue siendo una estimación válida.
Bajo estas condiciones, el valor “F” será muy grande, y se puede concluir que
la hipótesis nula es falsa. La figura que mostramos a continuación presenta la
distribución muestral para la prueba ANOVA junto con las regiones de
aceptación y rechazo.




3. MODELOS DE ANÁLISIS DE LA VARIANZA.


       El Anova permite distinguir dos modelos para la hipótesis alternativa:
       Modelo I o de efectos fijos en el que la “H1” supone que las “k” muestras
son muestras de “k” poblaciones distintas y fijas.
       Modelo II o de efectos aleatorios en el que se supone que las “k”
muestras, se han seleccionado aleatoriamente de un conjunto de “m>k”
poblaciones.
       Un ejemplo de modelo I de Anova es que se asume que existen cinco
terrenos o poblaciones (sin fertilizante, con abonado, básicas, ácidas, etc.) fijas,
de donde se han extraído las muestras.
       Un ejemplo de modelo II sería: un agricultor está interesado en
determinar el contenido, y sus variaciones, de calcio en los suelos de cultivo;
toma 5 muestras al azar y realiza, a cada una, 3 análisis.
       La manera más sencilla de distinguir entre ambos modelos es pensar
que, si se repitiera el estudio un tiempo después, en un modelo I las muestras
serían iguales (no los individuos que las forman) es decir corresponderían a la
misma situación, mientras que en un modelo II las muestras serían distintas.
       Aunque las asunciones iniciales y los propósitos de ambos modelos son
diferentes, los cálculos y las pruebas de significación son los mismos y sólo
difieren en la interpretación y en algunas pruebas de hipótesis suplementarias.
       Análisis de la varianza de dos factores es un diseño de Anova que
permite estudiar simultáneamente los efectos de dos fuentes de variación.
En cualquier caso, el agricultor puede estar interesado en estudiar si hay, o no,
contenido en exceso de sodio. En un Anova de dos vías se clasifica a los
individuos de acuerdo a dos factores (o vías) para estudiar simultáneamente
sus efectos. En este ejemplo se harían cinco grupos de tratamiento para el
contenido en calcio y otros cinco para el contenido en sodio, en total diez
grupos; en general, si el primer factor tiene “a” niveles y el segundo tiene “b”, se
tendrán “ab” muestras o unidades experimentales, cada una con “n” individuos
o repeticiones.
       Una observación individual se representa como:
       El primer subíndice indica el nivel del primer factor, el segundo el nivel
del segundo factor y el tercero la observación dentro de la muestra. Los
factores pueden ser ambos de efectos fijos (se habla entonces de modelo I), de
efectos aleatorios (modelo II) o uno de efectos fijos y el otro de efectos
aleatorios (modelo mixto). El modelo matemático de este análisis es:


       Y ijk = μ + αi + βj + (α β)ij + εijk modelo I
       Y ijk = μ + Ai + Bj + (AB)ij + εijk modelo II
       Y ijk = μ + αi + Bj + (α B)ij + εijk modelo mixto


       Donde “μ” es la media global, “αi” o “Ai” el efecto del nivel “i” del 11
factor, βj o Bj el efecto del nivel “j” del 2º factor y εijk las desviaciones aleatorias
alrededor de las medias, que también se asume que están normalmente
distribuidas,   son independientes y tienen media “0” y varianza                                              σ2.
A las condiciones de muestreo aleatorio, normalidad e independencia, este
modelo añade la de aditividad de los efectos de los factores.
       A los términos (αβ)ij, (AB)ij, (αB)ij, se les denomina interacción entre
ambos factores y representan el hecho de que el efecto de un determinado
nivel de un factor sea diferente para cada nivel del otro factor.
       Si en un determinado estudio se encuentra interacción entre dos
factores, no tiene sentido estimar los efectos de los factores por separado. A la
interacción positiva, es decir, cuando el efecto de los factores actuando juntos
es mayor que la suma de efectos actuando por separado, en Biología se le
denomina sinergia o potenciación y a la interacción negativa inhibición.


4. CONTRASTES DE HIPÓTESIS EN UN ANÁLISIS DE LA VARIANZA DE
   DOS FACTORES.


       Del mismo modo que se hizo en el Anova de una vía, para plantear los
contrastes de hipótesis habrá que calcular los valores esperados de los
distintos cuadrados medios. Los resultados son:


       Modelo I

          MS                         Valor esperado

                                                                       a
                                                       nb
          MSA                         σ       2
                                                  +
                                                      a − 1
                                                                    ∑I =1
                                                                               α    I
                                                                                     2




                                                                 a
                                                       na
          MSB                         σ       2
                                                  +
                                                      b −1
                                                               ∑I =1
                                                                           β   I
                                                                                2




                                                                                                          2
          MSAB                       σ    2
                                              +
                                                          n
                                                                            ∑
                                                                             a
                                                                                 ∑
                                                                                  b
                                                                                         (α       β       )
                                                                                              I       I
                                                  ( a − 1 )( b − 1 )       I =1 I =1



          MSE                                               σ   2
      Por lo tanto, los estadísticos MSAB/MSE, MSA/MSE y MSB/MSE se
distribuyen como una “F” con los grados de libertad correspondientes y
permiten contrastar, respectivamente, las hipótesis:
            • No existe interacción (MSAB/MSE)

       Ho : (αβ )ij = o; i = 1,..., aj = 1,...,b
            • No existe efecto del primer factor, es decir, diferencias entre
              niveles del primer factor (MSA/MSE)

       Ho : μ = ... = μ
                 1            a


            • No existe efecto del segundo factor (MSB/MSE)

       Ho : μ = ... = μ
                  1           b


      Si se rechaza la primera hipótesis de no interacción, no tiene sentido
contrastar las siguientes. En este caso lo que está indicado es realizar un
análisis de una vía entre las “ab” combinaciones de tratamientos para encontrar
la mejor combinación de los mismos.


5. CONDICIONES POST HOC O A POSTERIORI: BONFERRONI, SCHEFFE,
   TUKEY, DUNCAN, DUNNET, DIFERENCIA MÍNIMA SIGNIFICATIVA
   (LSD).
      Si alguno de los estadísticos “F” correspondientes a los efectos
principales resulta significativo, puede interesar efectuar comparaciones post
hoc. Anova, nos permite únicamente contrastar la hipótesis general de que los
promedios comparados son iguales. Al rechazar esa hipótesis, sabemos que
existen diferencias, pero no sabemos dónde se encuentran.
      Para saber qué media en concreto difiere de otra, debemos utilizar un
tipo particular de contrastes denominados comparaciones post hoc o
comparaciones a posteriori. Estas comparaciones permiten controlar la tasa de
error al efectuar varias comparaciones utilizando las mismas medias, es decir,
permiten controlar la probabilidad de cometer errores tipo I al tomar decisiones
(los errores tipo I se cometen cuando se decide rechazar una hipótesis nula
que en realidad no debería rechazarse).
MÉTODO BONFERRONI
      Método basado en la distribución “t” de Student y en la desigualdad de
Bonferroni (también conocido como método de Dunn – su promotor en 1961 –
o de DunnBonferroni). Controla la tasa de error dividiendo el nivel de
significación (α) entre el número de comparaciones (k) llevadas a cabo. Cada
comparación se evalúa utilizando un nivel de significación αc= α/k
      Calcula simplemente una nueva pareja alfa para guardar el valor de la
alfa en 0.05 (u otro valor específico). La fórmula para hacer esto es:
                                              α FWE
                                       αB =
                                                c
      Donde la nueva “αB” basada en la prueba de Bonferroni se debe utilizar
para evaluar cada prueba de la comparación o de la significación, el “αFWE” es
el tipo de error según lo computado en la fórmula, y “c” es el número de las
comparaciones (pruebas estadísticas).


      El Método Bonferroni, es probablemente la prueba de post hoc de mayor
uso general, porque es altamente flexible, muy simple de utilizar, y puede ser
utilizado con cualquier tipo de prueba estadística (e.g., correlaciones) - no sólo
pruebas de post hoc con ANOVA.          El Bonferroni tradicional, sin embargo,
tiende a carecer de energía. La pérdida de energía ocurre por varias razones:
       (1) El cálculo del error que depende de asumir todas las pruebas, la
hipótesis nula es verdad.        Este caso es poco probable que se de,
especialmente después de una prueba significativa.
      (2) Todas las pruebas se asumen para ser ortogonales (es decir,
independientes o sin solape); cuando calculamos la prueba del error, y no es
un caso general, es cuando las comparaciones se hacen todas en parejas.
      (3) La prueba no considera si los resultados son constantes en teoría y
más allá de la investigación. Si es constante en los resultados y con la teoría,
un resultado individual debe ser menos probable para el tipo error I.
      (4) El error de tipo II es demasiado alto para las pruebas individuales.


MÉTODO SCHEFFE
      Este método, basado en la distribución F, permite controlar la tasa de
error para el conjunto total de comparaciones que es posible diseñar con J
medias (una con otra, una con todas las demás, dos con dos, etc.). Utilizando
para efectuar sólo comparaciones por pares, es un procedimiento muy
conservador: tiende a considerar significativas menos diferencias de las que
debería.
       Comparar grupos del ANOVA más grandes (es decir, una corrección
para una “t-prueba” estándar). La fórmula modifica simplemente el valor “F-
crítico” porque considera el número de los grupos que son comparados: “(a -
1)” “F-critico”. El nuevo valor crítico representa el valor crítico para el tipo de
error máximo posible. Se puede suponer que también da lugar a un tipo más
alto que el deseado al error de Tipo II, imponiendo una corrección severa.
“Tiene menos potencia al igual que Tukey”


MÉTODO TUKEY
       “Es un método simple y dispone de límites de confianza”
       También conocido como HSD de Tukey para la diferencia honestamente
significativa de Tukey. Equivale a utilizar el método de Student-Newman-Keuls
con r=J= nº de medias. Por tanto, todas las comparaciones son referidas a una
misma diferencia mínima
       La prueba de Tukey calcula un nuevo valor crítico que se puede utilizar
para evaluar si las diferencias entre cualesquiera dos pares de medios son
significativas. El valor crítico es un poco diferente porque implica la mala
diferencia que tiene que ser excedida para alcanzar la significación. Así que
calcula simplemente un valor crítico y por tanto la diferencia entre todos los
pares posibles. Cada diferencia entonces se compara al valor crítico de Tukey.
Si la diferencia es más grande que el valor de Tukey, la comparación es
significativa. La fórmula para el valor crítico es la siguiente:
                                                 MS s / A
                                      d T = qT
                                                  n
       Donde “qT” se estudia en estadística (similar a los valores “t-critico”, pero
diferente), y que se encuentra en tablas, “MSs/A” es el error de la media
cuadrada de la “F-prueba total”, y “n” es el tamaño de muestra para cada
grupo. El error “df” mencionado en la tabla es el “dfs/A” usado en la prueba de
ANOVA. FWE es el tipo de error deseado. Ésta es la prueba que generalmente
se suele recomendar, porque los estudios demuestran que tiene mayor energía
que las otras pruebas bajo la mayoría de las circunstancias y de ella son
fácilmente disponibles en paquetes de la computadora. La prueba de Tukey-
Kramer es utilizada por SPSS cuando los tamaños del grupo son desiguales.
Es importante observar que la ventaja de la energía de la prueba de Tukey
depende de la asunción que todas las comparaciones posibles en parejas se
están haciendo. Aunque esto es generalmente lo que se desea cuando se
hacen las pruebas post hoc. En circunstancias donde no son necesarias todas
las comparaciones posibles u otras pruebas, tales como el Dunnett o un
método modificado de Bonferroni deben ser consideradas porque pueden tener
más ventajas de la energía.
       Comprende      una      considerable   variedad   de   distribuciones   con
características especiales en cuanto a asimetría y elongación sobre todo para
datos que provengan de distribuciones con formas diferentes a la distribución
normal. . Es uno de los medios de mayor aceptación.


MÉTODO DUNCAN
       Prueba del rango múltiple de Duncan. Método de comparación por
pasos basado en la distribución del rango estudentizado. Controla la tasa de
error utilizando, para el conjunto de medias separadas r pasas, un nivel de
significación α c = 1 − (1 − α ) r −1 . Cuantos más pasos existen entre dos medias,

mayor es la diferencia mínima con la que vamos a considerar que esas medias
difieren significativamente.
“Tiene un término medio de dificultad”


METODO DUNNET
       Es similar a la prueba de Tukey (descrita más arriba) pero se utiliza
solamente si un sistema de comparaciones se está haciendo a un grupo
particular. Por ejemplo, puede ser que tengamos varios grupos del tratamiento
que se comparen a un grupo de control.
       Compara cada grupo con un grupo control. Por tanto controla la tasa de
error para “k-1” comparaciones. Por defecto, se considera que la última
categoría del factor es la que define el grupo control, pero puede seleccionarse
la primera categoría. Permite efectuar tanto contrastes bilaterales como
unilaterales.
       Puesto que éste es raramente de interés, y el Tukey sirve mucho más
para fines generales, se recomienda la prueba de Tukey.


MÉTODO DIFERENCIA MÍNIMA SIGNIFICATIVA (LSD)
       Método de Fisher (LSD) para la diferencia mínima significativa. Basada
en la distribución t de Student. Este método, inicialmente propuesto por Fisher
(1935), no ejerce ningún control sobre la tasa de error. Es decir, cada
comparación se lleva a cabo utilizando el nivel de significación establecido,
(generalmente 0,05), por lo que la tas de error para el conjunto de
comparaciones puede llegar a 1-(1- α)k, siendo α el nivel de significación y k el
número de comparaciones llevadas a cabo. (Suele encontrarse en la literatura
de estadística con su acrónimo inglés: LSD =Least Significant Difference).
       La prueba de LSD es simplemente el análisis razonado de una prueba
realizada y significativa, la hipótesis nula es incorrecta. (Si la prueba ómnibus
no es significativa, no se hace ninguna prueba de post hoc.) El razonamiento
se basa en la asunción que si la hipótesis nula es incorrecta, según lo indicado
por una F-prueba ómnibus significativa, el error de tipo I no sería realmente
posible (o poco probable), porque ocurre solamente cuando la falta de
información es verdadera. Así pues, con una prueba ómnibus, primero se
defiende hacia fuera las diferencias del grupo que existen debido al error de
muestreo, y reducir así la probabilidad de un de tipo I estar presente entre los
medios. El Test de Fisher (LSD) se ha constatado que no es suficiente para
controlar el error de Tipo I. No obstante, encuentran al Método Fisher (LSD) a
veces en la literatura.


6. ¿Y EN EXCEL?
       Hemos experimentado con levadura para una receta de panes dulces.
Parece ser que la cantidad de azúcar y la temperatura del agua afectan el
tamaño de los panes.      Basándose en los siguientes datos, realizamos un
análisis de varianza para averiguar lo que es significativo de estas recetas.
Escribimos esto en el Excel.
              Levadura: Tamaño de los panes dulces
                    Agua Fría    Agua Tibia      Agua Caliente
    Poco Azúcar          75           87              60
   Azúcar Normal         74           82              55
   Mucho Azúcar          70           79              53


Lo seleccionamos, pinchamos Herramientas        Análisis de Datos
      Una vez pinchado análisis de datos, te aparece este cuadro; tendrás que
pinchar en “Análisis de varianza de dos factores con una sola muestra por
grupo”. Y le das a “Aceptar”.




      Te aparecerá este cuadro, donde tendrás que seleccionar el rango de
datos al que va dirigido, en este caso será el cuadro de datos que metimos
anteriormente seleccionando incluso los textos.
      Para que los textos aparezcan, hay que pincha en “rótulos” y dónde
pone “rango de datos” seleccionas desde qué punto de la hoja de cálculo Excel
quieres que te aparezcan, siempre por debajo de donde están los datos de la
tabla, ó que te aparezcan en otra diferente.
 Cuando ya has seleccionado los correspondientes rangos de datos, le das a
“Aceptar” y te saldrán los siguientes resultados:
       El resultado en Excel (Análisis de varianza) indica el valor estadístico de
la "F." En este caso el valor de la "F" por las filas (cantidad de azúcar) es 23.15.
Para saber si estos resultados son significativos (o sea, si la probabilidad P
tiene un valor menor a 0.05), el valor de la "F" observado necesita ser al menos
6.94 (o sea, el valor crítico de la F). Entonces, como el valor de "F" observado
es de 23.15 y es mucho mayor que el valor crítico de la F (6.94), estamos
seguros que los resultados de nuestras pruebas son significativas. El valor de
la "F" para las columnas (temperatura del agua) es igual a 378.53. Esto es
también significativo, porque el valor de "F" crítico es solamente 6.94. En otras
palabras, existe una relación significativa en la cantidad de azúcar, la
temperatura del agua y el tamaño de los panes dulces. La probabilidad muestra
a qué nivel los resultados son estadísticamente significativos.


7. BIBLIOGRAFÍA


   -   Thomas M. Little, F. Jackson Hills: “Métodos estadísticos para la
       investigación en la agricultura”. 1991. Ed: Trillas.
   -   César Pérez. “Econometría y análisis estadístico multivariable con
       STATGRAPHICS técnicas avanzadas”. 1998. Ed: ra-ma.
   -   http://www.puc.cl/agronomia/d_investigacion/Proyectos/ProyectosTitulos/pd
       f/CatalinaSaavedra.pdf
   -   http://www.unne.edu.ar/Web/cyt/com2005/4-Veterinaria/V-029.pdf

   -   http://www.colpos.mx/agrocien/Bimestral/2001/ene-feb/art-7.pdf

   -   http://mipagina.cantv.net/ssinha/cmtukey.htm

   -   http://www.emis.de/journals/RCE/V24/V24_1_33Torres.pdf

   -   http://www.serbi.luz.edu.ve/scielo.php?script=sci_arttext&pid=S0798-
       22592005010000012&lng=es&nrm=is.

   -   http://books.google.com/books?id=aT21YbVLghwC&pg=PA331&lpg=PA331&
       dq=analisis+de+varianza+para+dos+factores&source=web&ots=TlHP6idx4
       1&sig=YX1t8GnrtmwBKTSe70STJ5vNk-s#PPA331,M1

   -   http://www.uv.es/aliaga/COMPMU93.htmln

   -   http://www.ine.es/revistas/estaespa/164_4.pdf

   -   http://www.seh-lelha.org/subgrupos.htm

   -   http://moodle.uho.edu.cu/course/view.php?id=36
-   http://www.fedem.org/revista/n17/estadistica.htm

-   http://www.personal.us.es/jlmoreno/Modelos%20Lineales%2003-
    04%20Relacion%204.pdf

-   http://bibcyt.ucla.edu.ve/cgi-
    win/be_alex.exe?Acceso=T070300010764/0&Nombrebd=BIBCYT

-   http://www.uam.es/personal_pdi/ciencias/cifus/biologia/metodos/Resumen.
    pdf

-   http://www2.uca.es/serv/ai/formacion/spss/Pantalla/15anova2.pdf
-   http://www.hrc.es/bioest/Anova_10.html

-   http://www.monografias.com/trabajos7/anva/anva.shtml

-   http://www.seh-lelha.org/anova.htm

-   http://www.laits.utexas.edu/orkelm/excel/EXCEL/ANOVA2ONE.HTM

-   http://e-stadistica.bio.ucm.es/mod_anova/anova7.html

-   http://html.rincondelvago.com/analisis-de-la-varianza_1.html

-   http://www.upa.pdx.edu/IOA/newsom/da1/ho_posthoc.doc

-   http://www2.uca.es/serv/ai/formacion/spss/Imprimir/14anova1.pdf

								
To top