AN�LISIS DESCRIPTIVO DE DATOS YP ROBABILIDAD EI NFERENCIA ESTADISTICA by jD0fQI

VIEWS: 119 PAGES: 206

									  ANÁLISIS EXPLORATORIO DE DATOS Y
PROBABILIDAD E INFERENCIA ESTADISTICA




             Dr. José Nerys funes Torres

           Lic. René Armando Peña Aguilar




     Facultad de Ciencias Naturales y Matemática

               Escuela de Matemática

            Departamento de Estadística

             Universidad de El Salvador




                Septiembre de 2010.




                                                   1
Índice general.

Introducción. ............................................................................................................................ 5
Capítulo 1. Conceptos Básicos de Estadística. ................................................... 6
1.1. La Estadística y sus aplicaciones ............................................................................................. 6
  1.1.1. ¿Qué es la Estadística? ...................................................................................................... 6
  1.1.2. Aplicaciones de la Estadística. .......................................................................................... 6
1.2. Población, Muestra y técnicas de muestreo. .......................................................................... 10
1.3. Unidad de estudio y unidad de muestreo ............................................................................... 13
1.4. Variables y datos .................................................................................................................... 14
1.5. Escalas de medición .............................................................................................................. 15
  1.5.1. Escalas nominales ........................................................................................................... 15
  1.5.2. Escalas ordinales ............................................................................................................. 16
  1.5.3. Escalas de intervalos ....................................................................................................... 16
  1.5.4. Escalas de razones o cocientes ........................................................................................ 17
1.6. Diseño de Experimentos estadísticos. .................................................................................... 18
1.7. Guía de ejercicios N° 1........................................................................................................... 18

Capítulo 2. Distribuciones de frecuencias y sus representaciones
gráficas ..................................................................................................................................... 20
2.1. Estadística Descriptiva con una variable ............................................................................... 20
  2.1.1. Distribución de frecuencias ............................................................................................. 20
  2.1.2. Descripción de Variables Cualitativas ............................................................................ 21
  2.1.3. Variables cuantitativas discretas. .................................................................................... 29
2.2. Distribución de frecuencias agrupadas. .................................................................................. 30
  2.2.1 Representación gráfica de variables continuas ................................................................ 32
2.3. Guía de ejercicios N° 2........................................................................................................... 33

Capítulo 3. Medidas Características de una Distribución Cuantitativa
Empírica.................................................................................................................................... 35
  3.1 Medidas de posición ........................................................................................................... 35
  3.2 Medidas de Dispersión ....................................................................................................... 42
  3.3 Medidas de forma ............................................................................................................... 43
3.4. Guía de Ejercicios N° 3. ......................................................................................................... 44

Capítulo 4. Distribuciones Bivariadas ...................................................................... 73
4.1. Distribuciones bidimensionales............................................................................................. 73
4.2. Distribuciones marginales y condicionales. ........................................................................... 74
4.3. Coeficiente de correlación lineal ............................................................................................ 77
4.4. Introducción al modelos de regresión lineal .......................................................................... 77
4.5. Modelo de regresión simple. ................................................................................................. 82
  4.5.1. Estimación de los parámetros por mínimos cuadrados ................................................... 82
  4.5.2. Propiedades de los estimadores por mínimos cuadrados y el modelo ajustado de
  regresión. ................................................................................................................................... 84
  4.5.3. Intervalos de confianza................................................................................................... 86

                                                                                                                                                 2
  4.5.4. Prueba de hipótesis de la pendiente y de la ordenada al origen. ..................................... 88
4.6. Predicción de nuevas observaciones ...................................................................................... 89
4.7. Ejercicios. ............................................................................................................................... 98

Capítulo 5. Los Valores Relativos ............................................................................ 101
5.1. Razones, Proporciones, Porcentajes y Tasas. ....................................................................... 101
5.2. Diferencia Relativa ............................................................................................................... 103
5.3. Los números índices ............................................................................................................. 104
  5.3.1. Relación entre índices de base fija y variable. .............................................................. 106
  5.3.2. Índices agregativos simples ........................................................................................... 107
  5.3.3. Índices de precios .......................................................................................................... 108
  5.3.4. Índices de cantidad. ....................................................................................................... 109
  5.3.5. Cálculo del salario e ingreso real. ................................................................................. 111
5.4. Guía de ejercicios Nº 5. ........................................................................................................ 112

Capítulo 6. Métodos de Conteo. ............................................................................... 114
6.1 Introducción .......................................................................................................................... 114
6.2 Muestras ordenadas. .............................................................................................................. 114
6.3 Variaciones, combinaciones y permutaciones. ..................................................................... 116
  6.3.1. Variaciones de N elementos tomados de n en n. ........................................................... 116
  6.3.2. Variaciones con repetición de N elementos tomados de n en n. ................................... 116
  6.3.3. Permutaciones. ............................................................................................................. 116
  6.3.4. Combinaciones. ............................................................................................................. 118
6.4. Teorema del Binomio. .......................................................................................................... 122
6.5. Guía de Ejercicios N° 1. ...................................................................................................... 125
6.6. Soluciónes. ........................................................................................................................... 126

Capítulo 7. Conceptos Básicos de Probabilidad ............................................. 132
7.1 Introducción. ......................................................................................................................... 132
7.2. Experimento aleatorio. ......................................................................................................... 132
7.3. Espacio Muestral. ................................................................................................................ 133
7.4. Sucesos o Eventos ................................................................................................................ 133
  7.4.1. Estructuras con subconjunto.......................................................................................... 134
7.5. Axiomas de Probabilidad ..................................................................................................... 136
  7.5.1. Probabilidad (Axiomática). ........................................................................................... 136
7.6. Resultado Igualmente Probables o Modelo Uniforme de Probabilidad ............................... 138
7.7. Probabilidad condicional. .................................................................................................... 138
7.8. Independencia de sucesos.................................................................................................... 142
7.9. Ejercicios de cálculo de probabilidad................................................................................... 142
  7.9.1. Problemas variados de probabilidad ............................................................................. 147
  7.9.2. Hoja 4. Ejercicios de probabilidad (Repaso, Capítulo 6 y 7) ........................................ 153

Capítulo 8. Variables aleatorias y distribuciones de probabilidad ......... 155
8.1. Nociones básicas .................................................................................................................. 155
8.2. Distribución de probabilidad binomial ................................................................................. 159
8.3. Distribución de Poisson ........................................................................................................ 161

                                                                                                                                                 3
8.4. Distribución geométrica ....................................................................................................... 165
8.5. Distribución hipergeométrica ............................................................................................... 166
8.6. Densidad uniforme ............................................................................................................... 169
8.7. Densidad normal o de Gauss ................................................................................................ 172
8.8. Aproximación de la binomial por medio de la normal......................................................... 175
8.9. Ejercicios. ............................................................................................................................. 175

Capítulo 9. Estimación de Parámetros. ................................................................. 178
9.1. Distribución de la medida de la muestra. ............................................................................. 178
9.2. Distribución de la diferencia entre las medias de dos muestras. .......................................... 180
9.3. Distribución de la proporción de la muestra. ....................................................................... 184
9.4. Distribución de la diferencia entre las proporciones de dos muestras. ................................ 186
9.5. Intervalos de confianza......................................................................................................... 188
  9.5.1. Selección del tamaño de la muestra .............................................................................. 192

Capítulo 10. Contraste de hipótesis. ...................................................................... 198
10.1.- Introducción ...................................................................................................................... 198
10.2. Nociones básicas ................................................................................................................ 198
10.3. Procedimiento sistemático para una prueba de hipótesis de una muestra. ......................... 199
10.4. Procedimiento sistemático para una prueba de hipótesis de dos muestras independientes.202
10.5. Prueba de hipótesis para una y dos proporción independientes ........................................ 202
Bibliografía ............................................................................................................................ 206




                                                                                                                                                4
Introducción.

La estadística como herramienta para el análisis de los datos es esencial en los profesionales que
con frecuencia tienen la necesidad de realizar análisis de datos para la toma de decisiones.
Este libro, recoge en 10 capítulos conocimientos estadísticos básicos que van desde el análisis
descriptivo de datos, probabilidad e inferencia estadística.
Debemos aclarar que los métodos descriptivos aquí propuestos son elementales univariantes y en
el enfoque de la probabilidad sólo hemos considerado espacios probabilísticos discretos
incluyendo dos continuas la uniforme y la normal.
Este libro, es recomendables para principiantes en el área de estadística. Los conocimientos aquí
planteados son base para ir enfrentando otros de estadística de mayor dificultad.




                                                                                                5
Capítulo 1. Conceptos Básicos de Estadística.


1.1. La Estadística y sus aplicaciones
1.1.1. ¿Qué es la Estadística?

La Estadística es una ciencia que estudia las características de un conjunto de casos para hallar en
ellos regularidades en el comportamiento, que sirven para describir el conjunto y para efectuar
predicciones.

La Estadística tiene por objeto recolectar, organizar, resumir, presentar y analizar datos relativos
a un conjunto de objetos, personas, procesos, etc. A través de la cuantificación y el ordenamiento
de los datos intenta explicar los fenómenos observados, por lo que resulta una herramienta de
suma utilidad para la toma de decisiones.

Bajo este contexto, la Estadística se divide en dos áreas: Estadística Descriptiva y Estadística
Inferencial.

ESTADÍSTICA DESCRIPTIVA: permite organizar y presentar un conjunto de datos de
manera que describan en forma precisa las variables analizadas haciendo rápida su lectura e
interpretación. Obviamente, la materia prima de la Estadística Descriptiva la constituyen los
datos, que son el resultado de las observaciones y/o experimentos.
Ejemplos:
    1. Durante los últimos dos días se ha informado de un total de trece homicidios diarios.
    2. La encuesta Gallup informa una ventaja de 25% para el candidato de izquierda.

ESTADÍSTICA INFERENCIAL: Generaliza los resultados de una muestra a los de una
población total, es cuando de los datos estadísticos obtenidos de una muestra se infiere o se
deduce una observación la cual se generaliza sobre la población en total. Para determinar la
confiabilidad de la inferencia de los datos estadísticos de una muestra, se hace necesario
comprobar la misma para poder asegurar que lo que se observa en una muestra se observará
también en la población. Generalmente el análisis estadístico inferencial se lleva a cabo para
mostrar relaciones de causa y efecto, así como para probar hipótesis y teorías científicas.


1.1.2. Aplicaciones de la Estadística.
Mucha gente piensa que la Estadística no tiene nada que ver con otras disciplinas que no sean las
ingenierías y economía. Otros nunca le encuentran aplicaciones útiles, y por eso tampoco les
gusta. Pero, en realidad tiene infinitas aplicaciones en todo el conocimiento adquirido por la
humanidad, partiendo ante todo, lo relacionado con las ingenierías, economía, las ciencias
biológicas, ciencias sociales e incluso en algunas ramas del área Jurídica. Y, en definitiva, casi
todos los campos de las ciencias emplean instrumentos estadísticos de importancia fundamental
para el desarrollo de sus modelos de trabajo.

                                                                                                  6
En nuestros días, la estadística se ha convertido en un método efectivo para describir con
exactitud los valores de los datos económicos, políticos, sociales, psicológicos, biológicos y
físicos, entre otros, y sirven como herramienta para relacionar y analizar dichos datos. El trabajo
del experto estadístico no consiste ya sólo en reunir y tabular los datos, sino el proceso de
interpretación de esa información a través de modelos estadísticos-matemáticos, aumentando el
alcance de las aplicaciones de la estadística, esto se ha logrado, gracias al desarrollo de la teoría
de probabilidad.

Dentro de las Aplicaciones de la Estadística se destacan las siguientes:

     1. La Estadística en el Periodismo

En general, los periodistas además de dedicarse al ámbito de la noticia, realizan crónicas y
estudios de investigación, que nos entregan preguntas y respuestas frente a determinados sucesos
o situaciones de interés público. Algunos de los estudios más frecuentes realizados por los
periodistas son sobre alcoholismo, enfermedades, sexualidad, delincuencia, política, etc. Para
ello, hacen uso de las encuestas u otros instrumentos técnicos de medición propios de la
estadística, a través de dichos estudios es posible conocer la opinión de la gente y con ello
informar a la opinión pública, a través de los medios de comunicación, desde donde las
autoridades pertinentes e interesadas en estos estudios pueden adoptar las medidas correctivas, si
es el caso. Tal es así, que la estadística forma parte importante del periodismo investigativo.

1.    La Estadística en la Política

Conocidas son las famosas encuestas de tipo político, que entregan una orientación de la
intención de voto, de la aceptación de un candidato, del impacto de un programa o proyecto de
estado, etc. de una muestra estadística representativa, sobre la opinión de las personas en un
tiempo determinado, teniendo esta herramienta una gran confiabilidad. Así es que el uso de la
estadística es imprescindible para determinar caminos a seguir para los candidatos de elección
popular.

2.    La Estadística en la Publicidad

Cuando las grandes marcas trasnacionales y/o nacionales como Coca-cola, Pepsi, Nice, Adidas,
Laboratorios López, etc. nos llenan de slogans, música y colores en sus comerciales, lo único que
buscan es que la gente adquiera los productos y/o servicios que ofrecen.

Se dedican, entonces, a realizar las llamadas “campañas publicitarias”, y, antes de lanzar una
campaña, hacen un estudio de mercado para encontrar las mejores alternativas posibles a fin de
lograr el éxito de ventas deseado. Estos estudios son de carácter estadístico, es decir, hacen un
diseño muestral y seleccionan una muestra para inferir las características de la población.

3.    La Estadística en la economía y las finanzas.

En la administración es una herramienta del control, como parte del proceso administrativo (o lo
que es lo mismo: planeación, organización, dirección y control) ya que la estadística ayuda a

                                                                                                   7
recolectar, estudiar y al final interpretar los datos que obtienen al terminar el proceso
administrativo, retroalimenta con esta información y al final se observa en que pueden mejorar y
que se está haciendo bien.

En la mercadotecnia es una herramienta muy importante cuando tienes la necesidad de trabajar
con datos de muestreo para conocer los gustos y preferencias de las personas. Igualmente en la
auditoria administrativa cuando recabas datos para conocer en que puede mejorar una
organización. En pocas palabras te puede servir en cualquier área de una organización debido a
que muestra los resultados de las actividades que bienes realizando.

En la economía se utiliza como una herramienta de predicción para pronosticar el
comportamiento futuro, por ejemplo, de los precios de los metales (oro, plata, cobre) tomando
como base el comportamiento pasado de los precios de los mismos. También puede servir para
estudiar el comportamiento de la bolsa de valores, de ciertos productos básicos, los economistas
por lo regular se sienten magos que creen predecir cosas. En general, la Estadística suministra los
valores que ayudan a descubrir interrelaciones entre múltiples parámetros macro y
microeconómicos, a través de la evaluación de modelos econométricos para el establecimiento de
políticas económicas; análisis del costo de la canasta básica, el poder adquisitivo de la población,
etc.


5. La estadística en la Banca y Seguros

El profesional del seguro de vida ha de ser capaz de asignar primas suficientes para cubrir las
cantidades que habrá de pagar la compañía en el caso de muerte del asegurado. En consecuencia,
la predicción adecuada de las probabilidades de muerte constituye uno de los ejes centrales de la
reducción del riesgo que se asume. Por ello, el objetivo de la Estadística de Seguros es una
presentación exhaustiva de los métodos disponibles para ajustar tablas de mortalidad y tablas de
seguros no vida, ejemplo, aseguramiento de vehículos, viviendas, etc.

Por otra parte, algunas de las aplicaciones concretas de la Estadística en el sistema bancario son
las siguientes:
 Sistemas de concesión de tarjetas de crédito y fijación de su límite.
 Sistemas de estimación del potencial económico de los clientes.
 Definición de tipologías comerciales de clientes.
 Determinación del público objetivo en campañas comerciales.
 Modelización del riesgo según las características de los clientes.
 Aplicación de la teoría de colas para brindar un servicio de calidad.
 Finalmente, es de mucha utilidad la técnica de minería de datos para el análisis de bases de
   datos del sistema bancario.


     6. La estadística en ciencias humanas y sociales

La investigación en Psicología, Sociología y Educación, al igual que ocurre en otras ciencias, en
buena medida se basa en el manejo de recursos estadísticos como elementos indispensables para

                                                                                                  8
llegar a conclusiones aceptables por el resto de la comunidad científica. Dada la peculiaridad de
su objeto de estudio, inabordable en la mayoría de los casos sino es a través de perspectivas
complejas de relación entre variables, la atención de los investigadores en las ciencias humanas y
sociales se concentra cada vez más en la llamada Estadística Multivariante (Análisis Cluster,
Factorial, Discriminante, etc.).

Las ciencias sociales se han visto apabulladas en los últimos años por avances vertiginosos en
informática y aplicaciones estadísticas, por ejemplo, en El Salvador, se ha elaborado el Mapa de
Pobreza, donde se ha interrelacionado una gran variedad de variables de diferentes áreas:
Educativas, Económicas, Salud, entre otras. También, se ha hecho investigación sobre los
factores que están asociados al rendimiento académico de los estudiantes, finalmente, se han
utilizado diferentes técnicas para el análisis de los resultados académicos de los estudiantes.

Las ciencias sociales: es un pilar básico del desarrollo de la demografía y la sociología aplicada,
lo que conlleva a:
     Definición de indicadores de fenómenos sociales.
     Medición de constructos o variables no directamente observables (la satisfacción, la
        inteligencia, ...)
     Medición de los efectos entre constructos no observables para establecer políticas
        sociales.
     Estudio de la evolución de la demografía.
     Estudios sociales sobre la integración de la población inmigrada.
     Fenómenos sociales como las pandillas, criminalidad, delincuencia, contaminación, entre
        otros.


     7. La estadística en las ciencias químicas.

En Química, la estadística se aplica en varias áreas: En el diseño de experimentos se usan
métodos estadísticos, en el control de procesos y control de calidad (o gerenciamiento de calidad)
de procesos y productos. En EEUU está muy de moda el sistema seis sigma, creado por general
electric, que utiliza algunos conceptos estadísticos para lograr el aseguramiento de la calidad.

Por otra parte la producción química tiene su costo económico y financiero que también requiere
mucho uso de estadística, por ejemplo, si no se elabora un buen diseño experimental, se
necesitarán muchas réplicas para validar una formulación química.

Algunas de las aplicaciones concretas que podemos mencionar:
 Utilización de diseños experimentales para optimizar la composición de productos
  alimenticios.
 Evaluación de la superficie de respuesta de una reacción química según determinados factores.
 Predicción del comportamiento de un componente no sintetizado a partir de las propiedades
  moleculares de sus descriptores.
 Control de procesos de producción para detectar problemas evitando a su vez falsas alarmas.



                                                                                                 9
     8. La estadística en Ciencias biológicas.

En el área de las ciencias biológicas, interesa estudiar el comportamiento de ciertas plantas y sus
cruces a fin de determinar cómo se relacionan genéticamente los padres con los hijos, hablando
de Genotipo y Fenotipo. En esta categoría es también donde se realizan los mayores avances de la
humanidad, en descubrimientos. Cada año se descubren miles de fórmulas científicas que
relacionan fenómenos de la naturaleza con modelos matemáticos.

Los científicos se dedican a realizar estudios estadísticos, recogiendo datos y muestras,
investigando el tiempo de reproducción de un virus, el comportamiento migratorio de algunas
aves o insectos, además de factores de tamaño y volumen del crecimiento de ciertas especies de
animales o vegetales. Todo esto funciona con la idea de recopilar información, muestrear ciertas
áreas para ver cómo se han comportado algunas aves, por ejemplo, se pueden dibujar o simular
curvas que se supone que son relativamente parecidas al comportamiento migratorio de aves. Con
esta herramienta se podrían determinar también las épocas de mayor probabilidad de contagio,
diseminación de algún virus o bien enfermedades transmitidas por insectos.

Algunas aplicaciones concretas en esta área son: Determinación del tamaño de poblaciones
naturales en una región; efectividad de la utilización de barreras naturales (filas de árboles
plantados en los límites del terreno) como medio de prevenir las plagas de insectos o aves sobre
las plantaciones y así disminuir la utilización de pesticidas: y, determinación de los niveles
óptimos de utilización de los fertilizantes. Obviamente, en esta área es donde más se hace usos de
la teoría de Diseños de Experimentos.

     9. La estadística en las ciencias médicas.

Permite establecer pautas sobre la evolución de las enfermedades y los enfermos, los índices de
mortalidad asociados a procesos morbosos, el grado de eficacia de un medicamento, etcétera.
Bajo este conjunto de ideas, se ha presentado un panorama de la utilidad de la estadística,
haciendo un recorrido por diversas áreas del conocimiento humano, con el fin, de conocer cómo
se relacionan con las diversas ciencias, formando una sola verdad. Evidentemente, existen,
muchas disciplinas donde se aplica la estadística, que no han sido consideradas en este apartado,
por ejemplo, las ingenierías, la pintura, la música, etc. Finalmente, es de resaltar que en todos los
temas donde se analice información está presente la estadística.

1.2. Población, Muestra y técnicas de muestreo.
Las estadísticas de por sí no tienen sentido si no se considera o se relaciona dentro del contexto
con que se trabajan. Por lo tanto es necesario entender los conceptos de población y de muestra
para lograr comprender mejor su significado en la investigación educativa o social que se lleva a
cabo.

POBLACIÓN - es el conjunto total de individuos, objetos o medidas que poseen algunas
características comunes observables en un lugar y en un momento determinado. Cuando se vaya a
llevar a cabo alguna investigación debe de tenerse en cuenta algunas características esenciales al
seleccionarse la población bajo estudio. Entre éstas tenemos:

                                                                                                  10
Homogeneidad - que todos los miembros de la población tengan las mismas características
según las variables que se vayan a considerar en el estudio o investigación. Por ejemplo, si se
fuera a investigar la incidencia de la drogadicción entre jóvenes mujeres adolescentes, entonces
hay que definir claramente las edades que comprenden la adolescencia y cuando se seleccione la
población asegurarse de que todas las personas entrevistadas sean de la edad determinada y del
sexo femenino. (La adolescencia se define operacionalmente como el periodo comprendido de
edad que fluctúa entre 12 y 21 años.)
Tiempo - se refiere al período de tiempo donde se ubicaría la población de interés. Determinar si
el estudio es del momento presente o si se va a estudiar a una población de cinco años atrás o si
se van a entrevistar personas de diferentes generaciones.
 Espacio - se refiere al lugar donde se ubica la población de interés. Un estudio no puede ser muy
abarcador y por falta de tiempo y recursos hay que limitarlo a un área o comunidad en específico.

 Cantidad - se refiere al tamaño de la población. El tamaño de la población es sumamente
importante porque ello determina o afecta al tamaño de la muestra que se vaya a seleccionar,
además que la falta de recursos y tiempo también nos limita la extensión de la población que se
vaya a investigar.
MUESTRA - la muestra es un subconjunto fielmente representativo de la población.

Hay diferentes tipos de muestreo. El tipo de muestra que se seleccione dependerá de la calidad y
cuán representativo se quiera que sea el estudio de la población, en este sentido, la muestra puede
ser:

ALEATORIA - cuando se selecciona al azar y cada miembro tiene igual oportunidad de ser
incluido.

Un procedimiento de extraer una muestra aleatoria de una población finita es: enumerar todos
los elementos que conforman la población, escribir esos números en papelitos y echarlos en una
urna o bolsa mezclarlos bien removiéndolos y sacar uno a uno tantos como lo indique el tamaño
de la muestra. En este caso los elementos de la muestra lo constituirán los elementos de la
población cuyos números coincidan con los extraídos de la bolsa o urna.

El tamaño de la muestra (MAS):

Al realizar un muestreo probabilística nos debemos preguntar ¿Cuál es el número mínimo de
unidades de análisis (personas, organizaciones, capítulo de telenovelas, etc), que se necesitan
para conformar una muestra n que me asegure un error estándar menor que 0.01 ( fijado por el
muestrista o investigador), dado que la población es aproximadamente de N elementos.

En el tamaño de una muestra de una población se debe tener presente la varianza poblacional,
error máximo permisible prefijado (diferencia del parámetro y estimador), con un nivel de
confianza de 1   . Simbólicamente se refiere a lo siguiente: P  X    d   1   , bajo este
                                                                            
contexto podemos utilizar la fórmula:



                                                                                                11
Ejemplo. Se desea estimar la estatura promedio de los estudiantes de la asignatura de
Tratamiento de la Información Estadística. Se sabe que la estatura de un estudiante es una
variable aleatoria con distribución normal. Determine el tamaño de muestra aleatoria necesaria
para garantizar una probabilidad igual a 0.95 de que el estimador y el parámetro se diferencien en
menos de 10cm.

Solución.

Datos conocidos.

       d= 10cm
Calcular:  , Z1  =1.96
                     2
 : Para calcular la desviación estándar hay que solicitar la estatura de cada estudiante y luego
                                                                1 n
                                                                           
calcular la varianza utilizando la siguiente fórmula: S X   xi  x , posteriormente se
                                                                            2
                                                            2

                                                                n i 1
obtiene la raíz cuadrada y ese es el valor  que se debe utilizar en esta ecuación. Supongamos
que  =12cm, entonces:

Determinar:

  Z 
                2
                                  2

n
     1
        2       n   12(1.96)   5.53  n  6
   d                                          , se requiere una muestra de 6
                     10 
             
estudiantes para cumplir las hipótesis del problema.


ESTRATIFICADA - cuando se subdivide en estratos o subgrupos según las variables o
características que se pretenden investigar. Cada estrato debe corresponder proporcionalmente a
la población.


                                                           k
El número determinado de elementos muestrales es: n   ni , donde ni es el número de
                                                          i 1
elementos en el estrato i=1, 2, …, k . No se entrará en detalle del cálculo del tamaño muestral, ya
que supera el alcance de esta asignatura.



                                                                                                 12
SISTEMÁTICA - cuando se establece un patrón o criterio al seleccionar la muestra. Ejemplo: se
entrevistará una familia por cada diez que se detecten.


El muestreo es indispensable para el investigador ya que es imposible entrevistar a todos los
miembros de una población debido a problemas de tiempo, recursos y esfuerzo. Al seleccionar
una muestra lo que se hace es estudiar una parte o un subconjunto de la población, pero que la
misma sea lo suficientemente representativa de ésta para que luego pueda generalizarse con
seguridad de ellas a la población.

El tamaño de la muestra depende de la precisión con que el investigador desea llevar a cabo su
estudio, pero por regla general se debe usar una muestra tan grande como sea posible de acuerdo
a los recursos que haya disponibles. Es de especificar que para cada método de muestreo existen
fórmulas para determinar el tamaño de muestra.


1.3. Unidad de estudio y unidad de muestreo


La unidad de análisis o estudio corresponde a la entidad mayor, primaria o representativa de lo
que va a ser objeto específico de estudio en una medición y se refiere al qué o quién es objeto de
interés en una investigación. Por ejemplo: Condiciones de hacinamiento de las familias del
Municipio de Soyapango, San Salvador. Unidad de Análisis: Familias del Municipio de
Soyapango.

Debe estar claramente definida en un protocolo de investigación y el investigador debe obtener la
información a partir de la unidad que haya sido definida como tal, aun cuando, para acceder a
ella, haya debido recorrer pasos intermedios. Las unidades de análisis pueden corresponder a las
siguientes categorías o entidades:

      Personas
      Grupos humanos
      Poblaciones completas
      Unidades geográficas determinadas
      Eventos o interacciones sociales (enfermedades, accidentes, casos de infecciones
       intrahospitalarias, etc)
      Entidades intangibles, susceptibles de medir (exámenes, días, camas)

El tipo de análisis al que se someterá la información es determinante para elegir la unidad de
análisis. Por ejemplo, si el objetivo es dar cuenta de la satisfacción del usuario de un servicio
médico, la unidad de análisis natural es el paciente atendido, o la persona que se atiende en ese
servicio médico. Si el objetivo es dar cuenta de la satisfacción del alumno sobre el desempeño
docente, la unidad de análisis es el alumno que recibe clases con el docente evaluado.



                                                                                               13
La unidad de muestreo corresponde a la entidad básica mediante la cual se accederá a la unidad
de análisis. En algunos casos, ambas se corresponden. Por ejemplo, si se desea estimar la
prevalencia de daño auditivo en relación con niveles de ruido ambiental en una muestra de
trabajadores de una fábrica, la unidad de muestreo puede corresponder a la entidad "sujeto", si se
dispone de un registro detallado de cada sujeto. La unidad de análisis es por cierto el trabajador
de la fábrica.

1.4. Variables y datos

VARIABLES
Las variables son las características observables de un objeto, problema o evento que se puede
describir según un esquema de medición bien definido. Cada rasgo o aspecto de una población
constituye una variable. La edad de unas personas, su sexo, color de su piel, nacionalidad, su
nivel de motivación, niveles de ansiedad, el número de nacimientos, número de matrimonios,
frecuencia de suicidios, estatura, peso, niveles de inteligencia, actitudes, entre muchas otras.

Las variables pueden adquirir diferentes valores o clasificarse en diferentes categorías según la
naturaleza o tipo de estudio que se lleve a cabo. Entre éstas tenemos las siguientes
clasificaciones:

VARIABLES CUALITATIVAS - son aquellas que se expresan en forma verbal como
categorías o atributos. Por ejemplo, el sexo, color, afiliación política, nacionalidad, motivación,
área académica o profesión de una persona.

VARIABLES CUANTITATIVAS - son las que varían en términos de cantidad y se registran o
expresan en forma numérica. Por ejemplo, edad, promedio académico, puntuaciones de
exámenes, frecuencia de delitos, temperatura, ingresos anuales o salarios por hora. Hay algunas
características que pueden clasificarse o expresarse como variable cuantitativa y transformarla a
cualitativa o viceversa. Por ejemplo, nivel de aprovechamiento académico estudiantes de 4:00
puntos, o estudiantes de 3:00 puntos y así sucesivamente. El investigador puede expresar
mediante una escala numérica el aprovechamiento académico al clasificar a los estudiantes, como
también puede clasificarlos como variable cualitativa en las categorías de excelentes, buenos,
regulares y deficientes.

VARIABLES DISCRETAS - son aquellas que sólo adquieren un valor absoluto o específico
que nunca cambian. Pueden ser cualitativas. Ejemplo: el sexo, nacionalidad, grupo étnico, entre
otras.
VARIABLES CONTINUAS - que siempre son cuantitativas, son las que pueden asumir
cualquier valor. Por ejemplo, la edad, altura, peso, índice académico.

En el campo de la investigación, que se suele examinar las relaciones entre dos o más variables al
investigar un asunto o problema, se clasifican las variables como:

VARIABLES INDEPENDIENTES - son las características controladas por el investigador y
que se supone tendrán efectos sobre otras variables.


                                                                                                14
VARIABLES DEPENDIENTES - son las características o aspectos que se alteran por
consecuencia del control que ejerce el investigador sobre otras variables.
Estos dos últimos tipos de variables suelen darse más en estudios o investigaciones
experimentales, pero también podemos considerarlas en estudios descriptivos. Por ejemplo, en un
estudio experimental se investiga si un nuevo medicamento mejora las condiciones del sida. A
tales efectos se seleccionaron 30 pacientes, de los cuáles 15 recibían el nuevo medicamento
(grupo experimental) y otros 15 continuaban con su tratamiento tradicional (grupo control). El
nuevo medicamento viene a ser la variable independiente porque es la que los investigadores
controlan y que luego examinarán sus efectos en la condición del sida, la cual viene a ser la
variable dependiente, porque es la condición que se va alterar o quedar afectada por el nuevo
medicamento.
En un estudio descriptivo donde interesa saber si la clase social es factor determinante en el
aprovechamiento académico en las escuelas, entonces la clase social es la variable independiente
y el aprovechamiento académico la dependiente.

Una variable puede ser independiente en una investigación y dependiente en otra, todo dependerá
de la finalidad de la investigación. Por ejemplo, si se lleva a cabo un estudio para determinar
cómo las condiciones socio-económicas influyen a la drogadicción, en este caso, status socio-
económico es una variable independiente. Por el contrario, si se lleva a cabo una investigación
para saber cómo la drogadicción afecta las condiciones sociales y económicas, entonces, el status
socio-económico resultaría ser la variable independiente.

DATOS: son los hechos que describen sucesos y entidades.

1.5. Escalas de medición
Una escala es un esquema específico para asignar números o símbolos con el objeto de designar
características de una variable. Las escalas de medición comúnmente conocidas son: nominales,
ordinales, de intervalos y de razón. A continuación veamos los cuatro tipos de escalas de
medición.


1.5.1. Escalas nominales


Las escalas nominales son aquellas donde se clasifican los objetos, personas o variables en
categorías cualitativamente distintas. Consiste simplemente en agrupar objetos en clases o asignar
las personas de acuerdo a alguna cualidad una vez que los objetos o personas posean
características comunes que lo hagan pertenecer a una categoría. Por ejemplo, todos los
estudiantes que obtuvieron sobre 9 puntos fueron clasificados como excelentes, los que
obtuvieron menos de 8.9 pero más de 8.0 como muy buenos y de 7.0 a 7.9 como buenos. En una
redada de drogas se arrestaron 22 mareros, cuatro acusados de homicidios, ocho acusados de
violación y diez por extorciones.

Se pueden utilizar números en las escalas nominales, pero éstos no representan magnitudes
absolutas. Los números sólo se utilizan con el propósito de clasificarlos a determinada categoría.

                                                                                               15
Por ejemplo, si vas a comprar pintura azul en la ferretería te presentan una escala con diferentes
tonalidades del color azul y cada tonalidad posee un número, pero este número sólo es para
facilitar al vendedor identificar el color solicitado entre cientos de colores. De igual modo en
muchas solicitudes se le asigna el número 1 al sexo masculino y número dos al femenino y esta
clasificación sólo es para facilitar los cómputos y manejos de información estadística, pero no
quiere decir que los masculinos tengan más o menor valor que las del sexo femenino. Los
números que se utilizan para efectos de identificación en una escala nominal nunca se utilizarán
para llevar a cabo los procedimientos matemáticos de suma, resta, multiplicación y división.



1.5.2. Escalas ordinales

Las escalas ordinales son las que clasifican a las personas, eventos u objetos en una posición con
relación a cierto atributo, pero sin indicar la distancia que hay entre las posiciones. Cuando se
asignan números es sólo para indicar el orden de las posiciones de lo que se está clasificando. Por
ejemplo, en un determinado grupo escolar se decidió seleccionar los cinco estudiantes con el
promedio más alto para premiarlos con un viaje al Lago de Coatepeque y resultó que Esteban
quedó tercero con un promedio de 8.90, seguido de Jorge con 8.88 y, luego Leticia con 8.75.
Esteban como tercero se le asigna el número tres, pero ésta designación numérica sólo indica su
posición con relación a los otros cuatro alumnos. Sabemos que Esteban tiene un mejor promedio
que Jorge y que su promedio es superior que el de Leticia. Sin embargo, no podremos saber hasta
qué punto es mejor su promedio comparado con los otros.

Con las escalas ordinales tampoco se pueden llevar a cabo las operaciones aritméticas de suma,
resta, multiplicación y división. La diferencia que puede haber entre unas personas u objetos en
este tipo de escala no necesariamente constituye unidades iguales o absolutas que puedan
utilizarse para determinar si el que tiene un segundo lugar posee el doble valor que el que queda
en cuarta posición. Por ejemplo, en un evento atlético de una carrera que no haya sido
cronometrada, podemos saber quién llegó primero, segundo y tercer lugar, pero no podemos
saber con precisión la velocidad entre un corredor y otro. La diferencia que hay entre el primero y
el segundo no necesariamente es igual a la que hubo entre el segundo y el tercero.


1.5.3. Escalas de intervalos
Las escalas de intervalos son aquellas que ordenan los objetos o eventos según la magnitud del
atributo que representan y proveen intervalos iguales entre las unidades de medida. Además, no
poseen un punto cero absoluto o verdadero ya que el mismo es establecido por convención de
forma arbitraria por los expertos en el área o materia de estudio y no implica la ausencia del
atributo o la propiedad en cuestión. Por ejemplo, la escala de inteligencia posee un punto cero,
pero administrando cualquier tipo de prueba que intente medir la inteligencia, nunca va a
encontrar un ser humano con cero inteligencia. De igual modo si el agua está en 0 grado °C, esto
no quiere decir que carezca de temperatura, ya que en una escala de intervalos, como se ha
indicado, es una designación arbitraria y convencional.

Una diferencia de cierta magnitud en una escala de intervalos significa lo mismo en todos los
puntos de la escala. Así por ejemplo, en los termómetros de grados Fahrenheit y centígrados que
                                                                                                16
utilizan este tipo de escalas, están divididos en unidades iguales, la diferencia en la temperatura
entre 100 grados y 101 grados es equivalente a la diferencia entre 110 grados y 111 grados.

La numeración de los años en nuestro calendario utiliza también una escala de intervalos. Las
autoridades eclesiásticas y gubernamentales de la época decidieron arbitrariamente fijar como el
año 1 el del nacimiento de Cristo y como unidad de medida un lapso de 365 días. Por lo tanto, el
lapso de tiempo que estuvo Bill Clinton como presidente de los Estados Unidos desde 1993 –
2001 es igual al que transcurrió George Bush desde 2001 – 2009.


1.5.4. Escalas de razones o cocientes
Las escalas de razones o cocientes se diferencian de las de intervalos solamente en que la de
razones el punto cero no es arbitrario y corresponde a una total ausencia del asunto o propiedad
estudiada. La escala de una simple regla de 12 pulgadas posee una escala de razones la cual está
dividida en 12 unidades cada una de igual magnitud y parte de un punto cero absoluto y
verdadero.

La mayoría de las variables con las cuales se utiliza este tipo de escalas se refieren más a la
ejecución de tareas motoras, a las medidas de objetos y de aspectos fisiológicos.

Dos ejemplos de las escalas de razones y cocientes son: las medidas de la estatura y el peso. Si
una columna mide seis metros es el doble de alto de otra columna que mide tres metros. Si
Enrique pesa 180 libras, entonces pesa el doble que María quién pesa 90 libras. Las razones de
los números en estas escalas tienen un determinado sentido, lo que hace posible que se
interpreten los valores numéricos entre las cantidades obtenidas de los objetos.
Además pueden llevarse a cabo las diferentes operaciones matemáticas.

RESUMEN: CARACTERÍSTICAS, EJEMPLOS Y LIMITACIONES
DE LAS ESCALAS DE MEDICIÓN
ESCALA      CARACTERÍSTICAS                          USOS/EJEMPLOS                            LIMITACIONES

Nominal     Se clasifican las personas, eventos u    Denominaciones religiosas, afiliación    No se pueden precisar diferencias
            objetos en categorías.                   político partidista, codificaciones en   cuantitativas entre las categorías.
                                                     la clasificación de objetos, pinturas,
                                                     movimientos literarios.
Ordinal     Se clasifican u ordenan las              Orden de llegada de atletas en una       Restringida      para     Identificar
            personas, objetos y eventos en           carrera, puntuaciones de una prueba,     diferencias relativas, pero no
            determinada posición.                    rangos militares, nivel de popularidad   precisa diferencias en cantidad
                                                     de estudiantes en una escuela.           absoluta entre personas u objetos.
Intervalo   Escala que posee unidades de igual       Temperaturas (Celsius y Fahrenheit),     Razones no tienen sentido ya que el
            magnitud. El punto cero de la escala     fechas del calendario, escala de         punto     cero     es    establecido
            es arbitrario y no refleja la ausencia   inteligencia.                            convencionalmente.
            del atributo.
Razones     Escala que posee un punto                Distancia, peso,  estatura, tiempo       Ninguna, excepto que su uso se
            cero absoluto e intervalos de igual      requerido para realizar una tarea        supedita mayormente a medir
            magnitud.                                escolar.                                 cualidades físicas más que para la
                                                                                              medición de aspectos psicológicos.




                                                                                                                               17
1.6. Diseño de Experimentos estadísticos.
El diseño de un experimento es la secuencia completa de los pasos que se deben tomar de
antemano, para planear y asegurar la obtención de toda la información relevante y adecuada al
problema bajo investigación, la cual será analizada estadísticamente para obtener conclusiones
válidas y objetivas con respecto a los objetivos planteados.
Un Diseño Experimental es una prueba o serie de pruebas en las cuales existen cambios
deliberados en las variables de entrada de un proceso o sistema, de tal manera que sea posible
observar e identificar las causas de los cambios que se producen en la respuesta de salida.

El propósito de cualquier Diseño Experimental, es proporcionar una cantidad máxima de
información pertinente al problema que se está investigando. Y ajustar el diseño que sea lo más
simple y efectivo; para ahorrar dinero, tiempo, personal y material experimental que se va a
utilizar. Es de acotar, que la mayoría de los diseños estadísticos simples, no sólo son fáciles de
analizar, sino también son eficientes en el sentido económico y en el estadístico.
De lo anterior, se deduce que el diseño de un experimento es un proceso que explica tanto la
metodología estadística como el análisis económico.

DISEÑO: Consiste en planificar la forma de hacer el experimento, materiales y métodos a usar,
etc.

EXPERIMENTO: Conjunto de pruebas o ensayos cuyo                           objetivo   es   obtener
información, que permita mejorar el producto o el proceso en estudio.

1.7. Guía de ejercicios N° 1.
   1. Contestar verdadero o falso y comentar su respuestas según sea el caso:
   a) La Estadística es una ciencia que estudia y describe las características de un conjunto de
       casos.
   b) La estadística inferencial generaliza los resultados de una muestra a los de la población
       total.
   c) Durante los últimos dos días se ha informado de un total de cinco homicidios diarios en
       San Salvador, este es un ejemplo de estadística inferencial.
   d) A las medidas que se obtienen de una muestra se les da el nombre de parámetro.
   e) En una muestra aleatoria ciertos elementos tienen mayor probabilidad que otros de ser
       seleccionados.
   2. Mediante ejemplos, explicar la diferencia entre la estadística descriptiva y estadística
       inferencial.




                                                                                                  18
3. POBLACIÓN - es el conjunto total de individuos, objetos o medidas que poseen algunas
    características comunes observables en un lugar y en un momento determinado. A partir
    de esta definición enumere las características de una población.
4. Describir dos ejemplos de población.
5. Describir dos ejemplos de muestra de una población.
6. Definir al menos dos tipos de muestreo y dar ejemplos de aplicación de cada uno.
7. Se desea estimar la edad promedio de los estudiantes de la asignatura de Tratamiento de
    la Información Estadística. Se sabe que la edad de un estudiante es una variable aleatoria
    con distribución normal con desviación estándar de 6años. Determine el tamaño de
    muestra aleatoria necesaria para garantizar una probabilidad igual a 0.95 de que el
    estimador y el parámetro se diferencien en menos de 5años.
8. Establecer las diferencias entre la unidad de análisis y la unidad muestral.
9. Establecer las diferencias entre variables cualitativas y cuantitativas.
10. Definir al menos dos ejemplos de variables cualitativas y de variables cuantitativas.
11. Establecer las diferencias entre variables discretas y continuas.
12. Definir al menos dos ejemplos de variables discretas y de variables continuas.
13. Definir las siguientes escalas de Medición y presentar dos ejemplos de cada una de ellas:
   Escala nominal
   Escala ordinal
   Escala de intervalo.
   Escala de razón




                                                                                            19
Capítulo 2. Distribuciones de frecuencias y sus
representaciones gráficas.


2.1. Estadística Descriptiva con una variable
La estadística descriptiva permite organizar y presentar un conjunto de datos de manera que
describan en forma precisa las variables analizadas haciendo rápida su lectura e interpretación.
Obviamente, la materia prima de la Estadística Descriptiva la constituyen los datos, que son el
resultado de las observaciones y/o experimentos. Se denomina variable al carácter o fenómeno de
la realidad objeto de estudio. Las variables pueden ser de diferentes tipos, dependiendo de los
datos que la forman.


          Cualitativas o atributos
Variables 
          Cuantitativas : Discretas o Continuas


Las variables cualitativas o atributos son aquellas que no toman valores numéricos. Describen
diferentes cualidades denominadas modalidades. Ejemplo: Sexo, estado civil, color de los ojos,
etc. Las variables cualitativas están formadas por datos que toman valores numéricos y pueden
ser discretas, si sólo toman un número entero de valores, y continuas, si pueden tomar cualquier
valor real dentro de un intervalo.

Entre los sistemas para ordenar los datos se encuentran principalmente dos: a) la distribución de
frecuencias y b) la representación gráfica.



2.1.1. Distribución de frecuencias

Supongamos que hemos recogido un conjunto de n datos englobados en una variable X. La tabla
que recoge de modo sistemático estos datos se denomina distribución de frecuencias. La
Distribución de Frecuencias (Simples o agrupadas en intervalos). Comúnmente llamada tabla de
frecuencias, se utiliza para hacer la presentación de datos provenientes de las observaciones
realizadas en el estudio, estableciendo un orden mediante la división en clases y registro de la
cantidad de observaciones correspondientes a cada clase. Lo anterior facilita la realización de un
mejor análisis e interpretación de las características que describen y que no son evidentes en el
conjunto de datos brutos o sin procesar.




                                                                                               20
La siguiente tabla recoge las principales características de una distribución de frecuencias simple
o no agrupada.

Datos             Frecuencias Absolutas               Frecuencias Relativas
                  Simples        Acumuladas           Simples        Acumuladas
        x1             n1        N1  n1               f1  n1 / n   F1  N1 / n
        x2               n2         N 2  n1  n2         f 2  n2 / n   F2  N 2 / n
        .                .          .                 .                  .
        .                .          .                 .                  .
        .                .          .                 .                  .
        xk               nk                k
                                                          f k  nk / n   Fk  N k / n
                                    N k   ni
                                          i 1

Total              k                                      k

                   ni  n
                  i 1
                                                       f
                                                       i 1
                                                              i   1


La primera columna representa los distintos valores de esos datos y la segunda la frecuencia
simple, es decir, el número de veces que se ha observado el correspondiente valor; la tercera
columna recoge la frecuencia acumulada (número de veces que se han observado valores
menores o iguales que el que corresponde a dicha fila). Las frecuencias relativas se obtienen a
partir de las frecuencias absolutas, dividiendo por el tamaño de la muestra.


2.1.2. Descripción de Variables Cualitativas


DISTRIBUCIÓN DE FRECUENCIAS

● Supongamos que tenemos N observaciones de una variable cualitativa.
● Supongamos que la variable puede tomar valores pertenecientes a k clases o categorías:



                Verde
                 Azul
                
Color de ojos          k 4
                 Marron
                 Negro
                

● Representamos mediante n1, n2, …, nk el número de datos que aparecen en cada una de las k
  categorías.
● Frecuencia absoluta de la clase i-ésima (ni): número de observaciones en la clase i.

                                                                                                21
● Frecuencia relativa de la clase i-ésima (fi): es la proporción de datos en la clase i-ésima, es

   decir, f  ni .
           i
                   N
   -    La suma de las k frecuencias relativas es igual a la unidad: f1 + f2 +…+ fk=1

   -    Nos permiten comparar las frecuencias de las categorías en conjuntos de datos con
        distinto número de observaciones

● Distribución de frecuencias: es la tabla que presenta las categorías de una variable y sus
  respectivas frecuencias.
   -    Nos indica cómo se distribuye la frecuencia total entre las categorías
   -  Es el resumen más importante de la información contenida en una variable cualitativa
   Ejemplo 1: nivel educativo

   Se ha clasificado a 20 individuos según su nivel de estudios que puede tomar valores:



                      1      sin estudios
                      2
                             primarios
    Nivel educativo  
                      3       medios
                      4
                              sup eriores

   y se han obtenido los siguientes datos:

   1 1 4 3 3 3 2 2 4 2 2 1 4 2 3 2 3 4 2 3;

   N=20; k=4

Frecuencias absolutas:

n1=3; n2=7; n3=6; n4=4    N  n1  n2  n3  n4  3  7  6  4  20

Frecuencias relativas:

         3                       7                         6               4
 f1        0,15;        f2        0,35;         f3        0,3; f 4      0,2
        20                       20                        20              20

 f1  f 2  f 3  f 4  0,15  0,35  0,3  0,2  1


                                                                                              22
Distribución de frecuencias:

               Categorías                         ni                          fi

               1. Sin estudios                    3                         0,15

                2. Primaria                       7                         0,35

                 3. Media                         6                          0,3

                4. Superior                       4                          0,2

                                             N=20                             1

   La categoría más frecuente es la de estudios primarios y la menos frecuente la de sin estudios

REPRESENTACIÓN GRÁFICA DE LA DISTRIBUCIÓN DE FRECUENCIAS

   A) Diagrama de barras: Permite visualizar de forma sencilla la distribución de una variable
      cualitativa. Se dibuja sobre cada categoría una barra (o rectángulo) cuya altura coincida
      con la frecuencia absoluta o relativa de dicha clase.

       Ejemplo: Nivel de estudios (Continuación ejemplo 1)

       Frecuencias relativas fi

        0.40

        0.35

        0.30

        0.25

        0.20

        0.15

        0.10
                       1          2           3           4



  B)    Diagrama de Pareto: Es como un diagrama de barras en el que se ordenan las clases de
       mayor a menor frecuencia (absoluta o relativa). En la parte superior de la figura suele
       trazarse una línea que representa la suma de la frecuencia de cada clase y las que la
       preceden, esto se usa para identificar la minoría de las características que representan la
       mayoría de casos.



                                                                                               23
        A principios del Siglo XX, Vilfredo Pareto (1848-1943), un economista italiano, realizó
        un estudio sobre la riqueza y la pobreza. Descubrió que el 20% de las personas
        controlaba el 80% de la riqueza en Italia.

 La gráfica de Pareto es una herramienta sencilla pero poderosa al permitir identificar
visualmente en una sola revisión las minorías de características vitales a las que es importante
prestar atención.

Algunos ejemplos de tales minorías vitales son:
    La minoría de clientes que representan la mayoría de las ventas.
    La minoría de productos, procesos, o características de la calidad causantes del grueso de
      desperdicio de los costos de retrabajos.

       Ejemplo: Nivel educativo (Continuación ejemplo 1)

       Frecuencias relativas fi (Gráfico de Pareto)

        0.40

        0.35


        0.30


        0.25

        0.20


        0.15


        0.10
                       2            3             4             1




       f2=0,35

       f2+ f3=0,35+0,3=0,65

       f2+ f3+ f4=0,35+0,3+0,2=0,85

       f2+ f3+ f4+f1=0,35+0,3+0,2+0,15=1

       Un 35 por ciento de la población llega hasta la educación primaria y el 65 por ciento de la
       población tiene un nivel educativo primario o media.




                                                                                                   24
   Diagrama de Pareto

    1.0


    0.8


    0.6


    0.4


    0.2


    0.0
                  2           3            4             1



   En el diagrama anterior se observa que el 65 por ciento de la población, tiene un nivel
   educativo primaria o media.


   C) Pictograma: Es una forma de representar las cantidades estadísticas por medio de
   dibujos, utilizando para ello objetos y figuras. Las figuras empleadas deben explicarse por
   sí mismas.


   Ejemplo: Nivel de educativo (Continuación).

a) Distribución de frecuencias:

           Categorías                     ni                              fi
    1.    Sin estudios                    3                             0,15
    2.    Primario                        7                             0,35
    3.    Medio                           6                              0,3
    4.    Superior                        4                              0,2
                                         N=20                             1


b) Elaboración del Pictograma (Ejercicio para el estudiante)




                                                                                           25
Ejemplo: Variable socioeconómica (SOC): La variable SOC describe la categoría
socioeconómica:

      1 trabajadores agrarios
       2 empresarios agrarios
      
      3 obreros
      
SOC   4 autonomos
      5 clase media
      
      6 clase alta
      7 retirados
      

Los datos de 75 hogares (o unidades de gasto) son:

373535157553351132231 375333555775142 173433353 36
6 727133253722 752276153533343

(a)    Obtener las frecuencias absolutas de cada una de las categorías.

       n1=8           n2=9           n3=25 n4=3            n5=16

       n6=3           n7=11

(b)    Calcular las frecuencias relativas y mostrar la distribución de frecuencias

               n1   8                                n2   9
        f1           0,11                 f2            0,12
               N 75                                  N 75
               n3 25                                 n4   3
        f3          0,33                  f4             0,04
               N 75                                  N    75
               n   16                                n6   3
        f 
         5
                5
                      0,21                 f6             0,04
               N   75                                N    75
               n7 11
        f7          0,15
               N 75
       Nótese que:

                                                           7
        f1  f 2  f 3  f 4  f 5  f 6  f 7          f
                                                          i1
                                                                i   1



                                                                                     26
          Distribución de frecuencias:

                    Categoría                    ni                            fi
     1.    Trabajadores agrarios                  8                          0,11
     2.    Empresarios agrarios                   9                          0,12
     3.    Obreros                               25                          0,33
     4.    Autónomos                              3                          0,04
     5.    Clase media                           16                          0,21
     6.    Clase alta                             3                          0,04
     7.    Retirados                             11                          0,15
                                                N=75                           1


          (c)    Construir el diagrama de Pareto

                  1.0


                  0.8


                  0.6


                  0.4


                  0.2


                  0.0
                            3      5      7        2    1       4       6




                 f3=0,33;       f3+f5=0,33+0,21=0,54

                 f3+f5+f7=0,33+0,21+0,15=0,69

                 f3+f5+f7+f2=0,33+0,21+0,15+0,12=0,81

                 f3+f5+f7+f2+f1=0,33+0,21+0,15+0,12+0,11=0,92

                 f3+f5+f7+f2+f1+f4=0,33+0,21+…+0,11+0,04=0,9

                 F3+F5+F7+F2+F1+F4+F6=0,33+0,21+…+0,04+0,04=1

El 33 por ciento de la población son obreros y el 54 por ciento de la población son obreros o clase
media, y así sucesivamente.




                                                                                                27
Gráfico de sectores:
En el caso de variables cualitativas el diagrama circular se utiliza con mucha frecuencia. Consiste
en representar sobre un círculo los diferentes atributos, mediante un sector circular de ángulo
proporcional a la correspondiente frecuencia. El ángulo de cada sector circular se calcula
multiplicando por 360º la frecuencia relativa.

Los gráficos de sectores, también conocidos como diagramas de "tartas o pastel", se divide un
círculo en tantas porciones como clases tenga la variable, de modo que a cada clase le
corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa. Si el número de
categorías es excesivamente grande, la imagen proporcionada por el gráfico de sectores no es lo
suficientemente clara y por lo tanto la situación ideal es cuando hay alrededor de cuatro
categorías. En este caso se pueden apreciar con claridad dichos subgrupos.


Ejemplo.
La población según nivel de estudio del Municipio de Ayutuxtepeque se presenta en el siguiente
cuadro:

           Primaria o Educación Superior no Técnico         Superior
Parvularia básica     media     universitaria universitario universitaria Maestría Doctorado Total
      1168     15895       6842          499           363          4556        70         7 29400
       Fuente: VI Censo de Población y V de Vivienda, El Salvador, 2007.
Elaborar un gráfico de sectores.
Se tienen 8 categorías, por lo tanto debe aparecer el círculo dividido en 8 porciones. La tabla
anterior presenta las frecuencias absolutas, habrá que dividir cada dato por el total (29,400) a fin
de obtener la frecuencia relativa y luego multiplicar esta última por 100. Por ejemplo, para la
categoría de educción básica: (15,895/ 29,400)*100 = 54,06%. Observe que no se ha
multiplicado por 360°, ya que es más ilustrativo el porcentaje (Así trabaja Excel).

Figura 2. Nivel educativo de la población de Ayutuxtepeque, por ciento.




Es evidente que la mayoría de la población tiene un nivel educativo básico o media con el
54.06% y 23.27% respectivamente. En general la población de Ayutuxtepeque tiene un nivel
educativo relativamente bajo, son muy pocos los que llegan a hacer estudios universitarios.

                                                                                                 28
 2.1.3. Variables cuantitativas discretas.


Diagrama de Barras:
Para el caso de distribuciones de frecuencias no agrupadas en intervalos, el diagrama de barras es
el gráfico más empleado. Que se usa cuando se pretende resaltar la representación de porcentajes
o frecuencias de datos que componen un total. Una gráfica de barras contiene barras verticales
que representan valores numéricos. Las frecuencias están asociadas con categorías. Una gráfica
de barras se presenta de dos maneras: horizontal o vertical. El objetivo es poner una barra de
largo (alto si es horizontal) igual a la frecuencia. La gráfica de barras sirve para comparar y tener
una representación gráfica de la diferencia de frecuencias o de intensidad de la característica
numérica de interés. Si en vez de frecuencias simples utilizamos frecuencias acumuladas,
tenemos el llamado diagrama de escalera.

Ejemplo. Con la información del VI Censo de Población y V de Vivienda, El Salvador, 2007, se
han clasificado las mujeres de El Salvador de 12 años y más, según el número de hijos varones,
resultando los siguientes datos.

N° Hijos                    Construir un gráfico de barras para el número de hijos varones de las
Varones         Madres      mujeres salvadoreñas.
            0      278290
            1      509469
            2      339180
            3      177050
            4       92233
            5       50916
            6       27791
            7       15004
            8        7328
           9+        7366

Ejemplo.
La población según condición de ocupación del Municipio de Ayutuxtepeque se presenta en el
siguiente cuadro:
                       OCUPADOS DESOCUPADOS INACTIVOS Total
ÁREA URBANA                10966        2832      8531      22329
EL ZAPOTE                    329          42       477        848
LOS LLANITOS                2410         227      2550       5187
 Total                     13705        3101     11558      28364
       Fuente: VI Censo de Población y V de Vivienda, El Salvador, 2007.

Elaborar un gráfico de barras para la población total de Ayutuxtepeque según su condición de
ocupación.


                                                                                                  29
2.2. Distribución de frecuencias agrupadas.
Cuando en la muestra existen muchos valores diferentes y mucha variabilidad se recomienda, aún
a costa de perder información, agrupar los datos en clases, en lo que se denomina distribución de
frecuencias agrupada en intervalos.

Clase          Marca Frecuencias Absolutas           Frecuencias Relativas
               Clase Simples    Acumuladas           Simples          Acumuladas
L0   L1      x1    n1          N1  n1              f1  n1 / n     F1  N1 / n
L1   L2      x2    n2          N 2  n1  n2            f 2  n2 / n    F2  N 2 / n
.              .       .             .                .                   .
.              .       .             .                .                   .
.              .       .             .                .                   .
Lk 1   Lk   xk       nk                  k
                                                          f k  nk / n    Fk  N k / n
                                     N k   ni
                                           i 1

Total                      k                              k

                        ni  n
                        i 1
                                                      f
                                                      i 1
                                                              i   1


A cada uno de los intervalos se les denomina clase y al punto medio marca de clase. A efectos de
cálculo la marca de clase se elige como representante del intervalo. El número de clases en que se
dividen los datos no debe ser excesivo. A modo orientativo, el número de clases se puede obtener
mediante la siguiente fórmula empírica, llamada de Sturges:
                      3 log(n)
número de clases                  (Tomar la parte entera)
                      2 log(2)



                                                                                               30
Ejemplo. Población de El Salvador, por sexo y edad, año 2007..
Edad Hombre Mujer Total  Edad Hombre Mujer Total Edad Hombre Mujer Total
 < 1 51787 50097 101884 36     31398 40111 71509 72    8591 10717 19308
  1   53230 51477 104707 37    31414 38801 70215 73    7461  9522 16983
  2   55845 54261 110106 38    29639 37419 67058 74    8011 10030 18041
  3   59752 57127 116879 39    29435 37454 66889 75    8067  9886 17953
  4   62658 59659 122317 40    31769 39411 71180 76    7535  9745 17280
  5   62274 59738 122012 41    24732 32964 57696 77    6897  8872 15769
  6   69088 66249 135337 42    26840 34653 61493 78    5825  7123 12948
  7   75310 72672 147982 43    24578 32639 57217 79    5334  6700 12034
  8   71525 68511 140036 44    24299 31746 56045 80    5717  7089 12806
  9   70953 68407 139360 45    24451 31422 55873 81    4124  5274 9398
 10   74244 70664 144908 46    21989 29308 51297 82    3841  5220 9061
 11   71744 69499 141243 47    22251 28713 50964 83    3438  4508 7946
 12   74093 72835 146928 48    20682 26481 47163 84    3281  4378 7659
 13   68251 66194 134445 49    20584 26241 46825 85    3263  4413 7676
 14   71191 67632 138823 50    22897 28057 50954 86    3096  4286 7382
 15   64523 63752 128275 51    17664 22874 40538 87    2750  3758 6508
 16   61880 61630 123510 52    19081 24360 43441 88    1767  2358 4125
 17   61255 61624 122879 53    17671 22344 40015 89    1595  2219 3814
 18   57590 58584 116174 54    17962 22824 40786 90    1405  2091 3496
 19   53136 56591 109727 55    17848 22561 40409 91     786  1143 1929
 20   50243 55085 105328 56    17114 21361 38475 92     826  1206 2032
 21   45994 51623 97617   57   16816 20974 37790 93     673   990   1663
 22   46006 51429 97435   58   14462 17853 32315 94     559   869   1428
 23   42864 49278 92142   59   15478 18608 34086 95     482   816   1298
 24   42894 51126 94020   60   17461 19979 37440 96     416   674   1090
 25   42616 50552 93168   61   12470 15424 27894 97     356   588   944
 26   41993 50707 92700   62   13590 17093 30683 98 +   526   948   1474
 27   43473 52214 95687   63   12274 15528 27802
 28   39209 48076 87285   64   12412 15633 28045
 29   39672 49378 89050   65   12802 15513 28315
 30   41911 50744 92655   66   11774 14915 26689
 31   33494 42933 76427   67   11864 14597 26461
 32   35940 45312 81252   68   9694  12291 21985
 33   33124 41990 75114   69   9647  12060 21707
 34   33931 42870 76801   70   10861 13101 23962
 35   34628 42848 77476   71   8525  10638 19163
      Fuente: VI Censo de Población y V de Vivienda, El Salvador, 2007.
Elabore una tabla de frecuencias agrupadas por edad.


                                                                          31
2.2.1 Representación gráfica de variables continuas

Histogramas y polígono de frecuencias.
El histograma y el polígono de frecuencias son las representaciones gráficas usadas para
distribuciones de frecuencias agrupadas en intervalos. El histograma se construye dibujando en
cada clase un rectángulo de base la amplitud del intervalo y de altura se representan las
frecuencias. Si desde el extremo superior de cada una de las barras que representan los intervalos
de clase se hace una marca en el punto medio y luego se unen los puntos por línea recta se
obtiene el polígono de frecuencias.

El polígono de frecuencias se lleva hasta el eje horizontal en los extremos hasta los puntos que
serían los puntos medios si hubiera una clase adicional en cada extremo del histograma
correspondiente. Esto permite que el área total quede incluida. Es decir, el área total bajo el
polígono de frecuencias equivale al área bajo el histograma.
Ejemplo: Estatura de los estudiantes de clase (ejercicio práctico)

Ejemplo:
El siguiente cuadro presenta el número de homicidios para los años 2004, 2005, 2006, 2007 y
2008, para los municipios de Soyapango, Ilopango y San Martín.
   Grupos        SOYAPANGO                ILOPANGO                 SAN MARTÍN
      de
    edades Femenino Masculino Total Femenino Masculino Total Femenino Masculino Total
                                          AÑO 2004
   Total      15      167      182     12        78     90      11       42      53
                                          AÑO 2005
   Total      14      228      242      5        74     79      11       75      86
                                        AÑO 2006
   Total      16      246      262     15        69     84       6       48      54
                                          AÑO 2007
   Total      20      179      199     10        67     77       8       71      79
                                          AÑO 2008
   Total      10      128      138      9        66     75       7       54      61
Fuente: Fuente estadísticas de homicidios de Instituto de Medicina Legal. Los cadáveres que no se pudo identificar
el sexo, no aparecen registrados en el cuadro anterior.
Utilizar la mejor representación gráfica para la información anterior (Diagrama de barras e
histogramas)




                                                                                                               32
2.3. Guía de ejercicios N° 2.
Distribución de frecuencias y sus representaciones gráficas.

  1. Las calificaciones de 50 alumnos en Matemáticas han sido las siguientes:
     5, 2, 4, 9, 7, 4, 5, 6, 5, 7, 7, 5, 5, 2, 10, 5, 6, 5, 4, 5, 8, 8, 4, 0, 8, 4, 8, 6, 6, 3, 6, 7, 6, 6, 7,
     6, 7, 3, 5, 6, 9, 6, 1, 4, 6, 3, 5, 5, 6, 7.
  Construir la tabla de distribución de frecuencias y dibuja el diagrama de barras.

  2. Los pesos de los 65 empleados de una fábrica vienen dados por la siguiente tabla:
                [50,       [60,                                [90,         [100,          [110,
       Peso                            [70, 80)     [80,90)
                60)        70)                                 100)         110)           120)

       fi       8          10          16           14         10           5              2

      a) Construir la tabla de frecuencias.
      b) Representar el histograma y el polígono de frecuencias.

  3. Los 40 alumnos de una clase han obtenido las siguientes puntuaciones, sobre 50, en un
      examen de Física.
  3, 15, 24, 28, 33, 35, 38, 42, 23, 38, 36, 34, 29, 25, 17, 7, 34, 36, 39, 44, 31, 26, 20, 11, 13,
  22, 27, 47, 39, 37, 34, 32, 35, 28, 38, 41, 48, 15, 32, 13.

  a) Construir la tabla de frecuencias agrupadas en intervalos de amplitud 5 unidades.
  b) Dibujar el histograma y el polígono de frecuencias.

  4. Se ha realizado una encuesta en 30 hogares en la que se les pregunta el nº de individuos
     que conviven en el domicilio habitualmente. Las respuestas obtenidas han sido las
     siguientes: 4, 4, 1, 3, 5, 3, 2, 4, 1, 6, 2, 3, 4, 5, 5, 6, 2, 3, 3, 2, 2, 1, 8, 3, 5, 3, 4, 7, 2, 3.

  a) Calcule la distribución de frecuencias de la variable obteniendo las frecuencias absolutas,
     relativas y sus correspondientes acumuladas.
  b) ¿Qué proporción de hogares está compuesto por tres o menos personas? ¿Qué proporción
     de individuos vive en hogares con tres o menos miembros?
  c) Dibuje el diagrama de barras de frecuencias y el diagrama en escalera.

  5. Una entidad bancaria dispone de 50 sucursales en el territorio nacional y ha observado el
     número de empleados que hay en cada una de ellas para un estudio posterior. Las
     observaciones obtenidas han sido: 12, 10, 9, 11, 15, 16, 9, 10, 10, 11, 12, 13,14,15, 11, 11,
     12, 16, 17, 17,16,16, 15, 14, 12, 11, 11, 11, 12, 12, 12, 15, 13, 14, 16, 15, 18, 19, 18, 10,
     11, 12, 12, 11, 13, 13, 15, 13, 11, 12.

      a) Calcule la distribución de frecuencias de la variable obteniendo las frecuencias
         absolutas, relativas y sus correspondientes acumuladas.
      b) ¿Qué proporción de sucursales tiene más de 15 empleados?
                                                                                                             33
       c) Dibuje el diagrama de barras y el diagrama en escalera correspondientes.
       d) Agrupe en intervalos de amplitud 3 los valores de la variable, calcule su distribución
          de frecuencias y represente su histograma y su polígono de frecuencias.

   6. Los siguientes valores son los    niveles de glucosa en sangre extraída a 100 niños en
      ayunas:
                        56 61 57        77   62   75   63   55   64   60
                        60 57 61        57   67   62   69   67   68   59
                        65 72 65        61   68   73   65   62   75   80
                        66 61 69        76   72   57   75   68   81   64
                        69 64 66        65   65   76   65   58   65   64
                        68 71 72        58   73   55   73   79   81   56
                        65 60 65        80   66   80   68   55   66   71
                        72 73 73        75   75   74   66   68   73   65
                        73 74 68        59   69   55   67   65   67   63
                        67 56 67        62   65   75   62   63   63   59

          a. Elabore una distribución de frecuencias
          b. Un histograma y un polígono de frecuencias.
   7. Los siguientes datos representan las ventas de tabaco en España durante el año 1992, en
      millones de cajetillas, según marcas:

                                  Marcas               Ventas
                                  Ducados              1,107
                                  Fortuna              1,041
                                  Marlboro             535
                                  Winston (1)          333
                                  Lucky Strike (1)     164
                                  Chesterfiel          110
                                  Otros marcas         725

           a. Calcular el porcentaje de ventas de cada marca sobre el total.
           b. Representar los datos anteriores mediante un diagrama circular


   8. Las edades de los empleados de una determinada empresa son las que aparecen en la
      siguiente tabla:
       Edad                                      N° de empleados
       Menos de 25                               22
       Menos de 35                               70
       Menos de 45                               121
       Menos de 55                               157
       Menos de 65                               184

Sabiendo que el empleado más joven tiene 18 años, escríbase la distribución de frecuencias para
datos agrupados (amplitud del intervalo definida según su conveniencia).

                                                                                              34
Capítulo 3. Medidas Características de una
Distribución Cuantitativa Empírica.

3.1 Medidas de posición

Los promedios o medidas de posición proporcionan valores típicos o representativos de la
variable en estudio. Podemos hablar de medidas de posición centrales, como la media (aritmética,
geométrica y armónica), la mediana y la moda y medidas de posiciones no centrales, como los
cuartiles, quintiles, deciles y percentiles.

La media aritmética es la medida de posición más utilizada (esta muy influenciada por los valores
extremos de la variable). Viene definida como la suma de los datos divido por el número de ellos.
Dependiendo de la naturaleza de los datos que pretendemos promediar, será conveniente el uso
de otro tipo de medidas, como son la media geométrica (Todos los datos son positivos y hay
mucha dispersión; ejemplo: porcentajes, tasas de crecimiento, razones, números índices, interés
anual, inflación, etc.) y la media armónica (resulta poco influida por la existencia de
determinados valores muy grandes que el conjunto de los otros, siendo en cambio sensible a
valores muy pequeños), cuyas fórmulas se presentan en la siguiente tabla. Si a cada observación
se le asigna un valor diferente, dado en forma de peso, y a continuación se calcula la media, nos
encontramos con una media ponderada. La moda de un conjunto de valores es aquel valor que
ocurre con más frecuencia. Si todos los valores son distintos, no hay moda, por otra parte, un
conjunto de datos puede tener más de una moda.


Medidas de tendencia central
Media aritmética                                  1
                                             x      x1n1  x2n2  . . .  xk nk 
                                                  n

                                                                            
Media geométrica                                                              1/ n
                                            G  x1n1 x2 n2 . . . xk nk
Media armónica                                                n
                                             H
                                                    n1 n2     nk 
                                                     . . .  
                                                    x1 x2     xk 


3.1.1. Media aritmética.

Es la medida más conocida, la más fácil de calcular y con la que siempre estamos más
familiarizados, ya que siempre hemos calculado el promedio de calificaciones obtenidas en cada
periodo escolar (Ciclo, año, etc.) A veces se le denomina simplemente media o promedio, y es
utilizada con tanta frecuencia, que en algunas ocasiones nos conduce a resultados que no revelan


                                                                                              35
lo que se pretende presentar, ya que la distribución de los datos puede requerir de la aplicación de
un promedio diferente a la media, ya sea, media geométrica o media armónica.

Le media es altamente sensible a cualquier cambio en los valores de la distribución. No es
recomendable su uso cuando la variable está dada en forma de tasas o porcentajes. La media es
representativa del conjunto de datos si se quiere promediar cantidades semejantes, que presentan
variaciones dentro de un margen razonable.

Media Aritmética simple. Se define como el cociente que se obtiene al dividir la suma de los
valores de la variable por el número total de observaciones. Su fórmula está dada por:
      n

     x         i
x   i 1

      n
Ejemplo. Supongamos que en un almacén tienen empleados a 12 vendedores, y sus ingresos
mensuales son: $ 585, $ 521, $ 656, $ 465, $ 536, $ 487, $ 564, $ 490, $ 563, $ 1234, $ 469 y $
547. Se pide determinar la media de los ingresos de los 12 vendedores.
Solución.


Ejemplo. Consideremos las utilidades y pérdidas de un almacén por departamentos, como se
muestra en la siguiente tabla.
Departamentos        2008 2009
Calzado               -10       20 OBSERVACIÓN. El promedio por departamento se
Electrodomésticos 153           58 mantiene de un año a otro, pero nos oculta los cambios que
Juguetería            -40      -20 se han producido por departamentos donde ha habido un
Ropa                  130      152 desplazamiento de los beneficios. Para superar estas
Misceláneos           -13       10 deficiencias se requiere trabajar con la media ponderada.
Promedio               44       44


Media aritmética ponderada
Cuando el número de observaciones es grande, las operaciones para calcular la media se
simplifican si agrupamos los datos en una tabla de frecuencias. La fórmula matemática está dada
por:

            k

      x            i   fi
x     i 1

         n
Si los datos están agrupados en clase, no se conoce el valor de x, por lo tanto se toma el punto
medio de cada clase en vez de x (marca de clase).

Propiedades de la media.

Dada la importancia de la media y su uso frecuente, conviene considerar algunas de sus
propiedades:
   1. La suma de las desviaciones respecto a la media es cero, esto es:
                                                                                                 36
                                n
Para datos no agrupados:  ( xi  x)  0
                               i 1
                         n
Para datos agrupados:    ( x  x)n
                        i 1
                                    i   i    0 . La verificación de esta propiedad es inmediata.


   2. La media aritmética de una constante es igual a la constante.
   3. La media del producto de una constante por una variable, es igual a multiplicar a la
      constante por la media de la variable.
   4. La media de una variable más (o menos) una constante será igual a la media de la
                                                                       k

                                                                      ( x  c) n
                                                                             i   i
       variable, más (o menos) la constante, es decir,                i 1
                                                                                      xc
                                                                             n
   5. La media aritmética de una muestra dividida en submuestras, es igual, a la media
      ponderada de las submuestras, tomando como ponderación los tamaños de las
                                            m

                                            x n       i   i

       submuestras. Esto es, x                                donde n  n1  n2  ...  nm
                                            i 1

                                                   n
       Ejemplo: Un inversionista tiene 1,200 acciones de un precio inferior a $3,490 dólares
       siendo su valor promedio de $ 2,905; además, 800 acciones cuyo valor unitario es
       superior a $ 3,490 y su valor promedio de $ 4,275. Calcular el valor promedio de las
       2,000 acciones.

       Solución.
           x1n  x 2 n2 2905(1200)  4275(800)
       x 1                                    3, 453
             n1  n2          1200  800

       En promedio el inversionista gasta $ 3,453 dólares en las 2000 acciones.


3.1.2. La media geométrica (Mg)

La media geométrica se define como la raíz n-ésima de la multiplicación de los n valores de la
variable. Se utiliza cuando se quiere dar importancia a valores pequeños de la variable o cuando
se desea obtener el promedio de valores que están dados en progresión geométrica.

En el campo industrial y comercial se utiliza para obtener promedios sobre el crecimiento o
decrecimiento de una variable. Por ejemplo, un capital ahorrado a una tasa de interés compuesto,
durante un periodo de tiempo.


La media geométrica se calcula utilizando la siguiente fórmula: Mg  x1 x2 . . . xk
                                                                                             n   n1   n2   nk

donde los ni es el número de veces que se repite cada dato, en caso que los datos no se repitan los
ni=1.La fórmula de la media geométrica tal como se ha presentado tiene el inconveniente de que

                                                                                                           37
tanto el producto de los xi como su raíz n-ésima, pueden ser un valor demasiado alto que dificulte
las operaciones. Para obviar esta dificultad se transforma la ecuación anterior en:

              k           
               ni ln xi 
Mg  exp  i 1             . Es obvio que las dos ecuaciones son equivalentes, esta última
                  n       
                          
                          
ecuación es la más utilizada en el cálculo de la media geométrica.

Ejemplo (Media geométrica)

Las tasas de interés de tres bonos son 5%, 7% y 4%.

La media geométrica es: G    3
                                  7 x5 x 4  5.192

La Mg da una cifra de ganancia más conservadora porque no tiene una ponderación alta para la
tasa de 7%.


3.1.3. La media armónica (Ma)

Iniciamos diciendo que el inverso de la media armónica es igual a la media aritmética del inverso
de los valores de la variable, esto es:

             k
                   ni
 1
            x
            i 1                           n
                    i
                           Ma          k
                                            n
                                        xi
 Ma              n
                                       i 1  i


Ejemplo: Se sabe que dos obreros A y B, se tardan 50 y 40 minutos respectivamente en reparar
un par de zapatos. ¿Cuál es el tiempo requerido para reparar un par de zapatos?

Solución.

            n                         2
Ma                       Ma               44.44 , es el tiempo requerido para reparar un
         1      1                 1   1
                                   
         x1     x2                50 40
par de zapatos.

El mayor uso de la media armónica es para calcular la velocidad promedio. Recordemos que:




                                                                                               38
             dista n cia
Velocidad               , supongamos que se han recorrido k trayectos (distancias) a cierta
              tiempo
velocidad cada trayecto, entonces la velocidad media vendrá dada por:

        dis tan cia total                d
Vm             k
                                    k
                   di                        di
              V
              i 1
                                    V
                                    i 1
                    i                         i


Ejemplo. Supongamos que la distancia entre dos ciudades, A y B, es de 80 kilómetros y entre B
y C de 120 kilómetros. Si un automovilista recorre de A a B a una velocidad de 100Km/h y de B
a C a una velocidad de 80Km/h. ¿Cuál es la velocidad promedio?

Solución.

           d       200
Vm      k
                        86.956
            di   80 120
        V 100  80
       i 1 i




3.1.4. La moda
La moda es una medida de posición, menos importante que los promedios y su uso es bastante
limitado. Se utiliza en distribuciones cuando la variable o el atributo presentan una frecuencia
demasiado grande con respecto a las demás.

La moda se define aquel valor de la variable o del atributo que presenta la mayor densidad, es
decir, la mayor frecuencia.

Si se tiene un atributo o una variable con máxima frecuencia, la distribución es unimodal. Si hay
dos valores en la variable con la misma frecuencia máxima, la distribución es bimodal. Si hay
más de dos, la distribución es multimodal. Cuando ninguno de los valores que toma la variable se
repite, no existe moda.

Datos agrupados.

Cuando la moda se aplica a una variable continua, se requiere que la amplitud de los intervalos
sea constante. A se presenta una fórmula para obtener una aproximación del valor modal:

                ni 1 
Moda  Li 1                 C
                ni 1  ni 1 



                                                                                              39
3.1.5. La mediana.
La mediana de una distribución de frecuencia corresponde al valor, supuesto los datos ordenados
de menor a mayor, que deja a ambos lados el mismo número de observaciones. Cuando
calculamos la mediana en datos no agrupados, ordenamos las observaciones de menor a mayor o
viceversa. En su cálculo se presentan dos casos:
a) Cuando el número de datos es impar: En este caso la mediana coincide con el dato central.

   Ejemplo: Consideremos los salarios en dólares para 11 vendedores; 243, 320, 311, 254, 234,
   261, 239, 310, 218, 267, 287. Calcular la mediana.

   Solución:

Primero ordenar los datos de menor a mayor: 218, 234, 239, 243, 254, 261, 267, 287, 310, 311,
320
La posición donde se encuentra la mediana: (11+1)/2=6, la mediana se encuentra en la sexta
posición y corresponde al valor de: Md=261.

b) Cuando los datos son pares: La mediana será el término medio de los dos valores centrales.

   Ejemplo. Consideremos los salarios en dólares para 12 vendedores; los cuales se han
   presentado ordenados anteriormente 218, 234, 239, 243, 254, 261, 267, 287, 310, 311, 320 y
   322:. Calcular la mediana.
   Solución:
                                                                    n  1 12  1
   Para obtener la posición central se aplica la siguiente fórmula:              6.5 , entonces
                                                                      2     2
   la mediana corresponde al promedio de los dos valores sombreados de amarillo, esto es:
   Md=(261+267)/2=264.


Para el caso de distribuciones agrupadas en intervalos se utiliza una fórmula aproximada. Se
comienza calculando el intervalo donde se encuentra la mediana, para lo cual se calculan las
frecuencias acumuladas, y se escoge el primer intervalo cuya frecuencia acumulada sea igual o
superior a n/2. A continuación se aplica la fórmula:
                   n / 2  N i 1
 Mediana  Li 1                 Ci
                        ni

3.1.5. Cuartiles, Deciles y Percentiles

Dados una serie de valores X1,X2,X3...Xn ordenados en forma creciente, los cuartiles son los tres
valores que dividen al conjunto de datos ordenados en cuatro partes porcentualmente iguales.

Hay tres cuartiles denotados usualmente Q1, Q2, Q3. El segundo cuartil es precisamente la
mediana. El primer cuartil, es el valor en el cual o por debajo del cual queda un cuarto (25%) de
todos los valores de la sucesión (ordenada); el tercer cuartil, es el valor en el cual o por debajo del
cual quedan las tres cuartas partes (75%) de los datos.


                                                                                                    40
Para Datos No Agrupados
Si se tiene una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes fórmulas:

El primer cuartil:

       La posición del primer cuartil: 1*(n+1)/4

Para el tercer cuartil

       La posición del primer cuartil : 3*(n+1)/4

Quintiles
Se representan con la letra K. Su fórmula aproximada es i*n/5.

       El primer quintil. Separa a la muestra dejando al 20 % de los datos a su izquierda.
       El segundo quintil. Es el valor que indica que el 40 % de los datos son menores.
       El tercer quintil. Indica que el 60 % de los datos son menores que él.
       El cuarto quintil. Separa al 80 % de los datos inferiores del otro 20 %.

Deciles
       Se representan con la letra D. Son 9 valores que distribuyen la serie de datos, ordenada de
        forma creciente o decreciente, en diez tramos iguales, en los que cada uno de ellos
        concentra el 10% de los resultados. Su fórmula aproximada es i*n/10.
       Es el decil i-ésimo, donde la i toma valores del 1 al 9. El (i*10) % de la muestra son
        valores menores que él y el 100-(i*10) % restante son mayores.

Percentiles
       Se representan con la letra C. Su fórmula aproximada es i*n/100.
       Es el percentil i-ésimo, donde la i toma valores del 1 al 99. El i % de la muestra son
        valores menores que él y el 100-i % restante son mayores.

Para Datos Agrupados
Cuando los datos no están agrupados en intervalos los cuartiles, así como el resto de las medidas
de posición, tienen un valor claro, tal como se ha descrito anteriormente. Sin embargo, cuando
tenemos una agrupación de los datos ya no es tan sencillo realizar el cálculo. Sí que resulta claro
ver en cuál de los intervalos está el cuartil (quintil, decil o percentil) buscado, pero para calcular
su valor aproximado necesitaremos usar una fórmula. El cálculo es similar al de la mediana, hay
que empezar calculando el intervalo cuya frecuencia acumulada sea igual o mayor que el valor
jn/k, para a continuación aplicar la fórmula:




                                                                                                    41
                   jn / k  N i 1
Q j ;k  Li 1                    Ci
                         ni

donde k = 4 (j = 1, 2, 3) para los cuartiles, k = 10 (j = 1, 2, . . . , 9) para los deciles, k=100 (j= 1,
2, . . . , 99) para los percentiles.

3.2 Medidas de Dispersión
Las medidas de dispersión estudian la separación existente entre los diversos valores que toma la
variable. Se dividen en medidas de dispersión absoluta y relativa. Las absolutas suelen hacer
referencia a un promedio, y permiten estudiar su representatividad. Este tipo de medidas depende
de las unidades, lo que es un inconveniente para realizar comparaciones entre poblaciones. En
este sentido, las medidas de dispersión relativas no dependen de las unidades y permiten
comparar variabilidad entre poblaciones.

El rango estadístico, también llamado amplitud o recorrido, es la diferencia entre el valor
máximo y el valor mínimo en un grupo de números. Para averiguar el rango de un grupo de
números:

        Ordenamos los números según su tamaño.
        Restamos el valor mínimo del valor máximo.

    Con el objeto de que no exista dependencia de los valores extremos, se introduce el recorrido
    intercuartílico, que es la semidiferencia entre el tercer y el primer cuartil:

                                                      Q3  Q1
                                               R1 
                                                         2


    Se define también la desviación absoluta media como la media de los valores absolutos de las
    diferencias de los datos a la media, es decir:

                   1 k
     AM              xi  x ni
                   n i 1

Varianza, desviación típica y coeficiente de variación

La varianza es una medida de dispersión que sirve para estudiar la representatividad de la media.
Viene definida como la media de las diferencias cuadráticas de las puntuaciones respecto a su
media aritmética:
       1 k
 S X   xi  x ni          
                     2
   2

       n i 1
Una varianza “grande” es indicativa de que la media no es representativa, mientras que una
varianza “pequeña” indica que la media es un buen representante de los datos. Con el objeto de
tener una medida de dispersión similar a la varianza, pero que venga medida en las mismas
unidades de la variable, se define la desviación típica como la raíz cuadrada positiva de la
varianza:

                                                                                                      42
S X  Varianza
La relación entre la varianza de una variable X y la de una nueva variable definida como a+bX
es:
S a bX  b 2 S X
  2             2




Por lo tanto, si a los datos de la distribución les sumamos una cantidad constante la varianza no
se modifica y si multiplicamos por una constante, la varianza queda multiplicada por el cuadrado
de esa constante.

En ocasiones puede interesar comparar la dispersión de dos muestras y la desviación típica no ser
válida, si las dos muestras tienen unidades diferentes. Para obviar este inconveniente se define el
coeficiente de variación:
         Desviación Típica           S
CV                                 X
                  Media                x

Que no depende de cambios de escala en la variable.


3.3 Medidas de forma

Este tipo de medidas permite conocer la forma de la distribución sin necesidad de recurrir a su
representación gráfica. Existen dos tipos de medidas de forma: Asimetría y curtosis. Para
clasificar la distribución según estas medidas, se establece en ambos casos una tipología de
distribuciones. Una variable se dice que es simétrica si al “doblar” la distribución respecto a un
eje (centro de simetría), las frecuencias coinciden. Caso contrario se dice que la distribución es
asimétrica positiva o negativa, dependiendo que la rama larga de la distribución se encuentra en
el sentido positivo o negativo del eje de las x. La medida más popular de asimetría es el
coeficiente de asimetría de Fisher, que viene dado por:
                                              1 k
                                                           
                                                   xi  x ni      
                                                                3

                                  m3          n i 1
                          g1  3                                    3/ 2
                                          1 k                     
                                                              
                                  S
                                           n  xi  x ni 
                                                              2


                                              i 1                

Este coeficiente es invariante frente a cambios de origen y de escala.

Cuya interpretación es:
 Si g1 = 0, la distribución es simétrica.
 Si g1 > 0, la distribución es asimétrica positiva
 Si g1 < 0, la distribución es asimétrica negativa.

El coeficiente de curtosis trata de estudiar la concentración de frecuencias en la zona central de la
variable, de modo que variables con curtosis alta (leptocúrticas) tienen forma alargada y variables

                                                                                                  43
con curtosis baja tienen forma aplanada (platicúrticas). La comparación se realiza respecto a una
distribución “moderada” como es la distribución normal (mesocúrtica). El coeficiente de curtosis
viene dado por:
                                               1 k
                                                       
                                                  xi  x          
                                                                       4
                                                                           ni
                       m4                      n i 1
                   g2  4  3                                                    2
                                                                                      3
                                1 k                                          
                                                                 
                       S
                                 n  xi  x
                                                                      2
                                                                           ni 
                                 i 1                                        
Que se interpreta del siguiente modo:
Si g2 = 0, la distribución es mesocúrtica o normal.
Si g2 > 0, la distribución es leptocúrtica o por encima de lo normal.
Si g2 < 0, la distribución es platicúrtica o por debajo de la normal.

Al igual que el coeficiente de asimetría de Fisher, el coeficiente de curtosis es invariante frente a
cambios de origen y de escala.



3.4. Guía de Ejercicios N° 3.
Medidas características de una distribución cuantitativa empírica

1) ¿Por qué no se aplica la media geométrica cuando uno de los valores es cero? Si la fórmula es

                                
                                 1/ n
    G  x1n1 x2 n2 . . . xk nk          .
2) De un grupo de 100 obreros en una fábrica, 40 trabajan en el día y 60 en la noche. Se sabe
   que el salario promedio anual de los 100 obreros es de $8,700 dólares y que los del turno de
   día reciben en promedio $800 dólares menos que los trabajadores nocturnos. ¿Cuál es el
   salario promedio anual en cada grupo?

3) En un supermercado trabajan 35 mujeres, con un salario promedio mensual de $650 dólares
   y 15 hombres, en promedio ganan un 12% más que las mujeres ¿Cuál es el salario promedio
   de los empleados del supermercado?


4) Durante un mes se construyeron 134 Km de carretera en la siguiente forma: 3.6% del total en
   la primera semana; 15.3% del total en la segunda semana; 7.6% en la tercera semana; 24.5%
   en la cuarta semana y en la última semana el 49%. La construcción promedio por día en cada
   semana fue de: 0.9Km/d, 3.4Km/d, 1.7Km/d, 5Km/d y 10Km/d, respectivamente. Hallar la
   medida de tendencia central que mejor represente el promedio de esta distribución.


                                                                                               3
5) La media aritmética de tres números es 7, su mediana es 6 y su media geométrica es              216 .
   Con los tres números calcular la media armónica.
                                                                                                     44
6) Se sabe que la media aritmética de dos números es 5 y la media geométrica es 4. ¿Cuál es la
   media armónica?

7) Una persona viaja 4 días. Diariamente recorre 200 Km, pero maneja el primero y el último
   día a 50Km/h, el segundo a 55Km/h y el tercer día a 70Km/h. ¿Cuál es la velocidad media
   durante el viaje?

8) Las ciudades A, B y C son equidistantes entre sí. Un automovilista viaja de A a B a 30 Km/h
   de B a C a 40 Km/h y de C a A a 50 Km/h. Determine el promedio de velocidad para el viaje
   completo.

9) Un fabricante dispone $600,000 anuales para la compra de materia prima. Durante tres años
   invierte la misma cantidad de dinero. Si el precio promedio por Kg ha aumentado en los
   últimos tres años sucesivos de $2,200 a $2,800 y luego a $4,600, ¿Cuál es el precio promedio
   que ha pagado el fabricante en los tres años?

10) El 1 de mayo de 2002 se ahorraron $ 50,000 en un banco al 7.6% de interés anual,
    capitalizados semestralmente. Obtener la cantidad media depositada en la cuenta, entre el 1 de
    mayo de 2002 y el 31 de octubre de 2006, suponga que no se hicieron retiros durante el
    periodo.

11) Tres amas de casa fueron a comprar a tres mercados diferentes. Cada una gastó $ 10 dólares
    en la compra de naranjas. La ama de casa A compró 4 docenas de naranjas; B compró 6
    docenas y C compró 3 docenas. ¿Cuál es el precio promedio por docena?

12) El siguiente cuadro muestra la distribución de la renta anual (en miles de dólares) en que
    incurren 50 viviendas:

Marca de Clase      18.85     21.55     24.25      26.95        29.65   32.35    35.05
N° de Viviendas        3        2         7          7           11      11        9

a) Halle e interprete según el enunciado
   i)      Media, mediana y moda.
   ii)     Desviación estándar y coeficiente de variabilidad.

b) Estime el porcentaje de viviendas con rentas superiores o iguales a 26,000 dólares pero
   menores que 32, dólares.

c) Si las rentas menores que 28,300 dólares se incrementaron en 2,500 dólares y las rentas
   mayores o iguales que 28,300 dólares se redujeron en un 30%. Calcule la nueva renta
   promedio.

13) Una compañía requiere los servicios de un técnico especializado. De los expedientes
    presentados, se han seleccionado 2 candidatos: A y B, los cuales reúnen los requisitos
    mínimos requeridos. Para decidir cuál de los 2 se va a contratar, los miembros del Jurado
    deciden tomar 7 pruebas a cada uno de ellos. Los resultados se dan a continuación:

                                                                                               45
                                                         Pruebas
                                    1       2        3        4     5       6        7
    Puntaje obtenido por A         57       55      54       52    62       55       59
    Puntaje obtenido por B         80       40      62       72    46       80       40

   a) Halle e interprete la media, mediana y moda de los dos candidatos.
   b) Estadísticamente ¿Cuál de los candidatos debe ser contratado? Fundamente su respuesta.

14) Se toman las medidas de 80 personas las que tienen estatura media de 1.70 m y desviación
    estándar de 3.4 cm. Posteriormente se verificó que la media usada tenía 4 cm de menos.
    Rectifique los estadígrafos (estadísticos) mencionados.

15) Una asistencia social desea saber cuál es el índice de natalidad en 2 municipios de San
    Salvador para ello encuestó a 10 familias de cada municipio obteniendo los siguientes
    resultados

      A       0       6       1         2       3     1        4        3        6        4
      B       3       4       1         4       2     3        1        5        4        3

a) Calcule la media, mediana y moda para cada municipio e interprételos.
b) Considera Ud. que en el distrito B, el número de hijos por familia es más homogéneo que en
   el distrito A.

16) El salario promedio anual en una ciudad es de 8,000 dólares con una variancia de 1,000
    dólares ¿Cuales serán la nueva media y la nueva variancia si se efectúan los siguientes
    cambios:
a) Se aumenta 810 dólares a todos
b) Se aumenta el 15 % de su salario a cada trabajador
c) Si se duplican los sueldos
17) En un examen 20 alumnos del curso A obtienen una media de 60 puntos y desviación
    estándar de 20 puntos. En el curso B los alumnos obtienen una media de 80 y desviación
    estándar de 16. Ante un reclamo se decide subir en 5% más 5 puntos adicionales a todos los
    alumnos del curso A, en cambio como hubo muchas copias en el curso B se decidió disminuir
    la quinta parte de la calificación.
    Después de los mencionados ajustes ¿Cuál es el puntaje medio de los 50 alumnos?
18) Se ha realizado un estudio entre 100 mujeres mayores de 15 años y el número de hijos de
    las mismas. El resultado ha sido:
                                Xi: Nº hijos  ni: Nº mujeres
                                       0             13
                                       1             20
                                       2             25
                                       3             20
                                       4             11
                                       5              7
                                       6              4

                                                                                              46
Se pide:
a) Calcular el número medio de hijos, la mediana y la moda.
b) Calcular los cuartiles y el decil 7.
c) Analizar la dispersión de la distribución, interpretando los resultados.
d) Analizar la forma de la distribución calculando los coeficientes correspondientes. Comente los
resultados.
19) La siguiente distribución expresa el número de vehículos vendidos durante un mes por cada
    uno de las 50 sucursales que una determinada firma tiene en El Salvador:

                                  xi: número de        ni: número
                                     vehículos         Sucursales
                                     vendidos
                                         1                   5
                                         3                  12
                                         4                  20
                                         6                   8
                                        10                   5
Se pide:
a) Media aritmética, mediana y moda. ¿Qué puede decir de la asimetría de la distribución con
estos datos?
b) Desviación típica, Coeficientes de asimetría de Fisher y curtosis. Comente los resultados.


20) La siguiente tabla recoge la cifra de ventas (en miles de millones) y el número de empleados
    (en miles) de las diez mayores empresas del sector de automóvil durante el año 1989:

                      Empresa                       Ventas         Plantilla
                      SEAT                            457.3            23.8
                      Fasa Renault                    449.7            19.2
                      General Motors                  372.7             9.4
                      Ford                            356.1             9.5
                      Citroen                         224.6             7.6
                      Peugeot                         198.0             6.7
                      Nissan                          161.1             6.6
                      Mercedes Benz                   110.7             3.4
                      ENASA                            97.3             5.5

a) Calcular las ventas medias y el número medio de empleados.
b) ¿Dónde existe mayor homogeneidad, en las ventas o en la plantilla?
c) Calcular las ventas medias por empleado.




                                                                                                47
21) Una empresa dedicada al cultivo y explotación de naranjos posee 5 fincas. La producción de
    naranjas y el rendimiento medio por hectárea para cada una de las fincas están dados en la
    siguiente tabla. Calcular el rendimiento medio por hectárea para el total de las 5 fincas.
                                   Producción (Tm) Rendimiento (Tm/Ha)
                      Finca 1              15                       9
                      Finca 2               5                       2
                      Finca 3              20                      10
                      Finca 4               8                       4
                      Finca 5              30                      20
Solución.
El rendimiento medio por hectárea en el total de la fincas vendrá dado por el cociente entre el
total de la producción y el total de hectáreas. Esta última cantidad la podemos calcular como
cociente producción/rendimiento en cada finca:

        Total producción              15  5  20  8  30
RM                                                                  = 8.07 Tm/hectárea.
         Total hectárea     15 / 9  5 / 2  20 /10  8 / 4  30 / 20
Observe que la fórmula aplicada coincide con la media armónica de los rendimientos ponderados
por la producción de cada fila.

22) La primera etapa de un rally consta de 4 tramos cronometrados. En cada uno de los 4 tramos,
   un determinado piloto ha alcanzado las siguientes velocidades medias:


                                   Distancia (km)         Velocidad media (km/h)
                    Tramo 1               20                         120
                    Tramo 2               10                          70
                    Tramo 3               15                          80
                    Tramo 4               30                          90

Calcular la velocidad media total alcanzada por el piloto en la primera etapa del rally.

Solución.
La velocidad media total vendrá dada por el cociente entre el total de la distancia y el tota del
tiempo:

       Total dis tan cia           20  10  15  30
VM                                                             = 90.32 Km/hora.
        Total tiempo       20 /120  10 / 70  15 / 80  30 / 90

Observe que la fórmula aplicada vuelve a ser la media armónica, de las velocidades ponderadas
por la distancia de cada tramo.

23) Se tienen tres ciudades A, B y C. La distancia que hay de B a C es el triple de la distancia de
    A a B; y la distancia de C a A es el doble de la distancia de B a C. Un automovilista viaja de
    A a B a 70 Km/h de B a C a 75 Km/h y de C a A 85 Km/h. Determine el promedio de
    velocidad para el viaje completo.

                                                                                                    48
24) En la asignatura de Matemática Básica se obtuvo una nota media de 4 puntos y desviación
    estándar 1.8. Se añaden 20 nuevos datos, todos iguales a 4 puntos.
        a) Calcular la media total
                                                              2
                                                         n1 S X1

       b) Verificar que la varianza total está dada por: 20  n1 , donde 1 es el número de
                                                                        n
                                        S2
          alumnos del primer grupo y X1 representa la varianza del primer grupo de alumnos.

25) Supongamos que se tienen dos variables aleatorias X, Y de las que se conocen los siguientes
    datos muestrales: X , Sx , g1X , yi  kxi  b y n tamaño de la muestra (k y b son constantes
   positivas). Calcular:
     a) La media y la desviación estándar de Y
     b) Comparar el coeficiente de asimetría de ambas variables



SOLUCIÓN: GUIA DE EJERCICIOS N° 3

Medidas características de una distribución cuantitativa empírica.

   1. ¿Por qué no se aplica la media geométrica cuando uno de los valores es cero? Si la
       fórmula es G = (

Respuesta: porque si uno de los valores es cero, la multiplicación de todos ellos dará cero y la
media geométrica será cero, que no representa el valor de la media geométrica, entonces no tiene
sentido aplicar la fórmula de la media geométrica.


   2. De un grupo de 100 obreros en una fábrica, 40 trabajan en el día y 60 en la noche. Se sabe
       que el salario promedio anual de los 100 obreros es de $ 8700 y que los del turno del día
       reciben en promedio $800 menos que los trabajadores nocturnos. ¿Cuál es el salario
       promedio anual en cada grupo?
            Solución
                                             Datos:
                                        n= 100=
                                    =60, trabajadores de noche.
                                       = 8,700


                                                                                              49
Como tenemos que los trabajadores del turno de día reciben en promedio $800 dólares menos
que los de la noche
                            Entonces          =               …Ecu. 1
                      Luego utilizando la fórmula de la media ponderada

                                          , luego sustituyendo tenemos




                                  870,000= 100            - 32,000
                                       902,000=100

                                                     =

                        9,020=     , salario promedio en el grupo dos
                             Sustituyendo           en Ecu.1 tenemos
                                          =
                            = 8220, salario promedio en el grupo uno.
   3. En un supermercado trabajan 35 mujeres, con un salario promedio mensual de $ 650
       dólares y 15 hombres en promedio ganan un 12% más que las mujeres ¿cuál es el salario
       promedio de los empleados del supermercado?

            Solución
                                                  Datos
                                   = 35
                                   =15
                Ahora como tenemos dos grupos utilizamos la media ponderada

                                                     , sustituyendo




                          Salario promedio de los empleados del supermercado.

                                                                                         50
   4. Durante un mes se construyeron 134 Km de carretera en la siguiente forma: 3.6% del
      total en la primera semana; 15.3% del total en la segunda semana; 7.6% en la tercera
      semana; 24.5% en la cuarta semana y en la última semana el 49%. La construcción
      promedio por día en cada semana fue de: 0.9Km/d, 3.4Km/d, 1.7Km/d, 5Km/d y 10Km/d,
      respectivamente. Hallar la medida de tendencia central que mejor represente el promedio
      de esta distribución.

           Solución

La medida de tendencia central que mejor representa el promedio de esta distribución es la media
                                           armónica.
                                Construimos la siguiente tabla.


           semanas         Construcción(km)            Construcción promedio(km/d)
               1ª                 4.82                               0.9
               2ª                 20.50                              3.4
               3ª                 10.18                              1.7
               4ª                 32.83                              5
               5ª                 65.66                              10



                     Ma=



                                     Ma=        = 4.39km/d



   5. La media aritmética de tres números es 7, su mediana es 6, y su media geométrica es

              . Con los tres números calcular la media armónica.


           Solución

                             Sean:               los tres números.
                                            Datos:
                                               =7

                                                                                             51
                                       Md=6
                                     Mg=
                                        n=3
                   Como la mediana es el valor central entonces
                                     Md=

                                      6=
                 Entonces los números son x1= 3, X2=6 y X3=12
              Luego encontrar la media armónica de los tres números




                                                = 9.25



6. Se sabe que la media aritmética de dos números es 5 y la geométrica es 4. ¿cuál es la
                                     media armónica?


     Solución

                         Sean:             los dos números.
                                       Datos:
                                   = 5 Mg=4 n=2
                                 La media aritmética




                                                 , Ecu. 1

                       Ahora utilicemos la media geométrica




                           4=          , sustituyendo


                                                                                           52
                                  16=

                                               +16=0

                             (



                           Sustituyendo              en Ecu 1




                           Sustituyendo              en Ecu 1




                                 Los números son 8 y 2
                 Luego encontrar la media armónica de los dos números




                                                = 3.2



7. Una persona viaja 4 días. Diariamente recorre 200km, pero maneja el primero y el ultimo
   día a 50km/h. ¿cuál es la velocidad media durante el viaje?

          Solución
                             Construimos la siguiente tabla
  días                Distancia(km)                  Velocidad media (km/h)
   1                      200                                    50
   2                      200                                    55
   3                      200                                    70
   4                      200                                    50

                                                                                       53
                 Para calcular la velocidad media utilizamos la media armónica


                        Ma=                                           = 55.19


   8. Las ciudades A, B y C son equidistantes entre sí. Un automovilista viaja de A a B a
       30km/h, de B a C a 40km/h y de C a A a 50km/h. Determinar el promedio de velocidad
       para el viaje completo.


            Solución

Utilizamos la media armónica, porque con ella encontramos la velocidad media, y como nos dice
que las ciudades son equidistantes, entonces tenemos


                  Ma=                   =                         =        = 38.29


   9. Un fabricante dispone $600,000 anuales para la compra de materia prima. Durante tres
       años invierte la misma cantidad de dinero. Si el precio promedio por kg ha aumentado en
       los últimos tres años sucesivamente de $2,200 a $2,280 y luego a $4,600. ¿Cuál es el
       precio promedio que ha pagado el fabricante en los tres años?
            Solución

                                   Utilizar la media geométrica
                                        Mg=

                                 Sustituyendo los valores tenemos
                              Mg=                        =3,048.69
   10. El primero de mayo de 2002 se ahorraron $50,00 en un banco al 7.6% del interés anual,
       capitalizado semestralmente. Obtener la cantidad media depositada en la cuenta, entre el
       primero de mayo de 2002 y el 31 de octubre de 2006, suponga que no se hicieron retiros
       durante el periodo.




                                                                                            54
       Solución

          Como el problema se refiere a interés se utiliza la media geométrica



                                 Mg=


                              Construir la siguiente tabla


    Semestres                 año                   capital                   Ln
    1/05-31/10               2,002                  50,000                   10.82
    1/11-31/05               2,002                  51,900                   10.85
    1/05-31/10               2,003                 53,872.2                  10.89
    1/11-31/05               2,003                 55,919.34                 10.93
    1/05-31/10               2,004                 58,044.27                 10.97
    1/11-31/05               2,004                 60,249.95                 11.01
    1/05-31/10               2,005                 62,539.44                 11.04
    1/11-31/05               2,005                 64,915.94                 11.08
    1/05-31/10               2,005                 67,382.74                 11.12
                             Total                                           98.71




            Luego sustituir los datos en   Mg=                   , tenemos


                                Mg=              =29.81

11. Tres amas de casa fueron a comprar a tres mercados diferentes. Cada una gasto $10
   dólares en la compra de naranjas. La ama de casa A compro 4 docenas de naranjas, la ama
   de casa B compro 6 docenas de naranjas y la ama de casa C, compro 3 docenas de
   naranjas. ¿Cuál es el precio promedio por docena?




                                                                                       55
            Solución

                               A=               B=                C= =3.3

                                  Luego utilizamos la media armónica

                                               , sustituyendo los datos tenemos



                                                =2.27, precio promedio por docena



12. el siguiente cuadro muestra la distribución de renta anual (en miles de dólares) en que
incurren 50 viviendas.
    Marca de clase       18.85      21.55     24.25     26.95          29.65      32.35        35.05
   N° de viviendas         3         2         7          7             11         11           9


   A) Halle e intérprete según el enunciado
               i) media, mediana y moda

Para encontrarlas necesito construir la tabla de frecuencias.
Para encontrar la clase utilizo
         = 21.55-18.85=2.7

Entonces tenemos que las amplitudes de las clases son 2.7

                         Luego construimos la tabla de frecuencias agrupadas
           Clases
        17.5-<20.2                    18.85                      3                        3
        20.2-<22.9                    21.55                      2                        5
        22.9-<25.6                    24.25                      7                        12
        25.6-<28.3                    26.95                      7                        19
         28.3-<31                     29.65                      11                       30
         31-<33.7                     32.35                      11                       41
        33.7-<36.4                    35.05                      9                        50
           Total                                                n=50

                                                                                                       56
                                            -hallar la media



                                  Sustituyendo los datos tenemos




                                           -hallar la mediana

                                       Md=

                     Buscar la clase   =     =25, en las frecuencias acumuladas

                                  Sustituyendo los datos tenemos


                                Md=

                                            -hallar la moda.
 Como la moda en los datos agrupados en clases es el valor que más se repite pero en las
frecuencias simples entonces tenemos dos clases modales (las que tiene color rosado)
 Para encontrarlas utilizamos

            Md=                                                Md=


          Md=                    =29.95                          Md=              =32.21


 ii) desviación estándar y coeficiente de variabilidad


 -desviación estándar
 Para encontrarla debó primero conocer la varianza y esta viene dada por la siguiente formula



                                                                 ,


                                                                                                57
                            Sustituyendo los datos en la formula tenemos




                                 Entonces la desviación estándar es
                                                 S=4.62
                                    -coeficiente de variabilidad



                                   Sustituyendo los datos tenemos




                   La media es representativa porque el coeficiente es muy bajo


 b) estime el porcentaje de viviendas con rentas superiores o iguales a 26,000 dólares pero
menores que 32,000 dólares


                             Es la clase que esta coloreada de amarillo
                                                  , es el porcentaje


 13) una compañía requiere los servicios de un tecnico especializado. De los expedientes
presentados, se han seleccionado dos candidatos: A y B los cuales reúnen los requisitos mínimos
requeridos. Para decidir cuál de los dos se va a contratar, los miembros del jurado deciden tomar
siete pruebas a cada uno de ellos. Los resultados se dan a continuación.


                  Pruebas                    1        2       3        4    5     6       7
          Puntaje obtenido por A            57        55      54       52   62    55     59
          Puntaje obtenido por B            80        40      62       72   46    80     40



                                                                                              58
                     a) Halle media, mediana y moda de los candidatos




                =                                             , media del candidato A




                                                        , media del candidato B

                                             -   Mediana

                                         Ordenar los datos
                                   A
                                   B
                         Para encontrar la mediana se busca la posición



                                             Entonces
                                  55                                 62
                                          -hallar moda
                 Como la moda es el valor que más se repite entonces tenemos
                                   55                               40
                                        80
Estadísticamente. ¿cuál de los dos candidatos debe ser contratado? Fundamente su
respuesta.
Para saber si las medias de los candidatos A y B son representativas como para elegir un
candidato debo encontrar el coeficiente de variabilidad de ambos.
                       Encontrar desviación estándar del candidato A




                                                                                        59
                                     =9.63, varianza del candidato A

                                  Desviación estándar del candidato A
                                           El coeficiente de variación de A




                                   , coeficiente de variación de del candidato A

                       Encontrar desviación estándar del candidato B




                         =                      varianza del candidato B

                                , desviación estándar del candidato B
                               Encontrar el coeficiente de variación




                                                          ,

Entonces estadísticamente el candidato que debe de ser contratado es el A, ya que el coeficiente
de variabilidad de este es más pequeño que el del candidato B, es decir que la media de A es más
representativa.
14. se toman las medidas de 80 personas las que tiene estatura media de 1.70m y desviación
estándar de 3.4cm. Posteriormente se verifico que la media usada tenía 4 cm de menos.
Rectifique los estadísticos mencionados.
      Solución

         Tenemos que    =1.70 y como tiene un error de 4cm entonces la nueva media es
                                                =1.64.
                                  Ahora encontrar la varianza,



                                                                                             60
Por propiedad de la varianza sabemos que si a todos los datos que tenemos le sumamos o le
restamos algo esta no cambia entonces la varianza será la misma
                                                       =3.4
15) una asistencia social desea saber cuál es el índice de natalidad en 2 municipios de san
salvador para ello encuesto a 10 familias de cada municipio obteniendo los siguientes resultados.
  A        0       6          1        2           3          1     4        3       6   4
  B        3       4          1        4           2          3     1        5       4   3


         a) Calcule la media, mediana y moda para cada municipio e interprételos.
                                                   -media




                                               = 3, media del municipio A




                                                   , media del municipio B


                                                  -mediana
                                  Ordenar los datos de los municipios

                                        A
                                           B

                       Buscar la posición               =5.5, entonces tenemos que
                                                                            =3

                  La moda es el valor que más se repite entonces tenemos que
                                  1                           3
                                       3                                4
                                                          4
                                                          6

                                                                                               61
b) Considera Ud. que el distrito B, el número de hijos por familia es más homogéneo que en el
   distrito A. Para saber cual distrito es más homogéneo encuentro su respectivo coeficiente de
                                              variación

                         Encontrar desviación estándar del municipio A




                                        =3.8, varianza del municipio A

                                      Desviacion estándar del municipio A
                                            El coeficiente de variación de A




                                      , coeficiente de variacion del municipio A

                         Encontrar desviación estándar del municipio B




                               =              varianza del municipio B

                                    , desviación estándar del municipio B
                                    Encontrar el coeficiente de variación




                                                            ,

                         Entonces el municipio más homogéneo es el B.


16) El salario promedio anual en una ciudad es de 8,000 dólares, con una varianza de 1,000
dólares. ¿Cuáles serán la nueva media y la nueva varianza si se efectúan los siguientes cambios?

a) se aumenta 810 dólares a todos



                                                                                                  62
 =8000, pero como a cada uno de los trabajadores se les aumenta 810 dólares mas por propiedad
de la media se sabe que si a cada dato se le suma o se le resta una constante entonces esta
constante se le suma o se le resta a la media, entonces tendremos
 =8000+810=8,810, esta es la nueva media
Ahora para encontrar la varianza lo hacemos por la propiedad que dice que si a cada uno de los
valores se le suma o resta una constante la varianza no cambia entonces
     =1,000,
b) Se aumenta el 15% de su salario a cada trabajador




En lo anterior realizado se puede observar que a cada salario se está multiplicando por una
constante, y por propiedad de la media tenemos que si la media de multiplicar cada uno de los
valores de una variable por una constante es igual a multiplicar la constante por la media.
                                   Entonces la nueva media será


                                         =8000x1.15=9,200


La nueva varianza la encontramos utilizando la propiedad que dice que si todos los datos son
multiplicados por una constante entonces se multiplica la constante al cuadrado por la varianza
entonces tendremos
                                        =1,000x        =1322.5


c)       Se duplican los sueldos

                       Utilizando las propiedades del literal c) tendremos que
                             =8000x2=16,000, esta será la nueva media


                            =1,000x =4,000, esta será la nueva varianza


                                                                                              63
17) En un examen 20 alumnos del curso A obtienen una media de 60 puntos y desviación
        estándar de 20 puntos. En el curso B los alumnos obtienen una media de 80 y desviación
        estándar de 16. Ante unos reclamos se decide subir en 5% mas 5 puntos adicionales a todos
        los alumnos del curso A, en cambio como hubo muchas copias en el curso B se decidió
        disminuir la quinta parte de la calificación. Después de los mencionados ajustes ¿cuál es el
        puntaje promedio de los 50 alumnos?
Solución
Datos
A                          B
    =20                          =30
    60                          80
    20                           16

-encontrar la nueva media y desviación estándar de los cursos A y B
Para el curso A tenemos




                Entonces la nueva media utilizando la propiedad correspondiente será
                                             60x 1.05+ 5 =68
                  Y la nueva varianza utilizando la propiedad correspondiente será
                                             20x      = 22.05,




                                     Ahora para el curso B tenemos




                                                                                                 64
                                Por propiedad de la median tendremos


                                               80x = 64


                            Por propiedad de la varianza tendremos

                                             16x    = 10.24,




                    Ahora encontrar el puntaje promedio de los 50 alumnos
                            Para ello utilizamos la median pondera.

                                             , luego sustituyendo tenemos



                                       =65.6. Puntaje promedio de los alumnos.


18) se ha realizado un estudio entre 100 mujeres mayores de 15 años y el número de hijos de las
mismas. El resultado ha sido:



                        0                                               13
                        1                                               20
                        2                                               25
                        3                                               20
                        4                                               11
                        5                                                7
                        6                                                4
                                                                       N=100



                                              .se pide:
                a) Calcular el número medio de hijos, la mediana y la moda.

                                                                                            65
                              b) La media

                                                      =2.33

                                    -mediana


                 Buscar la posición

                               Entonces Md=2

                                     -moda
         Como en esta caso el valor que más se repite es 2, entonces
                                     Mo=2
                  c) Calcular los cuartiles y el decil 7

                                    -cuartil 1

                Buscar la posición

                               Entonces          =1
                                    -cuartil 2

               Buscar la posición

                               Entonces          =2


                                    -cuartil 3
               Buscar la posición                             75

                               Entonces          =3
                             -calcular el decil 7

               Buscar la posición

                                             =3

d) Analizar la dispersión de la distribución, interpretando los resultados.



                                                                              66
Para ello debó calcular el coeficiente de variación, para encontrarla debó primero conocer la
varianza y esta viene dada por la siguiente formula




                                Entonces la desviación estándar es
                                              S=1.59

                                    -coeficiente de variabilidad



                                  Sustituyendo los datos tenemos




d) analizar la forma de la distribución calculando los coeficientes correspondientes, comente su
respuesta.
-calcular el coeficiente de asimetría y este viene dado por




                                -calcular el coeficiente de curtosis




                                                      =2.39

                                       Comente su respuesta
                   Que es una distribución platicurtica y asimétrica a la derecha

                                                                                             67
19) la siguiente distribución expresa el número de vehículos vendidos durante un mes por cada
uno de las 50 sucursales que una determinada firma tiene en El Salvador.




                        1                                              5
                        3                                              12
                        4                                              20
                        6                                              8
                        10                                             5
                                                                     N=50


                                             .se pide
                             a) Media aritmética, mediana y moda.

                                        -media aritmética

                                                             =4.38

                                            -mediana

                                Buscar la posición

                                         Entonces Md=4
                                              -moda
                   Como en esta caso el valor que más se repite es 4, entonces
                                              Mo=4
                     Se espera una distribución aproximadamente simétrica
   b) Desviación típica, coeficiente de asimetría de Fisher y curtosis. Comente resultados.

                                        -desviación típica




                                Entonces la desviación estándar es
                                             S=2.28

                                                                                              68
                                     -coeficiente de Fisher




                                                     =1.17


                               -calcular el coeficiente de curtosis




                                                      =1

                  Tiene una distribución asimétrica a la derecha y platicurtica
20. la siguiente tabal recoge la cifra de ventas (en miles de millones de dólares) de las diez
mayores empresas del sector de automóvil durante el año 1989.


             empresa                         ventas                         Plantilla
               Sea                            457.3                           23.8
          Fasa Renault                        449.7                           19.2
         General Motors                       372.7                           9.4
              Ford                            356.1                           9.5
             Citroen                          224.6                           7.6
             Peugeot                          198.0                           6.7
             Nissan                           161.1                           6.6
         Mercedes Benz                        110.7                           3.4
              Enasa                           97.3                            5.5


                                                                                           69
 a) Calcular las ventas medias y el número medio de empleados.
                            -ventas medias




                    -número medio de empleados




b) donde existe mayor homogeneidad, en las ventas o en la planilla.

         Para saberlo debó calcular el coeficiente de variación
              Encontrar desviación estándar de las ventas




                          =17,737.70, varianza de las ventas

                          Desviación estándar de las ventas
                         El coeficiente de variación de las ventas




                          , coeficiente de variación de las ventas

           Encontrar desviación estándar de los empleados




               =                varianza de los empleados

                   , desviación estándar de los empleados
                    Encontrar el coeficiente de variación




                                             ,

           Entonces existe más homogeneidad en las ventas.

                                                                      70
                        c) Calcular las ventas media por empleados




           Luego lo dividimos entre mil para obtener las ventas medias por empleado



 21) una empresa dedicada al cultivo y explotación de naranjas posee 5 fincas. La producción de
   naranjas y el rendimiento medio por hectárea para cada una de las fincas están dados en la
     siguiente tabla. Calcular el rendimiento medio por hectárea par el total de las 5 fincas.
              Fincas                    Producción( Tm)               Rendimiento(Tm/Ha)
                 1                               15                               9
                 2                               5                                2
                 3                               20                               10
                 4                               8                                4
                 5                               30                               20


           El rendimiento medio por hectárea lo encontramos con la media armónica.




                                                        , rendimiento medio por hectárea.



22. la primera etapa de un rally consta de 4 tramos cronometrados. En cada uno de los 4 tramos,
un determinado piloto ha alcanzado las siguientes velocidades.
          Tramos                      Distancia(km)               Velocidad media(km/h)
             1                              20                              120
             2                              10                               70
             3                              15                               80
             4                              30                               90



                                                                                                 71
.calcular la velocidad media total alcanzada por el piloto en la primera etapa del rally.




                                                                                            72
               Capítulo 4. Distribuciones Bivariadas


4.1. Distribuciones bidimensionales

Supongamos que en una población, y para un conjunto de n individuos, se miden dos caracteres
X e Y:
                          ( x1 , y1 ), ( x2 , y2 ),. . ., ( xn , yn )

En este caso tenemos una variable estadística bidimensional o distribución bidimensional de
frecuencias, la cual representaremos por (X, Y). Cuando se cuenta con una gran cantidad de
datos, un modo de presentar la distribución bidimensional es a través de una tabla de doble
entrada de la forma:

                                    Tabla de doble entrada

                  X/Y       y1     y2     ... yj        ...    yk        Total
                   x1       n11    n12     . . . n1 j   ...    n1k        n1
                    x2      n21    n22     . . . n2 j   ...   n2 k         n2
                   .         .      .             .              .         .
                   .         .      .             .              .         .
                   .         .      .             .              .         .
                   xi       ni 1   ni 2    . . . nij    ...   nik         ni 
                   .         .      .             .             .          .
                   .         .      .             .             .          .
                   .         .      .             .             .          .
                   xl       nl 1   nl 2    . . . nlj    ...    nlk        nl 
                  Total    n1     n 2    . . . n j   ...    n k       n

 Donde los valores de X e Y pueden venir dados en intervalos, al igual que en el caso de una
dimensión. En el caso de que las dos variables sean atributos, la tabla anterior recibe el nombre
de tabla de contingencia.

La representación gráfica más utilizada en el caso bidimensional es la nube de puntos o diagrama
de dispersión. Consiste en representar cada pareja de datos como un punto sobre unos ejes
cartesianos.




                                                                                              73
4.2. Distribuciones marginales y condicionales.
Dada una variable estadística bidimensional, las distribuciones marginales permiten estudiar de
un modo aislado cada una de las componentes. A partir de una tabla de doble entrada, las
distribuciones de frecuencias marginales se obtienen sumando las frecuencias de la tabla por filas
y por columnas.

                         Distribuciones marginales de X e Y.
                              X       ni                  Y        n j
                              x1            n1              y1     n1
                               x2           n2              y2    n2
                              .              .                .       .
                              .              .                .       .
                              .              .                .     .
                              xl            nl               yk   nk

Las distribuciones condicionadas permiten estudiar el comportamiento de una de las variables
cuando la otra permanece constante. Vienen dadas por:

                                    Distribuciones condicionadas de X e Y.
                       X/Y= y j     ni / j                Y/X= x i   nj /i
                         x1          n1 j                     y1           ni1
                         x2           n2 j                    y2           ni 2
                         .            .                        .            .
                         .            .                        .            .
                         .            .                        .            .
                        xl           n lj                     yk           nik

Ejemplo:
Se desea investigar el ganado caprino (cabras) y el ganado ovino (ovejas) de un país. En la tabla
de doble entrada adjunta se presentan los resultados de un estudio de 100 explotaciones
ganaderas, seleccionadas aleatoriamente del censo agropecuario. Se proporcionan las frecuencias
conjuntas del número de cabezas (en miles) de cabras (X) y ovejas (Y) que poseen las
explotaciones.
                                X\Y      0      1    2     3    4
                                  0      4      6    9     4    1
                                 1       5     10    7     4    2
                                  2      7      8    5     3    1
                                  3      5      5    3     2    1
                                  4      2      3    2     1    0
   a) Hallar las medias, varianzas y desviaciones típicas marginales.
   b) Hallar el número medio de cabras condicionado a que en la explotación hay 2,000 ovejas.
   c) Hallar el número medio de ovejas que tienen aquellas explotaciones que sabemos que no
       tienen cabras.
                                                                                               74
Solución:

Primero completar la tabla anterior con las distribuciones de frecuencias de X e Y.

                                      X\Y         0      1       2      3      4     ni 
                                        0          4      6      9      4      1      24
                                       1           5     10      7      4      2      28
                                        2          7      8      5      3      1      24
                                        3          5      5      3      2      1      16
                                        4          2      3      2      1      0       8
                                       n j       23     32     26     14      5     100




a) La media de X es:

     0*24  1*28  2*24  3*16  4*8
X                                   = 156/100= 1.56
                   100

La varianza de X es:

         (0  1.56)2 *24  (1  1.56) 2 *28  (2  1.56) 2 *24  (3  1.56) 2 *16  (4  1.56)2 *8
S 2X                                                                                              = 1.5264
                                                    100

La desviación típica (Estándar) es la raíz cuadrada positiva de la varianza, es decir:

S X  S X 2 =1.2355

Observe que la media muestral es un buen representante de los datos, ya que la desviación
estándar no es demasiado alta.

Para completar el literal a) debe obtenerse la media, varianza y desviación estándar para la
variable Y.


b) El número medio de ovejas condicionado a que en la explotación hay 2,000 cabras, se obtiene
   manteniendo fija la columna donde la variable Y es igual a 2. Esto es:


 X / Y  2  0*9  1*7  2*5  3*3  4*2 = 1.3077
                            26




                                                                                                              75
c) De forma análoga al literal b) (la media de Y es 1.46)

       Ejemplo. Dada la siguiente distribución de frecuencias conjunta:

       Xi       Yi      nij          Construir una tabla de correlación (doble entrada) y obtener:
       1        2       1
       1        6       1                   Distribuciones marginales de X e Y.
       2        2       2                   Distribución de Y condicionado a X=3
       3        2       1                   Covarianza
       3        4       1
       4        2       1
       4        4       2
       4        6       1

Solución.

La tabla de correlación pedida y sus distribuciones marginales están dadas en la siguiente tabla:
Y/X 1        2     3     4     n. j
                                                La distribución de Y/X=3
 2     1     2     1     1     5
                                                     Y/X=3 2        4    6
4      0     0     1     2     3
                                                      n j / i 3 1  1    0
6      1     0     0     1     2
ni .        2       2       2          4       10=N

Hay que introducir el concepto de covarianza:
Cuando se observa el comportamiento conjunto de dos variables, el objetivo principal es
determinar si existe o no algún tipo de variación conjunta o covariación entre ellas. La
covarianza, ayuda a cuantificar la covariación entre dos variables; así:
        Si la Cov(X,Y)>0, existe una tendencia a que mayores observaciones de una de las
         variables se correspondan con mayores observaciones de la otra variable.
        Si Cov(X,Y)<0, existirá una tendencia a que mayores observaciones de una variable se
         correspondan con menores observaciones de la otra variable.
        Si Cov(X,Y)=0, no se puede concluir que no exista relación entra ambas variables. Pero
         se puede decir que no existe relación lineal entre las variables.
Matemáticamente la covarianza se define como:

                                 x                    y          
                                 l         k

                                               i   X          j    Y nij
                                i 1
Cov( X , Y )  S XY 
                                           j

                                                    N




                                                                                                     76
4.3. Coeficiente de correlación lineal
Consideremos una variable estadística bidimensional (X, Y) donde X e Y son de tipo continuo y
suponemos que existe entre ellas algún tipo de relación, constatable mediante la correspondiente
representación gráfica. Pregunta: ¿Cómo de grande es la relación entre X e Y y cómo
cuantificarla? El coeficiente de correlación lineal es un valor que permite estudiar el grado de
dependencia lineal existente entre X e Y. Viene definido por:

                                          1 n
                             S XY            ( xi  x )( y i  y )
                                          n i 1
                        r         
                            S X SY     1 n
                                                     2
                                                       1 n
                                          ( x i  x ) n  ( y i  y )2
                                       n i 1            i 1




El término S XY se denomina covarianza. Una propiedad importante del coeficiente de
correlación es que no depende de cambios de origen y escala, y su valor siempre está
comprendido entre -1 y 1:

                                         1  r  1

De modo que valores de r cercanos a 1 indican una dependencia lineal y positiva entre las dos
variables, y valores de r cercanos a -1 indican dependencia lineal negativa. Cuando el valor de r
está cercano a cero, no existe dependencia lineal entre X e Y. Esto último puede ser, bien porque
X e Y son variables independientes, o bien porque la dependencia existente entre ambas variables
es de otro tipo diferente al lineal.



4.4. Introducción al modelos de regresión lineal

Los modelos de regresión lineal constituyen una poderosa herramienta para analizar la relación
existente entre la pauta de variabilidad de una variable aleatoria y los valores de una o más
variables (aleatorias o no) de las que la primera depende o puede depender. El modelo
fundamental se esquematiza en la siguiente tabla.

                             Tabla 1 Datos del problema
                      Variables a explicar       Variables o factores explicativos
                          (aleatoria)                    (aleatorios o no)
                              Y1                         X11 …Xi1….XIn
                               ----
Observaciones                   Yj                          X1i …Xii….Xin
                               ----
                               Yn                           X1n …Xin….Xnn


                                                                                              77
Se trata en general de estudiar las posibles relaciones existentes entre la distribución de Y j y los
valores de las X ij . A la Y se le denomina generalmente la variable dependiente, mientras que
frecuentemente a X i se les llama variables independientes o exógenos del modelo, aunque se
prefiere denominarlas variables explicativas.

Los gráficos de dispersión son útiles debido a que proporcionan información sobre la relación
existente entre las variables, permiten sugerir modelos posibles, pueden señalar la existencia de
observaciones atípicas, etc.

EJEMPLO 1. Analicemos la relación que existe entre el peso y la estatura según el sexo en el
siguiente diagrama de dispersión. 1: Hombres, 2: Mujeres. ESTAPESO.xls




                      Figura1 Diagrama de dispersión ESTATURA-PESO.


El diagrama presenta claramente, una relación positiva entre las dos variables estudiadas, que se
refleja en una nube de puntos cuyo eje principal tiene un sentido creciente, como consecuencia
del hecho de que, en términos generales, los individuos más altos pesan más que los más bajos.
El diagrama también pone de manifiesto que las mujeres tienen en general valores menores de
ambas variables que los hombres, pero que la relación entre PESO Y ESTATURA es bastante
similar en ambos sexos.

Covarianza. Coeficiente de Correlación

Con el objetivo de dar una idea intuitiva del concepto de covarianza, razonemos el siguiente
diagrama de dispersión, correspondiente a las variables: TEMPERATURA-COSTO, en la que las
rectas horizontal y vertical sobre el conjunto de puntos corresponden a los valores medios (42.83,
79.25).




                                                                                                  78
En este caso, existe claramente una fuerte relación negativa, la mayor parte de los puntos caen en
los cuadrantes II Y IV. Cuando la relación existente sea positiva la mayoría de los puntos caerán
en los cuadrantes I y III
Si consideramos para cada punto             xi , y i  del   diagrama el signo que tiene el producto
x  xy  y vemos que éste resulta positivo en los cuadrantes I y III
  i        i                                                                      y negativo en los
cuadrantes II Y IV. Por lo tanto el producto anterior será en promedio positivo si existe una
relación creciente entre las dos variables (es decir, si la Y tiende a crecer cuando lo hace la X) y
negativo si la relación existente es decreciente.
Por definición la covarianza entre dos variables no es más que el promedio de los productos de
las desviaciones de ambas variables respecto a sus medias respectivas. De forma similar a como
se procedió a definir la varianza, el promedio se calcula dividiendo por n-1 en vez de n.

            x                   
               n

                   i    x yi  y
Cov xy    i 1
                                        .
                       n 1
La covarianza presenta el inconveniente de que depende de las dimensiones en que se expresan
las variables. Así la covarianza entre TEMPERATURA y COSTO será mayor si se mide la
temperatura en grados kelvin que si se mide en Fahrenheit. Para obviar este problema se utiliza
universalmente en Estadística, como grado de relación lineal entre dos variables, el coeficiente
de correlación lineal que no es más que la covarianza dividida por el producto de las
                                                   Cov xy
desviaciones típicas de las dos variables. rxy           . Se puede demostrar que el coeficiente de
                                                    SxSy
correlación lineal está siempre comprendido entre -1 y 1. Los valores extremos sólo los toma en
el caso de que los puntos del diagrama de dispersión estén alineados exactamente en línea recta.
Cuanto más estrecho es el grado de relación lineal existente entre dos variables más cercano a 1
es el valor de r (o a -1 si la relación es decreciente). Por el contrario un valor de r nulo o cercano
a cero indicará una relación lineal inexistente o nula.


                                                                                                   79
OBSERVACIONES
     En general cuanto más estrechamente se agrupen los puntos del diagrama de dispersión
      alrededor de una recta más fuerte es el grado de relación lineal existente entre las dos
      variables consideradas.
     Es importante resaltar que tanto la covarianza como el coeficiente de correlación miden
      sólo el grado de relación lineal existente entre dos variables. Dos variables pueden tener
      una relación estrecha y sin embargo resultar r cercano a cero por ser dicha relación no
      lineal.
     Es importante del conocimiento no estadístico del problema al momento de hacer
      predicciones.

EJERCICIO 1.

Dada una alta inflación, el señor Chávez ha cuidado mucho de su presupuesto. Como su casa
tiene calefacción eléctrica, llevó un registro de la cuenta del consumo mensual de energía
eléctrica durante el año pasado y del promedio mensual de la temperatura exterior. Los datos
aparecen en la siguiente tabla. La temperatura está dada en grados Celsius y el costo de la energía
está en dólares. TEMPERACOSTO.xls.
                     Tabla2. Registro mensual: TEMPERATURA-COSTO.

                            Mes             Temperatura                 costo de
                                             Promedio                   energía
                           Enero                10                        120
                          Febrero                 18                      90
                           Marzo                  35                      118
                           Abril                  39                      60
                           Mayo                   50                      81
                           Junio                  65                      64
                            Julio                 75                      26
                          Agosto                  84                      38
                        Septiembre                52                      50
                          Octubre                 40                      80
                        Noviembre                 25                      100
                        Diciembre                 21                      124


Identificar las variables, dependiente y explicativa. Hacer sus conjeturas de la relación entre las
variables a partir del siguiente gráfico y calcular la Cov xy y rxy .

                                                                                                80
Figura 2. Diagrama de dispersión TEMPERATURA- COSTO.




                                                                    Descriptive Statistics

                                                                            Mean Std. Deviation N

                                                      TEMPERATURA 42.83                      23.218 12
                                                      COSTO                 79.25            32.628 12




                                           Correlations

                                                                TEMPERATURA COSTO

     TEMPERATURA Pearson Correlation                                                 1       -.863**

                         Sig. (2-tailed)                                                       .000

                         Sum of Squares and Cross-products                  5929.667 -7188.500

                         Covariance                                          539.061 -653.500

                         N                                                          12           12

     COSTO               Pearson Correlation                                   -.863**            1

                         Sig. (2-tailed)                                         .000

                         Sum of Squares and Cross-products                 -7188.500 11710.250

                         Covariance                                          -653.500 1064.568

                         N                                                          12           12

     **. Correlation is significant at the 0.01 level (2-tailed).


RUTA:Analyze>Correlate>Bivariate (En variables trasladar TEMPERATURA,
COSTO)>Opciones (Seleccionar los estadísticos, Exclude cases pairwise)>Continue>Ok


                                                                                                         81
4.5. Modelo de regresión simple.

En este tipo de regresión se desea caracterizar el efecto lineal de una única variable explicativa
sobre la variable respuesta. Los pasos para efectuar un análisis son los siguientes (JURAN y
GRYNA, 1997, cap. 23):
   1. Representación gráfica de datos
   2. Planteamiento del modelo
   3. Estimación de la ecuación de predicción
   4. Examen de la adecuación del modelo lineal
   5. Intervalos de confianza para la estimación


En este apartado se explica el modelo de regresión lineal simple, un modelo con un solo regresor
x que tiene una relación con una respuesta y, donde la relación es una línea recta. Este modelo de
regresión lineal simple es:

y   o  1 x   (Modelo poblacional de regresión)

Donde la ordenada al origen    o   y la pendiente 1 son constantes desconocidas, y      es una
componente aleatorio del error. Se supone que los errores tienen promedio cero y varianza

 2 desconocida. Además se suele suponer que los errores no están correlacionados. Esto quiere
decir que el valor de un error no depende del valor de cualquier otro error.



4.5.1. Estimación de los parámetros por mínimos cuadrados


Los parámetros    o y 1     son desconocidos, y se debe estimar con los datos de la muestra.
                                                                      
Supongamos que hay n pares de datos: x1 , y1 , x2 , y2 ,, xn , yn . Estos datos  
pueden obtenerse en un experimento controlado, diseñado en forma especifica para recolectarlos,
o en un estudio observacional, o a partir de registros históricos existentes (lo que se llama un
estudio retrospectivo).
      Estimación de    o y 1

Para estimar  o y 1 se utiliza el método de mínimos cuadrados. Esto es, se estima  o y
1 tales que la suma de los cuadrados de las diferencias entre las observaciones y i y la línea

                                                                                               82
recta          sea           mínima.                  La             ecuación                     se             puede     escribir        yi   o  1 xi   i
i  1, 2,...,n (Modelo muestral de regresión), escritos en términos de los n pares de datos
 yi , xi  , i  1, 2,...,n . Así el criterio de mínimos cuadrados es:
                                n
S  0 , 1     yi   0  1 xi  . Los estimadores por mínimos cuadrados de  o y 1 ,
                                                                                      2

                               i 1

                                                              
que se designarán por                      0 1 , deben satisfacer
                                                      y

                                                                                                                                   n                   
                                                                                                                                                                     
                                                                                                                  S
                  n                                                                                                         2  yi        0  1 x  x
                                                         
S                                                                                                y
 0  , 
             2  yi 
                                      0                 x 0
                                                           1 i                                                   1  ,          
                                                                                                                                 i 1 
                                                                                                                                                                i       i   0
                                                                                                                                                                     
         
                i 1                                         
       0 1                                                                                                              0 1
Simplificando estas dos ecuaciones se obtiene:

                                                                                                  n              n
      0 1  x   y
                         n             n

                                                               0  x  1  xi2   xi yi
                                                                          n
n                              i                 i
                                                      ;                           i
                        i 1          i 1                            i 1
                                                                                                  i 1              i 1
Que son las llamadas ecuaciones normales de mínimos cuadrados. Su solución es la
                                                                                n     n    
                                                                               yi   xi                                        1 n                1 n
siguiente:   y   x ;                                                        i 1  i 1                      , en donde y        yi        x      xi son
                                                                      n

            0       1                                                yi xi 
                                                          1        i 1             n
                                                                                                             2
                                                                                                                                      n i 1             n i 1
                                                                                      n    
                                                                                       xi 
                                                                               xi   i1n 
                                                                              n
                                                                                   2

                                                                              i 1
                                                                                                                                     
los promedios de y i y xi respectivamente. Por consiguiente,                                                                  0 y 1 , son los estimadores por
mínimos             cuadrados.                   El       modelo ajustado de regresión                                            lineal    simple es           entonces:
                      

y   0  1 x .Esta                         ecuación produce un estimado puntual, de la media de y para una
determinada x.
Otra forma más compacta de escribir                                                          S xy , donde:
                                                                               1 
                                                                                              S xx
                                                 2
                    n                                                                                                   n     n    
                     xi                                                                                                 yi   xi 
            xi   i 1                                    x                                            yi xi   i 1  i 1                 y x                   
              n                                                n                                                 n                                        n
                                                                                          2
                                                                              x ;                                                                                           x
                 2
S xx                                                                      i                           S xy                                                       i       i
            i 1         n                                    i 1                                             i 1             n                        i 1


                                                                                                                                                           
La diferencia entre el valor observado                                                        y i y el valor ajustado correspondiente y se llama
                                                                                                                                       i
residual, matemáticamente el
                               
                                             
i-ésimo residual es: ei  yi  yi  yi    0  1 xi  i  1,2,.... n .
                                                      
 ei Tiene un papel importante para investigar la adecuación del modelo de regresión ajustado.

                                                                                                                                                                             83
4.5.2. Propiedades de los estimadores por mínimos cuadrados y el
modelo ajustado de regresión.


Tenemos que:
                            

0         y             1 x
                       y x                   Son combinaciones lineales de y , entonces se puede escribir,
                       n
         S xy               i       i   x
1                  i 1
                             S xx
                                                                               i
          S xx

  
E  1         1
                                               E  yi      0    1 xi
   
                                                                                      1 x2 
E   0   0 ;                                     
                                                       
                                               Var  1  
                                                                  2
                                                                             
                                                                       Var  0    2   
                                                   sxx
                                                                                       n sxx 
                                                                                               

Propiedades útiles
            n
                 
                       n
     1.   y i  y i    ei  0
        i 1          i 1

            n                    n       
     2.  yi   yi
           i 1              i 1


     3. La línea de regresión de mínimos cuadrados siempre pasa por el centroide de los datos
           que es el punto                   y, x 
            n

     4.    xe
           i 1
                      i i    0
            n     

     5.     yi ei  0
           i 1




                                                                                                                84
Estimación de  2

        Además de estimar  0 y 1 , se requiere estimar  . Se obtiene de la suma de cuadrados
                                                          2



        residuales, o suma de cuadrados del error.
               n
SCRe s   ei
                           2

              i 1
                                               2
               
               n   
                      
           yi  yi 
          i 1       
                                                                         2
               
               n         
                                 
           y i   0   1 xi 
          i 1                  
                                                                                         2
               
               n               
                                       
           y i  y   1 x   1 xi 
          i 1                        

                                                                                                                      x               
               n                                                       n                                           2          n
          y i  y  2  1  y i  y xi  x   1
                                       2                                                                                                      2
                                                                                                                                     i   x
              i 1                                                  i 1                                                      i 1
               n
                       
          yi  2 yi y  y  2 1  xi yi  2 1  yi x  2 1  xi y  2 1  x y  1 s xx
              i 1
                               2                                    2
                                                                                            n


                                                                                             i 1
                                                                                                                         n


                                                                                                                         i 1
                                                                                                                                                  n


                                                                                                                                                  i 1
                                                                                                                                                                  n


                                                                                                                                                                  i 1
                                                                                                                                                                          2



                                                n                    n

               n                           y y            i                    i                            n                            1 n      n
          y i  2n                                                                  n y  2  1  xi y i  2  1                               xi  y i
                                                                                                  2
                           2                   i 1                 i 1

              i 1                                  n                    n                                    i 1                           n i 1 i 1
                                  1   n                n
                                                         1      1 n     s                           n
               2 1                    yi  xi  2 1 n  xi  yi  1 . xx .s xx
                                   n i 1 i 1           n i 1 n i 1    s xx
               n                                                                              n                        1 n      n      
          y i  2 n y  n y  2  1  xi y i  2  1                                                                        xi  yi  1 S xy
                           2                    2                       2

              i 1                                                                            i 1                       n i 1 i 1
            n              n        1 n      n
                                                   
          yi  n y  2 1  xi yi   xi  yi   1 S xy
               2    2

          i 1               i 1    n i 1 i 1 
               n                                                                        
          yi  n y  2 1 S xy  1 S xy
                           2               2

              i 1
               n                                        
SCRe s   yi  n y  1 S xy
                           2               2

              i 1



        y  y    y
        n                                      n                                     2
                                   2
                                                                     n y  SCT
                                                                2
Pero               i                                        i
       i 1                                i 1




                                                                                                                                                                               85
                        
SCRe s  SCT  1 S xy

E SCRe s   n  2  2
La suma de cuadrados residuales tiene n-2 grados de libertad, porque 2 grados de libertas se
                                        
                                                                          

asocial con los estimados        0 y 1     que se usan para obtener    yi   . El estimador insesgado de
 2 es:
  2         SCRe s
                   CM Re s (Cuadrado Medio Residual)
             n2
        2
      : Error estándar de regresión.
  2
 Es un estimado de  2 dependiente del modelo.

4.5.3. Intervalos de confianza


Intervalos de confianza de  0 y 1 . Si los errores se distribuyen en forma normal e
                                                                                       
                                                                        1  1        0  0
independiente, entonces la distribución de muestreo tanto de                       y               es t con n-2
                                                                                        
                                                                        Se 1        Se  0 
                                                                                        
grados de libertad.
Un intervalo de confianza de 100 1   % para     1 es:

1  t 2,n2 Se 1   1  1  t 2,n2 Se 1 
                                                      
                                             
                                                          

Un intervalo de confianza de 100 1   % para     0 es:

 0  t 2,n2 Se  0    0   0  t 2,n2 Se  0 
                                                      
                                                 
                                                          
Estimación de intervalos de la respuesta media.
Una aplicación importante de un modelo de regresión es estimar la respuesta media, E  y  , para
determinado valor de la variable regresora x.




                                                                                                            86
Sea x 0 el valor o nivel de la variable regresora para el que se desea estimar la respuesta media, es

decir, E  y  . Se supone que x 0 es cualquier valor de la variable regresora dentro del intervalo
          x 
          0
de los datos originales de x que se usaron para ajustar el modelo.
Un estimador insesgado de E  y  se determina a partir del modelo ajustado como sigue:
                                x 
                                   0


                   
E y    y x0   0   1 x0
  x0 
     

Para obtener un intervalo de confianza de 100 1   % para E  y  , se debe notar primero que
                                                                x 
                                                                  0
  
 y x es una variable aleatoria normalmente distribuida, porque es una combinación lineal de las
      0

                                                     
observaciones y i . La varianza de  y x0 es:
                          
                                              
                                            2

         
                       2 1
                               x0  x
Var   y                                    
                         n                    
                  
              x0
                                 S xx
                          
                                               
                                                
                                                           
                                                          y / x  E  y / x0 
                                                               0
La distribución de muestreo de:                                                               es una distribución t, con n-2 grados
                                                            
                                                                                        
                                                                                      2
                                                                x0  x
                                                    CM Re s                             
                                                              1
                                                            n                            
                                                                 S xx                    
                                                                                         
de libertad.
Un intervalo de confianza de 100 1   % para la respuesta media en el punto x  x 0 es:

                          1 x  x
 y x0  t ,n 2 . CM Re s  0
                                                   2
                                                         
                                                               x 
                                                                       
                                                           E y     t
                                                                                            1 x x
                                                                                   . CM Re s  0
                                                                                                                         
                                                                                                                          2
                                                                                                                              
                                                                                                                              
           2               n    S xx                         0
                                                                       y x0  ,n2
                                                                             2              n    S xx                        
                                                                                                                           

Nótese que el ancho del intervalo de confianza para E  y  es una función de x 0 . El ancho del
                                                       x 
                                                         0


intervalo es mínimo para x0  x , y crece a medida que aumenta x 0  x .

Las mejores estimaciones de y se hacen con valores de x cerca del centro de los datos.




                                                                                                                                  87
4.5.4. Prueba de hipótesis de la pendiente y de la ordenada al origen.

Uso de la prueba t
Supongamos que deseamos probar que la pendiente es igual a una constante.
H 0 : 1  10
H1 : 1  10

ei son     NID 0,  2    
 
1 Es una combinación lineal de las observaciones, y está distribuida normalmente.
                                          2
E  1   1 (Promedio de 1 ); Var 1  
                                      
                                              (Varianza de 1 )
                                    S xx
Estadístico t (Definición)



                          CM Re s
Denótese a        Se 1           : Como el error estándar estimado o error estándar de la
                            S xx
                                     
                                 1  10
pendiente, entonces t0                           . Se rechaza la hipótesis nula si   t0  t 2 ,n2 .
                                   
                                 Se 1 
                                    
Hipótesis para la ordenada al origen.
H 0 : 0   00
                                                                  
                                              0   00            0   00
                  ;           t0                             
H1 : 0   00                                    1 x2              
                                                                  Se  0 
                                         CM Re s        
                                                                     
                                                  n S xx 
                                                         

                  1 x2 
Se  0   CM Re s         Error estándar de la ordenada al origen.
                   n S xx 
                            

Se rechaza la hipótesis nula sí t0                 t 2 ,n2 .
Nota: El que una variable no sea significativa no quiere decir que en realidad no lo es, es
necesario el conocimiento no estadístico del problema para determinar por ejemplo si los
intervalos de los datos fue el adecuado.


                                                                                                         88
Prueba de significancia de la regresión (Caso particular del test anterior: la conste es igual
a cero).
H 0 : 1  0
H1 : 1  0

El no rechazar H 0 : 1  0 implica que no hay relación lineal entre x e y.
“X tiene muy poco valor para explicar la variación de Y, por lo tanto el mejor estimador para
                  
cualquier x es y  y
“La verdadera relación entre x e y no es lineal”
Si se rechaza H 0 : 1  0 , explica que x tiene valor para explicar la variabilidad de y. Rechazar

H 0 : 1  0 podría equivaler a que:
“El modelo de línea recta es adecuado”
“Aunque hay un efecto lineal en x se podrían obtener mejores resultados agregando términos
polinomiales en x”.

El procedimiento de prueba para H 0 : 1  0 se puede establecer con dos métodos.




4.6. Predicción de nuevas observaciones



Una aplicación importante del modelo de regresión es predecir nuevas observaciones y que
correspondan a un nivel especificado de la variable regresora x. Si x 0 es el valor de interés de la
                                         
variable regresora, entonces: y 0   0   1 x0 es un estimador puntual del nuevo valor de la

respuesta y 0 .
Una aplicación importante del modelo de regresión es predecir nuevas observaciones y que
correspondan a un nivel especificado de la variable regresora x. Si x 0 es el valor de interés de la
                                         
variable regresora, entonces: y 0   0   1 x0 es un estimador puntual del nuevo valor de la

respuesta y 0 .

A continuación se obtendrá un estimado del intervalo para esta observación futura y 0 .


                                                                                                 89
                 
Sea   y 0  y 0 , con distribución normal con media cero y varianza.

                     
                                                               
                                                                       
Var   Var y 0  y 0   Var y 0   Var y 0   2Cov y 0 , y 0 
                                                                  
                                                  
                              Var y 0   Var  0  1 x0 
                                                            

                                  0
                                  2
                                    1 x  x
                                          2              
                                                          2

                                                           
                                    n
                                    
                                          S xx                
                                                              
             1 x x
Var    1   0
             2                  
                                  2

                                  
             n
            
                     S xx             
                                      
El resultado de predicción de 100 1   % de confianza para una observación futura en x 0 es:

                         1 x x
y 0  t ,n  2 . CM Re s1   0
                                             
                                              2
                                                  
                                                  
        2                 n      S xx            
                                                 
Lo anteriormente expuesto se puede observar en el siguiente gráfico que muestra las bandas de
confianza y de predicción para un conjunto de datos.




El intervalo de predicción en x 0 siempre es más ancho que el intervalo de confianza en x 0 ,
porque el intervalo de predicción depende tanto del error del modelo ajustado como el error
asociado con observaciones futuras.

Coeficiente de determinación.
                     SCR      SC Re s
La cantidad R 2          1         . Se llama coeficiente de determinación.
                     SCT       SCT




                                                                                                  90
                                                   
                                                1 2 S xx
Y su valor esperado: E R 2               
                                           1 2 S xx   2

                            
               n              2
SCT   yi  y : es una medida de variabilidad de y sin considerar el efecto de la variable
              i 1
regresora x.
                                       2
                  
                        n
SC Re s    yi  y i  : es una medida de variabilidad de y que queda después de haber
          i 1        
tenido en consideración a x.
R 2 : Proporción de la variación explicada por el regresor x.
                                           SCR
Ya que 0  SCR  SCT : 0                       1; 0  R 2  1 .
                                           SCT
Regresión por el origen
EL modelo sin ordenada al origen es: y   1 x   . Dadas las n observaciones
                                                                                                    n
xi , yi ,   i  1,2,... n , la función de mínimos cuadrados es: S  1     y i   1 xi 
                                                                                                             2

                                                                                                   i 1
                                                                         n

                                                                
                                                                          yi xi
Siguiendo el proceso por mínimos cuadrados:                              i 1
                                                                1   
                                                                            n
                                                                           x i2
                                                                          i 1

                                                           
EL modelo de regresión ajustado es: y   1 x .
                                                                          2

                                      yi  yi 
                                                           n                     n                    n

                       2                
                                    i 1 
                                                  
                                                  
                                                                                 y     2
                                                                                        i     1  y i xi
El estimador de  es:   CM Re s 
                 2
                                                                                i 1                i 1

                                           n 1                                             n 1
Los intervalos de confianza son:
                           CM Re s
 1 :  1  t , n  1
                                 n
                               x i2
                     2

                              i 1

                         2
  y  :  y  t , n  1 x0 .CM Re s
E             
  x0                        n

                              xi2
            x0    2

                                                i 1




                                                                                                                 91
                                                                            
                                                                            
                                                                   x2
Para una observación futura:        y 0  t , n  1 CM Re s1  n 0         
                                                                            
                                                              xi
                                            2
                                                                             
                                                                       2

                                                                i 1        

                                                                        2
                                                         n          
     
                                                          yi  y 
         Modelo con ordenada al origen                  i 1        
                                                 R2 
                                                         y i  y 
                                                          n          2

                                                        i 1

                                                          n 2
                                                            yi
        Modelo sin ordenada al origen: R 2            i 1
                                                          n
                                                            y i2
                                                        i 1

A veces, el diagrama de dispersión proporciona una guía para decidir si se ajusta o no el modelo
sin ordenada al origen. También, se pueden ajustar ambos modelos y escoger entre ellos de
acuerdo con la calidad del ajuste obtenido. Si no se puede rechazar la hipótesis  0  0 en el
modelo sin ordenada al origen, quiere decir que se puede mejorar el ajuste si se usa es modelo.
El cuadrado medio de residuales es una forma útil de comparar la calidad del ajuste. El modelo
que tenga el cuadrado medio residual menor, es el mejor ajuste.
                2
En general, R       no es un buen estadístico para comparar los dos modelos.

El resultado de predicción de 100 1   % de confianza para una observación futura en x 0 es:

                               
                          1 x x
y 0  t ,n  2 . CM Re s1   0
                                             
                                             2
                                                 
                                                 
        2                 n      S xx           
                                                
El intervalo de predicción en x 0 siempre es más ancho que el intervalo de confianza en x 0 ,
porque el intervalo de predicción depende tanto del error del modelo ajustado como el error
asociado con observaciones futuras.

Coeficiente de determinación.
                     SCR      SC Re s
La cantidad R 2          1         . Se llama coeficiente de determinación.
                     SCT       SCT
                                         
                                        1 2 S xx
                           
Y su valor esperado: E R 2         
                                 1 2 S xx   2


                                                                                                  92
                      
         n             2
SCT   yi  y : es una medida de variabilidad de y sin considerar el efecto de la variable
        i 1
regresora x.
                           2
                  
                   n
                       
SC Re s    yi  y i  : es una medida de variabilidad de y que queda después de haber tenido
          i 1        
en consideración a x.

R 2 : Proporción de la variación explicada por el regresor x.
                               SCR
Ya que 0  SCR  SCT : 0           1; 0  R 2  1 .
                               SCT


4.7. Transformaciones para linealizar un modelo.
A partir de un diagrama de dispersión o de la teoría sobre ciertas funciones, podemos conocer que
la relación entre las dos variables puede representarse adecuadamente solo por cierta función
matemática curvilínea (no lineal), por ejemplo la tendencia general del crecimiento poblacional
sigue un modelo exponencial positivo, el decaimiento radioactivo sigue un modelo exponencial
negativo, etc. En algunos casos una función no lineal se puede lineal izar con una transformación
adecuada.

Función linealizable           Transformación                   Forma lineal

y   0 x 1                    y  log y, x  log x          y   log  0  1 x
y   0 e 1x                   y  ln y                       y   ln  0  1 x
y   0  1 log x             x  log x                       y    0  1 x 
                                       1        1
                                y      , x 
           x
y                                                              y    0  1 x 
       0 x  1                       y        x

EJEMPLO. Los datos siguientes se obtuvieron de observaciones periódicas hechas durante el
crecimiento de una población de células de levadura. Se efectuaron recuentos cada dos horas.
n Horas Número
   (X)     de células(Y)
1 2        19
2 4        37
3 6        72
4 8        142
5 10       295
6 12       584
7 14       995

                                                                                              93
El gráfico de dispersión muestra que los datos provienen de una función exponencial
y   0 e 1x Con    el fin de transformar la curva en recta conviene hacer la transformación,
y  ln y
        tomamos los logaritmos          de las células.: RUTA: Transform>Compute Variable
(LOGNATURAL)>
                     n Horas            Número          de Ln (Y)
                        (X)             células (Y)
                     1 2                19                     2.944439
                     2 4                37                     3.610918
                     3 6                72                     4.276666
                     4 8                142                    4.955827
                     5 10               295                    5.686975
                     6 12               584                    6.369901
                     7 14               995                    6.902743

Seguidamente se verifica por medio de un gráfico de dispersión si la transformación es adecuada
RUTA:Graphs>Legacy Dialogs>Simple Scatter>Define (Y: LOGNATURAL;X: Horas>




Como se esperaba, hoy los datos se ajustan a una línea recta. El proceso manual para obtener la
ecuación de predicción es el mismo que el de regresión simple. En SPSS se obtiene siguiendo la
RUTA: Analyze>Regression> Linear (Dependent: LOGNATURAL, Independent: Horas>Ok


                                      ANOVAb

                         Sum of
Model                                   Df       Mean Square       F      Sig.
                         Squares
1       Regression           12.627          1        12.627 4936.297      .000a

        Residual               .013          5          .003

        Total                12.640          6


                                                                                             94
                                          ANOVAb

                            Sum of
Model                                        Df       Mean Square            F             Sig.
                            Squares
1         Regression            12.627            1         12.627 4936.297                  .000a

          Residual                 .013           5           .003

          Total                 12.640            6

a. Predictors: (Constant), Horas
b. Dependent Variable: LOGNATURAL




                                              Coefficientsa

                   Unstandardized            Standardized                             95% Confidence Interval
                    Coefficients             Coefficients                                     for B
                                                                             Sig        Lower        Upper
Model              B        Std. Error            Beta               t        .         Bound        Bound

1 (Consta                                                         53.28 .00
                   2.278           .043                                                     2.168      2.388
    nt)                                                                  7        0

    Horas                                                         70.25 .00
                     .336          .005                    .999                              .323        .348
                                                                         9        0

a. Dependent Variable:
LOGNATURAL
El modelo lineal encontrado es entonces: y  2.278  0.336.Horas . Para determinar el modelo

ajustado a los datos originales, se debe considerar la transformación y  ln y y su modelo

lineal: y   ln    0  1 x . Resolviendo:   ln  0  2.278 , entonces  0  9.757 .

Finalmente, el modelo ajustado es:        y  9.757 e 0.336. Horas .




                                                                                                                95
Las pruebas de idoneidad para el modelo se discutirán posteriormente.




En el análisis, éste caso se conoce el orden en que fueron recolectados los datos, y debe hacerse
para determinar si hay dependencia de los residuos con la secuencia del tiempo de recolección




Para realizar una regresión no lineal mediante SPSS tenemos que elegir los menús
Analize>Regression>Curve Estimation.

Este menú nos da la opción de calcular los siguientes modelos de regresión.
     Lineal, Y   0   1 X
    Logarítmica, Y    0  1 ln X
                       1
    Inversa Y   0 
                        X
    Cuadrático Y   0   1 X   2 X
                                        2


    Cubico. Y       0  1 X   2 X 2   3 X 3
    Potencia. Y      0 X  o ln Y  ln  0  1 ln X
                             1




    Compuesto Y   0 1 o ln Y  ln  0  X ln 1
                                 X




                                                                                              96
                       0       1                        1
    Curva S Y  e                      o ln Y   0 
                                t                       t
                                          o ln Y   0  1 X
                              0  1 X
    Crecimiento Y  e
    Exponencial Y          0 e  X o ln Y  ln  0  1 X
                                     1




Para el caso anterior, elegimos exponencial, y los resultados son los siguientes:
                                Model Summary
                                           Adjusted R       Std. Error of
                R      R Square             Square          the Estimate
                 .999      .999           .999                       .051
            The independent variable is Horas.

                                                    ANOVA
                                Sum of
                                Squares             df         Mean Square       F        Sig.
            Regression         12.627          1                    12.627 4936.297         .000
            Residual              .013         5                      .003
            Total              12.640          6
            The independent variable is Horas.


                                                  Coefficients
                                Unstandardized                 Standardized
                                 Coefficients                  Coefficients
                                B              Std. Error          Beta           t       Sig.
            Horas              .336           .005                        .999   70.259     .000
            (Constant)        9.755           .417                               23.394     .000
            The dependent variable is ln(células).




                                                                                                   97
4.7. Ejercicios.
1. Determine una ecuación que describa la relación entre la frecuencia de accidentes y
   el nivel de educación preventiva

                           X         Y          XY          X2
                          150       8.00       1200       22500
                          200       7.00       1400       40000
                          300       6.50       1950       90000
                          450       5.20       2340      202500
                          500       6.40       3200      250000
                          600       4.40       2640      360000
                          800       4.00       3200      640000
                          900       3.10       2790      810000
                         3900      44.60      18720     2415000


2. Una compañía que tiene 15 tiendas ha recopilado datos en relación con los metros
   cuadrados de área de ventas respecto a los ingresos mensuales. Trace una gráfica de
   los datos, y si parece apropiado un modelo lineal determine la ecuación de regresión.

                  Tienda   Metros 2   Ingreso
                              X          Y          XY         X2
                     a       55          45        2475       3025
                     o       80          60        4800       6400
                     j       85          75        6375       7225
                     e       90          75        6750       8100
                     k       90          80        7200       8100
                     d       110         95       10450      12100
                     n       130         95       12350      16900
                     g       140        110       15400      19600
                     c       180        120       21600      32400
                     l       180        105       18900      32400
                     b       200        115       23000      40000
                     i       200        130       26000      40000
                     h       215        140       30100      46225
                     f       260        170       44200      67600
                    m        300        200       60000      90000
                    15      2315        1615     289600     430075


3. Determine una ecuación predictiva para calcular el monto del seguro, en función del
   ingreso anual para los siguientes datos:




                                                                                     98
                                 Ingreso Prima
                                    X      Y    XY            X2
                                    13      5    65          169
                                    16     15   240          256
                                    17     20   340          289
                                    18     10   180          324
                                    20     10   200          400
                                    25     12   300          625
                                    26     15   390          676
                                    32     30   960         1024
                                    38     40  1520         1444
                                    40     50  2000         1600
                                    42     40  1680         1764
                                   287    247 7875          8571

4. De una distribución de dos variables se conocen los siguientes datos:

                   r = 0.9; Sx = 1.2; Sy = 2.1; X  5; Y  10 . A partir de los mismos,
                   obténganse las rectas de regresión mínimo cuadráticas de X sobre Y y
                   de Y sobre X. (30%)

5.   Para un mismo grupo de observaciones de las variables X e Y, se han obtenido las
     dos rectas de regresión siguientes:

                                                     3x + 2y = 26
                                                     6x + 2y = 32
                   a) Obtener las medias de X e Y.
                   b) Obtener el coeficiente de correlación lineal.

6. En una distribución bidimensional ( xi , yi ) se sabe que: Los valores de la variable X son (1, 2,
   3, 4 y 5); la recta de regresión de Y sobre X ( x  3 y  8  0) y el coeficiente de correlación
   lineal (r=0.8). Hallar:
                   a) La media y la varianza de X
                   b) Los valores estimados de  0 y 1 de la recta de regresión de Y sobre X.
                   c) La covarianza
                   d) La media y la varianza de Y.

7. En un estudio donde se investigó la relación que existe entre la temperatura de la superficie
   de una carretera (X, medida en grados Fahrenheit) y la deformación del pavimento (Y). El




                                                                                                  99
                                                                                                       20
resumen                   de       cantidades           es        la              siguiente:   n=20,   y
                                                                                                       i 1
                                                                                                              i    12 ,
20                 20                   20                         20

y
i 1
        2
        i    8,   x
                   i 1
                          i    1470;   x
                                        i 1
                                               2
                                               i    143215   y   x y
                                                                   i 1
                                                                          i   i    1083 .

       a) Calcular las estimaciones de mínimos cuadrados de la pendiente y la ordenada al
          origen.
       b) ¿Qué cambio se espera en la deformación del pavimento cuando la temperatura de la
          superficie cambia 1°F?
       c) Suponga que la temperatura se mide en grados centígrados (°C), en lugar de °F.
          Escriba el nuevo modelo de regresión. (Recuerde que °F= (9/5) °C+32).

       8. A partir de un conjunto de valores de las variables X e Y, se ha determinado la
          regresión de Y sobre X, obteniéndose la siguiente recta: y  10  0.45x , r=0.95;
             x  20
            Se pide que, a partir de la definición de la anterior recta, determine los
            parámetros de la recta de regresión de X sobre Y.




                                                                                                                   100
Capítulo 5. Los Valores Relativos
5.1. Razones, Proporciones, Porcentajes y Tasas.
Razón: Es una fracción donde el valor considerado en el numerador no debe estar incluida en el
denominador, en consecuencia la razón puede ser un número superior o inferior a la unidad.

Ejemplo: Supongamos que el número de personas que visitan un centro comercial, en un día
cualquiera es 7,000, de las cuales 4,200 son mujeres y 2,800 son hombres. Obtener la razón de
mujeres respecto a los hombres.

Solución:
La razón o relación = 4200/2800 = 1.5, indica que las mujeres frecuentan ese centro comercial en
un 50% más que los hombres.

Proporciones:
Las proporciones se hacen para dar cuenta de la fracción que representa cada uno de los
subconjuntos que componen el conjunto total. Por ejemplo, los subconjuntos formados por niños,
jóvenes, adultos, y ancianos si, respectivamente, los comparamos con la totalidad del conjunto
daremos cuenta de la proporción respectiva de cada uno de los subconjuntos. Si en una localidad
viven 2,000 niños, 3,000 jóvenes, 1,000 adultos y 300 ancianos, la totalidad de la población
sumarían 6,300 habitantes, y las proporciones de niños sería 0.31, de jóvenes 0.47, de adultos
0.15 y de ancianos 0.04.

Ejemplo: La población del municipio de Soyapango distribuida por rango de edades se
presenta en el siguiente cuadro.
                                                                 Sexo
                    Rango de edades                                                Total
                                                      Hombre               Mujer
        Edad de 0 a 10 años                            25,097           23,858     48,955
        Edad de 11 a 15 años                           12,849           12,490     25,339
        Edad de 16 a 20 años                           11,384           11,810     23,194
        Edad de 21 a 30 años                           19,587           23,372     42,959
        Edad de 31 a 45 años                           21,264           28,725     49,989
        Edad de 46 a 65 años                           16,219           21,645     37,864
        Edad de 66 años ó más                           4,834              8,269   13,103
        Total                                          111,234          130,169    241,403
       Fuente: VI Censo de Población y V de Vivienda, El Salvador, 2007.

Obtener la proporción que representa cada grupo de edades.

NOTA: Cuando el valor del numerador está incluido en el denominador                          se
establece una proporción.


                                                                                             101
Porcentajes:

Los porcentajes se hacen para expresar las proporciones en base 100. En el ejemplo anterior, los
niños representan el 31%, los jóvenes el 47%, los adultos el 15% y los ancianos 4%.

Ejemplo: En el censo de población de El Salvador, 2007, se encuentra que en el Municipio de
Mejicanos, tiene los siguientes sobre la condición laboral, para la población mayor de 10 años.

NOMBRE DEL LUGAR                           CONDICION LABORAL
                        Población ocupada Población que busca trabajo Inactivos Total
Zona Urbana                   54295                  5894               46288 106477
CANTÓN CHANCALA                286                    52                 335      673
CANTÓN SAN MIGUEL              467                    32                 478      977
CANTÓN SAN ROQUE               3739                  494                3991     8224
Total                         58787                  6472               51092 116351
Obtener la proporción de la población según condición de laboral por cantón y municipio.


Tasas:

Las tasas se hacen cuando el conjunto se fracciona en dos subconjuntos y se quiere dar cuenta de
la parte que representa uno de los subconjuntos sobre el total del conjunto. Esta representación se
suele expresar en base 100, pero se pude hacer en base 10, 1000, etc. Por ejemplo, si el conjunto
de la población activa se divide en dos subconjuntos denominados desempleados y ocupados, la
tasa de desempleo sería el resultado de multiplicar por cien el número resultante de dividir el
número de desempleados por el total de activos (ocupados y desocupados). Si de las 4,000
personas activas que hay en una localidad, 3,600 están ocupadas y 400 están desempleadas, la
tasa de desempleo sería (400/ 4,000) X 100= 10%.

Ejemplo: En el censo de población de El Salvador, 2007, se encuentra que en el Municipio de
Mejicanos, tiene los siguientes datos de analfabetismo, para la población mayor de 5 años.
                          Sabe leer y escribir
LUGARES
                             Si          No       Total
Zona Urbana                109205       8872     118077
CANTÓN CHANCALA              672        123        795
CANTÓN SAN MIGUEL            916        221       1137
CANTÓN SAN ROQUE            8027       1343       9370
Total                      118820      10559     129379
Obtener la tasa de analfabetismo por cantón y municipio.




                                                                                               102
Ejercicio.
La población de 15 años o más según su condición de analfabetismo se presenta en el siguiente
cuadro.
                                                Sabe leer y escribir
           Sexo                                                                                    Total
                                          Si                                 No
     Soyapango                        161,155                              10,801                 171,956
     Ilopango                          66,240                              5,420                   71,660
     San Martín                        43,033                              5,376                   48,409
    Fuente: VI Censo de Población y V de Vivienda, El Salvador, 2007

Obtener las tasas de analfabetismo de cada municipio y hacer un análisis comparativo de los
resultados.


5.2. Diferencia Relativa
La diferencia relativa se calcula como el cociente entre la diferencia de dos cantidades, precio
absoluto y la cantidad, precio o valor del periodo de referencia. Supongamos que X i es una
magnitud simple, representamos por              X i 0 el valor de la magnitud en el periodo base y por
X it el valor de la magnitud en el periodo que queremos estudiar entonces:

                                                         X it  X i 0
La diferencia relativa está dada por: DFt (i ) 
                                                0
                                                                      *100
                                                             X i0
Ejemplo:
El siguiente cuadro presenta el número de homicidios para los años 2004, 2005, 2006, 2007 y
2008, para los municipios de Soyapango, Ilopango y San Martín.
   Grupos        SOYAPANGO                ILOPANGO                 SAN MARTÍN
      de
    edades Femenino Masculino Total Femenino Masculino Total Femenino Masculino Total
                                          AÑO 2004
   Total      15      167      182     12        78     90      11       42      53
                                          AÑO 2005
   Total      14      228      242      5        74     79      11       75      86
                                        AÑO 2006
   Total      16      246      262     15        69     84       6       48      54
                                          AÑO 2007
   Total      20      179      199     10        67     77       8       71      79
                                          AÑO 2008
   Total      10      128      138      9        66     75       7       54      61

Fuente: Fuente estadísticas de homicidios de Instituto de Medicina Legal. Los cadáveres que no se pudo identificar
el sexo, no aparecen registrados en el cuadro anterior.
Obtener la diferencia relativa del número de homicidios por año, sexo y municipio.

                                                                                                             103
    5.3. Los números índices
El número índice es una cifra relativa, expresada en términos porcentuales o al tanto por uno,
que sirve para indicar las variaciones que sufre una variable con respecto a un valor de la misma,
la cual es tomada como punto de referencia, denominada base.
Es evidente que los índices no miden, tan solo sirven para indicar las variaciones en los precios,
cantidades y valores de un periodo con respecto a otro.

Definición: Un índice es una medida estadística que tiene la propiedad de informar de los cambios
de valor que experimenta una variable o magnitud en dos situaciones, una de las cuales se toma
como referencia. La comparación suele hacerse por cociente.

A la situación inicial se le llama periodo base y a la situación que queremos comparar periodo actual o
corriente.

Índices simples: Se denomina así a los referidos a una única magnitud y se obtienen dividiendo cada
precio, cantidad o valor de un periodo (anual, mensual, semanal, etc.), por un precio, cantidad o valor de
un periodo fijo, considerado base, multiplicado luego por 100.

Si X i es una magnitud simple, representamos por X i 0 el valor de la magnitud en el periodo base y por
 X it el valor de la magnitud en el periodo que queremos estudiar entonces:
                                       X
El número índice simple es: I t0 (i )  it *100
                                       X i0
Mide la variación en tanto por uno o tanto por cien que ha sufrido la magnitud X entre los dos periodos
considerados y pueden ser:
                                 X it
            a. Valor: I t (i ) 
                         0
                                        *100
                                 X i0
                                  P
            b. Precio: I t (i )  it *100
                          0

                                  Pi 0
                                       q
            c. Cantidad: I t (i )  it *100
                             0

                                       qi 0

Se puede calcular manteniendo fijo o constante el periodo base, permaneciendo inalterado
durante el periodo que es objeto de análisis. También se puede calcular con base variable, en este
caso, la base es el periodo inmediatamente anterior, partiendo de un índice iguala a 100, bajo el
supuesto del desconocimiento de información anterior a ese periodo.




                                                                                                     104
Ejemplo 1. Con los datos de la serie 2001-2006, calcular los índices de base fija 2001 y 2004;
luego el índice de base variable para esa misma serie.

                         Base fija 2001, 2004.              Base Variable
años     yi     Índice   %      de Índice      %     de Índice     %       de
                2001=100 Variación 2004=100 Variación Variable Variación
 2001     20       100       0           50      -50        100         0
 2002     28       140      40           70      -30        140        40
 2003     24       120      20           60      -40       85.71     -14.29
 2004     40       200     100          100       0       166.66      66.66
 2005     48       240     140          120      20         120        20
 2006     70       350     250          175      75       145.83      45.83

Observe que tomando de base el año 2001, en el 2004 se tuvo un aumento del 100% y en el 2006
se tuvo un aumento de precios del 250% con respecto al año 2001; si tomamos de base el año
2004, en el 2006 se tuvo un aumento del 75%. Finalmente, si tomamos Base Variable en el año
2006 hubo un aumento del 45.83% con respecto al año 2005.

EJERCICIO DE APLICACIÓN. En enero de 2006 una fábrica pagó un total de $
99,200,000.00 a 120 empleados en nómina. En julio del mismo año, la fábrica tuvo 30 empleados
más en nómina y pagó $ 30,000,000 más que en enero. Tomando el mes de enero como base,
hallar e interpretar:
             a) El índice de empleo (NIE)
             b) El índice del costo de mano de obra (ICMD)
             c) Precio relativo
Solución.
    a) NIE= Nº de empleados en julio / Nº de empleados en enero
                150
         NIE        *100  125 . Durante los 6 meses hubo un incremento de empleados del 25%
                120

   b) ICMD = Salarios pagados en Julio / Salarios pagados en enero
                129, 200, 000
       ICMD                    *100 130.24 . Durante los 6 meses considerados en este estudio
                 99, 2000, 000
      hubo un aumento de costo de mano de obra en la empresa de 30.24%, observe que no se
      ha considerado en aumento de empleados.
   c) El precio relativo (PR) es equivalente al riesgo relativo utilizado en medicina (RR), es
      decir,
             129, 200, 000
       PR                 150  1.04193 . El índice de costo medio por empleado aumentó en un
               99, 200, 000
                   120
      4.10% para el mes de julio en relación con el mes de enero.




                                                                                           105
5.3.1. Relación entre índices de base fija y variable.
El índice de base variable puede transformarse en índice de base fija, utilizando la siguiente
relación:
                                                                                        X
 I t0  I 0 * R0 * R12 *...* Rtt1 donde Rhh1 es el índice relativo, es decir, Rh 1  h
          0       1                                                              h

                                                                                       X h 1
Ejemplo: Se tiene la información del precio de un producto.
       Se desea indicar la variación del precio en el 2006                                   Base fija 2002
            respecto al precio de 2003.                                      años      Yi     Índice
            Solución:                                                         2002 2,000             100
                    X 06           4800                                       2003 2,800             140
             I 03 
               06
                         *100          *100  171.43
                    X 03           2800                                       2004 2,400             120
                                                                              2005 4,000             200
       Ahora, imaginemos que se tiene el índice de precios                   2006 4,800             240
            con base fija para 2003 y 2006 y se requiere la                   2007 6,000             300
            variación del precio en el 2006 respecto al precio de 2003.

         Solución:
               I 06       240
         I 03  02 *100 
           06
                 03
                              *100  171.43 . Observe que se tiene el mismo resultado si se
               I 02       140
         dispone de los precios o de los índices de base fija.

        Ahora, suponer que se tienen únicamente los índices de base variable y se requiere la
         variación del precio en el 2006 respecto al precio de 2003.

         Solución:
             I 03  I 03 * R03 * R04 * R05  100*0.8571*1.6666*1.2  171.43 .
               06     03    04    05    06




Ejercicio. Un índice para 2006 revela un aumento del 20% respecto al año anterior. En el 2007
alcanzó a 174, es decir, presenta un incremento anual del 18%. Calcular los índices de base fija
de los años 2005 y 2006.
Solución:
Se requiere encontrar: I 005 , I 0  ?
                                 06


Información disponible: I 05  120, I 06  118 .
                              06        07


La base o periodo de inicio no se conoce, por lo tanto puede ser cualquier año, así:
 I 0  174 además sabemos que I 0  I 0 * R06 , reemplazando 174 en la última expresión se
   07                                  07   06   07


obtiene:
       174
 I0 
   06
             147.45 .
       1.18
Para obtener I 005 , se realiza un procedimiento análogo al anterior.
I 0  I 0 * R05 , reemplazando 147.45 se tiene:
  06    05   06


        147.45
I0 
 05
                122.87 .
         1.2

                                                                                                       106
Ejercicio. Se tienen tres índices de base variable, cuyas cifras son: Para 2005=107, para
2006=108, para 2007=104, es decir, que entre 2004 y 2007, hubo un aumento del 19%. Decir si
la afirmación anterior es cierta o falsa.
Solución:
Recordemos que I 04  I 04 * R04 * R05 * R06  100*1.07 *1.08*1.04  120.18 , por lo tanto la
                      07    04    05    06 07


afirmación es falsa.


5.3.2. Índices agregativos simples
Cuando se dispone de una serie de precios de un grupo de artículos, dados en unidades diferentes,
los índices simples ya no son utilizables, en esta situación se requiere utilizar los índices
agregativos simples.

Estos índices se calculan teniendo en cuenta la suma de los precios, cantidades o valores de un
grupo de artículos para un periodo, divida por la suma de los precios cantidades o valores para
ese grupo de artículos en otro periodo, considerado como base. Matemáticamente se expresan
como:

       n                              n                                  n

       X t (i)                       Pt (i)                            q (i)t
I 
 t
 0
      i 1
       n
                        *100   I 
                               t
                               0
                                     i 1
                                      n
                                                *100          I 
                                                                t
                                                                0
                                                                        i 1
                                                                         n
                                                                                   *100
      X
      i 1
             0   (i )                 P (i)
                                     i 1
                                            0                            q (i)
                                                                        i 1
                                                                               0




Las expresiones anteriores son muy útiles cuando no existen variaciones significativas entre
productos, ya estos índices no se ven afectados por las variaciones en algún producto. Para
recoger las variaciones entre productos se recomienda calcular primeramente los índices simples
y luego sumarlos y finalmente dividirlos por el número de productos. Esto es,
                                                          n

                                                          I (i)    t
                                                                    0
                                                  I0 
                                                   t     i 1
                                                                         *100
                                                                n

Ejemplo: Con los datos de la siguiente tabla, calcular el índice agregativo de las
cantidades que resultaron en mal estado de conservación, en un grupo de artículos, comparados
en el mes de junio de 2009, respecto a las cantidades comparadas, en mal estado de conservación,
en el mes de mayo del mismo año.
          Artículos medida Defectuosas
                                mayo Junio
          A           Kg        12        18
          B           Lt        8         15
          C           Docena 20           8
          D           Libras    14        20
          E           Unidad 50           70
          Total                 104       131


                                                                                             107
Solución:
    Primer método.
                 n

              q (i) t
                                          131
       I 
        t
        0
             i 1
              n
                            *100             *100  125.96 . Este método es poco usual, ya que no es afectado
              q (i)
                                          104
                     0
             i 1

       por las variaciones grandes que puede presenta uno varios artículos.
      Segundo método.
                      n

                     I     t
                            0   (i )
                                150  187.5  40  142.8  140
            I 
             t
             0
                     i 1
                                       *100                    132.06
                    n                          5
       Este resultado es un poco mayor al obtenido por el primer método. Este aumento se debe,
       a la variación que presenta el artículo B, durante ese periodo.


5.3.3. Índices de precios
Existen gran cantidad de fórmulas para calcular índices de precios, cuyo empleo dependerá de la
naturaleza misma del problema. Generalmente, las ponderaciones en los índices de precios son
las cantidades y en el cálculo de los índices de cantidad las ponderaciones son los precios.

5.3.3.1 Índice de Laspeyres de precios.
Este índice puede interpretarse, como la relación existente, al comparar los precios actuales de
un grupo de artículos, con los precios de esos mismos artículos considerados en el periodo base,
manteniéndose constante como ponderación las cantidades del periodo base. La expresión es la
siguiente:
                                                          n

                                                          P (i)q (i)
                                                                t   0
                                                   L 
                                                     t
                                                    I0   i 1
                                                          n
                                                                        *100
                                                          P (i)q (i)
                                                         i 1
                                                                0   0




5.3.3.2 Índice de Paasche de precios.
Se interpreta como la relación existente entre los precios actuales de un grupo de artículos, con
los precios de esos mismos artículos en el periodo base, manteniéndose constante las
ponderaciones correspondientes a las cantidades de dichos artículos, dadas por el periodo que se
investiga, esto es:
                                                           n

                                                          P (i)q (i)
                                                                t   t
                                                  P 
                                                     t
                                                    I0   i 1
                                                          n
                                                                        *100
                                                          P (i)q (i)
                                                         i 1
                                                                0   t


La diferencia entre las dos fórmulas anteriores, radica únicamente en la base tomada para las
ponderaciones, en la primera se refiere a las cantidades del periodo base y en la segunda, las
cantidades corresponden al periodo que se investiga.

                                                                                                          108
5.3.3.3. Índice de Fisher de precios.

Este índice es un promedio geométrico, que se define como la raíz cuadrada del producto del
índice de Laspeyres por el de Paasche, así:

                                    n                                n

                                    Pt (i)q0 (i)                   P (i)q (i)
                                                                           t          t
                         
     t        t     t
    I0       I0    I0              i 1                             i 1
F            L P                    n
                                                               *     n
                                                                                                 *100
                                    P (i)q (i)  P (i)q (i)
                                   i 1
                                              0      0
                                                                    i 1
                                                                           0          t




5.3.4. Índices de cantidad.
Los índices de cantidad de Laspeyres, Paasche y Fisher son muy parecidos a los índices de
precios, con la diferencia de que las ponderaciones son los precios. Las fórmulas son las
siguientes:

                         n                                                                 n

                     P (i)q (i)
                               0          t                                                P (i)q (i)
                                                                                                 t   t
             L 
              t
                                                                           P 
                                                                                t
             I0         i 1                                                   I0         i 1
                         n
                                                   *100                                    n
                                                                                                                *100
                     P0 (i)q0 (i)
                        i 1
                                                                                           Pt (i)q0 (i)
                                                                                          i 1

                                                                                n                         n

                                                                                P0 (i)qt (i)             P (i)q (i)
                                                                                                                 t     t
                                          F  L P 
                                               t           t    t
                                              I0          I0   I0              i 1                      i 1
                                                                                n
                                                                                                     *    n
                                                                                                                           *100
                                                                                P (i)q (i)  P (i)q (i)
                                                                               i 1
                                                                                      0          0
                                                                                                         i 1
                                                                                                                 t     0


Ejemplo: Con los siguientes datos referentes a los precios y cantidades para un grupo de
artículos dados para dos periodos.
Artículos Unidad             2006                 2007
                      Precio Cantidad Precio Cantidad
A           Kg        26        10         38        8
B           Lt        6         5          10        7
C           Lbs       1         2          4         5
D           Docena 6            1          15        2
E           Unidad 3.6          2          2         1
Calcular los índices de precios y de cantidad de las Laspeyres, Paasche y Fisher.
Solución:
Ordenando los datos de la tabla anterior:
Articulos P06 q06 P07 q07 P06 q06 P07q07 P07q06 P06q07
A           26 10 38 8              260      304       380   208
B           6     5     10 7        30       70        50    42
C           1     2     4     5     2        20        8     5
D           6     1     15 2        6        30        15    12
E           3.6 2       2     1     7.2      2         4     3.6
                                    305.2 426          457   270.6
     Cálculo de los índices de precios

                                                                                                                                  109
                                                   n

                                             P (i)q (i)       t           0
              Laspeyres: L 
                                      t
                                     I0        i 1
                                                n
                                                                                *100 =(457/305.2)*100 = 149.34
                                             P (i)q (i)
                                               i 1
                                                               0           0

                                           n

                                           P (i)q (i) t           t
              Paasche: P 
                                 t
                                I0        i 1
                                           n
                                                                               *100 = (426/270.6)*100= 157.43
                                           P (i)q (i)
                                          i 1
                                                       0               t



              Fisher: F I0  LI0 P I0  149.34*157.43  153.54
                            t                  t           t




             Los índices de cantidad se calculan de forma análoga.

          Laspeyres: (270.6/305.2)*100=88.66
          Paasche: (426/457)*100= 93.22
          Fisher: 90.91

Ejercicio. El índice de cantidad de un grupo de artículos es igual a 200, sí se usa la fórmula de
Fisher, y a 160 si se emplea la de Laspeyres. ¿Cuál es el índice de cantidad usando la fórmula de
Paasche?

Solución.
                                                                                     40, 000
F I0  LI0 P I0  2002  160* P I0  P I0 
      t         t   t                                              t             t
                                                                                              250
                                                                                      160

Ejercicio. Una empresa espera aumentar sus ventas en el año próximo en un 50%. ¿En qué
porcentaje debería incrementar los precios para que el ingreso total se convierta en un 250%?

Solución.
Se sabe que el índice de ingreso total es igual al índice de cantidad vendida por el índice de
precios.
250=150*ind. Precios, entonces Ind. Precios = (250/150)=166.66

Se debe aumentar los precios en un 66.67%.

Ejercicio. El índice de precios de Laspeyres es de 2/3 del de Paasche y éste asciende a 130.
¿Cuál es el índice de Fisher?

Solución.
LI0  (2 / 3)* PI0  (2 / 3)(130)  86.66  F I0  86.66*130  106.14
  t                     t                                                               t




                                                                                                                 110
5.3.5. Cálculo del salario e ingreso real.

Los números índices tienen numerosas aplicaciones, especialmente en el área económica, por
ejemplo, para estimar el salario real o ingreso real, los cuales se obtienen a través de las
siguientes fórmulas:

Salario real: (salario nominal/ índice de precios al consumidor)*100
Ingreso real: (Ingreso nominal/índice de precios al consumidor)*100

Este proceso de convertir el salario o el ingreso nominal en real se conoce como deflación o sea
la transformación de valores expresados a precios corrientes en valores o precios constantes, con
respecto a un periodo.

Ejemplo: Un profesor Universitario III de la Universidad de El Salvador en junio de 2009
ganaba $ 1,400.00 dólares US y en el mes de enero de 2010, su salario fue reajustado con un
aumento de $ 200.00 dólares. Se sabe además que el precio de la canasta básica para esos mismos
meses y años fue de $550 y $675 respectivamente. Se quiere saber si con el reajuste en el salario
mejoró la situación económica de los profesores universitarios.

Solución.
El índice de precios de la canasta básica es:
      675
I0 
 10
          *100  122.73
      550

Los artículos de primera necesidad aumentaron de junio de 2009 a enero de 2010 en un 22.73%,
por lo tanto, tuvo que haber un incremento igual a este porcentaje o mayor, para que las
condiciones económicas sean iguales o mejores en el año 2010.

               1600
Salario real=         *100  1,303.67 , esto indica que el aumento fue demasiado bajo, es decir,
              122.73
que a pesar de estar recibiendo más dinero que antes, este salario a penas equivale a 1,303.67, el
aumento esperado debió ser de $ 318.22 = 1400*0.2273, o sea que su nuevo salario debería de ser
de $1,718.22 en vez de $ 1,600.




                                                                                              111
5.4. Guía de ejercicios Nº 5.
1. Las cifras de ventas en millones de $ (dólares) de unos granos básicos almacenados desde
   2002 hasta 2010 son los siguientes:

Años     Ventas     a) Hallar los índices de ventas, tomando como base primero 2002 y luego
2002     18         2005.
2003     18
2004     19         b) Hallar los índices de ventas con base variable
2005     15
2006     12
2007     16
2008     20
2009     24
2010     35
2. Un empleado ganaba $ 772 dólares mensuales en 2009 en el 2010 gana $ 912 mensuales, con
   lo cual mejora su ingreso real en 16%. Si el actual índice de precios es de $ 560 ¿Cuál era el
   índice de precios del 2009?

3. La producción de tomates (en toneladas) en la provincia de Valparaíso fue durante los últimos
   10 años:
    AÑO           PRODUCCION (ton)
    1997               1300
                                       Se Pide:
    1998               1280
    1999               1189
    2000               1234            a) Establezca una serie de números índice, que permita
    2001               1100            estudiar la evolución de dichas producciones, considerando
    2002               1250            como base el año 1997.
    2003               1310
    2004               1270
    2005               1140            b) Determine el porcentaje de variación de la producción
    2006               1240            entre los años 1997 y 2006.

c) Determine la tasa de crecimiento promedio (tcp) entre los años 1997 y 2007.

4. La entrada de turistas Alemanes a nuestro País durante los últimos 7 años según SERNATUR
   viene dada por la tabla siguiente:

  AÑO      Número de Turistas   Se Pide:
  2000          12565
  2001          13124
  2002          11897           a) Establezca una serie de números índice, que permita estudiar todos
  2003          14578           los datos, considerando como base el año 2000.
  2004          16243           b) Con respecto al año 2003. Qué porcentaje de aumento o
  2005          14890           disminución se dio en los años 2004 y 2005.
  2006          15321




                                                                                                 112
5. La Municipalidad de San Antonio, ubicada en la V Región ha estudiado el consumo de anual
   de agua por habitante durante los últimos 5 años, obteniendo:
   AÑO      Consumo agua por habitante (lt)   Se Pide:
   2002                  345
   2003                  367                  a) Establezca una serie de números índice, que permita
   2004                  354
   2005                  389                  estudiar todos los consumos, considerando como base el
   2006                  325                  año 2002.

   b) Determine el porcentaje de variación del consumo entre los años 2002 y 2006.

   c) Determine la tasa de crecimiento promedio (tcp) entre los años 2002 y 2006.

6. Una fábrica de automóviles chinos produce cuatro modelos distintos, todos en versión
   económica, cuyos precios expresados en millones de pesos y número de unidades producidas
   en 1998 y 2000 son respectivamente:
                                  Año 1998                              Año 2000
Modelo            Precio (M$)          Nº de unidades     Precio (M$)        Nº de unidades
1                 0.9                  3200               1.2                5600
2                 1.3                  3200               1.5                4300
3                 1.9                  3200               2.1                2000
4                 3.8                  3200               4.3                1200

Se Pide:
   a) Hallar el índice de precios y de cantidad de LASPEYRE, con base el año 1998.
   b) Hallar el índice de precios y de cantidad de PAASCHE, con base el año 1998.
   c) Hallar el índice de FISHER para precio y cantidad, considerando el mismo año base.

7. Si, por ejemplo, el consumo final de un país, expresado en miles de dólares corrientes de cada
   año, y el I.P.C. de los mismos años son los siguientes, expresar en dólares. Constantes el
   consumo final de ese país:


                                  Años        Consumo           IPC
                                              final
                                  2000        17                100
                                  2001        20                105
                                  2002        22                110
                                  2003        25                115
                                  2004        30                118




                                                                                                113
Capítulo 6. Métodos de Conteo.
6.1 Introducción
Antes de entrar al estudio del análisis combinatorio, se considera que dentro del muestreo
aleatorio se distingue que la selección sea sin remplazamiento o con remplazamiento:
a. Sin remplazamiento: Se seleccionan n elementos de la población, mediante n extracciones
    sucesivas sin remplazamiento, asignando en cada una de ellas probabilidades iguales a los
    elementos no seleccionados en las anteriores.
b. Con remplazamiento: Se seleccionan n elementos de la población, mediante n extracciones
    sucesivas con remplazamiento, asignando en cada una de ellas probabilidades iguales a todos
    los elementos de la población.

En estos dos procedimientos podemos considerar a los objetos o elementos de la población
extraídos, ordenados o sin ningún orden, originando así las muestras ordenadas, y las muestras
sin ordenar.

Tenemos, pues, cuatro procedimientos básicos de muestreo aleatorio en el modelo uniforme:
   1. Muestreo con remplazamiento y los objetos ordenados
   2. Muestreo sin remplazamiento y los objetos ordenados
   3. Muestreo con remplazamiento y los objetos sin ordenar
   4. Muestreo sin remplazamiento y los objetos sin ordenar.
   Los dos primeros originan las muestras ordenadas.

6.2 Muestras ordenadas.
El símbolo (N)n se utilizará para representar productos del tipo siguiente:
(N)n = N.(N-1) . . . (N-n+1), con n entero positivo y n  N, definiéndolo como (N)n =0 para los
enteros n > N.

Si   tenemos     un   conjunto     A  a1,a2, . . .,an  con   n   elementos,   y    un   conjunto
B  b1, b2, . . ., bm  con m es posible formar n.m pares de la forma (ai , bi ) en donde el primer
elemento del par pertenece a A y el segundo a B. Este resultado se puede generalizar.

Proposición
Si tenemos k conjuntos A1, . . ., Ak con elementos n1, . . ., nk , respectivamente, el número de
ordenaciones de la forma ( x1, . . ., xk ) , en donde x1 es un elemento de A1 y x k es un elemento de
Ak, es n1 . . . nk .

Demostración.
Este resultado se sigue por inducción.
Como consecuencia del resultado anterior, se tiene que si se realizan k selecciones sucesivas con
exactamente n i opciones posibles en el i-ésimo paso o etapa, produce un total de n1 . . . nk
resultados diferentes posibles.

                                                                                                 114
Teorema
Dada una población de N elementos se pueden seleccionar N n muestras diferentes con
remplazamiento de tamaño n, y (N)n muestras diferentes sin remplazamiento de tamaño n.

Demostración.
Al realizar n selecciones sucesivas con exactamente N opciones posibles, en cada una de las n
selecciones, que son las correspondientes a los N elementos de la población. Así, pues, según el
resultado anterior N.N . . . N  N n , muestras diferente de tamaño n, en un muestreo con
remplazamiento, tomando n1  n2  . . .  nn  N .

Si efectuamos un muestreo sin remplazamiento, tendremos N opciones posibles en la primera
selección, pero tan sólo (N-1) en la segunda, pues los elementos de la población no son devueltos
a la misma; de la misma manera, en la tercera sólo se tendrán (N-3+1) opciones, y así
sucesivamente hasta la n-ésima, en la cual se tendrán (N-n+1) posible opciones. Por tanto,
existirán (N)n = N.(N-1) . . . (N-n+1) muestras diferentes de tamaño n, en el muestreo sin
remplazamiento.

Ejemplo.
Supongamos una urna que contiene 9 bolas numeradas del 1 al 9. Si realizamos un muestreo
aleatorio con remplazamiento de tamaño 6, el espacio muestral  , estará compuesto por
96  531 ,441 elementos.

Ejemplo.
Si lanzamos un dado 5 veces, entonces el espacio muestral estará formado por 65  7,776
elementos, ya que este experimento es equivalente a muestrear con remplazamiento, donde el
número de veces que lanzamos el dado es equivalente al tamaño n de la muestra aleatoria y N al
número de caras del dado.

Ejemplo.
Supongamos una urna que contiene 11 bolas numeradas del 1 al 11. Si realizamos un muestreo
aleatorio sin remplazamiento de tamaño n=3, el espacio muestral estará formado por
(11)3  990 elementos.

Teorema.
El número de ordenaciones diferentes de N elementos es
N !  N.(N  1). . .3.2.1

Observación: El número de ordenaciones coincide con el número de muestras en un muestreo
sin remplazamiento.

Ejemplo.
Si se realiza un muestreo aleatorio con remplazamiento de tamaño n de una población de N
elementos, el número de muestras en las que no aparece ningún elemento dos veces es
                                (N )n  N.(N  1). . .(N  n  1)


                                                                                             115
6.3 Variaciones, combinaciones y permutaciones.

6.3.1. Variaciones de N elementos tomados de n en n.

Se llaman variaciones de N elementos tomados de n en n, a los diferentes grupos que pueden
formarse con los N elementos dados, tomados de n en n, de modo que cada dos grupos difieran
entre sí, ya por la naturaleza de un elemento, ya por el orden de sucesión de los mismos. Se
represente por VN ,n .
El muestreo que se considera es sin remplazamiento, pues las variaciones en las que no se
especifica nada se entenderá que son sin repetición. Así pues,
VN ,n N .(N  1). . .(N  n  1)


6.3.2. Variaciones con repetición de N elementos tomados de n en n.

Se llaman variaciones con repetición de N elementos tomados de n en n a los diferentes grupos
que pueden formarse con los N elementos dados, tomados de n en n, en los que eventualmente
pueden aparecer elementos repetidos y con la condición de que dos grupos sean distintos entre sí,
si tienen distintos elementos, o están situados en distintos lugares. Se representa por RVN ,n .

Observe, que aquí también se tiene en cuenta el orden de los elementos de cada grupo y de hecho
de lo único que se diferencian de las variaciones antes definidas es que eventualmente algún
elemento puede aparecer repetido en un mismo grupo. Es decir, el muestreo se hace con
remplazamiento. Así
                                        RVN,n N n

6.3.3. Permutaciones.

Las permutaciones o, también llamadas, ordenaciones son aquellas formas de agrupar los
elementos de un conjunto teniendo en cuenta que:

      Influye el orden en que se colocan.
      Tomamos todos los elementos de que se disponen o una parte de ellos.
      Serán Permutaciones SIN repetición cuando todos los elementos de que disponemos son
       distintos.
      Serán Permutaciones CON repetición si disponemos de elementos repetidos. (Ese es el nº
       de veces que se repite el elemento en cuestión).




                                                                                             116
Permutaciones sin repetición:

Una permutación es una combinación en donde el orden es importante. La notación para
permutaciones es P(n,r) que es la cantidad de permutaciones de “n” elementos si solamente se
seleccionan “r”. Así

                                                         n!
                                        P (n, r ) 
                                                      (n  r )!

Ejemplo: Si nueve estudiantes toman un examen y todos obtienen diferente calificación,
cualquier alumno podría alcanzar la calificación más alta. La segunda calificación más alta podría
ser obtenida por uno de los 8 restantes. La tercera calificación podría ser obtenida por uno de los
7 restantes. Cuántas permutaciones de tres estudiantes pueden formarse.

Solución:

Observe que interesa el orden, es decir, que en una permutación donde un estudiante aparezca
con la calificación más alta y otro estudiante con la segunda calificación más alta, si
intercambiamos los estudiantes obtenemos otra permutación totalmente diferente a la primera
permutación.

Así, la respuesta es: 9*8*7 = 504 o equivalentemente, 9! / (9-3)! = P(9,3).

Permutaciones de n elementos:

Permutaciones de n elementos diferentes son los distintos grupos que pueden formarse entrando
en cada uno de ellos los n elementos dados, difiriendo únicamente en el orden de sucesión de sus
elementos. Se representa por n!

Permutaciones con repetición:

Llamaremos permutaciones con repetición de r elementos distintos tal que el primero aparece n1
veces; el segundo n2 veces; . . . ; el r-ésimo nr veces, con n1 + n2 + … + nr = N, a las distintas
disposiciones que pueden formarse con los r elementos distintos, de tal forma que en cada
disposición cada elemento aparezca n1, n2, … , nr veces y esto en un orden determinado. Se
representa por:      RPN n1...nr

                           N!
Así: RPN n1...nr 
                     n1 !.n2 !...nr !

Para tener una idea de la deducción de la ecuación anterior, observe que una población de
tamaño n puede dar lugar a n! muestras ordenada de tamaño n. Además, el número de muestra
ordenadas de tamaño n, en un muestreo sin remplazamiento, efectuado en una población de


                                                                                               117
tamaño N, es (N)n , con lo que si llamamos A al número de subpoblaciones distintas de tamaño n
de una población de N elementos, será:

                                       N       N!
A. n! = (N)n; entonces A = (N)n / n! =   
                                        n  n !(N  n )!

Ahora, tenemos r grupos distintos, n1, n2, … , nr, y los elementos del primer grupo pueden ser
                 N 
seleccionados de   maneras, de los N- n1 elementos restantes, podemos seleccionar los n2 del
                  n1 
                      N  n1 
segundo grupo de              maneras, etc. Después de formar el (r-1)-ésimo grupo quedarán N-
                      n2 
n1 - n2 -… - nr-1 = nr elementos, que constituirán el grupo r-ésimo, que podremos seleccionar de
 nr   N  n1  n2  . . .  nr 1 
                                  =1 manera. Por tanto, el número de permutaciones con
 nr               nr              
repetición de r elementos distintos será el producto de esos números combinatorios, es decir:

 N   N  n1         N  n1  n2  . . .  nr 1 
             . . .                               después de desarrollar estos productos se llega a :
 n1   n2                      nr                

 N   N  n1         N  n1  n2  . . .  nr 1        N!
             . . .                              =
 n1   n2                      nr                 n1 !.n2 !...nr !



6.3.4. Combinaciones.
Llamaremos combinaciones de N elementos tomados de n en n, a los diferentes grupos que se
pueden formar figurando n elementos en cada uno, de modo que cada dos grupos difieran en la
naturaleza de, por lo menos, un elemento. Puede observarse, que no se tiene en cuenta el orden
de los elementos en la disposición. Se denota por CN ,n y el número de grupos que podemos
formar de tamaño n, será:

                                               N       N!
                                       CN ,n    
                                                n  n !(N  n )!

Observe que una combinación, es un arreglo de elementos en donde no nos interesa el lugar o
posición que ocupan los mismos dentro del arreglo.

Ejemplo 1.

a) Si se cuenta con 14 alumnos que desean colaborar en una campaña pro limpieza, cuantos
   grupos de limpieza podrán formarse si se desea que consten de 5 alumnos cada uno de ellos,

                                                                                                      118
b) Si entre los 14 alumnos hay 8 mujeres, ¿cuántos de los grupos de limpieza tendrán a 3
   mujeres?,
c) ¿Cuántos de los grupos de limpieza contarán con 4 hombres por lo menos?

     Solución: NO INTERESA EL ORDEN.

     a) n = 14, r = 5

                   14C5 =   14! / (14 – 5 )!5! = 14! / 9!5!

                             = 14 x 13 x 12 x 11 x 10 x 9!/ 9!5!

                             = 2,002 grupos

Entre los 2002 grupos de limpieza hay grupos que contienen solo hombres, grupos que contienen
solo mujeres y grupos mixtos, con hombres y mujeres.

b) n = 14 (8 mujeres y 6 hombres),        r=5

En este caso nos interesan aquellos grupos que contengan 3 mujeres y 2 hombres

                   8C3*6C2    = (8! / (8 –3)!3!)*(6! / (6 – 2)!2!)

                                  = (8! / 5!3!)*(6! / 4!2!)

                                  = 8 x7 x 6 x 5 /2!

                                  = 840 grupos con 3 mujeres y 2 hombres, puesto que cada grupo
debe constar de 5 personas

c) En este caso nos interesan grupos en donde haya 4 hombres o más

Los grupos de interés son iguales a: grupos con 4 hombres + grupos con 5 hombres, así:
6C4*8C1  + 6C5*8C0 = 15 x 8 + 6 x 1 = 120 + 6 = 126 grupos.

Ejemplo 2.

Para aprobar un examen un alumno debe contestar 9 de 12 preguntas,

a)   ¿Cuántas maneras tiene el alumno de seleccionar las 9 preguntas?,
b)   ¿Cuántas maneras tiene si forzosamente debe contestar las 2 primeras preguntas?,
c)    ¿Cuántas maneras tiene si debe contestar una de las 3 primeras preguntas?,
d)   ¿Cuántas maneras tiene si debe contestar como máximo una de las 3 primeras preguntas?

     Solución: NO INTERESA EL ORDEN.


                                                                                             119
   a) n = 12,       r=9
         12C9   = 12! / (12 – 9)!9!
                 = 12! / 3!9! = 12 x 11 x 10 / 3!

            = 220 maneras de seleccionar las nueve preguntas o dicho de otra manera, el
   alumno puede seleccionar cualquiera de 220 grupos de 9 preguntas para aprobar el examen.

   b)   2C2*10C7 = 1 x 120 = 120 maneras de seleccionar las 9 preguntas entre las que están las
        dos primeras preguntas.

   c)    3C1*9C8 = 3 x 9 = 27 maneras de seleccionar las 9 preguntas entre las que está una de las
        tres primeras preguntas.

   d) En este caso debe seleccionar 0 ó 1 de las tres primeras preguntas

    3C0*9C9 + 3C1*9C8 = (1 x 1) + (3 x 9) = 1 + 27 = 28 maneras de seleccionar las preguntas a
   contestar.

   Ejemplo 3.

   Una señora desea invitar a cenar a 5 de 11 amigos que tiene,

   a) ¿Cuántas maneras tiene de invitarlos?,
   b) ¿Cuántas maneras tiene si entre ellos está una pareja de recién casados y no asisten el uno
      sin el otro?,
   c) ¿Cuántas maneras tiene de invitarlos si Rafael y Arturo no se llevan bien y no van juntos?

   Solución:

a) n = 11, r = 5

        11C5   = 11! / (11 – 5 )!5! = 11! / 6!5!

                = 11 x 10 x 9 x 8 x 7 x 6! / 6!5!

                = 462 maneras de invitarlos.

Es decir, que se pueden formar 462 grupos de cinco personas para ser invitadas a cenar.

b) Esta señora tiene dos alternativas para hacer la invitación, la primera es no invitar a la pareja y
la segunda es invitar a la pareja.

   2C0*9C5      +   2C2*9C3   = (1 x 126) + (1 x 84) = 210 maneras de invitarlos

 En este caso separamos a la pareja de los demás invitados para que efectivamente se cumpla el
que no asistan o que asistan a la cena.
                                                                                                  120
c) La señora tiene dos alternativas para hacer la invitación, una de ellas es no invitar a Rafael y a
Arturo o que asista solo uno de ellos.

2C0*9C5       +   2C1*9C4   = (1 x 126)          +   (2 x 126) = 126 + 252 = 378 maneras de hacer la
invitación.

6.3.4.1. Combinaciones con repetición.

Llamamos combinaciones con repetición de N elementos distintos tomados de n en n a todos los
conjuntos de n elementos tomados entre los N dados permitiendo repetir elementos.

La fórmula para calcular el número de posibles combinaciones con repetición de N elementos
distintos tomados de n en n es

                       N  n  1 N  n  1!
CRN,m  CN n 1, n            
                      n          n !(N  1)!

Ilustración

Suponemos que cada elemento del conjunto de los N distintos se representa por el espacio entre
dos líneas verticales del siguiente dibujo formado por N+1 líneas verticales:

1 2 3 ..... N-1 N            N+1
│ │ │        │ │              │

Elegir una combinación con repetición de N elementos distintos tomados de n en n es equivalente
a colocar n estrellas dentro de los N espacios pudiendo meter varias en un mismo espacio

1 2     3 ..... N-1 N               N+1
│* │*** │         │* │              │
 1 2 3 4 ....      n

La posición de la primera y la última de las barras es fija y elegir una ubicación para las n
estrellas es equivalente a elegir un orden entre N-1 barras y n estrellas. El número de esas
posibles elecciones es el número de combinaciones sin repetición de N + n – 1 elementos
tomados de n en n.

¿Cómo se forman?. Para construir las combinaciones con repetición, partimos del conjunto
A={1,2,3,4} y vamos a construir todas las combinaciones con repetición posibles.

    a) De un elemento. Si tenemos un conjunto de cuatro elementos y queremos hacer grupos
       de uno, únicamente podremos hacer cuatro grupos: 1 , 2 , 3 , 4. (C4,1)
    b) De dos elementos. La forma de construirlas será similar a las combinaciones sin
       repetición aunque con la diferencia de que al permitirse repetir los elementos tendremos
       que añadir a cada una de las de orden uno, el mismo elemento y todos los siguientes. Así
       se obtienen: 11, 12, 13, 14, 22, 23, 24, 33, 34, 44. (C4+1,2)

                                                                                                 121
   c) De tres elementos. Se pueden construir a partir de las anteriores añadiendo a cada
      combinación de orden dos el último elemento y todos los elementos siguientes. Se
      obtienen: 111 , 112 , 113 , 114 , 122 , 123 , 124 , 133 , 134 , 144 , 222 , 223 , 224 , 233 ,
      234 , 244 , 333 , 334 , 344 , 444. (C4+2,3)
   d) De cuatro elementos. Se pueden obtener a partir de las de orden tres, añadiendo a cada
      una de ellas el último elemento y los elementos siguientes. (C4+3,4)
   e) De cinco o más elementos. Como estamos construyendo combinaciones con repetición y
      los elementos se pueden repetir, podríamos continuar construyendo combinaciones de
      orden cinco o más elementos. (C4+4,5)



6.4. Teorema del Binomio.

Se podría decir a primera vista, la expresión  a  b  no parece tener mucho que ver con las
                                                         n


combinaciones, pero como veremos a continuación, podemos obtener una fórmula para
desarrollar  a  b  utilizando la fórmula para el número de r-combinaciones de n objetos. Con
                     n


frecuencia, podemos relacionar una expresión algebraica con algún proceso de conteo. Varias
técnicas avanzadas de conteo utilizan estos métodos.

Los números C(n, r) se llaman Coeficientes Binomiales, pues aparecen en el desarrollo del
binomio (a+b) elevado a una potencia.

El Teorema del Binomio proporciona una fórmula para los coeficientes en el desarrollo de
a  b  . Como     a  b   (a  b )(a  b ) (a  b ) el desarrollo surge al elegir a o b en
        n                   n


                                           n factores

cada uno de los n factores, multiplicando las selecciones entre ellas, y luego sumando todos los
productos obtenidos de esta manera. Por ejemplo, en el desarrollo de  a  b  , se elige a o b en el
                                                                              3


primer factor (a + b); a o b en el segundo factor (a + b), y a o b en el tercer factor (a + b); se
multiplican las selecciones entre ellas y luego se suman los productos obtenidos. Si elegimos a en
todos los factores y multiplicamos, obtenemos el término aaa.

 Si elegimos a en el primer factor, b en el segundo factor y a en el tercer factor y multiplicamos,
obtenemos el término aba. La tabla 1 muestra todas las posibilidades. Si sumamos los productos
de todas las selecciones, obtenemos




                                                                                                 122
                           Selección      Selección      Selección      Producto de
                           del primer     del segundo    del tercer     selecciones
                           factor (a+b)   factor (a+b)   factor (a+b)
                                a              a              a         aaa= a 3
                                a              a              b         aab= a 2 b
                                a              b              a         aba= a 2 b
                                a              b              b         Abb= ab 2
                                b              a              a         baa= ba 2
                                b              a              b         bab= ab 2
                                b              b              a         bba= ab 2
                                b              b              b         bbb= b 3
                                      Tabla 1. Cálculo de  a  b 
                                                                         3




Un término de la forma an k bk surge de elegir b en k factores y a de los otros n-k factores. Pero
esto puede realizarse de C(n, k) formas, pues C(n, k) cuenta el número de formas de elegir k
cosas de n elementos. Así, an k bk aparece C(n, k) veces. Esto implica que




Este resultado se conoce como el teorema del binomio.

TEOREMA: Teorema del Binomio.

Si a y b son números reales y n es un entero positivo, entonces




DEMOSTRACION. La demostración aparece antes del enunciado del teorema.

EJEMPLO

Tomando n = 3 se obtiene




si se toma a = b = 1, da como resultado la siguiente identidad




                                                                                               123
EJEMPLO

Desarrollar             utilizando el teorema del binomio. Si hacemos a = 3x , b= -2y

n = 4, obtenemos




EJEMPLO

Determine el coeficiente de       en el desarrollo de         El término relacionado con
aparece en el teorema del binomio considerando n = 9 y k = 4.




Así el coeficiente de      es 126.



EJEMPLO

Determine el coeficiente de           en el desarrollo de             Como

                                                  (Nueve términos)

Obtenemos          cada vez que multiplicamos dos x elegidas de los nueve términos, tres y
elegidas de los nueve términos para las x de C(9,2) formas. Una vez realizada esta selección,
podemos elegir así tres términos para las y de C(7,3) formas. Esto deja los cuatro términos
restantes para las z. Así el coeficiente de        en el desarrollo          es




                                                                                           124
Dado un conjunto de X con n elementos,                   cuenta el número de subconjuntos con k
elementos.

Por consiguiente, el término correspondiente al lado derecho del teorema del binomio cuenta el
número de subconjuntos de X.

Exprésense los coeficientes binomiales en una disposición triangular conocida como triángulo de
Pascal (véase la figura 1.).

Los dos lados superiores están formados por números 1 y cualquier valor interior es la suma de
los dos números que están por encima y a los lados de él.

                                                 1
                                            1        1
                                        1        2         1
                                    1       3        3         1
                                1       4        6         4       1
                            1       5       10       10        5       1

                            Figura 1. Triángulo de Pascal

Una identidad que surge de algún proceso de conteo es una identidad combinatoria y el
argumento que conduce a su formulación es un argumento combinatorio.



6.5. Guía de Ejercicios N° 1.

   1. Una ciudad cuenta con 7 candidatos para elegir al Alcalde y al Síndico. De cuantas
      maneras puede asignar estos cargos.
   2. ¿De cuántas formas diferentes se pueden cubrir los puestos de presidente, vicepresidente y
      tesorero de un club de fútbol sabiendo que hay 12 posibles candidatos?
   3. Con las letras de la palabra libro, ¿cuántas ordenaciones distintas se pueden hacer que
      empiecen por vocal?
   4. De cuántas formas pueden mezclarse los siete colores del arcoíris tomándolos de tres en
      tres?
   5. ¿Cuántos números de cinco cifras distintas se pueden formar con las cifras impares?
      ¿Cuántos de ellos son mayores de 70,000?
   6. ¿De cuántos partidos consta una liguilla formada por cuatro equipos?
   7. A una reunión asisten 10 personas y se intercambian saludos entre todos. ¿Cuántos
      saludos se han intercambiado?
   8. Con las cifras 1, 2 y 3, ¿cuántos números de cinco cifras pueden formarse? ¿Cuántos son
      pares?
   9. ¿De cuántas formas pueden colocarse los 11 jugadores de un equipo de fútbol teniendo en
      cuenta que el portero no puede ocupar otra posición distinta de la portería?
                                                                                            125
   10. Una mesa presidencial está formada por ocho personas, ¿de cuántas formas distintas se
       pueden sentar, si el presidente y el secretario siempre van juntos?
   11. ¿Cuántas diagonales tiene un pentágono y cuántos triángulos se puede informar con sus
       vértices?
   12. Un grupo, compuesto por cinco hombres y siete mujeres, forma un comité de 2 hombres y
       3 mujeres. De cuántas formas puede formarse, si:
       a) Puede pertenecer a él cualquier hombre o mujer.
       b) Una mujer determinada debe pertenecer al comité.
       c) Dos hombres determinados no pueden estar en el comité.

   13. ¿De cuántas formas distintas pueden sentarse ocho personas en una fila de butacas?
   14. En una clase de 35 alumnos se quiere elegir un comité formado por tres alumnos.
       ¿Cuántos comités diferentes se pueden formar?
   15. ¿De cuántas formas distintas pueden sentarse ocho personas alrededor de una mesa
       redonda?
   16. En una bodega hay cinco tipos diferentes de botellas. ¿De cuántas formas se pueden elegir
       cuatro botellas?
   17. En el palo de señales de un barco se pueden izar tres banderas rojas, dos azules y cuatro
       verdes. ¿Cuántas señales distintas pueden indicarse con la colocación de las nueve
       banderas?
   18. Se ordenan en una fila 5 bolas rojas, 2 bolas blancas y 3 bolas azules. Si las bolas de igual
       color no se distinguen entre sí, ¿de cuántas formas posibles pueden ordenarse?
   19. Cuatro libros distintos de matemáticas, seis diferentes de física y dos diferentes de
       química se colocan en un estante. De cuántas formas distintas es posible ordenarlos si:
       1. Los libros de cada asignatura deben estar todos juntos.
       2. Solamente los libros de matemáticas deben estar juntos.
   20. Una persona tiene cinco monedas de distintos valores. ¿Cuántas sumas diferentes de
       dinero puede formar con las cinco monedas?


6.6. Soluciónes.
   1. ¿De cuántas formas diferentes se pueden cubrir los puestos de presidente, vicepresidente y
      tesorero de un club de fútbol sabiendo que hay 12 posibles candidatos?

No entran todos los elementos.

Sí importa el orden.

No se repiten los elementos.




   2. Con las letras de la palabra libro, ¿cuántas ordenaciones distintas se pueden hacer que
      empiecen por vocal?


                                                                                                126
La palabra empieza por i u o seguida de las 4 letras restantes tomadas de 4 en 4.

Sí entran todos los elementos.
Sí importa el orden.
No se repiten los elementos.




   3. ¿De cuántas formas pueden mezclarse los siete colores del arco iris tomándolos de tres en
      tres?

No entran todos los elementos.
No importa el orden.
No se repiten los elementos.




   4. ¿Cuántos números de cinco cifras distintas se pueden formar con las cifras impares?
      ¿Cuántos de ellos son mayores de 70.000?

Sí entran todos los elementos.
Sí importa el orden.
No se repiten los elementos.


Si es impar sólo puede empezar por 7 u 9.




   5. ¿De cuántos partidos consta una liguilla formada por cuatro equipos?
No entran todos los elementos.
Sí importa el orden.
No se repiten los elementos.




                                                                                            127
   6. A una reunión asisten 10 personas y se intercambian saludos entre todos. ¿Cuántos
      saludos se han intercambiado?

No entran todos los elementos.

No importa el orden.

No se repiten los elementos.




   7. Con las cifras 1, 2 y 3, ¿cuántos números de cinco cifras pueden formarse? ¿Cuántos son
      pares?

Sí entran todos los elementos: 3 < 5

Sí importa el orden.

Sí se repiten los elementos.




Si el número es par tan sólo puede terminar en 2.




   8. ¿De cuántas formas pueden colocarse los 11 jugadores de un equipo de fútbol teniendo en
      cuenta que el portero no puede ocupar otra posición distinta de la portería?

Disponemos de 10 jugadores que pueden ocupar 10 posiciones distintas.

Sí entran todos los elementos.
Sí importa el orden.
No se repiten los elementos.



   9. Una mesa presidencial está formada por ocho personas, ¿de cuántas formas distintas se
      pueden sentar, si el presidente y el secretario siempre van juntos?



                                                                                           128
Se forman dos grupos el primero de 2 personas y el segundo de 7 personas, en los dos se cumple
que:

Sí entran todos los elementos.

Sí importa el orden.

No se repiten los elementos.




   10. ¿Cuántas diagonales tiene un pentágono y cuántos triángulos se puede informar con sus
       vértices?

Vamos a determinar en primer lugar las rectas que se pueden trazar entre 2 vértices.

No entran todos los elementos.

No importa el orden.

No se repiten los elementos.


Son     , a las que tenemos que restar los lados que determinan 5 rectas que no son diagonales.




11. Un grupo, compuesto por cinco hombres y siete mujeres, forma un comité de 2 hombres y 3
mujeres. De cuántas formas puede formarse, si:

1. Puede pertenecer a él cualquier hombre o mujer.




2. Una mujer determinada debe pertenecer al comité.




3. Dos hombres determinados no pueden estar en el comité.


                                                                                              129
12. ¿De cuántas formas distintas pueden sentarse ocho personas en una fila de butacas?

Sí entran todos los elementos. Tienen que sentarse las 8 personas.

Sí importa el orden.

No se repiten los elementos. Una persona no se puede repetir.




   13. En una clase de 35 alumnos se quiere elegir un comité formado por tres alumnos.
       ¿Cuántos comités diferentes se pueden formar?

No entran todos los elementos.

Noimporta el orden: Juan, Ana.

Nose repiten los elementos.




   14. ¿De cuántas formas distintas pueden sentarse ocho personas alrededor de una mesa
       redonda?




   15. En una bodega hay cinco tipos diferentes de botellas. ¿De cuántas formas se pueden elegir
       cuatro botellas?

No entran todos los elementos. Sólo elije 4.
No importa el orden. Da igual que elija 2 botellas de anís y 2 de ron, que 2 de ron y 2 de anís.
Sí se repiten los elementos. Puede elegir más de una botella del mismo tipo.




                                                                                                   130
   16. En el palo de señales de un barco se pueden izar tres banderas rojas, dos azules y cuatro
       verdes. ¿Cuántas señales distintas pueden indicarse con la colocación de las nueve
       banderas?

Sí entran todos los elementos.
Sí importa el orden.
Sí se repiten los elementos.




   17. Se ordenan en una fila 5 bolas rojas, 2 bolas blancas y 3 bolas azules. Si las bolas de igual
       color no se distinguen entre sí, ¿de cuántas formas posibles pueden ordenarse?




18. Cuatro libros distintos de matemáticas, seis diferentes de física y dos diferentes de química
se colocan en un estante. De cuántas formas distintas es posible ordenarlos si:

1. Los libros de cada asignatura deben estar todos juntos.




2.Solamente los libros de matemáticas deben estar juntos.




   19. Una persona tiene cinco monedas de distintos valores. ¿Cuántas sumas diferentes de
       dinero puede formar con las cinco monedas?




                                                                                                131
Capítulo 7. Conceptos Básicos de Probabilidad
7.1 Introducción.
La palabra probabilidad aparece en nuestro lenguaje ordinario en multitud de ocasiones. Así,
afirmaciones del tipo de que la probabilidad de obtener dos seis al lanzar dos dados no cargados
es uno entre 36, de que hay una probabilidad ligeramente inferior a un medio de que un bebé
recién nacido sea varón y de que en los próximos dos años se pueda curar el SIDA es pequeña.
El primero se refiere a un juicio de probabilidad que podemos llamar clásico, en el que los
posibles resultados son equiprobables. El segundo es una afirmación de tipo frecuentista y se
refiere a la frecuencia relativa con la que cierta probabilidad aparece entre los miembros de una
clase determinada y el tercero constituye un ejemplo de lo que podríamos llamar un juicio de
credibilidad y es una medida del grado de confianza que tenemos en la verdad de una cierta
proposición.


7.2. Experimento aleatorio.
La finalidad de todo experimento científico es la obtención de información de interés acerca de
cualquier fenómeno de la Naturaleza. Dentro de los experimentos científicos hay algunos cuyo
desarrollo es previsible con certidumbre, y sus resultados están perfectamente determinados una
vez fijada las condiciones del mismo: se conocen con el nombre de “experimentos
determinísticos”.

Frente a estos experimentos que pueden realizarse en contexto de certidumbre, aparecen los que
pueden realizarse en un contexto de incertidumbre. A estos se les llama “experimentos o
fenómenos aleatorios”; estos fenómenos dependen del “azar”. El objeto de estudio del Cálculo de
Probabilidades lo constituyen los fenómenos o experimentos aleatorios. Algunas propiedades que
caracterizan los fenómenos aleatorios son:
    1. En las mismas condiciones iniciales pueden dar lugar a diferentes resultados finales.
    2. Todos los resultados posibles se conocen por anticipado.
    3. No se puede predecir el resultado en cada experimento particular.
    4. En general, puede repetirse en las mismas condiciones indefinidamente.

   Ejemplo.
   Para fijar los elementos fundamentales que intervienen en la teoría de probabilidades,
   elegimos uno de los ejemplos más habituales como es el de lanzamiento de un dado.

   Claramente es un fenómeno aleatorio.
   Los resultados posibles son: Ω = {1, 2, 3, 4, 5, 6}
   Los aspectos que presentan incertidumbre en este experimento son: los posibles subconjuntos
   de Ω, así presenta incertidumbre el subconjunto {2, 4, 6} al que podemos denominar “par” o
   su complementario “impar”. Un segundo elemento a considerar son todos los subconjuntos de
   Ω, es decir, el conjunto de partes de Ω, P(Ω,) el cual obtendrá todos los elementos de interés
   en nuestro experimento.

                                                                                             132
   Por último, parece razonable tener una medida de dicha incertidumbre: es decir, su
   probabilidad P. Así pues, en todo experimento aleatorio se deben considerar los siguientes
   tres elementos (Ω, P(Ω), P).


7.3. Espacio Muestral.
Dado un experimento aleatorio, llamaremos espacio muestral Ω al conjunto de todos los
resultados posibles distintos de dicho experimento aleatorio. Los elementos de Ω se denominan
sucesos elementales.

Ejemplos de espacios muestrales hay muchos. Consideremos el experimento aleatorio de lanzar
dos monedas al aire, el espacio muestral asociado será el Ω = {(C, C), (C, F), (F, C), (F, F)} en el
caso que se distinguiesen las dos monedas.

Tipos de espacios muestrales asociados a un experimento aleatorio.

   a) Espacio muestral finito: Se da cuando Ω está formado por un número finito de elementos.
      Ejemplos, lanzamiento de un dado o de una moneda.
   b) Espacio muestral infinito numerable: A priori un experimento de este tipo puede dar lugar
      a un conjunto infinito de eventualidades. Ejemplo, Lanzar una moneda hasta obtener cara
      por primera vez:
      C, FC, FFC, FFFC, . . . , FFFFF… FC, …
      El espacio muestral Ω deberá contener como elementos todas aquellas sucesiones finitas
      de la forma FF…FC.
   c) Especio muestral continuo: Cuando los elementos del experimento aleatorio pueden ser
      cualquier valor dentro de un intervalo o región. Ejemplo, el desplazamiento de una
      partícula en un plano y supongamos que estamos interesados en la posición que ocupa
      dicha partícula en el plano, en este caso Ω es todo el plano y por tanto continuo.


7.4. Sucesos o Eventos
   Sea A una colección no vacía de subconjuntos del espacio muestral Ω, en principio, cualquier
   elemento de A, es decir, cualquier subconjunto de Ω contendrá una cierta incertidumbre:
   llamaremos a dicho conjunto suceso, siendo la medida de la incertidumbre, su probabilidad.
   Así, suceso es un conjunto A de A. Diremos que se ha presentado un suceso A al realizar el
   experimento, si el resultado de dicho experimento es algún punto   (es decir, un suceso
   elemental de Ω contenido en A).
   Obviamente, los sucesos son conjuntos, por lo tanto, al hablar de uniones, intersecciones,
   diferencia, complementario, etc. de sucesos no es más que hablar de uniones, intersecciones,
   diferencias, complementarios, etc. de conjuntos. El suceso correspondiente al conjunto vacío
   es denominado suceso imposible y representado por  y definido como el conjunto de Ω que
   no contiene ningún suceso elemental.



                                                                                                133
      Desde el punto de vista matemático A no es más que una colección especificada de
      subconjunto de Ω. En algunos casos (cuando Ω sea finito o numerable será A=P(Ω) y
      contendrá 2 n elementos, pero otras deberá ser A ≠ P(Ω)).

      En cálculo de probabilidades la exigencia habitual que haremos a la clase A es que sea
        á lg ebra .



7.4.1. Estructuras con subconjunto

Definición 1. (Estructuras de Semiálgebra)
Dado el espacio total  , una clase S  P() tiene estructura de semiálgebra si y sólo si:
a)   S
b)  A, B  S es A  B  S
 c)  A S , existe una sucesión finita A1 , A2 , ..., An  S con Ai  Aj   i  j tal que
        n
Ac           Ai
       i 1


Ejemplo. (Intervalos finitos o infinitos de           )

Sea     S   , ,(, a], (b, c], (d , ) / a, b, c, d       verificar que S tiene estructura de
semiálgebra            (, )  .

1)  S por definición
2) Para todo par de intervalos de la clase, su intersección está en la clase ya que cualquier
intervalo intersecado con     será el mismo intervalo, y cualquier intervalo intersecado con  ,
será  , que por definición ha sido incluido en S.

Por otro lado,

(, a]  (b, c]  (b, a]  S , si    b  a  c, ó
(, a]  (b, c]    S , si    a  b  c, ó
(, a]  (b, c]  (b, c]  S , si    b  c  a,

Además,

(, a]  (d , ]  ( d , a]  S , si    d  a  , ó
(, a]  (d , ]    S , si    a  d  ,




                                                                                               134
Y por último,
(b, c]  (d , )    S , si b  c  d  , ó
(b, c]  (d , )  (d , c]  S , si b  d  c  , ó
(b, c]  (d , )  (b, c]  S , si d  b  c  ,

3) Dado un intervalo, el complementario se puede poner como unión finita de elementos de la
clase:
Dado , c   y dado ,  c  , así pues, sólo debemos estudiar el resto de los intervalos:
a  , (, a]c  (a, )  S . b, c  , (b, c]c  (, b]  (c, ), perteneciendo ambos intervalos
a S. Por último, d  , (d , ]c  (, d ]  S .

Ejemplo.
Sea   (0,1] verificar que la clase de intervalos (a, b] con 0  a  b  1 forman una semiálgebra.

Definición 2. (Estructura de Álgebra)
Dado el espacio total  , una clase Q  P() tiene estructura de álgebra si y sólo si:
a)   Q
b)  A, B  Q es A  B  Q
 c)  A Q, existe una sucesión finita A1 , A2 , ..., An  Q con Ai  Aj   i  j tal que
        n
Ac           Ai
       i 1
d ) A, B Q se tiene A  B  Q

Nota: Toda álgebra es semiálgebra y además es cerrada bajo complemento ( A  Q  Ac  Q ).


Definición 3. (Estructura de          -Álgebra)
Dado el espacio total  , una clase A  P() tiene estructura de  -álgebra si y sólo si:
a)   A
b) A  A  Ac  A
                                                    
c) Para toda sucesión  An n  A se tiene                An  A
                                                    n 1
Nota: El conjunto vacío se encuentra en la clase y es cerrado bajo intersecciones
                                          c
                   
                                     c 
numerables                An        An  .
                   n 1         n 1    




                                                                                                135
Ejemplo:
Sea       y la clase C  (a, b]: a, b   entonces la  -álgebra engendrada por C es muy
importante en Cálculo de Probabilidades y se denomina  -álgebra de Borel. Se representa por
 B( ) .

La  -álgebra de Borel no sólo está engendrada por C , sino que está engendrada por cualquiera
de las siguientes clases de intervalos:

C1  (a, b);    C2  (, b) ;       C3  (a, ); C4  (, b];
C5  [a, b) ;    C6  [a, b); C7  [a, b];

Ejercicio
Sea  el conjunto de casos posibles que resulta de la tirada de un dado. Decir cuáles de las
siguientes clases de conjuntos son álgebras.
            a) M 1   , 
            b) M     2     , 1, 3, 5 , 2, 4, 6 ,    , I , P, 
            c) M    3     P    , conjunto de las partes de 
            d) M    4      , 1 , 1, 5 , 2, 4, 6 , 


7.5. Axiomas de Probabilidad
Definición (Espacio Probabilizable)

Al par (, A) , donde A  P () es una  -álgebra de conjuntos de  se le denomina
espacio medible o espacio probabilizable. A los elementos de A se les denomina conjuntos
medibles.


7.5.1. Probabilidad (Axiomática).

El tercero de los elementos a considerar en relación con un experimento aleatorio es, la
probabilidad de los sucesos de la  -álgebra de subconjuntos del espacio muestral  .

Axiomas de Kolmogorov.
Sea (, A) un espacio probabilizable. Definimos una función de conjunto P, de A en
que cumple los siguientes axiomas:
Axioma 1. A  A es P(A)  0 .
Axioma 2. P()  1 .
                                                                           
Axioma 3.  sucesión        An n    A tal que Ai  Aj  i  j es P  An    P( An )
                                                                          n1  n1
                                                                                              136
Consecuencias de los Axiomas de Kolmogorov.

1.       P()  0 .   En   efecto,    sea   la   sucesión      A, , ... con   A A ;   evidentemente
    
         An  A      ...  A con lo que por el axioma 3
n 1

                                  
P      An    P  An   P  A   P  An   P  A   P    0
  n 1     n 1                    n2



2     Se cumple la aditividad finita. Sea la sucesión A , A2 ,..., An ,  ,  ,...
                                                         1

   Donde Ai  A , i  1, 2,..., n y Ai  A j   , i  j con i , j  n.
   En efecto. Directamente del axioma 3 y 1.
1. Para todo A  A ; es P  Ac  =1 – P(A). En efecto, escribir el espacio total como la unión de A
        y su complemento, luego aplicar la función de probabilidad y el axioma 2.
2.      Si A, B  A y A  B, entonces P(A) ≤ P(B). En efecto, B = A  (B-A);
        P(B)= P(A) + P(B-A), entonces P(B) ≥ P(A), ya que P(B-A) ≥0.

3.      Para todo A  A , P(A) ≤ 1. Observe que A   , entonces P(A) ≤ P(  )=1.

4.      Para todo A, B  A , P(A  B) = P(A) + P(B) - P(A  B).

Verificación:

A = (A  B )  (A  B*)          B* = B complemento.
B= (A  B )  (A*  B)

Ahora, P(A)= P(A  B ) + P (A  B*) y P(B) = P(A  B ) + P (A*  B) por otra parte, A  B
= (A  B )  (A  B*)  (A*  B)
P(A  B) = P(A  B ) + P (A  B*) + P(A*  B)

                  = P(A  B ) + P(A) - P(A  B ) + P(B) - P(A  B )

                  = P(A) + P(B) - P(A  B )

        5. Como generalización de la propiedad anterior, podemos expresar la probabilidad de la
        unión de n elementos no disjuntos de la  -álgebra A de la forma

   n       n             n                   n
                                                                                      n    
P  Ai    P( Ai )   P( Ai1  Ai2 )   P( Ai1  Ai2  Ai3 )  ...  (1) n 1 P  Ai 
   i 1  i 1       i1 ,i2 1          i1 ,i2 ,i2 1                                i 1 
                             i1 i2               i1 i2 i3

La demostración se hace por inducción.



                                                                                                 137
Definición 7. (Espacio probabilístico)
Al trío (  , A , P) donde  es el espacio muestral, A  -álgebra de sucesos sobre  y P una
medida de probabilidad sobre A recibe el nombre de espacio probabilístico, o espacio de
probabilidades. A los elemento de A se les llama sucesos.


7.6. Resultado Igualmente Probables o Modelo Uniforme de
Probabilidad
En muchas ocasiones, como en el estudio de algunos jugos de azar, de ciertos procedimientos de
muestreo, etc., se trabaja con espacios muestrales finitos, en los cuales los sucesos elementales
son equiprobables. El modelo matemático asociado suele recibir el nombre de modelo uniforme
y se expresa como sigue:

Sea (  , A , P) un espacio probabilístico tal que el conjunto de sucesos elementales asociado,
a1 , a2 , . . . , an es finito. En esta situación el espacio muestral se podrá poner como
  a1  a2  . . .  an y por ser los sucesos elementales incompatibles dos a dos, será:
                                 P (a1 )  P (a2 )  . . .  P (an )  1
                       1
Además, P (ai )  , i  1, . . . , n con lo que todo A  A unión de k sucesos elementales será:
                       n

                                                                         k
                        P ( A)  P (a1 )  P (a2 )  . . .  P (ak ) 
                                                                         n
Hemos obtenido así la clásica regla de Laplace: “Cociente entre casos favorables y casos
posibles” considerados éstos como equiprobables.

En este caso, necesitamos determinar qué número de situaciones son consideradas como
favorables y qué número de situaciones son posibles al realizar nuestro experimento aleatorio.
Para ello, es de mucha utilidad el análisis combinatorio y al de su base probabilística asociada.

Ejercicio. Se elige un número al azar del 1 al 6,000, todos igualmente probables. Hallar la
probabilidad de que sea múltiplo de 2 ó de 3 ó de 4 ó de 5.



7.7. Probabilidad condicional.
El problema que vamos a tratar en este apartado va a ser el de formalizar la idea intuitiva de que
la “información” aportada por el hecho de que haya ocurrido un suceso B, ha de ser recogida
cambiando el espacio de partida.
Consideremos el siguiente experimento aleatorio: Un encuestador elige al azar una persona en
una población de N individuos. Si suponemos que todas las elecciones son equiprobables, la
situación aleatoria es fácilmente descrita por el espacio probabilístico (  , A , P), en donde  es
el conjunto constituido por la propia población en cuestión, A =P(  ) : conjunto potencia, y P

                                                                                                138
está definida por las masas 1/N situadas en cada punto de  . Entre los sucesos de
A consideremos el suceso A = “Se elige una persona rubia” y el suceso B=”se elige una persona
de altura superior a 1.7m”. Estos sucesos son parte de  , ya que después de realizar el
experimento tienen respuesta las preguntas: ¿es rubia la persona encuestada? ¿es de altura
superior a 1.7m? Supongamos que estamos en la situación que una persona rubia (sin saber cuál)
es elegida, o dicho de otra manera ha ocurrido el suceso A. A priori, B ha podido tener lugar o
no; para que hubiese ocurrido, habría sido necesario y suficiente que se hubiera elegido una
persona del subconjunto A  B de  , y para que no hubiese ocurrido, habría sido necesario y
suficiente el que se hubiese elegido una persona del subconjunto A  B* de  . Supongamos,
que ha ocurrido A y se ha revisado “el que B tenga lugar”; A ya es un suceso seguro y B no se
realizará a menos que se realizase A  B. La probabilidad de realización de B, sabiendo que ha
ocurrido A, es el caso de sucesos favorables A  B con respecto al número de casos posibles que
realizan A; es decir,
                      N A B       , de donde dividiendo por N las dos cantidades será:
                              NA

                               N A B
                                        N  P( A  B)
                                NA                 P ( A)
                                      N
En resumen, sabiendo que A se ha realizado, una nueva evaluación de las probabilidades de los
sucesos, conducen a una nueva ley de probabilidades sobre (  ,P(  )), denotada por PA , dando
al suceso A una probabilidad igual a uno, y dando una probabilidad nula a los sucesos disjuntos
con A, viniendo definida por:

                                                 P( A  B)
                                   PA  B  
                                                   P ( A)

Definición. (Probabilidad condicional)
Sea (  , A , P) un espacio probabilístico y sea A  A un suceso tal que P(A) > 0. Llamaremos
probabilidad condicionada del suceso B respecto al A, y lo escribiremos P(B/A) a
                  P( A  B)
P  B / A                   , P ( A) > 0
                    P ( A)
Proposición.
Sea (  , A , P) un espacio probabilístico y sea A  A con P(A) > 0. Entonces, (  , A , P(·/A)) es
un espacio de probabilidad, donde P(B/A) es la definida anteriormente.
Demostración.
                    P( A  B)
1. P  B / A                      0 ; B  A
                       P ( A)
                 P(  A) P( A)
2. P   / A                    1
                   P( A)     P( A)
3. Por último, si  An n  A es una sucesión de disjuntos de A entonces




                                                                                               139
                                       
              P   An   A  P   An  A 
    
                  n 1 
P  An / A                    n 1      
   n 1              P ( A)           P( A)

    

     P A    n    A    
                                P  An  A  
=   n 1
                                            P  An / A  ◊
           P ( A)        n 1      P ( A)     n 1



La parte relevante de A es A  A ya que P(B/A) = 0 si B  A*. De hecho, si P(A) > 0,
AA = A  A es una  -Álgebra y P(·/A) es una probabilidad sobre AA .

Proposición.
El trío (A, AA , PA) es un espacio probabilístico si P(A) > 0.
Demostración.
AA es la clase de todos los sucesos que se pueden expresar como intersección de un elemento de
A y A, es decir, AA = A  A={B  A ; B A }. Pues bien, AA tiene estructura de  -álgebra
con espacio total el propio A, ya que:

a) A  AA por ser A = A  A, con A  A .
b) Si C  AA y por C’, representemos el complementario de C en AA y por C* el
   complementario en A , entonces C’  AA , ya que C’ = C*  A y C*  A , por ser A  -
   álgebra y C  A .
                                                       
c) Para toda sucesión Cn n  AA es                         Cn  AA ya que será
                                                       n 1
                                          
                                                                    
                                                                          
Cn  Bn  A              y          Cn           Bn  A           Bn   A  AA
                                n 1       n 1                   n 1 
             
               
Por ser  Bn   A .
         n 1 

Por otro lado, PA es una probabilidad sobre (A, AA ) ya que PA es la restricción de P(·/A) al
espacio (A, AA ).

Teorema. (Teorema del Producto o Regla de multiplicación)

Si A y B son dos sucesos del espacio probabilístico (  , A , P) con P(A) > 0 y P(B) > 0, a partir
de la proposición 5 se tiene que:
P( A  B)  P( A)P  B / A y P( A  B)  P(B)P  A / B  .



                                                                                              140
Demostración (Inmediata)
                                                                          n-1 
El teorema anterior se puede generalizar: Sea A1 , A2 ,..., An  A con P  Aj  > 0 entonces,
                                                                          j=1 

                                                                                        
    n                                                                                 
                                                                               An
P       Aj   P ( A1 ).P ( A2 / A1 ).P ( A3 / A1  A2 )...P                    n-1
                                                                                         
    j=1                                                                            Aj 
                                                                                        
                                                                                 j=1    
fácilmente se demuestra por inducción.


Teorema. (Teorema de la probabilidad total)

Sea (  , A , P) un espacio probabilístico y sea  An n  A un sistema completo de sucesos, es
decir, una sucesión de disjuntos,
                                     
Ai  A j   i  j tal que                 An  
                                     n 1


Sea B  A un suceso para el que se conocen las probabilidades condicionadas P(B/Ai), y
supongamos, por último, que se conocen también las probabilidades P(Ai), con P(Ai)>0, para
todo i=1,2, . . . En estas condiciones,

                                            
                          P( B)          P( B /
                                            i 1
                                                          Ai ) P ( Ai )

Demostración.
                                                
P( B)  P( B  )  P  B   Ai    P   B  Ai     P( B / Ai ) P( Ai )
                            i 1      i 1        i 1

Teorema. (Teorema de Bayes o de la Probabilidad inversa)
Sea (  , A , P) un espacio probabilístico y sea  An n  A un sistema completo de sucesos tal
que P(Ai)>0, i  . Sea B  A un suceso con P(B)>0, para el que se conocen las
probabilidades P(B/ Ai). Entonces,

                                              P( Ai ) P( B / Ai )
                         P( Ai / B)         
                                                                        , i
                                             P( A ) P  B / A 
                                            i 1
                                                     i              i



Demostración: Inmediata. Aplicación del teorema de la Probabilidad total.
A las probabilidades P(Ai)>0 se les suele llamar probabilidades a priori. A las P(Ai/B)
probabilidades a posteriori, y a las P(B/Ai) verosimilitudes.


                                                                                                141
7.8. Independencia de sucesos.
Sea (  , A , P) un espacio probabilístico y sean A, B  A con P(B)>0. El teorema del producto
nos dice que
                                    P( A  B)  P(B)P  A / B  .
Existen muchos experimentos aleatorios en los que la información suministrada por el suceso B
no afecta para nada la probabilidad del suceso A, es decir, P(A/B)=P(A). Pues bien, esa es
precisamente la noción de independencia.

Definición. (Independencia)
Sea (  , A , P) un espacio probabilístico y sea A,B  A , los suceso A y B son independientes si y
sólo si:
                             P( A  B)  P( A) P( B)
Frecuentemente se confunde sucesos incompatibles con sucesos independientes, observemos que
los sucesos incompatibles son los más dependientes que existen, puesto que la ocurrencia de uno
de ellos proporciona la máxima información; el otro suceso no va a ocurrir.

Proposición.
Si A y B son dos sucesos independientes entonces,
P(A/B) =P(A) si P(B)>0; y P(B/A)= P(B) si P(A) > 0.

Proposición.
Si A y B son dos sucesos independientes, entonces, también lo son A y B*, A* y B, A* y B*.
Demostración:
P(A*  B) = P(B - [ A  B]) = P(B) – P(A  B) , ya que (A  B )  B, con lo que:

P(A*  B) = P(B)(1-P(A)) = P(B)P(A*). Análogamente, se verifica la independencia de A y B*.

Por último,
P(A*  B*) = P[(A  B)*] = 1 – P(A  B) = 1- [P(A) + P(B) – P(A  B)]
= 1 -P(A) -P(B) + P(A)P(B) = P(A*) – P(B)(1-P(A)) =P(A*)P(B*) .

A continuación se presenta una serie de ejercicios de probabilidad, se han ordenado de acuerdo a
su dificultad al momento de resolver. Los ejercicios con un * tienen un grado mayor de dificultad
y los ejercicios con ** se recomienda dejarlos hasta el final ya que se requieren mucha
concentración para su comprensión y resolución. Esta clasificación se hace con base al nivel de
dificultad que encontró el profesor al momento de resolverlos.

7.9. Ejercicios de cálculo de probabilidad
Hoja de ejercicios 2.
Ejercicio 1: Altube y Vitoria son dos estaciones metereológicas. Representaremos por A y V el
que llueva respectivamente en Altube y Vitoria durante cualquier periodo de 24 horas en el mes
de Junio; se tiene que P(A) = P(V) = 0, 40 y que P(A V) = 0, 28. Determínense las dos
probabilidades condicionales P(A/V) y P(V/A), así como la probabilidad total P(A V). ¿Son
independientes A y V?
                                                                                               142
Solución.
Para obtener las probabilidades condicionadas aplicamos la expresión:



Para obtener la probabilidad total consideramos
P(A V) = P(A) + P(V) – P(A V)= 0, 40 + 0, 40 - 0, 28 = 0, 52

Se dice que dos sucesos son independientes si su probabilidad compuesta es igual al producto de
sus probabilidades incondicionales respectivas. La definición formal de independencia de dos
sucesos es:

P(B/A) = P(B) ; P(A/B) = P(A)

También, podemos ver que en el caso de sucesos independientes la probabilidad compuesta toma
la forma:
P(A B) = P(A)•P(B).
En nuestro caso resulta fácil comprobar que los dos sucesos no son independientes ya que se
tiene:
P(A/V) P(A) ; P(V/A) P(V) P(A V) P(A)•P(V)

Ejercicio 2. Un mecanismo eléctrico que contiene cuatro interruptores sólo funciona cuando
todos ellos están cerrados. En sentido probabilístico, los interruptores son independientes en lo
que se refiere al cierre o a la apertura, y, para cada uno de ellos, la probabilidad de que no
funcione es 0,1. Calcúlese la probabilidad de que no funcione el mecanismo en conjunto,
despreciando todas las causas que pueden hacer que el mecanismo no funcione, excepto los
propios interruptores.

Solución
Representando por F el hecho de que el mecanismo no funcione y por F* el suceso
complementario. Llamando S1 al suceso de que el interruptor 1 esté cerrado y S1* al suceso
complementario (que esté abierto), se sabe que P(S1*)=0.1, luego P(S1) =0.9. Y análogamente
para los otros interruptores. El mecanismo solo funciona cuando los interruptores están cerrados,
y esto corresponde al suceso compuesto S1 S2 S3 S4, luego P(F*)=P(S1 S2 S3 S4).

Aplicando ahora el teorema sobre la ley de la probabilidad compuesta para sucesos
independientes, tenemos:
 P(S1 S2 S3 S4) = P(S1)P(S2)P(S3)P(S4)= (0.9)(0.9)(0.9)(0.9)= 0.6561 y a partir de ahí:

P(F*)= 1 – 0.6561 = 0.3439.

Ejercicio 3. En un almacén se tiene que despachar 60 pedidos, y se sabe que 5 de ellos son de
una cierta mercancía A. Si se cumplimentan los 60 pedidos al azar, ¿cuál es la probabilidad de
que el primero y el cuarto pedido sean de la mercancía A y de que simultáneamente no lo sean el
segundo y el tercero?. ¿Cuál es la probabilidad de que en los cuatro primeros pedidos a
cumplimentar haya al menos dos pedidos de la mercancía A?

                                                                                             143
Solución.

Vamos a representar por A el suceso consistente en que un pedido determinado que se esté
despachando sea de la mercancía A, y por A* el suceso complementario consistente en que no
sea de la mercancía A.

Como la probabilidad de que un pedido determinado se refiera a una clase de mercancía
determinada (sea A o A*) está influida por el número de pedidos de la misma clase que se hayan
despachado antes, este problema ilustra la ley general de la probabilidad compuesta, expresada en
la Ley general de la probabilidad compuesta:
                                                                                  
    n                                                                           
                                                                       An
P       Aj   P ( A1 ).P ( A2 / A1 ).P ( A3 / A1  A2 )...P              n-1
                                                                                   
    j=1                                                                      Aj 
                                                                                  
                                                                           j=1    

Una buena forma de considerar el problema es imaginar un mazo de 60 cartas, todas iguales,
excepto que 5 de ellas están señaladas con A y 55 señaladas con A*. La acción de cumplimentar
los pedidos se puede asociar a la de sacar cartas de un mazo bien barajado, de forma que todas las
cartas que se pueden sacar en una prueba determinada tienen las mismas probabilidades de ser
elegidas.

El suceso de que los pedidos primero y cuarto sean de la mercancía A y el segundo y tercero no,
corresponde a sacar la sucesión de cartas A ,A*, A*, A. Como hay 5 cartas señaladas con A, la
probabilidad de que la primera carta sea una A es 5/60. En la segunda prueba hay 59 cartas en la
baraja, y 55 de ellas están señaladas con A*. Luego la probabilidad condicionada de que la
segunda carta sea una A* es 55/59. En la tercera prueba quedan 58 cartas, y 54 de ellas están
señaladas con A*. Luego, la probabilidad condicionada de que la tercera carta sea una A* es
54/58. Finalmente, en la cuarta prueba quedan 57 cartas, de las cuales 4 están señaladas con A,
luego la probabilidad de que la cuarta carta sea una A es 4/57. Por tanto, multiplicando estas
probabilidades de acuerdo con el teorema que expresa la ley general de la probabilidad
compuesta, obtenemos:

P(A, A*, A*, A) = (5/60) (55/59)(54/58)(4/57) = 0.0051.

Si llamamos E al suceso de que al menos dos pedidos de los cuatro primeros a cumplimentar sean
de la mercancía A, su probabilidad es igual a 1-P(E*), siendo E* el suceso de que los primeros
cuatro pedidos contengan menos de dos pedidos de la mercancía A, es decir, cero o uno. Pero la
probabilidad de que ninguno de los pedidos sea de la mercancía A está dada por:

P(0)= P(A*, A*, A*, A*)= (55/60)(54/59)(53/58)(52/57) = 0.6994.

Como el suceso de que uno de los pedidos sea de la mercancía A puede ocurrir de cuatro formas
mutuamente excluyentes, su probabilidad total es:
P(1) = P(A, A*, A*, A*)+ P(A*, A, A*, A*)+ P(A*, A*, A, A*)+ P(A*, A*, A*, A)
       = (5/60)(55/59)(54/58)(53/57) + (55/60)(5/59)(54/58)(53/57)+
       (55/60)(54/59)(5/58)(53/57)+ (55/60)(54/59)(53/58)(5/57) = 0.269

                                                                                              144
Por todo ello tendremos: P(E*)= P(0)+P(1) = 0.6994+0.269= 0.9684 y la probabilidad buscada
es:
P(E)= 1- P(E*)= 1 - 0.9684= 0.0316.

Ejercicio 4. Sea un dado tal que la probabilidad de las distintas caras es proporcional al número
de puntos inscritos en ellas. Hallar la probabilidad de obtener con este dado un número par.

Ejercicio 5. Se elige un número al azar del 1 al 6,000, todos igualmente probables. Hallar la
probabilidad de que sea múltiplo de 2 ó de 3 ó de 4 ó de 5.

Ejercicio 6. En un juego de dados, hemos apostado por el “2”. Se tira el dado, y antes de ver el
resultado, nos dicen que ha salido par. Hallar la probabilidad de ganar.

Ejercicio 7. En una reunión hay 25 personas. Calcular la probabilidad de que celebren su
cumpleaños el mismo día del año al menos dos personas.

Ejercicio 8. Un dado sólo tiene tres caras posibles: 1, 2 y 3, igualmente probables. Realizamos el
siguiente juego: tiramos el dado, si sale 3 ganamos, si sale 1 ó 2 continuamos tirando hasta repetir
el resultado de la primera tirada, en cuyo caso ganamos, o hasta obtener un tres y entonces
perdemos. Se pide la probabilidad de ganar.

Ejercicio 9. Un parque natural está dividido en dos partes A y B por un río. Hay 10 ciervos en la
parte A y otros 10 en la parte B. Un biólogo realiza investigaciones sobre la conducta de un cierto
ciervo X que está en A. Por un descuido de los vigilantes 9 ciervos de A pasan a B. Éstos lo
advierten y devuelven 9 ciervos (escogidos al azar) al territorio A. Informado el biólogo de tal
contingencia, desea proseguir sus investigaciones sobre X. ¿En cuál de las dos partes A y B es
preferible que empiece a buscar su ciervo?

Ejercicio 10. Se hacen 6 tiradas con una moneda. Hallar la probabilidad de obtener una racha
ininterrumpida de por lo menos tres caras.

Ejercicio 11. En una reunión, n personas (n > 2) lanzan una moneda al aire. Si hay una que
difiere de todas las demás, su propietario paga una ronda. ¿Cuál es la probabilidad de que esto
ocurra?

Ejercicio 12. Un examen consta de 5 temas numerados. Para elegir un tema al azar, se propone
lanzar un dado. Si sale de 1 a 5, el número del tema es el resultado del dado; si sale 6 se vuelve a
tirar hasta que sale de 1 a 5. Demostrar que la probabilidad de elección de cada tema es 1/5.

Ejercicio 13. Una urna contiene 5 bolas blancas y 3 bolas negras. Tres jugadores A, B y C
extraen una bola, sin devolución, en este mismo orden. Gana el primer jugador que saca bola
blanca. Calcular la probabilidad de que gane C.

Ejercicio 14. Una urna se ha llenado tirando una moneda al aire dos veces y poniendo una bola
blanca por cada cara y una bola negra por cada cruz. Se extrae una bola que es blanca. Hallar la
probabilidad de que la otra bola también lo sea.


                                                                                                145
Ejercicio 15. En una universidad en la que sólo hay estudiantes de Arquitectura, Ciencias y
Letras, termina la carrera el 5% de Arquitectura, el 10% de Ciencias y el 20% de Letras. Se sabe
que el 20% estudian Arquitectura, el 30% Ciencias y el 50% Letras. Eligiendo un estudiante al
azar, se pide:
d) Probabilidad de que sea de Arquitectura y haya terminado la carrera.
e) Nos dice que ha terminado la carrera. Probabilidad de que sea de Arquitectura.

Ejercicio 16. Un jugador tira un dado, sale 6 y gana. Hallar la probabilidad de que haya hecho
trampa. (Sugerencia: Resolverlo bajo el supuesto de que el 50% de los jugadores son tramposos)

Ejercicio 17. Se lanzan tres monedas simétricas. Calcular la probabilidad de que salgan las tres
tiradas iguales.

Ejercicio 18. Se lanza un dado n veces. Calcular la probabilidad de obtener al menos un seis.

Ejercicio 19. Se tiene un cuadrado inscrito en un circulo de radio r. Se eligen tres puntos al azar e
independientes dentro del circulo. Hallar la probabilidad de que los tres puntos caigan dentro del
cuadrado.

*Ejercicio 20. Al contestar una pregunta con sus n posibles respuestas, una persona o bien
conoce la respuesta correcta (lo cual ocurre con probabilidad p) o bien lo adivina con
probabilidad 1/n. Calcular la probabilidad de que conociese la respuesta, supuesto que ha
contestado correctamente.

*Ejercicio 21. Con una moneda se juega a cara o cruz. Se para de lanzar cuando por primera vez
la diferencia entre el número de caras y el número de cruces es en valor absoluto igual a 3.
Calcular la probabilidad de que paremos de lanzar la moneda en la sexta tirada o antes. Idem en
la n-ésima tirada o antes.

*Ejercicio 22. Entre 5 ciudades situada en los vértices de un pentágono A-B-C-D-E-A, un
transportista que parte de A realiza viajes de modo que en cada ciudad tiene probabilidad 1/3 de
ir a la izquierda y 2/3 de ir a la derecha. Calcular la probabilidad de que el primer regreso a A sea
por la ciudad contraria hacia la que partió habiendo pasado una sola vez por D. Idem pero
regresando por BA, y pasando además por D una sola vez.

**Ejercicio 23. Un profesor tiene una caja de cerillas en cada una de sus dos bolsillos, ambas con
el mismo número N de cerillas, y va sacando al azar cerillas de cada bolsillo, una a una. Calcular
la probabilidad de que en el bolsillo izquierdo quede exactamente k cerillas cuando en el derecho
saca la última.

**Ejercicio 24. En 4 ciudades situadas en los vértices de un cuadrado, un transportista realiza
viajes de manera que en cada ciudad tiene una probabilidad p de ir a la derecha y q=1-p de ir
hacia la izquierda. Hallar la probabilidad de que el primer regreso a la ciudad de partida, A, se
produzca por la ciudad contraria hacia la que partió.




                                                                                                 146
7.9.1. Problemas variados de probabilidad

Hoja de ejercicios 3 (Problemas de refuerzo).

1. Una experiencia puede dar k resultados posibles mutuamente excluyentes, R1, R2, …,Rk cuyas
probabilidades respectivas son p1, p2, … , pk, siendo su probabilidad total igual a la unidad, es
decir, p1 + p2 + … + pk = l. Si se ejecutan N pruebas independientes de la experiencia, ¿cuál es la
probabilidad de obtener exactamente n1 resultados del primer tipo, n2 del segundo,…, y nk del k-
ésimo,        siendo       n1        +       n2      +      …         +       nk       =        N?

RESPUESTA 1.

Como las pruebas son independientes, la probabilidad de obtener un resultado determinado
cualquiera Ri en una prueba dada no está influida en absoluto por los resultados de otras pruebas.
Por tanto, la probabilidad Ps de una sucesión determinada cualquiera de resultados es igual al
producto de sus probabilidades incondicionales separadas y, por tanto,


El número S de sucesiones distintas que dan el número deseado de resultados de cada clase es
igual a Pm(N; n1, n2, … , nk) y la probabilidad total P(n1, n2,… , nk) viene dada por el producto
S.Ps     ;  por                                                              consiguiente :

                                                      N!
                   P ( n1, n2 , ... , nk )                       p1n1 p2 n2 ... pk nk
                                               n1 ! n2 ! ... nk !
2. El informe de un ingeniero sobre las causas de avería en los calentadores de agua domésticos
reveló que el 90% de las averías se debían a uno de estos tres factores : escapes en las soldaduras,
escapes en las juntas, o corrosión en puntos aislados, siendo las probabilidades respectivas de 0.4
; 0.3 y 0.2. Despreciando la posibilidad remota de que se produzcan averías simultáneas, y
suponiendo pruebas independientes, ¿cuál es la probabilidad de que una muestra aleatoria de
cinco averías contenga dos casos de escapes en las soldaduras, dos de escapes en las juntas, uno
de corrosión en un punto aislado y ninguno debido a otras causas?

RESPUESTA 2.
Aceptando la hipótesis de que las averías simultáneas son despreciables, podemos considerar los
diferentes tipos de averías como sucesos mutuamente excluyentes, e incluyendo la categoría de
"averías diversas", obtenemos un sistema exhaustivo. Por tanto, podemos aplicar directamente la
ley polinomial de la probabilidad, y la solución está dada por:



3. La probabilidad de que un vendedor a domicilio consiga una venta en un solo intento es 1/6.

a) ¿Cuál es la probabilidad de que consiga al menos una venta en los cinco intentos siguientes?
b) ¿Cuál es la probabilidad de que consiga, en esos cinco intentos, cuatro o más ventas?



                                                                                                147
RESPUESTA 3.

Aunque puede no ser estrictamente cierto, vamos a suponer que un intento no afecta a otro.

a) La probabilidad P(E) del suceso de que el vendedor consiga al menos una venta en los cinco
intentos es igual a 1  P (E ) , siendo el suceso complementario de que no consiga ninguna venta.
En este caso:

            5!
P (E )         (1/ 6)0 (5 / 6)5 =0.402
           0!5!

Ahora, P(E)= 1-0.402= 0.598

b) El suceso E' de conseguir cuatro o más ventas se puede producir de dos maneras mutuamente
excluyentes: consiguiendo exactamente cuatro ventas o consiguiendo exactamente cinco ventas.
Luego:

            5!                      5!
P (E´)         (1/ 6)4 (5 / 6)1       (1/ 6)5 (5 / 6)0  0.0032  0.0001  0.0033
           4!1!                    5!0!
4. Tres urnas, U1 , U2 , U3 , contienen bolas blancas, negras y rojas en proporciones diferentes. U1
   contiene una bola blanca, dos negras y tres rojas; U2 contiene dos bolas blancas, una negra y
   una roja, y U3 contiene cuatro bolas blancas, cinco negras y tres rojas. Sacamos dos bolas de
   una urna, sin saber de qué urna son. Si resulta que una bola es blanca y la otra es roja,
   calcúlense las probabilidades respectivas de que la urna de la cual se han sacado las bolas sea
   la U1 , la U2 ó la U3.


RESPUESTA 4.

Podemos suponer razonablemente que las tres urnas tienen la misma probabilidad de haber sido
elegidas, por lo que tenemos P(Ui) = 1/3 (i = 1, 2, 3). Las probabilidades condicionadas del
suceso A (sacar una bola blanca y otra roja, a la vez) las calculamos como sigue: En la urna U1
tenemos una bola blanca y tres rojas frente a 6 bolas en total. Esto supone que tenemos tres casos
favorables dados por la bola blanca con cada una de las rojas y 15 casos posibles que resultan del
número de combinaciones de 6 elementos tomados de dos en dos, C(6, 2) = 6!/2!(6-2)! = 15. Por
todo ello, la probabilidad P(A/U1) vale 3/15 = 1/5. De forma análoga obtenemos también P(A/U2)
= 1/3 y P(A/U3) = 2/11.

Sustituyendo estos valores en la fórmula de Bayes, obtenemos las probabilidades respectivas

                               (1/ 3)(1/ 5)                 33
P (U1 / A)                                               
               (1/ 3)(1/ 5)  (1/ 3)(1/ 3)  (1/ 3)(2 /11) 118



                                                                                                148
                               (1/ 3)(1/ 3)                 55
P (U2 / A)                                               
               (1/ 3)(1/ 5)  (1/ 3)(1/ 3)  (1/ 3)(2 /11) 118

                              (1/ 3)(2 /11)                 30
P (U3 / A)                                               
               (1/ 3)(1/ 5)  (1/ 3)(1/ 3)  (1/ 3)(2 /11) 118


Resulta evidente que la suma de los tres casos es la unidad.

5. Se lanza una moneda y, si sale cara, se mete una bola negra en una urna; si sale cruz, se mete
   en la urna una bola blanca. Se hace esta operación cuatro veces. A continuación otra persona
   saca dos bolas simultáneamente de la urna, que resultan ser negras. ¿Cuál es la probabilidad de
   que en la urna hubiera dos bolas blancas y dos negras?


RESPUESTA 5.

Debido al método utilizado para llenar la urna, existen cinco posibilidades para la distribución
final del color de las cuatro bolas, y se puede calcular la probabilidad de que se produzca cada
una de las distribuciones de colores. Son las siguientes:

Grupos de 4 bolas blancas (B1) = 4!/4!0! = 1
Grupos de 3 blancas y una negra (B2) = 4!/3!1! = 4
Grupos de 2 blancas y 2 negras (B3) = 4!/2!2! = 6
Grupos de 1 blanca y 3 negras (B4) = 4!/1!3! = 4
Grupos de 4 bolas negras (B5) = 4!/0!4! = 1

En total tenemos 2n = 24 = 16 grupos, por lo que las probabilidades respectivas son:
P(B1) = 1/16 ; P(B2) = 4/16 ; P(B3) = 6/16 ; P(B4) = 4/16 ; P(B5) = 1/16.

En el caso que estamos considerando, el suceso A (sacar dos bolas negras) no puede ocurrir con
los antecedentes B1, y B2, por lo que las probabilidades condicionadas P(A/B1) y P(A/B2) tienen
que ser nulas. Las otras tres probabilidades condicionadas se calculan como sigue: para la
primera tenemos 1 caso favorable y 6 casos posibles que resultan del número de combinaciones
de 4 elementos tomados de 2 en 2. Así pues:
P(A/B3) = 1/C(4, 2) = 1/6
Para la segunda y tercera, por una deducción análoga tenemos
P(A/B4) = C(3, 2)/C(4, 2) = 1/2 ; P(A/B5) = C(4, 2)/C(4, 2) = 1




                                                                                              149
            Por lo tanto, la probabilidad buscada viene dada por la fórmula de Bayes




6. Un avión cubre diariamente el servicio entre dos ciudades. Suponemos que la probabilidad de
   accidente en día sin niebla es 0.002 y en día con niebla 0.01. Cierto día de un mes que hubo 18
   días sin niebla y 12 con niebla se produjo un accidente. Calcular la probabilidad de que el
   accidente haya ocurrido: a) en día sin niebla; b) en día con niebla.

RESPUESTA 6.

Sea A1 el suceso "día sin niebla"; A2 el suceso "día con niebla" y B el suceso "ocurrir accidente".
Se tiene:




y aplicando la fórmula de Bayes:




7. Un avión con tres bombas trata de destruir una línea férrea. La probabilidad de destruir la línea
   con cualquiera de las bombas es 1/3. ¿Cual es la probabilidad de que la línea quede destruida
   si el avión emplea las tres bombas?


RESPUESTA 7.

.) Denotemos por Ai al suceso de que la bomba i destruya la línea férrea; se tiene:
P(A i) = p = 1/3, con i = 1, 2, 3.
Si A es el suceso de que la línea quede destruida podemos escribir:




                                                                                                150
De ese modo, la probabilidad de que la línea quede destruida es de 19/27.
..) El problema se puede resolver también como sigue: Sea B i el suceso de que la bomba i no
destruya la línea, y B el suceso de que la línea no se destruya.
Se tiene:



Como los sucesos B 1, B 2 y B 3 son independientes, resulta:
P(B) = P(B 1 ).P(B 2 ).P(B 3 ) = (2/3) (2/3) (2/3)= 8/27 y la probabilidad de que la línea quede
destruida vendrá dada por :

P(A) = 1 – P(B) = 1 – (8/27) = 19/27 y evidentemente, este resultado coincide con el anterior.

8. Se hace un disparo con cada uno de tres cañones (A, B y C), siendo la probabilidad de hacer
blanco 0.1, 0.2 y 0.3, respectivamente. Calcúlese la probabilidad de cada uno de los números
posibles de blancos. Calcular la probabilidad de obtener al menos un blanco.


RESPUESTA 8.

Los números posibles de blancos son:
a) 3 si se hace blanco con cada uno de los cañones.
b) 2 si se falla en un disparo.
c) 1 si se fallan dos disparos
d) 0 si se fallan los tres disparos.

En el caso (a), la probabilidad de acertar en todos los disparos vendrá dada como el producto de
las probabilidades independientes de acertar cada disparo, es decir:

P( A  B  C ) = P(A).P(B).P(C) = (0.1)*(0.2)*(0.3) = 0.006

En el caso b) tenemos:
1ª) Probabilidad de acertar A y B fallando C:
P(A) .P(B) .P(C) = P(A) .P(B)[ 1 – P(C)] = 0.1 x 0.2 x 0.7 = 0.014

2ª) Probabilidad de acertar A y C fallando B :
P(A).P(B').P(C) = F(A)[1 - P(B)]P(C) = 0.1 x 0.8 x 0.3 = 0.024

3ª) Probabilidad de acertar B y C fallando A :
P(A').P(B).P(C) = [1 - P(A)P(B).P(C) = 0.9 x 0.2 x 0.3 = 0.054

Así, la probabilidad total de fallar un disparo es:
0.014 + 0.024 + 0.054 = 0.092




                                                                                                   151
En el caso (c) tenemos varias posibilidades:

1ª) Probabilidad de acertar A y fallar B y C:
P(A).P(B').P(C') = P(A)[1 - P(B)][1 - P(C)] = 0.1 x 0.8 x 0.7 = 0.056

2ª) Probabilidad de acertar B y fallar A y C:
P(A').P(B).P(C') = [1 - P(A)]P(B)[1 – P(C)] = 0.9 x 0.2 x 0.7 = 0.126

3ª) Probabilidad de acertar C y fallar A y B:
P(A') .P(B') .P(C) = [1 - P(A)] [1 - P(B)] P(C) = 0.3 x 0.9 x 0.8 = 0.126

Así pues, la probabilidad total de fallar dos disparos será:
0.056 + 0.126 + 0.216 = 0.392

Caso d)
Puesto que cada disparo es independiente de los otros dos, la probabilidad de fallar en todos
vendrá dada por el producto de las probabilidades respectivas de fallo, es decir
P( A´B´C´) = P(A').P(B').P(C') = [1 - P(A)][1 - P(B)][1 – P(C)] = 0.9x0.8x0.7 = 0.504


9. Distribuimos al azar r bolas en n celdas. Hallar la probabilidad de que una celda especificada a
priori tenga exactamente k bolas.

10. De una urna que contiene b bolas blancas y n bolas negras se extrae k bolas al azar (sin
remplazamiento). Calcular la probabilidad de que exactamente x de ellas sean blancas.

11. De los 30 temas de un examen, un alumno sabe 18. Le proponen dos tipos de examen: Los
miembros del tribunal eligen 3 temas y debe contestar dos; o bien el tribunal elige 5 temas y debe
contestar 3 de ellos. ¿Cuál es el examen más favorable para el alumno?

12. Una persona ha comprado 40 billetes de una lotería de 100 números. Si la lotería consta de
tres premios. ¿Cuál es la probabilidad de que gane sólo un premio? ¿Al menos uno? ¿Ninguno?

13. Una caja contiene 90 piezas buenas y 10 defectuosas. Sacamos 10 piezas aleatoriamente.
Calcular la probabilidad de que entre esas 10 piezas no haya ninguna defectuosa. Idem que haya k
defectuosas.

14. Un grupo de diez concejales son elegidos al azar de un total de 50 municipios para formar una
comisión. Suponiendo que cada municipio tiene dos concejales, ¿Cuál es la probabilidad de que
los dos concejales de cierto municipio estén en dicha comisión? ¿Y de que ninguno esté?

*15. En una urna se introducen n bolas, cada una de las cuales pueden ser blanca o negra con
probabilidades iguales. A continuación se extraen k bolas con remplazamiento. ¿Cuál es la
probabilidad de que la urna contenga sólo bolas blancas si las k extraídas han resultado ser
blancas?



                                                                                                152
*16. Una secretaria ha escrito n cartas con sus correspondientes n sobres. Se introduce al azar las
cartas en los sobres, ¿Cuál es la probabilidad de que al menos una carta vaya a parar a su
correspondiente sobre? Hallar el valor de esta probabilidad cuando n tiende a infinito.

** 17. La probabilidad de que un árbol de una cierta variedad de mangos tenga n flores es
(1  p )n p (n=0, 1, 2, 3, 4, . . .) . Cada flor tiene una probabilidad de 2/3 de ser fecundada y dar
fruto, independientemente del resto de las flores del árbol. Cada fruto tiene probabilidad ¼ de ser
picado por los pájaros antes de la cosecha. Se desea: a) obtener la probabilidad de que una flor
produzca fruto cosechable; b) Calcular la probabilidad de que un árbol que tiene r frutos haya
tenido n flores.



7.9.2. Hoja 4. Ejercicios de probabilidad (Repaso, Capítulo 6 y 7)

   1. ¿De cuántas maneras pueden sentarse 10 personas en un banco si hay 4 sitios disponibles?
   2. Hay que colocar a 5 hombres y 4 mujeres en una fila de modo que las mujeres ocupen los
       lugares pares. ¿De cuántas maneras puede hacerse?
   3. ¿Cuántos números de 4 dígitos se pueden formar con las cifras 0,1,. . . ,9. a) permitiendo
       repeticiones; b) sin repeticiones.
   4. ¿Cuál es el mínimo número de alumnos que debe tener una clase para garantizar una
       probabilidad 0.5 de que el día de cumpleaños de algún alumno coincida con el día de
       cumpleaños del rector de la universidad? Se asume que los años son de 365 días.
   5. Un banco ha comprobado que la probabilidad de que un cliente con fondos extienda un
       cheque con fecha equivocada es de 0.001. En cambio, todo cliente sin fondos pone una
       fecha errónea en sus cheques. El 90% de los clientes del banco tienen fondos. Se recibe
       hoy en caja un cheque con fecha equivocada. ¿Qué probabilidad hay de que sea de un
       cliente sin fondos?
   6. *En una bolsa hay cinco bolas, blancas o negras. Se extrae una bola y es blanca. Hállese
       la probabilidad de que en la bolsa haya dos blancas y tres negras si para formar la urna se
       tiraron cinco monedas y se metieron tantas blancas como caras resultaron y tantas negras
       como cruces.
   7. *Una urna contiene cinco dados con sus caras de color blanco o rojo. El dado número i (i
       = 1; 2; 3; 4; 5) tiene i de sus caras blancas y el resto rojas. Se selecciona al azar un dado
       de la urna, se lanza y sale cara roja. ¿Cuál es la probabilidad de que el dado seleccionado
       sea el i?
   8. Dos personas lanzan una moneda n veces cada una. ¿Cuál es la probabilidad de que
       obtengan el mismo número de caras?
   9. Se tiene un examen con 10 preguntas con respuesta dicotómicas (V/F). El examen se
       aprueba cuando se aciertan 6 ó más preguntas. Calcular la probabilidad de aprobar el
       examen dado que no se sabe ninguna pregunta.
   10. Una moneda tiene probabilidad p de caer cara. Hallar la probabilidad de que al tirar esta
       moneda 11 veces se obtenga la sexta cara en la undécima tirada.
   11. N bolas se reparten al azar en n celdas (N>n). ¿Cuál es la probabilidad de que todas las
       celdas queden ocupadas?


                                                                                                 153
12. *Un examen de oposición consta de 14 temas. Se debe escoger un tema de entre dos
    tomados al azar. Calcular la probabilidad de que a un alumno que ha preparado 5 temas le
    toque al menos uno que sabe. ¿Cuál es el número mínimo de temas que debe preparar
    para que tenga una probabilidad superior a 1/2 de superar el examen?
13. Obtener la probabilidad p de que al lanzar n veces dos dados se obtenga al menos un 6
    doble. ¿Cuántas partidas habrá que jugar para que tengamos p = 1/2 de obtener un 6
    doble?

14. N parejas se reúnen y se emparejan al azar para bailar. Calcular la probabilidad de que
    ninguna baile con su pareja.
15. *Cuatro ciudades (1,2,3 y 4) están interconectadas, un transportista realiza viajes de
    manera que: a) La probabilidad de ir de la ciudad 1 a la i (i=1, 2, 3, 4) es  .d (1 i ),  
                                                                                        ,
    y d(1,i)=|i-1| y la suma de estas probabilidades es 1. b) La probabilidad de ir de la ciudad
    2 a la j (j=1, 2, 3,4) es  .d (2, j ),   y d(2,j)=|j-2| y la suma de estas probabilidades
    es 1. c) La probabilidad de ir de la ciudad 3 a la k (k=1, 2, 3, 4) es  .d (3, k ),   y
    d(3,k)=|k-3| y la suma de estas probabilidades es 1. Si el transportista sale de la ciudad 1,
    ¿Cuál es la probabilidad de llegar por primera vez a la ciudad 4 sin haber regresado a la
    ciudad de partida?
16. El profesor Pérez olvida poner su despertador 3 de cada 10 días. Además, ha comprobado
    que uno de cada 10 días en los que pone el despertador acaba no levandandose a tiempo
    de dar su primera clase, mientras que 2 de cada 10 días en los que olvida poner el
    despertador, llega a tiempo a dar su primera clase.
    a) ¿Cuál es la probabilidad de que el profesor Pérez llegue a tiempo a dar su primera
        clase?
    b) Si un día no ha llegado a tiempo, ¿qué probabilidad hay de que olvidase poner el
        despertador la noche anterior?

17. Un banco local revisa su política de tarjetas de crédito, con el objetivo de cancelar algunas
    de ellas. En el pasado, el 5% de los clientes con tarjeta ha pasado a ser moroso, esto es ha
    dejado de pagar sin que el banco pudiera recuperar la deuda. Además, el banco ha
    comprobado que la probabilidad de que un cliente normal se atrase en un pago es de 0.2.
    Naturalmente, la probabilidad de que un cliente moroso se atrase en un pago es 1.
a) Elegido un clienta al azar, ¿qué probabilidad hay de que el cliente se atrase en un pago
    mensual?
b) Si un cliente se atrasa en un pago mensual, calcular la probabilidad de que el cliente acabe
    convirtiéndose en moroso.
c) Al banco le gustaría cancelar la línea de crédito de un cliente si la probabilidad de que éste
    acabe convirtiéndose en moroso es mayor de 0.25. De acuerdo con los resultados
    anteriores, ¿debe cancelar una línea si un cliente se atrasa en un pago? ¿Por qué?
18. *En un pueblo de n + 1 habitantes, una persona le rumorea algo a una segunda persona,
    quien lo repite a una tercera, etc. En cada paso se elige aleatoriamente al receptor del
    rumor de entre n personas. Encontrar la probabilidad de que el rumor pase r veces sin: a)
    Regresar al que lo originó y b) Repetírsele a una persona.




                                                                                             154
Capítulo 8. Variables aleatorias y distribuciones de
probabilidad
8.1. Nociones básicas
Para introducir el concepto de variable aleatoria, veamos primero algunos ejemplos, al arrojar dos
dados, sabemos que la suma X de los puntos que caen hacia arriba debe ser un número entero
entre 2 y 12, pero no podemos predecir que valor de X aparecerá en el siguiente ensayo, por lo
que decimos que X depende del azar, por lo tanto es una variable aleatoria que toma valores entre
2 y 12. El tiempo de vida de un foco que se extrae aleatoriamente de un lote de focos depende
también del azar, este constituye otro ejemplo de una variable aleatoria que varía entre el tiempo
0 y un valor indeterminado, ya que no sabemos exactamente cuánto tiempo va durar. El número
de varones de una familia con 5 hijos también es una variable aleatoria que varía de 0 a 5, ya que
en una familia de cinco hijos puede que no haya ningún varón, uno, dos, tres, cuatro o cinco
varones.

Si las observaciones no se dan en términos numéricos, podemos asignarles números y reducir las
observaciones cualitativas al caso cuantitativo; así tenemos que la función que asigna valores
numéricos a cada uno de los elementos del espacio muestra con una probabilidad definida, se
denomina "variable aleatoria".

Por ejemplo, si se lanza una moneda 3 veces, el número de águilas X es una variable aleatoria
que toma los valores 0, 1, 2, ó 3; es decir puede que ninguna vez, una sola, dos o tres veces salga
águila como resultado; la probabilidad de que          (dos águilas) es 3/8 ya que el espacio muestra
S={aaa, aas, asa, ass, sas, ssa, saa, sss}. Y de estos ocho resultados hay tres en los cuales hay dos
águilas. Con esto podemos ver que el espacio muestral es el dominio de la función y el conjunto
de valores que la variable puede tomar es el rango o recorrido de la función, que es un
subconjunto de los reales .




                                       Fig.3.1. Variable aleatoria

 Si el conjunto de valores de X es un conjunto finito o infinito numerable, es decir, si se pueden
enlistar o enumerar, se dice que la variable aleatoria es discreta, y si el conjunto de valores de X
es no numerable, la variable aleatoria se llama variable aleatoria continua. Son ejemplos de
variables aleatorias continuas: la estatura, el peso, la edad, el volumen, el pH, etc. Algunos
ejemplos de variables discretas aleatorias son: el número de alumnos que asisten diariamente
durante un semestre, el número de accidentes automovilísticos en una ciudad por día, el número
de piezas defectuosas por lote, el número de alumnos aprobados por grupo en un examen, etc.


                                                                                                 155
            Una variable aleatoria X es una función cuyo dominio es el espacio muestral S y cuyo
            rango es un subconjunto de los números reales    que tiene asociada a su conjunto de
            valores una función de probabilidad.


Matemáticamente, decimos: Dado un espacio de probabilidad (  ,  ,Pr), una variable aleatoria
es cualquier función, X,

                               X : 
                                 w  X ( w)
que asocia a cada suceso elemental un número real, verificando que
                     PrX ( B)  Pr[ X  B]  Pr w  / X (w)  B B 

El conjunto   S es el espacio muestral y  es la colección de todos los subconjuntos de  .

Identificación de una variable aleatoria discreta X: es preciso conocer el conjunto de los
posibles resultados de X:
         {x1, x2, …,xk, …}, donde los xi no necesariamente son todos enteros, pero si se pueden
contar o numerar.

El conjunto de las probabilidades siguientes:
p1 = P(X = x1)
p2 = P(X = x2)
...
Pk = P(X = xk)
...

Propiedades importantes de la función de probabilidad:
a) pi ≥0 para todo i
b) ∑pi = 1 para todo i

La representación gráfica de la función de probabilidad de una variable aleatoria discreta es
análoga al diagrama de barras de frecuencias relativas de una variable estadística discreta.
La función de distribución de una variable aleatoria discreta X es:

                        FX (t )  P( X  t )   Pr( xi ) para todo t 
                                               xi t


La representación gráfica de la función de distribución de una variable aleatoria discreta es
análoga al gráfico de frecuencias relativas acumuladas de una variable estadística discreta.
La media de una variable aleatoria discreta X es:
                                   µ = E(X) = ∑xi pi , para todo i.

La varianza de una variable aleatoria discreta X es:
                              σ2= Var(X) = ∑(xi-µ)2pi, para todo i
La desviación típica de una variable aleatoria discreta X es:
                                          σ = (Var(X))1/2

                                                                                                   156
Ejemplo 8.1. Supongamos que la Secretaría del Medio Ambiente inspecciona una vez al mes la
cantidad de un contaminante que descarga una compañía de productos químicos. Si la cantidad
del contaminante excede el nivel máximo permitido, se multa a la compañía y se le obliga a
corregir el problema. Consideremos las siguientes dos variables aleatorias asociadas a este
problema:
Primero digamos que X es el número de meses antes de que la compañía excede los límites
permitidos del contaminante. Esta variable toma valores 1, 2, 3, … pero no conocemos donde
termina, ya que quizás nunca exceda estos límites permitidos, por lo tanto, el conjunto de valores
de X es el conjunto de los números enteros positivos. Como podemos enlistar o numerar el
conjunto (es un conjunto numerable) de valores de la variable X, decimos que la variable
aleatoria X es una variable aleatoria discreta.

Ejemplo 8.2. Supongamos que nos interesamos por el número de varones X en el experimento de
observar al azar dos niños recién nacidos (Sea H = hombre y M = mujer). Entonces, el espacio
muestra, los valores de la variable aleatoria X que cuenta el número de varones y su función de
probabilidad se dan en la siguiente tabla:

                               S         Valores de X:
                                              xi

                             MM                0


                           MH , HM             1


                              HH               2




Ejemplo 8.3. Sea X la variable aleatoria que indica la suma de los puntos en las caras superiores
al lanzar dos dados, Determine el espacio muestral, el conjunto de valores de X y las
probabilidades respectivas.
Solución: El espacio muestral S es el conjunto de los 36 pares ordenados que se indican a
continuación:




                                                                                              157
Este conjunto se puede visualizar como el conjunto de puntos del plano cartesiano que se muestra
a continuación




                    Fig. 3.2 Diagrama del Espacio Muestral del lanzamiento de dos dados
La variable aleatoria es la suma de los elementos de cada par, por lo tanto, toma los valores del 2
al 12,                                y las probabilidades para cada uno de los valores de la variable se
indican en la siguiente tabla:
                             S                     Valores de X : xi


                           (1,1)                          2


                        (1,2) (2,1)                       3


                     (1,3) (3,1) (2,2)                    4


                  (1,4) (4,1) (2,3) (3,2)                 5


               (1,5) (5,1) (2,4) (4,2) (3,3)              6


             (1,6) (6,1) (2,5) (5,2) (3,4) (4,3)          7


               (2,6) (6,2) (3,5) (5,3) (4,4)              8


                  (3,6) (6,3) (4,5) (5,4)                 9


                     (4,6) (6,4) (5,5)                    10


                        (5,6) (6,5)                       11


                           (6,6)                          12



                                                                Total:



                                                                                                     158
La gráfica de líneas para este ejemplo es:




                                   Fig. 3.3. Gráfico de probabilidad




8.2. Distribución de probabilidad binomial
La distribución binomial es típica de las variables que proceden de un experimento que cumple
las siguientes condiciones:

1) El experimento está compuesto de n pruebas iguales, siendo n un número natural fijo.
2) Cada prueba resulta en un suceso que cumple las propiedades de la variable binómica o de
   Bernouilli, es decir, sólo existen dos posibles resultados, mutuamente excluyentes, que se
   denominan generalmente como éxito y fracaso.
3) La probabilidad del éxito (o del fracaso) es constante en todas las pruebas. P(éxito) = p ;
   P(fracaso) = 1 - p = q
4) Las pruebas son estadísticamente independientes.

En estas condiciones, la variable aleatoria X que cuenta el número de éxitos en las n pruebas se
llama variable binomial. Evidentemente, el espacio muestral está compuesto por los números
enteros del 0 al n. Se suele decir que una variable binómica cuenta objetos de un tipo
determinado en un muestreo de n elementos con reemplazamiento.

La función de probabilidad de la variable binomial se representa como b(x,n,p) siendo n el
número de pruebas y p la probabilidad del éxito, n y p son los parámetros de la distribución.



                                                                                            159
La función de probabilidad de una variable Binomial es:




La media y la varianza de la variable binomial se calculan como:

                             Media = μ = n p       (verificarla)

                             Varianza = σ2 = n p q (verificarla)

Gráficamente el aspecto de la distribución depende de n y de p. Por ejemplo, si p=0.5 y n
cualquiera es simétrica; si p n es 0.5, la binomial no es siméttrica. El siguiente gráfico lo ilustra
para n=4.

ASPECTO DE LA BINOMIAL PARA n=4 Y p=0.5 Y p=0.25.




                             Fig. 3.4. Gráficos de probabilidad binomial.


Ejemplo 8.4. Se sabe que el 5% de los libros que se prestan en una biblioteca escolar se
devuelven con retraso. Se realiza el experimento que consiste en observar si la devolución de 5
libros se hacen con retraso o no.
a) Determinar la función de probabilidad y hacer su representación gráfica.
b) Calcular la función de distribución y hacer su representación gráfica.
c) Hallar la media y la varianza.

Solución:
X= Variable aleatoria = Número de devoluciones con retrazo.
X=0,1,2,3,4,5.
a) El Modelo o función de probabilidad es
                                          5 
                 b( x, n  5, p  0.05)    0.04 x (1  0.05)5 x , x  0,1, 2,3, 4,5
                                           x

                                                                                                 160
             0, t  0
             0.7738, 0  t  1
             
             0.9774, 1  t  2
             
b) FX (t )  0.9988, 2  t  3
             1      , 3t 4
             
             1      , 4t5
             1      , t5
             


                             Gráfico de la función de distribución




                                Fig. 3.5. Gráfico de la Función de distribución



       E[ X ]  np  5(0.05)  0.25
c)
      2  V [ X ]  npq  5(0.05)(0.95)  0.2375



8.3. Distribución de Poisson

Una variable de tipo Poisson cuenta éxitos (es decir, objetos de un tipo determinado) que ocurren
en una región del espacio o del tiempo.
En este tipo de experimentos los éxitos buscados son expresados por unidad de área, tiempo,
pieza, etc, etc. Ejemplos:
- Número de defectos de una tela por m2
- Número de aviones que aterrizan en un aeropuerto por día, hora, minuto, etc, etc.
- Número de bacterias por cm2 de cultivo
- Número de llamadas telefónicas a un conmutador por hora, minuto, etc, etc.
- Número de llegadas de embarcaciones a un puerto por día, mes, etc, etc.

                                                                                             161
El experimento que la genera debe cumplir las siguientes condiciones:

1. El número de éxitos que ocurren en cada región del tiempo o del espacio es independiente de
   lo que ocurra en cualquier otro tiempo o espacio disjunto del anterior.
2. La probabilidad de un éxito en un tiempo o espacio pequeño es proporcional al tamaño de
   este y no depende de lo que ocurra fuera de él.
3. La probabilidad de encontrar uno o más ‘éxitos en una región del tiempo o del espacio tiende
   a cero a medida que se reducen las dimensiones de la región en estudio.


Como consecuencia de estas condiciones, las variables Poisson típicas son variables en las que se
cuentan sucesos raros.
 La función de probabilidad de una variable Poisson es:




El parámetro de la distribución es λ que es igual a la media y a la varianza de la variable.

                                    µ=E[X]= λ       (verificarlo)

                                σ2=V[X]= λ      (verificarlo)

La distribución de Poisson se puede considerar como el límite al que tiende la distribución
binomial cuando n tiende a         y p tiende a 0, siendo np constante (y menor que 7); en esta
situación sería difícil calcular probabilidades en una variable binomial y, por tanto, se utiliza una
aproximación a través de una variable Poisson con media   np .

La varianza de la variable aproximada es ligeramente superior a la de la variable binomial




Las variables Poisson cumplen la propiedad de que la suma de variables Poisson independientes
es otra Poisson con media igual a la suma las medias.

El aspecto de la distribución depende muchísimo de la magnitud de la media. Como ejemplo,
mostramos tres casos con λ = 0,5 (arriba a la izquierda), λ = 1,5 (arriba a la derecha) y λ = 5
(abajo) Obsérvese que la asimetría de la distribución disminuye al crecer λ y que, en paralelo, la
gráfica empieza a tener un aspecto acampanado.




                                                                                                 162
                        Fig. 3.6. Gráficos de probabilidad de Poisson.

Ejemplos:

Ejemplo 8.5. Si un banco recibe en promedio 6 cheques sin fondo por día, ¿cuáles son las
probabilidades de que reciba, a) cuatro cheques sin fondo en un día dado, b) 10 cheques sin
fondos en cualquiera de dos días consecutivos?

Solución:
a) x = variable que nos define el número de cheques sin fondo que llegan al banco en un día
cualquiera = 0, 1, 2, 3, ....., etc, etc.
 = 6 cheques sin fondo por día


                                         ( 6 )4 ( 2.718 )6 ( 1296 )( 0.00248 )
                    p( x  4,  6 )                                           0.13392
                                                  4!                24
b)
x= variable que nos define el número de cheques sin fondo que llegan al banco en dos días
consecutivos = 0, 1, 2, 3, ......, etc., etc.
 = 6 x 2 = 12 cheques sin fondo en promedio que llegan al banco en dos días consecutivos


                                                                                            163
Nota:  siempre debe de estar en función de x siempre o dicho de otra forma, debe “hablar” de lo
mismo que x.

                                   ( 12 )10 ( 2.718 )12 ( 6.1917364 10 )( 0.000006151 )
           p( x  10 ,  12 )                                                           0.104953
                                             10!                     3628800

Ejemplo 8.6. En la inspección de hojalata producida por un proceso electrolítico continuo, se
identifican 0.2 imperfecciones en promedio por minuto. Determine las probabilidades de
identificar a) una imperfección en 3 minutos, b) al menos dos imperfecciones en 5 minutos, c)
cuando más una imperfección en 15 minutos.

Solución:
a) x = variable que nos define el número de imperfecciones en la hojalata por cada 3 minutos =
0, 1, 2, 3, ...., etc., etc.
 = 0.2 x 3 =0.6 imperfecciones en promedio por cada 3 minutos en la hojalata



                                      ( 0.6 )1( 2.718 )0.6 ( 0.6 )( 0.548845 )
           p( x  1,  0.6 )                                                  0.329307
                                                1!                    1
b) x = variable que nos define el número de imperfecciones en la hojalata por cada 5 minutos =
0, 1, 2, 3, ...., etc., etc.
 = 0.2 x 5 =1 imperfección en promedio por cada 5 minutos en la hojalata

                                                                      ( 1 )0 ( 2.718 )1 ( 1 )( 2.718 )1 
                              
           p( x  2,3,4,etc....  1 )  1  p( x  0,1,  1 )  1  
                                                                                                         
                                                                                                           
                                                                                0!               1!       

             =1-(0.367918+0.367918) = 0.26416

c)    x = variable que nos define el número de imperfecciones en la hojalata por cada 15 minutos
= 0, 1, 2, 3, ....., etc., etc.
 = 0.2 x 15 = 3 imperfecciones en promedio por cada 15 minutos en la hojalata


                                                                         ( 3 )0 ( 2.718 )3 ( 3 )1( 2.718 )3
           p( x  0,1,  3 )  p( x  0,  3 )  p( x  1,  3 )                                         
                                                                                  0!                1!

                               = 0.0498026 + 0.149408 = 0.1992106




                                                                                                         164
8.4. Distribución geométrica
Esta distribución es un caso especial de la Binomial, ya que se desea que ocurra un éxito por
primera y única vez en el último ensayo que se realiza del experimento, para obtener la fórmula
de esta distribución, haremos uso de un ejemplo.

Ejemplo 8.7. Se lanza al aire una moneda cargada 8 veces, de tal manera que la probabilidad de
que aparezca águila es de 2/3, mientras que la probabilidad de que aparezca sello es de 1/3,
Determine la probabilidad de que en el último lanzamiento aparezca una águila.

Solución: Si nosotros trazamos un diagrama de árbol que nos represente los 8 lanzamientos de la
moneda, observaremos que la única rama de ese árbol que nos interesa es aquella en donde
aparecen 7 sellos seguidos y por último una águila; como se muestra a continuación:

SSSSSSSA

Sí denotamos;

x = el número de repeticiones del experimento necesarias para que ocurra un éxito por primera y
única vez = 8 lanzamientos

p = probabilidad de que aparezca una águila = p( éxito) = 2/3

q = probabilidad de que aparezca un sello = p(fracaso) = 1/3

Entonces la probabilidad buscada sería;

P(aparezca una águila en el último lanzamiento)=p(S)*p(S)*p(S)*p(S)*p(S)*p(S)*p(S)*p(A) =

=q*q*q*q*q*q*q*p = qx-1p

Luego, la fórmula a utilizar cuando se desee calcular probabilidades con esta distribución sería;

                      p( x)  q x 1 p

Donde:

p(x) = probabilidad de que ocurra un éxito en el ensayo x por primera y única vez

p = probabilidad de éxito

q  1  p = probabilidad de fracaso


                                                                                               165
Resolviendo el problema de ejemplo;

x = 8 lanzamientos necesarios para que aparezca por primera vez una águila

p = 2/3 probabilidad de que aparezca una águila

q = 1/3 probabilidad de que aparezca un sello

p(x=8) = (1/3)8–1(2/3)= 0.0003048

Ejemplo 8.8. Sí la probabilidad de que un cierto dispositivo de medición muestre una desviación
excesiva es de 0.05, ¿cuál es la probabilidad de que; a) el sexto de estos dispositivos de medición
sometidos a prueba sea el primero en mostrar una desviación excesiva?, b) el séptimo de estos
dispositivos de medición sometidos a prueba, sea el primero que no muestre una desviación
excesiva?.

Solución:

a) x = 6 que el sexto dispositivo de medición probado sea el primero que muestre una variación
excesiva

p = 0.05 =probabilidad de que un dispositivo de medición muestre una variación excesiva

q = 0.95 =probabilidad de que un dispositivo de medición no muestre una variación excesiva

p(x = 6) = (0.95)6–1(0.05)= 0.03869

b) x = 7 que el séptimo dispositivo de medición probado, sea el primero que no muestre una
desviación excesiva

p = 0.95 = probabilidad de que un dispositivo de medición no muestre una variación excesiva

q = 0.05 = probabilidad de que un dispositivo de medición muestre una variación excesiva
                            p(x = 7) = (0.05)7–1(0.95)= 0.0000000148



8.5. Distribución hipergeométrica
Una variable tiene distribución hipergeométrica si procede de un experimento que cumple las
siguientes condiciones:


                                                                                               166
     1)   Se toma una muestra de tamaño n, sin reemplazamiento, de un conjunto finito de N
        objetos.
     2) K de los N objetos se pueden clasificar como éxitos y N - K como fracasos.
X cuenta el número de éxitos obtenidos en la muestra. Los valores de X en el espacio muestral es
el conjunto de los números enteros de 0 a n, ó de 0 a K si K < n.
En este caso, la probabilidad del éxito en pruebas sucesivas no es constante pues depende del
resultado de las pruebas anteriores. Por tanto, las pruebas no son independientes entre sí.
La función de probabilidad de la variable hipergeométrica es:




          Los parámetros de la distribución son n, N y K.

                    n                n!
          Notacion:    n Cr                .
                    r          r ! n  r !

          Los valores de la media y la varianza se calculan según las ecuaciones:




                                                   (verificarlas)

 Si n es pequeño, con relación a N (n << N), la probabilidad de un éxito varia muy poco de una
prueba a otra, así pues, la variable, en este caso, es esencialmente binomial; en esta situación, N
suele ser muy grande y los números combinatorios se vuelven prácticamente inmanejables, así
pues, la probabilidades se calculan más cómodamente aproximando por las ecuaciones de una
binomial con p = K / N.
La media de la variable aproximada (μ = n p = n (K / N)) es la misma que la de la variable antes
de la aproximación; sin embargo, la varianza de la variable binomial es ligeramente superior a la
de la hipergeométrica.




el factor por el que difieren ser siempre menor que 1 y tan próximo a 1 como cierto sea que n <<
N.



                                                                                               167
El aspecto de la distribución es bastante similar al de la binomial. Como ejemplo, mostramos los
casos análogos a los de la binomial presentados anteriores.




                       Fig.3.7. Gráficos de probabilidad hipergeométrica

Ejemplo 8.9. Para evitar que lo descubran en la aduana, un viajero ha colocado 6 tabletas de
narcótico en una botella que contiene 9 píldoras de vitamina que son similares en apariencia. Si el
oficial de la aduana selecciona 3 tabletas aleatoriamente para analizarlas, a) ¿Cuál es la
probabilidad de que el viajero sea arrestado por posesión de narcóticos?, b) ¿Cuál es la
probabilidad de que no sea arrestado por posesión de narcóticos?.

Solución:
   a) N = 9+6 =15 total de tabletas
   a = 6 tabletas de narcótico
   n = 3 tabletas seleccionadas
   x = 0, 1, 2, o 3 tabletas de narcótico = variable que nos indica el número de tabletas de
   narcótico que se puede encontrar al seleccionar las 3 tabletas

   p(viajero sea arrestado por posesión de narcóticos) = p(de que entre las 3 tabletas
   seleccionadas haya 1 o más tabletas de narcótico)

                                                              C1* 9 C2 6 C2* 9 C1 6 C3* 9 C0
                       p( x  1,2ó3tabletas; n  3 )    6
                                                                                           
                                                               15 C3      15 C3      15 C3



                          ( 6 )( 36 ) ( 15 )( 9 ) ( 20 )(1 ) 216  135  20 371
                                                                             0.81538
                             455         455         455          455        455

   otra forma de resolver;
   p(el viajero sea arrestado por posesión de narcóticos) = 1 – p(de que entre las tabletas
   seleccionadas no haya una sola de narcótico)

                                                                  C0* 9 C3
                               1  p( x  0; n  3 )  1    6
                                                                           
                                                                   15 C3



                                     ( 1 )( 84 )
                               1                0.184615  0.815385
                                        455

                                                                                                 168
   b) p(no sea arrestado por posesión de narcóticos)

                                              C0* 9 C3
                  p( x  0; n  3 )     6
                                                       
                                               15 C3



                                         ( 1 )( 84 )
                                                     0.184615
                                            455

Ejemplo 8.10. De un lote de 10 proyectiles, 4 se seleccionan al azar y se disparan. Si el lote
contiene 3 proyectiles defectuosos que no explotarán, ¿cuál es la probabilidad de que , a) los 4
exploten?, b) al menos 2 no exploten?

Solución:

a) N = 10 proyectiles en total
a = 7 proyectiles que explotan
n = 4 proyectiles seleccionados
x = 0, 1, 2, 3 o 4 proyectiles que explotan = variable que nos define el número de proyectiles que
explotan entre la muestra que se dispara

                                                  C4* 3 C0 ( 35 )(1 ) 35
                       p( x  4; n  4 )     7
                                                                          0.16667
                                                   10 C4      210      210

 b) N = 10 proyectiles en total
 a = 3 proyectiles que no explotan
 n = 4 proyectiles seleccionados
 x = 0, 1, 2 o 3 proyectiles que no explotan

p(al menos 2 no exploten) = p( 2 o más proyectiles no exploten) = p(x = 2 o 3; n=4) =

                     C2* 7 C2  3 C3* 7 C1 ( 3 )( 21 )  ( 1 )( 7 ) 63  7    70
                3
                                                                               0.333333
                            10 C4                   210              210     210


8.6. Densidad uniforme
La función de densidad de probabilidad de una variable aleatoria con distribución uniforme
continua se denota por X  U (a, b) y su función de densidad es:




                                                                                               169
Su gráfico es:




Tiene las siguientes propiedades:

                               1. f ( x)  0 x 
                               2. Toda el área entre f ( x) y el eje x es 1

La probabilidad de un intervalo [a,x] con x  (a, b] , se puede calcular sin usar la integral:



               1
              ba



                    a      x               b

                                                  1
es el área del rectángulo de base x-a y altura       entre el área de todo el rectángulo de base b-a
                                                 ba
            1
y altura       . Este hecho se puede usar para calcular la función de distribución.
           ba

La función de distribución de probabilidad es:




                                                                                                 170
La gráfica de la función de distribución es:




El valor esperado de la X  U (a, b) es:

                                                    b    1        1 b
                       E[ X ]   xf ( x)dx  x             dx      a xdx
                                                   a   ba      ba
           b
Pero   
       a
               xdx   es el área comprendida entre la función g ( x)  x en el intervalo de [a,b]

                                                            f(x)




                                                 B

                           A
                            a              b
                                                                                                   171
                                       A B    ab
el cual es un trapecio, cuya área es        H     (b  a) ; por tanto
                                        2       2
                                                     ab
                                          E[ X ] 
                                                      2
                                               (b  a ) 2
                                       V[X ] 
                                                  12

Ejemplo 8.11. Un meteorólogo hace una medición del tiempo al azar, suponiendo que está
distribuida uniformemente en el intervalo [1, 4]. A) Calcule la probabilidad de que la medición
este entre 5/2 y 3. b) Si se realizan 6 mediciones independientes, hallar la probabilidad de que
exactamente 3 de ellas estén entre 2 y 3.



8.7. Densidad normal o de Gauss
La distribución normal fue definida por De Moivre en 1733 y es la distribución de mayor
importancia en el campo de la estadística.
Una variable es normal cuando se ajusta a la ley de los grandes números, es decir, cuando sus
valores son el resultado de medir reiteradamente una magnitud sobre la que influyen infinitas
causas de efecto infinitesimal.
Las variables normales tienen una función de densidad con forma de campana a la que se llama
campana de Gauss.
Su función de densidad es la siguiente:




Cuando una variable aleatoria X es de densidad normal con media   E[ X ] y varianza
 2  V [ X ] la denotamos por X  N (  ,  2 )
 Los parámetros de la distribución son la media y la varianza, μ y σ2, respectivamente. Como
consecuencia, en una variable normal, media y varianza no deben estar correlacionadas en ningún
caso (como desgraciadamente ocurre en la inmensa mayoría de las variables aleatorias reales que
se asemejan a la normal.
La curva normal cumple las siguientes propiedades:
    1) El máximo de la curva coincide con la media.
    2) Es perfectamente simétrica respecto a la media (g1 = 0).
    3) La curva tiene dos puntos de inflexión situados a una desviación típica de la media. Es
        convexa entre ambos puntos de inflexión y cóncava en ambas colas.

                                                                                            172
   4)    Sus colas son asintóticas al eje X.

Para calcular probabilidades en intervalos de valores de la variable, habría que integrar la función
de densidad entre los extremos del intervalo. por desgracia (o por suerte), la función de densidad
normal no tiene primitiva, es decir, no se puede integrar. Por ello la única solución es referirse a
tablas de la función de distribución de la variable (calculadas por integración numérica) Estas
tablas tendrían que ser de triple entrada (μ, σ, valor) y el asunto tendría una complejidad enorme.

Afortunadamente, cualquier que sea la variable normal, X, se puede establecer una
correspondencia de sus valores con los de otra variable con distribución normal, media 0 y
varianza 1, a la que se llama variable normal tipificada o Z. La equivalencia entre ambas
variables se obtiene mediante la ecuación:




                                                 y

                      P ( x1  X  x2 )  P ( z1  Z  z2 ) , donde
                             x1                     x2  
                      z1                y     z2 
                                                      




                                                                                                173
La gráfica de la densidad de Z es la que se muestra en el siguiente gráfico para  2  1




La función de distribución de la variable normal tipificada Z está tabulada y, simplemente,
consultando en las tablas se pueden calcular probabilidades en cualquier intervalo que nos
interese.

De forma análoga a lo que pasaba con las variables Poisson, la suma de variables normales
independientes es otra normal.

Los histogramas que deben esperarse para una variable normal son:




  Histograma de una normal idealizada Histograma de una muestra de una variable
                                      normal



Ej em pl os :

Ejemplo 8.12. S i X e s una v ari abl e al e a t ori a de una di st ri buci ón N(µ , σ ),
hal l ar:
     P (µ −3σ ≤ X ≤ µ +3σ)

                                                                                            174
S ol uci ón:
P(  3  X    3 )  P(3  Z  3)  0.9974

Ejemplo 3.13. En una di st ri buci ón norm a l de m edi a 4 y d esvi aci ón t í pi ca 2,
cal cul ar el val or de a para qu e P (4− a ≤ x ≤ 4+a) = 0.5934.
S ol uci ón:

P ( x1  X  x2 )  P ( z1  Z  z2 )  0.5934, donde
        x1                   x2  
z1                 y   z2                y x1  4  a y x2  4  a
                               
P or t ant o:
      4a4          4a4
 z1          y z2 
         2             2
      a          a
 z1       y z2 
       2          2
C om o Z 2 =0.83, por t ant o a  1.66 .



8.8. Aproximación de la binomial por medio de la normal

S i una vari abl e al eat ori a es X  b( x, n, p) con n grande, entonces, esta se puede
aproximar por una   X   N (   np,  2  np(1  p))

Las probabilidades puntuales se calculan ocupando la corrección de continuidad:
                    P ( X  x)  PN ( x  0.5  X   x  0.5)
                     b




8.9. Ejercicios.
1 . En una ci udad se es t i m a que l a t em pera t ura m áx i m a en el m es de j uni o
    s i gue un a di st ri buc i ón norm al , con m e di a 23° y desvi a ci ón t í pi ca 5°.
    C al cul ar el núm ero de dí as del m es en l os que se esp era al canz ar
    m áx i m as ent re 21° y 27°.

2 . La m edi a de l os p e sos de 500 est udi an t es de un col e gi o e s 70 kg y l a
    d es vi aci ón t í pi ca 3 kg. S uponi endo que l os pesos s e di st ri bu ye n
    norm al m ent e, hal l ar cuánt os est udi ant es pesan:



                                                                                          175
a. Ent re 60 k g y 75 kg.

b . M ás de 90 k g.

c. M enos de 64 k g.

d . 64 kg.

e. 64 kg o menos.

3 . Se supone que los resultados de un examen siguen una distribución normal con media 78
    y varianza 36. Se pide:

a. ¿ C uál es l a prob abi l i dad de qu e una persona que s e pr e sent a el ex am en
obt enga una c al i fi ca ci ón superi or a 72?

b . C al cul ar l a proporci ón de est udi ant es que t i enen punt uaci ones que
ex ceden por l o m e nos e n ci nco punt os de l a punt uaci ó n que m arc a l a
front era ent r e el Ap t o y el No -Apt o (son decl ar ados No - Apt os el 25% de l os
es t udi ant es que obt u vi eron l as punt uaci o nes m ás baj as).

c. Si se sabe que la calificación de un estudiante es mayor que 72 ¿cuál es la probabilidad de
que su calificación sea, de hecho, superior a 84?

4 . Tras un t est de cul t ura gen eral se observa que l as punt uaci ones
    obt eni das si gu en un a di st ri buci ón una d i st ri buci ón N(65, 1 8). S e des ea
    cl as i fi car a l os ex am i nados en t res gru pos (de baj a cul t ura gen eral , de
    cul t ura gener al ace pt abl e, de ex cel ent e cul t ura gener al ) de m odo que
    ha y en el pri m ero u n 20% l a pobl aci ón, un 65% el segundo y un 15% en
    el t ercero. ¿ C uál es han de ser l as punt uaci ones que m ar ca n el paso de
    un grupo al ot ro?

5 . Varios test de inteligencia dieron una puntuación que sigue una ley normal con media 100
    y desviación típica 15.

a. Det e rm i nar el po r cent aj e d e pobl aci ó n que obt endrí a un coefi ci ent e ent r e
95 y 110.

b . ¿ Qué i nt erval o ce nt rado en 100 cont i e ne al 50% de l a pobl aci ón?

c. En un a pobl a ci ón de 2500 i ndi vi duos ¿ cuánt os i ndi vi duos se esp eran que
t engan un coe fi ci ent e superi or a 125?




                                                                                             176
6 . En una ci ud ad una de cad a t r es f am i l i as posee t el éfono. S i se el i gen al
    az ar 90 fam i l i as, ca l cul ar l a probabi l i dad de que ent re el l a s ha ya po r l o
    m enos 30 t engan t el éfono.

7 . En un ex am en t i po t est de 200 pre gu nt as de el ec ci ón m úl t i pl e, cada
    pre gunt a t i ene una r espuest a cor rect a y una i ncorre ct a. S e a prueba si s e
    cont est a a m ás de 1 10 respuest as co rre c t as. S uponi endo que se cont es t a
    al az ar, cal cul ar l a p robabi l i dad de ap ro bar el ex am en.

8 . Un es t udi o ha m ost r ado que, en un ci ert o barri o, el 60% d e l os hoga res
    t i enen al m enos do s t el evi sores S e el i ge al az ar un a m uest ra de 50
    hoga res en el ci t ado barri o. S e pi de:

a. ¿ C uál es l a pro babi l i dad de que a l m enos 20 de l os ci t ados hogares
t engan cuando m eno s dos t el evi sores?

b . ¿ C uál es l a probabi l i dad de que ent re 35 y 40 ho gares t engan cuando
m enos dos t el evi sores?




                                                                                               177
Capítulo 9. Estimación de Parámetros.
9.1. Distribución de la medida de la muestra.
Distribución muestral de        : muestreo a partir de poblaciones que siguen una
distribución normal.

Cuando el muestreo se realiza a partir de una población que sigue una distribución normal, la
distribución de la medida de la muestra tiene las siguientes propiedades:

   1. La distribución de será normal
   2. La media , de la distribución de será igual a la medida de la población de la cual se
      seleccionaron las muestras.
   3. La varianza,        , de la distribución de será igual a la varianza de la población
      dividida entre el tamaño de la muestra.


Teorema del límite central.

Dada una población de cualquier forma funcional no normal con una media y varianza finita
  , la distribución muestral de , calculada a partir de muestras de tamaño n de dicha
población, será casi normal con media y varianza     , cuando la muestra es muy grande.

Observe que el teorema del límite central permite tomar muestras a partir de poblaciones con
distribución no normal y garantizar que se obtengan aproximadamente los mismos resultados
que si la población tuviera una distribución normal, siempre que se tome una muestra muy
grande.

Ejemplo

Suponga que en una población grande de seres humanos, la dimensión del diámetro craneal sigue
una distribución aproximadamente normal, con una media de 185.6 mm y una desviación
estándar de 12.7 mm. ¿Cuál es la probabilidad de que una muestra aleatoria de tamaño 10 de esta
población tenga una media mayor que 190?

Solución

Cuando se dice que la población sigue una distribución aproximadamente normal, se supone que
la distribución muestral de sigue, para fines prácticos, una distribución normal. También se
sabe que la media y la desviación estándar de la distribución muestral son iguales a 185.6 y
                      , respectivamente.



                                                                                           178
Se obtiene la siguiente fórmula para transformar la distribución normal de   en la distribución
normal estándar:

La probabilidad que responde a la                   pregunta formulada se representa en el
área a la derecha de de   bajo la curva de la distribución muestral.




Esta área es igual al área de la derecha de:




Al consultar la tabla normal estándar, se encuentra que el área a la derecha de 1.10 es 0.1357;
por lo tanto, se puede decir que la probabilidad de que la muestra de tamaño tenga una media
mayor que 190 es 0.1357. 

Ejemplo:

Si la media y desviación estándar de la concentración de hierro en el suero en hombres sanos es
de 120 y 15 microgramos por cada 100 ml, respectivamente, ¿cuál es la probabilidad de que una
muestra aleatoria de 50 hombres normales tenga una media entre 115 y 125 microgramos por
cada 100 ml.


                                                                                           179
Solución:

La probabilidad buscada es:




Ejercicios:

   1. La National Health and Nutrition Examination Survey de 1976-1980 en una investigación
      encontró que los niveles de colesterol en individuos varones, estadounidenses, con edades
      entre 20-74 años, fue de 211. La desviación estándar fue de aproximadamente de 90.
      Considere la distribución muestral de la media de la muestra basada en muestras de
      tamaño 50 extraídas de esta población de individuos varones. ¿Cuál es la media de la
      distribución muestral y el error estándar?

   2. Si las concentraciones de ácido úrico en hombres adultos normales siguen una
      distribución aproximadamente normal, con una media y desviación estándar de 5.7 y 1 mg
      por ciento, respectivamente, encuentre la probabilidad de que una muestra de tamaño 9
      proporcione una media:
      i) Mayor que 6
      ii) Entre 5 y 6
      iii) Menor que 5.2

   3. Para cierto sector amplio de la población en un año determinado, suponga que el número
      medio de días de incapacidad es de 5.4, con una desviación estándar de 2.8 días.
      Encuentre la probabilidad de que una muestra aleatoria de tamaño 49 de esa población
      tenga una media:
      i) Mayor a 6 días
      ii) Entre 4 y 6 días
      iii) Entre 4.5 y 5.5 días.


9.2. Distribución de la diferencia entre las medias de dos
muestras.
Con frecuencia, el interés en una investigación se dirige hacia dos poblaciones. Específicamente,
puede ser que un investigador desee saber algo acerca de la diferencia entre las medias de dos
poblaciones. En una investigación, por ejemplo, el investigador tal vez deseará saber si es
razonable concluir que dos medias poblacionales son diferentes. En otra situación, es posible que
el investigador quiera conocer la magnitud de la diferencia entre ellas. Un equipo de
investigación médica, por ejemplo, quizá requiera saber si el nivel medio de colesterol en el
suero es mayor en un grupo de oficinistas que en un grupo de obreros. Si los investigadores

                                                                                             180
concluyen que las medias de la población son diferentes, es posible que deseen saber qué tanto
difieren. El conocimiento acerca de la distribución muestral de la diferencia entre dos medias es
muy útil en investigaciones de este tipo.

Ejemplo:

Suponga que se tienen dos poblaciones de individuos. Una de ellas ( la población 1 ) ha
experimentado alguna enfermedad que se considera está asociada con retraso mental, y la otra (la
población 2) no ha experimentado tal enfermedad. Se cree que la distribución de calificaciones de
inteligencia de cada una de las poblaciones presenta una distribución aproximadamente normal
con una desviación estándar de 20.

Suponga, también, que se toma una muestra de 15 individuos de cada población y se calcula en
cada muestra la media de las calificaciones de inteligencia, con los siguientes resultados:
              y             Si no hay diferencia entre las dos poblaciones con respecto a la media
real de las calificaciones de inteligencia, ¿cuál es la probabilidad de observar una diferencia de
esta magnitud

(          o mayor entre las medias de las muestras?

Solución:

Para responder a esta pregunta es necesario conocer la naturaleza de la distribución muestral para
la estadística principal, es decir, la diferencia entre las dos medias,       . Es importante notar
que se busca la probabilidad asociada con la diferencia entre las medias de dos muestras en lugar
de una.

Distribución muestral de               : características.

Lo que se pretende es calcular la distribución de la diferencia entre las medias de las muestras. Si
se elabora una gráfica de las diferencias de las muestras contra sus frecuencias de ocurrencia, se
podría obtener una distribución normal con una media igual a                , la diferencia entre las
medias reales de los dos grupos o poblaciones, y una varianza igual a                      . Esto es,



el error estándar de la diferencia entre las medias sería igual a


Para el ejemplo anterior habría una distribución normal con una media igual a 0 (si no hay
diferencia entre las medias reales de la población) y una varianza de [(20)2/15]+
[(20)2/15]=53.33.




                                                                                                 181
La gráfica de la distribución muestral se ilustra en la siguiente figura:




Se sabe que la distribución normal descrita en el ejemplo se puede transformar en una
distribución normal estándar mediante la modificación de una fórmula estudiada con
anterioridad. La nueva fórmula es como sigue:




El área bajo la curva de               correspondiente a la probabilidad buscada es el área a la
izquierda de                                 . Suponiendo que no hay diferencia entre las medias
de las poblaciones, el valor de z correspondiente a -13 es:




Al consultar la tabla de la normal, se encuentra que el área bajo la curva normal estándar a la
izquierda de -1.78 es igual a 0.0375. Para responder a la pregunta original, se puede decir que, si
no hay diferencia entre las medias poblacionales, la probabilidad de obtener una diferencia mayor
o igual que 13 entre las medias de las muestras es de 0.0375.

Muestreo a partir de poblaciones normales.

El procedimiento anterior es válido incluso cuando el tamaño de la muestras n1 y n2, son
diferentes, y cuando las varianzas      y     , tienen valores diferentes. Los resultados teóricos
sobre los que se basa este procedimiento, se resumen de la siguiente forma.

Dadas dos poblaciones con una distribución normal, con medias       , y varianzas    y , la
distribución muestral de la diferencia,       entre las medias de muestras independientes de

                                                                                               182
tamaño n1 y n2 extraídas de esas poblaciones siguen una distribución normal con media
y varianza              .

Muestreo a partir de poblaciones no normales.

La mayoría de las veces el investigador se enfrenta a uno de los siguientes problemas: 1) la
necesidad de extraer de una población con distribución no normal, o 2) extraer muestras de
poblaciones cuya forma funcional se desconoce. Una solución para estos problemas consiste en
tomar muestras grandes, dado que, cuando el tamaño de las muestras es muy grande, el teorema
del límite central es aplicable y la distribución de la diferencia entre las dos medias de las
muestras sigue una distribución aproximadamente normal, con una media igual a            y una
varianza              . Para calcular probabilidades asociadas con los valores específicos de la
estadística, el procedimiento es el mismo que el muestreo que se hace a partir de poblaciones con
distribución normal.

Ejemplo:

Suponga que se estableció que para cierto tipo de pacientes el tiempo promedio de visita
domiciliaria hecha por una enfermera es de 45 minutos con una desviación estándar de 15
minutos, y para un segundo tipo de paciente, el promedio de visita domiciliaria es de 30 minutos
con una desviación estándar de 20 minutos. Si la enfermera visita al azar a 32 pacientes del
primer tipo y 40 del segundo tipo, ¿cuál es la probabilidad de que el tiempo promedio de visita
domiciliaria difiera entre los dos grupos por 20 minutos o más?

Solución:

No se menciona nada respecto a la forma funcional de las poblaciones, por lo que se supone que
esta característica se desconoce, o que las poblaciones no presentan una distribución normal.
Puesto que las muestras son grandes (mayores que 30) en ambos casos, se hace uso de los
resultados del teorema del límite central. Se sabe que la diferencia entre las muestras sigue una
distribución al menos aproximadamente normal con las siguientes media y varianza:




El área bajo la curva de              que se busca se encuentra a la derecha de 20. El valor
correspondiente de z en la distribución normal estándar es:




                                                                                             183
En la tabla de la distribución normal se encuentra que el área a la derecha de z=1.23 es: 1-0.8907
=0.1093. por lo tanto, se puede decir que la probabilidad de que las visitas al azar de la enfermera
difieren entre las dos medias por 20 o más minutos es de 0.1093. La curva de               y la curva
normal estándar correspondiente se muestran en la siguiente figura:




9.3. Distribución de la proporción de la muestra.
En las secciones anteriores se estudiaron las distribuciones muestrales para estadísticas calculadas
a partir de variables medidas. Sin embargo, frecuentemente se tiene interés en la distribución
muestral de estadísticas, como la proporción de muestras, que resulta de los datos de conteo o
frecuencias.

Ejemplo:

Suponga que una población de seres humanos, 0.08 son daltónicos. Si la proporción de la
población se designa como , se puede decir para este ejemplo que                   . Si se eligen
aleatoriamente 150 individuos de esa población, ¿cuál es la probabilidad de que la proporción en
la muestra de individuos daltónicos sea igual a 0.15?




                                                                                                 184
Solución:

Para responder esta pregunta es necesario conocer algunas de las propiedades de la distribución
muestral de la proporción de la muestra. Se designará la proporción de la muestra con el símbolo
 .

Distribución muestral de : características.

Cuando la muestra es grande, la distribución de las proporciones de la muestra es
aproximadamente normal de acuerdo con el teorema del límite central. La media de la
distribución , que es el promedio de todas las proporciones posibles de la muestra, es igual a la
proporción real de la población , y la varianza de la distribución,         es igual a              o
        donde                . Entonces para responder a las preguntas acerca de la probabilidad
respecto a , se utiliza la siguiente fórmula:




La pregunta que surge ahora es: ¿qué tan grande debe ser la muestra para que sea válido el uso de
la aproximación normal? Un criterio ampliamente utilizado es que          y            deben ser
mayores que 5, por lo que se seguirá dicha regla en el presente texto.

Ahora se está en posibilidad de responder a la pregunta referente al daltonismo en la muestra de
150 individuos de una población en la cual 0.08 son daltónicos. Puesto que      y            son
mayores que 5 (150x0.08=12 y 150x0.92=138), se puede decir que, en este caso,          sigue una
distribución aproximadamente normal con una media                                              y
                                      . La probabilidad buscada es el área bajo la curva de       a la
derecha de 0.15. Esta área es igual al área bajo la curva normal estándar a la derecha de:




La transformación para la distribución normal estándar se lleva a cabo de la manera usual: z se
calcula al dividir el error estándar entre la diferencia de un valor de la estadística y su medida. Al
utilizar la tabla de la distribución normal se tiene que el área a la derecha de                 es 1-
0.9992= 0.0008. Por lo tanto, se puede decir que la probabilidad de observar                   en una
muestra aleatoria de tamaño n=150 de una población en la que                   es 0.0008. De hecho, si
se extrajera una muestra de este tipo, mucha gente la consideraría un evento extraño.



                                                                                                  185
Ejercicios:

     1. Una investigación realizada en 1990 por el National Center for Health Statistics, 19 por
        ciento de los encuestados mayores de 18 años, dijo no saber del virus VIH del SIDA.
        ¿Cuál es la probabilidad de que en una muestra de 175 individuos de esa población 25 por
        ciento o más no sepa de la existencia del SIDA?

     2. Se sabe que 35 por ciento de los miembros de una población sufren de enfermedades
        crónicas. ¿Cuál es la probabilidad de que en una muestra aleatoria de 200 individuos 80 o
        más de ellos tengan al menos una enfermedad crónica?


9.4. Distribución de la diferencia entre las proporciones de
dos muestras.
Con frecuencia son de interés las proporciones de dos poblaciones y se desea averiguar la
probabilidad asociada con la diferencia de las proporciones calculadas a partir de muestras
extraídas de cada una de dichas poblaciones. La distribución muestral pertinente es la
distribución de la diferencia entre las proporciones de dos muestras.

Distribución muestral de de              : características.

Las características de esta distribución muestral se resumen como sigue:

Si se extraen muestras aleatorias independientes de tamaño n1 y n2 de dos poblaciones de
variables dicotómicas, donde las proporciones de las observaciones con la característica de
interés en ambas poblaciones son          , respectivamente, la distribución de la diferencia
entre las proporciones de las muestras       , es aproximadamente normal con una media de:




Con varianza




Cuando n1 y n2 son grandes.

Se      consideran     a      n1        y       n2        suficientemente     grandes     cuando
                                            son mayores que 5.

Para responder a preguntas respecto a la diferencia entre proporciones de dos muestras, se utiliza
la siguiente fórmula:


                                                                                              186
Ejemplo:

 Suponga que la proporción de consumidores moderados a grandes consumidores de
estupefacientes ilegales es de 0.50 para la población 1, en tanto que en la población 2 la
proporción es de 0.33. ¿Cuál es la probabilidad de que muestras de tamaño 100, extraídas de cada
una de las poblaciones, presente un valor de          igual a 0.30?

Solución:

Se supone que la distribución muestral de            es aproximadamente normal, con una media
de


Y varianza:




El área correspondiente a la probabilidad buscada es la que se encuentra baja la curva de
a la derecha de 0.30. Al transformar en la distribución normal estándar se obtiene




Al consultar la tabla de la normal, se encuentra que el área bajo la curva normal estándar que está
a la derecha de z=1.89 es 1-0.9706=0.0294. Por lo tanto, la probabilidad de observar una
diferencia igual a 0.30 es de 0.0294.

Ejemplo:

Se sabe que en una población de adolescentes 10 por ciento de los varones son obesos. Si la
misma proporción de mujeres en esa población son obesas, ¿cuál es la probabilidad de que una
muestra al azar de 250 varones y 200 mujeres proporcione un valor de               ?

Solución:

Se supone que la distribución muestral de         es aproximadamente normal. Si la proporción
de individuos obesos es la misma en ambas poblaciones, la media de la distribución es igual a 0 y
la varianza es:

                                                                                               187
El área de interés bajo la curva de         es la que se encuentra a la derecha de 0.06. El valor
correspondiente de z es:




Al consultar la tabla de la normal se encuentra que el área a la derecha de z=2.11 es 1-
0.9826=0.0174.

Ejercicios:

   1. En una población de niños con retraso mental, se sabe que la proporción del os que son
      hiperactivos es de0.40. Se extrajo una muestra aleatoria de tamaño 120 de esa población,
      y otra de tamaño 100 a partir de otra población de niños con el mismo problema. Si la
      proporción de niños hiperactivos es la misma en ambas poblaciones, ¿cuál es la
      probabilidad de que la muestra presente como resultado una diferencia            de 0.16
      o más?

   2. Se tienen bases para suponer que 40 por ciento de las casas en cierta área de la ciudad
      están en malas condiciones. Una muestra aleatoria de 75 casas de esa área y otra
      compuesta de 90 casas de otra sección dieron una diferencia                    . Si no hay
      diferencia en la proporción de casas en malas condiciones entre esas dos áreas, ¿cuál es la
      probabilidad de observar una diferencia de esta magnitud o mucho mayor?


9.5. Intervalos de confianza

I- Concepto de Intervalo de Confianza (para una media, varianza conocida).

En el contexto de estimar un parámetro poblacional, un intervalo de confianza es un rango de
valores (calculado en una muestra) en el cual se encuentra el verdadero valor del parámetro, con
una probabilidad determinada.

La probabilidad de que el verdadero valor del parámetro se encuentre en el intervalo construido
se denomina nivel de confianza, y se denota 1- . La probabilidad de equivocarnos se llama
nivel de significancia y se simboliza . Generalmente se construyen intervalos con confianza 1-
  =95% (o significancia =5%). Menos frecuentes son los intervalos con =10% ó =1%.

Para construir un intervalo de confianza, se puede comprobar que la distribución Normal
Estándar cumple:

P(-1.96 < z < 1.96) = 0.95

                                                                                             188
(Lo anterior se puede comprobar con una tabla de probabilidades o un programa computacional
que calcule probabilidades normales).

Luego, si una variable X tiene distribución N( ,   ), entonces el 95% de las veces se cumple:



Despejando    en la ecuación se tiene:



El resultado es un intervalo que incluye al el 95% de las veces. Es decir, es un intervalo de
confianza al 95% para la media cuando la variable X es normal y       es conocido.

II- Intervalo de confianza para un promedio (Varianza desconocida):

Generalmente, cuando se quiere construir un intervalo de confianza para la media poblacional ,
la varianza poblacional  es desconocida, por lo que el intervalo para construido al final de II
es muy poco práctico.

Si en el intervalo se reemplaza la desviación estándar poblacional      por la desviación estándar
muestral s, el intervalo de confianza toma la forma:



La cual es una buena aproximación para el intervalo de confianza de 95% para          con
desconocido. Esta aproximación es mejor en la medida que el tamaño muestral sea grande.
Cuando el tamaño muestral es pequeño, el intervalo de confianza requiere utilizar la distribución t
de Student (con n-1 grados de libertad, siendo n el tamaño de la muestra), en vez de la
distribución normal (por ejemplo, para un intervalo de 95% de confianza, los límites del intervalo
ya no serán construidos usando el valor 1.96). Se utiliza la siguiente expresión:




Ejemplo:
Los siguientes datos son los puntajes obtenidos para 45 personas de una escala de depresión
(mayor puntaje significa mayor depresión).

         2        5        6        8        8        9       9        10       11
         11       11       13       13       14       14      14       14       14
         14       15       15       16       16       16      16       16       16
         16       16       17       17       17       18      18       18       19
         19       19       19       19       19       19      19       20       20


                                                                                                189
Para construir un intervalo de confianza para el puntaje promedio poblacional, asumamos que los
datos tienen distribución normal, con varianza poblacional          desconocida. Como        es
desconocido, lo estimamos por s =18,7. Luego, un intervalo de confianza aproximado es:




Luego, el intervalo de confianza para es (13.2, 15,8). Es decir, el puntaje promedio poblacional
se encuentra entre 13,2 y 15,8 con una confianza 95%.

Ahora construya un intervalo de confianza utilizando la distribución t-Student.

III. Intervalo de Confianza para una Proporción.

A menudo es necesario construir intervalos de confianza para una proporción. Por ejemplo,
supóngase que se toma una muestra de tamaño n de una población grande (posiblemente infinita)
y que X observaciones de esta muestra pertenecen a una clase de interés.

Ejemplo: El número de caras obtenidas al lanzar una moneda n veces.

  X1, X2, X3,………….Xn                   X caras     X    B(n, p)

El parámetro p es desconocido, sin embargo podemos obtener un estimador denotado por         ,a
partir de los datos de la muestra.




Nótese que    es un estimador insesgado de p, ya que:




                                                                                            190
Recuérdese que para n grande, la distribución de muestreo de es aproximadamente normal con
media p y varianza p(1-p)/n. Por lo que la distribución de la siguiente variable




Tiene aproximadamente una distribución normal (Teorema de Límite Central).
Como Z N(0,1), podemos construir fácilmente el intervalo de confianza para p, tal que:




                                                  zα/2            - zα/2



Pero:




Luego:




Desafortunadamente el límite superior e inferior del intervalo de confianza contiene el parámetro
desconocido p. Sin embargo es válido reemplazar p por ,




El intervalo de confianza para el parámetro de proporción p es:




                                                                                             191
9.5.1. Selección del tamaño de la muestra
Para estimar un intervalo de confianza para el parámetro p, y para que este intervalo sea
confiable, es preciso considerar que la diferencia entre el estimador y el parámetro p sea
mínima con un nivel de confianza mayor o igual al (1-α)%, es decir:



Obsérvese que:




Por lo que:




Note que para utilizar esta ecuación se requiere una estimación del parámetro p. Si se tiene una
estimación de alguna muestra anterior, entonces p puede sustituirse por , de tal manera que:


                                                                                            192
Si el tamaño muestral n es grande, el Teorema Central del Límite nos asegura que:




O bien:




Donde p es el porcentaje de personas con la característica de interés en la población (o sea, es el
parámetro de interés) y p es su estimador muestral.

Luego, procediendo en forma análoga al caso de la media, podemos construir un intervalo de
95% de confianza para la proporción poblacional p.




Ejemplo:
En un estudio de prevalencia de factores de riesgo en una cohorte de 412 mujeres mayores de 15
años en la Región Metropolitana, se encontró que el 17.6% eran hipertensas. Un intervalo de 95%
de confianza para la proporción de mujeres hipertensas en la Región Metropolitana está dado por:



Luego, la proporción de hipertensas varía entre (0.139, 0.212) con una confianza de 95%.

IV. Intervalos de confianza para la diferencia de dos proporciones

Supóngase que existen dos proporciones de interés p1 y p2, y es necesario obtener un intervalo
de confianza para la diferencia de p1 - p2 con un nivel de confianza de (1-α)%. Supóngase que se
toman dos muestras independientes de tamaño n1 y n2 de dos poblaciones infinitamente grandes.
En estas dos muestras sean X1 el número de observaciones de la primera muestra que pertenecen
a la clase de interés y X2 el número de observaciones en la muestra de la segunda población que
pertenecen a la clase de interés.

P1                         X1, X2, X3,……..Xn1                   Xn1 observaciones

P2                 Y1, Y2, Y3,…….Yn2                     Xn2 observaciones


                                                                                               193
  =           =           X1~B(n1,p)      X2~B(n2, p)


Luego:

              =

                                                    =




Así para          se hace la siguiente transformación:




Donde Z tiene una distribución que es aproximadamente normal, esto implica que podemos
sustituir el valor de Z directamente para construir el intervalo de confianza:




Si desarrollamos esta expresión llegaremos a que el intervalo de confianza para p1 - p2 es:




                                                                                              194
Ejemplo. Se analiza la fracción de productos defectuosos producidos por dos líneas de
producción. Una muestra aleatoria de 100 unidades provenientes de la línea uno contienen 10 que
son defectuosas, mientras que en una muestra aleatoria de 120 unidades de la línea 2 tiene 25 que
son defectuosas. Encuentre un intervalo de confianza del 99% para la diferencia en fracciones de
productos defectuosos producidos por las dos líneas.

Solución:

Se tiene que




Pero:


Nos resta calcular   . Como (1-)=0.99, entonces /2= 0.005.
Luego como el valor para       no se encuentra en la tabla, promediamos los valores más
próximos          y         Luego

Sustituyendo estos valores tenemos:




El intervalo de confianza buscado es:




Ejemplos:

1.           Un fabricante asegura, a una compañía que le compra un producto en forma regular,
     que el porcentaje de productos defectuosos no es mayor del 5%. La compañía decide
     comprobar la afirmación del fabricante seleccionando de su inventario, 200 unidades de este
     producto y probándolas. ¿Deberá sospechar la compañía de la afirmación del fabricante si se
     descubre un total de 19 unidades defectuosas en la muestra?

Solución:
La sospecha estará apoyada si existe un intervalo de confiabilidad alto para el cual la proporción
p se encuentra completamente a la derecha del valor asegurado 0.05. Si seleccionamos una

                                                                                              195
confiabilidad del 95%, entonces α/2=0.025, y ya conocemos que X=19 y n=200, por lo que
 =19/200=0.095

Al sustituir estos valores en:




Se tiene que el intervalo de confianza del parámetro p es:




El cual resulta ser de:



Aparentemente existe una razón para sospechar del fabricante, ya que el intervalo de confianza se
encuentra completamente a la derecha del valor asegurado.

2.              Calcular el tamaño de la muestra del ejemplo anterior para el cual la diferencia
   entre el parámetro y el estimador es menor que 0.02 con un nivel de confianza mayor a 0.9.
   Considérese el mismo valor para .
Solución:




                                                                                             196
3.            Se analiza la fracción de productos defectuosos producidos por dos líneas de
     producción. Una muestra aleatoria de 100 unidades provenientes de la línea uno contienen 10
     que son defectuosas, mientras que en una muestra aleatoria de 120 unidades de la línea 2
     tiene 25 que son defectuosas. Encuentre un intervalo de confianza del 99% para la diferencia
     en fracciones de productos defectuosos producidos por las dos líneas.


Solución:
Se tiene que




Pero:


Nos resta calcular       . Como (1-)=0.99, entonces /2= 0.005.
Luego como el valor para              no se encuentra en la tabla, promediamos los valores más
próximos             y      Luego

Sustituyendo estos valores tenemos:




El intervalo de confianza buscado es:




                                                                                             197
Capítulo 10. Contraste de hipótesis.
10.1.- Introducción
Dentro del estudio de la inferencia estadística, se describe como se puede tomar una muestra
aleatoria y a partir de esta muestra estimar el valor de un parámetro poblacional en la cual se
puede emplear el método de muestreo y el teorema del valor central lo que permite explicar cómo
a partir de una muestra se puede inferir algo acerca de una población, lo cual nos lleva a definir y
elaborar una distribución de muestreo de medias muestrales que nos permite explicar el teorema
del límite central y utilizar este teorema para encontrar las probabilidades de obtener las distintas
medias maestrales de una población.

Pero es necesario tener conocimiento de ciertos datos de la población como la media, la
desviación estándar o la forma de la población, pero a veces no se dispone de esta información.

En este caso es necesario hacer una estimación puntual que es un valor que se usa para estimar un
valor poblacional. Pero una estimación puntual es un solo valor y se requiere un intervalo de
valores a esto se denomina intervalos de confianza y se espera que dentro de este intervalo se
encuentre el parámetro poblacional buscado. También se utiliza una estimación mediante un
intervalo, el cual es un rango de valores en el que se espera se encuentre el parámetro poblacional

En nuestro caso se desarrolla un procedimiento para probar la validez de una aseveración acerca
de un parámetro poblacional este método es denominado Prueba de hipótesis para una muestra.




10.2. Nociones básicas
En el análisis estadístico se hace una aseveración, es decir, se plantea una hipótesis, después se
hacen las pruebas para verificar la aseveración o para determinar que no es verdadera.

Por tanto, la prueba de hipótesis es un procedimiento basado en la evidencia muestral y la teoría
de probabilidad; se emplea para determinar si la hipótesis es una afirmación razonable.

Prueba de una hipótesis: se realiza mediante un procedimiento sistemático de cinco paso:




                                                                                                 198
Siguiendo este procedimiento sistemático, al llegar al paso cinco se puede o no rechazar la
hipótesis, pero debemos de tener cuidado con esta determinación ya que en la consideración de
estadística no proporciona evidencia de que algo sea verdadero. Esta prueba aporta una clase de
prueba más allá de una duda razonable. Analizaremos cada paso en detalle

Objetivo de la prueba de hipótesis.

El propósito de la prueba de hipótesis no es cuestionar el valor calculado del estadístico
(muestral), sino hacer un juicio con respecto a la diferencia entre estadístico de muestra y un
valor planteado del parámetro.

10.3. Procedimiento sistemático para una prueba de hipótesis
de una muestra.
.Paso 1: Plantear la hipótesis nula Ho y la hipótesis alternativa H1.

Cualquier investigación estadística implica la existencia de hipótesis o afirmaciones acerca de las
poblaciones que se estudian.

La hipótesis nula (Ho) se refiere siempre a un valor especificado del parámetro de población, no a
una estadística de muestra. La letra H significa hipótesis y el subíndice cero no hay diferencia.
Por lo general hay un "no" en la hipótesis nula que indica que "no hay cambio" Podemos rechazar
o aceptar Ho.

La hipótesis nula es una afirmación que no se rechaza a menos que los datos maestrales
proporcionen evidencia convincente de que es falsa. El planteamiento de la hipótesis nula
siempre contiene un signo de igualdad con respecto al valor especificado del parámetro.

La hipótesis alternativa (H1) es cualquier hipótesis que difiera de la hipótesis nula. Es una
afirmación que se acepta si los datos maestrales proporcionan evidencia suficiente de que la
hipótesis nula es falsa. Se le conoce también como la hipótesis de investigación. El planteamiento
de la hipótesis alternativa nunca contiene un signo de igualdad con respecto al valor especificado
del parámetro.

Paso 2: Seleccionar el nivel de significancia.

Nivel de significancia: Probabilidad de rechazar la hipótesis nula cuando es verdadera. Se le
denota mediante la letra griega α, también es denominada como nivel de riesgo, este término es
más adecuado ya que se corre el riesgo de rechazar la hipótesis nula, cuando en realidad es
verdadera. Este nivel esta bajo el control de la persona que realiza la prueba.

Si suponemos que la hipótesis planteada es verdadera, entonces, el nivel de significación indicará
la probabilidad de no aceptarla, es decir, estén fuera de área de aceptación. El nivel de confianza
(1-α), indica la probabilidad de aceptar la hipótesis planteada, cuando es verdadera en la
población.


                                                                                               199
La distribución de muestreo de la estadística de prueba se divide en dos regiones, una región de
rechazo (conocida como región crítica) y una región de no rechazo (aceptación). Si la estadística
de prueba cae dentro de la región de aceptación, no se puede rechazar la hipótesis nula.

La región de rechazo puede considerarse como el conjunto de valores de la estadística de prueba
que no tienen posibilidad de presentarse si la hipótesis nula es verdadera. Por otro lado, estos
valores no son tan improbables de presentarse si la hipótesis nula es falsa. El valor crítico separa
la región de no rechazo de la de rechazo.

Tipos de errores

Cualquiera sea la decisión tomada a partir de una prueba de hipótesis, ya sea de aceptación de Ho
o de Ha, puede incurrirse en error:

Un error tipo I se presenta si la hipótesis nula Ho es rechazada cuando es verdadera y debía ser
aceptada. La probabilidad de cometer un error tipo I se denomina con la letra alfa α

Un error tipo II, se denota con la letra griega β se presenta si la hipótesis nula es aceptada cuando
de hecho es falsa y debía ser rechazada.

En la siguiente tabla se muestran las decisiones que pueden tomar el investigador y las
consecuencias posibles.

                        Decisión            H0 es cierta          H0 es Falsa
                                                                 Error tipo II
                       Aceptar H0        Decisión Correcta
                                                                     ()
                                            Error tipo I
                      Rechazar H0                             Decisión Correcta
                                                ()

Para que cualquier ensayo de hipótesis sea bueno, debe diseñarse de forma que minimice los
errores de decisión. En la práctica un tipo de error puede tener más importancia que el otro, y así
se tiene a conseguir poner una limitación al error de mayor importancia. La única forma de
reducir ambos tipos de errores es incrementar el tamaño de la muestra, lo cual puede ser o no ser
posible.
                                                                                                 200
Paso 3: Cálculo del valor estadístico de prueba

Valor determinado a partir de la información muestral, que se utiliza para determinar si se
rechaza la hipótesis nula., existen muchos estadísticos de prueba para nuestro caso utilizaremos
los estadísticos z y t. La elección de uno de estos depende de la cantidad de muestras que se
toman, si las muestras son de la prueba son iguales a 30 o mas se utiliza el estadístico z, en caso
contrario se utiliza el estadístico t.

Tipos de prueba

a) Prueba bilateral o de dos extremos: la hipótesis planteada se formula con la igualdad

Ejemplo

H0 : µ = 200

H1 : µ ≠ 200

b) Pruebas unilateral o de un
extremo: la hipótesis planteada se
formula con ≥ o ≤

H0 : µ ≥ 200 H0 : µ ≤ 200

H1 : µ < 200 H1 : µ > 200

 En las pruebas de hipótesis para la media (μ), cuando se conoce la desviación estándar (σ)
poblacional, o cuando el valor de la muestra es grande (30 o más), el valor estadístico de prueba
es z y se determina a partir de:




El valor estadístico z, para muestra grande y desviación estándar poblacional desconocida se
determina por la ecuación:



En la prueba para una media poblacional con muestra pequeña y desviación estándar poblacional
desconocida se utiliza el valor estadístico t.




                                                                                               201
10.4. Procedimiento sistemático para una prueba de hipótesis
de dos muestras independientes.
La prueba para la igualdad de medias con varianzas conocidas es:

                               El estadístico de prueba es



Si las varianzas son desconocidas, el estadístico de prueba es:



                   donde



10.5. Prueba de hipótesis para una y dos proporción
independientes
Prueba para una proporción:

                       El estadístico de prueba es:



Prueba de hipótesis sobre dos proporciones independientes:




                                        Donde




Paso 4: Formular la regla de decisión

Se establece las condiciones específicas en la que se rechaza la hipótesis nula y las condiciones
en que no se rechaza la hipótesis nula. La región de rechazo define la ubicación de todos los
valores que son tan grandes o tan pequeños, que la probabilidad de que se presenten bajo la
suposición de que la hipótesis nula es verdadera, es muy remota




                                                                                             202
Distribución muestral del valor estadístico z, con prueba de una cola a la derecha

Valor crítico: Es el punto de división entre la región en la que se rechaza la hipótesis nula y la
región en la que no se rechaza la hipótesis nula.

Paso 5: Tomar una decisión.
En este último paso de la prueba de hipótesis, se calcula el estadístico de prueba, se compara con
el valor crítico y se toma la decisión de rechazar o no la hipótesis nula. Tenga presente que en
una prueba de hipótesis solo se puede tomar una de dos decisiones: aceptar o rechazar la hipótesis
nula. Debe subrayarse que siempre existe la posibilidad de rechazar la hipótesis nula cuando no
debería haberse rechazado (error tipo I). También existe la posibilidad de que la hipótesis nula se
acepte cuando debería haberse rechazado (error de tipo II).

Ejemplo 1:         Prueba la hipótesis      H0 : p = 0.4

                                            H1 : p  0.4

                   Presuma que n = 200, y  = .01.
Solución:
       Paso 1      H0 : p = 0.4
                   H1 : p  0.4

       Paso 2      Usando  = .01, el diagrama de la región de rechazo es:

       Paso 3      Calculando el valor z para la proporción muestral p = 0.45, obtenemos:

                           0.4(1  0.4)
                   p                   0.0346
                               200
                                                           .005            .005
                        0.45  0.4
                   Z=               1.45                     -2.575   2.575
                         0.0346

                                                                                               203
      Paso 4      Dibujando z = 1.45 en el diagrama de la región de rechazo (Paso 2)
obtenemos:
                                                    1.45
                                                    .005                 .005

                                                           -2.575    2.575


       Paso 5     Como el valor z está fuera de la región de rechazo (sombreada), por lo tanto no
rechazamos Ho.

       Ejemplo. MÉTODO DEL VALOR P (MÉTODO 2, SPSS)

       Dejemos que p0 sea la proporción aceptada o reclamada.

       Paso 1     Establezca las hipótesis: H0 :                p = p0
                                                        H1 :    p > p0       ó
                                                                p < p0       ó

                                                                p  p0

                                                                     x
       Paso 2     Calcule el valor z para la proporción muestral  p   usando la fórmula:
                                                                     n

                                p  p0                         p0 (1  p0 )
                       Z=                , donde  p                       .
                                 p                                 n

       Paso 3     Usando la hipótesis alterna dibuja la región bajo la curva z que representa los
valores extremos.


                      Valor P            Valor P
                                  ó                                      ó          P/2            P/2
                  z                                -z
                                                                                          -z   z

(H1 :  > o)              (H1 :  < o)                            (H1 :   o)

       Paso 4     El valor P = al área de la cola sombreada (s) en el Paso 3.

       Paso 5     Si el valor P < , entonces rechaza H0

                  Si el valor P  , entonces no rechaces H0.



                                                                                                         204
Ejemplo 1:           Pruebe la hipótesis          H0 : p = 0.4

                                                  H1 : p  0.4

                     Presuma que n = 200, y  = 0.01.
Solución:
       Paso 1        H0 : p = 0.4

                     H1 : p  0.4

       Paso 2        Calculando el valor z de p , obtenemos

                             0.4(1  0.4)
                     p                   0.0346
                                 200
                          0.45  0.4
                     Z=               1.45
                           0.0346


       Paso 3        La región bajo la curva z que contiene los valores extremos de es
                                          -1.45   1.45

       Paso 4        El valor P = suma de las áreas de las regiones sombreadas en el Paso3.

                                = 2(el área a la derecha de 1.45)
                                                                     P/2           P/2
                                = 2(0.5 – 0.4265)

                                = 0.147

       Paso 5        Como el valor P es mayor que , entonces no podemos rechazar H0.

       Ejercicios.

       1.    H0 : p=0.6
             H1 : p  0.6,      n = 100, y  = 0.01

       2.    H0 : p = 0.29
             H1 : p  0.29, n = 90, y  = 0.01

       3.    H0 : p = 0.36
             H1 : p < 0.36, n = 630, y  = 0.05




                                                                                              205
Bibliografía


     Canavos, George C. (1988). Probabilidad y Estadística Aplicaciones y Métodos.
      McGrawHill.

     Gardner, Robert C. (2003). Estadística para Psicología Usando SPSS para Windows.
      Prentice-Hall, 1° ED.

     Jhonson, R y Kuby, P. (1999). Estadística Elemental, lo Esencial. México: Thomson.

     Martínez Bencardino, Ciro. (2006). Estadística Básica Aplicada. Colombia: ECOE
      EDICIONES, 3° ED.

     Martínez Bencardino, Ciro. (2008). Estadística y Muestreo. Colombia: ECOE
      EDICIONES, 12° ED.

     Montgomery, Douglas C. y Runger, George C. (1996). Probabilidad y Estadística.
      McGrawHill.

     Peralta Astudillo, María Josefa y at. (2000). Estadística: Problemas resueltos.
      Ediciones Pirámide.




                                                                                        206

								
To top