letras by SUSB

VIEWS: 75 PAGES: 24

									Principios de
 Estad´ıstica



Un problema
curioso
                                            ıstica
                         Principios de Estad´
Plot

Problema

Resultado
                                              ıa    e
                Leonardo Collado Torres y Mar´ Guti´rrez Arcelus
                                               o
                   Licenciatura en Ciencias Gen´micas, UNAM
                   www.lcg.unam.mx/~lcollado/index.php
                   www.lcg.unam.mx/~mgutierr/index.php



                                             e
                              Cuernavaca, M´xico
                             Febrero - Junio, 2009


                                                                   1 / 24
                Letras y universo

Principios de
 Estad´ıstica



Un problema      1 Un problema curioso
curioso

Plot

Problema

Resultado        2 Plot



                 3 Problema



                 4 Resultado



                                         2 / 24
                Intro

Principios de
 Estad´ıstica



Un problema
curioso

Plot

Problema
                    Lo que vamos a ver hoy es un problema curioso
Resultado
                                               n
                    relacionado a conteo y tama˜o de muestras.
                    Pero primero vamos a ver un par de cosas de R.




                                                                     3 / 24
                  a
                Gr´ficas

Principios de
 Estad´ıstica



Un problema
curioso             Una parte muy importante de R es poder visualizar tus
Plot                                                a
                    datos con diferentes tipos de gr´ficas. Para esto existen
Problema            muchos tipos de funciones que se dividen en:
Resultado                 bajo nivel porque son funciones que pueden graficar
                                        a
                          encima de gr´ficas previas. Por ejemplo, lines.
                                                                             a
                          alto nivel porque siempre crean un nuevo espacio gr´fico.
                          Por ejemplo, hist.
                                ındice de las funciones b´sicas escriban:
                    Para ver un ´                        a
                    library(help="graphics")




                                                                                     4 / 24
                par

Principios de
 Estad´ıstica



Un problema
curioso

Plot

Problema
                                                               a
                      Otro mundo de diversidad es el de los par´metros de estas
Resultado
                                     ı           a
                      funciones. En s´ muchos est´n definidos por par.
                                                    o
                      Chequen la ayuda de esta funci´n.
                        1     u            a                    ıtulo a una gr´fica?
                            ¿C´al es el par´metro para ponerle t´              a
                        2       e    a          ıan
                            ¿Qu´ par´metro usar´ para definir los l´  ımites del eje Y ?




                                                                                      5 / 24
                plot

Principios de
 Estad´ıstica



Un problema
curioso                        o       a
                       La funci´n de gr´ficas que vamos a usar hoy es plot. Con
Plot                                               a
                       esta pueden graficar puntos f´cilmente.
Problema
                       Primero chequen su ayuda y luego definan x y y .
Resultado
                 > x <- 1:100
                 > y <- (1:100)^2

                       Ahora grafiquen los puntos.
                 > plot(x, y)




                                                                             6 / 24
                plot(x,y)

Principios de
 Estad´ıstica




                            10000
Un problema                                                                                                                 q
                                                                                                                           q
curioso                                                                                                                   q
                                                                                                                         q
                                                                                                                        q
                                                                                                                       q
Plot                                                                                                                  q
                                                                                                                     q
                                                                                                                    q
                            8000
                                                                                                                   q
                                                                                                                  q
Problema                                                                                                         q
                                                                                                                q
                                                                                                               q
                                                                                                              q
                                                                                                             q
                                                                                                            q
Resultado                                                                                                 q
                                                                                                           q
                                                                                                         q
                                                                                                        q
                            6000




                                                                                                       q
                                                                                                      q
                                                                                                     q
                                                                                                    q
                                                                                                   q
                                                                                                  q
                                                                                                qq
                                                                                               q
                      y




                                                                                             qq
                                                                                           qq
                            4000




                                                                                         qq
                                                                                       qq
                                                                                     qq
                                                                                   qq
                                                                                 qq
                                                                               qq
                                                                             qq
                                                                           qq
                                                                         qq
                            2000




                                                                       qq
                                                                     qq
                                                                   qq
                                                                 qq
                                                               qq
                                                             qq
                                                           qq
                                                          qq
                                                      q qq
                                                       qq
                                                     q
                                                   qq
                                                  qq
                                                qq
                                               qq
                                            qqq
                                           qqq
                                     qqqqqq
                                    qqqqqq
                            0




                                    0              20                40                60               80               100

                                                                               x
                                                                                                                                7 / 24
                Plot mejorada

Principios de
 Estad´ıstica



Un problema
curioso

Plot                                    a     a
                    Ahora hacemos una gr´fica m´s completa
Problema

Resultado
                > plot(x, y, main = "Una exponencial",
                +     ylab = "Valores en Y", xlab = "Valores en X",
                +     col = "blue", type = "l")

                       e
                    ¿Qu´ hace el argumento type="l"?




                                                                 8 / 24
                Plot mejorada

Principios de
 Estad´ıstica
                                                     Una exponencial



                                    10000
Un problema
curioso

Plot                                8000
Problema

Resultado
                                    6000
                     Valores en Y

                                    4000
                                    2000
                                    0




                                            0   20     40        60    80   100

                                                       Valores en X
                                                                                  9 / 24
                     n        o
                Peque˜a revisi´n del for

Principios de
 Estad´ıstica



Un problema
                    Solo para que se acuerden :)
curioso

Plot            > res <- NULL
Problema        > for (i in 1:10) {
Resultado       +     if (i == 1) {
                +         res <- c(res, runif(1,
                +             0, 10))
                +     }
                +     else {
                +         res <- c(res, res[i - 1]^(1/i))
                +     }
                + }


                                                            10 / 24
                     n        o
                Peque˜a revisi´n del for

Principios de
 Estad´ıstica



Un problema
curioso

Plot

Problema        > plot(1:10, res, main = "Recordando el for",
Resultado       +     type = "o", ylim = c(0, 10),
                +     col = "forestgreen")




                                                                11 / 24
                Recordando el for

Principios de
 Estad´ıstica
                                             Recordando el for

Un problema


                            10
curioso

Plot                        8
Problema

Resultado
                                 q
                            6
                      res

                            4




                                     q
                            2




                                         q
                                             q    q          q   q   q   q   q
                            0




                                     2       4               6       8       10

                                                      1:10
                                                                                  12 / 24
                El origen

Principios de
 Estad´ıstica       Bueno, ya con la super intro podemos ahora plantear y
                    resolver el problema.
Un problema
curioso                         o                 a
                    Todo surgi´ porque Osam est´ buscando cosas raras que
Plot                                u
                    pasen con los n´meros al azar. Lo que me plante´ o
Problema            recientemente es que si tienes un alfabeto de posibilidades
Resultado
                         u                n
                    (o n´meros) de tama˜o 50...
                                                                ıas
                        Si sacas 5 elementos al azar, no esperar´ que ninguno se
                        repita.
                                               ıas
                        Si sacas 50, no esperar´ tener uno de cada uno, pues es
                        probable que se repita al menos uno.
                                              ıas
                        Si sacas 1000, esperar´ tener todos tus elementos al
                        menos una vez con varios repetidos.
                    Lo que queremos saber es que tan grande tiene que ser tu
                    muestra para que tengas todos tus elementos al menos
                    una vez. ¿Alguien sabe?
                                                                              13 / 24
                          ıfico
                Caso espec´

Principios de
 Estad´ıstica



Un problema
curioso
                    Luego de hablar con Osam, nos pusimos Sur y yo a
Plot                intentar encontrar la respuesta.
Problema                                     u
                    Digamos que tienes k n´mero de elementos (en el caso
Resultado
                                                u
                    anterior era 50) y h es el n´mero de elementos que
                    sacamos al azar.
                                                    u
                    Digamos que k = 2 y h = 2. ¿C´al es la prob. de que
                    aparezcan al menos una vez tus dos elementos? Pues con
                    esta k y h hay 4 casos en donde en 2 se cumple lo que
                                                            o
                    quieres. Osea tu probabilidad es de 2/4 ´ 0.5




                                                                           14 / 24
                     o
                Una f´rmula

Principios de
 Estad´ıstica

                        e
                    ¿Qu´ pasa cuando k = 2 y h = 3? Tienes 8 casos en los
Un problema
curioso             cuales se cumple lo que buscas en 6. Solo hay 2 casos
Plot                                   a
                    donde o todos son ´guila o todos son sol (si fuera una
Problema                e       ı
                    mon´da), as´ que tu prob. es de 6/8. Con k = 2 y h = 4
Resultado           tu prob es de 14/16.
                                                                    n
                    La probabilidad de que con una muestra de tama˜o h
                    aparezcan al menos una vez tus k elementos es igual a uno
                    menos la probabilidad de que no aparezcan.
                                       o
                    Generalizando, la f´rmula que te da tu probabilidad es:
                                                 k
                                                 1 (1− P(ki ))h
                                  Prob = 1 −
                                                    k −1

                                                                              15 / 24
                     o
                Una f´rmula

Principios de
 Estad´ıstica



Un problema
curioso

Plot

Problema            Donde P(ki ) es la probabilidad de que aparezca el
Resultado           elemento ki . Por ahora digamos que todo elemento tiene
                    la misma probabilidad, que es 1/k.




                                                                          16 / 24
                A trabajar :)

Principios de
 Estad´ıstica
                                                           a
                         Quiero que hagan un barrido de par´metros de la siguiente
Un problema              forma.
curioso

Plot
                         Examinen a las k desde 2 hasta 100.
Problema                 Para cada k examinen las h desde 1 hasta 1000.
Resultado
                                          a
                         Para cada k, ¿cu´l es la h a partir de donde nuestra
                         probabilidad1 es de 0.95 o mayor?

                         Para alguna k, grafiquen las probabilidades en el eje Y y
                         las h en el eje X .
                         Grafiquen su resultado con las k en el eje Y y las h
                         determinantes en el eje X .
                            e
                         ¿Qu´ es lo que notan?

                  1
                      De que aparezcan al menos una vez los k elementos.
                                                                                17 / 24
                Unos tips

Principios de
 Estad´ıstica



Un problema
curioso

Plot

Problema
                    Una forma de resolverlo es con:
Resultado               2 ciclos tipo for.
                                                                    e
                        2 objetos para almacenar sus resultados. Acu´rdense de
                        definirlos como NULL antes.
                            e
                        Acu´rdense de las funciones which y sum.




                                                                                 18 / 24
                Respuesta

Principios de
 Estad´ıstica
                      ı
                    As´ lo pueden resolver:
Un problema     > res.k <- NULL
curioso
                > for (k in 2:100) {
Plot
                +     res.h <- NULL
Problema

Resultado
                +     for (h in 1:1000) {
                +         no.salir <- NULL
                +         for (i in 1:k) {
                +             no.salir <- c(no.salir,
                +                 (1 - 1/k)^h)
                +         }
                +         res.h <- c(res.h, 1 - (sum(no.salir)/(k -
                +             1)))
                +     }
                +     res.k <- c(res.k, which(res.h >=
                                                                19 / 24
                Respuesta

Principios de
 Estad´ıstica



Un problema
curioso

Plot
                +         0.95)[1])
Problema
                + }
Resultado
                > head(res.k)
                [1]   6   9 12 15 18 21




                                          20 / 24
                  a
                Gr´ficas

Principios de
 Estad´ıstica



Un problema
curioso
                    Ya solo viendo el head(res.k) pueden darse cuenta de
Plot
                    hacia donde vamos...
Problema

Resultado       > plot(res.h, lty = 2, xlab = "H",
                +     ylab = "Prob.", main = "Hs para una K",
                +     col = "blue")
                > plot(res.k, 2:100, xlab = "H determinante",
                +     ylab = "K", main = "H determinantes para un barr
                +     col = "blue")




                                                                           21 / 24
                Hs para K

Principios de
 Estad´ıstica
                                                              Hs para una K

Un problema


                             1.0
                                                                           qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
                                                                        qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
                                                                       qqqqqqqqqqqq
                                                                       qqqqqqqqqqq
                                                                      qqqqqqqqqq
                                                                                  qqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
                                                                                 qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
                                                                                                        qqqqqqqq
                                                                                    qqqqqqqqqqqqqqqqqqqqqqqqqqqq
curioso                                                             qqqqqq
                                                                   qqqqq
                                                                   qqqq
                                                                  qqqq
                                                                  qqqq
                                                                 qqq
                                                                qqq
                                                               qqq
                                                               qqq
                                                               qqq
                                                              qq
                                                             qq
                                                             qq
                                                             qq
                                                            qq
                                                            qq
                                                           qq
                                                           qq
                                                          qq
                                                          qq
                                                          qq
                                                        qq
                                                         q
                                                         qq
Plot                                                  q
                                                      qq
                                                       q
                                                        q
                                                        q
                                                        q
                                                     q
                                                     qq
                                                      q
                                                    q
                                                    q
                             0.8
                                                   qq
                                                    q
                                                  qq
Problema                                         q
                                                  q
                                                  q
                                                  q
                                                 q
                                                 q
                                                q
                                                q
                                               qq
Resultado                                     qq
                                               q
                                              q
                                              q
                                              q
                                             q
                                             qq
                                             q
                                             q
                                            q
                             0.6




                                            q
                                            q
                                            q
                                            q
                                           q
                                           q
                                           q
                                           q
                     Prob.




                                          q
                                          q
                                          q
                                          q
                                          q
                                         q
                                         q
                                         q
                                        qq
                                        q
                             0.4




                                        q
                                        q
                                        q
                                        q
                                        q
                                        q
                                       q
                                       q
                                       q
                                       q
                                       q
                                       q
                                       q
                                       q
                                       q
                                      q
                                      qq
                                      q
                                      q
                                      q
                                      q
                                      q
                                      q
                                      q
                                     q
                                     q
                                     q
                                     q
                             0.2




                                     q
                                     q
                                     q
                                     q
                                     q
                                     q
                                    q
                                    q
                                    q
                                    q
                                    q
                                    q
                                    q
                                    q
                                   qq
                                   q
                                   q
                                   q
                                   q
                                   q
                                   q
                                   q
                             0.0




                                   q
                                   q



                                   0            200            400            600            800            1000

                                                                        H
                                                                                                                   22 / 24
                Hs determ. para K

Principios de
 Estad´ıstica
                                            H determinantes para un barrido de Ks



                         100
Un problema                                                                                                                          q
                                                                                                                                   qq
curioso                                                                                                                         qqq
                                                                                                                              qq
                                                                                                                            qq
                                                                                                                          qq
Plot                                                                                                                   qqq
                                                                                                                     qq
                                                                                                                   qq
                         80
                                                                                                                 qq
Problema                                                                                                      qqq
                                                                                                            qq
                                                                                                          qq
                                                                                                        qq
Resultado                                                                                            qqq
                                                                                                   qq
                                                                                                 qq
                                                                                               qq
                         60




                                                                                             qq
                                                                                           qq
                                                                                         qq
                                                                                       qq
                                                                                     qq
                     K




                                                                                   qq
                                                                                 qq
                                                                               qq
                                                                             qq
                                                                           qq
                         40




                                                                         qq
                                                                       qq
                                                                     qq
                                                                   qq
                                                                 qq
                                                               qq
                                                             qq
                                                           qq
                                                         qq
                                                       qq
                         20




                                                     qq
                                                   qq
                                                 qq
                                               qq
                                             qq
                                           qq
                                         qq
                                       qq
                                     qq
                                   qq
                         0




                               0                50             100              150             200              250              300

                                                                       H determinante
                                                                                                                                         23 / 24
                        o
                Conclusi´n

Principios de
 Estad´ıstica



Un problema
curioso

Plot

Problema            Podemos concluir que con P(ki ) iguales para todas las ki
Resultado           y h = 3 ∗ k tenemos 0.95 de probabilidad de que nuestros
                    k elementos aparezcan al menos 1 vez.
                           e
                    ¿Por qu´? :)




                                                                           24 / 24

								
To top