Docstoc

Poly

Document Sample
Poly Powered By Docstoc
					                                    Statistiques Descriptives
                                                 Serge Iovleff
                                                  5 avril 2007


              e
Table des mati`res
1 Introduction                                                                                                                                                           2
  1.1 Qu’est ce que les statistiques ? . . . . . . . .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   2
                       e
  1.2 Recueil des donn´es statistiques . . . . . . .     .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   2
       1.2.1 Le recensement . . . . . . . . . . . .      .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   2
                            e
       1.2.2 Le plan d’exp´rience . . . . . . . . .      .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   3
       1.2.3 L’exploitation des bases de donn´es e       .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   3
         e
  1.3 D´finitions . . . . . . . . . . . . . . . . . . .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   4

2 Statistiques descriptives univari´s e                                                                                                                                   5
       ´
  2.1 Etude statistique d’une variable qualitative . . . . . . .                     . . . . . . .               .   .   .   .   .   .   .   .   .   .   .   .   .   .    5
                                              e
       2.1.1 Distributions d’effectifs et de fr´quences . . . . .                     . . . . . . .               .   .   .   .   .   .   .   .   .   .   .   .   .   .    5
                  e
       2.1.2 Repr´sentations de la distribution . . . . . . . .                      . . . . . . .               .   .   .   .   .   .   .   .   .   .   .   .   .   .    6
       ´
  2.2 Etude statistique d’une variable quantitative . . . . . .                      . . . . . . .               .   .   .   .   .   .   .   .   .   .   .   .   .   .    7
                  e
       2.2.1 Repr´sentation de la distribution . . . . . . . . .                     . . . . . . .               .   .   .   .   .   .   .   .   .   .   .   .   .   .    7
               e    e
       2.2.2 R´sum´s statistiques de position : La moyenne et                             e
                                                                                     la m´diane                  .   .   .   .   .   .   .   .   .   .   .   .   .   .    9
               e    e
       2.2.3 R´sum´s statistiques de dispersion . . . . . . . .                      . . . . . . .               .   .   .   .   .   .   .   .   .   .   .   .   .   .   12

3 Statistiques descriptives bivari´s  e                                                                                                                                  13
  3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                                     .   .   .   .   .   .   .   .   .   .   .   13
       ´
  3.2 Etude statistique de deux variables qualitatives . . . . . . . . . . . . . . .                                         .   .   .   .   .   .   .   .   .   .   .   14
       3.2.1 Distributions marginales et conditionnelles . . . . . . . . . . . . .                                           .   .   .   .   .   .   .   .   .   .   .   15
                 e
       3.2.2 Ind´pendances de deux variables . . . . . . . . . . . . . . . . . . .                                           .   .   .   .   .   .   .   .   .   .   .   15
       ´
  3.3 Etude statistique d’une variable qualitative et d’une variable quantitative                                            .   .   .   .   .   .   .   .   .   .   .   16
       ´
  3.4 Etude statistique de deux variables quantitatives . . . . . . . . . . . . . .                                          .   .   .   .   .   .   .   .   .   .   .   17

      e            e
4 La r´gression lin´aire                                                                                                                                                 19

                                                  e e
A Liste des variables pour les clientes d’une soci´t´ de VPC                                                                                                             22

B Programmes R                                                                                                                                                           24
                         e ´
  B.1 Traitements univari´s : Etude d’une variable qualitative . . . . . . . . . . . . . . . . . . . . .                                                                 24
                         e ´
  B.2 Traitements univari´s : Etude d’une variable quantitative . . . . . . . . . . . . . . . . . . . .                                                                  25

C Traitements bivari´se                                                                                                                                                  28
  C.1 Analyse de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                                                             28
        e
  C.2 R´gression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                                                           29




                                                         1
1       Introduction
1.1     Qu’est ce que les statistiques ?
                                                                    e                     e
Definition 1. On appelle Statistique Descriptive l’ensemble des m´thodes et techniques math´matiques
                e         e          e                         e
permettant de pr´senter, d´crire et r´sumer un ensemble de donn´es.
         e             e                                     e            e
    Les m´thodes utilis´es en Statistique descriptive sont tr`s vite limit´es.
                                e                                              a    e
Definition 2. La Statistique Inf´rentielle est l’ensemble des techniques visant ` mod´liser un ensemble de
    e                              e          a
donn´es en vue d’une extrapolation ´ventuelle ` un ensemble plus vaste.
                      e                         e                            e
    La statistique inf´rentielle utilise de mani`re importante les probabilit´s. Elle atteint ses limites lorsque
              e                                        e            e                e    ee e
l’on est en pr´sence d’un trop grand nombre de donn´es, ou en pr´sence de donn´es h´t´rog`nes.
                                                                              a    e         a
Definition 3. L’apprentissage statistique est l’ensemble des techniques visant ` mod´liser et ` extraire
                                                            e
automatiquement une connaissance d’une grande base de donn´es.
                        e             e             e
    On atteint la fronti`re avec les m´thodes utilis´es en Intelligence Artificielle.

1.2                     e
        Recueil des donn´es statistiques
1.2.1    Le recensement
                   e           e                                       e      e
Exemple 4. Pour ´tudier la r´partition des terres agricoles d’une r´gion, on r´alise le recensement des exploi-
                                                                                                     e
tations agricoles (soit n leur nombre) et on note pour chacune d’elles un certains nombre de caract´ristiques
                                              a
comme : leurs tailles, le type de cultures, l’ˆge de l’exploitant, ....




         e                            e
    Les r´sultats obtenus sont consign´s dans un tableau :

                         N     Taille(ha)   ˆ       e
                                            Age (ann´es)    Culture                 e
                                                                       Nbre d’employ´s
                         1         50            50           bl´e            2
                         2       50,5            45          vigne            4
                         3         35            38          orge             3
                         .
                         .          .
                                    .             .
                                                  .            .
                                                               .              .
                                                                              .
                         .          .             .            .              .
                        630       10             57          vigne               1

                            e                                                         e
                  Tab. 1 – R´sultat du recensement des exploitations agricoles de la r´gion


                                       e          e       e
    A partir de cette table on pourra r´aliser diff´rentes ´tudes statistiques.


                                                        2
1.2.2                e
        Le plan d’exp´rience
                   e                        e
Exemple 5. Pour ´tudier l’effet d’un antid´presseur, on administre en double aveugle un placebo et un
                           a            e         e                                           a
principe actif. On mesure ` intervalle r´gulier l’´volution de la maladie. On cherche ensuite ` en tirer des
                         e
conclusions sur l’efficacit´ du traitement.
                          e                                       e       a
   Pour mesurer l’efficacit´ du produit on demande aux patients de r´pondre ` un questionnaire de ce type
tous les mois pendant un an :
  1. I say how bad or useless I am, for example, that I am a burden on others
  2. I laugh or cry suddenly
  3. I often moan and groan in pain or discomfort
  4. I act nervous or restless
  5. I keep rubbing or holding areas of my body that hurt or are uncomfortable
  6. I talk about the future in a hopeless way
  7. I get sudden frights
        e                            e
   Les r´sultats obtenus sont consign´s dans un tableau :

                                 Visite   Individu   Rep1     ...   Rep7   Groupe
                                   1         1        0       ...    1       2
                                   1         2        0       ...    0       1
                                   .
                                   .          .
                                              .        .
                                                       .       .
                                                               .      .
                                                                      .       .
                                                                              .
                                   .          .        .       .      .       .
                                   1        175       1       ...    0       1
                                   2         1        1       ...    1       2
                                   2         2        0       ...    0       1
                                   .
                                   .         .
                                             .        .
                                                      .        .
                                                               .     .
                                                                     .       .
                                                                             .
                                   .         .        .        .     .       .
                                  2         175       1       ...    0       1
                                  12         1        1       ...    1       2
                                  12         2        0       ...    0       1
                                   .
                                   .         .
                                             .        .
                                                      .        .
                                                               .     .
                                                                     .       .
                                                                             .
                                   .         .        .        .     .       .
                                  12        175       1       ...    0       1

                               e
                     Tab. 2 – R´ponses de 175 personnes tous les mois pendant un an


                                               u                         e
   Cet exemple est particulier dans la mesure o` les individus sont index´s par le temps : c’est ce que l’on
             e
appelle une s´rie chronologique.

1.2.3                                   e
        L’exploitation des bases de donn´es
                                e
Exemple 6. Un VPCiste poss`de environ 3 millions de clientes. Pour chaque cliente il dispose d’environ 3000
      e                                     e
donn´es. En vue d’avoir une profitabilit´ maximum, l’envoi d’une promotion est faite sur une partie de ces
clientes. L’objectif est d’identifier les clientes qui sont le ”plus” susceptible d’acheter.
         e                            ee                                          e
   Pour r´aliser son objectif, la soci´t´ doit pouvoir exploiter les bases de donn´es internes et externes qui
vont nous renseigner sur le comportement d’achat des clientes.
          e
   Cela n´cessite de stocker un maximum d’information ”utile” sur les clientes (comportements d’achats
    e                 a                               e                              a         e
pass´s, mode d’achat, ˆge, boutiques d’achats,...) et ´ventuellement d’avoir recours ` des pan`listes (INSEE,
SECODIP,...)




                                                          3
Liste des variables
                    e
   – Numcli num´ro de client
           e
   – Dep d´partement
   – Com commune
            e
   – Reg R´gion
               e
   – Sig Signal´tique
              ˆ
   – Agepro Age Probable
                  e     a
   – RpQuEn R´ponse ` la question “ Avez vous des enfants ?”
                  e    a
   – RpQuTr R´ponse ` la question “Travaillez vous ?”
                         e
   – Unitur Taille d’unit´ urbaine
   – Niveauvie Niveau de vie
                ´                            e
   – PROPRIETAIRES proportion de propri´taires de leur logement dans l’iris
                                                   e
   – STABILITE mesure du lien employeurs-employ´s dans l’iris par type de contrat.
                              e                      e
   – CONFORT mesure de l’´quipement en bien ou pi`ces de conforts des logements de l’iris
                    e ea                        o
   – REVENU r´alis´ ` partir des fichiers des impˆts

1.3     e
       D´finitions
Definition 7. Une population statistique est l’ensemble sur lequel on effectue des observations. Elle est bien
  e e                           ıt´         e
sp´cifi´e s’il n’y a pas d’ambigu¨ e sur la d´finition de l’ensemble.

   Dans la partie Statistique Descriptive on appellera population l’ensemble des individus effectivement
e    e                   a e                              a                                      e
´tudi´s, sans chercher ` ´tendre les constatations faites ` une population plus vaste, ce qui rel`ve de la
               e
Statistique Inf´rentielle.
                           e e                   e
   Dans les exemples pr´c´dents, les populations ´taient :
                                                 e
  1. L’ensemble des exploitation agricole de la r´gion,
                                     e                              e
  2. L’ensemble de personnes interrog´es dans le cadre d’un essai th´rapeutique,
                                          a                e
  3. L’ensemble des clientes d’un VPCiste ` un instant donn´.

                                     e                       ee                                    e    e
Definition 8. Les individus (ou unit´s statistiques) sont les ´l´ments de la population statistique ´tudi´e.
Pour chaque individu, on dispose d’une ou plusieurs observations.

                       e e                     e
   Dans les exemples pr´c´dents, les individus ´taient :
  1. Une exploitation agricole,
  2. Un patient,
  3. Une cliente.

                                                e                                     e         e
Definition 9. Une variable statistique (ou caract`re statistique) est ce qui est observ´ ou mesur´ sur les
individus d’une population statistique.

Definition 10. Une variable est dite, selon le cas :
                                                                       e                    e
  1. Quantitative : ses valeurs sont des nombres exprimant une quantit´, sur lesquels les op´rations arith-
       e
     m´tiques (somme, etc...) ont un sens.
                             e         e
     La variable peut alors ˆtre discr`te ou continue selon la nature de l’ensemble des valeurs qu’elle est
                                         e
     susceptible de prendre (valeurs isol´es ou intervalle de R).
                                               e          e                 e           e                  e
  2. Qualitative : ses valeurs sont des modalit´s, (ou cat´gories, ou caract`res) exprim´es sous forme litt´rale
                             e                        e               e
     ou par un codage num´rique sur lequel des op´rations arithm´tiques n’ont aucun sens.
                                                                                               e
     On distingue des variables qualitatives ordinales ou nominales, selon que les modalit´s peuvent ˆtre   e
                            e
     naturellement ordonn´es ou pas.




                                                      4
                                                           e
    Une variable est dichotomique si elle n’a que 2 modalit´s.




                                         e   e        e
                               Fig. 1 – R´sum´ des diff´rents types de variables


2                                        e
        Statistiques descriptives univari´s
2.1     ´
        Etude statistique d’une variable qualitative
2.1.1                                     e
         Distributions d’effectifs et de fr´quences
          e                                                                   e
    En pr´sence d’une variable qualitative X pouvant prendre K modalit´s x1 , x2 , ..., xK , on commence par
 e              a             a                                    e                     e            e
r´aliser un tri ` plat, c’est ` dire faire l’inventaire des modalit´s ou valeurs rencontr´es dans la s´rie, avec les
effectifs correspondants. On construit donc un tableau de la forme :

                                                     e
                                              Modalit´s      Effectifs
                                                x1             n1
                                                x1             n2
                                                 .
                                                 .              .
                                                                .
                                                 .              .
                                                  xK           nK
                                                 Total          n

                                               a
                                  Tab. 3 – Tri ` plat (distribution d’effectifs)


   On parle alors de la distribution d’effectifs de la variable X.
                                               e                      e
   On calcule ensuite les proportions (ou fr´quence) de chaque modalit´ en divisant l’effectif de chaque
       e
modalit´ par l’effectif total
                                                         nk
                                                   fk =
                                                          n
    e
On r´sume cette distribution dans un tableau de la forme :




                                                         5
                                                   e
                                            Modalit´s         e
                                                            fr´quences
                                              x1                f1
                                              x1                f2
                                               .
                                               .                 .
                                                                 .
                                               .                 .
                                               xK              fK
                                              Total             1

                                                              e
                                   Tab. 4 – Distribution de Fr´quences


                                                     e
Definition 11. Le mode de la variable X est la modalit´ ayant l’effectif le plus important.

   Par exemple, si on a un tableau de la forme

                                        e
                                     Num´ro de Cliente               e
                                                               Signal´tique
                                            1                      M.
                                            2                     Mme
                                            3                      Mlle
                                            .
                                            .                       .
                                                                    .
                                            .                       .
                                            627630                  Mme

                                                              e
                                      Tab. 5 – Variable Signal´tique


                    a
   On va par un tri ` plat construire un tableau de la forme :

                                   e
                             Signal´tique    Nombre de Clientes          Proportions
                                 M.               60985                    0,0972
                                Mme              424641                    0,6766
                                 Mlle            142004                    0,2262
                                Total            627630                       1

                                                                        e
                            Tab. 6 – Distributions de la Variable Signal´tique


                                e
   Le mode de la variable Signal´tique est ”Mme”.

2.1.2       e
        Repr´sentations de la distribution
                                        e       a
   Une variable qualitative peut se repr´senter ` l’aide de trois types de diagrammes :
  1. Un diagramme rectangulaire
  2. Un diagramme en camembert (ou semi-camembert)
                      a
  3. Un diagramme en bˆton

Remarque 12. A lire dans la documentation en ligne de R :  Pie charts are a very bad way of displaying
information. The eye is good at judging linear measures and bad at judging relative areas. A bar chart or
dot chart is a preferable way of displaying this type of data. 
        e                                        e                                              e
   En pr´sence d’une variable ordinale il est imp´ratif de respecter l’ordre naturel des modalit´s




                                                        6
                                                                        e
                     Fig. 2 – Distribution de la taille des habits achet´s par les clientes

2.2     ´
        Etude statistique d’une variable quantitative
    Soit X une variable quantitative observ´e sur une population P de taille n. Le but d’une ´tude de
                                                e                                                  e
statistique descriptive de cette variable est :
                     a                                                                           e
    – de visualiser ` l’aide de graphique la distribution de cette variable, les principales repr´sentations
            e
      utilis´es sont :
                             a                            e
        1. l’histogramme en bˆton si la variable est discr`te
                                   e
        2. l’histogramme des densit´s si la distribution est continue
                           e             e                         e
        3. la courbe des fr´quences cumul´es (ou des effectifs cumul´s)
                 ıtes a
        4. les boˆ ` moustache
         e                                        a
   – de r´sumer la distribution de cette variable ` l’aide de quelques Statistiques, les principales statistiques
     sont :
                                                                 e
        1. des statistiques de positions comme la moyenne et la m´diane
        2. des statistiques de dispersions comme la variance ou l’intervalle inter-quartile
        3. des statistiques de formes comme le kurtosis et le skewness
                 e                                                           e   ee
        4. des d´coupages de la distribution de la variable en quantit´s d’int´rˆt comme les quartiles, les
            e                                        e    e e
           d´ciles, les percentiles,... et d’une mani`re g´n´rale les fractiles.

2.2.1       e
        Repr´sentation de la distribution
                     a
L’histogramme en bˆtons
   On consid`re une variable X quantitative discr`te qui prend un nombre fini de valeurs {x1 , x2 , . . . , xK }.
            e                                     e
On dispose pour chacune de ces valeurs de l’effectif correspondant {n1 , n2 , . . . , nK }.
                    e
Exemple 13. On s’int´resse au nombre d’enfants des clientes d’un VPCiste et on a un tableau de la forme :

              Nombre d’enfants          0         1            2       3       4       5       6
              Nombre de Clientes      81023    123050       110532   76298   42087   10965    782

             Tab. 7 – Distribution d’effectif des clientes pour la variable  Nombre d’enfants 




                                                        7
                                                                            a
                                      Fig. 3 – Un exemple d’histogramme en bˆton

L’histogramme des densit´s    e
                                                                                            a
    La variable est continue et prend ses valeurs dans un intervalle [l, L[. On va chercher ` regrouper les
                     e                                                   e
valeurs proches, en d´coupant l’intervalle des valeurs en classes contigu¨s, de la forme :
                                            [l0 ; l1 [, [l1 ; l2 [, [l2 ; l3 [, . . . [lK−1 ; lK [
                  e                                                         e
On appelle ∆ ce d´coupage, et on note n1, n2, . . . , nK les effectifs associ´s. On calcule pour chaque intervalle,
     e             e                e      e               e
la fr´quence associ´e puis la densit´ de fr´quence. On r´sume les calculs dans un tableau de la forme :
                                                                                                                  e
                                                                                                          Densit´s de
             No       Intervalles          Amplitudes                 Effectifs                 e
                                                                                             Fr´quences
                                                                                                             e
                                                                                                           fr´quence
             k         [lk−1 , lk [           ak                        nk                       fk
                                                                                                               dk
             1           [l0 , l1 [              a1                       n1                         f1        d1
             .
             .               .
                             .                    .
                                                  .                        .
                                                                           .                          .
                                                                                                      .         .
                                                                                                                .
             .               .                    .                        .                          .         .
             k         [lk−1 , lk [              ak                       nk                         fk        dk
             .
             .               .
                             .                    .
                                                  .                        .
                                                                           .                          .
                                                                                                      .         .
                                                                                                                .
             .               .                    .                        .                          .         .
             K        [lK−1 , lK [               aK                       nK                         fK        dK
L’amplitude de l’intervalle k est donn´e par ak = lk − lk−1 , la fr´quence des individus dans l’intervalle k est
                                      e                            e
                                                                                                   f
donn´e par fk = nk , finalement la densit´ de fr´quence dans l’intervalle k est donn´e par dk = ak .
    e             n                      e      e                                     e              k

Definition 14. L’histogramme des fr´quences associ´e au d´coupage ∆ est le graphe de la fonction f ∆
                                     e               e       e
                             e
constante par morceau sur R d´finie par
                                              
                                               0 si x < l0
                                    f ∆ (x) =   dk si x ∈ [lk−1 ; lk [
                                                0 si x ≥ lk
                                              

Proposition 15. La fonction f ∆ v´rifie
                                 e
                                                          lk
                                                                f ∆ (x)dx = fk
                                                         lk−1

et
                                                          +∞
                                                                f ∆ (x)dx = 1.
                                                         −∞



                                                                      8
                    e                                                          e
Exemple 16. On s’int´resse au montant des achats des clientes au cours de l’ann´e :
                                                                               Effectifs
                           NO       Intervalles         Amplitudes
                                                                             (en millier )
                            k        [lk−1 , lk [          ak
                                                                                 nk
                            1           [0, 20[               10                  71
                            2          [20, 50[                30                 80
                            3          [50, 80[                30                112
                            4         [80, 100[                20                123
                            5        [100, 150[                50                132
                            6        [150, 300[               150                 96
                            7        [300, 500[               200                 40
                            8       [500, 1000[               500                  2
                            9      [1000, 2000[              1000                0, 1

              e             e
Courbes des fr´quences cumul´es

                                                      e                    e             e
Definition 17. Si X est une variable quantitative discr`te, la courbe des fr´quences cumul´es est la fonction
                               e
F constante par morceau sur R d´finie par
                                          
                                           0 si x < x0
                                  F (x) =     Fk−1 si x ∈ [xk−1 ; xk [
                                              1 si x ≥ xK
                                          

             k
avec Fk = l=1 fl .
                                                                    e                e   e      e
    Si X est une variable quantitative continue, la courbe des fr´quences cumul´es associ´e au d´coupage ∆
est la fonction F ∆ lin´aire par morceau sur R d´finie par
                       e                          e
                                      
                                       0 si x < l0
                                                              k −Fk−1
                            F ∆ (x) =   Fk−1 + (x − lk−1 ) Fk −lk−1 si x ∈ [lk−1 ; lk [
                                                            l
                                        1 si x ≥ lk
                                      

             k
avec Fk =    l=0   fl .

Proposition 18. On a
                                                             x
                                            F ∆ (x) =            f ∆ (t)dt
                                                         −∞


2.2.2    e   e                                               e
        R´sum´s statistiques de position : La moyenne et la m´diane
                                e
Calcul de la moyenne sur la s´rie brute
                       e   e                                  e              e
   La moyenne est le r´sum´ statistique le plus souvent utilis´ pour caract´riser la position de la variable
                       u ¯       e                  e                e
X. On la note m(X) o` X. La m´diane est aussi tr`s souvent utilis´e, on la note M (X). Pour calculer la
                                            e
moyenne, on fait la somme des valeurs observ´es et on divise par l’effectif total :
                                                                 n
                                                          1
                                               m(X) =                  Xi
                                                          n      i=1

Exemple 19. Par exemple, si on a un tableau de la forme




                                                         9
                                       e
                                    Num´ro de Cliente            CA (en euros)
                                           1                              0,00
                                           2                             50,40
                                           3                             10,00
                                           .
                                           .                                 .
                                                                             .
                                           .                                 .
                                              627630                     10,70
                                               Total             20 460 738,00

                                              Tab. 8 – Variable C.A.


   On trouve que le chiffre d’affaire moyen par cliente est de :
                                                        20460738
                                         m(CA) =                 = 32, 6
                                                         627630

Calcul de la moyenne dans le cas de regroupement d’effectifs
  On a un tableau de la forme :
                             Intervalles            Valeur
                     NO                                                     Effectifs       e
                                                                                         Fr´quences
                            (cas continu)         (ou milieu)
                      k                                                       nk             fk
                               [lk−1 , lk [           xk
                     1           [l0 , l1 [           x1                      n1            f1
                     .
                     .               .
                                     .                 .
                                                       .                       .
                                                                               .             .
                                                                                             .
                     .               .                 .                       .             .
                     k         [lk−1 , lk [           xk                      nk            fk
                     .
                     .               .
                                     .                 .
                                                       .                       .
                                                                               .             .
                                                                                             .
                     .               .                 .                       .             .
                     K        [lK−1 , lK [            xK                      nK            fK
                                       ee
Dans ce cas on effectue une moyenne pond´r´e par les effectifs :
                                                       K                K
                                                  1
                                       m(X) =                nk xk =         fk xk
                                                  n
                                                       k=1             k=1



                                                                               e           e
Proposition 20. Soit X une variable statistique et soient a et b deux nombres r´els. Consid´rons la nouvelle
variable Z = aX + b, on a alors
                                  m(Z) = m(aX + b) = am(X) + b.

   On peut utiliser cette proposition pour calculer la moyenne de X en utilisant un changement de variable.
Cela permet de simplifier les calculs.

                e                e
Calcul de la m´diane sur la s´rie brute
                      e
   Pour calculer la M´diane, on commence par ordonner les valeurs prises par la variable statistique. On
                  e                        e
note X(1) la premi`re valeur, X(2) la deuxi`me valeur, ..., X(n) la plus grande valeur. On a donc :

                                          X(1) ≤ X(2) ≤ . . . ≤ X(n)

   On pose ensuite                     
                                        X( n+1 )                      si n est impair
                                              2
                               M (X) =   X      +X
                                        ( n ) ( n +1)
                                            2      2
                                                                       si n est pair
                                                       2




                                                           10
                   e
Exemple 21. Si on r´ordonne les clientes par CA, on aura un tableau de la forme

                           Rang de la cliente       e
                                                 Num´ro de Cliente     CA (en euros)
                                  1                     1                       0,00
                                  2                    126                      0,00
                                  3                    260                      0,00
                                   .
                                   .                    .
                                                        .                          .
                                                                                   .
                                   .                    .                          .
                                313815                 42004                     40,70
                                313816                  4816                     41,00
                                   .
                                   .                      .
                                                          .                          .
                                                                                     .
                                   .                      .                          .
                                627630                608524                  6275,70
                                 Total             20 460 738,00

                                            Tab. 9 – Variable C.A.


                                     e
   On trouve que le chiffre d’affaire m´dian des clientes est de :
                                                  40, 70 + 41, 00
                                      M (CA) =                    = 40, 85
                                                         2

Les fractiles

                                                                                                 e
Definition 22. On appelle fractiles d’ordre k les valeurs G1 , G2 , . . . , Gk−1 qui divisent la s´rie en k parties
           e
d’effectifs ´gaux.

                                                         e                      e                        e
   Par exemple les quartiles Q1 , Q2 , Q3 divisent la s´rie statistique ordonn´e en 4 parties d’effectifs ´gaux.
         e                                     e           e                           e
   Les d´ciles, D1 , D2 , ..., D9 divisent la s´rie ordonn´e en dix parties d’effectifs ´gaux.
             e                            e                                                               e
   Sur la s´rie brute, les fractiles se d´terminent en ordonnant les valeurs et en faisant des paquets ´gaux
en effectifs.

                e                            a                                 e
Calcul de la m´diane (et des fractiles) ` l’aide de la courbe des fr´quences cumul´es            e
                                   e                                              e
   On ne traite que le cas de la m´diane, les autres fractiles se traitent de mani`re similaire.
   On cherche le nombre M tel que F ∆ (M ) = 0, 5. On commence par d´terminer l’intervalle [lk−1 , lk [ tel
                                                                             e
que Fk−1 ≤ 0, 5 < Fk . Si Fk−1 = 0, 5 alors M = lk−1 , sinon M est une nombre dans l’intervalle ]lk−1 , lk [ `
                                                                                                             a
 e                              e
d´terminer par interpolation lin´aire.




                                                                e
                                         Fig. 4 – Calcul de la m´diane




                                                       11
        e      e                     e              e
   D’apr`s la d´finition 17, on doit r´soudre en M l’´quation
                                                                         Fk − Fk−1
                                       0, 5   =   Fk−1 + (M − lk−1 )
                                                                          lk − lk−1
                                              ⇔
                                M − lk−1           lk − lk−1
                                              =
                               0, 5 − Fk−1        Fk − Fk−1
                                         e
C’est un rapport d’accroissement. On en d´duit que
                                                                    lk − lk−1
                                     M = lk−1 + (0, 5 − Fk−1 )
                                                                   Fk − Fk−1


2.2.3    e   e
        R´sum´s statistiques de dispersion
                       e                                                              e
   La moyenne et la m´diane sont des valeurs autour desquelles les observations sont r´parties. On cherche
 e        a
d´sormais ` quantifier la dispersion des mesures autour de ces valeurs centrales.




                                         e                  e                             e
             Fig. 5 – Deux distributions ´galement positionn´es mais plus ou moins dispers´es

                          e
   Les statistiques utilis´es sont
  1. L’´tendue E = Xmax − Xmin , cette mesure est peu pratique et tr`s sensible aux valeurs extrˆmes de la
        e                                                                 e                        e
      e
     s´rie (erreurs de saisie,...)
  2. L’intervalle interquartile Q3 − Q1
                                   n          ¯
  3. L’´cart absolu moyen 1/n i=1 |Xi − X| mais il est peu utilis´ car il se prˆte mal au calcul
        e                                                               e         e
                                                  e             e                              e      e      a
  4. La variance est la statistique la plus utilis´e, elle est d´finie comme la moyenne des carr´s des ´carts `
     la moyenne.
           e
Pour une s´rie brute
                                                       n
                                                    1
                                         V (X) =          (Xi − m(X))2
                                                    n i=1
                                      e
et lorsque l’on a des effectifs regroup´s :
                                                      K
                                                  1
                                        V (X) =             nk (xk − m(X))2
                                                  n
                                                      k=1

  e               e                        e
L’´cart-type est d´fini comme la racine carr´e de la variance s(X) =           V (X)


                                                            12
      e e
Propri´t´s de la Variance

Proposition 23. Soit X une variable statistique.
    1. On a V (X) ≥ 0 et V (X) = 0 ssi Xi = c pour tout i.
    2. On a V (X) = m(X 2 ) − m(X)2 , c’est ` dire que la variance est la moyenne de la variable X 2 moins la
                                            a
                     e e          e
       moyenne de X ´lev´e au carr´.
    3. Pour tous r´els a et b, V (aX + b) = a2 V (X) et s(aX + b) = |as(X)
                  e
                                                   e
    4. Pour toute population de moyenne m et d’´cart-type s , la proportion d’individus appartenant ` des  a
       intervalles de la forme [m − ks; m + ks] est sup´rieure ou ´gale ` 1 − 1/k 2 , pour tout k > 1 (in´galit´
                                                       e          e     a                                e     e
                    e     e
       de Bienaym´-Tch´bichev).

Les boˆ      a
       ıtes ` moustaches
         ıte `
   La boˆ a moustache (le box-plot) est un graphique qui permet de visualiser la distribution d’une variable
                             e
X. On la construit de la mani`re suivante :
    1. On trace une boˆ de longueur Q3 − Q1
                      ıte
                       ıte            a
    2. On partage la boˆ par un trait ` la position M
    3. on trace la moustache de gauche de longueur min(Q1 − Xmin , 1, 5 ∗ (Q3 − Q1 ))
    4. on trace la moustache de droite de longueur min(Xmax − Q3 , 1, 5 ∗ (Q3 − Q1 ))
    5. Si certains individus sont en dehors des moustaches, on les repr´sente par des ∗.
                                                                       e


3                                      e
       Statistiques descriptives bivari´s
3.1      Introduction
                     e                       e    e
    A la suite d’une ´tude statistique, on a ´tudi´ un certain nombre de variables, par exemple :
    1. le nombre d’enfant par cliente,
                                      e e      e
    2. le montant des achats sur l’ann´e d´pens´ par cliente,
                                            e
    3. les types des produits les plus achet´s par les clientes,
    4. ...
                                                  e                                e           a
    Mais ceci ne nous permet pas de mettre en ´vidence les liens existant peut ˆtre entre l’ˆge et les produits
      e
achet´s :
    – les clientes  jeunes ach`tent elles les mˆmes produits que leurs aˆ ees ?
                                 e               e                           ın´
                                e            e
    – le type de produit achet´ est-il le mˆme quelle que soit le nombre d’enfant de la cliente ?
                             e     e
    – Le montant moyen d´pens´ par une cliente est-il fonction de sa CSP ?
    – ...
                 a                                                       e         a
    On a jusqu’` maintenant fait de la statistique descriptive univari´e, c’est-`-dire de la description d’une
 e                                             a
s´rie statistique selon une seule variable (l’ˆge par exemple).
                   e      e e                                                                   e e
    En plus de l’´tude s´par´e de chaque variable, on veut visualiser, et mesurer le cas ´ch´ant, les liens
                                          a                                                         e
existant entre les variables prises deux ` deux : c’est l’objet de la statistique descriptive bivari´e.
                            e e                                                                     e
    Ceci se fera, comme pr´c´demment, au moyen de tableaux, graphiques, et calcul de param`tres-cl´s.    e
                                            u                                                  e
    On traitera donc maintenant du cas o` l’on dispose de deux variables, X et Y , observ´es sur les mˆmes e
n individus.
                                              e                                   e
    Chacune des deux variables pouvant ˆtre qualitative, quantitative discr`te, quantitative continue, on
envisagera chaque cas de figure.




                                                        13
3.2     ´
        Etude statistique de deux variables qualitatives
                                                                   e
   X est une variable qualitative pouvant prendre K modalit´s x1 , . . . , xK et Y est une variable qualitative
                           e
pouvant prendre L modalit´s y1 , . . . , yL . On construit le tableau de contingence :
                               X \Y      y1    ...     yl            ...      yL    Total
                                x1      n11    ...    n1l            ...     n1L     n1.
                                 .
                                 .        .
                                          .             .
                                                        .                      .
                                                                               .       .
                                                                                       .
                                 .        .             .                      .       .
                                xk      nk1    ...    nkl            ...     nkL     nk.
                                 .
                                 .        .
                                          .             .
                                                        .                      .
                                                                               .       .
                                                                                       .
                                 .        .             .                      .       .
                                xK      nK1    ...    nKl            ...     nKL     nK.
                               Total    n.1    ...    n.l            ...     n.L   n.. = n
        e                                                                    e
qui repr´sente la distribution d’effectif du couple de variable (X, Y ). Par d´finition
                                                               L
                                               nk.    =              nkl
                                                               l=1
                                                               K
                                               n.l    =              nkl .
                                                           k=1

                                                                                    e
Exemple 24. On a une variable binaire qui prend la valeur 1 si la cliente ach`te du haut de gamme et 0
sinon, et une variable binaire qui prend la valeur 1 si la cliente fait ses achats par internet 0, sinon.
    Lorsque l’on croise ses deux variables, on obtient un tableau de la forme :

                           Haut de Gamme \ Internet             Faux           Vrai     Total
                                     Vrai                       52482         126214   178696
                                    Faux                       154852         205007   359859
                                    Total                      207334         331221   538555


                                    e                     e
      Tab. 10 – Les clientes qui ach`tent par internet ach`tent elles plus facilement du haut de gamme ?

                        e                                          e   e
   La distribution de fr´quence du couple de variable (X, Y ) est r´sum´e dans un tableau similaire :
                               X \Y       y1    ...    yl            ...      yL    Total
                                x1       f11    ...   f1l            ...     f1L     f1.
                                 .
                                 .         .
                                           .            .
                                                        .                      .
                                                                               .       .
                                                                                       .
                                 .         .            .                      .       .
                                xk       fk1    ...   fkl            ...     fkL     fk.
                                 .
                                 .         .
                                           .            .
                                                        .                      .
                                                                               .       .
                                                                                       .
                                 .         .            .                      .       .
                                xK       fK1    ...   fKl            ...     fKL     fK.
                               Total     f.1    ...   f.l            ...     f.L   f.. = 1
Exemple 25. On obtient un tableau de la forme :

                             Haut de Gamme \ Internet                Faux     Vrai     Total
                                       Vrai                          0,097    0,234    0,331
                                      Faux                           0,287    0,382    0,669
                                      Total                          0,384    0,616    1,000


                              e                     e
Tab. 11 – Les clientes qui ach`tent par internet ach`tent elles plus facilement du haut de gamme ? (suite)


                                                          14
3.2.1   Distributions marginales et conditionnelles
                                                        e                                           e
Definition 26. On appelle distribution marginale des fr´quences (des effectifs) la distribution des fr´quences
                                                                                e
(effectifs) obtenue dans la marge d’un tableau de contingence, en ajoutant les fr´quences (effectifs) ligne par
ligne, ou colonne par colonne.
                                                                      e
    La distribution conditionnelle de la variable Y , pour X = xk fix´, est la distribution statistique des
                                                                      e    a
valeurs de Y obtenue en se limitant aux individus pour lesquels X est ´gal ` xk .
                                                                                        e
   La distribution conditionnelle de Y sachant X = xk s’obtient en calculant les quantit´s :
                                                fkl   nkl /n   nkl
                                                    =        =
                                                fk.   nk. /n   nk.
                                                                                     e
La distribution conditionnelle de X sachant Y = yl s’obtient en calculant les quantit´s :
                                                fkl   nkl /n   nkl
                                                    =        =
                                                f.l   n.l /n   n.l

Exemple 27. On obtient les distributions conditionnelles du  Haut de Gamme sachant  Internet sui-
vantes :

                                 Haut de Gamme \ Internet            Faux      Vrai
                                           Vrai                      0,25      0,38
                                          Faux                       0,75      0,62
                                          Total                      1,00      1,00


                              e                     e
Tab. 12 – Les clientes qui ach`tent par internet ach`tent elles plus facilement du haut de gamme ? (suite)

                                                                                                       e
   On observe sur cet exemple que parmi les acheteuses sur internet, une proportion plus importante ach`te
du haut de gamme. Il semble qu’il existe une liaison entre ces deux variables.

3.2.2      e
        Ind´pendances de deux variables
            e
Notion d’ind´pendance
                                                                  e
Definition 28. Deux variables statistiques X et Y sont dites ind´pendantes si la distribution conditionnelle
                                         a          e
de Y , pour tout x, est constante (c’est-`-dire ne d´pend pas de x). Cela signifie que les lignes du tableau de
                                             c e
contingence sont proportionnelles, ou de fa¸on ´quivalente que les colonnes du tableau de contingence sont
proportionnelles, et donc que la distribution conditionnelle de X, pour tout y, est constante.
                         e                           e e                           e
Remarque 29. Cette d´finition n’est (presque) jamais v´rifi´e. En pratique, il faut v´rifier que les lignes
(ou les colonnes) sont  presque proportionnelles.

Le crit`re du χ2
       e
                              e                     e                   e        e
Definition 30. On appelle fr´quences et effectifs th´oriques sous l’hypoth`se d’ind´pendance du couple de
                           e
variable X et Y les quantit´s :
                                 ˆ                       ˆ     nk. n.l
                                                  ˆ
                                 fkl = fk. f.l et nkl = nfkl =
                                                                 n
    Le crit`re du χ2 permet de tester l’ind´pendance entre deux variables en mesurant la distance entre la
           e                                 e
                   e                       e
distribution observ´e et la distribution th´orique.
                                    K   L                        K    L             ˆ
                                              (nkl − nkl )2
                                                     ˆ                     (fkl − fkl )2
                             χ2 =                           =n
                                                   nkl
                                                   ˆ                            ˆ
                                                                                fkl
                                    k=1 l=1                      k=1 l=1


                                                        15
           e                           e                                             e
   En premi`re approximation, on consid´rera que les variables X et Y ne sont pas ind´pendantes si
                                                  χ2 ≥ p + 2           2p
o` p = (K − 1)(L − 1) est le nombre de degr´ de libert´. Un crit`re plus pr´cis sera construit en statistique
 u                                         e          e         e          e
   e
inf´rentielle.

3.3    ´
       Etude statistique d’une variable qualitative et d’une variable quantitative
                                                                                       e
   Soient Y une variable quantitative et soit X une variable qualitative de modalit´s x1 , ..., xK .
   On note I l’ensemble des individus {1, . . . , n}. La variable X induit une partition de cet ensemble en K
sous-ensembles I1 , ..., IK v´rifiant
                             e
                                   K
                                       Ik = I,             et        Ik ∩ Il = ∅ si k = l
                                k=1

de plus on a Card(Ik ) = nk et donc n1 + . . . + nk + . . . + nK = n.
    On parlera alors de sous-population.
                                           e e                  ee    e                                  e
Exemple 31. Le montant moyen d’achat r´alis´ (en euros) a ´t´ relev´ parmi trois groupes de clients class´s
suivant les crit`res  FID , (fid`le),  OCC (Occasionnel)  NOU (Nouvelle)
                e                e

                          FID      79    62      78        81     75   87     71      85         75   91
                          No        1     2       3         4      5    6      7       8          9   10
                          OCC      51    88      58        57     59   69     51      71         38
                          No       17    18      19        20     21   22     23      24         25
                          NOU      52    51      44        37     79   36
                          No       11    12      13        14     15   16



Moyennes et Variances conditionnelles
                                         e
Definition 32. Pour k = 1, . . . , K, on d´finit la moyenne conditionnelle de Y sachant que X = xk par :

                                                        ¯                1
                                        m(Y |X = xk ) = Yk =                         Yi
                                                                         nk
                                                                              i∈Ik

et la variance conditionnelle de Y sachant que X = xk par
                                                      1                 ¯          1                   ¯2
                        V (Y |X = xk ) = s2 =
                                          k                       (Yi − Yk )2 =                  Yi2 − Yk
                                                      nk                           nk
                                                           i∈Ik                           i∈Ik

                                                                   e
Les sommes sont faites sur les nk individus qui ont pris la modalit´ xk .

             e
Formule de d´composition de la variance
       e
   On r´sume les moments conditionnels dans le tableau suivant :

                                                                  Moyennes                   Variances
                     Populations         Effectifs
                                                                conditionnelles            conditionnelles
                          1                n1                    m(Y |X = x1 )             V (X|X = x1 )
                          2                n2                    m(Y |X = x2 )             V (X|X = x2 )
                          .
                          .                 .
                                            .                          .
                                                                       .                          .
                                                                                                  .
                          .                 .                          .                          .
                          K                nK                   m(Y |X = xK )              V (X|X = xK )



                                                                16
                            e e              e     a
Proposition 33. La moyenne g´n´rale de Y est ´gale ` la moyenne des moyennes :
                                                            K
                                                        1
                                         m(Y ) =                  nk m(Y |X = xk )
                                                        n
                                                            k=1

Definition 34. On appelle Variance Intra-Classe la moyenne des variances
                                                   K                                 K
                                               1                                 1
                               Vintra (Y ) =             nk V (Y |X = xk ) =               nk s2
                                                                                               k
                                               n                                 n
                                                   k=1                               k=1

et on appelle Variance Inter-Class la variance des moyennes
                                                   K                         K
                                              1             ¯    ¯      1             ¯2 ¯
                              Vinter (Y ) =             nk (Yk − Y )2 =            nk Yk − Y 2
                                              n                         n
                                                  k=1                        k=1

                                                 e
Proposition 35. La variance de la variable Y se d´compose sous la forme

                                          V (Y ) = Vintra (Y ) + Vinter (Y )

L’analyse de la variance
                      ee e         e       e        e
    Cette technique a ´t´ d´velopp´e au d´but du si`cle par l’agronome Fischer. On veut mesurer l’effet d’un
                              ee
facteur sur une variable d’int´rˆt. Voici des exemples :
  1. On ´pand des niveaux d’engrais {faible, moyen, fort} (variable X) sur des parcelles de bl´ et on rel`ve
         e                                                                                    e          e
                  a
     le rendement ` l’hectare (variable Y ).
  2. On nourrit des rats avec trois sources de prot´ines {boeuf, porc, soja} (variable X) et on rel`ve la prise
                                                   e                                               e
     de poids au bout d’un mois (variable Y ).
                a                                                                        e        e
  3. On soumet ` un groupe de patient un placebo ou un principe actif (variable X) et on ´tudie l’´volution
     de leur maladie (variable Y ).
        e
Un crit`re pour mesurer l’effet de ce facteur est de calculer la variance intra-classe et la variance inter-classe
et de faire le rapport :
                                                     Vinter (Y )
                                               e2 =
                                                       V (Y )
Plus e2 est grand et plus cela indique qu’il y a un effet facteur.

3.4    ´
       Etude statistique de deux variables quantitatives
    e
Repr´sentation graphique
           e
  Pour repr´senter deux variables quantitatives, on trace un nuage de points




                                                                  17
                                e
                   Fig. 6 – Repr´sentation de la taille et du poids par un nuage de point

                       e                         e                    e
   Le point de coordonn´e (m(X), m(Y )) est appel´ le centre de gravit´ du nuage.

                      e                               e
Mesures de liaison lin´aire : La Covariance et la Corr´lation

                                                                                         e
Definition 36. On appelle Covariance des variables X et Y et on note Cov(X, Y ) la quantit´ :
                                                   n
                                               1
                                Cov(X, Y ) =             (Xi − m(X))(Yi − m(Y ))
                                               n   i=1

               e                                                          e
On appelle Corr´lation des variables X et Y et on note r(X, Y ) la quantit´ :

                                                           Cov(X, Y )
                                          r(X, Y ) =
                                                            V (X)V (Y )

                                                                                  e                    e
Proposition 37. Soient X et Y , Z trois variables et soient a, b, c, d 4 nombres r´els, la covariance v´rifie :
  1. Cov(aX + b, cY + d) = acCov(X, Y )
  2. Cov(X, Y + Z) = Cov(X, Y ) + Cov(X, Z)
  3. Cov(X, Y ) = m(XY ) − m(X)m(Y ), en particulier en prenant X = Y , V (X) = Cov(X, X)
                    e        e
Le coefficient de corr´lation v´rifie
                                               −1 ≤ r(X, Y ) ≤ 1
de plus r(X, Y ) = ±1 ssi les points (Xi , Yi ) sont align´s sur une droite.
                                                          e
                 e
   La variance v´rifie
                                  V (X + Y ) = V (x) + V (Y ) + 2Cov(X, Y )

   Quelques exemples de nuages de points :




                                                          18
                                                        e
                             Fig. 7 – Coefficients de corr´lations importants

    D’autres exemples de nuages de points :




                                                           e
                                Fig. 8 – Coefficients de corr´lations faibles

                                                         e
Remarque 38. Ce n’est pas parce que le coefficient de corr´lation est proche de 0, qu’il n’existe pas de
relations entre les variables.
                                                  e
    Il peut exister une relation qui n’est pas lin´aire.

                                                           e
Remarque 39. Ce n’est pas parce que le coefficient de corr´lation est proche de 1, qu’il existe une relation
entre les variables ! ! !
                          e                 e e      e                                     e
   Par exemple si on rel`ve au cours des ann´es ´coul´es les effectifs de l’enseignement sup´rieur (X) et le
              o                                                      e
nombre de chˆmeurs au Canada (Y ) on trouve un coefficient de corr´lation r = 0, 94.
                                         e      e
   En fait ces deux variables ont augment´ en mˆme temps.


4         e            e
      La r´gression lin´aire
Introduction

Relations fonctionnelles et tendancielles
                       a    e
  Un physicien mesure ` diff´rents moments :
            e
  – la temp´rature
                              e
  – la longueur d’une barre m´tallique.


                                                    19
        e            e     a e                        e                      e
Des ing´nieurs, proc´dant ` l’´tude d’un nouveau syst`me de freinage sur un v´hicule, mesurent au cours de
plusieurs essais :
                     e
   – la vitesse du v´hicule
                                                      e
   – la distance parcourue en ligne droite avant l’arrˆt.
      e
Un m´decin scolaire note pour chaque enfant :
   – sa taille
   – son poids.
    e                                            a            e
Un ´conomiste rassemble pour plusieurs pays, ` une date donn´e, les informations suivantes :
   – le nombre d’habitants
   – le produit national brut (PNB).
                e         e                                                            e
Un comptable, ´tudiant l’´volution des comptes d’une entreprise note sur plusieurs ann´es :
           e e     e
   – l’ann´e ´tudi´e
                          e e             e a
   – le chiffre d’affaires r´alis´ cette ann´e l`.

                              e           e
Relation Fonctionnelle et corr´lations lin´aires




            (a)                           (b)                            (c)

                   e
Fig. 9 – (a) Temp´rature (X) et Longueur (Y ), (b) Taille (X) et Poids (Y ), (c) PNB (Y ) et Nombre
d’habitants (X) en Europe.

                              e                                       a          a
    Le premier graphique repr´sente une relation fonctionnelle, c’est ` dire que ` chaque valeur de la variable
             e                                                                             e
X est associ´e une valeur et une seule de la variable Y . Les deux autres graphiques repr´sentent des cas de
    e          e                                                                     a            a e ıtre)
corr´lation lin´aire entre deux variables. Dans ce cas on dira que Y a tendance ` croitre (ou ` d´croˆ
lorsque X croit.

Absence de relation




                                                      20
                      (d)
                                                                                    (e)

                                                                                          e       e
Fig. 10 – (d) Balance des paiements (X), taux de change (Y ), (e) Effectifs du secteur priv´ en Loz`re (Y ),
Dates (X).

 e
D´finition de la droite des moindres carr´s     e
               a
   On cherche ` exprimer la relation entre deux variables X et Y :
                 e                e                                                 e             e
   – X est appel´e la variable ind´pendante ou explicative. Les valeurs de X sont fix´es par l’exp´rimentateur
                                                                       a
     ou connues sans erreur (exemple : concentrations d’un produit ` doser, dates, ...).
                        e                    e              e
   – Y est la variable d´pendante ou expliqu´e (exemple : r´ponse de l’analyseur). Les valeurs de Y peuvent
     e     e       e a                             a                 e                          e
     ˆtre d´termin´es ` partir de la variable X ` une erreur pr`s. L’un des buts de la r´gression sera
       e e
     pr´cis´ment d’estimer cette erreur.
   – On va chercher une relation de la forme :

                                                    Y = aX + b + E.                                       (1)

             e                         u              e            e
     C’est l’´quation d’une droite, d’o` le terme de r´gression lin´aire, plus un terme d’erreur.

Solution de la droite des moindres carr´s    e
        e                         e            a                           e
   La m´thode des moindres carr´s consiste ` chercher les valeurs des param`tres a et b qui rendent la
              e               e
somme des carr´s des erreurs r´siduelles minimale.
                                             n             n
                                      min          e2 =
                                                    i           (yi − axi − b)2 .
                                       a,b
                                             i=1          i=1

                                                                e
Proposition 40. Si V ar(X) = 0 alors la droite des moindres carr´s a pour coefficient directeur

                                                          Cov(X, Y )
                                                   ˆ
                                                   a=                                                     (2)
                                                           V ar(X)
et pour constante
                                              ˆ = m(Y ) − am(X).
                                              b           ˆ                                               (3)

      e e                                e
Propri´t´s de la droite des moindres carr´s

Proposition 41.                                    e                                 e
                      – La droite des moindres carr´s passent par le centre de gravit´ du nuage (m(Y ), m(X)).


                                                           21
                             e
    – la variable E est centr´e (m(E) = 0).
    – La variable Y = aX + ˆ s’appelle la valeur pr´dite par le mod`le et on a la formule de d´composition
                   ˆ   ˆ     b                     e               e                          e
      de la variance :
                                                          ˆ
                                         V ar(Y ) = V ar(Y ) + V ar(E),
                                                       e              e
      ce qui se lit ”variance totale = variance expliqu´e + variance r´siduelle”.
    – On appelle R2 la part de variance expliqu´e :
                                                 e

                                                            V ar(Yˆ
                                                   R2 =              .
                                                            V ar(Y )

                                      e        e
      C’est un indicateur de la qualit´ de la r´gression.


A                                                      e e
       Liste des variables pour les clientes d’une soci´t´ de VPC
                e
 1. Numcli : num´ro de client
           e
 2. Dep : d´partement
 3. Com : commune
           e
 4. Reg : R´gion
                e
 5. Sig : Signal´tique
    – 1-Mr
    – 2-Mme
    – 3-Mlle
               ˆ
 6. Agepro : Age Probable
    – 1- moins de 30 ans
    – 2- 30-40ans
    – 3- 40-50ans
    – 4- 50-60 ans
    – 5- 60-70ans
    – 6- plus de 70 ans
 7. bf RpQuEn R´ponse ` la question :  Avez vous des enfants ? 
               e      a
 8. RpQuTr R´ponse ` la question :  Travaillez vous ? 
            e      a
 9. TypFem : Typologie Femme
                  a e
    – F1 :femme ˆg´e traditionnelle
                               a e
    – F2 :femme classique plus ˆg´e
    – F3 :femme sportive pratique
                                      e
    – F4 : femme classique sophistiqu´e
                                   e
    – F5 : femme classique diversifi´e
    – F6 : femme mode haut de gamme
    – F7 : jeune femme, urbaine, mode
    – F8 : jeune femme sportwear basique
    – F9 : Jeune femme mode petit prix
                          e
10. Unitur : Taille d’unit´ urbaine
    – 0- rural
    – 1-moins de 5 000 habitants
    – 2-5 000-10 000 habitants
    – 3-10 000-20 000 habitants
    – 4-20 000-50 000 habitants
    – 5-50 000-100 000 habitants


                                                      22
      – 6-100 000-200 000 habitants
      – 7-200 000-2 Millions habitants
              e
      – 8- R´gion parisienne + agglo
11.   Groupe : typologie iris
                             a e
      – TYPE 1 : Rural ˆg´ modeste
      – TYPE 2 : Rural profond peu attractif
      – TYPE 3 : Saisonnier petites villes
      – TYPE 4 : Saisonnier villages
      – TYPE 5 : Rural jeune
      – TYPE 6 : Rural ais´    e
      – TYPE 7 : Urbain pr´caire e
      – TYPE 8 : Urbain moyen
      – TYPE 9 : Urbain dynamique
      – TYPE 10 : Urbain ais´       e
12.   Niveauvie :
      – -La classe 1 :  iris pr´caris´s , qui regroupe les zones les plus pauvres, fortement touch´es par
                                     e    e                                                                  e
               o                               e         e
         le chˆmage, et avec un niveau d’´tudes tr`s bas. De plus, c’est la classe contenant la plus faible
         proportion de cadres.
      – -La classe 2 :  iris modestes actifs , contient elle aussi des zones aux revenus faibles. Mais c’est
                                            e           o
         aussi la classe la moins touch´e par le chˆmage. Les CSP ouvriers et agriculteurs y sont le plus
                  e      e                       e                               a
         sur-repr´sent´es, Et elle est compos´e de 87% d’iris appartenant ` des communes rurales.
      – -La classe 3 :  iris interm´diaires , est compos´e de zones au revenu moyen, avec un niveau d’´tudes
                                        e                    e                                                e
                                       o             e e
         moyen et un taux de chˆmage assez ´lev´. Les habitants de ces zones appartiennent ` peu pr`s    a        e
         e                 a
         ´quitablement ` toutes les CSP.
      – -La classe 4 :  iris moyens sup´rieurs poss`de un revenu moyen par contribuable de 30% sup´rieur
                                            e            e                                                     e
                                 c                                                    e      e e
         au revenu global fran¸ais. Les habitants de ces zones sont d’un niveau d’´tudes ´lev´, et appartiennent
         ` toutes les cat´gories de CSP. Le taux de chˆmage de cette zone est assez faible.
         a                 e                               o
      – -La classe 5 :  iris ais´s est la classe qui contient la plus forte proportion de cadres (2 fois plus que
                                   e
                                                                    e e e                    e      e
         la moyenne). Le revenu moyen par contribuable est tr`s ´lev´, et le niveau d’´tudes ´galement.
13.            e                                   e
      propri´taires (La proportion de propri´taires de leur logement dans l’iris) : 6 valeurs qui correspondent
      a                                              e
      ` la proportion de logements avec propri´taires dans l’iris par rapport au total des logements.
      – Valeur 1 : 25% > x.
      – Valeur 2 : 25% <= x < 4%.
      – Valeur 3 : 5% <= x < 6%.
      – Valeur 4 : 6% <= x < 6%.
      – Valeur 5 : 6% <= x < 7%.
      – Valeur 6 : 7% <= x.
14.                  ´                 e                         e                                   e
      STABILITE (Valeurs bas´es sur des coefficients repr´sentant le lien employeur-employ´ des habitants
                                  e                                          e
      de l’iris selon la stabilit´ des contrats) : 5 valeurs selon la solidit´ des contrats de travail des habitants
      de l’iris (fonctionnaire, CDD, Emploi jeune, CDI).
                                                                               e    ee                  ee
      – Pour les CES, contrats jeunes, apprentis sous contrats et stage r´mun´r´ un coef de 30 a ´t´ appliqu´.    e
                       e
      – Pour les int´rims un coef de 60.
      – Pour les CDD un coef de 80.
      – Pour les CDI un coef de 110.
      – Pour les fonctionnaires un coef de 140.
                                                             e     e
      – Valeur 1 : Le lien de contrat employeur-employ´ est tr`s faible concernant les habitants de cette zone
         20% des iris.
                                                               e
      – Valeur 2 : Le lien de contrat employeur-employ´ est faible concernant les habitants de cette zone
         20% des iris.
                                                               e
      – Valeur 3 : Le lien de contrat employeur-employ´ est moyen concernant les habitants de cette zone
         20% des iris.


                                                        23
                                                      e
      – Valeur 4 : Le lien de contrat employeur-employ´ est fort concernant les habitants de cette zone 25%
        des iris.
                                                      e       e
      – Valeur 5 : Le lien de contrat employeur-employ´ est tr`s fort concernant les habitants de cette zone
        15% des iris.
                                e        e                       e
 15. CONFORT (Valeurs bas´es selon l’´quipement en bien ou pi`ces de conforts des logements de l’iris) :
                        e                                                                 e ea
     5 valueurs selon l’´quipement des maisons. Une courbe de percentiles de confort est r´alis´ ` partir de
                        e    e
     coefficients puis d´coup´e :
                                                                                                   e
     Le pourcentage de taudis*10 + le pourcentage de logement sans salles d’eau et toilettes int´rieurs*8
                                               e
     + le pourcentage de logement avec wc int´rieur et sans salles d’eau*5 + le pourcentage de logement
                                  e
     avec salle d’eau sans wc int´rieur*5 +% d’habitats sans chauffages centrales*3 +% des logements
     e     e                                                      a e
     ´quip´s d’une fosse sceptique*1 +% des logements avec tout ` l’´gout *-0.05 +% des logements tout
     conforts*-0.05 +% habitats avec garage*-0.05.
                                             e     e    e
     – Valeur 1 : 20% des iris, Logements tr`s peu ´quip´s.
                                               e    e
     – Valeur 2 : 20% des iris, Logements peu ´quip´s.
                                                        e    e
     – Valeur 3 : 20% des iris, Logements moyennement ´quip´s.
                                           e    e
     – Valeur 4 : 20% des iris, Logements ´quip´s.
                                             e e    e
     – Valeur 5 : 20% des iris, Logements tr`s ´quip´s.
                                                     a     a
 16. ENFANTS (Proportion d’individus de la tranche d’ˆge 0 ` 15 ans sur la population totale de l’iris) :
     10 valeurs.
     – Valeur 1 : x<10.5%.
     – Valeur 2 : 10.5%<=x<12%.
     – Valeur 3 : 12%<=x<14.5%.
     – Valeur 4 : 14.5%<=x<16%.
     – Valeur 5 : 16%<=x<17.5%.
     – Valeur 6 : 17.5%<=x<18.5%.
     – Valeur 7 : 18.5%<x<=20%.
     – Valeur 8 : 20%<x<=22%.
     – Valeur 9 : 22%<x<=24%.
     – Valeur 10 : 24%<x. :
                   e e a                              o
 17. REVENU (r´alis´e ` partir des fichiers des impˆts), elle comprend 10 valeurs allant des communes
                                                                  e
     les plus pauvres aux communes les plus riches (en Frs). Ddonn´es COMPLEX DATA.
     – Valeur 1 : 60000 frs>x.
     – Valeur 2 : 60000<=x<65000.
     – Valeur 3 : 65000<=x<70000.
     – Valeur 4 : 70000<=x<75000.
     – Valeur 5 : 75000<=x<82000.
     – Valeur 6 : 82000<=x<88000.
     – Valeur 7 : 88000<=x<95000.
     – Valeur 8 : 95000<=x<105000.
     – Valeur 9 : 105000<=x<115000.
     – Valeur 10 : 115000<=x.
                                                                  e                  e
 18. Macrocible : segmentation RFM (3 types de cliente : bonne, fid`le, ni bonne ni fid`le)


B     Programmes R
B.1                       e    ´
       Traitements univari´s : Etude d’une variable qualitative
    La commande R pour obtenir un graphique en camembert est la commande pie(..)

pie.sales <- c(0.12, 0.3, 0.26, 0.16, 0.04, 0.12)


                                                    24
names(pie.sales) <- c("Blueberry", "Cherry", "Apple", "Boston Cream",
                      "Other", "Vanilla Cream")
pie(pie.sales, col = c("purple", "violetred1", "green3","cornsilk",
                       "cyan", "white"))
title(main = "January Pie Sales", cex.main = 1.8, font.main = 1)
title(xlab = "(Don’t try this at home kids)", cex.lab = 0.8, font.lab = 3)

                                                            a
et la commande correspondante pour obtenir un diagramme en bˆton est la commande dotchart(...) ou
la commande barplot(...).

pie.sales <- c(0.12, 0.3, 0.26, 0.16, 0.04, 0.12)

names(pie.sales) <- c("Blueberry", "Cherry", "Apple", "Boston Cream",
                      "Other", "Vanilla Cream")

colors = c("purple", "violetred1", "green3","cornsilk", "cyan", "yellow")

op <- par(mfrow = c(1, 2), # 2 x 2 pictures on one plot
          pty = "s")       # square plotting region,

# dotchart
dotchart( pie.sales
        , col = colors
        , xlim = c(0,0.4))
title( main = "January Pie Sales"
     , cex.main = 1.8, font.main = 1
     , xlab = "(Don’t try this at home kids)"
     , cex.lab = 0.8, font.lab = 3
     )

# barplot
barplot( pie.sales
       , space = 1.5
       , col = colors)
title( main = "January Pie Sales"
     , cex.main = 1.8, font.main = 1
     , xlab = "(Don’t try this at home kids)"
     , cex.lab = 0.8, font.lab = 3
     )

## At end of plotting, reset to previous settings:
par(op)

B.2                       e    ´
       Traitements univari´s : Etude d’une variable quantitative
                               a                                               e        a
   On obtient un diagramme en bˆton de la distribution des effectifs puis des fr´quences ` l’aide de la
commande plot(...) :

nbenf <- c(81023, 123050, 110532, 76298, 42087, 10965, 782)
names(nbenf) <- c("0", "1", "2", "3", "4", "5", "6")

op <- par(mfrow = c(1, 2), # 2 x 2 pictures on one plot
          pty = "s")       # square plotting region,


                                                 25
f.tit <- "Distribution en effectif"
x.tit <- "Nombre d’enfants par clientes"

plot(   names(nbenf)
    ,   nbenf
    ,   type="h"
    ,   xlab = x.tit
    ,   cex.lab = 0.8
    ,   font.lab = 3
    )

title( main = f.tit
     , cex.main = 1.8
     , font.main = 1
)

n = sum(nbenf)
n
freqenf <-nbenf/n
nbenf

                            e
f.tit <- "Distribution en fr´quence"
plot( names(nbenf)
    , freqenf
    , type="h"
    , xlab = x.tit
    , cex.lab = 0.8
    , font.lab = 3
    )
title( main = f.tit
     , cex.main = 1.8
     , font.main = 1
     )

## At end of plotting, reset to previous settings:
par(op)
                                   e                            e
  Il existe une commande hist qui r´alise l’histogramme sur la s´rie brute.
#
                                       e
# Variables quantitatives continues : s´rie brute
#
data(islands)
op <- par(mfrow=c(2, 2))
# histogramme basique...
hist(islands)

# histogramme moins basique...
str(hist(islands, col="gray", labels = TRUE))

#-- Intervalles non-equidistant
                               e
# histogramme de la racine carr´


                                                  26
r <- hist( sqrt(islands)
         , br = c(5*0:4, 10*3:5, 70, 100, 140)
         , col=’blue1’
         )

#Ajout des nombres
text(r$mids, r$density, r$counts, adj=c(.5, -.5), col=’blue3’)

# combien valent...
sapply(r[2:3], sum)
sum(r$density * diff(r$breaks)) # toujours 1 !!!

# initialisation du device
par(op)

op <- par(mfrow = c(2, 2), # 2 x 2 pictures on one plot
          pty = "s")       # square plotting region,

# histogramme faux -> 0/20
                               e
# histogramme de la racine carr´
hist( sqrt(islands)
    , br = c(5*0:4, 40, 70, 100, 140)
    , col="lightblue"
    , border="pink"
    )

#-- Intervalles non-equidistant
                               e
# histogramme de la racine carr´
hist( sqrt(islands)
    , br = c(5*0:4, 40, 70, 100, 140)
    , col=’blue1’
    , border="pink"
    , freq = TRUE
    , main = "WRONG histogram"
) # and warning

                     e
# histogramme de la s´rie brute
# look at default
str(hist(islands, br=6, plot= FALSE))

#
str(hist( islands
        , br=c(12,20,36,80,200,1000,17000)
        , col="lightblue"
        , border="pink"
        , plot = TRUE
        ))

hist( islands
    , br=c(12,20,36,80,200,1000,17000)
    , freq = TRUE



                                             27
    ,   col=’blue1’
    ,   border="pink"
    ,   main = "WRONG histogram"
    )
# you   get warning

par(op)
                                                   e             e
La command ecdf permet de calculer la courbe des fr´quences cumul´es.

data(islands)
fc<-ecdf(islands)
summary(fc)
plot(fc)

                            e       ıtes a
    Commandes R pour le trac´ des boˆ ` moustache :
data(iris)
par(bg = "cornsilk")
boxplot(split(iris[1], iris[5]), col = "lavender", notch = TRUE)
title(main = "Iris Sepal Length", xlab = "Group", font.main = 4, font.lab = 1)
boxplot(split(iris[2], iris[5]), col = "lavender", notch = TRUE)
title(main = "Iris Sepal Width", xlab = "Group", font.main = 4, font.lab = 1)


C                         e
        Traitements bivari´s
C.1     Analyse de la variance
        e                                         e a
    On r´alise une analyse de la variance des donn´es ` l’aide du programme R suivant
ventes <- list()
ventes$obs <- c(79, 62, 78, 81, 75, 87, 71, 85, 75, 91
             ,51, 88, 58, 57, 59, 69, 51, 71, 38,
             ,52, 51, 44, 37, 79, 36)
ventes <-as.data.frame(ventes)
ventes$factor<- as.factor(c("FID", "FID","FID","FID","FID","FID","FID","FID","FID","FID",
                          "OCC", "OCC","OCC","OCC","OCC","OCC","OCC","OCC","OCC",
                          "NOU","NOU","NOU","NOU","NOU","NOU",))

boxplot(split(ventes$obs, ventes$factor), col = "lavender", notch = TRUE)

hist.ventes <-hist( ventes$obs, br=8, col="lightblue"
                  , border="pink"
                  , freq = TRUE
                  , main = "Histogramme des ventes"
                  )
text( hist.ventes$mids
    , hist.ventes$density
    , hist.ventes$counts
    , adj=c(.5, -.5)
    , col=’blue3’)

analyse <- lm(ventes$obs ~ ventes$factor )


                                                   28
analyse
ventes$fitted.values <- analyse$fitted.values
ventes

  On peut ensuite obtenir e2 en faisant le rapport des variances :

e2 <- var(ventes$fitted.values) / var(ventes$obs)
e2

C.2    e
      R´gression
                  e         a                                               e
  On obtient une r´gression ` l’aide de la commande lm que nous avons utilis´ en analyse de la variance :

data(cars)
x<-lm(dist~speed, data=cars)      # regression de dist par speed

par(bg ="lightsteelblue")
plot( dist~speed, data=cars
    , main = "Distance et Vitesse"
    , fg = "blue"
    , xlab= "Vitesse"
    , ylab = "Distance"
    , pch = 9 # diamond
    )
abline(x, col="red")                e                  e
                              # trac´ de la droite de r´gression

print(x)
names(x)                          #   elements de x
x$coefficients                    #                                 e
                                      coefficients de la droite de r´gression
x$fitted.values                   #             e
                                      valeurs pr´dites
x$residuals                       #   erreurs

var(x$fitted.values)/var(cars$dist) # R^2




                                                   29

				
DOCUMENT INFO