Docstoc

statistique

Document Sample
statistique Powered By Docstoc
					18-1-2005




                          Statistique
                          descriptive
                          Nino Silverio

                          Support de cours provisoire pour
                          l’unité de valeur “Mathématiques
                          et statistiques” destiné aux classes
                          du BTS Comptabilité-Gestion de
                          l’ECG.



                          Introduction

STATISTIQUE               La statistique est un ensemble de méthodes scientifiques basées sur le
                          recueil, l’organisation, la présentation de données, ainsi que sur la
                          modélisation et la construction de résumés numériques [3].

STATISTIQUE DESCRIPTIVE   On parle de statistique descriptive lorsqu’on décrit et analyse des
                          données observées et qu’on tire des conclusions valables uniquement
                          pour l’ensemble étudié.

POPULATION                On désigne par le mot population tout ensemble étudié par la
                          statistique ; on le note généralement Ω . On notera N le nombre
                          d’éléments de Ω , c’est-à-dire l’effectif total de la population (nous
                          supposerons toujours dans ce cours qu’une population est finie). Il faut
                          que la population soit définie avec précision ; ceci peut se faire de
                          deux manières :
                          • en extension, c’est-à-dire en dressant la liste explicite de tous les
                            membres de la population
                          • en compréhension, à l’aide d’une propriété caractéristique qui
                            permet de décider qui appartient ou non à la population.

                          Exemples :
                          • l’ensemble des étudiants du BTS de l’ECG
                          • les habitants domiciliés à Luxembourg-Ville




                                                                                                    1
                        Introduction



ÉCHANTILLON             Un échantillon désigne un sous-ensemble d’une population Ω .

UNITÉ STATISTIQUE,      Une unité statistique, un individu ou un membre est un élément
INDIVIDU, MEMBRE        constitutif d’une population ou d’un échantillon.

CARACTÈRE               Toute propriété des individus d’une population est appellée caractère
                        des individus.

CARACTÈRE QUALITATIF    Si le caractère étudié admet des valeurs ou modalités non mesurables,
                        on dit que le caractère est qualitatif. Exemples :
                        • la profession
                        • le sexe
                        • la nationalité


CARACTÈRE QUANTITATIF   Lorsque les modalités d’un caractère sont mesurables, on dit que ce
                        caractère est quantitatif. Exemples :
                        • l’âge
                        • la surface d’une habitation
                        • la vitesse
                        • la température


SÉRIE STATISTIQUE       On appelle série statistique une liste de N observations faites pour un
                        caractère d’une population Ω .

DISTRIBUTION            Une série statistique ordonnée est appelée une distribution statistique.
STATISTIQUE


EFFECTIF D’UNE          L’effectif n i d’une modalité x i est égal au nombre d’individus de la
MODALITÉ
                        population qui possèdent cette modalité x i . On a bien sûr :

                                                                                m
                                                  N = n 1 + n 2 + ... + n m =   ∑ ni          (1)
                                                                                i=1


                        avec m étant le nombre de modalités possibles sur le caractère étudié.

                        Exemple : voici une série statistique sur la nationalité des habitants du
                        Grand-Duché de Luxembourg en 2001 (source : Statec)




2                       Statistique descriptive
            Introduction




                                 luxembourgeois
                  Nationalité




                                                           portugais




                                                                                           français
                                                                            italiens




                                                                                                          belges


                                                                                                                     autres


                                                                                                                               Total
                                                                                                                                N
               Effectif
                                277.2                     58.7              19             20            14.8       49.8       439.5
               (x1000)


FRÉQUENCE   On appelle fréquence d’une modalité x i d’effectif n i le rapport
                  n
            f i = ---i . En multipliant f i par 100, nous obtenons le pourcentage de
                    -
                  N
            la modalité x i .

            Exemple : pour la série statistique précédente, nous obtenons
                                         luxembourgeois
                  Nationalité




                                                                portugais




                                                                                              français
                                                                                italiens




                                                                                                           belges


                                                                                                                      autres


                                                                                                                               Total
                                                                                                                                N
               Effectif
                                 277.2                     58.7                19            20          14.8       49.8       439.5
               (x1000)
              Fréquence           0.63                     0.13             0.04           0.05          0.03       0.11         1
            Pourcentage          63%                       13%                4%            5%            3%        11%        100%

            La réalisation d’une série statistique peut vite devenir laborieuse.
            C’est pourquoi, de nos jours, il est préférable d’utiliser un outil
            informatique, comme un tableur(1).




            Nous constatons que la somme des fréquences vaut 1. Ceci n’est pas
            un hasard, en effet :



            1. En fait, bien que nous puissions utiliser n’importe quel tableur, dans le cadre de ce cours
               nous travaillons avec Excel.


            Statistique descriptive                                                                                                    3
                      Introduction



                                           m           m     n      1 m          1
                                          ∑     fi =   ∑     ---i = --- ∑ n i = --- N = 1
                                                             N
                                                               -
                                                                    N
                                                                      -
                                                                                N
                                                                                  -
                                          i=1          i=1           i=1


REPRÉSENTATIONS       Il est souvent préférable de représenter graphiquement une série
GRAPHIQUES            statistique. Un graphique permet d’avoir une vue d’ensemble,
                      synthétique de toutes les données mesurées. Ceci est d’autant plus
                      facile si on utilise l’outil informatique.

DIAGRAMME EN BÂTONS   En Excel, ce type de diagramme est une variation du “Chart type :
                      line”.




DIAGRAMME EN BARRES   La largeur de la base des barres est identique pour toutes les barres, la
                      base chacun des rectangles étant centrée sur les points représentés sur
                      l’axe des abscisses.




4                     Statistique descriptive
                    Introduction



DIAGRAMME EN        Ce diagramme est semblable à un diagramme en barres, sauf que les
BANDEAUX            effectifs sont placés sur l’axe des abscisses.




DIAGRAMME EN        Chaque secteur représente une modalité et la taille de chaque secteur
SECTEURS            est proportionnelle à l’effectif (fréquence) de la modalité.




EFFECTIFS CUMULÉS   Dans la pratique, lorsqu’on est en présence d’une distribution
CROISSANTS,         statistique, il est souvent intéressant de connaître le nombre de valeurs
DÉCROISSANTS
                    inférieures ou égales à une modalité x i . Il en est de même pour le
                    nombre de valeurs supérieures ou égales à une modalité x i .

                    À cet effet, on calcule l’effectif cumulé croissant :

                                                                         i
                                              n 1 + n 2 + ... + n i =   ∑ nk              (2)
                                                                        k=1



                    Statistique descriptive                                                5
                      Introduction



                      ou l’effectif cumulé décroissant :

                                                                                    i–1
                                        N – ( n 1 + n 2 + ... + n i – 1 ) = N –      ∑ nk                 (3)
                                                                                    k=1


FRÉQUENCES CUMULÉES   D’une manière tout à fait semblable, on peut calculer la fréquence
CROISSANTES,
                      cumulée croissante de la valeur x i de la distribution statistique X :
DÉCROISSANTES


                                                                            i
                                                 f 1 + f 2 + ... + f i =   ∑ fk                           (4)
                                                                           k=1


                      Cette somme désigne la proportion d’individus dans la population Ω
                      pour lesquels X prend une valeur inférieure ou égale à x i .

                      Si on s’intéresse à la proportion d’individus dans la population Ω
                      pour lesquels X prend une valeur supérieure ou égale à x i , on calcule
                      la fréquence cumulée décroissante :

                                                                                    i–1
                                          1 – ( f 1 + f 2 + ... + f i – 1 ) = 1 –   ∑ fk                  (5)
                                                                                    k=1


                      Exemple : voici une série statistique sur la composition des ménages
                      au Luxembourg en 1991.

                                                                                Dans cette liste Excel,
                                                                                seules les colonnes A et B
                                                                                contiennent les données
                                                                                fournies par le Statec.

                                                                                Les colonnes C à G
                                                                                résultent de calculs en
                                                                                appliquant les formules
                                                                                vues plus haut.




6                     Statistique descriptive
Introduction



À partir de ces données, on peut produire différents graphiques. Voici
par exemple un diagramme en barres renseignant sur la composition
des ménages privés selon le nombre de personnes en 1991 au Grand-
Duché de Luxembourg (source Statec).




Mais on peut aussi faire un graphique représentant les effectifs
cumulés croissants et décroissants :




De même, nous pouvons faire un diagramme en barres sur les
fréquences cumulées croissantes et décroissantes :




Statistique descriptive                                              7
         Groupement de données en classes




         Groupement de données en classes

CLASSE   Dans la pratique, il est très fréquent pour une série statistique (en
         présence d’un grand nombre de valeurs) de regrouper des valeurs
         proches les unes des autres. On appelle un tel groupement de données
         une catégorie ou une classe.

         Pour une classe ]a i – 1, a i ] ou [ a i – 1, a i [ :

         •   a i – 1 et a i sont les bornes ou limites de la classe
                                         ai – 1 + ai
         •                                                   -
             le centre de la classe vaut ---------------------
                                                   2
         •   l’amplitude ou l’étendue de la classe vaut a i – a i – 1
         •   l’effectif de la classe n i est égal à la somme des effectifs des
             valeurs de la série statistique appartenant à la classe.




8        Statistique descriptive
                      Les paramètres de position



                      Il n’existe pas de règle claire quant au choix du nombre de classes. Il
                      existe quelques règles simples qu’on essaiera de suivre :
                      • l’effectif d’une classe ne doit pas être inférieur à cinq
                      • le nombre de classes ne doit pas être trop faible
                      • il existe quelques formules empiriques pour déterminer le nombre
                          de classes c, par exemple : c =                           N ,c =              ( 1 + 3,3log 10 N )
                      •   en général, nous essaierons d’avoir des classes de même amplitude
                          qui sera de préférence une valeur simple comme un entier.

HISTOGRAMME DES       Pour représenter de telles séries, on utilise souvent l’histogramme des
EFFECTIFS             effectifs. Il s’agit d’un diagramme en barres comprenant une barre
                      pour chaque classe et où la surface de la barre est proportionnelle à
                      l’effectif de la classe.



                      Les paramètres de position

LE MODE               On appelle mode d’une série statistique la modalité la plus fréquente.
                      Il peut ne pas exister et n’est pas nécessairement unique.

LA MOYENNE            La moyenne arithmétique d’une série statistique quantitative vaut :
ARITHMÉTIQUE

                                          n 1 x 1 + n 2 x 2 + ... + n m x m                            1 m
                                      x = --------------------------------------------------------- = --- ∑ n i x i
                                                                                                  -     -                     (6)
                                                   n 1 + n 2 + ... + n m                              N
                                                                                                          i=1


LA MOYENNE            Cette formule se simplifie si n i = 1 pour i = 1…m . En effet alors
ARITHMÉTIQUE SIMPLE

                                                                                         m
                                                                                        ∑ xi
                                       1x 1 + 1x 2 + ... + 1x m                            i=1             1 m
                                   x = ------------------------------------------------- = ------------ = --- ∑ x i
                                                                                       -              -     -                 (7)
                                                1 + 1 + ... + 1                               m           mi = 1
                                                                                             ∑1
                                                                                        i=1


LA MÉDIANE            La médiane d’une série statistique rangée en ordre croissant ou
                      décroissant est une valeur qui partage en deux parties égales l’effectif
                      total de cette série. Si l’effectif est un nombre pair, on prendra comme
                      valeur médiane la moyenne arithmétique des deux valeurs centrales.




                      Statistique descriptive                                                                                  9
             Les paramètres de dispersion



             Exemple : soit la série statistique suivante

                 5       3       6     6       1      6       2          1   7   1

             La moyenne arithmétique vaut 3.8, les modes sont 1 et 6, la médiane
             est égale à ( 3 + 5 ) = 4 .-
                         ----------------
                                2

             Dans le cas d’une série statistique numérique classée, on peut calculer
             une valeur approchée de la moyenne en prenant pour x i les centres de
             classe, pour n i les effectifs de classe et m égal au nombre de classes.



             Les paramètres de dispersion

ÉTENDUE      On appelle étendue d’une série statistique la différence entre les deux
             valeurs extrêmes de la série.

VARIANCE     La variance d’une série statistique quantitative est la moyenne
             arithmétique des carrés des écarts à la moyenne arithmétique. On la
                                       2
             note généralement σ .


                                                1 m
                                           σ = --- ∑ ( x i – x )
                                            2                    2
                                                 -                                   (8)
                                               mi = 1


ÉCART-TYPE   L’écart-type est définie comme étant la racine carrée positive de la
             variance. L’avantage de l’écart-type par rapport à la variance est que
             c’est un nombre qui s’exprime dans la même unité que les valeurs
             observées.


                                                    1 m
                                           σ =     --- ∑ ( x i – x ) 2
                                                     -                               (9)
                                                   m
                                                     i=1


             La signification de l’écart-type et de la variance est simple : plus les
             valeurs observées sont homogènes, plus ces deux nombres sont petits
             et inversement, plus les valeurs sont hétérogènes, plus ces deux
             nombres sont grands.

             En général, la formule de la variance s’écrit



10           Statistique descriptive
Les paramètres de dispersion




                                  1 m
                             σ = --- ∑ n i ( x i – x )
                              2                        2
                                   -                                                   (10)
                                 N
                                         i=1


et l’écart-type


                                      1 m
                            σ =      --- ∑ n i ( x i – x ) 2
                                       -                                               (11)
                                     Ni = 1


En présence d’une série statistique numérique classée, on peut calculer
une valeur approchée de l’écart-type et de la variance en prenant pour
x i les centres de classe, pour n i les effectifs de classe et m égal au
nombre de classes.

Pour les calculs pratiques, ces formules peuvent être simplifiées :


           1 m                 1 m 2
Ainsi σ = --- ∑ ( x i – x ) = --- ∑ ( x i – 2x i x + x )
       2                   2                          2
            -                   -
          m                   mi = 1
                   i=1


et la variance peut s’écrire


      1 m             1 m                 m
     --- ∑ x 2 – 2 x --- ∑ x i + x 2 = 1 ∑ x 2 – 2 x 2 + x 2 en utilisant (7)
       -     i         -                -
                                       --    i
     m               m                 n
       i=1                i=1                  i=1



                               1 m 2 2
                          σ = --- ∑ x i – x = x – x
                           2                   2    2
                                -                                                      (12)
                              mi = 1


                             1 m
Dans le cas général : σ 2 = --- ∑ n i ( x i – x ) 2
                              -
                            N
                                         i=1


                                    1 m
                                   --- ∑ n i ( x 2 – 2x i x + x 2 )
                                 = -             i
                                   N
                                         i=1


                                          m                    m                m
                                    1
                                          ∑    n i x i – 2x ∑ n i x i + x       ∑ ni
                                                   2                        2
                                     -
                                 = ---
                                   N     i=1               i=1                  i=1




Statistique descriptive                                                                 11
     Exercices non résolus



     Cette dernière expression se simplifie à l’aide des formules (1) et (6).


                                    1 m
                               σ = --- ∑ n i x i – 2xx + x
                                2              2           2
                                     -
                                   N
                                       i=1



                                1 m
                           σ = --- ∑ n i x i – x = x – x
                            2              2    2   2    2
                                 -                                            (13)
                               Ni = 1




     Exercices non résolus
     1.   Sur base des données suivantes, il faut effectuer des diagrammes en
          secteurs pour les années 2000 et 2001 (uniquement les trois grandes
          catégories).




          Ensuite, il faut calculer les taux d’évolution de toutes les différentes
          catégories d’infractions entre 2000 et 2001 et les représenter
          graphiquement. Quelles conclusions pouvez vous en tirer ?




12   Statistique descriptive
Exercices non résolus



2.   En vous basant sur les données suivantes (source Statec), il faut
     effectuer les travaux suivants :




     A) Quel était l'effectif total des médecins en activité au
     Luxembourg en 1996 et en 2001 ?
     B) Faire un diagramme en barres commun de la distribution des
     effectifs par catégorie (généralistes, spécialistes, dentistes) en 1996
     et en 2001.
     C) Faire un diagramme en barres dans l'ordre des effectifs
     décroissants par spécialité pour 2001.
     D) Calculer les pourcentages de médecins par catégorie
     (généralistes, spécialistes, dentistes) en 1996 et en 2001. Que
     constatez vous ?
     E) Quelle est la catégorie de médecins en activité qui a crue le plus
     entre 1996 et 2001 ?




Statistique descriptive                                                  13
     Exercices non résolus



     3.   Voici un extrait des données du Statec concernant la “Population
          totale par groupe d'âges et sexe, selon la situation par rapport à la
          vie économique au 1er mars 1991 et au 15 février 2001” :




        À partir de ces données, il faut construire un diagramme en barres
        empilé complet, ainsi qu’un diagramme en barres empilé simplifié
        qui tient compte du regroupement des données en trois classes, à
        savoir les chômeurs âgés de moins de 25 ans, ceux âgés entre 25 et
        49 ans et les chômeurs âgés de 50 ans et plus.
        Ensuite, il faut faire quatre diagrammes en bandeaux sur les
        distributions des fréquences selon les trois classes d’âges pour les
        paires (Homme 1991, Homme 2001), (Femme 1991, Femme
        2001), (Homme 1991, Femme 1991), (Homme 2001, Femme
        2001).
        Quel est l’âge moyen d’un chômeur (homme, femme) en 1991 ? Et
        en 2001 (On ne tiendra pas compte des 65 ans et plus de même que
        ceux sans indication) ? Que constatez vous ?
        Calculez l’écart-type pour ces quatre catégories !
     4. À partir des données fournies dans le tableau ci-dessous, il faut
        créer l’histogramme des âges de la population luxembourgeoise tel
        qu’il est présenté dans la figure ci-dessous. Les données sont à
        regrouper dans 10 classes d'amplitude 10.
        Quel est l'âge moyen (total, hommes, femmes) calculé sur base de
        la série complète ?
        Quel est l'âge moyen (total, hommes, femmes) calculé sur base de
        la série classée ?
        Quel est l'âge médian (total, hommes, femmes) calculé sur base de
        la série complète ?




14   Statistique descriptive
Exercices non résolus




   Quel est l'âge médian (total, hommes, femmes) calculé sur base de
   la série classée ?
   Réalisez la pyramide des âges suivante :




Statistique descriptive                                          15
     Références



       Quelles sont vos conclusions générales ?
     Source Statec :          30    3229  3208          63    1951   2103
                                 31   3485   3503       64    2008   2142
        Age      Hom-     Femm
                 mes      es     32   3692   3653       65    1832   2123

        0        2802     2481   33   3658   3743       66    1842   1920

        1        2754     2582   34   3817   3765       67    1801   1971

        2        2877     2727   35   3880   3856       68    1638   1905

        3        3018     2849   36   4072   3918       69    1592   1910

        4        2972     2818   37   3986   4024       70    1592   1834

        5        2859     2693   38   4048   3904       71    1535   1901

        6        2927     2837   39   4217   3976       72    1666   1984

        7        3099     2855   40   4009   3823       73    1599   1994

        8        2981     2843   41   3868   3771       74    1497   1939

        9        2930     2926   42   3756   3708       75    1398   1734

        10       2965     2754   43   3696   3697       76    1272   1762

        11       2863     2804   44   3712   3514       77    1049   1645

        12       2837     2652   45   3669   3415       78    874    1533

        13       2942     2710   46   3564   3432       79    736    1460

        14       2773     2650   47   3305   3376       80    697    1414

        15       2695     2679   48   3244   3173       81    538    1238

        16       2616     2544   49   3274   3198       82    563    1152

        17       2641     2532   50   3133   3022       83    468    1168

        18       2565     2431   51   3098   3013       84    339    801

        19       2646     2470   52   2927   2673       85    271    591

        20       2572     2475   53   2878   2782       86    219    574

        21       2649     2543   54   2880   2686       87    200    526

        22       2787     2531   55   2889   2660       88    189    524

        23       2625     2508   56   2767   2602       89    154    504

        24       2627     2606   57   2614   2476       90    134    389

        25       2728     2795   58   2253   2211       91    101    358

        26       2918     2858   59   2231   2115       92    55     211

        27       3013     2867   60   2235   2199       93    40     193

        28       3127     3098   61   2164   2191       94    18     173

        29       3094     3211   62   1945   2019       95+   55     260




     Références
     [1] Michel Janvier, Statistique descriptive avec ou sans tableur,
     Dunod, 1999
     [2] Jean-Jacques Droesbeke, Éléments de statistique, Éditions de
     l’université de Bruxelles, 2001
     [3] J.-L. Monino, J.-M. Kosianski, F. Le Cornu, Statistique
     descriptive, Dunod, 2000




16   Statistique descriptive

				
DOCUMENT INFO
Shared By:
Stats:
views:1
posted:2/22/2013
language:
pages:16