STATISTIQUES
I Statistiques à une variable - rappels
Exercice 01 (voir réponses et correction)
On a relevé le prix de vente d'un CD et le nombre de CD vendus chez différents fournisseurs.
Les résultats forment une série statistique à une variable, donnée dans le tableau suivant :
Prix de vente en euros 15 16 17 18 19
Nombre de CD vendus 83 48 32 20 17
Quelles sont les différentes valeurs de la série.
Donner la fréquence correspondant à chacune de ces valeurs.
Donner la moyenne et l'écart-type de la série. Que représentent ces nombres ?
Représenter la série par un diagramme à barres.
Définitions
On considère une série statistique donnée par le tableau suivant :
Valeur : xi x1 x2 x3 … … … xp
Effectif : ni n1 n2 n3 … … … np
n x x + n2 x x2 + n3 x x3 + … + np x xp
La moyenne de cette série est : x = 1 1 =
∑nixi
n1 + n2 + n3 + … + np ∑ni
La moyenne permet d'avoir une idée du "centre" de la série, c'est une mesure de tendance centrale.
n x (x1 - x )2 + n2 x (x2 - x )2 + n3 x (x3 - x )2 + … + np x (xp - x )2
La variance de cette série est : V = 1
n1 + n2 + n3 + … + np
On note V=
∑ni(xi - )2
x
; on a aussi V =
∑ni(xi)2 - 2
x
∑ni ∑ni
L'écart-type de cette série est : σ = V
L'écart-type permet d'avoir une idée de la façon dont les valeurs de la série s'écartent par rapport à la
moyenne. C'est une mesure de dispersion.
Un écart-type faible correspond à une série concentrée autour de la moyenne.
Remarques
• Si la série statistique n'est pas donnée avec les effectifs mais avec les fréquences fi, on a :
x = f1 x x1 + f2 x x2 + f3 x x3 + … + fp x xp = ∑ fi xi
et V = f1 x (x1 - x )2 + f2 x (x2 - x )2 + f3 x (x3 - x )2 + … + fp x (xp - x )2 = ∑fi(xi - x )2
• Les calculs de moyenne, de variance et d'écart-type sont, pour des séries prenant un grand nombre de
valeurs, des calculs compliqués. Les calculatrices utilisées en mode statistique et les ordinateurs rendent
alors de grands services pour ces calculs.
Propriété
Lorsqu'on augmente (ou lorsqu'on diminue) d'un même nombre r chacune des valeurs du caractère d'une
série statistique, la moyenne augmente (ou diminue) de r.
Lorsqu'on multiplie (ou lorsqu'on divise) par un même nombre non nul k chacune des valeurs du caractère
d'une série statistique, la moyenne est multipliée (ou divisée) par k.
Exercice 02 (voir réponses et correction)
Dans une classe de 30 élèves, la moyenne des 20 filles est 11,5 et la moyenne des 10 garçons est 8,5.
Donner la moyenne de la classe.
http://xmaths.free.fr/ TES − Statistiques page 1
Propriété
Soit une série statistique d'effectif N, partagée en deux groupes :
un groupe d'effectif p et de moyenne m1
un groupe d'effectif q = N - p et de moyenne m2
p x m1 + q x m2
Alors la moyenne m de la série est m =
N
Définitions
On considère une série, dont les valeurs sont ordonnées (rangées dans l'ordre croissant).
Si la série comporte un nombre pair 2n de termes, la médiane de cette série est la demi-somme de la valeur
du terme de rang n et de la valeur du terme de rang n+1.
Si la série comporte un nombre impair 2n+1 de termes, la médiane de cette série est la valeur du terme de
rang n+1 (c'est-à-dire le terme partageant la série en deux groupes de même effectif).
On appelle premier quartile d'une série la plus petite valeur q des termes de la série pour laquelle au moins
un quart (25%) des données sont inférieures ou égales à q.
On appelle troisième quartile d'une série la plus petite valeur q' des termes de la série pour laquelle au
moins trois quarts (75%) des données sont inférieures ou égales à q'.
On appelle intervalle interquartile l'intervalle [q ; q'].
On appelle écart interquartile l'amplitude de l'intervalle [q ; q'], c'est-à-dire le nombre q' - q.
On appelle premier décile d'une série la plus petite valeur d des termes de la série pour laquelle au moins
un dixième (10%) des données sont inférieures ou égales à d.
On appelle neuvième décile d'une série la plus petite valeur d' des termes de la série pour laquelle au moins
neuf dixièmes (90%) des données sont inférieures ou égales à d'.
On appelle intervalle interdécile l'intervalle [d ; d'].
On appelle écart interdécile l'amplitude de l'intervalle [d ; d'], c'est-à-dire le nombre d' - d.
Exercice 03 (voir réponses et correction)
Déterminer la médiane de chacune des séries :
101 101 105 105 107 108 108 110
87 88 89 89 90 92 92 93 97 99 99
Exercice 04 (voir réponses et correction)
Déterminer la médiane, les quartiles et l'écart interquartile de la série :
11 , 12 , 12 , 13 , 15 , 16 , 16 , 17 , 17 , 18 , 19 , 20 , 22 , 23
Exercice 05 (voir réponses et correction)
Déterminer la médiane, les quartiles, les déciles, l'écart interquartile et l'écart interdécile de la série :
4, 5, 5, 5, 6, 6, 7, 8, 8, 9, 9, 9, 9, 10, 10, 11, 11, 11, 12, 13, 13, 13, 14, 14, 15, 15, 17
Exercice 06 (voir réponses et correction)
Déterminer la moyenne et l'écart-type de la série :
4, 5, 5, 5, 6, 6, 7, 8, 8, 9, 9, 9, 9, 10, 10, 11, 11, 11, 12, 13, 13, 13, 14, 14, 15, 15, 17
Exercice 07 (voir réponses et correction)
Le tableau suivant donne une répartition des salaires mensuels en euros des employés d'une entreprise.
Salaire [1000 ; 1200[ [1200 ; 1500[ [1500 ; 2000[ [2000 ; 3000[ [3000 ; 10000[
Effectif 326 112 35 8 3
1°) Quel est le nombre d'employés de l'entreprise ?
2°) Quel est le nombre d'employés touchant un salaire mensuel supérieur ou égal à 1200 euros.
3) Représenter les données par un histogramme (voir éventuellement page suivante).
4) Quel est le salaire moyen des employés de l'entreprise ?
http://xmaths.free.fr/ TES − Statistiques page 2
Histogramme
Si les données sont regroupées en classes (intervalles), la série peut être représentée par un histogramme.
Dans un histogramme ce sont les aires des rectangles qui correspondent aux effectifs.
(Dans un diagramme à barres ou à bandes, ce sont les hauteurs des barres qui correspondent aux effectifs)
Exemple
On considère la série :
xi 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
ni 3 5 4 5 6 7 7 10 13 20 25 21 23 12 10 5 7 5 3 2 1
Si on regroupe les valeurs dans des classes, on obtient par exemple :
xi [0 ; 5,5] ]5,5 ; 8,5] ]8,5 ; 11,5] ]11,5 ; 14,5] ]14,5 ; 20]
ni 30 30 66 45 23
On peut alors faire les représentations graphiques correspondantes :
Diagramme à barres Histogramme
Exercice 08 (voir réponses et correction)
Un entomologiste a fait des relevés sur la taille de 50 courtilières adultes.
33 35 36 36 37 37 37 38 38 38 39 39 39 39 40 40 40 40 40 41 41 41 41 41 41 41 42 42 42
42 42 42 43 43 43 43 44 44 44 44 45 45 45 46 46 47 47 48 48 50
1°) Organiser les relevés dans le tableau d'effectifs suivant :
Valeur 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
Effectif
Effectif cumulé
croissant
2°) Représenter les données par un diagramme à barres. Un diagramme circulaire serait-il intéressant ?
3°) Calculer la moyenne de la série. Déterminer sa médiane.
4°) Déterminer le 1er et le 3ème quartile puis le 1er et le 9ème décile.
5°) Construire le diagramme en boîte correspondant à la série (voir éventuellement page suivante).
6°) On regroupe les données en classes, c'est-à-dire en intervalles.
Compléter le tableau des effectifs suivants :
Valeur [33 ; 37[ [37;40[ [40 ; 42[ [42 ; 44[ [44 ; 47[ [47 ; 51[
Effectif
Dessiner l'histogramme correspondant.
http://xmaths.free.fr/ TES − Statistiques page 3
Construction d'un diagramme en boîte
Ce type de diagramme est aussi appelé diagramme de Tuckey, boîte à moustaches ou boîte à pattes.
er ème er ème
Il utilise la médiane, le 1 et le 3 quartile, le 1 et le 9 décile ou les valeurs extrêmes d'une série.
La construction ci-contre est faite pour une série caractérisée par :
médiane : 113
er ème
1 quartile : 110 3 quartile : 117
er ème
1 décile : 108 9 décile : 119 ème
3 quartile
On choisit une graduation verticale permettant de
représenter les différentes valeurs de la série.
On pourra par exemple graduer entre 90 et 130.
Le "corps" du diagramme, c'est-à-dire la "boîte" est
formée d'un rectangle ayant pour extrémité inférieure le médiane
er ème
1 quartile et pour extrémité supérieure le 3 quartile.
A l'intérieur de ce rectangle on tracera un segment er
1 quartile
représentant la médiane.
La largeur du rectangle n'est pas fixée, elle sera choisie
de façon à obtenir un graphique "harmonieux".
Ce rectangle représente les données contenues dans
l'intervalle interquartile.
ème
9 décile
er
On repère ensuite les hauteurs correspondant au 1 et
ème
au 9 décile, et on trace deux pattes représentant les
données contenues dans l'intervalle interdécile.
(la largeur des pattes n'a pas d'importance).
er
1 décile
Facultatif
On peut ensuite terminer le graphique, en faisant figurer
par des points les données qui sont en dehors de
l'intervalle interdécile.
Si certaines données, sont manifestement très éloignées,
on ne les représentera pas, mais on pourra écrire leurs
valeurs au dessous du diagramme.
Remarques
• Le graphique est parfois fait en dessinant des pattes
er ème
correspondant non pas au 1 et au 9 décile, mais
er ème
aux valeurs extrêmes (ou au 1 et au 99 centile).
• Une boîte et des "pattes" courtes indiquent que la
série est assez concentrée autour de sa médiane.
Au contraire une boîte et des "pattes" longues
indiquent que la série est assez dispersée.
• Un des avantages de cette représentation, est qu'elle nécessite très peu de calculs.
• La représentation peut aussi se faire horizontalement, d'où l'appellation de "boîte à moustaches".
La graduation se trouve alors sur l'axe horizontal,
http://xmaths.free.fr/ TES − Statistiques page 4
Exercice 09 (voir réponses et correction)
On a relevé les taux de cholestérol de 200 employés des hôpitaux de Los Angeles victimes de maladie
cardiaque.
270 320 310 250 250 300 250 270 270 190 200 260 260 330 280 280 250 240 330 250
250 230 270 230 240 200 210 240 210 270 210 130 220 290 220 200 220 330 270 260
300 150 350 230 210 250 230 250 220 310 180 280 300 290 190 220 250 230 220 220
200 230 230 220 360 290 270 240 170 190 280 250 270 280 300 240 210 260 190 250
260 240 290 230 270 250 360 190 180 260 350 180 250 280 270 240 220 230 220 220
240 300 280 220 240 230 300 280 220 240 190 170 320 150 320 200 210 270 230 270
270 250 230 290 220 220 310 260 260 230 250 300 200 160 230 270 280 180 300 270
270 270 250 250 240 250 280 210 350 200 230 210 240 200 210 330 200 260 310 160
290 300 320 340 350 170 290 200 140 310 260 260 240 220 180 320 220 300 310 250
240 300 330 240 300 330 200 190 300 240 210 240 200 260 170 270 250 250 270 190
1°) Organiser ces données dans un tableau faisant apparaître les effectifs.
er ème er ème
2°) Déterminer la médiane, le 1 quartile, le 3 quartile, le 1 décile et le 9 décile de la série.
3°) Construire un diagramme en boîte pour représenter la série.
Exercice 10 (voir réponses et correction)
Le tableau ci-dessous indique les résultats aux différentes séries du baccalauréat dans l'académie de
Bordeaux en 1999. (Source : Direction de la programmation et du développement, MENRT)
Bac Général Bac Technologique Bac Pro Total
Admis 12 133 6 133 4 038
Refusés 3 516 1 439 1 119
Total
1°) Reproduire et compléter ce tableau d'effectifs en remplissant la dernière ligne et la dernière colonne qui
sont appelées distributions marginales (marges).
2°) Présenter un tableau similaire dans lequel seront indiquées les fréquences (en pourcentage avec une
décimale) calculées par rapport à l'effectif total.
Que représente la valeur se trouvant à l'intersection de la colonne "Bac Général" et de la ligne "Total" ?
Cette valeur s'appelle fréquence marginale de la catégorie "Bac Général".
Que représente la valeur se trouvant à l'intersection de la ligne "Admis" et de la colonne "Total" ?
Cette valeur s'appelle fréquence marginale de la catégorie "Admis".
3°) Présenter un tableau similaire dans lequel seront indiquées les fréquences (en pourcentage avec une
décimale) calculées par rapport au total de chaque colonne.
Que représente la valeur se trouvant à l'intersection de la colonne "Bac Général" et de la ligne "Admis" ?
Cette valeur s'appelle fréquence conditionnelle de la catégorie "Admis" dans la catégorie "Bac Général".
4°) Présenter un tableau similaire dans lequel seront indiquées les fréquences (en pourcentage avec une
décimale) calculées par rapport au total de chaque ligne.
Que représente la valeur se trouvant à l'intersection de la colonne "Bac Général" et de la ligne "Admis" ?
Cette valeur s'appelle fréquence conditionnelle de la catégorie "Bac Général" dans la catégorie "Admis".
5°) A partir des tableaux précédents, répondre aux questions suivantes :
• Quelle est la fréquence des admis au baccalauréat ?
• Quelle est la fréquence des "Bac Pro" ?
• Quelle est la fréquence des élèves refusés sachant qu'ils présentaient un Bac Technologique ?
• Quelle est la fréquence des "Bac Pro" parmi les admis ?
http://xmaths.free.fr/ TES − Statistiques page 5
II Statistiques à deux variables
Définition
On considère deux variables statistiques numériques observées sur une même population de n individus
On note x1 ; x2 ; ... xn les valeurs relevées pour la première variable
et y1 ; y2 ; ... yn les valeurs relevées pour la deuxième variable.
Les couples (x1 ; y1) ; (x2 ; y2) ; ... ; (xn ; yn) forment une série statistique à deux variables.
Dans le plan rapporté à un repère orthogonal, on appelle nuage de points associé à cette série statistique à
deux variables, l'ensemble des points M1(x1 ; y1) ; M2(x2 ; y2) ; ... ; Mn(xn ; yn) .
On appelle point moyen de cette série le point G de coordonnées ( − ; − ) où − et − sont les moyennes
x y x y
respectives des séries x1 ; x2 ; ... xn et y1 ; y2 ; ... yn .
Exemple
On considère la série statistique à deux variables, donnant le poids en kg et la taille en cm d'enfants de 60
mois et de sexe masculin.
Poids 20 18 17 20 20 17 20 18 21 19 20 23 18 20
Taille 112 106 105 110 111 106 112 108 112 106 108 114 107 110
On peut représenter le nuage de
points correspondant et placer le point 116 taille en cm
115
moyen G dont les coordonnées sont 114
données par : 113
− ≈ 19,4
x
112
111
− = 109,1
y 110 G
109
108
NB : Il est possible que deux points du 107
nuage soient confondus 106
105
104
103
102
101 Poids en kg
100
15 16 17 18 19 20 21 22 23 24
Remarque
Lorsque le nuage de points a un aspect rectiligne, on pourra procéder à un ajustement affine, c'est-à-dire que
l'on assimilera le nuage à une droite assez proche de tous ses points.
Cet ajustement affine pourra être utilisé pour prodéder à des interpolations ou à des extrapolations.
Le problème se posera de savoir quelle droite sera la plus proche du nuage et donnera les meilleurs
résultats.
http://xmaths.free.fr/ TES − Statistiques page 6
Exemple
Le nuage de points ci-contre représente le
chiffre d'affaires en millions d'euros d'une Chiffre d'affaires
entreprise pendant la période allant de 1980
à 2000.
Le nuage ayant un aspect rectiligne, on 2
admet que l'on peut faire un ajustement
affine par la droite d'équation y = 0,05x - 98
que l'on représente sur le dessin.
1,5
Cette droite permet de trouver par exemple
• par interpolation le chiffre d'affaires
approché de l'entreprise en 1996 :
y(1996) = 0,05 x 1996 - 98 = 1,8 1
• par extrapolation le chiffre d'affaires Année
prévisible de l'entreprise en 2010 : 1 980 1 985 1 990 1 995 2 000 2 005 2 010
y(2010) = 0,05 x 2010 - 98 = 2,5
On parle d'interpolation pour des valeurs à l'intérieur de la plage des valeurs observées et d'extrapolation
pour des valeurs à l'extérieur de cette plage.
Bien entendu, les résultats obtenus par interpolation et par extrapolation sont à exploiter avec prudence.
Remarque
Lorsque le nuage de points n'a pas un
aspect rectiligne, on peut parfois faire un
ajustement par une courbe qui n'est pas une
droite.
Certains exemples nécessitant des
connaissances supplémentaires (fonction
logarithme népérien, fonction exponentielle,
fonctions puissances) seront donnés
ultérieurement.
Exercice 11 (voir réponses et correction)
Le tableau suivant présente l'évolution du taux de chômage, en pourcentage de la population active, au
Japon, entre 1950 et 1996.
Année 1950 1960 1965 1970 1975 1980 1985 1990 1995 1996
Rang de l'année
xi 0 10 15 20 25 30 35 40 45 46
Taux yi
1,2 1,6 1,6 1,2 1,1 2,0 2,6 2,1 3,1 3,4
(en %)
1°) Représenter le nuage de points correspondant à la série (xi ; yi).
On choisira un repère orthogonal pour lequel :
1cm représente 5 années sur l'axe des abscisses,
1cm représente un taux de chômage de 0,5% sur l'axe des ordonnées.
2°) Déterminer les coordonnées du point moyen A de ce nuage.
Le placer sur le graphique.
3°) On prend pour droite d'ajustement de ce nuage la droite D passant par A et de coefficient directeur 0,04.
a) Déterminer une équation de D.
b) Représenter D sur le graphique.
4°) Répondre aux questions suivantes en utilisant l'ajustement précédent.
a) Quel est le taux de chômage prévisible pour 2005 ?
b) À partir de quelle année le taux prévisible dépassera-t-il à nouveau 3,2% ?
http://xmaths.free.fr/ TES − Statistiques page 7
Exercice 12 (voir réponses et correction)
Le tableau suivant donne la consommation française en tonnes d'une certaine matière première M pour la
période de 1996 à 2003.
Année 1996 1997 1998 1999 2000 2001 2002 2003
Consommation
7740 7800 7880 7900 7920 8000 8020 8060
en tonnes
On appelle xi le rang de l'année exprimé à partir de 1995 et yi la consommation française en tonnes de la
matière M.
1°) Représenter le nuage de points de coordonnées (xi ; yi)
On choisira un repère orthogonal avec 2cm pour 1 unité en abscisses et 1cm pour 20 unités en
ordonnées.
2°) Dans le but de prévoir la consommation de la matière M pour les années suivantes, on décide de
procéder à un ajustement affine de la série statistique (xi ; yi).
On appelle G1 le point moyen du sous-nuage formé par les points d'abscisses 1 , 2 , 3 et 4 .
et G2 le point moyen du sous-nuage formé par les autres points.
a) Calculer les coordonnées de G1 et de G2 .
b) Donner une équation de la droite (G1G2) sous la forme y = mx + p .
c) Tracer la droite (G1G2) sur le dessin précédent. On admettra que cette droite (appelée droite de Mayer)
représente un ajustement affine de la série.
d) Calculer, en utilisant cet ajustement, une valeur approchée, à une tonne près, de la consommation
française de matière M prévisible pour 2010.
Remarque Mn
On considère un nuage de points
M1(x1 ; y1) ; M2(x2 ; y2) ; ... ; Mn(xn ; yn) de forme M2
rectiligne.
Soit d d'équation y = ax + b une droite
d'ajustement.
d M1
Considérons les points P1 ; P2 ; ... ; Pn d'abscisses
respectives x1 ; x2 ; ... ; xn sur la droite d.
Ces points ont pour ordonnées respectives
ax1+b ; ax2+b ; ... ; axn+b Mn
La somme
M2 Pn
(M1P1)2 + (M2P2)2 + ... + (MnPn)2
est appelée somme des carrés des résidus.
On appelle droite des moindre carrés la droite d P1 P2
pour laquelle la somme des carrés des résidus est d
minimale. M1
Propriété
On considère un nuage de points M1(x1 ; y1) ; M2(x2 ; y2) ; ... ; Mn(xn ; yn) de forme rectiligne.
La droite d'ajustement d obtenue par la méthode des moindres carrés est la droite passant par le point
moyen G et ayant pour coefficient directeur :
i=n
− −
− − + (x - −
(x1 - x)(y1 - y) − + ... + (x - −
x)(y2 - y) − ∑ (xi - x)(yi - y)
x)(yn - y) i = 1
2 n
a= =
(x1 - − 1 - − + (x2 - − 2 - − + ... + (xn - − n - −
x)(x x) x)(x x) x)(x x) i=n
−2 ∑ (xi - x)
i=1
Cette droite a pour équation : y = a(x - − + −
x) y
La droite d est aussi appelée droite de régression de y en x .
http://xmaths.free.fr/ TES − Statistiques page 8
Exemple
On considère la série
xi 10 11 13 15 17 18
yi 105 107 110 111 112 115
i=n i=n
∑ xi ∑ yi
On a − = i = 1 = 14 et − = i = 1 = 110.
x y Le point moyen G a pour coordonnées (14 ; 110)
6 6
On peut calculer dans un tableau :
xi 10 11 13 15 17 18
yi 105 107 110 111 112 115
(xi - −x) -4 -3 -1 1 3 4
−
(yi - y) -5 -3 0 1 2 5
(xi - − i - −
x)(y y) 20 9 0 1 6 20
(xi - − 2
x) 16 9 1 1 9 16
On en déduit le coefficient directeur de la droite d'ajustement
a = 20 + 9 + 0 + 1 + 6 + 20 = 56 ≈ 1,077
16 + 9 +1 + 1 +9 + 16 52
La droite d'ajustement par la méthode des moindres carrés est donc la droite d'équation :
y = 56 (x - 14) + 110
52
On pourra donner l'équation en utilisant une valeur approchée du coefficient a
y = 1,077(x - 14) + 110 ou y = 1,077 x + 94,922
On peut en déduire par interpolation :
• La valeur de y correspondant à x = 12 : y = 1,077 x 12 + 94,922 donc y ≈ 107,8
• La valeur de x correspondant à y = 114 : 114 = 1,077 x + 94,922 donc x ≈ 17,7
et par extrapolation :
• La valeur de y correspondant à x = 20 : y = 1,077 x 20 + 94,922 donc y ≈ 116,5
• La valeur de x correspondant à y = 120 : 120 = 1,077 x + 94,922 donc x ≈ 23,3
Remarque
Les calculs donnant la droite d'ajustement par la méthode des moindres carrés peuvent être faits avec une
calculatrice ou un ordinateur.
Le principe, avec une calculatrice, est d'entrer les valeurs de xi dans une première liste, les valeurs de yi
dans une deuxième liste puis de demander les calculs statistiques concernant les statistiques à 2 variables.
On peut aussi obtenir le tracé du nuage des points et de la droite d'ajustement par la méthode des moindres
carrés.
Avec une calculatrice TI 82 :
http://xmaths.free.fr/ TES − Statistiques page 9
Exercice 13 (voir réponses et correction)
Le tableau suivant représente l'évolution du chiffre d'affaires en milliers d'euros d'une entreprise pendant dix
années, entre 1995 et 2004.
Année 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004
rang de l'année xi 0 1 2 3 4 5 6 7 8 9
chiffre d'affaires yi 110 130 154 180 190 210 240 245 270 295
1°) Représenter le nuage de points Mi(xi ; yi).
On choisira un repère orthogonal ayant pour unités 2cm en abscisse et 1cm pour 20 milliers d'euros en
ordonnée.
2°) Quel est, en pourcentage, l'augmentation du chiffre d'affaires entre les années 1995 et 2004 ?
(on donnera le résultat à 1% près par excès)
3°) Soit G le point moyen du nuage. Calculer les coordonnées de G et placer G sur le dessin.
4°) Justifier qu'il est judicieux de procéder pour cette série à un ajustement affine.
Donner, en utilisant la calculatrice, l'équation de la droite d'ajustement D obtenue par la méthode des
moindres carrés.
5°) Vérifier que G appartient à la droite D et tracer D sur le dessin.
6°) En admettant que l'évolution continue au même rythme et en utilisant l'ajustement affine, quel chiffre
d'affaires peut-on attendre pour l'année 2010 ?
7°) On suppose qu'à partir de l'année 2004, le chiffre d'affaires progresse de 8% par an.
Quel est alors le chiffre d'affaire prévisible en 2010 ?
Exercice 14 (voir réponses et correction)
Le tableau suivant donne la distance de freinage nécessaire à une automobile circulant sur une route humide
pour s'arrêter.
Vitesse xi en
30 40 50 60 70 80 90 100 110 120
km.h-1
Distance de
freinage di en 18 26 40 58 76 98 120 148 180 212
mètres
yi = di
Cette série statistique est représentée par le nuage de points
ci-contre
200
On pose yi = di et on considère la série statistique (xi ; yi).
1°) Reproduire et compléter la dernière ligne du tableau.
Les valeurs yi seront arrondies à 0,01 près 150
2°) Représenter le nuage de points Mi(xi ; yi).
On choisira un repère orthogonal ayant pour unités 1cm
pour 20 km.h-1 en abscisse et 0,5 cm en ordonnée.
100
3°) Donner, en utilisant la calculatrice, la droite de régression
de y en x.
Les coefficients seront arrondis à 0,001 près.
4°) En déduire une expression de la distance de freinage d 50
en fonction de la vitesse x.
5°) En utilisant cette expression déterminer la distance de
freinage correspondant à une vitesse de 160 km.h-1 et
déterminer la vitesse correspondant à une distance de
freinage de 300 mètres. -20 O 20 40 60 80 100 120
http://xmaths.free.fr/ TES − Statistiques page 10
III Adéquation à une loi équirépartie
Exemple
On considère deux dés cubiques dont les faces sont numérotées de 1 à 6.
On jette 600 fois chacun de ces dés on obtient les résultats suivants :
Dé rouge 1 2 3 4 5 6
Nombre
d'apparitions
124 84 99 112 92 89
Dé bleu 1 2 3 4 5 6
Nombre
d'apparitions
92 91 113 96 94 114
On se pose la question de savoir si ces dés sont équilibrés.
Lorsqu'un dé est équilibré, la probabilité d'apparition de chacune de ses faces est 1 .
6
Ainsi, si les fréquences d'apparition de chacune des faces sont proches de 1 , on peut penser que le dé a "de
6
fortes chances d'être équilibré".
Sur les 600 lancers des tableaux précédents, les fréquences d'apparition de chacune des faces sont :
Dé rouge 1 2 3 4 5 6
Fréquence
d'apparition
0,206667 0,14 0,165 0,186667 0,153333 0,148333
Dé bleu 1 2 3 4 5 6
Fréquence
d'apparition
0,153333 0,151667 0,188333 0,16 0,156667 0,19
Afin de quantifier l'expression "de fortes chances d'être équilibré", on cacule l'expression :
i=6 2 2 2 2 2 2 2
d2obs = ∑ fi - 1
6
= f1 - 1 + f2 - 1 + f3 - 1 + f4 - 1 + f5 - 1 + f6 - 1
6 6 6 6 6 6
i=1
On obtient pour le dé rouge d2obs = 0,003228 et pour le dé bleu d2obs = 0,001561
Si le dé est équilibré, le nombre d2obs doit être "petit".
Mais les résultats d'une série de 600 tirages avec un même dé, même s'il est parfaitement équilibré, ne sont
jamais exactement les mêmes, c'est ce que l'on appelle la fluctuation d'échantillonnage.
L'étude de la fluctuation d'échantillonnage permettra de décider si la valeur de d2obs que l'on a obtenue est
"petite" ou non, c'est-à-dire de savoir si la variation que l'on obtient dans les résultats pour chacune des faces
est "normale" (dans ce cas le dé est équilibré) ou "anormale" (dans ce cas le dé n'est pas équilibré).
Pour cela on effectue des séries de 600 tirages au hasard d'un nombre compris entre 1 et 6 (on peut faire ce
tirage à partir d'un ordinateur ou d'une calculatrice) et on calcule la valeur de d2 pour chacune de ces séries.
On obtient les résultats suivants, pour 1000 séries de 600 tirages :
d2 [0 ; 0,0005[ [0,0005 ; 0,001[ [0,001 ; 0,0015[ [0,0015 ; 0,002[ [0,002 ; 0,0025[ [0,0025 ; 0,003[ [0,003 ; 0,0035[
effectif 115 258 247 173 103 49 30
d2 [0,0035 ; 0,004[ [0,004 ; 0,0045[ [0,0045 ; 0,005[ [0,005 ; 0,0055[ [0,0055 ; 0,006[ [0,006 ; 0,0065[ [0,0065 ; 0,007[
effectif 16 3 3 0 2 0 1
décile D9 de la série des d2 se trouve dans
ème
En utilisant les effectifs cumulés, on peut remarquer que le 9
l'intervalle [0,0025 ; 0,003[. On a donc D9 ³ 0,0025.
• Lorsque, pour le dé observé, on obtient d2obs £ D9, on déclare que le dé est équilibré.
• Lorsque, pour le dé observé, on obtient d2obs > D9, on déclare que le dé n'est pas équilibré avec un
risque de 10% (c'est-à-dire que l'on se trompe dans 10% des cas).
On peut donc dire que le dé bleu est équilibré alors que le dé rouge ne l'est pas (au risque de 10%).
Remarques
• Plutôt que de faire la comparaison sur d2, on aurait pu la faire sur 600d2 ou sur 1000d2 pour la
commodité des calculs.
ème
• Le risque de 10% (c'est-à-dire 0,1) découle de l'utilisation du 9 décile.
On pourrait travailler avec un risque plus faible.
ème
Par exemple le risque de 5% (c'est-à-dire 0,05) correspondrait à l'utilisation du 95 centile.
Plus on choisit un risque faible, plus on accepte facilement l'hypothèse d'équiprobabilité.
http://xmaths.free.fr/ TES − Statistiques page 11
Exercice 15 (voir réponses et correction)
1°) La simulation de 1000 lancers au hasard d'une pièce de monnaie, permet de calculer le nombre :
2 2
d2 = f1 - 1 + f2 - 1
2 2
où f1 désigne la fréquence de "pile" et f2 la fréquence de "face".
On répète 500 fois cette simulation et on obtient les résultats suivants pour la série des valeurs de d2 :
1er 1er 3ème 9ème
Minimum médiane Maximum
décile quartile quartile décile
0 0,000008 0,00005 0,000242 0,000648 0,001352 0,004802
Dessiner le diagramme en boîte correspondant
2°) On lance 4 pièces de monnaie 1000 fois chacune et on voudrait rejeter les pièces que l'on considère
comme non équilibrées.
On a obtenu les résultats suivants :
Pièce A Pièce B Pièce C Pièce D
Face 493 518 532 475
Pile 507 482 468 525
Quelles sont les pièces rejetées au risque de 10% ? au risque de 25%
3°) Quelle est le nombre minimum et le nombre maximum de "pile" que l'on doit obtenir pour que la pièce ne
soit pas rejetée au risque de 10%
Exercice 16 (voir réponses et correction)
Une roue de loterie comporte 5 secteurs angulaires de même taille.
Ces secteurs sont numérotés de 1 à 5.
Lorsqu'un joueur participe, son gain est déterminé par le secteur sur lequel s'arrête la roue.
Un observateur a noté les 1000 premiers résultats de cette loterie tout au long d'une journée.
Il a rassemblé les résultats dans le tableau suivant :
Secteur 1 2 3 4 5
Nombre de
195 173 200 205 227
tirages
On se pose la question de savoir si la roue est "équilibrée", c'est-à-dire si les secteurs apparaissent de façon
équiprobable.
1°) Calculer les fréquences f1 ; f2 ; f3 ; f4 ; f5 de chacun des secteurs.
i=5 2 2 2 2 2 2
2°) Calculer le nombre d2 = ∑ fi - 1
5
= f1 - 1 + f2 - 1 + f3 - 1 + f4 - 1 + f5 - 1
5 5 5 5 5
i=1
On note 1000d2obs la valeur 1000d2 obtenue.
Donner la valeur de 1000d2obs .
3°) On simule 1000 tirages de loterie suivant la loi équirépartie
et on note la valeur de 1000d2 obtenue.
Cette simulation étant répétée 500 fois, la série des 500
valeurs de 1000d2 est représentée par le diagramme en
boîte ci-contre, où les extrémités des "pattes" correspondent
respectivement au 1er et au 9ème décile.
Lire sur ce diagramme une valeur approchée du 9ème décile.
4°) Peut-on affirmer avec un risque d'erreur inférieur à 10% que
la roue n'est pas équilibrée ?
Justifier.
http://xmaths.free.fr/ TES − Statistiques page 12