Les Modèles de Choix Qualitatifs
Master Economie – Finance
Université de Limoges
1
Ph. Rous – année universitaire 2007 - 2008
La Problématique
La variable expliquée Y ne peut prendre qu’un nombre limité
de valeurs. Le cas typique est celui pour lequel Y est
susceptible de prendre deux valeurs (0 ou 1), permettant ainsi
de rendre compte de l’occurrence ou non d’un événement.
Exemple :
Yi = 1 si l’individu i est actuellement au chômage
= 0 si cet individu bénéficie actuellement d’un emploi
2
On veut expliquer pourquoi cet événement se produit (ou, au
contraire, ne se produit pas). A cet effet, on entend croiser les
réalisations de la variable binaire Y avec celles d’une certain
nombre de variables explicatives Xj dont les réalisations peuvent
être indifféremment de natures qualitative ou quantitative.
Dans ce contexte, et dans le prolongement des modèles
« standards » pour lesquels les réalisations de Y sont continues,
on peut être tenté de postuler l’existence d’un lien de type
linéaire entre les réalisations des Xj et celles de Y.
On va voir que cette façon de concevoir la relation X Y pose
de sérieuses difficultés de telle sorte que cette relation devra être
spécifiée sous une forme moins conventionnelle qui donne
naissance à (notamment) deux types de modélisations : les
modèles Logit et Probit 3
Ces modèles (non linéaires) présentent deux points communs :
• l’interprétation des coefficients n’est pas aussi limpide que
ce qu’elle pouvait être dans le cas d’un modèle linéaire
• l’estimation elle-même de ces modèles ne se fait pas sans
quelques difficultés
4
Le Modèle Linéaire
• une idée simple
• interprétation et faiblesses du modèle
5
Une idée simple
La première idée qui vient à l’esprit pour décrire le lien qui pourrait exister entre X et
Y consiste à postuler l’existence d’une relation linéaire entre ces deux variables :
Yi = a + b Xi + ei
Attention : si, dans le cadre du modèle traditionnel, il est possible
d’admettre que les erreurs présentent un certain nombre de bonnes
propriétés (homoscédasticité notamment) on va voir que, dans ce
nouveau contexte, la vérification de ces propriétés pose problème.
6
Le Modèle Linéaire : une interprétation en termes de
probabilité de l’occurrence d’un événement
On suppose que E ei = 0 pour tout i et on note :
• Pi la probabilité de réalisation de l’événement {Yi = 1}
• 1- Pi la probabilité de réalisation de l’événement {Yi = 0}
conditionnellement à la connaissance de la valeur prise par Xi
Pi = Prob{Yi = 1 | Xi}
On sait par ailleurs que l’espérance conditionnelle de Yi liée par Xi est
la somme des modalités possibles de Yi pondérées par leurs
probabilités de réalisation :
E( Yi | Xi ) = 1 Pi + 0 (1-Pi)
= Pi
7
Or, sous l’hypothèse E ei = 0 on a aussi :
E(Yi | Xi) = a + b Xi
On voit par conséquent que :
Pi = a + b Xi
et b pourrait être interprété comme l‘effet marginal d‘une variation
de X sur la probabilité de l‘événement Y = 1
... ce qui pose au moins deux problèmes
8
1/ la question des probabilités calculées
Munis des coefficients estimés, il est théoriquement possible de
calculer, pour un individu i donné, la probabilité pour qu’il présente
la modalité Yi = 1 :
ˆ ˆ ˆ
Pi = a + b Xi
Mais rien ne garantit que cette probabilité calculée prenne
toujours ses valeurs dans [0, 1]
probas en folie.prg 9
2/ La question de l’hétéroscédasticité des
erreurs
En partant du modèle
Yi = a + b Xi + ei
on peut aussi écrire que
ei = Yi - a - b Xi
On en déduit que ei n’est susceptible de prendre que 2 valeurs :
ei = 1- a - b Xi avec une probabilité Pi
ei = - a - b Xi avec une probabilité 1 – Pi
Le caractère gaussien de l’erreur est donc difficilement
10
soutenable !
Bien plus : l’erreur est, par construction, hétéroscédastique.
Var(ei ) = E(ei2) = (1 - a - b Xi)2 (a + b Xi) + (- a - b Xi)2 (1 - a - b Xi)
= (1 - a - b Xi)2 (a + b Xi) + (a + b Xi)2 (1 - a - b Xi)
= (1 - a - b Xi) (a + b Xi) [ (1 - a - b Xi) + (a + b Xi)]
= (1 - a - b Xi) (a + b Xi)
La variance de l’erreur varie en fonction des valeurs prises par X :
elle est hétéroscédastique
11
Modèles à probabilités non
linéaires
Présentation
12
Le risque d ’avoir des probabilités calculées négatives est écarté
en modélisant la relation X - Y sous la forme :
Yi = F(a+bXi) + ei
où F(.) est une application dont les réalisations s ’inscrivent
obligatoirement entre 0 et 1.
Quoiqu ’il existe, virtuellement, une multitude fonctions
répondant à ce critère, le choix de F(.) se porte le plus souvent
sur deux types de fonctions :
• la fonction de répartition de la loi normale
• la fonction de répartition de la loi logistique
13
Cas n° 1 : modèle Probit
F(.) correspond à la la fonction de répartition de la loi normale
On suppose ici que Yi = F(a + bXi) + ei avec :
abXi
1 z2
F (a b X i )
2
exp dz
2
Cette hypothèse de travail donne naissance au modèle PROBIT.
Notez le caractère non linéaire de la relation X Y
14
Cas n° 2 : modèle LOGIT
F(.) correspond à la la fonction de répartition de la loi logistique
On suppose ici que Yi = F(a + bXi) + ei avec :
expabXi
F (a b X i )
1 expabXi
Cette hypothèse de travail donne naissance au modèle LOGIT.
ProbL_ProbN.prg
15
L ’interprétation des coefficients
On a vu que, dans le cas du modèle à probabilité linéaire,
la probabilité de l ’événement Yi = 1 est égale à :
Pi = a + b Xi
b peut alors être interprété comme l‘effet marginal d‘une variation
de X sur la probabilité de l‘événement Y = 1
L ’interprétation des coefficients des modèles logit et probit est
plus délicate...
16
Puisque, désormais, Yi = F (a + b Xi) + ei, l ’effet marginal
d ’une variation de Xi sur la probabilité Pi que Yi soit égal à
1 est :
dF ( a b X i )
= b F’(a + b Xi)
dX i
soit,
dF(a b Xi ) b (a b X i ) 2
• dans le cas probit : = exp
dXi 2 2
dF(a b Xi ) b eabXi
• dans le cas logit : =
dXi 1 e
abXi 2
Alors qu ’avec le modèle linéaire l ’effet marginal de X sur P est
constant quel que soit X (et égal à b), cet effet marginal de X sur P
varie désormais en fonction du point à partir duquel il est apprécié.
17
Interprétation des modèles logit et probit
en termes de variable sous jacente
18
On suppose, selon cette aproche, que les valeurs prises par la (les)
variable(s) explicative(s) déterminent (à un alea près) celles d ’une
variable latente (ou sous-jacente) Yi* hélas inobservable qu ’on
peut interpréter comme une propension à engendrer un événement
de type Yi = 1 :
Yi* = b1 + b2 X2i + ... + bk Xki + ei
On observerait Yi = 1 dès que cette propension dépasserait
un certain seuil g :
Yi = 0 {Yi* = b1 + b2 X2i + ... bk Xki + ei } g
19
On en déduit que :
Prob {Yi = 1} = Prob {Xi b + ei > g} = Prob { ei > g - Xi b}
Prob {Yi = 0} = Prob {Xi b + ei g) = Prob(b1 + b2 X2i + ... + bk Xki + ei > g)
= Prob(ei > (g - b1) - b2 X2i - ... - bk Xki)
La constante b1 et le seuil g ne peuvent être dissociés par la
suite on fera « comme si » g = 0 21
Pb n° 2 : la variance de l’erreur ne peut être identifiée
En admettant que Yi = 1, la vraisemblance de la ie
observation est :
Li = Prob{Yi = 1 | Xi, b, }
= Prob {Yi* > g}
= Prob{ei > -b1 - b2 Xi}
ei b1 b2
= Prob{ Xi }
e e e
et, sous une hypothèse de symétrie de la fonction f(.)
ei b1 b2 b b
Li = Prob{ X i } = F 1 2 Xi il est impossible de
e e e e e
dissocier de bj !
22
Corollaire de ce résultat :
L’ordre de grandeur des coefficient n’a, en lui-même, que peu
d ’importance. Seuls comptent :
• le signe des coefficients
• les valeurs relatives des coefficients
23
Estimation des coefficients : la vraisemblance (expression
générale pour les deux modèles Logit / Probit)
On suppose que les p premiers individus de l’échantillon
présentent la modalité 1 et les N-p derniers la modalité 0.
L = Prob{Y1 = 1 | X1, b} ... Prob{Yp = 1 | Xp, b}
Prob{Yp+1 = 0 | Xp+1, b} ... Prob{YN = 0 | XN, b}
b
On sait que : Prob{Yi = 1 | Xi, b} = F(Xi )
e
(si f. symétrique)
b
Prob{Yi = 0 | Xi, b} = 1 - F(Xi )
e
24
p
b N b
On en déduit : L = F Xi 1 F Xi
i 1 e i p 1 e
ou, de manière équivalente :
Yi 1 Yi
N b b
L = F Xi 1 F Xi
i 1 e e
ou même encore :
N b
L = F i X i
i 1 e
si on prend soin de poser :
i = + 1 si Yi = 1
i = - 1 si Yi = 0 25
Vraisemblance du modèle Probit
On suppose ici que l’erreur est normalement distribuée et,
puisque l’écart type de l’erreur est indissociable des bj on fait
« comme si » était égal à 1. Sous ces hypothèses on montre
facilement (cf. polycopié) que :
z2
i Xib 1
Prob{Yi = y | Xi, b, e = 1} = Fi Xi b exp 2
dz
2
avec : 1 si y = 1 = -1 si y = 0
et que la vraisemblance de l’ensemble de l’échantillon est :
N z2
i X i b 1
L=
i 1
2
exp 2
dz
26
Les valeurs estimées des coefficients sont solutions du
problème d’optimisation :
Max Log L
b1 ,...bk
Comme les conditions du premier ordre associées à ce problème ne
prennent pas la forme d’un système d’équations linéaires on est contraint de
rechercher une solution numérique (et non pas analytique) pour ce
problème. On devra donc utiliser une algorithme d’optimisation numérique
(Marquardt, Newton, QHC...)
Munis des valeurs ainsi estimées des différents coefficients, la
probabilité calculée de l’événement Yi = 1 conditionnelle aux
valeurs prises par les Xji est :
ˆ z2
Xi b 1
ˆ ˆ
pi = Prob{Yi = 1 | Xb;
ˆ i b
} = F(Xi )=
2
e 2
dz
27
Vraisemblance du modèle Logit
On suppose ici que l’erreur est distribuée selon une loi
logistique :
e Xib
Prob {Yi = 1} = Prob{Xi b + ei > 0} = Prob {ei 1 on
substitue un ratio de Log Vraisemblance :
LR = 2 (Log LUR – Log LR)
où LUR et LR sont les vraisemblances des modèles :
Yi = 1 si Yi* > 0 avec :
Modèle UR : Yi* = b1 + b2 X2i + ... + bk Xki + ei
Modèle R : Yi* = b1 + ei
Sous H0, cette statistique est réputée obéir à une loi du Chi-deux à
k-1 DDL.
36
Au R2 traditionnel on préfèrera :
L UR 2 / N L R 2 / N
• le pseudo R2 de Cragg et Uhler :
1 LR 2/ N
Il prend ses valeurs entre 0 et 1. Il tend vers la valeur 0 dans le cas pour
lequel la vraisemblance du modèle non contraint tend vers celle du
modèle contraint . A contrario, si la vraisemblance du modèle contraint
tend vers zéro alors que celle du modèle non contraint tend vers 1 (cas
pour lequel la contribution des variables retenues à l’explication de la
probabilité P est forte), le pseudo R2 tend alors vers l’unité
• le R2 de Mc Fadden :
Log L UR
Mc Fadden R = 1
2
Log LR
37
Indicateurs de « prédictions » correctes
Attention : il s’agit ici de mesurer l’aptitude du modèle à
reproduire les valeurs effectivement observées de Y sur
l’échantillon qui a servi à l’estimation des coefficients. Mais
l’usage du terme « prédiction » est, dans ce contexte, assez
répandu... quoiqu’incorrect !
Pour apprécier la qualité « prédictive » du modèle, on doit
convenir d’un seuil au delà duquel la valeur calculée de Yi* se
concrétiserait par une valeur prédite de Yi égale à 1. On peut, par
exemple, convenir d’un seuil égal à 50 % (quoique ce seuil soit
totalement arbitraire) :
ˆ
Y i = 1 si F(Xi b ) > 50 % ; 0 sinon
ˆ
38
On peut alors rapprocher les valeurs observées et calculées de
Y et calculer les trois ratios suivants :
NPC{1} NPC{0} NPC
NR{1} NR{0} N
avec :
NPC{1} = nombre de fois où l’événement {Yi = 1} est correctement prédit
NR{1} = nombre des réalisations de l’événement {Yi = 1}
NPC{0} = nombre de fois où l’événement {Yi = 0} est correctement prédit
NR{0} = nombre des réalisations de l’événement {Yi = 0}
NPC = nombre de prédictions correctes (quelle que soit l’occurrence)
N = nombre des individus
Illustration : Perform_predict.prg 39
Gain et gain relatif associés au modèle non contraint
Objectif : comparer le gain, en termes de performance
« prédictive » du modèle UR par rapport au modèle R.
Gain {1} = NPCUR{1}-NPCR{1}
on peut aussi le rapporter à NR{1} (cf. Eviews) :
(NPCUR{1}-NPCR{1}) / NR{1}
NPC UR {1} NPCR {1}
Gain relatif {1}=
NR{1} NPCR {1}
Le gain relatif nous renseigne sur l’apport effectif du modèle
UR par rapport au gain potentiel
40
Prediction Evaluation (success cutoff C = 0.5)
Estimated Equation Constant Probability
Dep=0 Dep=1 Total Dep=0 Dep=1 Total
P(Dep=1)C 7 91 98 0 0 0
Total 900 100 1000 900 100 1000
NPC UR {1} 91
= = 91 %
NR{1} 100
Correct 893 91 984 900 0 900
% Correct 99.22 91.00 98.40 100.00 0.00 90.00
% Incorrect 0.78 9.00 1.60 0.00 100.00 10.00
NPC UR
Total Gain* -0.78 91.00 8.40 = 98.4 %
N
Percent Gain** NA 91.00 84.00
Estimated Equation Constant Probability NPC UR {1} NPCR {1} 91 0
Dep=0 Dep=1 Total Dep=0 Dep=1 Total NR{1} NPCR {1} 100 0
E(# of Dep=0) 889.19 10.74 899.93 810.00 90.00 900.00
E(# of Dep=1) 10.81 89.26 100.07 90.00 10.00 100.00
Total 900.00 100.00 1000.00 900.00 100.00 1000.00
Correct 889.19 89.26 978.45 810.00 10.00 820.00
% Correct 98.80 89.26 97.84 90.00 10.00 82.00
% Incorrect 1.20 10.74 2.16 10.00 90.00 18.00
Total Gain* 8.80 79.26 15.84
Percent Gain** 87.99 88.07 88.03
*Change in "% Correct" from default (constant probability) specification
**Percent of incorrect (default) prediction corrected by equation
41
Le problème du « gain » comme du « gain relatif » c’est que les
valeurs de ces deux indicateurs sont sensibles au choix du seuil
discriminant (ici 50 %). On préférera, pour ce motif, calculer les
espérances :
* espérance du nombre d’individus qui devraient présenter,
théoriquement, la modalité Y = 1 au sein de la population des N1
individus qui présentent en effet cette modalité :
EUR (N1 | P 1) = 1 F(X b) 0 (1 F(X b)) = F(X b)
iP1
ˆ
i
ˆ
i iP1
i
ˆ
* espérance du nombre d’individus qui devraient présenter,
théoriquement, la modalité Y = 0 au sein de la population des N0
individus qui présentent en effet cette modalité :
EUR (N0 | P 0) = (1 F(X b))
iP0
ˆ
i
42
Estimated Equation Constant Probability
Dep=0 Dep=1 Total Dep=0 Dep=1 Total
E(# of Dep=0) 889.19 10.74 899.93 810.00 90.00 900.00
E(# of Dep=1) 10.81 89.26 100.07 90.00 10.00 100.00
Total 900.00 100.00 1000.00 900.00 100.00 1000.00
Correct 889.19 89.26 978.45 810.00 10.00 820.00
% Correct 98.80 89.26 97.84 90.00 10.00 82.00
% Incorrect 1.20 10.74 2.16 10.00 90.00 18.00
Total Gain* 8.80 79.26 15.84
Percent Gain** 87.99 88.07 88.03
43
Test d ’adéquation de Hosmer Lemeshow
Objectif : tester l’adéquation des probabilités calculées aux
probabilités théoriques (inobservables) de l’événement Yi = 1
1. on trie les individus par valeur croissante du « risque » calculé
2. on classe les individus en J classes (déciles par exemple) de nj individus
3. pour chaque classe on calcule le nombre y(j) des individus qui présentent effectivement
la valeur 1
1
4. pour chaque classe j on calcule la probabilité moyenne de Y = 1 : P (j) = Pi
n j ij
ˆ
On doit noter que nj Pbar(j) est l ’espérance calculée du nombre des individus qui devraient présenter la modalité 1 dans
la classe j. L ’idée du test consiste à tester la nullité de l ’écart entre effectif observé et effectif « espéré » de modalité 1
pour l ’esnemble des classes. Par ailleurs, on peut montrer que nj Pbar(j) (1 - Pbar(j)) est la variance calculée de y(j).
Si les probabilités sont correctement évaluées, la statistique HL :
2
J y( j) n j P( j)
HL = n P( j) (1 P( j))
est approximativement distribuée selon une loi
du Chi-Deux à J-2 DDL
j1 j
44
Application : SIMUL_LOGIT.WF1 Nombre d ’individus qui
présentent effectivement une
Included observations: 1000 valeur de Y égale à 1
Nombre Grouping based upon predicted risk
d ’individus
Quantile of Risk Dep=0 Dep=1 Total H-L
qui présentent
Low High Actual Expect Actual Expect Obs Value
effectivement Effectifs de
une valeur de 1 0.0000 9.E-15 100 100.000 0 6.1E-14 100 6.1E-14
classe
Y égale à 0 2 9.E-15 3.E-10 100 100.000 0 3.6E-09 100 3.6E-09
3 3.E-10 3.E-08 100 100.000 0 9.3E-07 100 9.3E-07
4 4.E-08 7.E-07 100 100.000 0 2.5E-05 100 2.5E-05
5 7.E-07 4.E-06 100 99.9998 0 0.00020 100 0.00020
6 4.E-06 1.E-05 100 99.9993 0 0.00069 100 0.00069
Bornes inf et 7 1.E-05 8.E-05 100 99.9972 0 0.00285 100 0.00285
sup pour les 8 8.E-05 0.0020 100 99.9441 0 0.05594 100 0.05598 Valeur de la
probabilités 9 0.0021 0.4639 92 92.8645 8 7.13547 100 0.11279 statistique HL
10 0.4655 1.0000 8 7.19518 92 92.8048 100 0.09700
calculées des
classes Total 900 900.000 100 100.000 1000 0.26953
H-L Statistic: 0.2695 Prob. Chi-Sq(8) 1.0000 Seuil de
risque pour
pouvoir
Espérance du nombre des Espérance du nombre des rejeter
individus qui devraient présenter individus qui devraient présenter l ’hypothèse
une valeur de Y égale à zéro une valeur de Y égale à 1 d ’adéquation
45
Modèles multinomiaux
On suppose désormais que Y peut présenter un nombre de
modalités supérieur à 2.
Il faut alors bien distinguer :
• le cas où les valeurs prises par Y ne sont le reflet
d ’aucune hiérarchie particulière modèles non ordonnés
• le cas où les valeurs prises par Y ont, per se, une réelle
signification modèles ordonnés
46
Modèles ordonnés
Exemple : expliquer le taux de fréquentation des
salles de cinéma. Y {1, 2, ..., M}
Yi = 1 si i va au plus 1 fois au cinéma dans l ’année
Yi = 2 si i va 2 fois au cinéma et c...
47
On peut conserver une approche en termes de variable latente
en posant que :
Yi*
= b1 + b2 X2i + ... + bk Xki + ei = Xi b + ei
où les Xj sont les variables susceptibles d ’agir sur Y* (la
propension à aller au cinéma).
Comme dans le cas binomial, la modalité de Y dépendrait
directement de la position de Y* par rapport à deux seuils :
Yi = 1 si Yi* g2} = Prob{ ei > g2 - Xi b } = 1 – Pi1 – Pi2
et la vraisemblance de la ie observation est :
Li = Pi1i1 Pi2i2 (1 – Pi1 – Pi2)1 - i1 - i2
à la condition de poser :
i1 = 1 si Yi = 1 et 0 sinon
i2 = 1 si Yi = 2 et 0 sinon, 49
Comme précédemment on retient généralement deux hypothèses
pour ce qui concerne la distribution des ei :
• hypothèse de normalité (multinomial probit)
• hypothèse de distribution logistique (logit multinomial)
Dans le premier cas (normal) :
Pi1 = Prob{Yi = 1} = Prob{ ei g2 - Xi b }= 1 - F(g2 – Xi b) = 1 – P1 – P2
z2
g 2 Xib 1
=1-
2
exp 2
dz
on peut dire que, si bj est négatif, la probabilité P1 est d ’autant
plus grande que la valeur de Xj est plus élevée ; celle de P3 est
d ’autant plus faible que la valeur de Xj est plus élevée
55
Réciproquement, si bj est positif, la probabilité P1 est d ’autant
plus faible que la valeur de Xj est plus élevée ; celle de P3 est
d ’autant plus élevée que la valeur de Xj est plus élevée
On interprétera donc un coefficient bj positif en disant que
tout accroissement de Xj contribue à rendre plus probable les
modalités les plus élevées de Y (qui est « tirée » vers le haut
de la hiérarchie). Un coefficient négatif signifie a contrario
que tout accroissement de Xj contribue à tirer Y vers ses
modalités les plus faibles
On note que l ’effet d ’une variation de Xj sur la
probabilité de l ’événement intermédiaire ne peut être
établi sans ambiguïté. 56
Munis des valeurs estimées des différents coefficients, il est
ensuite facile de procéder au calcul :
- de la valeur prise par la variable latente :
ˆ
Y *i ˆ
= b 2 X2i + ... +ˆ
b k Xki
- de la valeur prise par les différentes probabilités
(selon les formules données plus haut - diapos 48 et 49)
57
Exercice : femmes_au_travail.wf1 : estimer le modèle logit puis
calculer les valeurs de la variable latente et les probabilités p1, p2
et p3.
Prediction table for ordered dependent variable
Count of obs Sum of all
Value Count with Max Prob Error Probabilities Error
0 200 96 104 205.404 -5.404
1 500 701 -201 509.336 -9.336
2 300 203 97 285.260 14.740
Espérance du nombre d’individus
Nombre d’individus qui présentent qui devraient présenter chaque
effectivement chaque modalité modalité
Déficit (+) ou Excédent (-) prédictif
Nombre d ’individus qui devraient du nombre d ’individus dans chaque
présenter la modalité j sur la base du catégorie
critère de probabilité maximum
58
Le modèle multinomial à modalités non ordonnées
On suppose désormais que les modalités possibles de la variable Y (m = 0, 1,..., M) ne sont le
reflet d’aucun classement ou d’aucune hiérarchie sous – jacente ; l’ordre dans lequel sont rangées
les différentes occurrences de Y est sans importance et ne doit pas affecter le calcul des
probabilités de ces occurrences.
Dans ce contexte, on privilégie une approche en termes de fonction d’utilité : on suppose
désormais que chaque occurrence m induit pour l’individu un niveau spécifique de satisfaction
Uim qui détermine le choix de cet individu. Ainsi, l’individu i choisit la modalité m si :
Uim = Max{Ui1, Ui2,..., UiM}
On peut penser que l’utilité que retire un individu i de la modalité m n’est pas la même que celle
que retirerait un autre individu i’ de cette même modalité : cette utilité est susceptible de varier en
fonction de caractéristiques propres à chaque individu :
Uim = Um(X2i, X3i, ..., Xki) = Xi bm + eim
59
Uim = Um(X2i, X3i, ..., Xki) + eim = Xi bm + eim
Utilité retirée par l’individu i du Coefficients spécifiques à la
choix de la modalité m caractéristiques propres de modalité m mais communs à
l’individu i tous les individus
Attention :
1. quoique les utilités retirées d’une même Ceteris paribus le
occurrence puissent être différentes d’un choix de l’occurrence
individu à l’autre, l’expression de la est déterminé comme
fonction d’utilité est la même pour tous ArgMax{Xi bm + eim}
les individus et non comme
2. les jeux de coefficients bm varient d’une ArgMax{Xi bm } : le
occurrence à l’autre (sauf à supposer que choix est aléatoire et
toutes les occurrences sont équiprobables) non déterministe
60
Pour des raisons de simplification, le terme d’erreur est supposé
être distribué selon une loi de Log Weibull :
f(x) = exp(-x – exp(-x))
F(x) = exp(-exp(-x))
Dans ce contexte, la probabilité pour que la satisfaction de
l’individu i soit maximum quand il choisit m0 (c’est à dire
aussi la probabilité pour qu’il choisisse effectivement la
modalité m0) est :
X i b m0
exp
M
Prob{Yi = m0} =
exp Xibm
m 0
61
Cette expression de la probabilité que l’individu choisisse m0 :
X i b m0
exp
M
exp
m 0
X ibm
peut être rapprochée de celle de la probabilité que l’individu
choisisse la modalité Y = 1 dans le cas logit binaire :
ˆ
Xi b
e
ˆ
Xi b
1 e
62
Comme la fonction d’utilité est ordinale la hiérarchie des
préférences qu’elle décrit n’est pas affectée par une transformation
monotone croissante de cette fonction. Ainsi, en procédant à la
transformation suivante (qui consiste à retrancher Xi b0 aux
« utilités » attachées aux différentes modalités) :
Ui0 = Xi b0 + ei 0 Ui0’ = Xi (b0 - b0) + ei 0
Ui1 = Xi b1 + ei 1 Ui1’ = Xi (b1- b0) + ei 1
Xi Uim = Xi bm + ei m Uim’ = Xi (bm - b0) + ei m
UiM = Xi bM + ei M UiM’ = Xi (bM - b0) + ei M
on ne modifie pas l’ordre des préférences et donc des choix.
Dans ces conditions, et en prenant la précaution de poser que
bm* = bm- b0, il est possible d’écrire que :
63
1
Prob{Yi = 0} = M
1 exp Xib*m
m 1
Xib*m0
exp
Prob {Yi = m0} = M
pour m0 > 0
1 exp Xib*m
m 1
Par la suite, et pour des raisons de commodité, on occultera l’astérisque
qui affecte les différents coefficients. Mais on devra se souvenir que bjm
doit désormais être interprété comme représentatif des conséquences
d’une modification unitaire de Xj sur la probabilité que le choix de
l’individu se porte sur la modalité m plutôt que sur la modalité 0 (si le
coefficient bjm est positif cela signifie qu’un accroissement de Xj tend à
rendre plus probable le choix m par rapport au choix 0). 64
Les coefficients bjm sont obtenus par maximisation de la Log
Vraisemblance de l’échantillon d’estimation :
N M N M
M
Log L = i m X i bm im Log 1 exp Xi bh
i 1 m 0 i 1 m 0 h 1
où, on le rappelle, im = 1 si, de facto, i choisit la modalité m et
im = 0 sinon.
65
Interprétation des coefficients
exp Xi bm
Pim = M
1 exp Xi bh
h 1
exp Xi bm
M
1 exp Xi bh
Pim
= h 1
= exp Xi bm
Pi0 1
M
1 exp Xi bh
h 1
Si bjm est positif, tout accroissement de la valeur de Xji contribue à
rendre plus probable le choix de la modalité m par rapport à celui de la
66
modalité 0.
Munis des estimations des différents coefficients on peut calculer :
1. l’effet marginal d’une variation de Xj sur la probabilité que
l’individu choisisse m (plutôt que 0) :
ˆ ˆ
dF(X ibm ) X ibm
(Pim | Xj} = .
ˆ ) X j
d(X ibm
ˆ ˆ
= F’(Xi b m) .b ˆ
= f(Xb ˆ
mj i m)b
. mj
2. ou l’élasticité de ce choix par rapport à Xj :
Pim X j ˆ ˆ
dF (X ibm ) X ibm X ji
e(Pim | Xj) = . = . .
X j Pim ˆ ˆ
d(X ibm ) X j F(X ibm )
ˆ
f(Xibm ) ˆ
= .b . Xji
ˆ
F(Xibm )
mj
67
On note que les valeurs de l ’effet marginal comme de l ’élasticité
dépendent du point à partir duquel on les mesure. Pour cette
raison on les calcule le plus souvent au point moyen.
Un exemple : logit_multinomial.lpj
On veut
• expliquer les valeurs prises par Y (3 modalités possibles : 0, 1 ou
2) en fonction des valeurs prises par X2 et X3. On peut utiliser
LIMDEP ou STATA
• apprécier le pouvoir « prédictif » du modèle
• calculer les effets marginaux au point moyen
68
Les coefficients et la qualité prédictive
+---------+--------------+----------------+--------+---------+----------+
|Variable | Coefficient | Standard Error |b/St.Er.|P[|Z|>z] | Mean of X|
+---------+--------------+----------------+--------+---------+----------+
Characteristics in numerator of Prob[Y = 1]
X2 .6588288481 .90005858E-01 7.320 .0000 .24184373E-01
X3 -.6369152465 .91829298E-01 -6.936 .0000 .34824929E-01
Constant -.7877806513E-01 .85229884E-01 -.924 .3553
Characteristics in numerator of Prob[Y = 2]
X2 .6261729601 .87009187E-01 7.197 .0000 .24184373E-01
X3 .1268335838 .85088839E-01 1.491 .1361 .34824929E-01
Constant .1805553896E-01 .82651767E-01 .218 .8271
Les coefficients attachés à l ’occurrence Y = 0 sont normés à 0. Ils n ’apparaissent pas dans la feuille de résultats
On note qu ’un accroissement de X3 renforce la probabilité du choix Y = 2 par rapport au choix Y = 0 mais affaiblit la
probabilité du choix Y = 1 par rapport au choix Y = 0
Predicted
------ --------------- + -----
Actual 0 1 2 | Total Il y a effectivement 339 individus qui présentent la modalité
------ --------------- + -----
0 177 73 89 | 339 Y = 0. Sur ces 339 individus il y en a 177 pour lesquels le
1 71 164 86 | 321 modèle prédit Y = 0 (pour ces 177 individus, la probabilité
2 102 99 139 | 340
------ --------------- + ----- calculée attachée à l ’événement Y = 0 est supérieure à la
Total 350 336 314 | 1000 probabilité des autres événements).
69
Les effets marginaux
+---------+--------------+----------------+--------+---------+----------+
|Variable | Coefficient | Standard Error |b/St.Er.|P[|Z|>z] | Mean of X|
+---------+--------------+----------------+--------+---------+----------+
Marginal effects on Prob[Y = 0]
X2 -.1435814273 .17046090E-01 -8.423 .0000 .24184373E-01
X3 .5184890117E-01 .16481553E-01 3.146 .0017 .34824929E-01
Constant .6131808558E-02 .16355916E-01 .375 .7077
Marginal effects on Prob[Y = 1]
X2 .7277661183E-01 .16010133E-01 4.546 .0000 .24184373E-01
X3 -.1502248301 .17049794E-01 -8.811 .0000 .34824929E-01
Constant -.1883913998E-01 .15374712E-01 -1.225 .2204
Marginal effects on Prob[Y = 2]
X2 .7080481551E-01 .16510343E-01 4.289 .0000 .24184373E-01
X3 .9837592893E-01 .16904471E-01 5.820 .0000 .34824929E-01
Constant .1270733142E-01 .16685116E-01 .762 .4463
Si X3 augmente d ’une unité,
• la probabilité attachée à Y = 0 augmente de 0.0518 La somme des effets
• la probabilité attachée à Y = 1 diminue de 0.1502 marginaux est nulle
• la probabilité attachée à Y = 2 augmente de - 0.0518 + 0.1502 = + 0.0984
Des effets marginaux très importants en valeurs absolues dénotent une forte sensibilité des
choix à la modification des caractéristiques individuelles 70
Le Logit Conditionnel
Jusqu ’ici on a admis
• que les valeurs prises par les variables explicatives ne sont pas influencées
par la nature du choix : quelle que soit la modalité choisie, les valeurs prises
par les différentes variables explicatives sont les mêmes
• que les probabilités attachées aux différentes modalités ne diffèrent donc
les unes des autres que par le fait qu ’à chaque modalité est attaché un jeu
spécifique de coefficients (l ’individu ne pondère pas les variables
explicatives de la même façon selon qu ’il envisage de porter son choix sur
m ou sur m ’)
Or, justement, il peut arriver que les valeurs des variables
explicatives soient influencées par la nature du choix : on utilise
alors un modèle Logit Conditionnel
71
Exemple : choix d ’un mode de transport en fonction :
• du temps de transport Z1im
Les valeurs prises par ces
induit par le choix m variables explicatives
• du coût du transport Z2im changent en fonction du
choix qui est fait
induit par le choix m
Dans un tel contexte on considère que les coefficients attachés aux
variables Zjim sont les mêmes non seulement d ’un individu à
l ’autre mais aussi d ’une modalité à l ’autre :
Zim0 b
exp
Prob {Yi = m0} = M
exp Zimb
m0 72
Interprétation des coefficients
Zim0 b
exp
Prob {Yi = m0} = M
exp Zimb
m0
Z b b Z ...b Z
Pr ob(Yi j) exp i j exp 1 1i j K Ki j
Zi h b
b Z ...bK ZK i h
Pr ob(Yi h) exp exp 1 1i h
b1 (Z1i j Z1i h )...bK (ZK i j ZK i h )
exp
Si le coefficient associé au coût du transport est négatif, tout
accroissement du différentiel de coût entre la voiture (choix j) et la
marche à pied (choix h) contribue à réduire la probabilité de choisir
la voiture par rapport à la probabilité de choisir la marche à pied.73
Intérêt de cette modélisation
Puisque les coefficients sont les mêmes dans les différentes
options, cette modélisation autorise le calcul de la probabilité
d ’une option virtuelle.
Par exemple, même si les individus de l ’échantillon ne peuvent
encore bénéficier des services que leur rendrait la mise en place
d ’un métro urbain, rien ne s ’oppose à ce qu ’on puisse calculer,
pour un individu donné, la probabilité qu ’il choisisse ce mode
de transport si, par ailleurs, on est capable d ’en évaluer, pour
l ’individu étudié, le coût et le temps de transport induits.
74
Effets marginaux et élasticités
Munis des estimations des différents coefficients il est possible de calculer les
variations marginales et les élasticités des probabilités par rapport aux différentes
variables explicatives. On les apprécie généralement au point « moyen ».
Si P0 est la probabilité pour l ’individu moyen de choisir l ’option 0 :
b1 Z10 ...bK ZK 0
exp
P0 = M
b1 Z1m ...bK ZK m
exp
m 0
l ’effet marginal sur P0 suscité par une variation unitaire de la variable Zk par
rapport à son niveau moyen dans l ’option m est :
b1 Z10 ...bK ZK 0 b1 Z1m ...bK ZK m
P0 exp bk exp
= = - bk P0 . Pm si m 0
Zk m
2
b1 Z1m ...bK ZK m
M
exp
m 0 75
L ’effet marginal sur P0 suscité par une variation unitaire de la variable Zk par
rapport à son niveau moyen dans la même option 0 est :
M 2
b1 Z10 ...bK ZK 0 b1 Z1m ...bK ZK m b1 Z10 ...bK ZK 0
P0
bk exp exp bk exp
m 0
=
Zk 0 M
2
b1 Z1m ...bK ZK m
exp
m 0
= bk P0 - bk P02 = bk P0 (1 – P0)
Les élasticités se déduisent aisément des expressions des effets
marginaux :
e(P0 | Zk m ) = - bk Zk m Pm si m 0
e(P0 | Zk 0 ) = - bk Zk 0 (1 – P0) 76
Application
GENR_COND_LOGIT.PRG pour la création de l’échantillon
COND_LOGIT.LPJ : fichier de données LIMDEP
On se propose d’expliquer les choix d’un mode de transport pour un échantillon de 100 individus
pour chacun desquels on connaît, selon le mode de transport choisi, le temps de transport et le
coût attaché à celui-ci. Les données et les choix ont été simulés selon le protocole suivant :
1/ pour chaque individu on a déterminé aléatoirement la distance qui le sépare de son lieu de
travail
2/ on a déterminé la durée (variable TEMPS) et le coût (variable COUT) du transport pour chaque
mode m de locomotion en supposant que :
Y = 0 (à pied) Y = 1 (en bus) Y = 2 (en voiture)
Coût du transport 0 100 + 20 distance 1000 + 200 distance
Durée du transport 10000 distance 100 distance 10 distance
3/ on suppose que les fonctions d’utilité sont du type :
1
U(coûtim, tempsim) = + eim
cout i m tempsi m 77
Le tableau ci-dessous présente, pour les dix premiers individus de cet échantillon, les
coûts, les temps de transport, les utilités retirées dans les différentes options et, bien sûr,
l’option retenue sur la base d’un critère d’utilité maximale :
obs COUT0 COUT1 COUT2 TEMPS0 TEMPS1 TEMPS2 U0 U1 U2 Y
1 0 26 52 2600 260 26 -1.731317 1.586430 -0.175908 1
2 0 76 152 7600 760 76 0.311701 -0.258581 0.054138 0
3 0 64 128 6400 640 64 -0.163660 0.442223 1.057653 2
4 0 76 152 7600 760 76 0.427706 -1.334478 -0.655309 0
5 0 77 154 7700 770 77 -1.434128 0.272761 2.296244 2
6 0 99 198 9900 990 99 0.730043 -0.258948 0.233231 0
7 0 21 42 2100 210 21 -1.008349 0.195695 1.582569 2
8 0 99 198 9900 990 99 0.362191 -0.289380 -0.344859 0
9 0 92 184 9200 920 92 -1.053074 -2.716874 1.731221 2
10 0 59 118 5900 590 59 -0.260208 -0.845107 0.084723 2
78
On veut :
. estimer les coefficients du modèle
. apprécier le pouvoir “ prédictif ” du modèle
. calculer l’élasticité (évaluée au point moyen) de la probabilité
de l’option m par rapport à la durée et au coût du transport.
Les copies d ’écran qui suivent permettent de configurer
LIMDEP en vue de réaliser ces tâches.
79
80
81
82
I - Estimation du modèle et qualité d ’ensemble
+---------------------------------------------+
| Conditional logit model for choices only |
| Maximum Likelihood Estimates |
| Dependent variable Choice |
| Weighting variable ONE |
| Number of observations 100 |
| Iterations completed 5 |
| Log likelihood function -94.52016 |
| Log-L for Choice model = -94.5202 |
| R2=1-LogL/LogL* Log-L fncn R-sqrd RsqAdj |
| No coefficients -109.8612 .13964 .12208 |
| Constants only -98.6473 .04184 .02228 |
| Chi-squared[ 2] = 8.25437 |
| Significance for chi-squared = .98387 |
| Response data are given as ind. choice. |
| Number of obs.= 100, skipped 0 bad obs. |
+---------------------------------------------+
+---------+--------------+----------------+--------+---------+----------+
|Variable | Coefficient | Standard Error |b/St.Er.|P[|Z|>z] | Mean of X|
+---------+--------------+----------------+--------+---------+----------+
TEMPS -.4934090345E-04 .22631555E-03 -.218 .8274
COUT -.1369003020E-01 .11358389E-01 -1.205 .2281
A_0 -1.875423395 .53369196 -3.514 .0004
A_1 -1.827655204 .57101679 -3.201 .0014
Ui 0 = - 1.87 – 0.00049 TEMPSi0 – 0.0137 COUTi0
Ui1 = - 1.827 – 0.00049 TEMPSi1 – 0.0137 COUTi1
Ui2 = – 0.00049 TEMPSi2 – 0.0137 COUTi2 83
Le coefficient négatif associé à la variable COUT signifie que si
le différentiel de coût qui sépare par exemple les deux modes de
transport “ VOITURE ” et “ BUS ” se creuse, l’individu a
tendance à délaisser le moyen de transport le plus onéreux pour
privilégier le moins coûteux. Le coefficient a donc le signe
attendu.
84
II - Statistiques descriptives
+-------------------------------------------------------------------------+
: Descriptive Statistics for Alternative 0 :
| Utility Function | | 28.0 observs. |
| Coefficient | All 100.0 obs.|that chose 0 |
| Name Value Variable : Mean Std. Dev.|Mean Std. Dev. |
| ------------------- -------- | -------------------+------------------- |
| TEMPS .0000 TEMPS | 5094.000 3044.014| 6292.857 3056.860 |
| COUT -.0137 COUT | .000 .000| .000 .000 |
| A_0 -1.8754 ONE | 1.000 .000| 1.000 .000 |
+-------------------------------------------------------------------------+
+-------------------------------------------------------------------------+
: Descriptive Statistics for Alternative 1 :
| Utility Function | | 17.0 observs. |
| Coefficient | All 100.0 obs.|that chose 1 |
| Name Value Variable : Mean Std. Dev.|Mean Std. Dev. |
| ------------------- -------- | -------------------+------------------- |
| TEMPS .0000 TEMPS | 509.400 304.401| 551.765 302.412 |
| COUT -.0137 COUT | 50.940 30.440| 55.176 30.241 |
| A_1 -1.8277 ONE | 1.000 .000| 1.000 .000 |
+-------------------------------------------------------------------------+
+-------------------------------------------------------------------------+
: Descriptive Statistics for Alternative 2 :
| Utility Function | | 55.0 observs. |
| Coefficient | All 100.0 obs.|that chose 2 |
| Name Value Variable : Mean Std. Dev.|Mean Std. Dev. |
| ------------------- -------- | -------------------+------------------- |
| TEMPS .0000 TEMPS | 50.940 30.440| 43.527 28.713 |
| COUT -.0137 COUT | 101.880 60.880| 87.055 57.426 |
+-------------------------------------------------------------------------+
85
III - Prévisions et réalisations des choix
PREDICTED PROBABILITIES (* marks actual, + marks prediction.)
Indiv 0 1 2
1 .1832 .1511* .6658 +
2 .3704* .1924 .4372 +
3 .3199 .1856 .4945*+
4 .3704* .1924 .4372 +
5 .3747 .1928 .4325*+
6 .4709*+ .1977 .3313
7 .1686 .1456 .6858*+
8 .4709*+ .1977 .3313
9 .4402 + .1972 .3626*
10 .2996 .1821 .5183*+
11 .1862 .1521 .6617*+
12 .1576 .1412 .7012*+
13 .1658 .1445 .6897*+
14 .2838 .1790 .5372*+
15 .1522 .1390 .7087*+
16 .3199 .1856 .4945*+
17 .1986 .1564 .6450*+
18 .3964 .1948* .4088 +
19 .3406 .1887* .4706 +
20 .3199 .1856 .4945*+
21 .2319 .1665 .6016*+
22 .3533 .1904 .4563*+
86
IV - Les élasticités
+-----------------------------------------------------------------+
| Elasticity Computed at sample means. |
| Attribute is COUT in choice 0 |
| Effects on probabilities of all choices in the model: |
| * indicates direct Elasticity effect of the attribute. |
| Decomposition of Effect Total |
| Trunk Limb Branch Choice Effect|
| Trunk=Trunk{1} |
| Limb=Lmb[1:1] |
| Branch=B(1:1,1) |
| * Choice=0 .000 .000 .000 .000 .000 |
| Choice=1 .000 .000 .000 .000 .000 |
| Choice=2 .000 .000 .000 .000 .000 |
+-----------------------------------------------------------------+
+-----------------------------------------------------------------+
| Elasticity Computed at sample means. |
| Attribute is COUT in choice 1 |
| Effects on probabilities of all choices in the model: |
| * indicates direct Elasticity effect of the attribute. |
| Decomposition of Effect Total |
| Trunk Limb Branch Choice Effect|
| Trunk=Trunk{1} |
| Limb=Lmb[1:1] |
| Branch=B(1:1,1) | Une modification de + 1 % du coût
| Choice=0 .000 .000 .000 .119 .119 | supporté, en moyenne, quand on
| * Choice=1 .000 .000 .000 -.579 -.579 |
| Choice=2 .000 .000 .000 .119 .119 | choisit de se déplacer en voiture
+-----------------------------------------------------------------+ induit
+-----------------------------------------------------------------+
| Elasticity Computed at sample means. | . un accroissement de + 0.767 % de
| Attribute is COUT in choice 2 |
| Effects on probabilities of all choices in the model: | la probabilité de choisir la marche à
| * indicates direct Elasticity effect of the attribute. | pied
| Decomposition of Effect Total |
| Trunk Limb Branch Choice Effect| . un accroissement de + 0.767 % de
| Trunk=Trunk{1} |
| Limb=Lmb[1:1] | la probabilité de choisir le bus
| Branch=B(1:1,1) |
| Choice=0 .000 .000 .000 .767 .767 | . une diminution de 0.628 % de la
| Choice=1 .000 .000 .000 .767 .767 |
87
probabilité de choisir la voiture
| * Choice=2 .000 .000 .000 -.628 -.628 |
+-----------------------------------------------------------------+ personnelle
Choix qualitatifs et données de panel
Le contexte :
• un échantillon constitué de :
• observations dans l ’espace
N
T
• observations dans le temps
• une variable expliquée qui ne peut prendre qu ’un
nombre très limité de valeurs (généralement 0 ou 1)
88
La plupart des modèles estimés sur données de panel peuvent
être spécifiés sous une forme très générale :
Yit = ai + b Xit + eit
où, selon les cas, le terme ai peut avoir un statut
• de constante spécifique à l ’individu i : modèle à effets
fixes
• d ’erreur spécifique aléatoire : modèle à composantes
d ’erreur (ou à effets aléatoires)
89
Modèles à effets fixes
Pour l ’estimation des coefficients de ce modèle on peut
utiliser
• soit l ’estimateur LSDV
• soit l ’estimateur WITHIN
90
Effets fixes : estimateur LSDV
L’estimateur LSDV (least square dummy variables) qui est l’estimateur des MCO pour le
modèle ainsi spécifié :
a1
a
Y=Xb+ D 2 +e
a N
Y11 X1,11 X K,11
Y1T X1,1T X K,1T
avec Y = de dimension NT 1 et X = de dimension NT K
YN1 X1,N1 X K,N1
Y X X K,NT
NT
1,NT
i T 0 0
0 iT 0
D = [d1, d2, ..., dN] de dimension NT N
0
0 iT
et b de dimension K 1
91
Effets fixes : estimateur WITHIN
C’est l’estimateur des MCO appliqué au modèle exprimé en différences par rapport aux
moyennes individuelles. En partant du modèle séminal :
/1/ Yit = ai + b1 X1it+ b2 X2it + ... + bK XKit + eit
on peut écrire que :
/2/ Y io ai + b1X 1 io + ... + bK
X K io
où Y io est la moyenne dans le temps des valeurs prises par la variable Y pour l’individu i
(moyenne individuelle) et X k io la moyenne individuelle de la variable Xk.
En faisant la différence entre les équations /1/ et /2/ on voit qu’il est possible d’obtenir une
estimation des coefficients bk sans qu’il soit pour autant nécessaire de sacrifier à celle des
constantes spécifiques.
92
Effets aléatoires
Yit = a + b Xit + ui + eit
avec : ui ~ IID(0, u) d’une part
E(uj Xit) = 0 quels que soient i, j et t d’autre part
Si la condition d ’orthogonalité des X par rapport aux erreurs
spécifiques n ’est pas respectée (ce que permet d ’établir un test
d ’Hausman) on doit privilégier un estimateur WITHIN. Si la
condition d ’orthogonalité est respectée, on utilise avec profit
l ’estimateur des MCQG ( SWAMY ARORA).
93
Difficultés spécifiques à l ’estimation des modèles logit dans
un contexte de données de panel
On suppose désormais que le modèle étudié peut être ainsi
spécifié :
Yit = 1 si Yit* = ai + b Xit + eit > 0
Yit = 0 si Yit* = ai + b Xit + eit - ai - b Xit }
Prob{Yit = 1} = Prob{eit chi2 = 0.0000
------------------------------------------------------------------------------
y | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
var1 | -.1523963 .0498719 -3.06 0.002 -.2501434 -.0546491
var2 | 1.108242 .2339051 4.74 0.000 .6497965 1.566688
var3 | 2.993287 .3598706 8.32 0.000 2.287954 3.698621
------------------------------------------------------------------------------
99