Econom�trie des Variables Qualitatives

Document Sample
Econom�trie des Variables Qualitatives Powered By Docstoc
					Econométrie des Variables Qualitatives. Cours C. Hurlin

1

Maîtrise d’Econométrie Université d’Orléans

Econométrie des Variables Qualitatives Polycopié de Cours

Christophe HURLIN

Janvier 2003

January 21, 2003 Contents
1 Modèles Dichotomiques Univariés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.1 Spécification linéaire des variables endogènes dichotomiques . . . . . . . . . . . . 8 1.2 Modèles Logit et Probit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.3 Comparaison des modèles probit et logit . . . . . . . . . . . . . . . . . . . . . . . 11 1.4 Présentation des modèles dichotomiques en termes de variable latente . . . . . . 21 2 Estimation des Paramètres par la Méthode du Maximum de Vraisemblance . . . . . . 26 2.1 Estimation par maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . 26 2.1.1 Matrices Hessiennes et Matrices d’information de Fischer . . . . . . . . . 28 2.1.2 Unicité du maximum global de la fonction de log-vraisemblance . . . . . . 30 2.2 Algorithmes de maximisation de la vraisemblance . . . . . . . . . . . . . . . . . . 32 3 Propriétés Asymptotiques des Estimateurs du Maximum de Vraisemblance . . . . . . . 35 3.1 Convergence du Critères de MV . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3.1.1 Convergence d’estimateurs dans les modèles non linéaires . . . . . . . . . 36 3.1.2 Application aux modèles Logit et Probit . . . . . . . . . . . . . . . . . . . 38 3.2 Lois et variance asymptotiques de l’estimateur de MV . . . . . . . . . . . . . . . 39 4 Méthodes d’Estimation non Paramétriques . . . . . . . . . . . . . . . . . . . . . . . . . 42 4.1 La méthode du score maximum . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 4.2 Estimation semi-paramétrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 4.3 Comparaison des estimateurs paramétriques, non paramétriques et semi paramétriques 47 5 Tests de Spécification et Inférence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 5.1 Tests d’hypothèse sur les paramètres . . . . . . . . . . . . . . . . . . . . . . . . . 48 5.1.1 Test de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 5.1.2 Tests du rapport des maxima de vraisemblance . . . . . . . . . . . . . . . 49 5.1.3 Test du score ou du multiplicateur de Lagrange . . . . . . . . . . . . . . . 50 5.2 Tests de spécification des modèles dichotomiques . . . . . . . . . . . . . . . . . . 50 6 Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 A Annexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 A.1 Rappels sur les notions de convergence . . . . . . . . . . . . . . . . . . . . . . . . 54 A.1.1 Convergence en probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . 54 A.1.2 Convergence en moyenne quadratique . . . . . . . . . . . . . . . . . . . . 55 A.1.3 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

Econométrie des Variables Qualitatives. Cours C. Hurlin

2

Maîtrise d’Econométrie Université d’Orléans

Econométrie des Variables Qualitatives
Modèles à Variables Endogènes Qualitatives

Christophe HURLIN
Août 2002

Econométrie des Variables Qualitatives. Cours C. Hurlin

3

Chapitre I Modèles Dichotomiques Univariés
Modèles Logit et Probit

Econométrie des Variables Qualitatives. Cours C. Hurlin

4

Introduction
Un des développements majeurs de l’économétrie dans les années 60 et 70, fut sans conteste lié à l’utilisation croissante des données microéconomiques relatives à des caractéristiques économiques d’agents individuels (firmes, consommateurs, centres de profits...). A cette époque, les bases de données microéconomiques ont en effet pu être constituées, puis exploitées principalement du fait de l’extension des capacités informatiques et de la réduction de leur coût. Bien souvent, les données statistiques disponibles dans ces bases sont relatives à des caractères qualitatifs comme par exemple la catégorie socio-professionnelle, le type d’études suivies, le fait de travailler ou au contraire d’être au chômage, d’acheter ou de ne pas acheter un certain produit etc.. Or, comme nous allons le voir dans ce chapitre, les méthodes d’inférence traditionnelles ne permettent pas de modéliser et d’étudier des caractères quantitatifs : des méthodes spécifiques doivent être utilisées tenant compte par exemple de l’absence de continuité des variables traitées ou de l’absence d’ordre naturel entre les modalités que peut prendre le caractère qualitatif. Ce sont ces méthodes spécifiques les plus usuelles qui seront l’objet de ce cours d’économétrie des variables qualitatives. Historiquement l’étude des modèles décrivant les modalités prises par une ou plusieurs variables qualitatives date des années 1940-1950. Les travaux les plus marquants de cette époque sont sans conteste ceux de Berkson (1944, 1951) consacrés notamment aux modèles dichotomiques simples (modèles logit et probit). Les premières applications ont alors essentiellement été menées dans le domaine de la biologie, de la sociologie et de la psychologie. Ainsi, ce n’est finalement que récemment, que ces modèles ont été utilisés pour décrire des données économiques avec notamment les travaux1 de Daniel L. MacFadden (1974) et de James J. Heckman (1976). Or, l’application des techniques économétriques propres aux variables qualitatives à des problématiques économiques a d’une part largement contribué à améliorer l’interprétation des modèles simples (comme par exemple le modèle logit avec les travaux de MacFadden), et d’autre part à identifier des problèmes économiques dont la structure, si elle n’est pas qualitative au sens propre du terme, en mathématiquement très proche (c’est par exemple le cas de la consommation de bien durable avec le modèle de Tobin de 1958). Ces développements ont ainsi conduit à introduire un modèle intermédiaire entre les modèles qualitatifs et le modèle linéaire habituel : le modèle tobit.

Dans la suite du cours, nous supposerons l’existence d’un caractère qualitatif qui peut prendre K modalités disjointes. Si K = 2, on dit que la variable est dichotomique. Exemple : être au chômage ou ne pas être au chômage. Dans le cas général K ∈ N∗ , on dit que la variable est polytomique. A ce niveau de l’exposé, la question qui se pose est de savoir comment représenter un caractère qualitatif dans le cadre d’un modèle économétrique ? Si l’on considère
1 Il convient ici de rappeler que ces deux économètres ont obtenu conjointement le prix nobel d’économie en 2000, cf. document en annexe.

Econométrie des Variables Qualitatives. Cours C. Hurlin

5

par exemple le type d’études suivies par un étudiant (université, école d’ingénieur etc..), la catégorie socio-professionnelle (ouvrier, employé, cadre..), ou le fait d’être au chômage, comment doit on représenter ces différents caractères qualitatifs ? La réponse naturelle à ces questions consiste à associer une variable quantitative (ou codage) au caractère qualitatif. Considérons l’exemple de la variable qualitative y = ”niveau d’étude” pouvant prendre 3 modalités : ”licence”, ”master”, ”doctorat”. Plusieurs choix sont possible pour coder cette variable qualitative. La première consiste tout simplement à associer à y une variable quantitative x pouvant prendre trois valeurs réelles distinctes (a, b, c) ∈ R3 suivant les modalités de y. La connaissance de la valeur prise par la variable x permet alors de connaître la modalité de la variable y et inversement. Le choix du triplet de valeurs (a, b, c) est alors à priori non contraint : on peut par exemple prendre (1, 2, 3) ou (3, 5, 8) en référence au nombre d’années d’étude suivies. Ainsi, on définit par exemple la variable x de la façon suivante :   3 si y = ”licence” 5 si y = ”master” x=  8 si y = ”doctorat”

Mais d’autres formes de codage auraient pu être envisagées dans ce cas. On peut par exemple représenter la variable qualitative par le vecteur z = (z1 , z2 , z3 ) où les variables zi , i = 1, 2, 3 sont de type dichotomique avec : z1 = z2 = z3 = 1 0 1 0 1 0 si y = ”licence” sinon si y = ”master” sinon si y = ”doctorat” sinon

Les variables zi sont appelées variables dummy ou variables muettes. Il s’agit ici d’une autre représentation quantitative de y à valeur cette fois dans (0, 1)3 . Ainsi, de façon générale toutes les représentations quantitatives de y s’écrivent sous la forme d’une application injective de {”licence”,”master”,”doctorat”} dans un espace Rp , p ∈ N∗ . L’intérêt principal du codage (ou de la représentation quantitative des variables qualitatives) est de pouvoir se ramener à des lois discrètes sur Rp . Ainsi, si l’on considère l’exemple précédent ` la loi de z est une loi multinomiale M (1; p1 , ., pi , .., pK ) où pi désigne la probabilité que la ieme modalité de la variable y se réalise. De la même façon, la variable z1 suit une loi de Bernouilli B (1, p1 ) . Il faut toutefois utiliser avec prudence la loi d’une telle représentation : elle est en effet, par nature, conditionnelle au codage choisi. Les seules caractéristiques véritablement liées à la variable qualitative sont celles qui ne dépendent pas de la représentation choisie, et ne sont autres que les probabilités p1 ,..., pK . Ainsi, les moments (moyenne, variance etc..) de la variable codée ont en général peu de sens. Dans l’exemple précédent, l’espérance de la variable codée x n’a pas de signification particulière. En revanche, l’espérance des variables dummies zi permet de retrouver les probabilités pi . De plus, le calcul d’un coefficient de corrélation entre deux variables codées x et z dépend naturellement des codages retenus, et ne peut donc être interprété économiquement. En revanche, la notion d’indépendance entre deux variables codée reste indépendante du codage retenu.

Econométrie des Variables Qualitatives. Cours C. Hurlin

6

Dans le cadre de ce premier chapitre, nous allons nous intéresser au modèle le plus simple, à savoir le modèle dichotomique, dans lequel la variable expliquée du modèle ne peut prendre que deux modalités. Le plan de ce chapitre est le suivant. Nous commencerons par présenter les principaux modèles dichotomiques, et en particulier les modèles logit et probit. Puis, dans une seconde section, nous intéresserons au problème de l’estimation des paramètres de ces modèles, notamment par la méthode du maximum de vraisemblance. Dans une troisième partie, nous étudierons la convergence des estimateurs du maximum de vraisemblance. Enfin, dans une dernière section nous aborderons les tests de spécification de ces modèles ainsi que les différents problèmes d’inférence.

Econométrie des Variables Qualitatives. Cours C. Hurlin

7

1. Modèles Dichotomiques Univariés
Par modèle dichotomique, on entend un modèle statistique dans lequel la variable expliquée ne peut prendre que deux modalités (variable dichotomique). Il s’agit alors généralement d’expliquer la survenue ou la non survenue d’un événement. Hypothèse On considère un échantillon de N individus indicés i = 1, .., N. Pour chaque individu, on observe si un certain évenément s’est réalisé et l’on note yi la variable codée associée à évenement. On pose, ∀i ∈ [1, N ] : yi = 1 0 si l’événement s’est réalisé pour l’individu i si l’événement ne s’est pas réalisé pour l’individu i (1.1)

On remarque ici le choix du codage (0, 1) qui est traditionnellement retenu pour les modèles dichotomique. En effet, celui-ci permet définir la probabilité de survenue de l’événement comme l’espérance de la variable codée yi , puisque : E (yi ) = P rob (yi = 1) × 1 + P rob (yi = 0) × 0 = P rob (yi = 1) = pi L’objectif des modèles dichotomiques consiste alors à expliquer la survenue de l’événement considéré en fonction d’un certain nombre de caractéristiques observées pour les individus de l’échantillon. Comme nous le verrons par la suite, on cherche dans ces modèles, à spécifier la probabilité d’apparition de cet événement.

Quels sont alors les principaux champs d’application des modèle dichotomiques ? Nous pouvons ici évoquer quelques pistes, sur lesquelles nous reviendrons par la suite. Un des domaines d’application traditionnel consiste en l’étude des choix d’éducation. Ainsi, parmi les premiers travaux utilisant les modèles à réponses qualitatives, plusieurs s’intéressaient aux comportements des étudiants que ce soit en terme de choix de filières, ou en termes de choix d’établissements. Il s’agissait alors de modéliser ces comportements en fonction d’un certain nombres de caractéristiques propres aux universités (présence de campus, débouchés professionnels etc..) ou aux étudiants (CSP des parents, études antérieures etc..). Typiquement, il s’agit par exemple, de modéliser le choix des étudiants entre une université en ville ou un campus, ce choix étant représenté par une variable dichotomique que l’on va cherche à modéliser en fonction de plusieurs facteurs comme le revenu, le sexe de l’étudiant, la distance domicile-université etc.. Du fait de l’organisation privée des études aux Etats-Unis, de telles modélisations ont connu un grand intérêt, que ce soit dans une perspective purement académique ou dans une perspective appliquée. On peut citer ici par exemple l’étude de Radner et Miller (1970). Un autre domaine d’application consiste en la modélisation des risques de défaillance dans une relation de prêt, ou dans tout autre forme de contrat d’engagement (contrat d’abonnement téléphonique, contrat d’assistance etc...). On considère par exemple une variable dichotomique prenant deux modalités : ”rupture du contrat” et ”poursuite du contrat”, et l’on cherche à expliquer variables par différents facteurs socio-économiques. Il s’agit ici des techniques de

Econométrie des Variables Qualitatives. Cours C. Hurlin

8

bases des méthodes de scoring largement utilisées dans le secteur bancaire et dans le secteur des télécommunications. Cette liste d’application n’est bien entendu pas exhaustive. Nous allons à présent montrer que la modélisation des variables dichotomiques ne peut se faire à l’aide d’une spécification linéaire standard.

1.1. Spécification linéaire des variables endogènes dichotomiques En effet, la question que l’on peut naturellement se poser à ce stade de l’exposé, est de savoir en quoi les modèles dichotomiques, et plus généralement les modèles à variables endogènes qualitatives, se distinguent du modèle linéaire classique étudié en cours de licence. En effet, il s’agit de comprendre pourquoi l’utilisation de méthodes d’estimation particulières s’avère indispensable pour ce type de modèles. Pour ce faire, appliquons naïvement une modélisation linéaire simple au cas d’une variable endogène dichotomique. Supposons que l’on dispose de N observations yi , ∀i = 1, .., N d’une variable endogène dichotomique codée yi = 1 ou yi = 0 par convention, lorsque parallèlement les observations de K variables exogènes sont xi = x1 ..xK , ∀i = 1, .., N . Dans ce cas, le modèle linéaire simple i i s’écrit : ∀i = 1, .., N (1.2) yi = xi β + εi
(1,1) (1,K)(K,1) (1,1)

où β = (β 1 ...β K ) ∈ RK désigne un vecteur de K paramètres inconnus et où les perturbations εi sont supposées être indépendamment distribuées. On peut alors mettre en évidence plusieurs problèmes liés à l’utilisation de cette spécification linéaire simple pour modéliser notre variable dichotomique. Premièrement, les termes de gauche et de droite de l’équation (1.1) sont de nature différentes. La variable yi est de type qualitative tandis que la somme xi β +εi est une variable quantitative. On peut répondre à ceci que le membre de gauche correspond en fait au codage (ici 0 ou 1) associé à la variable qualitative; dès lors, il n’y aurait plus de problème. Mais il est évident que ce codage est lui même par nature arbitraire, et que les valeurs de β obtenues pour ce codage sont nécessairement différentes de celles obtenues pour tout autre codage. Elles seraient par exemple de αβ si le codage était de type (0, α). Ainsi, le premier problème de l’application du modèle linéaire simple à une variable dichotomique, est que le paramètre β du modèle (1.1) n’est pas interprétable. Deuxièmement, une étude graphique montre que l’approximation linéaire est peu adaptée au problème posé. Considérons pour cela le modèle linéaire avec une seule variable explicative (K = 1), notée x1 , et une constante. On pose β = (β 0 β 1 ) et l’on considère le modèle linéaire i suivant : ∀i = 1, .., N (1.3) yi = β 0 + xi β 1 + εi Pour constater l’inadéquation de ce modèle à reproduire correctement la variable endogène dichotomique yi , il suffit de se placer dans un repère x1 , y et de reproduire les N différents couples x1 , yi , ∀i = 1, .., N. Naturellement, du fait du statut dichotomique de la variable i endogène, le nuage de points ainsi obtenu se situe soit sur la droite y = 0, soit sur la parallèle y = 1. Ainsi, comme on l’observe sur la figure (??), il est impossible d’ajuster de

Econométrie des Variables Qualitatives. Cours C. Hurlin

9

Figure 1.1: Ajustement Linéaire d’une Variable Endogène Dichotomique
y y= droite d’ajustement linéaire

y= 0

x

façon satisfaisante, par une seule droite, le nuage de points, associé à une variable dichotomique qui, par nature, est réparti sur deux droites parallèles. Troisièmement, la spécification linéaire standard ne convient pas aux variables dichotomiques, et plus généralement aux variables qualitatives, car elle pose un certain nombre de problèmes mathématiques. 1. Sachant que dans la cas d’une variable endogène yi dichotomique, celle-ci ne peut prendre que les valeurs 0 ou 1, la spécification linéaire (1.1) implique que la perturbation εi ne peut prendre, elle aussi, que 2 valeurs, conditionnellement au vecteur xi : εi = 1 − xi β avec une probabilité de pi = Prob (yi = 1) εi = −xi β avec une probabilité de 1 − pi Ainsi, la perturbation εi du modèle (1.1) admet nécessairement une loi discrète, ce qui exclut en particulier l’hypothèse de normalité des résidus. 2. Lorsque l’on suppose que les résidus εi sont de moyenne nulle, la probabilité pi associée à l’événement yi = 1 est alors déterminée de façon unique. En effet, écrivons l’espérance des résidus : E (εi ) = pi (1 − xi β) − (1 − pi ) xi β = pi − xi β = 0 On en déduit immédiatement que : pi = xi β = Prob (yi = 1) (1.4)

Ainsi la quantité xi β correspond à une probabilité et doit par conséquent satisfaire un certain nombre de propriétés et en particulier appartenir à l’intervalle fermé [0, 1] . (1.5) 0 ≤ xi β ≤ 1 ∀i = 1, .., N Or rien n’assure que de telles conditions soient satisfaites par l’estimateur des Moindres Carrés utilisé dans le modèle linéaire (1.1). Si de tels contraintes ne sont pas assurées, le modèle yi = β 0 + xi β 1 + εi E (εi ) = 0 ∀i = 1, .., N n’a pas de sens.

Econométrie des Variables Qualitatives. Cours C. Hurlin

10

3. Enfin, même si l’on parvenait à assurer le fait que les contraintes (1.5) soient satisfaites par l’estimateur des Moindres Carrés des paramètres du modèle linéaire, il n’en demeurerait pas moins une difficulté liée à la présence d’hétéroscedasticité. En effet, on constate immédiatement que, dans le modèle (1.1), la matrice de variance covariance des résidus varie entre les individus en fonction de leur caractéristiques associées aux exogènes xi puisque : (1.6) V (εi ) = xi β (1 − xi β) ∀i = 1, .., N Pour démontrer ce résultat il suffit de considérer la loi discrète des résidus et de calculer la variance : V (εi ) = E ε2 = (1 − xi β) Prob (yi = 1) + (−xi β) Prob (yi = 0) i = (1 − xi β) pi + (−xi β) (1 − pi )
2 2 2 2 2

Sachant que d’après la relation (1.4) on a pi = xi β, on en déduit que : V (εi ) = (1 − xi β) xi β + (−xi β) (1 − xi β) = (1 − xi β) xi = (1 − xi β) xi β [(1 − xi β) + xi β]
2

Or, de plus ce problème d’hétéroscédascticité ne peut pas être résolu par une méthode d’estimation des Moindres Carrés Généralisés tenant compte de la contrainte d’inégalité (1.5), puisque la matrice de variance covariance des perturbations (1.6) dépend du vecteur β des paramètres à estimer dans la spécification linéaire, qui est par nature supposé inconnu.

Pour toutes ces différentes raisons, la spécification linéaire des variables endogènes qualitatives, et plus spécialement dichotomiques, n’est jamais utilisée et l’on recourt à des modèles logit ou probit, que nous allons à présent étudier, pour représenter ces variables.

1.2. Modèles Logit et Probit Les modèles dichotomiques probit et logit admettent pour variable expliquée, non pas un codage quantitatif associé à la réalisation d’un évenement (comme dans le cas de la spécification linéaire), mais la probabilité d’apparition de cet évenement, conditionnellement aux variables exogènes. Ainsi, on considère le modèle suivant : pi = Prob ( yi = 1| xi ) = F (xi β) (1.7)

où la fonction F (.) désigne une fonction de répartition. La choix de la fonction de répartition F (.) est a priori non contraint. Toutefois, on utilise généralement deux types de fonction : la fonction de répartition de la loi logistique et la fonction de répartition de la loi normale centrée réduite. A chacune de ces fonctions correspond un nom attribué au modèle ainsi obtenu : modèle logit et modèle probit2 . Definition 1.1. On considère le modèle dichotomique suivant : pi = Prob ( yi = 1| xi ) = F (xi β)
2 Qui

∀i = 1, .., N

(1.8)

selon toute logique aurait du être nommé modèle nomit et non modèle probit.

Econométrie des Variables Qualitatives. Cours C. Hurlin

11

Dans le cas du modèle logit, la fonction de répartition F (.) correspond à la fonction logistique ∀w ∈ R : 1 ew = = Λ (w) (1.9) F (w) = 1 + ew 1 + e−w Dans le cas du modèle probit, la fonction de répartition F (.) correspond à la fonction de répartition de la loi normale centrée réduite ∀w ∈ R :
w

F (w) =
−∞

1 z2 √ e− 2 dz = Φ (w) 2π

(1.10)

Ainsi, pour une valeur donnée du vecteur des exogènes et du vecteur des paramètres β, on peut définir les deux modèles d’une façon équivalente : Definition 1.2. Le modèle logit définit la probabilité3 associé à l’événement yi = 1, comme la valeur de la fonction de répartition de la loi logistique considérée au point xi β : 1 ∀i = 1, .., N (1.11) Modèle logit : pi = Λ (xi β) = 1 + e−xi β Dans le cas du modèle probit, cette probabilité est définie comme la valeur de la fonction de répartition de la loi normale centrée réduite N (0, 1) considérée au point xi β : xi β z2 1 √ e− 2 dz ∀i = 1, .., N Modèle probit : pi = Φ (xi β) = (1.12) 2π −∞ A ce stade de l’exposé, la question que l’on se pose immédiatement est de savoir quelles sont les différences fondamentales entre les modèles probit et logit ? Quand doit on utiliser l’un plutôt que l’autre ? Quelles sont les propriétés particulières de ces deux modèles ? Bien entendu, ces deux modèles ne diffèrent que par la forme de la fonction de répartition F (.) . Ainsi, il faut donc se rappeler quelles sont les propriétés respectives des lois logistiques et normales, pour comprendre quelles peuvent être les différences et les similitudes entre les modèle logit et probit.

1.3. Comparaison des modèles probit et logit Historiquement, les modèles logit ont été introduits comme des approximations de modèles probit permettant des calculs plus simples. Dès lors, il n’existe que peu de différences entre ces deux modèles dichotomiques. Ceci s’explique par la proximité des familles de lois logistiques et normales. Les deux fonctions de répartition Λ (w) et Φ (w) sont en effet sensiblement proches, comme on peut le constater à partir du tableau (1.1) où sont reportées les valeurs de ces fonctions pour différentes valeurs de w. Mais cette similitude est encore grande si l’on considère une loi logistique transformée de sorte à ce que la variance soit identique à celle de la loi normale réduite. En effet, nous avons vu que la loi logistique usuelle admet pour fonction de répartition Λ (w) = 1 1 + e−w

3 La variable y étant dichotomique, la probabilité d’apparition de l’événement complémentaire y = 0 est i i définie par 1 − pi avec : e−xi β 1 − pi = 1 + e−xi β

Econométrie des Variables Qualitatives. Cours C. Hurlin

12

Cette loi a une espérance nulle et une variance égale à π 2 /3. C’est pourquoi, il convient de normaliser la loi logistique de sorte à obtenir une distribution de variance unitaire, comparable à celle de la loi normale réduite. On définit pour cela une loi logistique transformée. Definition 1.3. La loi logistique transformée de paramètre λ admet pour fonction de répartition4 , notée Λλ (w) , ∀w ∈ R Λλ (w) = eλw 1 = λw 1+e 1 + e−λw (1.13)

A cette fonction de répartition correspond une variance de π 2 / 3λ2 . Ainsi, il convient de √ comparer la loi normale centrée réduite à la loi logistique transformée, de paramètre λ = π/ 3, dont la fonction de répartition est définie comme suit : Λ (w) = Λπ/√3 (w) = 1 1+e
√ − πw 3

(1.14)

Cette loi admet par construction une variance unitaire. On observe ainsi à partir du tableau (1.1), que les réalisations de cette fonction Λπ/√3 (.) sont très proches de celles de la fonction Φ (.) associée à la loi normale réduite et ce notamment pour des valeurs de w proche de 0, c’est à dire des valeurs dites centrales, car proches de la moyenne de la distribution. Certains auteurs proposent d’utiliser d’autres paramètres λ afin de mieux reproduire encore la fonction de répartition de la loi normale pour des valeurs centrales. En particulier Amemiya (1981) propose d’utiliser un paramètre5 λ = 1.6 et donc de retenir la loi logistique transformée Λ1.6 (.) . Comme on peut l’observer sur le tableau (1.1), la fonction de paramètre 1.6 est encore √ plus proche de Φ (.) que la fonction de paramètre π/ 3. pour les valeurs centrales proches de 0 (w < 1 en l’occurrence dans le tableau). Tableau 1.1: Comparaison des Fonctions de Répartition Λλ (w) et Φ (w) w Φ (w) Λ (w) Λπ/√3 (w) Λ1.6 (w) 0 0.5 0.5 0.5 0.5 0.1 0.5398 0.5250 0.5452 0.5399 0.2 0.5793 0.5498 0.5897 0.5793 0.3 0.6179 0.5744 0.6328 0.6177 0.4 0.6554 0.5987 0.6738 0.6548 0.5 0.6915 0.6225 0.7124 0.6900 1 0.8413 0.7311 0.8598 0.8320 2 0.9772 0.8808 0.9741 0.9608 3 0.9987 0.9526 0.9957 0.9918

S o u rc e s : A n e m iy a (1 9 8 1 ), ta b le 1 , p a g e 1 4 8 7 e t c a lc u ls d e l’a u te u r.

Quoiqu’il en soit, il apparaît ainsi que les fonctions de répartition des lois normales centrées réduites et des lois logistiques simples ou transformées sont extrêmement proches. Par conséquent, les modèles probit et logit donnent généralement des résultats relativement similaires. De nombreuses études ont d’ailleurs été consacrées à ce sujet comme par exemple celle de Morimune (1979)6 ou de Davidson et MacKinnon (1984). Ainsi a priori, la question du choix entre les deux modèle ne présente que peu d’importance. Toutefois, il convient d’être prudent quand à la comparaison directe des deux modèles.
convention, la fonction de répartition de la loi logistique simple correspondant au cas λ = 1 sera noté Λ (.) afin d’alléger les notations. 5 Cette valeur 1.6 est dérivée du rapport des fonctions de densité φ (w) /λ (w) évalué au point w = 0. 6 Morimune K. (1979), ”Comparisons of Normal and Logistic Models in the Bivariate Dichitomous Analysis”, Econometrica 47, 957-975.
4 Par

Econométrie des Variables Qualitatives. Cours C. Hurlin

13

En effet, les valeurs estimées des paramètres dans les modèles probit et logit ne sont pas directement comparables puisque les variances des lois logistiques et normale réduite ne sont pas identiques. Cette différence de variance implique que la normalisation des coefficients β n’est pas identique et que par conséquent les estimateurs de ces paramètres obtenus dans les deux modèles ne fournissent pas des réalisations identiques. Proposition 1.4. Supposons que l’on note respectivement β P et β L les estimateurs des paramètres β obtenus dans les modèles probit et logit. Amemiya (1981) propose en première approximation d’utiliser la relation suivante entres les estimations probit et logit7 : (1.15) β L 1.6β P Toutefois, si ces approximations sont relativement précises sur certains échantillons comportant peu de valeurs ”extrêmes” (c’est à dire lorsque la moyenne des valeurs xi β est proche de zéro), elles seront moins précises en présence de nombreuses valeurs xi β éloignées de zéro. Une façon équivalente8 de vérifier l’adéquation de cette approximation consiste à observer si la valeur moyenne des probabilités pi est proche de 0.5 (Davidson et MacKinnon 1984). Si tel est le cas, les estimateurs des coefficients du modèle logit seront environ 1.6 fois supérieurs à ceux du modèle probit. Considérons l’exemple des données de l’article de Spector et Mazzeo (1980), paru dans Journal of Economic Education, et intitulé ”Probit Analysis and Economic Education”. Il s’agit ici d’évaluer la probabilité pour un étudiant d’obtenir le passage en post-graduate (variable dichotomique graduate), l’équivalent du master. Cette probabilité est modélisée comme une fonction d’une constante (cons), du score obtenu au tuce (test of understanding of college economics) et de la moyenne obtenue au niveau du graduate (grad). Sur la figure (1.2) sont reportés les résultats d’estimation du modèle logit tandis que sur la figure (1.3) sont reportés les résultats d’estimation du même modèle probit. Considérons par exemple le coefficient de la variable tuce. Le modèle logit nous donne une estimation de 0.0855 pour ce paramètre alors que le modèle probit donne une estimation de 0.05266. On vérifie alors que, pour cet échantillon, les approximations (1.15) sont satisfaisantes puisque selon cette formule, on devrait obtenir une estimation logit de paramètre√ l’ordre de 0.05266 ∗ 1.6 = 0.0843 ou 0.0955 si l’on considère de l’approximation 0.05266 ∗ π/ 3. Ces approximations sont en effet très proches de la vraie estimation du paramètre dans le modèle logit. De la même façon, Amemiya (1981) propose différentes approximations permettant d’approcher les estimations des modèles logit et probit à partir des estimations obtenues dans le modèle linéaire simple, présenté précédemment. Proposition 1.5. On note β P l’estimateur obtenu dans le modèle probit, β L l’estimateur obtenu dans le modèle logit et β LP l’estimateur obtenu dans le modèle linéaire. Amemiya (1981) propose les approximations suivantes pour les modèles
√ utilisant la normalisation de la variance, on peut aussi retenir comme approximation un facteur π/ 3 √ 1.81, en posant β L π β P / 3. 8 Sachant que Φ (0) = Λ (0) = 0.5, il équivalent de vérifier si la moyenne des valeurs x β est proche de 0 ou si i la moyenne des probabilités pi = F (xi β) est proche de 0.5, avec F (x) = Λ (x) dans le cas du modèle logit et F (x) = Φ (x) dans le cas du probit.
7 En

Econométrie des Variables Qualitatives. Cours C. Hurlin

14

Figure 1.2: Estimation d’un Modèle Logit

probit et linéaire : β LP 0.4β P pour tous les paramètres à l’exception de la constante β LP 0.4β P + 0.5 pour la constante (1.16) (1.17)

et les approximations suivantes pour les modèles logit et linéaire : β LP 0.25β L pour tous les paramètres à l’exception de la constante β LP 0.25β L + 0.5 pour la constante (1.18) (1.19)

Ainsi si l’on considère l’exemple des données de l’article de Spector et Mazzeo (1980), les estimations de la constante et des paramètres des variables tuce et grad obtenues dans le modèle linéaires sont respectivement égales à −1.4493, 0.0160 et 0.4619. Or, si l’on compare ces résultats à ceux obtenus à partir des modèles logit et probit (figures 1.2 et 1.3), on obtient les résultats relativement proches. Ainsi, dans le cas du modèle logit pour la variable tuce l’approximation donnerait 0.25 ∗ 0.08555 = 0.0214 et 0.25 ∗ 2.53828 = 0.6346 pour la variable grad. Pour la constante l’approximation donne une valeur approchée égale à −0.25 ∗ 10.656 + 0.5 = −2.164. Cers approximations seront d’autant plus proches des valeurs estimées qu’il y a aura un grand nombre d’observations xi β proches de 0, car en effet les fonctions de répartition des lois logistiques et normales ne se démarquent pas d’une droite dans cette zone.

Econométrie des Variables Qualitatives. Cours C. Hurlin

15

Figure 1.3: Estimation d’un Modèle Probit

En conclusion, il apparaît que les résultats des modèles probit et logit sont généralement similaires que ce soit en termes de probabilité ou en termes d’estimation des coefficients β si l’on tient compte des problèmes de normalisation. C’est le sens de cette conclusion d’Amemiya. ”Because of the close similarity of the two distributions, it is difficult to distinguish between them statistically unless one has an extremely large number of observations. Thus, in the univariate dichotomous model, it does not matter much whether one uses a probit model or a logit model, except in cases where data are heavily concentrated in the tails due to the characteristics of the problem being studied.”, Amemiya T. (1981), page 1487. Toutefois, comme le note Amemiya (1981), il convient d’être prudent dans l’utilisation des approximations pour comparer les modèles probit et logit. Il est toujours préférable de raisonner en termes de probabilités pi = F (xi β) et non en termes d’estimation des paramètres β pour comparer ces résultats. ”The reader should keep in mind that this equality [equation (1.15)] constitutes only a rough approximation and that a different set of formulae may work better over a different domain. When one wants to compare models with different probability functions, it is generally better to compare probabilities directly rather than comparing the estimates of the coefficients even after an appropriate conversion”, Amemiya T. (1981), page 1488.

Econométrie des Variables Qualitatives. Cours C. Hurlin

16

Si les deux modèle sont sensiblement identiques, il existe cependant certaines différences entre les modèles probit et logit, comme le souligne d’ailleurs Amemiya. Nous évoquerons ici deux principales différences : 1. La loi logistique tend à attribuer aux événements ”extrêmes” une probabilité plus forte que la distribution normale. 2. Le modèle logit facilite l’interprétation des paramètres β associées au variables explicatives xi Nous allons à présent étudier successivement ces deux propriétés. Premièrement, la fonction de densité associée à la loi logistique possède en effet des queues de distribution plus épaisses que celles de la fonction de densité de la loi normale (distribution à queues ”plates”). La loi logistique présente donc un excès de Kurtosis9 : il s’agit d’une distribution leptokurtique. En d’autres termes, nous avons vu que les lois logistique et normale appartiennent à la même famille des lois exponentielles et sont par nature très proches, notamment pour les valeurs proches de la moyenne de la distribution. Toutefois, le profil de ces deux distributions diffère aux extrémités du support : pour la loi normale, les valeurs extrêmes sont moins pondérées, la fonction de répartition tendant plus vite vers 0 à gauche du support et vers 1 à droite. Economiquement, cela implique que le choix d’une fonction logistique (modèle logit) suppose une plus grande probabilité10 attribuée aux évenements ”extrêmes”, comparativement au choix d’une loi normale (modèle probit), que ce soit à droite ou gauche de la moyenne de la distribution, les lois normales et logistiques étant symétriques. Pour visualiser ce phénomène, il convient de comparer la fonction de répartition associée à la loi normale centrée réduite avec la fonction de répartition associée à la loi logistique possédant les deux premiers moments identiques à la loi N (0, 1) . Sur le graphique (1.4) est reportée la différence Λ (w) − Φ (w) en fonction de w : On constate qu’à droite du support, pour des valeurs élevées de w (w > 1.5 environ), on a Φ (w) > Λ (w) . La fonction de répartition de la loi normale est au dessus de celle de la loi logistique. Etant donnée la définition de la fonction de répartition, F (w) =Prob(W ≤ w) , cela signifie que la probabilité que la réalisation de la variable W soit inférieure au seuil w est plus grande dans le cas de la loi normale que dans le cas de la loi logistique. Inversement, pour un seuil w donnée, la probabilité d’obtenir des valeurs supérieures à ce seuil (des valeurs ”extrêmes”) est plus grande dans le cas de la loi logistique que dans le cas de la loi normale. On vérifie ainsi la propriété de la loi logistique qui sur-pondère les valeurs extrêmes en comparaison de la loi normale. Naturellement, puisque les distributions sont symétriques, on obtient le même résultat à gauche du support pour des valeurs très faibles de w (w < −1.5 environ).

9 L’excès de Kurtosis est défini en référence au moment d’ordre d’une loi normale centrée réduite. Si X suit une loi normale N µ, σ2 , la Kurtosis est égale à µ4 = 3σ 4 . Par convention, le degré d’excès de Kurtosis, défini par µ4 /σ 4 − 3, est nul. 10 Bien entendu, la différence entre les résultats des modèles probit et logit ne pourra être observée que si l’on dispose de suffisament d’observations des exogènes se situant dans ces zones ”extrêmes”.

Econométrie des Variables Qualitatives. Cours C. Hurlin

17

Figure 1.4: Différence des Fonctions de Répartition Λ (w) − Φ (w)
0.025 0.02 0.015 0.01 0.005 0 -0.005 -0.01 -0.015 -0.02 -0.025 -5

Λ- Φ

-4

-3

-2

-1

0

1

2

3

4

5

Deuxièmement, il existe une propriété particulièrement intéressante propre au modèle logit, qui facilite en particulier l’interprétation des paramètres β associées au variables explicatives xi . Attention, comme nous le verrons par la suite, les valeurs numérique des estimations n’ont pas d’interprétation économique directe, en raison du problème de la normalisation de la variance résiduelle. Ainsi, il faut retenir que la seule information directe réellement utilisable est le signe des paramètres, indiquant si la variable associée influence à la hausse ou la baisse la probabilité de l’événement considéré. Toutefois, on peut en outre calculer les effets marginaux : les effets marginaux mesurent la sensibilité de la probabilité de l’événement yi = 1 par rapport à des variations dans les variables explicatives xi . Et c’est précisément dans ce contexte, que l’utilisation d’un modèle logit peut faciliter l’analyse de ces effets marginaux. Au delà, de ces différences entre les lois logistiques et normales, il existe en effet certaines propriétés du modèle logit qui sont particulièrement utiles pour simplifier les calculs ainsi que l’interprétation économique des résultats d’estimation des paramètres β associées au variables explicatives. Tout d’abord, si l’on note pi = P rob(yi = 1) = Λ (xi β) , étant donnée la définition de la loi logistique on remarque que plusieurs égalités, permettant de simplifier les calculs, peuvent être établies comme suit : exi β = pi 1 + exi β log pi 1 − pi = xi β

1 1 + exi β En plus de ces différentes relations, il existe une égalité qui est en outre particulièrement intéressante en ce qui concerne l’analyse économique des résultats d’estimation. Il s’agit de la relation suivante : pi exi β = 1 − pi 1 − pi =

Econométrie des Variables Qualitatives. Cours C. Hurlin

18

En effet, on sait que la probabilité pi désigne la probabilité associée à l’événement yi = 1, et que la quantité 1 − pi désigne par conséquent la probabilité associée à l’événement comlpémentaire pi = 0. Proposition 1.6. De façon générale, la quantité ci = pi / (1 − pi ) représente le rapport de la probabilité associée à l’événement yi = 1 à la probabilité de non survenue de cet événment : il s’agit de la cote (”odds”). Dans un modèle logit, cette cote correspond simplement à la quantité exi β : ci = pi = exi β modèle logit 1 − pi (1.20)

Si ce rapport est égal à ci pour l’individu i, cela signifie qu’il y a ci fois plus de chance que l’événement associé au code yi = 1 se réalise, qu’il ne se réalise pas (” ci contre 1” dans le langage usuel ). Exemple : Considérons les 32 observations tirées de l’échantillon de Spector et Mazzeo (1980). Les données correspondant aux variables exogènes tuce et grad, ainsi que la variable endogène dichotomique graduate sont reportés sur les trois premiers quadrants de la figure (1.5). A partir des estimations obtenues dans le modèle logit (cf. figure 1.2), on a calculé la cote associée à l’événement ”être en post graduate”. Sans surprise on constante que par exemple l’individu 10, qui a obtenu la meilleure note de l’échantillon au tuce (29) et qui a obtenu une moyenne de 3.92/4 aux examens de graduate a une cote de 5.9. C’est à dire qu’il a 6 plus de chances d’obtenir le passage en post graduate que de ne pas l’obtenir alors que la moyenne des cotes pour l’échantillon est de 0.97. De la même façon, l’individu 5 qui obtenu la note maximale (4) aux examens de graduate à une cote de 3.64. Ces deux individus figurent parmi les étudiants qui ont effectivement obtenu le passage en post graduate (graduate = 1). Au delà du simple calcul de la cote, on peut en outre chercher à mesure les effets marginaux ` ` sur la cote. Il s’agit alors de mesurer l’impact, pour le ieme individu d’une variation de la j eme [j] variable explicative, notée xi , sur la cote. Supposons que l’on considère une variation d’une unité de cette variable, et calculons alors la variation induite de la cote. En effet, étant donné la propriété (??) du modèle logit, on peut alors facilement mesurer l’impact d’une variation d’une unité d’une des variables explicatives sur cette cote. En effet, si l’on note c la cote de [1] [K] le vecteur des variables explicatives et β = (β 1 ...β K ) le l’événement yi = 1, xi = xi ...xi vecteur des paramètres associés, on a : ci = pi = exp 1 − pi
K K

xi β k
k=1

[k]

=
k=1

exp xi β k
[j]

[k]

On peut alors isoler la part de la cote imputable à une variable xi quelconque de la façon [j] suivante. Supposons que la variable xi augmente de une unité, nouvelle cote notée ci est égale à:
K K

ci = exp

xi + 1 β j
k=1 k=j

[j]

exp xi β k = exp β j
k=1

[k]

exp xi β k

[k]

Proposition 1.7. Dans un modèle logit, un accroissement d’une unité de la variable [j] exogène xi ,toutes choses égales par ailleurs, multiplie la valeur de la cote par

Econométrie des Variables Qualitatives. Cours C. Hurlin

19

Figure 1.5: Données et Calcul de la Cote à partir du Modèle Logit : Spector et Mazzeo (1980) Résultats au tuce Moyenne des examens au graduate 30 4
25 20 15 10 0 3.5 3 2.5 2 0

10

20

30

40

10

20

30

40

1 0.8 0.6 0.4 0.2 0 0

Reussite passage en post graduate

6 5 4 3 2 1

Cote de la réussite en Post-Graduate

10

20

30

40

0 0

10

20

30

40

exp β j . Si l’on note ci la cote initiale et ci la cote obtenue après variation de la ` j eme variable explicative, on a : ci = exp β j ci (1.21)

` Exemple : Considérons l’échantillon de Spector et Mazzeo.. Nous avons vu que le 10eme individu de l’échantillon avait obtenu une note de 29 au tuce. Calculons la variation de sa cote s’il avait obtenu 30 au lieu de 29. Les estimations obtenues dans le modèle logit (cf. figure 1.2) nous donne une estimation du paramètre associé à tuce égale à 0.0855. Dès lors, le coefficient multiplicatif à appliquer à la cote est de exp (0.0855) = 1.0893. La cote initiale du ` 10eme individu était de 5.9. Donc après modification de la note au tuce sa cote doit passer à 5.9 ∗ 1.0893 = 6.4269. On vérifie en estimant à nouveau (non reproduit) le modèle logit avec ` la valeur modifiée (30) de l’exogène tuce pour le 10eme individu que le cote estimée est égale à 6.43.

Toutefois, de façon plus générale, on calcule les effets marginaux non pas à partir de la cote mais directement à partir des probabilité associé à l’événement de référence. On cherche ainsi à

Econométrie des Variables Qualitatives. Cours C. Hurlin

20

établir quelle est la variation de la probabilité de l’événement yi = 1 en cas de variation d’une des variables exogène. On considérera ici uniquement le cas de variables explicatives continues. ` Dans ce cas, pour de petites variations de la jeme variable explicative, on peut approximer la [j] variation de probabilité pi par la dérivée de celle-ci par rapport à la variable xi : ∂pi
[j] ∂xi

=

∂F (xi β)
[j] ∂xi

=

∂F (xi β) ∂ (xi β) ∂F (xi β) = β [j] ∂ (xi β) ∂x ∂ (xi β) j
i

puisque xi β =

K k=1

xi β k .

[k]

Proposition 1.8. Dès lors, si l’on note f (.) la fonction de densité des résidus du [j] ` modèle dichotomique, l’effet marginal associé à la j eme variable explicative xi est défini par : ∂pi = f (xi β) .β j (1.22) [j] ∂xi Suivant que l’on considère un modèle probit ou un modèle logit, cette dérivée s’écrit comme suit : ∂pi exi β = (1.23) 2 β j modèle logit [j] (1 + exi β ) ∂xi ∂pi
[j] ∂xi

1 1 = √ exp − (xi β)2 .β j modèle probit 2 2π

(1.24)

Puisque par définition f (.) > 0, le signe de cette dérivée est donc identique à celui de β j . Dès lors, l’augmentation d’une variable associée à un coefficient positif induit une hausse de la probabilité de réalisation de l’événement yi = 1. Inversement, la hausse d’une variable associé à un coefficient négatif induit une baisse de la probabilité de réalisation de l’événement yi = 1. Par exemple, si l’on considère les données de Spector et Mazzeo (190) et les résultats d’estimation des probit et logit (figures 1.2 et 1.3), les deux variables tuce et grad sont affectées d’un coefficient dont l’estimateur a une réalisation positive. Ainsi, une augmentation de la note au tuce ou une augmentation de la moyenne aux examens du graduate conduit à une amélioration de la probabilité de passage en postgraduate. Enfin, plutôt que d’exprimer l’effet marginal sous la forme de la dérivée ∂pi /∂xi , on préfère généralement calculer une élasticité, cette dernière ayant l’avantage d’être indépendante des unités de mesure. Definition 1.9. Ainsi, on définit l’élasticité εpi /x[j] comme la variation en pourcenti age de la probabilité de survenue pi de l’événement codé yi = 1, suite à une variation [j] ` de 1% de la j eme variable explicative xi : εpi /x[j]
i

[j]

[j] x βj ∂pi xi = = f (xi β) i [j] p F (xi β) i ∂x i

[j]

(1.25)

Cette expression peut se simplifier dans le cas du modèle logit sachant que F (x) = ex / (1 + ex ) 2 et que f (x) = ex / (1 + ex ) . Pour un logit, l’élasticité prend la valeur suivante : ∀i ∈ [1, N ] εpi /x[j] =
i

xi β j 1 + exp (xi β)

[j]

modèle logit

(1.26)

Econométrie des Variables Qualitatives. Cours C. Hurlin

21

Plusieurs remarques doivent être faites à ce niveau. Tout d’abord, pour les deux modèles, l’élasticité est une fonction non linéaire des autres composantes du vecteur xi . On peut ainsi calculer l’influence des variables explicatives annexes sur la sensibilité du modèle à l’évolution d’une variable j particulière. On peut par exemple calculer : ∂ εpi /x[j]
i

∂xi

[k]

∀k = j, ∀i ∈ [1, N ]

(1.27)

Deuxième remarque, les fonctions de densité f (.) des modèles logit et probit étant symétriques et unimodales,elles atteignent donc leur maximum en zéro. Ainsi, l’impact d’une variable explicative est d’autant plus important pour les individus donc le scalaire xi β est proche de zéro. En d’autres termes, pour les individus pour lesquels on est pratiquement sûr de la survenue d’un évenement ( pi = F (xi β) proche de 1 ou xi β, positif et très élevé), l’élasticité sera faible : seule une variation très importante des variables explicatives pourra modifier sensiblement la probabilité. De la même façon, les individus pour lesquels on est pratiquement sûr de la non survenue d’un évenement (pi = F (xi β) proche de 0 ou xi β, négatif et très élevé en valeur absolue), l’élasticité sera faible. Enfin, troisième et dernière remarque les formules ci-dessus fournissent des mesures individuelles des effets marginaux, et généralement il est utile de calculer l’élasticité au point moyen de l’échantillon afin de répondre à la question : quel est l’impact moyen (dans l’échantillon) de ` la variation de 1% de la jeme variable explicatives ? Deux possibilité peuvent être retenues : soit on calcule l’élasticité en remplaçant les valeurs individuelles xi par les moyennes empiriques de ces composantes sur l’échantillon, ∀j ∈ [1, K] : εp/xj = f (xβ) [j] x βj F (xβ) (1.28)

où le vecteur x est défini par x = (1/N ) xi et le scalaire x[j] vaut x[j] = (1/N ) x[j] . La deuxième solution consiste à calculer la moyenne des élasticités individuelles sur l’ensemble de l’échantillon, ∀j ∈ [1, K] : N 1 εp/xj = ε (1.29) [j] N i=1 pi /xi 1.4. Présentation des modèles dichotomiques en termes de variable latente Généralement, bien que cela ne soit pas nécessaire on présente les modèles dichotomiques en ∗ termes de variables latentes ou inobservée yi , la variable observée yi étant alors un indicateur ∗ des valeurs prises par yi . Cette référence à une variable latente permet de mieux comprendre l’émergence des modèles dichotomiques à partir de certains problèmes ou de biologie. L’exemple le plus célébre (repris dans Amemiya 1981) est tiré de la bio-économétrie (n’oublions que c’est dans ce domaine que furent proposées les premières applications) celui de l’insecticide : on diffuse dans un espace clos un insecticide et l’on cherche à dé terminer la dose minimale permettant de tuer les insectes. Pour cela, on observe au terme d’une période fixé les insectes i morts pour lesquels on adopte le code yi = 0 et ceux encore vivants codés yi = 1. On suppose alors que chaque insecte dispose d’une capacité de résistance propre qui se traduit ∗ par un seuil inobservable de produit, noté yi , telle que si la dose de produit est supérieure à ce seuil l’insecte est mort (yi = 0 ), et qu’il reste vivant (mais malade peut être) pour une dose

Econométrie des Variables Qualitatives. Cours C. Hurlin

22

inférieure (yi = 1). Il s’agit alors de modéliser la probabilité de survie de l’insecte i en fonction de la dose d’insecticide et des observations faites sur yi . On suppose pour cela qu’un certain dosage γ est diffusé sur l’ensemble des insectes. On voit immédiatement que ce problème peut s’écrire de la façon suivante : ∗ 1 si yi > γ (1.30) yi = 0 sinon
∗ où la variable latente yi peut s’écrire comme la somme d’une combinaison linéaire de caractéristiques propres à chaque insecte et d’une terme aléatoire. ∗ yi = xi β + εi

(1.31)

Si le terme aléatoire εi est distribué selon une loi normale, on retrouve un modèle probit, si ce terme est distribué selon une loi logistique on retrouve le modèle logit. Un autre exemple, toujours tiré d’une étude biologique de Ashford et Sowden (1970), concerne la probabilité pour un mineur de contracter une maladie des poumons (événement codé ∗ yi = 1) lorsque sa tolérance inobservable, notée yi , aux conditions de travail et en particulier aux poussières de charbon est inférieure à certain seuil γ inconnue. On suppose que la tolérance est liée à l’âge du mineur noté xi . De la même façon, ce modèle peut s’écrire sous la forme : yi = 1 0
∗ si yi = β 1 + β 2 xi + εi < γ sinon

(1.32)

où εi a une distribution normale ou logistique suivant les modèles. Ici l’événement yi = 1 (mal∗ adie) apparaît quand la variable latente yi est inférieure à un seuil γ. Mais il aurait parfaitement ∗ été possible de considérer une variable latente égale à −yi et un seuil −θ pour retomber sur une ∗ relation semblable à celle de l’exemple précédent où yi > γ. Une autre manière aurait consister à coder l’événement ”maladie” en 0. Par la suite, nous considérerons un modèle où l’on a yi = 1 ∗ lorsque yi > γ, ce qui permet d’écrire que pi = F (xi β − γ). En effet, on a bien11 :
∗ pi = P rob (yi = 1) = P rob (yi > γ)

⇐⇒ pi = P rob (εi > γ − xi β) = 1 − P rob (εi < γ − xi β) ⇐⇒ pi = F (xi β − γ) (1.33)

Dans le cas où γ = 0, on retrouve l’écriture des modèles dichotomiques proposée jusqu’à présent : pi = F (xi β) .

Proposition 1.10. Tout modèle dichotomique univarié peut s’écrire sous la forme d’une équation de mesure de la forme : yi = 1 0
∗ si yi > γ sinon

(1.34)

∗ où γ ∈ R et où la variable latente yi inobservable est définie en fonction de caractéristiques observables xi et d’une perturbation εi i.i.d. 0, σ 2 : ε ∗ yi = xi β + εi
11 On

(1.35)

suppose que la loi des perturbations est symétrique f (x) = f (−x) , dès lors on a F (x) = 1 − F (−x) .

Econométrie des Variables Qualitatives. Cours C. Hurlin

23

Ce modèle peut également s’exprimer sous la forme : pi = P rob (yi = 1) = F (xi β − γ) (1.36)

où la fonction F (.) désigne la fonction de répartition associée à la loi des perturbations εi . Ainsi, si F (.) = Φ (.) on retrouve le modèle probit et si F (.) = Λ (.) on retrouve le cas du modèle logit. De façon générale, l’équation (1.33) correspond en effet aux définitions des modèles logit et probit posées dans la section précédente.

A ce stade deux aspects doivent être discutés (Colletaz 2001). Le premier aspect concerne la normalisation du seuil γ qui évidement ne peut être identifié que si la combinaison linéaire xi β ne comporte pas de terme constant. Si la combinaison linéaire inclut un terme constant et s’écrit sous la forme xi β = β 1 + K xi,j β j , alors il est seulement possible d’estimer la j=2 constante c telle que :    
K K

Il y a alors indetermination du couple (β 1 , γ) puisqu’il existe une infinité de couples tels que β 1 = β 1 − γ. Deux choses l’une : ou l’on possède une information a priori sur le seuil γ qui permet alors de lever l’indétermination et d’identifier β 1 , soit l’on impose a priori une contrainte sur l’une ou l’autre des paramètres pour identifier l’autre. Dans ce dernier cas, généralement on suppose γ = 0 ce qui permet d’obtenir l’égalité β 1 = β 1 . Sans perte de généralité, on considère donc une écriture de la forme : (1.37) pi = F (xi β) Le second aspect du modèle à variable latente concerne la normalisation de la variance des perturbations εi . Partant de la relation (1.37) pour γ = 0, on a pi = F (xi β) = P rob (εi < xi β) et donc ∀λ ∈ R+ , on obtient : pi = P rob εi xi β < λ λ = P rob εi < xi β ∀λ > 0 (1.38)

pi = F (xi β − γ) = F β 1 +

j=2

xi,j β j − γ  = F β 1 +

j=2

xi,j β j 

avec β = β/λ et εi = εi /λ, ∀i ∈ (1, N ) . En d’autres termes, la détermination de la probabilité pi n’est pas unique par rapport au terme aléatoire εi et au vecteur de paramètres β : à caractéristiques (yi , xi ) données, une infinité de couples εi , β conduit à une même probabilité pi de survenue de l’événement codé yi = 1. Cette infinité de couples est définie par la proportionnalité : 1 (1.39) εi , β = {εi , β} ∀λ ∈ R+ λ Le choix d’une solution unique s’effectue encore une fois en imposant une contrainte soit sur le vecteur des paramètres β, soit sur la loi des perturbations εi , et plus précisément sur leur variance, la loi étant fixée par le choix du modèle logit ou probit. C’est cette dernière solution qui est généralement privilégiée. On sait en effet que la variance des résidus εi est égale à π 2 /3 dans le cadre du modèle logit et que cette variance est égale à l’unité dans le modèle probit. Les variances des perturbations étant fixée par le choix de la loi F (.), c’est donc sur le vecteur de

Econométrie des Variables Qualitatives. Cours C. Hurlin

24

paramètres β que porte l’incertitude puisque les composantes de ce vecteur sont définis à un facteur λ positif près. Naturellement, cette incertitude est sans conséquence pratique puisque toute composante non nulle dans le ”vrai” vecteur β a une image dans le β contraint et que par ailleurs les deux valeurs étant de même signe cela n’affecte pas la mesure des effets marginaux. Proposition 1.11. Dans les modèles logit et probit, la variance de l’erreur du modèle n’est pas identifiable : elle est normalisée à l’unité dans le cas du probit et est égale à π 2 /3 dans le cas du logit. Par conséquent, la valeur numérique des paramètres estimés n’a pas d’intérêt en soi dans la mesure où il ne correspondent aux paramètres β de l’équation de la variable latente qu’à une constante multiplicative près. De plus, le seuil γ n’est pas identifiable car il se confond au terme constant du vecteur des explicatives xi . Ainsi, la seule information réellement utilisable est le signe des paramètres, indiquant si la variable associée influence à la hausse ou la baisse la probabilité de l’événement considéré. Le signe des coefficients et le calcul des effets marginaux restent les deux seules informations directement exploitables en ce qui concerne les variables explicatives. Exemple : afin de mieux comprendre reprenons l’exemple du modèle de Ashford et Sowden (1970), où l’on considère la probabilité pour un mineur de contracter une maladie des poumons ∗ (événement codé yi = 1) lorsque sa tolérance inobservable, notée yi , aux conditions de travail et en particulier aux poussières de charbon est inférieure à certain seuil γ inconnue. On suppose que la tolérance est liée à l’âge du mineur noté xi par une relation affine. yi = 1 0
∗ si yi = β 1 + xi β 2 + εi > γ sinon

On suppose que la variance des perturbations i.i.d. εi est égale à σ 2 = σ2 , ∀i ∈ (1, N ) . Dès i lors, pour un individu i la probabilité de décès s’écrit sous la forme : pi = P rob (yi = 1) = P rob (εi > γ − β 1 − xi β 2 ) = F (β 1 − γ + xi β 2 ) (1.40)

Si l’on considère un modèle probit, les perturbations du modèle doivent suivre une loi normale centrée réduite. La contrainte sur la variance égale à l’unité, impose d’écrire le modèle sous la forme suivante : pi = P rob = Φ εi γ − β 1 − xi β 2 > σ σ β1 − γ xi β 2 + σ σ (1.41) (1.42) (1.43)

= Φ β 1 + xi β 2

avec β 1 = (β 1 − γ) /σ et β 2 = β 2 /σ. Seuls deux paramètres β 1 et β 2 seront estimés, alors qu’il y a 4 paramètres structurels (β 1 , β 2 , γ, σ) . L’adoption d’une normalisation du type γ = 0 et σ = 1 permet alors d’identifier les paramètres β 1 et β 2 . Si l’on considère un modèle logit, on sait que la variance résiduelle doit être égale à π 2 /3 dès lors que l’on impose le choix d’une loi logistique simple pour les perturbations du modèle.

Econométrie des Variables Qualitatives. Cours C. Hurlin

25

Ainsi, la contrainte sur la variance résiduelle égale à π 2 /3, impose d’écrire le modèle sous la forme suivante : pi = P rob = Λ π ε π γ − β 1 − xi β 2 √ i >√ σ 3σ 3 π β1 − γ π xi β 2 √ +√ 3 σ 3 σ (1.44)

= Λ β 1 + xi β 2

√ √ avec β 1 = π (β 1 − γ) / 3σ et β 2 = πβ 2 / 3σ. En effet, dans ce cas les perturbations normalisées √ εi = πεi /σ 3 vérifient la contrainte sur la variance puisque : E ε2 = i π2 π2 E (εi ) = 2 3σ 3

Encore une fois, seuls les paramètres β 1 et β 2 seront estimés, alors qu’il y a 4 paramètres structurels (β 1 , β 2 , γ, σ) dans le modèle initial. L’adoption d’une normalisation du type γ = 0 et σ = 1 permet dans ce cas d’identifier les paramètres β 1 et β 2 .

Econométrie des Variables Qualitatives. Cours C. Hurlin

26

2. Estimation des Paramètres par la Méthode du Maximum de Vraisemblance
Considérons le modèle suivant : Hypothèse On considère un échantillon de N individus indicés i = 1, .., N. Pour chaque individu, on observe si un certain évenément s’est réalisé et l’on note yi la variable codée associée à évenement. On pose ∀i ∈ [1, N ] : yi = 1 0 pi = F (xi β) 1 − pi = 1 − F (xi β) (2.1)

où xi = x1 ..xK , ∀i = 1, .., N désigne un vecteur de caractéristiques observables et où i i β = (β 1 ...β K ) ∈ RK est un vecteur de paramètres inconnus. On cherche naturellement à estimer les composantes du vecteur β. Dans le cas des modèles dichotomiques univariés, plusieurs méthodes d’estimation sont envisageables (GMM par exemple). Toutefois la méthode la plus usitée lorsque la loi des perturbations est connue consiste en la méthode du maximum de vraisemblance. Nous ne considérerons pas ici le cas des observations répétées12 . 2.1. Estimation par maximum de vraisemblance Dans le cas du modèle dichotomique univarié, la construction de la vraisemblance est extrêmement simple. En effet, à l’événement yi = 1 est associée la probabilité pi = F (xi β) et à l’événement yi = 0 correspond la probabilité 1 − pi = 1 − F (xi β) . Ceci permet de considérer les valeurs observées yi comme les réalisations d’un processus binomial avec une probabilité de F (xi β) . La vraisemblance des échantillons associés aux modèles dichotomiques s’écrit donc comme la vraisemblance d’échantillons associés à des modèles binomiaux. La seule particularité étant que les probabilités pi varient avec l’individu puisqu’elles dépendent des caractéristiques xi . Ainsi la vraisemblance associée à l’observation yi s’écrit sous la forme : L (yi , β) = pyi (1 − pi ) i
1−yi

Dès lors, la vraisemblance associée à l’échantillon de taille N, noté y = (y1 , .., yN ) s’écrit de la façon suivante. Definition 2.1. Pour un modèle dichotomique univarié simple, la vraisemblance associée à l’échantillon de taille N, noté y = (y1 , .., yN ) , s’écrit sous la forme :
N N

L (y, β) =
i=1

pyi (1 − pi )1−yi = i

i=1

[F (xi β)]yi [1 − F (xi β)]1−yi

(2.2)

Il ne reste plus alors qu’à spécifier la fonction de distribution F (.) pour obtenir la forme fonctionnelle de la vraisemblance. Ainsi, ∀xi β ∈ R dans le cas du modèle logit, on a:
12 Cas où à chaque valeur des caractéristiques exogènes correspondent plusieurs observations du caractère qualitatif. Ceci traduit la possibilité de répéter plusieurs fois l’expérience sous les mêmes conditions. Comme le note Anemiya (1980) ce cas est plus fréquent en biologie qu’en économie.

Econométrie des Variables Qualitatives. Cours C. Hurlin

27

F (xi β) = alors que pour le probit, on a :

exi β = Λ (xi β) 1 + exi β

xi β

F (xi β) =
−∞

z2 1 √ e− 2 dz = Φ (xi β) 2π

De cette définition, on déduit alors la log-vraisemblance comme suit :
N

log L (y, β) =
i=1

yi log [F (xi β)] + (1 − yi ) log [1 − F (xi β)]

(2.3)

En distinguant les observations yi = 1 et celles pour lesquelles on a yi = 0, la logvraisemblance peut s’écrire sous la forme : log L (y, β) =
i : yi =1

log F (xi β) +
i : yi =0

log [1 − F (xi β)]

(2.4)

L’estimateur du maximum de vraisemblance des paramètres β est obtenu en maximisant soit la fonction de vraisemblance L (y, β) soit la fonction de log-vraisemblance log L (y, β) . En dérivant la log vraisemblance (équation 2.3) par rapport aux éléments du vecteur β, de dimension (K, 1), on obtient un vecteur de dérivées, noté G (β) , appelé vecteur du gradient. G (β) = ∂ log L (y, β) = ∂β
N

yi
i=1

f (xi β) f (xi β) x + (yi − 1) x F (xi β) i 1 − F (xi β) i

où f (.) est la fonction de densité associée à F (.) et où xi désigne la transposée du vecteur xi de dimension (1, K) . En simplifiant, l’expression du gradient, on obtient alors :
N

G (β) =
i=1

[yi − F (xi β)] f (xi β) x F (xi β) [1 − F (xi β)] i

(2.5)

On peut en outre exprimer le gradient en distinguant les observations yi = 1 et celles pour lesquelles on a yi = 0 : G (β) =
i : yi

f (xi β) x − F (xi β) i i : y =1

i

f (xi β) x [1 − F (xi β)] i =0

(2.6)

Definition 2.2. L’estimateur β du maximum de vraisemblance du vecteur de paramètre β ∈ RK dans un modèle dichotomique est défini par la résolution du système de K équations non linéaires en β : β =arg max [log L (y, β)]
{β}

(2.7)

∂ log L y, β ⇐⇒ ∂β =

N

yi − F xi β F xi β

f xi β xi = G β = 0 (2.8)

i=1

1 − F xi β

Econométrie des Variables Qualitatives. Cours C. Hurlin

28

où G (β) désigne le gradient associé à la log-vraisemblance ∂ log L (y, β), évalué au point β.Dans le cas du modèle logit, ce système se ramène à :
N

GL β =
i=1

yi − Λ xi β

xi = 0

(2.9)

Dans le cas du modèle probit, on a :
N

GP β =
i=1

yi − Φ xi β Φ xi β

φ xi β xi = 0 (2.10)

1 − Φ xi β

En effet, l’écriture du gradient dans le cas du modèle logit se simplifie en tenant compte de la propriété de la loi logistique selon laquelle, si l’on note λ (x) la densité associée à Λ (x) , on a la relation suivante : ∀x, λ (x) = Λ (x) [1 − Λ (x)] . Dès lors, l’expression (2.5) se simplifie puisque : N N [yi − Λ (xi β)] λ (xi β) [yi − Λ (xi β)] xi xi = GL (β) = Λ (xi β) [1 − Λ (xi β)] i=1 i=1 Première remarque : comme de façon générale avec la méthode d’estimation du maximum de vraisemblance, l’équation de définition (2.8) peut s’interpréter comme une condition d’orthogonalité imposée sur les variables explicatives et les résidus généralisés. Cette égalité est en effet l’équivalent empirique d’une condition de la forme E [(xi wi ) εi ] où εi est le résidu dans le modèle non linéaire yi = F (xiβ ) + εi et où wi est une variable de pondération. En effet, si l’on pose : f (xi β) εi = yi − F (xi β) wi = F (xi β) [1 − F (xi β)] alors l’équation (2.8) se réécrit sous la forme :
N N

G (β) =
i=1

(xi wi ) [yi − F (xi β)] = 0 ⇐⇒

1 N

(xi wi ) εi = 0
i=1

(2.11)

Cette propriété est particulièrement facile à visualiser dans le cas du modèle logit. De façon générale, les estimateurs du maximum de vraisemblance constituent un cas particulier des estimateurs des moments. Deuxième remarque : le système défini par l’équation (2.8) est non linéaire. L’estimateur β ne peut être obtenu directement. Un algorithme d’optimisation numérique de la vraisemblance est donc nécessaire. Comme nous le verrons dans la section suivante, ces algorithmes se fondent à la fois sur le gradient mais aussi sur la matrice hessienne des dérivées secondes. C’est pourquoi, nous allons donné l’expression des gradients et des matrice hessiennes, notées H (β) , dans le cas particulier des modèles logit et probit. 2.1.1. Matrices Hessiennes et Matrices d’information de Fischer Commençons par définir les matrices hessiennes associée à la log vraisemblance des modèles dichotomiques univariés.

Econométrie des Variables Qualitatives. Cours C. Hurlin

29

Definition 2.3. Pour un modèle dichotomique univarié, la matrice hessienne associée à la log vraisemblance d’un échantillon de taille N, noté y = (y1 , .., yN ) , s’écrit sous la forme : H (β) =
(K,K)

∂ 2 log L (y, β) 1 − yi yi =− 2 + ∂β∂β [1 − F (xi β)]2 i=1 F (xi β)
N

N

f (xi β)2 xi xi (2.12)

+
i=1

yi − F (xi β) F (xi β) [1 − F (xi β)]

f (xi β) xi xi

où f (.) désigne la dérivée de la fonction de densité f (.) associée à F (.) . En effet, en omettant les arguments des fonctions et les indices il vient : ∂ ∂β ∂ ∂β ∂ log L (y, β) ∂β
N

H (β) = = =

= xi

∂ G (β) ∂β

i=1

(yi − F ) f F (1 − F )

F (1 − F ) ∂ [(y − F ) f ] x− ∂β F 2 (1 − F )2 (y − F ) f

(y − F ) f ∂ [F (1 − F )] x ∂β F 2 (1 − F )2

En simplifiant, il vient : H (β) = = − −f 2 + (y − F ) f x x− F (1 − F ) f2 xx+ F (1 − F ) f2 x x F 2 (1 − F ) f2 x x F2 (1 − F ) f2
2

F 2 (1 − F ) (y − F ) f xx− F (1 − F )

2

[f (1 − F ) − F f ] x x f 2 (y − F ) xx+ F 2 (1 − F ) F (1 − F )2 f 2 (y − F ) xx

En regroupant les termes en f 2 et en f on obtient alors : H (β) = = = − = − [F (1 − F ) + (y − F ) F − (y − F ) (1 − F )] + 2 yF − F 2 − y +
2

2

(y − F ) f xx F (1 − F )

(y − F ) f xx F (1 − F )

F2

y f2 xx− F2

(1 − F )

y (1 − F )2 + (1 − y) F 2 x x + (1 − y) f 2 (1 − F )
2

x x+

(y − F ) f xx F (1 − F )

(y − F ) f xx F (1 − F )

En intégrant les indices et les arguments des fonctions F (.) , f (.) et f (.) on retrouve alors l’expression de la matrice hessienne H (β) donnée dans l’équation (2.12). Attention, il n’existe pas d’expression simplifiée dans le cas des modèles logit et probit de la matrice hessienne. En revanche, l’espérance de la matrice hessienne, qui intervient dans le calcul de la matrice de variance covariance asymptotique de l’estimateur de maximum de vraisemblance, a une écriture plus simple. En effet, en partant de l’expression (2.12) de la matrice hessienne de la fonction de log vraisemblance et en considérant que dans le modèle dichotomique on a : E (yi ) = F (xi β) (2.13)

Econométrie des Variables Qualitatives. Cours C. Hurlin

30

on peut alors établir que : E [H (β)] = E ∂ 2 log L (y, β) E (1 − yi ) E (yi ) =− 2 + ∂β∂β [1 − F (xi β)]2 i=1 F (xi β) 1 1 + F (xi β) 1 − F (xi β) f (xi β)2 xi xi
N

f (xi β) xi xi

2

N

= −

i=1

En effet, le second terme de l’expression (2.12) s’annule lorsque l’on applique l’opérateur espérance. Cette expression peut alors se simplifier comme suit :
N

E [H (β)] = −

i=1

f (xi β)2 x xi F (xi β) [1 − F (xi β)] i

On reconnaît ici bien sûr, l’expression de l’opposé de la matrice d’information de Fischer. Definition 2.4. Pour un modèle dichotomique univarié, la matrice d’information de Fischer I (β) s’écrit sous la forme : I (β) = −E ∂ 2 log L (y, β) = ∂β∂β
N

i=1

f 2 (xi β) x xi F (xi β) [1 − F (xi β)] i

(2.14)

Dans le cas du modèle logit, cette matrice est définie par :
N N

I (β) =
i=1

λ (xi β) xi xi =
i=1

exp (xi β)

[1 + exp (xi β)]

2 xi xi

(2.15)

Dans le cas du modèle probit, cette matrice est définie par :
N

I (β) =
i=1

φ2 (xi β) x xi Φ (xi β) [1 − Φ (xi β)] i

(2.16)

En effet, dans le cas du modèle logit on a Λ (x) [1 − Λ (x)] = λ (x) , dès lors l’expression de la matrice d’information de Fischer se simplifie comme suit :
N

I (β) =
i=1

λ2 (xi β) x xi = Λ (xi β) [1 − Λ (xi β)] i

N

λ (xi β) xi xi
i=1

(2.17)

Il nous reste à présent à montrer que si la fonction de log vraisemblance admet un maximum global, ce dernier est unique.

2.1.2. Unicité du maximum global de la fonction de log-vraisemblance Si l’on admet que le maximum global de log L (y, β) existe, la condition suffisante pour que ce maximum soit unique consiste à montrer que la fonction log L (y, β) est concave. Etant donnée l’écriture (2.4) de la log-vraisemblance, il suffit alors de montrer que les fonctions log [F (x)] et log [1 − F (x)] sont concaves.

Econométrie des Variables Qualitatives. Cours C. Hurlin

31

Dans le cas du modèle logit, les dérivées première et seconde de la fonction log [F (x)] = log [Λ (x)] sont les suivantes : ∂ log [Λ (x)] ex 1 1 ∂Λ (x) (1 + ex ) = = = x x )2 ∂x Λ (x) ∂x e 1 + ex (1 + e ∂ ∂ 2 log [Λ (x)] = 2 ∂x ∂x 1 1 + ex −ex

=

(1 + ex )

2

<0

Les dérivées première et seconde de la fonction log [1 − Λ (x)] sont les suivantes : ∂ log [1 − Λ (x)] ex 1 ∂Λ (x) (1 + ex ) ex =− =− 2 = − 1 + ex = −Λ (x) ∂x 1 − Λ (x) ∂x 1 (1 + ex ) ∂Λ (x) ∂ 2 log [1 − Λ (x)] −ex =− <0 = ∂x2 ∂x (1 + ex )2 Dans le cas du logit, les fonctions log [F (x)] et log [1 − F (x)] sont donc strictement concaves, donc la log-vraisemblance log L (y, β) est elle même strictement concave. S’il existe un maximum à cette fonction en β, ce maximum est global. Le même résultat peut être mis en évidence dans le cas du modèle probit. Proposition 2.5. Dans un modèle dichotomique univarié, la fonction de log-vraisemblance log L (y, β) est strictement concave, ce qui garantit l’unicité du maximum de cette fonction. Dans la pratique, ce résultat garantit la convergence des estimateurs du maximum de vraisemblance vers la vraie valeur β 0 des paramètres, quel que soit le choix des conditions initiales et de l’algorithme d’optimisation utilisé.

Comme le note Colletaz (2001), il peut toutefois arriver que l’on observe des difficultés dans la progression de l’algorithme vers la solution. Généralement ces difficultés conduisent à l’affichage de valeurs anormalement grandes, en valeur absolue, pour un ou plusieurs des paramètres du modèle. Ceci correspond au cas de la classification parfaite dans lequel une ou plusieurs combinaisons de variables explicatives permet de prévoir parfaitement la survenue ou la non survenue de l’événement considéré. Par exemple, considérons le cas où K > 1, et si pour une variable explicative notée zi = 1 lorsque yi = 1, alors que yi = 1 ou yi = 0 lorsque zi = 0. Dans ce cas, P rob (yi = 1/zi = 1) = 1 quelles que soit les valeurs prises par les autres variables explicatives xi . Cela contraint l’algorithme à donner une valeur extrêmement forte à la combinaison linéaire βzi + βxi , c’est à dire à donner une valeur théoriquement infinie au vecteur β, de sorte que l’on rencontre alors des problèmes numériques. Le plus souvent, on observera une valeur estimée de β particulièrement élévée en valeur absolue avec un écart type associé tendant vers la nullité. Pour résoudre ce problème, il suffit la ou les variables concernées ainsi que la totalité des observations parfaitement classées, soit celles associées aux observations telles que zi = 1 et plus généralement aux variables ou aux combinaisons de variables autorisant cette classification parfaite.

Econométrie des Variables Qualitatives. Cours C. Hurlin

32

2.2. Algorithmes de maximisation de la vraisemblance Comme nous l’avons vu l’obtention de l’estimateur de maximum de vraisemblance β du vecteur de paramètres β ∈ RK implique de résoudre un système de K équations non linéaires de la forme : ∂ log L y, β G β = ∂β =
i=1 N

yi − F xi β F xi β

f xi β xi = 0 (2.18)

1 − F xi β

avec F (.) = Λ (.) dans le cas du logit et F (.) = Φ (.) dans le cas du probit. Un tel problème n’admet pas de solution analytique. La résolution d’un tel système ne peut se faire qu’en utilisant une procédure d’optimisation numérique. Les algorithmes utilisées dans les principaux logiciels d’économétrie sont généralement13 construit selon l’une ou l’autre de ces deux méthodes : la méthode de Newton Raphson et la méthode du score. Nous n’évoquerons ici que la méthode de Newton Raphson. Les méthodes d’optimisation numérique sont utilisées pour maximiser une fonction f (θ) lorsque la condition du premier ordre ∂f (θ) /∂θ = 0 n’admet pas de solution analytique ; le θ optimal doit être déduit par tatônnement ou par un algorithme itératif. Dès lors, un algorithme itératif utilise trois principaux éléments : 1. Des valeurs initiales θ0 pour amorcer le processus itératif 2. Une règle de passage d’un vecteur θ au suivant 3. Une règle d’arrêt si il y a convergence

***************************************************** **** INSERER GRAPHIQUE SUR LA PROCEDURE **** ***************************************************** En ce qui concerne le choix des conditions initiales, ce choix est d’autant plus important que le critère à maximiser f (θ) est complexe. Dans le cas des modèles dichotomiques, on sait que la fonction f (θ) à maximiser (la vraisemblance ou la log vraisemblance suivant les cas) est globalement concave : dès lors, on est assuré que l’algorithme converge vers la vraie valeur des paramètre, c’est à dire vers la solution14 unique qui maximise f (θ) , et cela quelles que soient les conditions initiales. Mais même dans ce cas particulièrement favorable, la convergence peut être extrêmement longue si les valeurs de départ sont trop éloignées de l’optimum. Pour les modèles logit et probit, les logiciels usuels considèrent des valeurs initiales pour l’algorithme de maximisation de la vraisemblance égales aux réalisations des estimateurs obtenus dans le modèle linéaire : (2.19) yi = xi β LP + εi β 0 = β LP La règle d’arrêt est généralement du type : arrêter le processus itératif si la variation de θ ou du critère f (θ) entre l’itération actuelle et la précédente est inférieure à une valeur seuil (souvent appelée tolérance).
13 Sous 14 Si

Eviews et LimDep, la méthode utilisée est celle de Newton-Raphson. cette dernière existe. On admettra l’existence d’un maximum.

Econométrie des Variables Qualitatives. Cours C. Hurlin

33

Reste à définir la règle de passage d’un vecteur θ au suivant. Une règle de passage consiste à partir des valeurs initiales θ0 , à trouver le prochain vecteur des paramètres θ1 tel que : f (θ1 ) ≥ f (θ0 )
` et ainsi de suite à la ieme étape :

f (θi ) ≥ f (θi−1 ) Ainsi, on obtient une règle du type : θi = θi−1 + λi−1 Di−1

(2.20)

(2.21)

où λi−1 désigne le pas à l’itération i − 1 et Di−1 est la direction. Di−1 indique la direction que doivent prendre les composantes du nouveau vecteur θi et ι−1 indique l’amplitude du saut dans cette orientation. Dans une méthode du gradient, la direction est déterminée par le gradient de la fonction f (θ) . dans le cas K = 1, si le gradient est positif cela signifie que l’on se situe à gauche de l’optimum : donc on se déplace en augmentant θi > θi−1 . En ce qui concerne le pas, on cherche alors λi tel que ∂f (θi + λi Di ) /∂λi ≈ 0. La méthode d’optimisation de Newton Raphson est une méthode du gradient15 qui est notamment recommandée lorsque le critère à maximiser est globalement concave, ce qui est le cas de la fonction de log vraisemblance dans un modèle dichotomique univarié. Dans cette méthode, la direction est déterminée par le gradient de la fonction f (θ) , noté G (θ) , tandis que le pas est déterminé par le hessien, noté H (θ) . En effet, cette méthode considère un développement limité de la condition du premier ordre du programme de maximisation de la fonction f (θ). Soit un point solution θi , satisfaisant la condition du premier ordre. ∂f (θi ) = G (θi ) = 0 ∂θ On peut alors donner l’expression d’un développement limité autour de ce point θi . Ainsi, pour tout point θi+1 , on obtient la relation suivante au voisinage de θi : ∀i G (θi+1 ) = G (θi ) + ou encore : G (θi+1 ) = G (θi ) + H (θi ) (θi+1 − θi ) = 0 On en déduit la relation suivante : ∀i, θi+1 = θi − H (θi )
−1

∂G (θi ) (θi+1 − θi ) = 0 ∂θ

G (θi )

(2.22)

La méthode de d’optimisation de Newton Raphson ainsi fondé sur cette règle de passage, nécessite le calcul à chaque étape du hessien H (θi ) . Proposition 2.6. Appliqué au problème de maximisation de la vraisemblance d’un modèle dichotomique, la règle de passage de l’algorithme d’optimisation de New` ton Raphson, entre le vecteur d’estimation β i−1 de la i − 1eme itération et vecteur eme ` itération est alors définie par la relation : d’estimation β i de la i β i = β i−1 −
15 Pour

∂ 2 log L (y, β) ∂β∂β

−1 β=β i−1

∂ log L (y, β) ∂β

(2.23)
β=β i−1

un exposé des méthodes du gradient en général voir Alban 2000, pages 49 et suivantes.

Econométrie des Variables Qualitatives. Cours C. Hurlin

34

ou encore β i = β i−1 − H β i−1

−1

G β i−1

(2.24)

L’itération est alors arrêté si la variation β i − β i−1 ou la variation du critère log L y, β i − log L y, β i−1 est inférieure à un certain seuil fixé dans le programme. Le dernier estimateur obtenu β i = β correspond alors à l’estimateur optimal du maximum de vraisemblance. Pour être plus précis, il convient de montrer que la suite des β i converge vers l’estimateur du maximum de vraisemblance. On vérifie immédiatement que si la suite β i converge vers une limite β, cette limite est forcement solution des équations de vraisemblance. En effet, si l’on pose β = lim β i , et en
i→∞

considérant la limite des membres de l’égalité (2.24) on a : β =β−H β
−1

G β ⇐⇒ H β

−1

G β =0

La matrice hessienne étant définie positive strictement, on a bien G β = ∂ log L y, β /∂β = 0. Par conséquent, si la suite β i des estimateurs obtenus par l’algorithme de Newton Raphson, convergent vers une quantité β, cette quantité est solution des équations du premier ordre du programme de maximisation de la vraisemblance. Autrement dit, si la suite β i converge, elle converge alors nécessairement vers l’estimateur du maximum de vraisemblance β défini par la condition : ∂ log L y, β =G β =0 (2.25) ∂β Reste maintenant à démontrer que l’estimateur du maximum de vraisemblance β, quel que soit l’algorithme d’optimisation utilisé, converge vers la vraie valeur β des paramètres des modèles logit et probit. Etudions pour cela les propriétés asymptotiques du maximum de vraisemblance.

Econométrie des Variables Qualitatives. Cours C. Hurlin

35

3. Propriétés Asymptotiques des Estimateurs du Maximum de Vraisemblance
Lorsque l’on cherche à établir les propriétés asymptotiques des estimateurs du maximum de vraisemblance dans le cadre de modèles dichotomiques, et plus généralement dans le cadre de modèle à variables qualitatives, toute la difficulté réside dans le fait que l’on dispose pas d’expression analytique pour ces estimateurs. En effet, nous avons vu que les équations de vraisemblance associées au probit et au logit sont non linéaires dans les paramètres. Dès lors, il n’est pas possible alors d’exprimer les estimateurs, solutions de ces équations, comme des fonctions simples des observations. Nous avons vu qu’il était alors nécessaire de recourir à des algorithmes d’optimisation numériques. Mais devant l’impossibilité d’écrire les estimateurs du maximum de vraisemblance comme des fonctions simples des observations, il est alors difficile d’étudier la convergence de ces estimateurs comme nous avions pu le faire dans le cas des modèles linéaires standard. Il convient ainsi d’adopter une démarche particulière où l’on va chercher à étudier la convergence du critère de maximum de vraisemblance, afin de démontrer la convergence des estimateurs du MV, solutions du programme de maximisation de ce critère. Un certain nombre de rappels sur les différentes notions de convergence sont proposés dans l’annexe (A.1). Toutefois, la lecture de ces rappels doit nécessairement s’accompagner d’une étude plus systématique des fondements probabilistes de ces notions16 .

3.1. Convergence du Critères de MV On considère un modèle dichotomique univarié simple : yi = 1 0
∗ si yi ≥ 0 sinon

(3.1) (3.2)

∗ yi = xi β 0 + εi

avec P rob (yi = 1) = F (xi β) où F (.) désigne la fonction de répartition de εi , où xi = x1 ..xK , i i ∀i = 1, .., n désigne un vecteur de caractéristiques observables et où β 0 ∈ RK est un vecteur de paramètres inconnus. On suppose que l’on dispose d’un échantillon de n individus indicés i = 1, .., n. Nous avons vu précédemment que l’estimateur β du maximum de vraisemblance du vecteur de paramètre β 0 dans ce modèle dichotomique est défini par la résolution du système de K équations non linéaires en β. En effet, si l’on pose : β =arg max [log L (y, β)]
{β}

(3.3)

où la fonction log L (y, β) est définie par l’équation (2.3) :
n

log L (y, β) =
i=1
16 Voir

yi log [F (xi β)] + (1 − yi ) log [1 − F (xi β)]

(3.4)

par exemple, ”Méthodes Statistiques”, Philippe Tassi, Economica 1989

Econométrie des Variables Qualitatives. Cours C. Hurlin

36

on vérifie que la condition nécessaire de ce programme s’écrit : ∂ log L y, β ∂β =
i=1 n

yi − F xi β F xi β

f xi β xi = G β = 0 (3.5)

1 − F xi β

où G (β) désigne le gradient associé à la log-vraisemblance ∂ log L (y, β), évalué au point β. On trouve alors un système de K équations non linéaires. Ainsi, nous ne pouvons pas obtenir d’expression analytique de l’estimateur β du maximum de vraisemblance. Dès lors, la question qui se pose est de savoir comment montrer que l’estimateur β est convergent. Autrement dit, il s’agit de savoir comment établir le résultat suivant ? β −→ β 0
n→∞ p

(3.6)

où β 0 désigne la ”varie” valeur des paramètres β. En effet, tout le problème consiste à établir une propriété de convergence de l’estimateur sans disposer d’une expression analytique de celuici. Tout ce que l’on sait pour l’instant, c’est que si la fonction de log-vraisemblance dans les modèles logit et probit admet un maximum, ce maximum est unique, puisque nous avons montré que la fonction log L (y, β) est dans ces deux cas concave.

3.1.1. Convergence d’estimateurs dans les modèles non linéaires Pour résoudre ce problème, nous allons tout d’abord exposer une méthode générale permettant d’établir la convergence d’estimateur dans des modèles non linéaires. Considérons le problème suivant. On cherche à minimiser en θ un critère Cn (y, θ) : min Cn (y, θ)
{θ}

(3.7) (3.8)

sous θ ∈ Θ

Ce critère Cn (y, θ) peut être soit celui somme des carrés des résidus (critère des MCO), soit celui de la somme des carrés pondérés (critère des MCG), etc.. De façon générale, ce critère correspond à la classe des M-estimateurs. Soit θ0 le vrai vecteur de paramètres permettant de minimiser le critère et soit y un vecteur de variables endogènes observables. On considère un M-estimateur quelconque noté θn défini par : θn =arg min [Cn (y, θ)]
{θ}

(3.9)

On cherche alors à établir que cet estimateur est convergent et cela sans spécifier le critère Cn (y, θ). La convergence de θn se traduit par la relation : θn −→ θ0
n→∞ p.s.

(3.10)

Pour établir ce résultat on a besoin de faire trois hypothèses : Hypothèse 1 θ ∈ Θ, Θ ∈ RK compact.

Econométrie des Variables Qualitatives. Cours C. Hurlin

37

Hypothèse 2 Le critère Cn (y, θ) converge presque sûrement et uniformément par rapport à θ vers une fonction C∞ (θ, θ0 ) Cn (y, θ) −→ C∞ (θ, θ0 )
n→∞ p.s.

(3.11)

Hypothèse 3 La fonction C∞ (θ, θ0 ) admet un minimum unique en θ = θ0 : ∀θ ∈ Θ, C∞ (θ0 , θ0 ) ≤ C∞ (θ, θ0 ) L’idée de la démonstration du résultat (3.10) est alors la suivante. On considère la suite des estimateurs θn définie sur un ensemble compact. On sait que toute suite définie sur un ensemble compact admet au moins une valeur limite. Soit θL une des valeurs d’adhérence de la suite θn . Il suffit alors de montrer que cette valeur d’adhérence est unique et correspond à la vraie valeur θ0 des paramètres du modèle. Soit θL une des valeurs d’adhérence particulière de la suite suite
L θn

θn . Il existe alors une sous

qui converge vers θL . θn −→ θL
n→∞ L p.s.

Sachant que le M-estimateur θn minimise le critère Cn (y, θ) , on a par construction Cn y, θn ≤ Cn (y, θ) , ∀θ ∈ Θ. Ce résultat vaut aussi pour la sous suite θn . Par conséquent : ∀θ ∈ Θ Cn y, θn ≤ Cn (y, θ)
L L

Cette inégalité est en particulier valable pour la valeur θ0 ∈ Θ : Cn y, θn ≤ Cn (y, θ0 )
L

(3.12)

Considérons à présent la limite en probabilité des termes de droite et de gauche de cette inégalité. Pour cela, on utilise le résultat de convergence suivant :
p.s.

fn (.) −→ f (.) x −→ x0
n→∞ L n→∞ p.s.

p.s.

=⇒ fn (xn ) −→ f (x0 )
n→∞

Sachant que θn converge vers θL , et que sous l’hypothèse 2 le critère Cn (y, θ) converge vers C∞ (θ, θ0 ), on montre que la limite en probabilité du terme de gauche de l’inégalité (3.12) peut s’écrire sous la forme suivante : Cn y, θn
L n→∞

−→ C∞ θ , θ0

p.s.

L

(3.13)

De la même façon, on montre que le terme de droite de l’inégalité (3.12) converge en probabilité vers la quantité suivante : Cn (y, θ0 ) −→ C∞ (θ0 , θ0 )
n→∞ p.s.

(3.14)

Dès lors on obtient l’inégalité suivante définie sur les limites des critères : C∞ θ , θ0 ≤ C∞ (θ0 , θ0 )
L

(3.15)

Econométrie des Variables Qualitatives. Cours C. Hurlin

38

Sachant que sous l’hypothèse 3, θ0 est la seule valeur qui assure le minimum global de la fonction C∞ (θ, θ0 ), c’est à dire que ∀θ ∈ Θ on a C∞ (θ0 , θ0 ) ≤ C∞ (θ, θ0 ), on en conclut que θL correspond nécessairement à θ0 : (3.16) θL = θ0 En d’autres termes, la sous suite Donc par conséquent, la suite θn θn
L

converge vers la vraie valeur θ0 des paramètres.

converge elle aussi vers la vraie valeur θ0 des paramètres. θn −→ θ0
n→∞ p.s.

(3.17)

On ainsi réussi à démontrer la convergence de notre M-estimateur θn vers la vraie valeur des paramètres θ0 . Appliquons à présent cette méthode dans le cas de l’estimateur du maximum de vraisemblance dans le cadre des modèles dichotomiques univariés. 3.1.2. Application aux modèles Logit et Probit Dans le cas d’un modèle dichotomique simple (logit ou probit), l’estimateur β n (noté aussi β) du maximum de vraisemblance du vecteur de paramètre β est défini par la maximisation d’un critère Cn (y, β 0 ) qui correspond, bien évidemment à la log vraisemblance du modèle (équation 2.3) : β n =arg max Cn (y, β)
{β}

(3.18)

où l’on pose17 Cn (y, β) = 1 1 log L (y, β) = n n
n

i=1

yi log [F (xi β)] + (1 − yi ) log [1 − F (xi β)]

(3.19)

où F (.) désigne une fonction de répartition. On note β 0 la vraie valeur des paramètres. On suppose que l’hypothèse 1 est vérifiée, c’est à dire que β ∈ Θ, Θ ∈ RK compact. Reste à établir que les hypothèses 2 et 3 sont valides. Montrons que tout d’abord que le critère CN (y, θ) converge presque sûrement et uniformément par rapport à θ vers une fonction C∞ (θ, θ0 ) , c’est à dire que : Cn (y, θ) −→ C∞ (θ, θ0 )
n→∞ p.s.

Dans notre cas, on sait que Cn (y, β) = = 1 n 1 n
n

i=1 n

yi log F (xi β) + (1 − yi ) log [1 − F (xi β)] yi log F (xi β) + 1 n
n

i=1

i=1

(1 − yi ) log [1 − F (xi β)]

(3.20)

Etudions la convergence des différents éléments de cette somme. On suppose que les variables xi sont aléatoires. Sous certaines hypothèse de régularités, on sait que : 1 n
17 Afin

n

i=1

yi log F (xi β) −→ E {yi log F (xi β)}
n→∞

p

de simplifier les calculs, on pose que Cn (y, β) = (1/N) log L (y, β) . On aurait pu assimiler le critère directement à la log vraisemblance. Quoiqu’il en soit ces deux définitions du critère laissent inchangée la définition de l’estimateur du maximum de vraisemblance β.

Econométrie des Variables Qualitatives. Cours C. Hurlin
n

39

1 n

i=1

(1 − yi ) log [1 − F (xi β)] −→ E {(1 − yi ) log [1 − F (xi β)]}
n→∞

p

Or si l’on note Ex l’espérance conditionnelle à xi , on a : E [yi log F (xi β)] = Ex {E [yi log F (xi β)] / xi } = Ex [E (yi /xi ) . log F (xi β)] en appliquant la loi de Bayes, on sait que : h (y, θ) = f (y/θ) g (θ) = g (θ/y) f (y) (3.21)

où h (.) désigne la densité jointe de y et de θ, et où f (.) et g (.) désignent suivant les cas les densités marginales et conditionnelles des v.a.r. y et θ. On en déduit le théorème de Bayes : g (θ/y) = f (y/θ) g (θ) f (y) (3.22)

******************************* **** Finir Demonstration ********* ******************************* Donc finalement, on a : 1 p.s. log L (y, β) −→ n→∞ n
n

i=1

F (−xi β 0 ) log [F (xi β 0 )] + [1 − F (−xi β 0 )] log [1 − F (xi β 0 )] = L∞ (y, β)

3.2. Lois et variance asymptotiques de l’estimateur de MV Nous avons vu précédemment que la fonction de vraisemblance des échantillons associés aux modèles logit et probit était concave. Par conséquent, si la solution des équations de vraisembalance existe, cette solution est unique et correspond bien au maximum de la focntion de log vraisemblance. Nous avons vu en outre, dans la section précédente, que sous certaines conditions, l’estimateur du maximum de vraisemblance ainsi obtenu est convergent. Dès lors, nous allons à présent nous intéresser à la loi asymptotique de ce estimateur ainsi qu’à sa variance asymptotique. Pour garantir à la fois la convergence et la normalité asymptotique des estimateurs du maximum de vraisemblance dans les modèles logit et probit, un certain nombre de conditions doivent être validées (cf. Amemiya 1985, Greene 1997). Deux approches sont retenues suivant que l’on suppose que les variables explicatives sont des variables aléatoires continues ou des variables déterministes. Dans le cas de variables explicatives aléatoires continues, les conditions se ramènent à imposer l’indépendance des xi , la même distribution pour tous les xi i = 1, ..N , en admettant l’existence de moments d’ordre suffisant (Amameyia 1976). Dans le cas de variables explicatives déterministes, les conditions imposent alors aux valeurs xi d’être bornées : ∃m > 0 et ∃M < ∞, tels que m < xk < M, ∀k ∈ R, ∀i = 1, .., N, et cela de sorte à asi surer que la matrice de variance covariance asymptotique existe (Gourieroux et Monfort 1981). Nous supposerons ici que nous avons des variables explicatives aléatoires et que les conditions correspondantes sont satisfaites.

Econométrie des Variables Qualitatives. Cours C. Hurlin

40

Proposition 3.1. Sous certaines conditions, l’estimateur du maximum de vraisemblance β est convergent et suit asymptotiquement une loi normale de moyenne égale à la vraie valeur β 0 des paramètres et de matrice de variance covariance égale à l’inverse de la matrice d’information de Fischer I (β 0 ) évaluée au point β 0 : √ N β − β0 avec I (β 0 ) = −E ∂ 2 log L (y, β) ∂β∂β =
β=β 0 i=1 N→∞

−→ N 0, I (β 0 )−1
N

L

(3.23)

f 2 (xi β 0 ) x xi F (xi β 0 ) [1 − F (xi β 0 )] i

(3.24)

Nous avons vu précédemment que la matrice d’information de Fischer peut se simplifier notamment dans le cas du modèle logit. En effet, dans le cas où F (.) = Λ (.) , on a :
N N

I (β) =
i=1

λ (xi β) xi xi =
i=1

exp (xi β)

[1 + exp (xi β)]

2 xi xi

Dans le cas du modèle probit, il n’y a pas de simplification particulière.
N

I (β) =
i=1

φ2 (xi β) x xi Φ (xi β) [1 − Φ (xi β)] i

L’idée de la démonstration18 de cette propososition est la suivante. Si l’on note G (β) = ∂ log L (.) /∂β le vecteur de gradient et H (β) = ∂ 2 log L (.) /∂β∂β la matrice hessienne, on sait que l’estimateur du maximum de vraisemblance satisfait la condition du premier ordre G β = 0. Considérons un developpement limité à l’ordre 1 autour de cette condition autour de la vraie valeur des paramètres β 0 . En ometant les termes de degré supérieurs à 2, il vient : G β = G (β 0 ) + H (β 0 ) β − β 0 = 0 En prémultipliant cette égalité par H (β 0 )−1 , on obtient β − β 0 = −H (β 0 )−1 G (β 0 ) , ce qui peut se réecrire sous la forme : √ N β − β0 = − 1 H (β 0 ) N
−1

√ N g (β 0 )

où le vecteur g (β 0 ) de dimension (K, 1) est défini par : 1  ..  N 
N i=1 N i=1 N i=1

∂ log L (yi , β) /∂β 1

g (β 0 )=
(K,1)

  ∂ log L (yi , β) /∂β K−1  ∂ log L (yi , β) /∂β K



(3.25)

En supposant que chaque composante (1/N ) N ∂ log L (yi , β) /∂β 1 est i.i.d, on alors applii=1 quer le théorème central limite à g (β 0 ) . Parallèlement, si l’on applique une loi des grands √ nombres à H (β 0 ) /N, on montre finalement que la quantité N β − β 0 a une distribution normale de moyenne 0 et de matrice de variance covariance −E [H (β 0 )] .
18 Pour

une dsitribution rigorueuse voir le cours de A. Holly (1999).

Econométrie des Variables Qualitatives. Cours C. Hurlin

41

Une remarque doit être faite ici concernant la matrice de variance covariance asympotique de β, notée Vas β = I (β 0 )−1 . Naturellement, cette matrice de variance covariance dépend de la vraie valeur du paramètre β 0 qui est par définition inconnue. Dès lors, on retient généralement comme estimateur de la matrice de variance covariance asympotique la matrices I β laquelle la vraie valeur des paramètres β 0 a été remplacée par son estimateur β. Vas β = I β
−1 −1

dans

= −E

∂ 2 log L (y, β) ∂β∂β

−1

(3.26)
β=β

Econométrie des Variables Qualitatives. Cours C. Hurlin

42

4. Méthodes d’Estimation non Paramétriques
Un des problèmes qui peut se poser lors de la phase d’estimation des paramètres des modèles dichotomiques19 par maximum de vraisemblance provient de l’hypothèse que l’on fait sur la distribution des résidus du modèle. Considérons le modèle dichotomique suivant : yi = 1 0
∗ si yi = xi β 0 + εi ≥ 0 sinon

où εi est une perturbation i.i.d. 0, σ 2 . Lorsque l’on cherche à estimer les paramètres β 0 ε par maximum de vraisemblance, on postule une certaine distribution pour les termes εi . On considère par exemple une distribution logistique dans le cas d’un modèle logit et une distribution normale dans le cas d’un probit. Or, rien ne garantit a priori que cette distribution que l’on utilise pour construire la vraisemblance de l’échantillon corresponde réellement à la ”vraie” distribution des perturbations εi. Naturellement, une erreur sur la distribution des termes εi conduit alors nécessairement à une estimation du maximum de vraisemblance non efficace des paramètres β 0 . Une des solutions pour se prémunir contre ce risque de mauvaise spécification de la loi des perturbations du modèle, consiste tout à s’afranchir de toute de hypothèse sur la distribution paramétrique des résidus dans la phase d’estimation des paramètres β 0 . On parle alors de méthodes d’estimation non paramètriques. Nous ne présenterons ici que les méthodes du score maximum et une méthode semi-paramétrique (Alban 2000).

4.1. La méthode du score maximum Commençons par définir l’estimateur du score maximum. Définition L’estimateur du score maximum est obtenu par la maximisation, par rapport au vecteur β ∈ RK , d’un critère constitué du nombre de fois où xi β > 0 lorsque yi = 1 et du nombre de fois où xi β < 0 lorsque yi = 0 : β s =arg max
{β}

1 N

N

Iyi =1 Ixi β>0 + Iyi =0 Ixi β<0
i=1

(4.1)

où Ix désigne la fonction indicatrice. L’idée générale de cette méthode est la suivante. On sait que la probabilité associée à l’événment yi = 1 est définie par pi = P rob (εi < xi β) = F (xi β) . En d’autres termes, on a yi = 1 quand l’inégalité εi < xi β est vérifiée. Si l’on considère à présent des valeurs de εi suffisament faibles relativement à xi β, cette relation peut être approximée de la façon suivante xiβ > 0. Ainsi, on doit observer yi = 1 quand xi β est positif, si tant ait que l’on xi β − εi dispose de la vraie valeur β 0 du vecteur β. Parralèment, on doit observer yi = 0 quand xi β est négatif. En termes de probabilités on obtient les approximations suivantes : P rob (yi = 1)
19 Problème

P rob (xi β > 0)

qui n’est pas spécifique aux modèles à variable explicative dichotomique.

Econométrie des Variables Qualitatives. Cours C. Hurlin

43

P rob (yi = 0)

P rob (xi β ≤ 0)

Le critère du score maximum consiste alors à maximiser en β la fréquence empirique (le score) des évements (yi = 1) et (xi β > 0) . Une autre interprétation de la méthode du score est qu’elle compare le signe de la prédiction, c’est à dire le signe de xi β, avec celui de la variable transformée δ i = 2yi − 1 qui prend la valeur -1 quand yi = 0 et la valeur 1 quand yi = 1. On compare donc une valeur observée δ i qui est positive quand l’événement yi = 1 se réalise avec la quantité xi β, qui pour la vraie valeur β 0 du vecteur β, doit elle aussi être positive quand l’événement yi = 1 se réalise. Ainsi, le critère du score maximum peut s’écrire sous la forme : β s =arg max
{β}

1 N

N

δ i sgn (xi β)
i=1

(4.2)

Le principal avantage de cette méthode du score maximum est qu’elle ne nécessite aucune hypothèse sur la distribution des résidus εi . Mais cet avantage constitue en outre sa principale limite. En effet, puisque l’on ne construit aucune vraisemblance pour obtenir l’estimateur β s et puisque le critère à maximiser n’est pas continument différentiable, le calcul des principales statistiques de tests sur cet estimateur ne peut pas se faire avec les techniques usuelles. Par exemple, les écarts types associés au vecteur β s ne peuvent pas être calculés à partir des formules usuelles, fondées par exemple sur la dérivée seconde d’une fonction critère continue (fonction de log-vraisemblance dans le cas de l’estimateur du MV). Une possibilité consiste à calculer les estimateurs des variances des estimateurs β s par des méthodes de bootstrap (Greene 1997). Ainsi, l’information fournie par la méthode du score minimum est limitée, et de plus l’estimateur β s est généralement inefficace par rapport à l’estimateur du maximum de vraisemblance. De plus, son exploitation est elle aussi très limitée : il n’est par exemple pas possible de calculer les effets marginaux associées aux variables explicatives sans postuler une hypothèse sur la distribution F (.) . De plus, le fait de ne pas imposer de dsitribution a priori n’assure aucunement que l’estimation sera plus précise ou que les prévisions seront plus satisfaisantes. C’est pour ces raisons que se sont développées des méthodes intermédiaires : les méthodes d’estimation semi-paramétrique.

où la fonction sgn(z) est définie de la façon suivante :  si z > 0  1 0 si z = 0 sgn (z) =  −1 si z < 0

4.2. Estimation semi-paramétrique L’idée des méthodes semi-paramétrique dans ce contexte (Klein et Spady 1993) consiste tout simplement à séparer le modèle en deux : une partie paramétrique correspondant au scalaire xi β et une partie non paramétrique correspondant à la fonction de répartition F (.) . Dans un modèle dichotomique simple, nous avons vu que l’on l’égalité pi = E (yi ) dès lors que le modèle s’écrit sous la forme pi = P rob (yi = 1) . De façon plus précise, on obtient donc

Econométrie des Variables Qualitatives. Cours C. Hurlin

44

l’égalité suivante : pi = E ( yi | xi ) = F (xi β) (4.3) Ainsi, décrire l’espérance conditionnelle de yi sachant xi revient en fait à décrire la fonction de répartition F (.), que l’on cherche à maximiser en β. On définit r (xi ) , appelée fonction de lien, cette espérance conditionnelle : r (xi ) = E ( yi | xi ) =
∞ −∞

yi

f (xi , xi ) dyi f (xi )

(4.4)

La démarche est alors la suivante : on cherche dans un premier temps à estimer la fonction de lien r (z) , qui n’est autre que la fonction de répartition F (z) . Une fois que l’on dispose d’un estimateur de F (z), noté F (z), en tout point z, il suffit d’écrire la log-vraisemblance de l’échantillon en fonction de la loi estimée F (xi β) , et de maximiser cette quantité par rapport à β pour obtenir un estimateur β sp . Comment estimer cette fonction de lien, qui correspond en fait la fonction de répartition F (z) ? On utilise ici une méthode non paramétrique fondateur sur un estimateur à noyau. Sans le démontrer, on admettra le résultat suivant : Proposition 4.1. La probabilité associée à l’observation yi en tout point x0 peut i être estimée par la moyenne pondérée :
N

r

x0 i

=

i=1 N

wi x0 yi i (4.5) wi (x0 ) i

i=1

où la pondération wi x0 est définie par la relation : i wi x0 = K i xi − x0 i h (4.6)

où K (.) désigne un opérateur noyau et h une fenêtre. Ainsi, cette proposition nous permet de reconstruire toute la fonction de répartition F (xi ) en appliquant la formule (4.5) pour chaque observations xi , i = 1, .., N. On dispose alors d’une suite de N réalisations d’un estimateur F (xi β) pour une valeur donnée du vecteur β. L’opérateur noyau K (.) , ou kernel, fournit une mesure de la distance entre le point considéré xi0 et n’importe quel autre point xi de l’échantillon. Plus la distance est importante, plus l’on attribue une faible valeur à la pondération, donc plus la valeur du kernel est faible. C’est une fonction continue, symétrique autour de zéro, intégrant à 1, et nulle pour de grandes valeurs de son argument. Les fonctions kernel les plus souvent utilisées sont les suivants : Sur la figure (4.1) ont été reportées les valeurs de ces différentes fonctions, ce qui permet de visualer la décroissance du poids accordé aux observations éloignées du point central x0 . i Le paramètre h de la pondération (4.6) est appelé fenêtre (ou bandwidth parameter ) sert à calibrer la distance entre xi et xi0 , en pénalisant plus ou moins les poids éloignés de xi0 . Plus h est petit, plus l’opérateur wi (xi0 ) privilégie les points proches de xi0 . Un exemple de valeur de la fenêtre correspond à h = 0.15 (xv − xu ) où xv − xu désigne l’écart maximal entre les observations (upper moins lower ). Naturellement, il convient d’évaluer l’impact de ce choix sur l’estimateur de β en faisant varier h.

Econométrie des Variables Qualitatives. Cours C. Hurlin

45

Tableau 4.1: Définition des Principales Fonctions Kernel Noyau Gaussien Epanechnikov Triangulaire Uniforme Définition K (x) = √1 exp −x2 /2 2π K (x) = 3 1 − x2 .I|x|≤1 4 K (x) = (1 − |x|) .I|x|≤1 K (x) = 1 .I|x|≤1 2

Figure 4.1: Fonctions Kernel K (x) Usuelles
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -1 Epanechnikov Triangulaire Uniforme Gaussienne

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1

Remarque Dans le cas des estimateurs semi-paramétriques, le choix de la fenêtre h permet d’arbitrer entre le biais de l’estimateur non paramétrique et sa variance. Une fenêtre petite fournira un biais plus faible mais un estimateur moins efficace (de plus grande variance), alors qu’une fenêtre plus large s’approchera de l’estimation par les moindres carrés linéaires dans lesquels tous les points sont pris en compte avec la même pondération.

En résumé, l’approche semi-paramétrique consiste à construire un estimateur à noyau de la vraisemblance évalué pour une valeur quelconque de β, et à maximiser cette fonction pour obtenir l’estimateur semi-paramétrique noté β s . La construction de l’estimateur à noyau de fonction de log-vraisemblance se réalise de la façon suivante. Pour une valeur quelconque β ∈ RK , les étapes de la construction sont les suivantes : 1. Première étape : On estime pour le premier individu (i = 1), la fonction de lien au

Econométrie des Variables Qualitatives. Cours C. Hurlin
0 voisinage du point z1 = x1 β pour la valeur retenue de β. N 0 r z1 = 0 wi z1 yi 0 avec wi z1 = K 0 wi (z1 )

46

i=1 N

0 zi − z1 h

i=1

Dans le cas d’une fonction kernel gaussienne, on a par exemple ∀i = 1, .., N : K
0 zi − z1 h

= =

1 1 √ exp − 2 2π 1 1 √ exp − 2 2π

0 zi − z1 h

2

xi β − x1 β h

2

0 0 On obtient ainsi une estimation de la fonction de répartition F z1 = r z1 au point 0 z1 = x1 β. On répète alors l’opération pour les N individus, j = 1, .., N, et ce faisant on obtient N réalisations d’un estimateur à noyau F (xj β) de la fonction de répartition F (.) 0 évaluée aux N points zj = xj β conditionnellement à la valeur β. N 0 wi zj yi 0 avec wi zj = K 0 wi zj

∀j = 1, .., N

r

0 zj

=

i=1 N

0 zi − zj h

i=1

2. Deuxième étape : A partir des N réalisations de l’estimateur à noyau F (xj β) on construit un estimateur de la fonction de log vraisemblance du modèle associée à l’échantillon y = (y1 , y2 , ..., yN ) :
N

log L (y, β) =
i=j

yj log F xj β 0

+ (1 − yj ) log 1 − F xj β 0

(4.7)

On peut ainsi finallement obtenir une valeur estimée de la log-vraisemblance log L (y, β) pour toute valeur du vecteur β ∈ RK . Il ne reste plus alors qu’à maximiser la fonction log L (y, β) en β. Pour cela on utilisera une procédure numérique d’optimisation (par exemple une méthode du gradient Newton Raphson) qui à partir d’une condition initiale sur β permettra d’obtenir l’estimateur semi-paramétrique βs : β s =arg max log L (y, β) (4.8)
{β}

Généralement, la condition initiale choisie dans les algorithmes d’optimisation, notée β 0 , correspond à un estimateur simple comme par exemple l’estimateur du score maximum ou un estimateur des M CO : β 0 = β s =arg max
{β}

1 N

N

Iyi =1 Ixi β>0 + Iyi =0 Ixi β<0
i=1

Econométrie des Variables Qualitatives. Cours C. Hurlin

47

4.3. Comparaison des estimateurs paramétriques, non paramétriques et semi paramétriques ************************************************** **** INSERER Programme Matlab et Résultats ********* **************************************************

Econométrie des Variables Qualitatives. Cours C. Hurlin

48

5. Tests de Spécification et Inférence
Comment tester le modèle dichotomique ? Comment tester les paramètres de ce modèle ? Autant de questions auxquelles nous allons à présent tacher de répondre. Nous commencerons par évoquer les tests d’hypothèse sur les coefficients, puis dans une seconde sous section nous envisagerons les principaux tests de spécification sur les modèles dichotomiques.

5.1. Tests d’hypothèse sur les paramètres Les différentes méthodes d’estimation présentées précédemment conduisent à des estimateurs asymptotiquement normaux lorsque le nombre d’observations tend vers l’infini. Il est donc facile d’utiliser ces divers estimateurs pour construire des procédures de tests dont certaines seront asymptotiquement équivalentes. Nous présentarons ici les principales procédures de test à partir de la méthode d’estimation du maximum de vraismeblance qui est la plus souvent utilisée. On retouve alors la trilogie : 1. Test de Wald 2. Test du score ou multiplicateur de Lagrange : LM (Lagrange Mulitplier) 3. Test du rapport des maxima de vraisemblance : LRT (Likelihood Ratio Test) On rappelle que ces trois tests sont asymptotiquement équivalents, ce qui implique qu’ils peuvent notamment se contredire sur poetits échantillons. De plus, leur distribution n’étant valide qu’asympotitquement, il convient d’être prudent dans leur utilisation sur de petits échantillons. On sait en outre que le test LRT est localement le plus puissant et que donc il devrait être a priori préféré. Nous n’envisagerons ici que le cas d’un test bidirectionnel20 sur un coefficient ou sur un ensemble de coefficients.

5.1.1. Test de Wald
` On considère le test H0 : β j = a contre H1 : β j = a où β j désigne la j eme composante du K vecteur de paramètres β = (β 1 , .., β K ) ∈ R d’un modèle dichotomique. L’idée du test de Wald est d’accepter l’hypothèse nulle si l’estimateur non contraint β j de β j est proche de a. La stratistique de test est une mesure bien choisie de la proximité de β j − a à zéro.

On sait que dans la formulation générale d’un test de contraintes de type H0 : g (β) = r, où r est un vecteur de dimension (c, 1) , on a le résultat suivant : g β −r GV β G g β −r −→ χ (c)
L

N→∞

20 Le passage à un test unidirectionnel tel que H : β = a contre H : β > a peut se faire simplment en 0 1 considérant les statistiques des test bidirectionnels et en adaptant la valeur critique.Pour un test de Wald sur un seul coefficient, l’intervalle d’acceptation à 5% est [−1.96, 1.96] pour un test H1 : β = a alors qu’il devient ]−∞, 1.96] pour le test H1 : β > a .

Econométrie des Variables Qualitatives. Cours C. Hurlin

49

où β désigne l’estimateur du maximum de vraisemblance non contraint, avec G = ∂g (.) /∂β , et V β l’estimateur de la matriuce de variance covariance des coefficients. Dans le cas qui nous intéresse, on a g (β) = β j et r = a. Le vecteur G, de dimension (K, 1) , comporte K − 1 ` zéros et 1 à la j eme position. Ainbis, on obtient le résultat suivant : Definition 5.1. La statistique du test de Wald associée au test unidirectionnel H0 : β j = a contre H1 : β j = a admet la loi suivante sous H0 :
2 −1

β j − a (vjj )

βj − a =

βj − a vjj

N →∞

−→ χ2 (1)
eme `

L

(5.1) coefficient β j .

où vjj désigne l’estimateur de la variance de l’estimateur du j j
2

Ainsi, si l’on note χ2 (1) le quantile à 95% de la loi χ2 (1) , le test de Wald au seuil de 5% 95% H0 si cette quantité est supérieure à χ2 (1) . 95% de l’hypothèse H0 consiste à accepter H0 si β j − a /vjj est inférieur à χ2 (1) , et à refuser 95%

La plupart des logiciels (sauf SAS) ne propose pas cette statistique de Wald, mais une statistique zj définie comme la racine carré de la précédente. Compte tenu du lien entre la loi normale centrée réduite et la loi du Chi2 à un degré de liberté, on a immédiatement sous H0 : zj = βj − a vjj −→ N (0, 1)
L

N →∞

(5.2)

et en particulier pour un test de nullité H0 : β j = 0, on retrouve : zj = βj −→ N (0, 1)
L

vjj N →∞

(5.3)

5.1.2. Tests du rapport des maxima de vraisemblance Dans le cas des modèles dichotomiques, on peut appliquer sans difficulté particulière la logique du test du rapport des maxima de vraisemblance. Ainsi, on estime le modèle non contraint c et d’autre part le modèle contraint : soient β j et β j les deux estimations ainsi obtenues. La statistique LRT correspond alors tout simplemnt à l’écart des log-vraisemblance: Definition 5.2. La statistique LRTj du test du rapport des maxima de vraisemblance associée au test unidirectionnel H0 : β j = a contre H1 : β j = a admet la loi suivante sous H0 : c L −→ χ2 (1) (5.4) LRTj = −2 log L y, β j − log L y, β j
N→∞

où β j et βj .

c β j désignent

respectivement les estimateurs non contraint et contraint de

Naturellement si l’on note χ2 (1) le quantile à 95% de la loi χ2 (1) , le test du rapport 95% des maxima de vraisemblance au seuil de 5% de l’hypothèse H0 consiste à accepter H0 si LRTj < χ2 (1) , et à refuser H0 si LRTj > χ2 (1) . Cette porcédure est asymptotique95% 95% ment équivalente à celle d’un test de Wald.

Econométrie des Variables Qualitatives. Cours C. Hurlin

50

Dans le cas d’un test portant sur plus d’un paramètre, on utilise la statistique suivante LRT = −2 log L y, β − log L y, β
c N→∞

−→ χ2 (r)
c

L

(5.5)

où r désigne le nombre de restrictions imposées sur les paramètres, et où β et β désigne les estimateurs respectivement non contraint et contraint du vecteur complet β. 5.1.3. Test du score ou du multiplicateur de Lagrange Le principe de ce test est le suivant. On sait que si l’hypothèse nulle est satisfaite, les deux c estimateurs non contraint β j et contraint β j doivent relativement proches l’un de l’autre, et que donc la même propriété doit être vérifiée pour le vecteur des des conditions du premier ordre de la maximisation de la log varisemblance. Definition 5.3. La statistique LMj du test du multiplicateur de Lagrange associée au test unidirectionnel H0 : β j = a contre H1 : β j = a admet la loi suivante sous H0 : LMj =
c

∂ log L (y, β) ∂β

β=β

c

I −1

∂ log L (y, β) ∂β

β=β

c

N →∞

−→ χ2 (1)

L

(5.6)

où β j et β j désignent respectivement les estimateurs non contraint et contraint de βj . L’estimateur I de la matrice d’iinformation de Fischer peut être obtenu par :
N

I=
i=1

∂ log L (yi , β) ∂β

β=β

c

∂ log L (yi , β) ∂β

β=β

c

et où ∂ log L (y, β) ∂β
β=β
c

N

=
i=1

∂ log L (yi , β) ∂β

β=β

c

5.2. Tests de spécification des modèles dichotomiques Reste à présent à étudier les tests de spécifications qui permettent d’évaluer la qualité de l’ajustement par les modèles dichotomiques. Plusieurs solutions peuvent être adoptées à ce niveau pour comparer les différents modèles : comparaison tant au niveau du choix de la fonction F (.) qu’au niveau du choix des variables explicatuves xk . Par la suite, on notera i F (xi β) la quantité F xi β . Les différents critères présentés ici sont comme des fonctions de perte et il ne faut pas croire trouver un critère optimal pour chaque situation. Nombre de prédictions fausses : le critère s’écrit sous la forme
N

Nombre de fausses prédictions
i=1

(yi − yi )

2

(5.7)

où yi = 1 si F (xi β) ≥ 1/2 et yi = 0 si F (xi β) < 1/2. Cette quantité donne le nombre de fausses prédictions puisque (yi − yi )2 si seullement yi = yi : c’est à dire dans le cas où yi = 1

Econométrie des Variables Qualitatives. Cours C. Hurlin

51

alors que yi = 0, ou dans le cas où yi = 0 alors que yi = 1. Ce critère est souvent utilisé en analyse discriminante. Le problème avec ce critère est que l’on considère de la même façon un individu ayant une probabilité pi = F (xi β) = 0.49 et un individu ayant une probabilité pi = F (xi β) = 0 : on pénalise ces deux individus de la même façon dans le cas d’un échec du modèle (c’est à dire lorsque our les deux individus on a yi = 1) et on les valorise de la même façon en cas de réussite. En, particulier, lorsque l’on considère des événements avec une forte probabilité (par exemple de sortir du chômage) ou au contraire une très faible probabilité (par exemple de tomber malade), la plupart des modèles obtiendront de bons résultats selon ce critère. Somme des Carrés des Résidus (SCR) : ce critère traditionnel s’écrit sous la forme
N 2

Somme des carrés des résidus
i=1

yi − F (xi β)

(5.8)

Rappelons que dans les modèles dichotomiques, on modélise la probabilité pi = E (yi ) = F (xi β) . Ce critère ne souffre pas de la critique précédente concernant le critère du nombre de fausses prédictions. C’est un crtère naturel puisquu’il correspond à la somme des carrés des résidus dans un modèle de régression linéaire standard à partir de laquell le R2 est construit. Toutefois, l’utilisation de ce critère ne peut pas être défendue de la même façon dans le modèle linéaire simple et dans les modèles dichotomiques. En effet, nous avons vu que les modèles dichotomiques étaient des modèles hétéroscédastiques. C’est pourquoi Efron (1978) propose une mesure analogue au R2 : R2 de Efron (1978) = 1 −
N N i=1 2 N i=1

yi − F (xi β) (yi − y)
2

(5.9)

où y = N −1 i=1 yi . Cette mesure alternative peut être défendue par une approche axiomatique (cf. Efron 1978)L. SCR pondérée par les probabilités estimées : ce critère s’écrit sous la forme
2 N

SCR pondérée
i=1

yi − F (xi β) F (xi β) 1 − F (xi β)

(5.10)

La principale raison de préférer ce critère à la somme non pondérée est la suivante. Il paraît raisonnable d’attacher une plus grande perte aux erreurs faites en prévoyant des variables de faible variance, étant donné qu’il est plus facile de pérvoir des variables de faible variance que des variables de plus forte variance. Dès lors, il paraît raisonnable de pondérer la somme des carrés des résidus par un poids qui est inversement proprtionnel à la variance. Coefficient de Corrélation des Carrés : ce critère s’écrit sous la forme Coefficient de corrélation des carrés
N i=1 N i=1 2

(yi − y) F (xi β)
N i=1 2

(5.11)

(yi − y)

2

F (xi β) − F

Cette mesure est liée à la SCR non pondérée. Dans un modèle de régression standard, cette mesure serait identique au R2 de Effron. Bien que cette égalité ne soit pas vraie dans

Econométrie des Variables Qualitatives. Cours C. Hurlin

52

les modèles dichotomiques, les mêmes critiques s’appliquent au coefficient de corrélation des carrésqu’à la SCR. Log - Vraisemblance : ce critère s’écrit sous la forme
N

Log-Vraisemblance log L y, β =
i=1

yi log F xi β

+ (1 − yi ) log 1 − F xi β

(5.12)

Ce critère est particulièrement bien adapté pour comparre des modèles qui ne possèdent pas les mêmes dimensions. En effet, on sait que si l’on désire tester r contraintes linéaires sur les c paramètres la −2 log L y, β j − log L y, β j suit asympotiquement un χ2 (r) . Une normlisation de la quantité log L y, β a été proposée par McFadden pour se ramener à une quantité similaire à un R2 : R2 de McFadden (1974) = 1 − log L y, β log L (y, 0) (5.13)

où log L (y, 0) désigne le maximum de la fonction de log vraisemblance obtenu lorsque tous les coefficients de la regrssion β sont nuls à l’exception du terme constant.

Econométrie des Variables Qualitatives. Cours C. Hurlin

53

6. Application
Proposer une application avec : 1. Problème économique et spécification en variable latente 2. Estimation Logit Probit 3. Comparaison avec estimation non paramétrique (score maximum et semi paramétrique) 4. Calcul des cotes et des probabilités individuelles 5. Calcul des effets marginaux : calcul des elasticités moyennes selon les deux formules et des elasticités individuelles 6. Vérification des calculs de l’estimateur de la matrice de variance covariance asymptotique 7. Calcul des principaux critères d’évaluation (R2 de McFadden etc..) 8. Tests d’hypothèse sur les paramètres : Wald, LRT et LM **************** *** A FINIR **** ****************

Econométrie des Variables Qualitatives. Cours C. Hurlin

54

A. Annexes
A.1. Rappels sur les notions de convergence Les rappels proposés dans le cadre de cette section portent sur les différentes notions de convergence. Toutefois, la lecture de ces rappels doit nécessairement s’accompagner d’une étude plus systématique des fondements probabilistes de ces notions21 . Considérons une séquence de T v.a.r. {X1 , X2 , ..., Xi , ..., XT }, indicées par i. Supposons que l’on souhaite étudier le comportement de la moyenne empirique de ces v.a.r. lorsque T augmente. On cherche ainsi à déterminer le comportement asymptotique de la v.a.r. transformée, X T , telle que : T 1 XT = Xi (A.1) T i=1 Pour cela, il convient d’utiliser la notion de convergences. A.1.1. Convergence en probabilité La notion de convergence en probabilité est définie de la façon suivante : Definition A.1. (Convergence en Probabilité) Soit {XT }∞ une séquence de variables T =1 aléatoires scalaires. Cette séquence converge en probabilité vers c, ∀c ∈ C, si pour toute valeurs arbitraires ε > 0 et δ > 0, il existe une valeur N, telle que ∀T ≥ N : P [|XT − c| > δ] < ε Alors, on note : XT −→ c ⇐⇒ plim XT = c
p

(A.2)

(A.3)

Exprimée autrement, cette définition signifie que pour un échantillon de taille infinie, la probabilité que la réalisation de la variable XT diffère de la valeur c de plus ou moins δ (δ étant aussi petit que l’on veut) est inférieure à toute valeur ε aussi petite soit-elle. En d’autres termes, les réalisations de la variable XT sont concentrées au voisinage de la valeur c. Propriété Une suite de matrices de v.a.r. {XT }∞ , de dimension (m, n) ,converge en probT =1 abilité vers une matrice C, de dimension (m, n), si chaque élément de Xt converge en probabilité vers l’élément correspondant de C. De façon plus générale, si l’on considère ∞ ∞ deux séquences de v.a.r. {XT }T =1 et {YT }T =1 , de dimension (m, n) , alors : XT −→ YT
p p

(A.4)

si et seulement si, la différence entre les deux suites converge en probabilité vers zero : XT − YT −→ 0 (A.5)

Enfin, il convient de rappeler deux propriétés qui nous serons utiles dans la caractérisation des distributions asymptotiques des estimateurs usuels.
21 Voir

par exemple, ”Méthodes Statistiques”, Philippe Tassi, Economica 1989

Econométrie des Variables Qualitatives. Cours C. Hurlin

55

Theorem A.2. (Théorème de Slutsky) Soit {XT }∞ une suite de (n, 1) vecteurs admetT =1 tant une limite en probabilité définie par c, et soit g (.) une fonction continue en c, satisfaisant g : Rn −→ Rn , et ne dépendant pas de T, alors : g (XT ) −→ g (c)
T →∞ p

(A.6)

L’idée est la suivante. Si la fonction g (.) est continue, la quantité g (XT ) se situera au voisinage de g (c) , dès lors que XT se situe au voisinage de c. En choisissant une valeur de T suffisamment grande, la probabilité que la réalisation de XT se situe au voisinage de c peut être définie aussi proche de l’unité que l’on le désire. Un exemple simple est le suivant. Considérons deux séquences de v.a.r. telles que plim X1,T = c1 et plim X2,T = c2 , alors plim (X1,T + X2,T ) = c1 + c2 . La démonstration de ce résultat est immédiate dès lors que l’on montre que la fonction g (X1,T , X1,T ) = X1,T + X2,T est une fonction continue en (c1 , c2 ) . Propriété 1 Une condition suffisante pour qu’une suite de v.a.r. {XT }T =1 converge en probabilité vers une constante réelle c est :
T →∞ T →∞ ∞

lim E (XT ) = c

(A.7) (A.8)

lim V (XT ) = 0

L’intuition de cette propriété est simple. Si pour un ordre T suffisamment grand, la variable XT admet c pour espérance et a une variance qui tend vers 0, alors la fonction de distribution de XT sera infiniment concentrée autour de la valeur c. A.1.2. Convergence en moyenne quadratique Une forme de convergence plus restrictive que la convergence en probabilité est la convergence en moyenne quadratique (m.s. pour mean square convergence). Definition A.3. Une suite de suite de v.a.r. {XT }∞ converge en moyenne quadraT =1 tique vers c, si pour tout ε > 0, il existe une valeur N , telle ∀ T ≥ N : E (XT − c)2 < ε Alors, on note : XT −→ c
m.s.

(A.9)

(A.10)

Naturellement, étant donné cette définition, la convergence en moyenne quadratique implique la convergence en probabilité, mais la réciproque n’est pas vraie : XT −→ c =⇒ XT −→ c La notion de convergence en m.q. nous permet alors d’introduire l’inégalité de Chebyshev. Proposition A.4. (Inégalité de Chebyshev) Soit X une v.a.r. telle que la quantité E (|X|r ) existe et soit finie pour r > 0. Pour tout δ > 0, et toute valeur de c, on montre que : r E (|X − c| ) (A.11) P {|X − c| > δ} ≤ δr
m.s. p

Econométrie des Variables Qualitatives. Cours C. Hurlin

56

Le résultat selon lequel la convergence en moyenne quadratique implique la convergence en probabilité peut être démontré à partir de l’inégalité de Chebyshev. Pour cela, il suffit de m.s. remarquer que si XT −→ c, alors il existe un couple de valeurs positives (δ, ε) et une valeur N, 2 tel que E (XT − c) < δ 2 ε, pour tout T ≥ N . Il s’ensuit que : E |X − c|2 E (X − c)2 = δ2 δ2 L’inégalité de Chebyshev implique alors que : P {|X − c| > δ} < ε ∀ T ≥ N Donc, on montre ainsi que XT −→ c. A.1.3. Convergence en loi Le troisième type de convergence que nous utiliserons cette année est la convergence en loi ou convergence en distribution. Theorem A.5. (Théorème de Paul Levy) Soit {XT }∞ une suite de v.a.r. et soit FXT (x) T =1 la fonction de distribution cumulative de XT . Si XT converge en loi vers une v.a.r. X admettant FX (x) pour fonction caractéristique, alors :
T →∞ p.

< ε ∀T ≥ N

lim FXT (x) = FX (x)
loi

∀x ∈ R
L

(A.12)

On note alors : XT −→ X
T →∞

ou XT −→ X
T →∞

(A.13)

Un certain nombre de propriétés nous serons particulièrement utiles par la suite : Propriété 1 La convergence en probabilité implique la convergence en loi : XT − X −→ 0 =⇒ XT −→ X
T →∞ T →∞ p L

(A.14)

Propriété 2 La convergence en loi vers une constante réelle implique la convergence en probabilité : p L (A.15) ∀c ∈ R XT −→ c =⇒ XT −→ c
T →∞ T →∞

Propriétés 3 Soient deux suites de v.a.r. {XT }∞ et {YT }∞ telle que XT −→ X et YT −→ T =1 T =1 c, alors : L (i) XT + YT −→ X + c L (ii) XT YT −→ c X L T (iii) XT −→ X avec c = 0 Y c Propriété 4 Soient XT et X des vecteurs aléatoires de Rp , tels que XT −→ X ,et soit g (.) une fonction continue définie de Rp and Rn , alors :
L T →∞ T →∞ L

L

p

g (XT ) −→ g (X)

(A.16)

Econométrie des Variables Qualitatives. Cours C. Hurlin

57

Bibliographie
Amemiya T. (1976), ”The ML, the Minimum Chi-*Square and the Non Linear Weighted Least Squares Estimator in the General Qualtitative Response Model”, Journal of the Ameraican Statistical Association, 71, 347-351 Amemiya T. (1981), ”Qualitative Response Models : A Survey”, Journal of Economic Litterature, 19(4), 481-536 Amemiya T. (1985), ”Advanced Econometrics”, Cambridge, Harvard University Press. Alban T. (2000), ”Econométrie des Variables Qualitatives”, Dunod. Berkson J. (1944), ”Application of the Logistique Function to Bio-Assay”, JASA, 39, 357-365. Berkson J. (1951), ”Why I prefer Logit to Probit”, Biometrics, 7, 327-339. Colletaz G. (2001), ”Modèles à Variables Expliquées Qualitatives”, Miméo Université Orléans Davidson R. et MacKinnon J.G. (1984), ”Convenient Tests for Logit and Probit Models”, Journal of Econometrics, 25, 241-262. Gourieroux C. (1989), ”Econométrie des Variables Qualitatives”, Economica. Gourieroux C. et Montfort A. (1981), ”Asymptotic Properties of the Maximuùm Likelihood Estimator in Dichotomous Logit Models”, Journal of Econometrics, 17, 83-97. Greene W.H. (1997), ”Econometric Analysis”, Londres, Prentice Hall. Judge G.G., Miller D.J. et Mittelhammer R.C. (2000), ”Econometric Foundations”, Cambridge University Press. Klein R.W. et Spady R.H. (1993), ”An Efficient Semi Parametric Estimator for Binary Response Models”, Econometrica, 61, 387-421 Maddala. G.S. (1983), ”Limited-dependent and Qualitative Variables in Econometrics”, Econometric Society Monographs, 3, Cambrige University Press. Morimune K. (1979), ”Comparisons of Normal and Logistic Models in the Bivariate Dichitomous Analysis”, Econometrica, 47, 957-975. Radner R. et Miller L. (1970), ”Demand and Supply in U.S. Higher Education : A Progress Report”, American Economic Review, 60. Spector L.C. et Mazzeo M. (1980), ”Probit Analysis and Economic Education”, Journal of Economic Education, 11(2), 37-44 Tobin J. (1958), ”Estimation of Relationships for Limited Dependent Variables”, Econometrica, 26, 24-36.

Econométrie des Variables Qualitatives. Cours C. Hurlin

58

Figure A.1: L’économie a travers les prix nobel, Problèmes Economiques 2001

January 21, 2003 Contents
1 Modèles Multinomiaux Ordonnés . . . . . . . . . . . . . . . . . . . . 1.1 Exemples de Modèles Multinomiaux Ordonnés . . . . . . . . . 1.1.1 Dosage d’insecticide : Gurland, Lee et Dahm (1960) . . 1.1.2 Acquisition d’un bien immobilier : David et Legg (1975) 1.2 Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Modèles Multinomiaux Séquentiels . . . . . . . . . . . . . . . . . . . 2.1 Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Modèles Multinomiaux Non Ordonnés . . . . . . . . . . . . . . . . . 3.1 Des modèles de choix probabilistes . . . . . . . . . . . . . . . . 3.2 Logit multinomial indépendant . . . . . . . . . . . . . . . . . . 3.2.1 Spécification du Logit Multinomial . . . . . . . . . . . . 3.2.2 Estimation des paramètres du logit multinomial . . . . 3.2.3 Exemples de modèles logit multinomial . . . . . . . . . 3.3 Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Logit Conditionnel . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.1 Spécification du logit conditionnel . . . . . . . . . . . . 3.4.2 Estimations des paramètres du logit conditionnel . . . . 3.4.3 Exemples de modèles logit conditionnel . . . . . . . . . 3.4.4 Applications . . . . . . . . . . . . . . . . . . . . . . . . 3.5 Logit Universel . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 L’hypothèse d’indépendance des alternatives non pertinentes . . . . . 4.1 Test de l’hypothèse IIA . . . . . . . . . . . . . . . . . . . . . . 4.2 Modèle Alternatifs . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Probit multinomial . . . . . . . . . . . . . . . . . . . . . 4.2.2 Logit Hierarchisé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 5 6 7 8 12 13 14 14 17 18 21 24 25 25 26 27 28 29 29 30 30 30 30 30

Econométrie des Variables Qualitatives. Cours C. Hurlin

1

Maîtrise d’Econométrie Université d’Orléans

Econométrie des Variables Qualitatives
Chapitre II Modèles Multinomiaux
Modèles Logit Multinomial et Conditionnel

Christophe HURLIN
Novembre 2002

Econométrie des Variables Qualitatives. Cours C. Hurlin

2

Introduction
Nous allons à présent envisager le cas des modèle multinomiaux, ou plus précisément des modèles à variable expliquée qualitative multinomiale (ou polytomique). Ce sont des modèles dans lesquels la variable expliquée peut prendre plus de deux modalités1 . Nous allons voir qu’il existe trois catégories de modèles multinomiaux : 1. Modèles multinomiaux ordonnés 2. Modèles multinomiaux séquentiels 3. Modèles multinomiaux non ordonnés Dans la pratique, les modèles non ordonnés sont les plus fréquents, c’est pourquoi nous leur accorderons une attention toute particulière. Dans cette catégorie, on trouve notamment le modèle logit multinomial et le modèle logit conditionnel de McFadden qui sont les modèles les plus utilisés et qui constituent une extension du logit binaire étudié dans le chapitre précédent. Nous verrons toutefois, que si ces modèles sont simples à utiliser, ils posent toutefois un problème de cohérence en raison d’un propriété peu réaliste d’indépendance des états non pertinents. C’est pourquoi, des modèles alternatifs ont été développés comme le modèle logit hierarchisé ou le modèle probit multinomial. Ces derniers requièrent toutefois des techniques d’estimation relativement complexes. Commençons par décrire le cadre général de ces modèles multinomiaux. Definition 0.1. On considère un modèle multinomial dans le lequel la variable dépen` dante qualitative observée pour le ieme individu ∀i = 1, .., N , notée yi , peut prendre mi + 1 modalités indicées j = 0, 1, 2, .., mi , supposées mutuellement exclusives pour chaque individu i :
mi +1

P rob (yi = j) = 1
j=0

∀i = 1, .., N

(0.1)

La probabilité associée à chaque réponse est définie par : P rob (yi = j) = Fij (x, β) ∀i = 1.., N ∀j = 0, 1, .., mi Partant de cette définition, on peut faire quatre remarques. 1. On remarque tout d’abord que le nombre de modalités mi prises par la variable dépendante yi peut dépendre de l’individu : on peut avoir mz = mk . 2. La fonction de répartition Fij (x, β) correspond à la probabilité que l’individu i choisisse la modalité j en fonction des variables explicatives x et du vecteur de paramètres β. Cette fonction peut ainsi différer suivant les individus (indice i) mais aussi suivant les modalités (indice j).
1 Voir

(0.2)

l”introduction du premier chapitre pour la définition générale des modèles à variable qualitative.

Econométrie des Variables Qualitatives. Cours C. Hurlin

3

` 3. Dans un modèle multinomial, la probabilité associée à la mi +1eme modalité (généralement l’événement codé en 0) n’a pas besoin d’être spécifiée puisqu’elle peut être calculée à partir des mi probabilité comme suit : mi

P rob (yi = 0) = 1 −
N i=1

j=1

Fij (x, β) ∀i = 1.., N

Si l’on définit

(mi + 1) variables binaires yij telles que : 1 0 si yi = j sinon ∀i = 1.., N ∀j = 0, 1, .., mi (0.3)

yij =

alors on peut écrire la vraisemblance associé à l’échantillon y = (y10 , ...., y1m1 , ..., yN 0 , ...., yN mN ) comme le produit des probabilités associées aux différentes modalités, et ceci pour tous les individus :
N mi

L (y, β) =
i=1 j=0

Fij (x, β)

yij

(0.4)

Les résultats généraux concernant les estimateurs du MV et les propriétés asymptotiques des estimateurs étudiées dans le chapitre 1 concernant les modèles binaires restent valables ici. Il n’y a donc pas de difficulté technique concernant l’estimation des paramètres de ces modèles. Mais les modèles polytomiques peuvent avoir des formes mathématiques très différentes suivant les hypothèses retenues. C’est pourquoi la recherche d’une forme adaptée au problème économique posé constitue dans la plupart des cas, la plus grande difficulté bien avant les méthodes d’estimation et d’inférence. Si ces modèles posent des problèmes, ce sont avant tout des problèmes de choix de modélisation. Pour mieux comprendre ces difficultés, nous allons à présent distinguer les modèles multinomiaux ordonnés, les modèles multinomiaux séquentiels et les modèles multinomiaux non ordonnés.

Econométrie des Variables Qualitatives. Cours C. Hurlin

4

1. Modèles Multinomiaux Ordonnés
Avant de définir précisément ce que sont les modèles multinomiaux ordonnés, commençons par définir leur champ d’application. Les modèles ordonnés sont utilisés lorsque les valeurs prises par la variable multinomiale correspondent à des intervalles dans lesquels va se trouver une seule variable latente inobservable continue. Ainsi, un modèle polytomique univarié ordonné est un modèle dans lequel on a une variable, plusieurs modalités, et un ordre naturel sur ces modalités. On suppose que les modalités sont identiques pour tous les individus : mi = m ∀i = 1.., N Definition 1.1. forme : Un modèle polytomique univarié ordonné peut s’écrire sous la  ∗ si yi < c1  0   ∗ 1 si c1 ≤ yi < c2 ∀i = 1.., N (1.1) yi = ...  ...   ∗ m si yi > cm
∗ yi = xi β + εi

∗ avec cj+1 ≥ cj et où la variable latente yi est défini par

(1.2)

avec xi = x1 ..xK , ∀i = 1, .., N , β = (β 1 ...β K ) ∈ RK , εi i.i.d. 0, σ 2 et où εi /σ ε suit une ε i i loi de fonction de répartition F (.) . Naturellement, si la fonction F (.) correspond à la loi logistique, F (.) = Λ (.) , le modèle est un modèle logit multinomial ordonné, tandis que si la fonction F (.) correspond à la loi normale centrée réduite, F (.) = Φ (.) , le modèle est un modèle probit multinomial ordonné. ∗ Du point de vue pratique, naturellement un tel découpage en classe sur yi n’a de sens que si le nombre de classes est relativement faible. Naturellement, à partir de la définition précédente on peut déduire la loi de la variable qualitative observée yi qui nous servira par la suite à construire la fonction de vraisemblance. En effet, on a : c1 xi β ∗ P rob (yi = 0) = P rob (yi < c1 ) = F − σε σε
∗ P rob (yi = 1) = P rob (c1 ≤ yi < c2 ) = F

c2 xi β − σε σε

−F

xi β c1 − σε σε

...
∗ P rob (yi = m) = P rob (yi > cm ) = 1 − F

cm xi β − σε σε

De façon générale, on obtient le résultat suivant : Proposition 1.2. Dans un modèle polytomique univarié ordonné satisfaisant la définition 1.1, la probabilité associée à l’événement yi = j, ∀j = 0, 1, .., m est définie par : cj cj+1 xi β xi β −F ∀i = 1.., N − − P rob (yi = j) = F σε σε σε σε avec par convention c0 = −∞ et cm+1 = ∞.

Econométrie des Variables Qualitatives. Cours C. Hurlin

5

Il ne reste plus alors qu’à construire la vraisemblance associée à l’échantillon y comme suit :
N mi

L (y, β, c1 , .., cm , σ ε ) =
i=1 j=0 N mi

P rob (yi = j)

yij

=
i=1 j=0

F

cj+1 xi β − σε σε

−F

xi β cj − σε σε

yij

(1.3)

où la variable dichotomique yij est définie par : yij = 1 0 si yi = j sinon ∀i = 1.., N ∀j = 0, 1, .., m

Généralement seuls les paramètres β = β/σ ε et cj = cj /σ ε sont identifiables. La vraisemblance s’écrit alors en fonction de ces paramètres comme suit :
N mi

L y, β, c1 , .., cm =
i=1 j=0

F cj+1 − xi β − F cj − xi β

yij

(1.4)

On vérifie en outre que le vecteur xi ne peut contenir de constante pour les mêmes raison d’identification qui avaient été évoquées dans le cas du modèle dichotomique en ce qui concerne la normalisation du seuil γ. On ne peut identifier à la fois le paramètre associé à la constante et les seuils cj . Il n’y a alors aucune difficulté technique à maximiser la fonction de log-vraisemblance en β, c1 , ..et cm pour obtenir les estimateurs du maximum de vraisemblance dont les propriétés sont identiques à celles étudiées dans le modèle dichotomique univarié, si ce n’est que l’on estime en outre les paramètres de seuil cj : β =arg max log L y, β, c1 , .., cm {β } cj =arg max log L y, β, c1 , .., cm
{cj }

(1.5) (1.6)

avec log L y, β, c1 , .., cm =

N

m

i=1 j=0

yij log F cj+1 − xi β − F cj − xi β

(1.7)

où F (.) est une fonction de répartition donnée. Nous allons à présent étudier plusieurs exemples de modèles qualitatifs multinomiaux ordonnées afin de mieux appréhender le type de problèmes économiques auxquels cette modélisation s’adapte. Ces exemples sont repris de Amemiya (1981).

1.1. Exemples de Modèles Multinomiaux Ordonnés Considérons plusieurs exemples de modèles multinomiaux ordonnés.

Econométrie des Variables Qualitatives. Cours C. Hurlin

6

1.1.1. Dosage d’insecticide : Gurland, Lee et Dahm (1960) Le premier exemple relève de la bio-économétrie, domaine privilégié des premières applications des modèles qualitatifs.. Il s’agit de l’étude de Gurland, Lee et Dahm (1960) parue dans Biometrics qui constitue une extension en multinomial de l’exemple de l’insecticide étudié dans ` le modèle dichotomique. On considère un dosage d’insecticide xi vaporisé sur le ieme individu et ∗ l’on note yi la tolérance de cet individu au produit. Naturellement, on suppose que la tolérance ∗ est inobservable et continue. On suppose pour simplifier que la tolérance yi est distribué selon 2 une loi N µ, σ de paramètre inconnus. On suppose en outre que la variable observée yi qui traduit l’état de l’insecte peut prendre à présent trois valeurs, m = 3 et ∀i = 1.., N :   0 si l’individu i est vivant 1 si l’individu i est moribond yi =  2 si l’individu i est mort

On suppose que l’individu meurt si et seulement si le dosage de l’insecticide dépasse la ∗ tolérance xi > yi , et qu’il reste vivant si au contraire sa tolérance dépasse d’un montant γ ∗ le dosage d’insecticide, c’est à dire si et seulement si yi > xi + γ, où γ est un paramètre inconnu. Entre les deux, l’insecte est mal en point. Un tel problème correspond bien à la structure d’un modèle polytomique ordonné, puisque les valeurs prises par la variable multinomiale (yi = 0, 1, 2) correspondent à des intervalles dans lesquels va se trouver ∗ une seule variable latente inobservable continue, à savoir la tolérance yi . En effet, un tel problème peut se modéliser sous la forme :  ∗  0 si yi > xi + γ ∗ 1 si xi < yi ≤ xi + γ (1.8) yi =  ∗ 2 si yi ≤ xi Les probabilités associées au trois modalités sont donc égales à :
∗ P rob (yi = 0) = P rob (yi > xi + γ) = 1 − Φ

xi + γ − µ σ

=Φ

µ − γ − xi σ xi − µ σ

∗ P rob (yi = 1) = P rob (xi < yi ≤ xi + γ) = Φ

xi − µ + γ σ xi − µ σ

−Φ

∗ P rob (yi = 2) = P rob (yi < xi ) = Φ

où Φ (x) désigne la fonction de répartition de la loi normale centrée réduite. Naturellement, puisque la somme de ces trois probabilité est égale à l’unité, seules deux probabilités seront effectivement estimées. Considérons seulement P rob (yi = 0) et P rob (yi = 2) , c’est à dire les probabilités de rester vivant et de décès. L’estimation de la probabilité P rob (yi = 2) , sous la forme P rob (yi = 2) = Φ (β 0 + β 1 x) , fournit un estimateur β 0 du coefficient associé à la constante et un estimateur β 1 du coefficient associé à xi . On peut alors identifier les paramètres structurels σ et µ en résolvant le système trivial β 0 = 1/σ et β 1 = −µ/σ et proposer deux estimateurs σ = 1/β 0 et µ = β 1 β 0 . De la même façon, l’estimation de la probabilité P rob (yi = 0) , sous la forme P rob (yi = 0) = Φ (α0 + α1 x) , fournit un estimateur α0 du coefficient associé à la constante et un estimateur α1 du coefficient associé à xi . On peut alors identifier le paramètre structurel manquant à savoir le seuil γ. En effet, on sait que α0 = (µ − γ) /σ, connaissant une valeur de µ et de σ on peut en déduire un estimateur pour γ, tel que γ = µ − σα0 . Naturellement, l’estimateur du paramètre α1 = −1/σ est obtenu sous la contrainte α1 = −β 0 . Donc

Econométrie des Variables Qualitatives. Cours C. Hurlin

7

dans ce modèle, l’estimation des probabilités P rob (yi = 0) et P rob (yi = 2) permet d’identifier les trois paramètres structurels µ, σ et γ. Notre bio-économètre connaît alors la distribution de ∗ la tolérance yi des insectes et le seuil γ d’insecticide.

1.1.2. Acquisition d’un bien immobilier : David et Legg (1975) L’étude de David et Legg (1975) parue dans le Journal of Business and Economic Statistics, est une tentative de modélisation du prix des biens immobiliers en fonction d’un certain nombre de caractéristiques comme la taille du bien immobilier, l’âge de l’acquéreur, le revenu de l’acquéreur, le nombre d’années d’études de l’acquéreur etc.. Les données de David et Legg sont présentées de la façon suivante. On observe si l’acquisition d’un bien immobilier a eu lieu, les biens étant regroupés en trois catégories suivant leur prix. Etant donné la nature des données utilisées, le prix de chaque bien est inobservable et seul son appartenance à l’une des trois catégories est observée :   0 si le prix du bien i acquis est inférieur à $28,999 1 si le prix du bien i acquis est compris entre $29,000 et $54,999 (1.9) yi =  2 si le prix du bien i acquis est supérieur à $55,000

∗ où la variable latente yi est distribuée selon une loi normale N xi β, σ 2 , où le vecteur xi comporte l’ensemble des caractéristiques du bien citées précédemment.. On suppose que le vecteur xi ne comporte pas de constante. Le problème consiste donc à estimer les paramètres structurels c1 , c2 , σ et les K paramètres du vecteur β. On a donc K + 3 paramètres structurels à estimer. Les probabilités associées aux trois modalités sont définies de la façon suivante : ∗ P rob (yi = 0) = P rob (yi < c1 ) = Φ

David et Legg (1975) proposent de modéliser la variable polytomique yi = 0, 1, 2 selon ∗ l’appartenance d’une variable inobservable yi à trois classes distinctes :  ∗  0 si yi < c1 ∗ 1 si c1 ≤ yi < c2 ∀i = 1.., N yi = (1.10)  ∗ 2 si yi > c2

c1 β − xi σ σ −Φ β c1 − xi σ σ

∗ P rob (yi = 1) = P rob (c1 ≤ yi < c2 ) = Φ ∗ P rob (yi = 2) = P rob (yi > c2 ) = 1 − Φ

β c2 − xi σ σ

β β c2 c2 − xi = Φ − + xi σ σ σ σ Dès lors, la log-vraisemblance de l’échantillon est définie par la fonction :
N

log L (y, β, c1 , c2 , σ) =
i=1

yi0 log Φ +yi2 log Φ −

c1 β − xi σ σ c2 β + xi σ σ

+ yi1 log Φ

c2 β − xi σ σ

−Φ

c1 β − xi σ σ

Ce qui peut s’écrire sous une forme log-linéaire dans les paramètres :
N

log L y, β, c1 , c2

=
i=1

yi0 log Φ c1 − xi β

+ yi1 log Φ c2 − xi β − Φ c1 − xi β (1.11)

+yi2 log Φ −c2 + xi β

Econométrie des Variables Qualitatives. Cours C. Hurlin

8

avec x = x/σ. La procédure du maximum de vraisemblance fournit alors une estimation pour les K + 2 paramètres β, c1 et c2 . Dès lors, on ne peut pas dans ce cas identifier la variance σ du fait de la normalisation imposée par le choix de la distribution normale. Par conséquent l’estimation de ce modèle ne permet pas d’identifier les paramètres de seuil c1 et c2 et les paramètres β, mais seulement les transformées β, c1 et c2 . Ceci n’a pas d’importance dès lors que l’on s’intéresse uniquement aux effets marginaux des variables xi sur la probabilité d’acheter des biens immobiliers appartenant aux trois catégories. On peut par exemple calculer l’impact de la taille du logement sur la probabilité d’acheter un logement dont le prix est inférieur à $28,999 et comparer celle-ci avec l’impact de la taille du logement sur la probabilité d’acheter un logement dont le prix est supérieur à $55,000. En effet, on peut calculer 3 ∗ N ∗ K dérivées suivantes : ∂P rob (yi = j) ∀i = 1.., N, ∀j = 0, 1, 2 ∀k = 1.., K [k] ∂xi Dans cette étude, tout comme dans les modèles multinomiaux en général, il y a finalement ∗ plusieurs façons d’interpréter la variable latente yi . Remarque Dans un modèle multinomial, il n’y a généralement aucune nécessité de ∗ donner un nom et d’expliquer réellement ce qu’est la variable latente yi . Peu importe ce qu’elle représente, il suffit juste de supposer que c’est une variable continue qui affecte la variable polytomique observée yi . Le fait de nommer ∗ yi permet simplement de faciliter la justification économique du choix des variables explicatives xi .
∗ Dans le cas présent de l’étude David et Legg (1975), on peut dire que la variable latente yi correspond au prix du bien immobilier. Dans ce cas, si cette variable est par ailleurs observable, il aurait été préférable au lieu d’estimer les probabilités, d’estimer directement la relation entre le prix du bien et les caractéristiques xi observées. Mais rien ne nous contraint dans le fait ∗ ∗ d’assimiler yi au prix des biens : cette variable inobservable yi peut représenter n’importe quelle grandeur économique susceptible d’affecter l’achat de biens des trois catégories de prix et qui elle même dépend des variables xi (taille du logement, revenu et âge de l’acquéreur etc..). Ce peut être par exemple, la disponibilité à payer le bien immobilier.

1.2. Application On considère une application tirée d’une étude de J. Gunther de la Federal Reserve Bank de Dallas, intitulée ”Between a Rock and a Hard Place : The CRA-Safety and Soundness Pinch”. Le fichier de données disponible sur le sitye web (??) est intitulé Gunther.xls. Cette étude porte sur le Community Reinvestment Act (CRA), loi promulgué aux Etats Unis en 1977 et visant à encourager les institutions de dépôts (banques et autres institutions financières) à répondre aux besoins en crédit des communautés dans lesquelles elles opèrent2 . Toutes les banques sont ainsi évaluées par des instances de contrôle qui sont les suivantes : Office of the Comptroller of the Currency (OCC), Board of Governors of the Federal Reserve System (FRB), Office of Thrift Supervision (OTS), and Federal Deposit Insurance Corporation (FDIC). En effet, la loi recquiert que les agences de contrôle mentionnées, évaluent régulièrement les performance des institutions au regard des objectifs du CRA.
un historique et une http://www.ffiec.gov/cra/history.htm.
2 Pour

présentation

plus

global

du

CRA,

consulter

le

site

Econométrie des Variables Qualitatives. Cours C. Hurlin

9

La performance des institutions en ce qui concerne le fait de favoriser les besoins en crédit de la communauté est évalué dans le contexte des informations disponibles sur cette institution (capacités, contraintes diverses, stratégie..), des informations sur la communauté (démographie, données économiques, prêts, investissements..) et des informations sur ses concurrents et sur l’état du marché. Une notation (ou rating) est alors attribué selon quatre modalité : yi = 1 pour performance remarquable, yi = 2 pour performance satisfaisante,; yi = 3 pour performance à améliorer, yi = 4 pour performance déplorable. L’étude de Gunther porte sur 350 observations de ces rating et propose de modéliser ces ratings en fonction de plusieurs variables explicatives intitulées respectivement loa, prl, equ, roa, sec, ass, metro et growth. La variable loa désigne le ratio prêts sur actif total de la banque, la variable prl désigne le ratio actifs douteux sur actif total, la variable equ désigne le ratio capitaux propres sur actif, la variable roa désigne le ratio dividende sur actifs, la variable sec désigne le ratio investissements de valeurs sur actifs, la variable ass le logarithme de l’actif de la banque, la variable metro prend une valeur 1 si la banque à son siège dans une MSA (∩) et 0 sinon, et enfin la variable growth désigne le taux de croissance du Pib de l’état dans lequel la banque opère. Dans le tableau ci dessous sont reproduit les valeurs ces différentes variables pour les 10 premiers individus de l’échantillon.

Figure 1.1:

Nous allons à présent modéliser le rating sous la forme d’un probit ordonné. En effet, dans ce cas précis, les valeurs prises par la variable multinomiale peuvent correspondre à des intervalles dans lesquels va se trouver une variable latente inobservable. On a ici un ordre naturel sur les modalités allant de la satisfaction la plus complète au regard des objectifs du CRA à la performance déplorable. Pour modéliser ce probit ordonné sous Eviews, on choisit Estimate Equation dans le menu Quick, et l’on retient la méthode ORDERED - Ordered Choice avec une Error Distribution de type Normal. On indique ensuite la variable polytomique ainsi que les variables explicatives, la constante ne pouvant être introduite pour une raison de colinéarité. Les coefficients des variables roa et sec sont alors non significativement différents de zéro. On retire donc ces variables et les résultats obtenus pour le probit ordonnés sont alors les suivants : On observe cette fois que toutes les variables sont significatives de même que les trois seuils

Econométrie des Variables Qualitatives. Cours C. Hurlin

10

Figure 1.2: Estimation d’un Probit Ordonné

c1 , c2 et c3 tels que :

On obtient ainsi des réalisations c1 = −3.645, c2 = −2.725 et c3 = −1.61. On peut alors calculer pour chaque banque la probabilité d’obtenir un rating très satisfaisant (yi = 1) de la façon suivante : ∗ P rob (yi = 1) = P rob (yi < c1 ) = Φ c1 − xi β où c1 = c1 /σ ε , β = β/σ ε . On peut donc estimer cette probabilité de la façon suivante : P rob (yi = 1) = Φ c1 − xi β (1.13)

  1   2 yi =   3  4

si si si si

∗ yi < c1 ∗ c1 ≤ yi < c2 ∗ c2 ≤ yi < c3 ∗ yi > c3

∀i = 1.., N

∗ yi = xi β + εi

(1.12)

où c1 est un estimateur convergent de c1 et où β est un estimateur convergent de β. Ainsi dans le cas de notre modèle pour l’individu 1, on montre que la réalisation de l’estimation de la variable latente est : x1 β = 0.068 ∗ 5.24 − 6.138 ∗ 0.0559 − 11.273 ∗ 0.250 = −3.359

−1.7245 ∗ 0.3982 + 0.7685 ∗ 0 + 10.748 ∗ 0.0120

Econométrie des Variables Qualitatives. Cours C. Hurlin

11

Dès lors, on a :

P rob (y1 = 1) = Φ c1 − x1 β Φ (−3.645 + 3.359) Φ (−0. 286) 0.387 De la même façon, on peut calculer pour cette banque la probabilité que yi = 2 : P rob (y1 = 2) = Φ c2 − x1 β − Φ c1 − x1 β Φ (−2.725 + 3.359) − Φ (−0. 286) 0.736 − 0.387 0. 349 Φ (0. 634) − 0.387

Ainsi pour tous les individus on peut calculer les probabilités associées aux quatre modalités. On obtient les résultats suivants pour les dix premiers individus : Figure 1.3: Probabilités Estimées du Probit Ordonné

Econométrie des Variables Qualitatives. Cours C. Hurlin

12

2. Modèles Multinomiaux Séquentiels
Avant de définir précisément ce que sont les modèles multinomiaux séquentiels, commençons par définir leur champ d’application. Les modèles séquentiels sont utilisés pour rendre compte de choix effectués ou d’événements selon une séquence bien précise, le plus souvent dans le temps, et dont les réalisations successives conditionnent naturellement l’ensemble des modalités futures. Ces modèles possèdent la particularité de construire la séquence des événements comme le produit des probabilités élémentaires associées à la réalisation d’un seul évenement à chaque étape. Definition 2.1. Soit T le nombre d’étapes et yi = 1, .., N une variable polytomique dont les modalités sont 1, 2, .., T. On écrit alors la probabilité de s’arrêter à l’étape t comme une fonction Ft (xi β) , t = 1, 2, .., T :
j−1

P rob (yi = j) =
s=1

[1 − Fs (xi β)] × Fj (xi β)

(2.1)

L’exemple typique est celui de la réussite aux examens, qui est bien entendu conditionnée par la réussite aux examens antérieurs dans le cursus. Considérons l’exemple de la réussite au master. On cherche à modéliser la probabilité qu’un étudiant obtienne son Master en fonction de caractéristiques individuelles, comme le revenu moyen des parents, la moyenne des notes ` au baccalauréat, la série du baccalauréat etc.. On note yi = 1 si le ieme étudiant a obtenu le baccalauréat mais pas la licence, yi = 2 si l’étudiant a obtenu la licence mais pas le master et yi = 3 si l’étudiant a obtenu le master. Naturellement, la probabilité associée à l’obtention du master s’écrit :
2

P rob (yi = 3) =
s=1

[1 − Fs (xi β)] × F3 (xi β)

= [1 − F1 (xi β)] × [1 − F2 (xi β)] × F3 (xi β) De la même façon, la probabilité associée à l’obtention de la licence s’écrit :
1

P rob (yi = 2) =
s=1

[1 − Fs (xi β)] × F2 (xi β) = [1 − F1 (xi β)] × F2 (xi β)

La probabilité que les individus n’obtiennent pas leur baccalauréat, c’est à dire que yi = 1, est calculée en utilisant tout l’échantillon constitué des deux sous groupes : les étudiants ayant obtenu le baccalauréat et ceux qui ont échoué (yi = 0 non modélisée). On utilise ensuite le sous échantillon des étudiants ayant obtenu le baccalauréat pour déterminer les caractéristiques de la probabilité d’obtenir la licence yi = 2. Et enfin, on utilise le sous échantillon des étudiants ayant obtenu la licence pour déterminer les caractéristiques de la probabilité d’obtenir le master yi = 3.

Econométrie des Variables Qualitatives. Cours C. Hurlin

13

2.1. Application ************************** ***** Application Eviews **** ************************** cf. Ordered Models - Chandek, Meghan Stroshine (1999). Race, expectations and evaluations of police performance: An empirical assessment. Policing 22(4):675 - http://faculty.smu.edu/tfomby/eco6352/data/

Econométrie des Variables Qualitatives. Cours C. Hurlin

14

3. Modèles Multinomiaux Non Ordonnés
Nous allons à présent envisager la classe des modèles multinomiaux les plus fréquents en économie : les modèles multinomiaux non ordonnés. Il existe deux grandes classes de modèles multinomiaux non ordonnés suivant que ces modèles satisfont ou ne satisfont pas une hypothèse particulière qui est l’hypothèse d’Indépendence des Alternatives Non Pertinentes (IAN P ou IIA en anglais pour Independance of Irrelevant Alternative). Cette hypothèse traduit le fait que le rapport de deux probabilités associés à deux évenements particuliers est indépendant des autres événements. Ainsi, la première grande classe de modèle est constitué par les modèles logit multinomiaux non ordonnés qui comprend notamment : 1. Les modèles logit multinomiaux indépendants ou modèles logit multinomiaux. 2. Les modèles logit multinomiaux conditionnels ou modèles logit conditionnels. 3. Les modèles logit multinomiaux universels ou modèles logit universels. Tous ces modèles satisfont l’hypothèse IIA, or nous verrons qu’une telle hypothèse pose des problèmes de cohérence dans certaines modélisations économiques. C’est pourquoi des modèles alternatifs ont été développés de sorte à ne pas satisfaire cette hypothèse contestable : cette seconde classe de modèles comprend notamment le modèle logit hierarchisé, le modèle probit multinomial. Toutefois, dans la pratique les modèles multinomiaux les plus fréquemment utilisés restent les modèles logit satisfaisant l’hypothèse IIA. C’est pourquoi dans cette section, nous nous limiterons à l’étude de cette classe de modèles multinomiaux non ordonnés. Nous étudierons les modèles alternatifs dans la prochaine section. Mais avant de présenter la classe des logit multinomiaux non ordonnés, nous allons introduire ces modèles en décrivant leur utilisation essentielle, à savoir celle de rendre compte de choix probabilistes. Les modèles multinomiaux non ordonnés sont en effet avant tout des modèles permettant de décrire des choix individuels en présence d’utilité stochastique. 3.1. Des modèles de choix probabilistes Supposons qu’un individu ait a effectuer un choix rationnel entre m + 1 modalités procurant m + 1 niveaux de satisfaction différents pour l’individu. On postule que les choix rationnels peuvent être représentés par une fonction d’utilité. Rappelons qu’une fonction d’utilité U (ω) est définie à une transformée croissante près : si la fonction h (.) est une fonction croissante et continue, h (U (ω)) est une autre fonction d’utilité associée au même préordre que celui de U (ω). On considère le cas où le niveau d’utilité est stochastique et décrit par une fonction U (.) dépendant d’un terme aléatoire. Ce choix peut se justifier par ne mauvaise perception de la qualité des différentes modalités ou en raison d’une grande difficulté à évaluer de façon certaine les niveaux d’utilité. On pose que pour chaque modalité j = 0, 1, .., m, l’utilité de l’individu s’exprime sous la forme suivante : Uj = U (xj , εj ) = v (xj ) + εj ∀j = 0, 1, .., m (3.1)

Econométrie des Variables Qualitatives. Cours C. Hurlin

15

où v (.) est une fonction continue déterministe et où εj est une variable aléatoire i.i.d. dont la loi est décrite par la fonction de densité f (.) et la fonction de répartition F (.) . On suppose que les perturbations εj , ∀j = 0, 1, .., m sont indépendantes. Ainsi l’utilité aléatoire associée ` à la j eme modalité dépend des caractéristiques propres à cette modalité On définit une variable polytomique y qui prend m + 1 modalités suivant les choix de l’individu : ` y = j si l’individu choisit la j eme modalité ∀j = 0, 1, .., m Dès lors, la probabilité que notre individu choisisse la modalité j correspond à la probabilité que cette modalité lui confère un niveau d’utilité supérieure à toutes les autres modalités qui s’offrent à lui. En effet, la probabilité que l’individu choisisse la modalité j est définie par : P rob (y = j) = P rob {U (xj , εj ) > U (x0 , ε0 ) , U (xj , εj ) > U (x1 , ε1 ) , Prenons par exemple la probabilité que l’agent choisisse la modalité 0 : P rob (y = 0) = P rob {U (x0 , ε0 ) > U (x1 , ε1 ) , U (x0 , ε0 ) > U (x2 , ε2 ) , ce qui peut se réécrire sous la forme suivante : P rob (y = 0) = P rob [U (x0 , ε0 ) > U (xk , εk ) , ∀k = 1, .., m]

....., U (xj , εj ) > U (xk , εk ) , ....., U (xj , εj ) > U (xm , εm )}

(3.2)

....., U (x0 , ε0 ) > U (xk , εk ) , ....., U (x0 , ε0 ) > U (xm , εm )}

= P rob [εk < v (x0 ) − v (xk ) + ε0 , ∀k = 1, .., m] Pour calculer cette probabilité à partir des fonctions de densité f (.) , rappelons la définition de la densité jointe. Definition 3.1. La densité jointe de deux v.a.r. continues X et Y , notée fX,Y (x, y) ≥ 0, satisfait les propriétés suivantes :
b d

= P rob [v (x0 ) + ε0 > v (xk ) + εk , ∀k = 1, .., m]

∀ (a, b, c, d) ∈ R4 P (a ≤ X ≤ b, c ≤ Y ≤ d) =
∞ −∞ ∞ −∞

fX,Y (x, y) dy dx
a c

(3.3) (3.4)

fX,Y (x, y) dy dx = 1

La fonction de distribution cumulative jointe, notée FX,Y (x, y) est alors définie par, ∀ (a, b) ∈ R2 :
a b

FX,Y (a, b) = P (X ≤ a, Y ≤ b) =

fX,Y (x, y) dy dx
−∞ −∞

(3.5)

On sait en outre que si les variables X et Y sont dites indépendantes si et seulement si fX,Y (x, y) = fX (x) fY (y) . L’indépendance implique par conséquent que FX,Y (x, y) = FX (x) FY (y) . Ainsi, si l’on suppose que les perturbations εj sont indépendantes et distribuées

Econométrie des Variables Qualitatives. Cours C. Hurlin

16

selon une loi de distribution f (.) , et si l’on note vj = v (xj ) , la probabilité P rob (y = 0) peut s’écrire sous la forme : P rob (y = 0) = =
∞ −∞ ∞ −∞ m

k=1 v0 −v1 +ε0 −∞ v0 −vm +ε0 −∞

P rob [εk < v0 − vk + ε0 ] f (ε0 ) dε0 f (ε1 ) dε1 ×
v0 −v2 +ε0 −∞

f (ε2 ) dε2 × ..

.. ×

f (εm ) dεm

f (ε0 ) dε0

En d’autres termes, si l’on note F (.) la fonction de répartition associée à la loi des perturbations εj , on a: P rob (y = 0) =
∞ −∞ m

k=1

F [v (x0 ) − v (xk ) + ε0 ] f (ε0 ) dε0

De façon générale, quelque soit la modalité j = 0, 1, .., m on montre ainsi que :   P rob (y = j) =
∞ −∞

 

m

k=0 k=j

 F [v (xj ) − v (xk ) + εj ] f (εj ) dεj

(3.6)

Supposons à présent que la loi des perturbations soit une loi de Gompertz3 : F (z) = exp [− exp (−z)] f (z) = exp [−z − exp (−z)] (3.7) (3.8)

Alors, il est possible de donner une expression analytique à la probabilité que l’agent choisisse la modalité 0. P rob (y = 0) =
∞ −∞ m

k=1

exp [− exp (−v0 + vk − ε0 )] exp [−ε0 − exp (−ε0 )] dε0
m

=

∞ −∞

exp −

k=1

exp (−v0 + vk − ε0 ) exp [−ε0 − exp (−ε0 )] dε0

****************************** *** FINIR DEMONSTRATION *** ****************************** Finalement, on montre que : P rob (y = 0) = exp [v (x0 )]
m

= 1+

1
m k=1

exp [v (xk )]
k=0

exp [v (xk ) − v (x0 )]

avec par convention v (x0 ) = 0. De façon générale, la probabilité que l’individu choisisse la modalité j est définie par : exp [v (xj )] (3.9) P rob (y = j) = m exp [v (xk )]
k=0
3 Dite

aussi loi des valeurs extrêmes.

Econométrie des Variables Qualitatives. Cours C. Hurlin

17

Or, si l’on se restreint à une classe des fonctions v (.) affines, avec v (xj ) = β j xj , ` cette formulation de la probabilité associée à la j eme modalité est précisément la modélisation de la probabilité que l’on retiendra dans les modèles logit multinomiaux non ordonnés.

Considérons à présent le cas où l’on dispose d’un ensemble de N individus indicés i = 1, .., N ayant les mêmes préférences que l’individu de référence de l’exemple précédent. De la même façon sous les hypothèse d’indépendance des perturbations εj et sous une hypothèse particulière sur la distribution des ces perturbations, on montre que la probabilité que l’individu i choisisse la modalité j, ∀j = 0, .., m, est définie par : P rob (yi = j) =
m k=0

exp [v (xi,j )] exp [v (xi,k )]

(3.10)

où xi,j désigne la valeur du vecteur de variable explicative pour l’individu i conditionnant le ` choix de la j eme modalité. Suivant la forme de la fonction v (xi,j ) plusieurs modèles peuvent être envisagés. 1. Le modèle logit multinomial indépendant (ou logit multinomial) est obtenu lorsque la fonction v (.) est une fonction linéaire dont les paramètres β j diffèrent selon les modalités et pour laquelle les variables explicatives varient uniquement en fonction des individus : v (xi,j ) = xi β j (3.11)

2. Le modèle logit multinomial conditionnel (ou logit conditionnel) est obtenu lorsque la fonction v (.) est linéaire, les paramètres β sont indépendants des modalités et que les variables explicatives diffèrent selon les modalités et les individus : (3.12) v (xi,j ) = xi,j β 3. Le modèle logit multinomial universel (ou logit universel) est obtenu pour toute fonction v (.) continue dépendant de paramètres β j conditionnels aux modalités et de l’ensemble des variables explicatives du modèle : v (xi,j ) = v β j , xij (3.13)

3.2. Logit multinomial indépendant Comme nous l’avons dit précédemment, le modèle logit multinomial indépendant4 (ou logit multinomial) est obtenu lorsque la fonction v (.) est linéaire, les paramètres β j diffèrent selon les modalités et que les variables explicatives varient uniquement en fonction des individus, c’est à dire lorsque v (xi,j ) = xi β j . Dès lors, on peut définir la forme générale de la probabilité que l’individu i choisisse la modalité j de la façon suivante :
4 Il convient de faire attention ici sur la terminologie employée. Amemiya (1981) qualifie le modèle logit conditionnel de modèle indépendant puisque construit sur l’indépendance des perturbations. Donc pour Amemiya, le modèle indépendant ici étudié n’est qu’un cas particulier sans nom du logit universel..

Econométrie des Variables Qualitatives. Cours C. Hurlin

18

Definition 3.2. Dans un modèle logit multinomial, la probabilité que l’individu i choisisse la modalité j, ∀j = 0, .., m, est définie par : P rob (yi = j) = exp xi β j
m

= 1+

exp xi β j
m

(3.14)

exp (xi β k )
k=0

exp (xi β k )
k=1

où le vecteur β 0 est normalisé à zéro : β 0 = 0. Sous l’hypothèse de normalisation β 0 = 0, la probabilité associée à la modalité de référence 0 est définie par : P rob (yi = 0) = 1
m

= 1+

1
m

(3.15)

exp (xi β k )
k=0

exp (xi β k )
k=1

Exemple : Considérons à présent un exemple de modèle logit multinomial. On cherche à modéliser la probabilité de défaillance d’abonnés en fonction de leur revenu, noté ri , et d’une constante. Supposons que la variable observable yi puisse prendre trois modalités : défaillance totale (modalité 0), défaillance partielle (modalité 1) et remboursement intégral de la créance (modalité 2). L’hypothèse selon laquelle les paramètres β j diffèrent selon les modalités revient en fait à poser que : P rob (yi = 1) = exp β 1 + β 1 ri 1 + exp β 1 + β 1 ri + exp β 2 + β 2 ri exp β 2 + β 2 ri 1 + exp β 1 + β 1 ri + exp β 2 + β 2 ri
` où β 1 désigne le coefficient associé au revenu (2eme variable explicative) dans la modélisation [2] ` de la probabilité de la défaillance partielle (1ere modalité), tandis que β 2 désigne le coefficient ` associé au revenu (2eme variable explicative) dans la modélisation de la probabilité de l’absence eme ` modalité). On suppose ici que le revenu n’affecte pas de façon identique de défaillance (2 la probabilité de défaillance partielle et la probabilité d’absence de défaillance. Par contre le revenu du couple ne diffère suivant que ce dernier rembourse totalement ou de façon partielle son prêt. Essayons à présent de recenser les implications de la spécification d’un modèle logit multinomial indépendant. [2] [1] [2] [1] [2] [1] [2] [1] [2] [1] [2] [1] [2]

P rob (yi = 2) =

3.2.1. Spécification du Logit Multinomial On considère un modèle multinomial pour lequel la probabilité que l’individu i choisisse la modalité j = 0, .., m s’écrit sous la forme : P rob (yi = j) = exp xi β j
m

exp (xi β k )
k=0

où les vecteurs de paramètres β j ∈ RK peuvent différer selon les modalités j. La première remarque sur cette spécification concerne la normalisation β 0 = 0. En effet, supposons que

Econométrie des Variables Qualitatives. Cours C. Hurlin

19

cette normalisation ne soit pas imposée a priori. On obtient alors une expression équivalente à la probabilité (3.14) en divisant les deux membres de la probabilité par exp (β 0 xi ) : P rob (yi = j) = exp xi β j / exp (xi β 0 )
m

=

m

exp xi β j − β 0 exp [xi (β k − β 0 )]

exp (xi β k ) / exp (xi β 0 )
k=0

k=0

En posant β ∗ = β j − β 0 , ∀j, et donc β ∗ = 0, on obtient alors une expression de la probabilité j 0 P rob (yi = j) similaire à celle de la définition, sans imposer la normalisation β 0 = 0. P rob (yi = j) = exp xi β ∗ j
m k=0

= 1+

exp xi β ∗ j
m k=1

(3.16)

exp (xi β ∗ ) k β ∗ xi j

exp (xi β ∗ ) k
m

/ [1 + k=1 exp (xi β ∗ )] revient en fait Ainsi écrire la probabilité sous la forme exp k à normaliser les paramètres du modèle qui correspondent en fait aux différences entre les paramètres originaux β et le vecteur de paramètres de la modalité de référence, ici en l’occurrence β 0 . Ainsi, les paramètres s’interprètent comme des écarts au référentiel (c’est à dire aux paramètres de la modalité 0). On peut exprimer cette propriété de la façon suivante. Proposition 3.3. Dans un modèle logit multinomial à m+1 modalités, la probabilité ` associée à la j eme modalité dépend des écarts β k − β j avec k = j et k = 0, 1, ..m : P rob (yi = j) = exp xi β j
m

= 1+

1
m k=0 k=j

(3.17)

exp (xi β k )
k=0

exp xi β k − β j

Les m probabilité indépendantes dépendent alors de (m + 1) m/2 différences de paramètres β k − β j . Les paramètres ne sont pas identifiables à moins d’imposer une contrainte de normalisation : par exemple β 0 = 0. Exemple : considérons un modèle avec 3 modalités (m = 2), j = 0, 1, 2. On a alors : P rob (yi = 0) = P rob (yi = 1) = 1 1 + exp [xi (β 1 − β 0 )] + exp [xi (β 2 − β 0 )]

Par construction 2 pj = 1. On dispose ainsi de deux probabilités indépendantes pour j=0 déterminer trois différences de paramètres (β 1 − β 0 ) , (β 2 − β 0 ) et (β 2 − β 1 ) . Naturellement, ces différences de paramètres ne sont identifiables que si l’on impose une contrainte de normalisation du type β 0 = 0. Dès lors, on a deux probabilités indépendantes qui nous permettent d’identifier deux paramètres β 1 et β 2 . Ces paramètres s’interprètent comme des écarts au vecteur β 0 . Corollary 3.4. Dans un modèle logit mutinomial à m + 1 modalités : • Les paramètres associés à la modalité de référence, généralement 0, sont normalisés à zéro : seuls les paramètres associées à m modalités peuvent être estimés.

1 1 + exp [xi (β 0 − β 1 )] + exp [xi (β 2 − β 1 )] 1 P rob (yi = 2) = 1 + exp [xi (β 0 − β 2 )] + exp [xi (β 1 − β 2 )]

Econométrie des Variables Qualitatives. Cours C. Hurlin

20

• Les paramètres du modèle s’interprètent comme des écarts au référentiel (c’est à dire aux paramètres β 0 de la modalité 0) • La log vraisemblance s’écrit uniquement en fonction des vecteurs β 1 , ..., β m

La seconde propriété centrale dans l’analyse des modèles logit multinomiaux concerne les ratio de probabilités pj /pk où j et k sont deux modalités distinctes. En effet, on montre la propriété suivante : Proposition 3.5. Dans le cas d’un modèle logit multinomial, le rapport des probabilités associés à deux modalités j et k distinctes, ∀j = 0, .., m et ∀k = 0, .., m, s’écrit sous la forme : exp xi β j P rob (yi = j) pj = = = exp xi β j − β k pk P rob (yi = k) exp (xi β k ) (3.18)

Ce rapport de probabilités est indépendant des alternatives autres que j et k. Ainsi, on illustre une hypothèse très particulière de ces modèles logit multinomiaux indépendants : à savoir l’hypothèse d’Indépendence des Alternatives Non Pertinentes (IAN P ou IIA en anglais pour Independance of Irrelevant Alternative). Cette hypothèse traduit le fait que le rapport de deux probabilités associés à deux évenements particuliers est indépendant des autres événements. La question que se pose est alors de savoir si une telle hypothèse est satisfaite en pratique. Pour montrer à quel point cette hypothèse peut s’avérer inadéquate, reprenons l’exemple du choix de transport proposé par Mac Fadden et connu sous le nom de ”bus bleu, bus rouge”. On considère qu’un individu pour se rendre à son travail à le choix entre deux modes de transports. yi = 0 1 si l’individu prend le métro si l’individu prend un bus bleu

On note pb = p0 la probabilité que l’individu prenne le bus bleu et pm = p1 la probabilité que l’individu prenne le métro dans cette configuration de choix. Supposons maintenant que l’on offre à l’individu la possibilité soit de prendre un bus bleu, soit de prendre un bus rouge.   0 si l’individu prend le métro 1 si l’individu prend un bus bleu yi =  2 si l’individu prend un bus rouge La probabilité que l’agent prenne le bus s’écrit donc sous la forme : pb = P rob (yi = 1) + P rob (yi = 2) (3.19)

La probabilité que l’agent prenne le métro demeure pm = p0 et reste à un niveau inchangé par rapport au cas précédent étant donné les nouvelles alternatives proposées. Si l’on admet que la couleur du bus a vraisemblablement peu de chance d’affecter le choix du mode de transport, on doit avoir que les probabilités de sélection p1 et p2 doivent être égales : P rob (yi = 1) = P rob (yi = 2) (3.20)

Econométrie des Variables Qualitatives. Cours C. Hurlin

21

Maintenant, si l’hypothèse IIA est satisfaite le rapport entre la probabilité de prendre le métro et la probabilité de prendre le bus devrait être la même dans les deux modèles : en effet, ce ratio doit être indépendant des alternatives. Or, ici ce ratio vaut p0 /p1 dans la première modélisation et vaut : p0 1 p0 pm = = pb p1 + p2 2 p1 Ce ratio diffère de celui que l’on avait obtenu en l’absence de l’alternative ”bus rouge” : l’hypothèse IIA n’est donc pas satisfaite. En conclusion, l’hypothèse IIA n’est que rarement satisfaite, ce qui pose le problème de la cohérence d’une modélisation de type logit multinomial pour rendre compte de choix probabilistes. Nous reviendrons dans la prochaine section sur cette hypothèse IIA et les modèles alternatifs qui en rendement compte. Toutefois, le modèle logit multinomial indépendant est très souvent utilisé compte tenu de la simplicité de sa mise en oeuvre pratique. C’est ce que nous allons voir à présent en ce qui concerne l’estimation des paramètres de ce type de modèles..

3.2.2. Estimation des paramètres du logit multinomial Tout comme dans le cas du modèle logit dichotomique, l’estimation des paramètres des modèles logit multinomiaux peut se faire de différentes façons : 1. Méthodes du maximum de vraisemblance 2. Méthodes de moments : GMM, moments simulés etc.. 3. Méthodes non paramétriques et semi-paramétriques Nous n’étudierons ici que la méthode du maximum de vraisemblance à information complète. Comme nous l’avons vu précédemment la vraisemblance associée à un modèle logit multinomial indépendant à m+1 modalités s’écrit en fonction de m vecteur de paramètres β j , j = 1, .., m du fait de la normalisation β 0 = 0. Ainsi l’estimation des paramètres du modèle logit multinomial s’effectue alors en maximisant la log-vraisemblance par rapport aux vecteurs de paramètres (β 1 , β 2 , ..., β m ) :
N m

log L (y, β 1 , β 2 , ..., β m ) =
i=1 j=0

yi,j log [P rob (yi = j)]

avec yi,j = 1 si yi = j et 0 sinon, et où les probabilités P rob (yi = j) sont définies par : P rob (yi = j) =
m k=0

exp xi β j exp xi β j = exp (xi β k ) 1 + m exp (xi β k ) k=1 1+
m k=1

P rob (yi = 0) = avec β 0 par convention.

1 exp (xi β k )

Econométrie des Variables Qualitatives. Cours C. Hurlin

22

Proposition 3.6. La log vraisemblance associée à un modèle logit multinomial à m + 1 modalités j = 0, 1, .., m s’écrit :
N m N m

log L (y, β 1 , β 2 , ..., β m ) =
i=1 j=1

yi,j xi β j −

log 1 +
i=1 k=1

exp (xi β k )

(3.21)

avec β 0 = 0 par convention. En effet, on sait que la log-vraisemblance est définie par la relation suivante :
N m

log L (y, β 1 , β 2 , ..., β m ) =
i=1 j=0 N m

yi,j log (pi,j ) exp xi β j 1 + m exp (xi β k ) k=1

=
i=1 j=0

yi,j log

Si l’on pose Hi = log [1 +

m k=1

log L (y, β 1 , β 2 , ..., β m ) =

exp (xi β k )] , cette expression devient :  
N m N m i=1 j=0

yi,j xi β j −

i=1

Sachant que par conventionβ 0 = 0 on a donc :
N m N m

Hi 

j=0

yi,j 

yi,j xi β j =
i=1 j=0 i=1 j=1

yi,j xi β j

Etant donnée la définition de la variable yi,j qui prend la valeur 1 si yi = j et 0 sinon, on a immédiatement que :
m

yi,j = yi,0 + yi,1 + .. + yi,m−1 + yi,m = 1
j=0

En effet, on sait que la variable yi ne peut prendre qu’une seule et même valeur parmi les m + 1 modalités, dès lors m yi,j = 1. Ainsi, on obtient que : j=0  
N m N N m i=1

Puisque en effet

N i=1

Hi 

j=0

yi,0 = 1. On en déduit alors finalement que :
N m N m

yi,j  =

Hi =

log 1 +

exp (xi β k )

i=1

i=1

k=1

log L (y, β 1 , β 2 , ..., β m ) =
i=1 j=1

yi,j xi β j −

log 1 +
i=1 k=1

exp (xi β k )

On retrouve alors l’expression (3.21) de la log-vraisemblance. Notons au passage que la fonction de log-vraisemblance d’un modèle logit multinomial indépendant est globalement concave5 et que par conséquent on peut utiliser différents algorithmes d’optimisation numérique propres à ce type de problème (Newton Raphson par exemple) et que les résultats ne sont pas sensibles au choix des conditions initiales de ces algorithmes.
5 La

démonstration de ce résultat est laissée au lecteur à titre d’exercice.

Econométrie des Variables Qualitatives. Cours C. Hurlin

23

Definition 3.7. Le gradient associé à la log-vraisemblance d’un modèle logit multinomial est défini ∀z = 1, .., m : ∂ log L (y, β 1 , β 2 , ..., β m ) = ∂β z avec pi,z = P rob (yi = z) . En effet, on a : ∂ log L (y, β 1 , β 2 , ..., β m ) ∂β z =   N m ∂  ∂ yi,j xi β j  − ∂β z i=1 j=1 ∂β z
N N i=1 N i=1

(yi,z − pi,z ) xi

(3.22)

N

m

log 1 +
i=1 k=1

exp (xi β k )

=

yi,z xi −

i=1

1+

exp (xi β z ) xi m k=1 exp (xi β k )

Connaissant la définition de pi,z = P rob (yi = z) , on a donc : ∂ log L (y, β 1 , β 2 , ..., β m ) = ∂β z
N N N

i=1

yi,z xi −

pi,z xi =
i=1 i=1

(yi,z − pi,z ) xi

On retrouve naturellement la même expression que dans le cas du modèle logit bivarié. De la même façon, la matrice hessienne est définie par : ∂ 2 log L (y, β 1 , β 2 , ..., β m ) =− pi,j (Ij,k − pi,k ) xi xi ∂β j ∂β k i=1 où la fonction indicatrice Ij,k est telle que Ij,k = 1 si k = j et 0 sinon. Enfin, on peut naturellement étudier les effets marginaux dans un modèle logit multinomial indépendant de la façon suivante. Definition 3.8. Les effets marginaux d’une variation de la variable exogène xi , ` ∀k = 1, .., K sur la probabilité que l’individu i choisisse la j eme modalité, ∀j = 0, 1, .., m, sont définis par : m ∂pi,j [k] = pi,j β j − pi,z β [k] (3.24) z [k] ∂xi z=0
` où β j est la keme composante de β j associé à la variable explicative xi et où pi,j = ` P rob (yi = j) désigne la probabilité que l’individu i choisisse la j eme modalité : [k] [k] [k] N

(3.23)

pi,j =

exp xi β j
m z=0

(3.25)

exp (xi β z )
m z=0

Pour démontrer ce résultat, on pose H (xi ) = ∂pi,j
[k] ∂xi

exp (xi β z ) En effet, on sait que

= = =

∂
[k] ∂xi

exp xi β j H ∂ exp xi β j
2 [k] ∂xi [k]

1 H (xi ) 1 H (xi )
2

× H (xi ) − exp xi β j

∂H (xi ) ∂xi
m [k]

β j exp xi β j × H (xi ) − exp xi β j

β [k] exp (xi β z ) z
z=0

Econométrie des Variables Qualitatives. Cours C. Hurlin

24

En simplifiant cette expression, on fait apparaître les probabilités pi,j = exp xi β j /H, et on trouve : ∂pi,j
[k] ∂xi

=

[k] βj

exp xi β j H (xi )
m

exp xi β j − H β [k] pi,z z

m

β [k] z
z=0

exp (xi β z ) H

= β j pi,j − pi,j

[k]

z=0

On retrouve ainsi l’expression (3.24) des effets marginaux. Il convient de remarquer que, [k] pour chaque individu, pour une variable explicative quelconque xi , on doit calculer m + 1 effets marginaux associés aux probabilités pi,j pour j = 0, 1, .., m. Dans le cas d’un modèle dichotomique à deux modalités (m = 1), on retrouve évidemment la formule proposée dans le premier chapitre. En effet, nous avions vu que pour un modèle logit univarié : exi β ∂pi = (3.26) 2 βk [k] (1 + exi β ) ∂xi Selon la formule (3.24), dans un modèle à 2 modalités on doit avoir ∂pi,1 ∂xi
[k]

= pi,1 β 1 − pi,0 β 0 − pi,1 β 1

[k]

[k]

[k]

avec pi,1 = P rob (yi = 1) et pi,0 = P rob (yi = 0) = 1 − pi,1 et pi,1 = exi β / 1 + exi β . Par [k] [k] [k] [k] normalisation, on pose β 0 = 0, ∀k, dès lors, il vient ∂pi,1 /∂xi = pi,1 β 1 − p2 β 1 ou encore : i,1 ∂pi,1 ∂xi
[k]

= β1

[k]

exi β − 1 + exi β

exi β 1 + exi β

2

= β1

[k]

exi β (1 + exi β )
2

On retrouve naturellement la formule proposée dans le cadre du premier chapitre pour le modèle logit dichotomique.

3.2.3. Exemples de modèles logit multinomial Le exemple de modèle logit multinomial est tiré de Perloff et Watcher (1979). Aux EtatsUnis en 1977-1978 est mis en place un programme de subventions destiné à lutter contre le chômage endémique lié à la crise économique du début des années 70. Ce programme vise à proposer des réductions de taxes aux entreprises qui embauchent de nouveaux salariés et plus particulièrement des salariés non qualifiés. Perloff et Watcher (1979) proposent d’évaluer ` l’utilité de ce programme en régressant la variation en pourcentage de l’emploi dans la ieme ∗ firme, notée yi , sur différentes variables explicatives incluant notamment une variable dummy indiquant si l’entreprise participe au programme. Etant donnés que les premiers résultats de ces régressions n’étaient pas satisfaisant, les auteurs ont alors regroupées les entreprises en cinq ∗ classes : celles pour lesquels yi était compris dans les intervalles S0 = ]−∞, −1] , S1 = ]−1, 2] , S2 = ]2, 30] , S3 = ]30, 45] et S4 = [45, +∞[ . Ils ont alors estimé un modèle non ordonné de type logit multinomial en essayant de modéliser la probabilité
∗ pi,j = P rob (yi ∈ Sj )

(3.27)

Econométrie des Variables Qualitatives. Cours C. Hurlin

25

en utilisant les mêmes variables explicatives que dans leurs premières estimations. Dans leur modèle les variables xi,j sont indépendantes des modalités (xi,j = xi ) et les coefficients β j ∗ varient avec les modalités. On a vu que généralement lorsque la variable latente yi est continue, distribuée selon une loi normale et observable, il est préférable de ∗ régresser directement yi sur un ensemble de variables explicatives plutôt que de ∗ vouloir modéliser les probabilités que yi tombe dans certains intervalles. Pourtant, ∗ si yi est distribuée selon une loi inconnue et non normale qui dépend de xi d’une façon plus compliquée qu’un simple problème de localisation dans un intervalle, la procédure de Perloff et ∗ Watcher peut donner de meilleurs résultats que les M CO de yi sur xi . **************************************** *** Chercher d’autres applications sur EconLit ** **************************************** 3.3. Application ******************************************** *** Application Eviews ou Limdep à programmer *** ********************************************

3.4. Logit Conditionnel Comme nous l’avons vu, le modèle logit multinomial indépendant permet d’envisager une modélisation où les paramètres diffèrent selon les modalités, mais où les variables explicatives sont les mêmes quelles que soient les modalités. Ces dernières ne varient qu’avec les individus. Si l’on reprend la notation de l’utilité stochastique utilisée précédemment, on a un modèle où la probabilité que l’individu i choisisse la modalité j s’écrit sous la forme : P rob (yi = j) = exp [v (xi,j )]
m

(3.28)

exp [v (xi,k )]
k=0

où la fonction v (.) est linéaire, les paramètres β j diffèrent selon les modalités et que les variables explicatives varient uniquement en fonction des individus : v (xi,j ) = xi β j (3.29)

Une alternative à ce modèle logit multinomial consiste à supposer qu’au contraire les paramètres β sont indépendants des modalités et que ce sont les variables explicatives qui diffèrent selon les modalités et les individus : v (xi,j ) = xi,j β (3.30)

On obtient alors, un modèle logit multinomial conditionnel (ou logit conditionnel) introduit par McFadden (1973). La définition d’un modèle logit conditionnel est ainsi la suivante : Definition 3.9. Dans un modèle logit conditionnel, la probabilité que l’individu i choisisse la modalité j, ∀j = 0, .., m, est définie par : P rob (yi = j) = exp (xi,j β )
m

= 1+

exp x∗ β i,j
m

(3.31)

exp (xi,k β)
k=0

k=1

exp x∗ β i,k

Econométrie des Variables Qualitatives. Cours C. Hurlin où par convention x∗ = xi,j − xi,0 . i,j

26

Nous allons à présent étudier quels sont les avantages et limites de cette spécification avant de proposer différentes applications.

3.4.1. Spécification du logit conditionnel Commençons par étudier le rapport de probabilités dans un modèle logit conditionnel. On constate immédiatement que ce modèle vérifie l’hypothèse IIA tout comme le modèle logit multinomial. Proposition 3.10. Dans le cas d’un modèle logit conditionnel, le rapport des probabilités associés à deux modalités j et k distinctes, ∀j = 0, .., m et ∀k = 0, .., m, s’écrit sous la forme : P rob (yi = j) exp (xi,j β) pj = = = exp [(xi,j − xi,k ) β] pk P rob (yi = k) exp (xi,k β) (3.32)

Ce rapport de probabilités est indépendant des alternatives autres que j et k. Ainsi, le modèle logit conditionnel de McFadden vérifie l’hypothèse d’Indépendence des Alternatives Non Pertinentes (IAN P ou IIA en anglais pour Independance of Irrelevant Alternative). Donc l’avantage de ce modèle ne se situe pas dans ses propriétés vis à vis de l’hypothèse d’IIA. L’avantage de ce modèle se situe d’avantage dans la possibilité qui est offerte de prédire la probabilité d’une nouvelle modalité (virtuelle) en fonction de variables explicatives simulées. Proposition 3.11. Le modèle logit conditionnel permet d’estimer la probabilité associée à une modalité virtuelle de la façon suivante : Pm+1 = 1+
k=1

exp x∗ i,m+1 β
m

(3.33)

exp x∗ β + exp x∗ i,m+1 β i,k

où β désigne un estimateur convergent de β obtenu sur la base des modalités j = 0, .., m existantes et où x∗ i,m+1 est une estimation des caractéristiques exogènes ` associées à la m + 1eme modalité virtuelle. C’est l’exemple typique du modèle hypothétique de choix de transport cité dans Amemiya (1981) et Alban (2000). Prenons l’exemple d’une collectivité territoriale envisageant la mise en place d’un nouveau mode de transport public, le tramway, en plus des modes de transports collectifs existant (le bus pour simplifier). Pour évaluer la probabilité que les administrés choisissent le tramway, on conduit tout d’abord une enquête sur les choix des modes de transport existant : le but est de calculer la probabilité que l’individu choisisse le bus (modalité 1), la voiture (modalité 2), ou le vélo (modalité 3). On a ici m + 1 = 4 modalités, la modalité de référence (codée 0) étant les autres modes de transports (marche à pieds, roller, auto-stop etc..). Les variables explicatives sont exprimées en différences par rapport à leur valeur prises dans la modalité 0. Il s’agit par exemple du temps de transport moyen du domicile au lieu de [1] [2] travail pour le mode j, noté ti,j = xi,j et le coût au kilomètre de ce mode, noté ci,j = xi,j ,

Econométrie des Variables Qualitatives. Cours C. Hurlin

27

pour l’individu i. Le modèle donne alors la probabilité qu’un individu caractérisé par des temps relatifs (ti,1 , ti,2 , ti3 ) et des coûts (ci,1 , ci,2 , ci3 ) choisisse le mode de transport j = 1, 2, 3. La probabilité que l’individu i choisisse le bus est par exemple égale à : P rob (yi = 1) = 1+
k=1

exp (β 0 + β 1 ti,1 + β 2 ci,1 )
3

= 1+

exp x∗ β i,1
3 k=1

exp (β 0 + β 1 ti,j + β 2 ci,j )

exp x∗ β i,k

avec β = (β 0 β 1 β 2 ) et

x∗ i,j

= (1 ti,j ci,j ) .

Comme le mode de transport métro (modalité 4) n’existe pas encore, les variables de temps de trajet ti,4 et de coût ci,4 ne sont pas disponibles. Mais elles peuvent être simulées à partir d’une évaluation du temps de trajet du métro et du coût au kilomètre de ce mode de transport dans d’autres villes. Soient ti,4 et ci,4 les évaluations correspondantes. Si l’on dispose en outre d’un estimateur convergent β du vecteur de paramètres β, on peut alors calculer la probabilité qu’un individu i prenne le métro lorsque celui-ci sera effectivement mis en place : P rob (yi = 4) = 1+
k=1

exp β 0 + β 1 ti,4 + β 2 ci,4
3

exp β 0 + β 1 ti,j + β 2 ci,j + exp β 0 + β 1 ti,4 + β 2 ci,4

Cela donne la probabilité que l’individu i choisisse le métro plutôt que les autres modes de transport.

3.4.2. Estimations des paramètres du logit conditionnel Tout comme dans le cas du modèle logit multinomial, plusieurs méthodes peuvent être utilisées pour estimer les paramètres d’un modèle logit conditionnel : méthodes du maximum de vraisemblance, méthodes de moments, méthodes non paramétriques et semi-paramétriques. Nous n’étudierons ici que la méthode du maximum de vraisemblance à information complète. La vraisemblance associée à un modèle logit conditionnel à m+1 modalités s’écrit en fonction d’un vecteur β ∈ RK de K paramètres.
N m

log L (y, β) =
i=1 j=0

yi,j log [P rob (yi = j)]

avec yi,j = 1 si yi = j et 0 sinon, et où les probabilités P rob (yi = j) sont définies par : P rob (yi = j) = avec par convention x∗ = xi,j − xi,0 . i,j Proposition 3.12. La log vraisemblance associée à un modèle logit conditionnel s’écrit alors :
N m N m

exp (xi,j β )
m

= 1+

exp x∗ β i,j
m k=1

exp (xi,k β)
k=0

exp x∗ β i,k

log L (y, β) =
i=1 j=0 N m

yi,j xi,j β −
N

log
i=1 k=0 m

exp (xi,j β) exp x∗ β i,j
k=1

(3.34)

=
i=1 j=1

yi,j x∗ β − i,j

log 1 +
i=1

Econométrie des Variables Qualitatives. Cours C. Hurlin avec x∗ = xi,j − xi,0 par convention. i,j En effet, on sait que la log-vraisemblance est définie par la relation suivante :
N m

28

log L (y, β) =
i=1 j=0 N m

yi,j log (pi,j ) exp x∗ β i,j 1+
m k=1

=
i=1 j=0

yi,j log

exp x∗ β i,j

On en déduit la relation suivante :
N m N

log L (y, β) =
i=1 j=0 N m

yi,j x∗ β i,j

−

i=1 N

 

m

j=0

yi,j  log 1 +
m k=1



m

exp x∗ β i,j
k=1

=
i=1 j=1

yi,j x∗ β − i,j

log 1 +
i=1

exp x∗ β i,j

puisque par construction m yi,j = 1 et que x∗ = 0. On retrouve alors l’expression (3.34) i,0 j=0 de la log-vraisemblance. De la même façon que pour un modèle logit multinomial, la fonction de log-vraisemblance d’un modèle logit conditionnel est globalement concave.

3.4.3. Exemples de modèles logit conditionnel Un premier exemple de modèle logit conditionnel est donné dans l’étude de 1976 de McFadden (prix Nobel 2000). Dans cette étude, préalablement réalisée en 1968, McFadden utilise un logit conditionnel pour analyser la sélection des projets autoroutiers faite par la division californienne des autoroutes (California Division of Highways) pour les districts de San Fransisco et de Los ` Angles durant les années 1958-1966. L’échantillon porte sur N = 65 projets. Le ieme projet peut être choisi parmi mi routes possibles et la probabilité de sélection est donnée par : P rob (yi = j) = exp (xi,j β )
mi

exp (xi,k β)
k=0

∀j = 0, 1, .., mi

(3.35)

où xi,j est un ensemble de caractéristiques attribuées à la route j dans le projet i (durée de trajet, nombre de kilomètre, difficulté de construction etc..). Naturellement pour chaque projet, le nombre de routes possibles diffère : d’où la présence d’un terme mi pour le nombre de modalités. Naturellement, l’ensemble des caractéristiques xi,j diffère avec la nature du projet mais aussi selon les routes envisagées pour ce projet. McFadden considère deux ensembles de variables explicatives xi,j : un premier ensemble ne comportant que des variables de coûts et de bénéfices, le second ensemble regroupe les variables du premier ainsi que des variables qui expriment les sentiments de la population sur le projet et le degré selon lequel la population sera affectée par le projet. A chaque ensemble de variables explicatives, McFadden associe un modèle logit conditionnel différent et le choix du modèle est fait selon le critère de la log-vraisemblance et le critère du nombre de prédictions fausses. Ce que montre ainsi McFadden c’est que pour chaque projet le classement entre les différentes routes (selon la probabilité de sélection pi,j ) diffère selon le modèle utilisé. Suivi que l’on ne considère

Econométrie des Variables Qualitatives. Cours C. Hurlin

29

que des variables de coûts - bénéfices ou des variables liées aux souhaits de la population, les probabilités affectés pour un même projet aux différentes routes varient.

3.4.4. Applications ******************************************** *** Application Eviews ou Limdep à programmer *** ********************************************

3.5. Logit Universel La dernière catégorie des modèles logit multinomiaux est celle du logit universel, qui comme son nom l’indique englobe le logit multinomial indépendant et le logit multinomial conditionnel de McFadden. Si l’on reprend la notation de l’utilité stochastique utilisée précédemment, on a un modèle où la probabilité que l’individu i choisisse la modalité j s’écrit sous la forme : P rob (yi = j) = exp [v (xi,j )]
m

(3.36)

exp [v (xi,k )]
k=0

où la fonction v (.) est linéaire, les paramètres β j diffèrent selon les modalités et que les variables explicatives varient uniquement en fonction des individus : Definition 3.13. Le modèle logit multinomial universel (ou logit universel) est obtenu pour toute fonction v (.) continue dépendant de paramètres β j conditionnels aux modalités et de l’ensemble des variables explicatives du modèle : v (xi,j ) = v β j , xij (3.37)

La probabilité que l’individu i choisisse la modalité j, ∀j = 0, .., m, est alors définie par : exp v β j , xij (3.38) P rob (yi = j) = m exp v β j , xij
k=0

On peut montrer que si les fonctions v β j , xij dépendent de l’ensemble des caractéristiques, le modèle logit universel ne satisfait pas l’hypothèse d’indépendance des alternatives non pertinentes (IIA). Lorsque v (.) est linéaire dans les paramètres β j , on retrouve alors le modèle logit indépendant.

Econométrie des Variables Qualitatives. Cours C. Hurlin

30

4. L’hypothèse d’indépendance des alternatives non pertinentes
Tests + modèles alternatifs.

4.1. Test de l’hypothèse IIA

4.2. Modèle Alternatifs 4.2.1. Probit multinomial 4.2.2. Logit Hierarchisé cf amemiya

Econométrie des Variables Qualitatives. Cours C. Hurlin

31

Bibliographie
Amemiya T. (1981), ”Qualitative Response Models : A Survey”, Journal of Economic Litterature, 19(4), 481-536 Alban T. (2000), ”Econométrie des Variables Qualitatives”, Dunod. David J.M. et Legg W.E. (1975), ”An application of Multivariate Probit Analysis to the Demand for Housing”, Journal of Business and Economic Statistics, August 1975, 295-300 Gourieroux C. (1989), ”Econométrie des Variables Qualitatives”, Economica. Gurland J., Lee I.et Dahm P. (1960), ”Polytchotomous Quantal Response in Biological Assay”, Biometrics, Sept. 1960, 382-388. Greene W.H. (1997), ”Econometric Analysis”, Londres, Prentice Hall. Judge G.G., Miller D.J. et Mittelhammer R.C. (2000), ”Econometric Foundations”, Cambridge University Press. Maddala. G.S. (1983), ”Limited-dependent and Qualitative Variables in Econometrics”, Econometric Society Monographs, 3, Cambrige University Press. McFadden D. (1976), ”The Revealed Prefrences of a Government Bureaucracy: Empirical Evidence”, Bell Journal of Economic Mangament, Spring 1976, 55-72 Spector L.C. et MazzeoMcFadden M. (1980), ”Probit Analysis and Economic Education”, Journal of Economic Education, 11(2), 37-44 Tobin J. (1958), ”Estimation of Relationships for Limited Dependent Variables”, Econometrica, 26, 24-36.

Contents
1 Le Modèle Tobit Simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1 Estimation par les Moindres Carrés Ordinaires . . . . . . . . . . . . . . 1.1.1 Application des MCO à l’ensemble des observations . . . . . . . ∗ 1.1.2 Application des MCO aux observations pour lesquelles yi > 0 . . 1.2 Estimation par la méthode en deux étapes : Heckman (1976) . . . . . . 1.3 Estimation par le Maximum de Vraisemblance . . . . . . . . . . . . . . . 1.3.1 Log Vraisemblance dans un modèle Tobit simple . . . . . . . . . 1.3.2 Re-paramétrisation d’Olsen (1978) . . . . . . . . . . . . . . . . . 1.4 Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5 Effets marginaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6 Propriétés de l’estimateur du MV sous des hypothèses non standard . . 1.6.1 Hétéroscédasticité . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6.2 Non normalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.7 Extensions du modèle Tobit Simple : modèles à censure multiples . . . . 1.7.1 Modèle Tobit simple à censures multiples . . . . . . . . . . . . . 1.7.2 Modèle Tobit simple à double censure : Rosett et Nelson (1975) 1.7.3 Application modèle à double censure . . . . . . . . . . . . . . . . 2 Les Modèles Tobit Généralisés . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 Modèle Tobit Généralisé Type 2 . . . . . . . . . . . . . . . . . . . . . . 2.1.1 Définition du Tobit généralisé de type II . . . . . . . . . . . . . . 2.1.2 Estimation par Maximum de Vraisemblance . . . . . . . . . . . . 2.1.3 Estimation en deux étapes : Heckman (1976) . . . . . . . . . . . 2.1.4 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.5 Modèle de Troncature Auxiliaire ou Modèle Heckit . . . . . . . . 2.2 Autres Modèles Tobit Généralisés . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Modèle Tobit Généralisé Type 3 . . . . . . . . . . . . . . . . . . 2.2.2 Modèle Tobit Généralisé Type 4 . . . . . . . . . . . . . . . . . . 2.2.3 Modèle Tobit Généralisé Type 5 . . . . . . . . . . . . . . . . . . 3 Les Modèles à régimes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Modèle à régimes observables . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Modèle à régimes inobservables . . . . . . . . . . . . . . . . . . . . . . . A Annexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.1 Concavité de la log-vraisemblance . . . . . . . . . . . . . . . . . . . . . . A.2 Programme de simulation d’un probit simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 9 9 12 14 16 16 18 21 23 27 27 31 35 35 37 39 40 41 41 42 45 47 48 50 50 50 50 50 50 50 51 51 51

Econométrie des Variables Qualitatives. Cours C. Hurlin

2

Maîtrise d’Econométrie Université d’Orléans

Econométrie des Variables Qualitatives
Chapitre III Modèles à Variable Dépendante Limitée
Modèles Tobit Simples et Tobit Généralisés

Christophe HURLIN
Novembre 2002

Econométrie des Variables Qualitatives. Cours C. Hurlin

3

Introduction
Nous allons à présent envisager le cas des modèles à variable dépendante limitée :ce sont des modèles pour lesquels la variable dépendante est continue mais n’est observable que sur un certain intervalle. Ainsi, ce sont des modèles qui se situent à mi chemin entre les modèles de régression linéaires où la variable endogène est continue et observable et les modèles qualitatifs. En effet, les modèles à variable dépendante limitée dérivent des modèles à variables qualitatives, dans le sens où l’on doit modéliser la probabilité que la variable dépendante appartienne à l’intervalle pour lequel elle est observable. Nous verrons que la structure de base des modèles à variable dépendante limitée est représentée par le modèle Tobit. Avant de présenter plus en détail les modèles à variable dépendante limitée, et plus spécifiquement le modèle Tobit, il convient au préalable de préciser les termes que nous allons utilisés par la suite dans le cadre de ce chapitre. Les modèle Tobit se réfèrent de façon générale à des modèles de régressions dans lesquels le domaine de définition de la variable dépendante est contraint sous une forme ou une autre. En économie, de tels modèles ont été initiés par James Tobin (1958). Son analyse portait sur les dépenses de consommation en biens durables et reposait sur une régression tenant compte spécifiquement du fait que ces dépenses ne peuvent pas être négatives. La variable dépendante était ainsi assujettie à une contrainte de non négativité. Tobin qualifia son modèle de modèle à variable dépendante limitée1 (limited dependent variables model) d’où le titre de ce chapitre. Ce modèle et ses généralisations sont plus connus parmi les économistes sous le nom de modèle Tobit. Ce terme a été introduit par Goldberger (1964) en raison des similarités avec le modèle probit. Toutefois, ces modèles sont aussi appelés modèles de régression censurées (censored regression models) ou modèle de régression tronquée (truncated regression models). Cette terminologie plus précise permet en effet d’introduire la distinction entre des échantillons tronqués et des échantillons censurés : 1. Un modèle de régression est dit tronqué lorsque toutes les observations des variables explicatuves et de la variable dépendante figurant en dehors d’un certain intervalle sont totalement perdues. 2. Un modèle de régression est dit censuré lorsque l’on dispose au moins des observations des variables explicatives sur l’ensemble de l’échantillon. Nous verrons par la suite que le modèle Tobit est ainsi un modèle de régression censurée. Les modèles censurés et tronqués ont été utilisés dans d’autres disciplines indépendamment de leur utilisation et développement en économie, et ce notamment en biologie et dans
1 Tobin

J. (1958), ”Estimation of Relationships for Limited Dependent Variables”, Econometrica, 26, 24-36.

Econométrie des Variables Qualitatives. Cours C. Hurlin

4

les sciences de l’ingénieur. En biologie, de tels modèles furent utilisés pour représenter le temps de survie des patients en fonction de certaines caractéristiques : les échantillons étaient en effet censurés ou tronquées dès lors que le patient reste en vie à la dernière date d’observation de l’échantillon ou si il ne peut pas être ausculté à cette date pour une raison quelconque. De la même façon en ingénierie, les modèles censurés et tronqués sont utilisés pour analyser le temps de survie d’un matériel ou d’un système en fonction de ses caractéristiques. De tels modèles sont alors qualifiés de modèles de survie (survival models). Les économistes et les sociologues ont aussi utilisés des modèles de survie pour évaluer la durée de phénomènes comme le chômage, le mariage, la durée de résidence dans certains lieux etc... Mathématiquement, les modèles de durée appartiennent à la même classe que les modèles Tobit, mais font souvent l’objet d’un traitement à part. Entre 1958, date de parution de l’article de Tobin et les années 70, les modèles Tobit ont été utilisés très fréquemment en économie sous l’effet de la conjonction de deux phénomènes : d’une part la plus grande disponibilité de bases micro-économiques et d’autre part le développement des capacités informatiques qui a permis de traiter des modèles Tobit de grande taille. Du fait de ces très nombreuses applications, différentes extensions et généralisations ont été proposées pour le Tobit : modèle Tobit généralisé, modèles à seuils stochastiques... C’est pourquoi on a introduit la caractérisation de modèle Tobit simple pour désigner le modèle développé par Tobin et le distinguer des autres extensions. Amemiya (1983) identifie ainsi 5 types de modèle de Tobit, le Tobit simple étant qualifié de modèle Tobit Type I.

∗ ∗ Plus formellement, considérons N couples de variables (xi , yi ) où la variable yi est engendrée ∗ K par un processus aléatoire tel que E (yi /xi ) = xi β, où β ∈ R est un vecteur de paramètres. ∗ On suppose que la variable yi n’est pas toujours observable : on ne l’observe que si sa valeur ∗ est supérieure à un certain seuil ci . On peut ainsi construire une variable yi , qui est égale à yi ∗ lorsque celle-ci est observable et qui vaut ci par convention lorsque yi n’est pas observable.

yi =

∗ yi ci

∗ si yi > ci sinon

∀i = 1, ..N

(0.1)

La constante ci peut être identique pour tous les individus. Deux cas peuvent alors se présenter suivant la nature des observations : 1. Si le vecteur xi est observable pour tous les individus et cela indépendamment du fait que ∗ ∗ la variable yi soit observable ou non, on un échantillon censuré. Seule la variable yi est observable sur un intervalle [ci , +∞[
∗ 2. Si le vecteur xi est observable uniquement pour les individus pour lesquels la variable yi ∗ est observable, on un échantillon tronqué. On ne dispose d’observations (xi , yi ) que ∗ pour les individus pour lesquels yi > ci .

On a par exemple un échantillon tronqué dans le cadre d’une enquête où les ménages ne ∗ répondent à l’enquête que s’ils répondent à la question permettant de déterminer yi . Ceux ∗ pour lesquels yi ≤ ci ne répondent pas à l’enquête ou sont éliminés de l’échantillon par les enquêteurs.

Econométrie des Variables Qualitatives. Cours C. Hurlin

5

L’utilisation de modèles Tobit suppose que soient particulièrement connus les résultats relatifs aux moments et aux moments conditionnels d’une variable distribuée selon une loi normale tronquée. C’est pourquoi, avant de présenter ces modèles, nous proposons les résultats suivants. Soit Φ (.) la fonction de répartition de la loi normale centrée réduite N (0, 1) et soit φ (.) la fonction de densité associée.

Proposition 0.1. Considérons une variable y suivant une loi normale tronquée telle que : si y ∗ > 0 y∗ (0.2) y= sinon 0 où y ∗ est distribuée selon une loi normale N m, σ 2 . On admet alors les propriétés suivantes : 1. Espérance de y : E (y) = m Φ 2. Espérance conditionnelle de y : E (y/y > 0) = m + σ φ Φ
m σ m σ

m m +σφ σ σ

(0.3)

= m+σλ

m σ

(0.4)

où λ (x) = φ (x) /Φ (x) désigne le ratio de Mill. 3. Variance de y : V (y) = σ 2 Φ avec W (x) =
x Φ (t) dt −∞

m m + W σ σ

m m − W2 σ σ

(0.5)

= xΦ (x) + φ (x) . Par conséquent :

V (y) = m2 Φ

m m m m + mσφ + σ2 Φ − m2 Φ2 σ σ σ σ m m 2 2 m −2 m σ φ Φ −σ φ σ σ σ

4. Variance conditionnelle de y : V (y/y > 0) = σ2 1 − m m m λ − λ2 σ σ σ (0.6)

Notons simplement que puisque le ratio de Mill λ (x) joue un grand rôle dans l’analyse des moments d’une loi normale tronquée, il est intéressant de vérifier qu’il s’agit d’une fonction décroissante de x : −λ (x) W (x) ∂λ (x) = (0.7) ∂x Φ (x)

Econométrie des Variables Qualitatives. Cours C. Hurlin

6

La forme générale du ratio de Mill est reproduite sur la figure (0.1). Figure 0.1: Ratio de Mill : λ (x) = φ (x) /Φ (x)
6

5

4

Ratio de Mill

3

2

1

0 -5

-4

-3

-2

-1

0

1

2

3

4

5

Etudions à présent le modèle Tobit Simple ou modèle Tobit de type 1 suivant la terminologie d’Amemiya (1983).

Econométrie des Variables Qualitatives. Cours C. Hurlin

7

1. Le Modèle Tobit Simple
Comme nous l’avons dit en introduction le modèle Tobit2 a été développé par Tobin (1958), même si le terme de modèle Tobit n’est apparu qu’en 1964 dans un article de Goldberger. Dans son étude, Tobin cherche à modéliser la relation entre le revenu d’un ménage et les dépenses en biens durables. Il dispose pour cela d’un échantillon de N = 735 consommateurs tiré du Survey of Consumer Finances. Tobin observe que lorsque l’on représente les couples revenus - dépenses des N consommateurs, la relation obtenue ressemble au graphique (1.1) ci-dessous. Une des caractéristiques essentielles des données étant que plusieurs observations pour le montant des dépenses de consommation sont nulles. En effet, ces observations sont nulles pour tous les ménages n’ayant pas acheté de biens durables sur la période. Pour ces individus, on dispose ainsi d’observations sur le revenu mais pas d’observations sur les dépenses de consommation : on un échantillon censuré. Figure 1.1: Nuage de Points : Modèle Tobit Simple
6

5

4

3

2

1

0 0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

Cette propriété remet en cause l’hypothèse de linéarité et montre que les moindres carrés ordinaires ne sont pas la méthode pertinente pour estimer une telle relation. De façon plus générale, on peut pas ici utiliser une densité continue pour expliquer la distribution conditionnelle des dépenses par rapport au revenu : en effet, une distribution continue est incompatible avec le fait que plusieurs observations des dépenses soient nulles. C’est donc dans ce contexte que Tobin propose son modèle à variable dépendante limitée (limited dependent variable model ).
2 Dans

cette section nous parlerons de modèle Tobit en réference au Tobit simple pour alléger les notations.

Econométrie des Variables Qualitatives. Cours C. Hurlin

8

L’histoire que propose Tobin est alors la suivante. Considérons un agent qui a le choix entre deux biens x et y, qui cherche à maximiser son utilité U (x, y) sous sa contrainte de budget de la forme x + py ≤ R, où p est le prix relatif et R le revenu. On suppose que le prix du bien x sert de numéraire. On admet parallèlement que la consommation de bien x satisfait une contrainte de non négativité x ≥ 0, mais que la consommation de bien y vérifie une contrainte du type y ≥ y0 ou y = 0. Cette contrainte traduit simplement une indivisibilité des premières unités de biens y. Supposons que y ∗ soit la solution du programme de maximisation de l’utilité sous la contrainte de budget et la contrainte x ≥ 0. (x∗ , y ∗ ) = arg max U (x, y) sc sc : : x + py ≤ R.
{x,y}

x≥0

Dès lors, deux cas sont à considérer : soit le niveau de consommation potentielle du bien y ∗ est suffisamment élevé par rapport au seuil y0 et l’agent consomme effectivement du bien y en quantité y ∗ , soit il n’est pas suffisamment élevé et l’agent ne consomme pas de bien y. Formellement on a : y∗ si y ∗ > y0 y= 0 Si l’on suppose que la solution non contrainte y ∗ est fonction d’un certains nombres de caractéristiques x et d’une perturbation ε sous la forme y ∗ = β 0 + β 1 x + ε et si l’on suppose la normalité des perturbations ε , alors on peut reproduire des valeurs de la consommation y semblables à celles du graphiques (1.1). Il suffit pour cela de supposer que les seuils y0 sont les mêmes pour tous les individus et que y0 = 0. Ainsi, le modèle originellement proposé par Tobin (1958) est le suivant : Definition 1.1. Un modèle Tobit Simple ou modèle Tobit de type I est défini par :
∗ yi = xi β + εi

∀i = 1, ..N
∗ si yi > 0 ∗ si yi ≤ 0

(1.1) (1.2)

yi =

∗ yi 0

où xi = x1 ..xK , ∀i = 1, .., N désigne un vecteur de caractéristiques observables et où i i β = (β 1 ...β K ) ∈ RK est un vecteur de paramètres inconnus et où les perturbations εi sont distribués selon une loi N 0, σ 2 . ε On suppose ainsi que les variables yi et xi sont observées pour tous les individus, mais ∗ que les variables yi sont observables uniquement si elles sont positives. On note X la matrice de dimension (N, K) telles que les lignes de cette matrice correspondent aux vecteurs xi . On suppose en outre que lim X X = QX
N →∞

où QX est une matrice définie positive.
∗ Remarquons que l’écriture d’un seuil nul yi > 0 peut parfaitement être changé en un seuil > y0 sans que le modèle soit changé. Il suffit pour cela d’absorber dans le vecteur des

∗ yi

Econométrie des Variables Qualitatives. Cours C. Hurlin

9

caractéristiques xi une constante et de lui associer un coefficient égal à y0 . Le cas où les seuils yi,0 diffèrent selon les individus nécessite toutefois de modifier le modèle. Essayons à présent de comprendre pourquoi l’application d’une méthode de moindres carrés ordinaires ne permet pas d’estimer de façon convergente le vecteur des paramètres β associés aux variables explicatives.

1.1. Estimation par les Moindres Carrés Ordinaires Au delà des calculs, on observe immédiatement sur l’exemple de la figure (1.1) que l’application des Moindres Carrés Ordinaires n’est pas la méthode adéquate pour révéler la relation entre consommation et revenu pour au moins eux raisons : 1. Le nuage de point sera alors mal décrit par une relation du type consommation = a + b ∗ revenu puisque le nuage de points comporte deux parties distinctes. 2. L’hypothèse de loi continue généralement faite sur les perturbations n’est pas adaptée dans ce cas puisque la valeur nulle de la consommation est observée de nombreuses fois dans l’échantillon et a donc sans doute une probabilité d’apparition nettement différente de zéro. Nous allons toutefois montrer l’application des M CO à l’ensemble des observations ou l’application des M CO aux seules observations pour lesquelles on observe la variable y ∗ conduit à une estimation biaisée des paramètres du vecteur β. On suppose que les N observations de l’échantillon sont générées à partir du processus générateur de données suivant : yi =
∗ yi 0 ∗ si yi = xi β + εi > 0 sinon

∀i = 1, ..N

avec xi = x1 ..xK , ∀i = 1, .., N, β = (β 1 ...β K ) ∈ RK et où les perturbations εi sont distribués i i selon une loi N 0, σ 2 . On cherche ici à estimer le vecteur de paramètre β par le méthode des ε Moindres Carrés Ordinaires. Deux solutions sont alors envisageables : 1. Soit on applique les M CO à l’ensemble des observations (xi , yi ) de l’échantillon
∗ 2. Soit on applique les M CO aux seules observations (xi , yi ) pour lesquels yi > 0.

Commençons tout d’abord par appliquer les M CO à l’ensemble des observations de l’échantillon. 1.1.1. Application des MCO à l’ensemble des observations L’estimateur des M CO appliqué à l’ensemble des N couples d’observations (yi , xi ) est défini par la relation suivante :
N −1 N

β LS =
i=1

xi xi
i=1

xi yi

(1.3)

Econométrie des Variables Qualitatives. Cours C. Hurlin

10

Supposons pour commencer que les variables exogènes xi sont déterministes et déterminons alors l’expression de E β LS , comme suit :
N −1 N

E β LS =
i=1

xi xi
i=1

xi E (yi )

(1.4)

Cette expression dépend de la quantité E (yi ) qui correspond à l’espérance d’une variable normale tronquée. En appliquant la formule de l’espérance d’une loi normale tronquée, on montre que : xi β xi β + σε φ E (yi ) = xi β Φ σε σε On en déduit immédiatement que l’estimateur des moindres carrés β est biaisé : en effet la quantité E β LS est une fonction non linéaire de β et ne peut donc pas être égale à β. Le biais peut être positif ou négatif et pour le caractériser, considérons le cas où K = 1, on a alors β LS =
N i=1

x2 i

−1

N i=1

xi yi et l’on en déduit que : 1
N i=1 N

E β LS = Si l’on admet que

N i=1 xi E (yi ) N 2 i=1 xi

=

x2 i

x2 βΦ i
i=1

xi β σε

+ xi σ ε φ

xi β σε

n→∞

lim V β LS = 0 qui dans le cas général diffère

alors, on en déduit que l’estimateur β LS converge vers E β LS de la vraie valeur β des paramètres : β LS −→ β = β
N →∞ p

(1.5)

L’estimateur des M CO de β appliqué sur l’ensemble des observations est non convergent. Il est alors relativement difficile dans le cas de variables déterministes de donner un résultat général sur la forme du biais, c’est à dire sur le fait que l’estimateur β LS sur-estime ou sous estime la vraie valeur β des paramètres. C’est pourquoi, nous allons à présent envisager le cas de variables explicatives stochastiques.

Envisageons à présent le cas où les variables xi sont des variables aléatoires. Goldberger (1981) a étudié les biais asymptotiques de l’estimateur des M CO dans ce cas en supposant que les toutes les variables explicatives xi , à l’exception du terme constant, étaient distribuées selon une loi normale. Goldberger réécrit ainsi le modèle sous la forme : yi =
∗ yi 0 ∗ si yi = α + xi β + εi > 0 sinon

∀i = 1, ..N

avec xi = x1 ..xK , ∀i = 1, .., N, β = (β 1 ...β K ) ∈ RK et γ ∈ R. Les résidus εi sont distribués i i selon une loi normale N 0, σ2 . ε Hypothèse On suppose que les variables explicatives xi sont distribuées selon une loi normale (k) N (0, Ω) avec cov εi xi = 0, ∀k = 1, .., K.

Econométrie des Variables Qualitatives. Cours C. Hurlin

11

L’hypothèse de nullité de l’espérance des variables explicatives xi n’est pas gênante ici puisque si l’on considère des variables non centrées, on peut sans problème intégrer cette quantité dans le terme constant α. Proposition 1.2. Sous les hypothèses de Goldberger (1981), l’estimateur β LS des Moindres Carrés Ordinaires obtenu sur l’ensemble des observations (xi , yi ) vérifie : β LS −→ β × Φ
N→∞ p

α σy

(1.6)

∗ où α correspond à la constante de l’équation yi = α + xi β + εi et σ 2 = σ 2 + β Ωβ, où y ε Ω désigne la matrice de variance covariance des variables explicatives xi .

La démonstration de cette proposition figure dans Greene (1981) Exemple : Considérons le cas où α = 0. Etant donné que Φ (0) = 0.5, lorsque il n’y pas ∗ de constante dans la définition de la variable latente yi (α = 0), alors on obtient une relation du type plim β LS = 0.5 × β. Dans ce cas, l’estimateur obtenu sur la totalité de l’échantillon converge asymptotiquement vers la moitié de la vraie valeur β des paramètres. En effet, sous ∗ l’hypothèse de normalité avec E (xi ) = 0, si la constante α est nulle, on a alors E (yi ) = 0. La ∗ variable yi est centrée et distribuée selon une loi symétrique, la loi normale N xi β, σ 2 . Dès ε ∗ ∗ lors sous l’hypothèse de Goldberger lorsque α = 0, on a P rob (yi > 0) = P rob (yi ≤ 0) = 0.5. Pour un échantillon de taille N suffisante, on a donc approximativement autant d’observations nulles de yi que d’observations strictement positives : N1 N/2. Dès lors, la prise en compte de l’ensemble des observations dans l’estimation des M CO va conduire à un estimateur de β convergeant vers la moitié de la vraie valeur du vecteur β. Dans le cas K = 1, la pente de la droite d’ajustement linéaire associée à la régression sur l’ensemble des observations (c’est à dire β LS ) correspond dans ce cas à la moitié de la pente β associée à la vraie relation linéaire entre ∗ yi et xi . ********************************* **** Insérer Graphique avec α = 0 **** ********************************* Une des conséquences remarquables de cette proposition est la suivante : Remark 1. Sous les hypothèses de Goldberger (1981), l’estimateur défini par la c quantité β LS = (N/N1 ) × β LS , où N1 est le nombre d’observations pour lesquelles ∗ yi > 0, est un estimateur convergent de β. Un estimateur convergent de α peut être obtenu de façon similaire. c N p (1.7) β LS −→ β β LS = N→∞ N1 De la même façon pour l’estimateur corrigé αc de la constante α, on a : LS αc = LS N p αLS −→ α N →∞ N1 (1.8)

Reprenons l’exemple du cas où le terme constant est nul : α = 0. On a vu alors que l’estimateur des MCO était biaisé et convergeait vers la moitié de la vraie valeur des paramètres : 0 β p = β LS −→ β × Φ N→∞ σy 2

Econométrie des Variables Qualitatives. Cours C. Hurlin

12

Or sous les hypothèses de Goldberger et en particulier sous l’hypothèse E (xi ) = 0, imposer ∗ ∗ la nullité de α revient à imposer la nullité de E (yi ) . Comme nous l’avons dit la variable yi est 2 alors centrée et distribuée selon une loi symétrique, la loi normale N xi β, σ ε . Dès lors, lorsque ∗ ∗ α = 0, on a P rob (yi > 0) = P rob (yi ≤ 0) = 0.5. Pour un échantillon de taille N suffisante, on a donc approximativement autant d’observations nulles de yi que d’observations strictement positives : N p N1 −→ N →∞ 2 Ainsi l’estimateur corrigé β LS est convergent puisque : β LS =
c c

N p × β LS −→ 2 plim β LS = β N→∞ N1

Greene (1983) dérive les matrices de variance covariance asymptotiques de cet estimateur. Malheureusement, on peut utiliser cet estimateur que dans la mesure où l’on est sur que les hypothèses de Goldberger sont satisfaites et en particulier l’hypothèses selon laquelle les variables explicatives sont distribuées selon des lois normales. Rien n’est spécifié sur les propriétés de cet estimateur lorsque les variables explicatives ne sont pas distribuées selon une loi normale. Il faudra donc utiliser une autre méthode pour estimer β dans le cas général. ******************************************************** c *** Illustrer par simulation biais sur β LS et convergence de β LS *** ********************************************************
∗ Appliquons à présent la méthode des M CO aux seules observations pour lesquelles yi > 0 afin d’estimer le vecteur de paramètres β. ∗ 1.1.2. Application des MCO aux observations pour lesquelles yi > 0

Compte tenu du graphique (1.1), il était clair que l’application des M CO à l’ensemble des observations (xi , yi ) de l’échantillon devait conduire à une estimation biaisée du coefficient qui lie le revenu à la consommation. C’est ce que nous avons démontré dans la section précédente. Mais lorsque l’on restreint l’échantillon aux seules observations pour lesquelles la variable latente ∗ yi est positive, ce résultat est beaucoup moins évident à illustrer graphiquement.
∗ Appliquons ainsi les M CO aux seules observations pour lesquelles yi > 0. L’estimateur des M CO, noté β y>0 , est défini par la relation : −1

β y>0 =
yi >0

xi xi
yi >0

xi yi

(1.9)

où

yi >0

désigne la sommation sur les indices i = 1, .., N pour lesquels on a yi > 0. Supposons

que les variables exogènes xi sont déterministes et déterminons alors l’expression de E β y>0 , comme suit :
−1

E β y>0 =
yi >0

xi xi
yi >0

xi E (yi /yi>0 )

(1.10)

Cette expression dépend de la quantité E (yi /yi>0 ) qui correspond à l’espérance conditionnelle d’une variable normale tronquée. En appliquant la formule correspondante, on montre

Econométrie des Variables Qualitatives. Cours C. Hurlin

13

que : φ E (yi /yi>0 ) = xi β + σ ε Φ
xi β σε xi β σε

= xi β + σ ε λ

xi β σε

(1.11)

où λ (x) = φ (x) /Φ (x) désigne le ratio de Mill. Dans ce cas encore, l’estimateur des M CO est donc biaisé et le biais peut être positif et négatif : E β y>0 =
yi >0

xi E (yi /yi>0 )
2 yi >0 xi

= β + σε

yi >0

xi λ (xi β/σ ε )
yi >0

x2 i

(1.12)

Envisageons à présent le cas où les variables xi sont distribuées selon une loi normale. On se place alors dans le cadre des hypothèses de Goldberger (1981) décrites à la section précédente. On suppose que les variables explicatives xi sont distribuées selon une loi normale N (0, Ω) avec (k) cov εi xi = 0, ∀k = 1, .., K. Sous ces hypothèses, Goldberger obtient le résultat suivant : Proposition 1.3. Sous les hypothèses de Goldberger (1981), l’estimateur β y>0 des Moindres Carrés Ordinaires obtenu sur les seules observations (xi , yi ) pour lesquelles ∗ yi > 0 vérifie : 1−γ p β y>0 −→ β (1.13) N→∞ 1 − ρ2 γ les paramètres γ et ρ étant respectivement définis par : γ= 1 λ σy α σy ρ2 = α + σy λ 1 β Ωβ σ2 y α σy

(1.14) (1.15)

∗ où α correspond à la constante de l’équation yi = α + xi β + εi et où σ 2 = σ 2 + β Ωβ, y ε avec Ω matrice de variance covariance des variables explicatives xi .

La démonstration de cette proposition figure dans Goldberger (1981). On peut montrer que les paramètres γ et ρ vérifient : 0≤γ≤1 0 ≤ ρ2 ≤ 1

Dés lors, de façon générale on montre que l’estimateur des M CO appliqué aux seules observations yi > 0 sous estime l’ensemble des composantes du vecteur β.
N→∞

plim β y>0 ≤ β

(1.16)

Une des conséquences remarquable de cette proposition est la suivante : Remark 2. Sous l’hypothèse de normalité des variables xi , le degré de sous estimation est totalement uniforme pour tous les éléments de β. 1 β
(k)

N→∞

plim β y>0 = ξ

(k)

∀k = 1, .., K

(1.17)

Econométrie des Variables Qualitatives. Cours C. Hurlin

14

Ainsi le biais affecte de façon symétrique l’ensemble des paramètres estimés. Ce résultat n’est plus valable dès lors que l’on lève l’hypothèse de normalité. *** Déterminer le cas particulier où l’estimateur β y>0 n’est pas biaisé c’est à dire lorsque γ = σ −1 λ y α σy α + σy λ α σy = α λ σy α σy + λ2 α σy =1

****************************************************** *** Insérer Simulations Biais + Graphique pour le cas particulier ** ******************************************************

1.2. Estimation par la méthode en deux étapes : Heckman (1976) Puisque la méthode des Moindres Carrés Ordinaires ne peut conduire qu’à des estimations biaisées des paramètres dans le cas d’un modèle Tobit simple, sauf dans des cas très particuliers, différentes méthodes d’estimation alternatives ont été proposées. La méthode d’estimation qui est la plus utilisée aujourd’hui est celle du maximum de vraisemblance (Goldberger 1981, Olsen 1978). Toutefois cette méthode est relativement ”gourmande” en termes de capacités de calcul, notamment dans la phase d’optimisation. C’est pourquoi, dans les années 70, du fait des contraintes informatiques, d’autres méthodes d’estimation ont souvent été privilégiées parce qu’elles nécessitaient moins de capacités de calcul : tel est le cas de la méthode d’estimation en deux étapes d’Heckman (1976). Heckman (1976), suivant une suggestion de Gronau (1974), propose un estimateur en deux étapes dans un modèle Tobit généralisé à deux équations (modèle que nous aborderons dans les sections suivantes). Cet estimateur peut aussi être utilisé pour estimer les paramètres d’un modèle Tobit simple ou modèle Tobit de type I. Pour comprendre cette méthode, considérons la formule de l’espérance conditionnelle de yi sachant que yi > 0 : E (yi /yi>0 ) = xi β + σ ε λ xi β σε (1.18)

où λ (x) = φ (x) /Φ (x) désigne le ratio de Mill. Ainsi, l’espérance conditionnelle de yi sachant yi > 0 peut être décomposée en une composante linéaire en β et une composante non linéaire en β. Considérons à présent la partie quantitative du modèle Tobit, c’est à dire celle qui correspond à l’observation de yi > 0. Pour ces observations on a une relation du type : yi = E (yi /yi>0 ) + vi où vi est de moyenne nulle. On remplace alors l’espérance conditionnelle par son expression, et l’on obtient la relation suivante. Proposition 1.4. Le modèle Tobit simple, pour yi > 0, peut être représenté par la régression non linéaire hétéroscédastique suivante : yi = xi β + σε λ (xi δ) + vi avec δ = β/σ ε et vi = yi − E (yi /yi>0 ) et E (vi ) = 0 et V ar (vi ) = σ 2 − σ 2 xi δλ (xi δ) − σ 2 λ (xi δ) ε ε ε
2

(1.19)

(1.20)

Econométrie des Variables Qualitatives. Cours C. Hurlin

15

Ainsi, pour estimer les paramètres β, il suffit de considérer la régression non linéaire (1.19) et d’en déduire un estimateur β H à partir des N1 observations pour lesquelles yi > 0. La seule difficulté provenant de l’hétéroscédasticité des perturbations vi , puisque V ar (vi ) dépend des caractéristiques xi via le ratio de Mill λ (xi δ) et directement dans l’expression xi δλ (xi δ) . Telle est l’idée de la procédure d’Heckman. Proposition 1.5. étapes : La procédure d’estimation d’Heckman (1976) comporte deux

1. Etape 1 : Estimer le ratio δ = β/σ ε à partir du modèle probit dichotomique suivant par une méthode de maximum de vraisemblance zi = 1 0 si yi > 0 sinon ∀i = 1, ..N (1.21)

avec P rob (zi = 1) = Φ (xi β/σ ε ) = Φ (xi δ) . Soit δ l’estimateur du MV de δ. 2. Etape 2 : Régresser yi sur xi et λ xi δ par une méthode de Moindres Carrés en ne considérant uniquement les N1 valeurs positives de yi yi = xi β H + σ ε λ xi δ + vi On note alors γ H = ainsi obtenu. β H σε (1.22)

l’estimateur des paramètres du modèle Tobit

En effet sous la forme (1.19), le modèle quantitatif apparaît comme un modèle linéaire en β et σ ε . Réécrivons le modèle sous forme vectorielle pour dériver les lois asymptotiques. On pose Z = X λ où X désigne la matrice de dimension (N1 , K) dont les lignes correspondent aux vecteur de variables explicatives xi pour lesquelles yi > 0 et où λ désigne un vecteur de dimension (N1 , 1) ` dont le j eme élément est donné par l’estimateur du ratio de Mill λ xj δ . Soit γ = β σ ε le vecteur des K + 1 paramètres à estimer. Le modèle (1.19) s’écrit alors sous la forme : y = Zγ + w (1.23)

où y désigne le vecteur des N1 observations de yi pour lesquelles yi > 0 et où les résidus w = (w1 ...wN1 ) sont tels que : wi = vi + ηi = vi + σ ε λ (xi δ) − λ xi δ (1.24)

Le résidu se décompose ainsi en la somme du résidu vi de la représentation (1.19) et d’un terme provenant de l’erreur d’estimation du paramètre δ = β/σε dans la phase n◦ 1 d’estimation du probit. L’estimateur de Heckman en deux étapes est alors défini par : γH = Z Z
−1

Zy

Amemiya (1983) établit alors lé résultat suivant en ce qui concerne la distribution asymptotique de γ H (cas particulier de Heckman 1979) :

Econométrie des Variables Qualitatives. Cours C. Hurlin

16

Proposition 1.6. L’estimateur en deux étapes de Heckman (1976) est asymptotiquement normalement distribué : N1
−1 2

(γ H − γ) −→ N (0, Vγ )
N →∞ −1 −1

p

(1.25)

où N1 désigne le nombre d’observations telles que yi > 0, avec Vγ = σ 2 (Z Z) ε
−1

Z Σ + σ 2 (I − Σ) X (X D1 X) ε

X (I − Σ) Z (Z Z)

(1.26)

Il faut noter que dans cette expression de Vγ , la seconde matrice dans les crochets provient du fait que le ratio de Mill λ a du être estimé dans une première étape. Si la valeur de ce ratio était connu, la matrice de variance covariance asymptotique deviendrait simplement : Vγ = σ 2 (Z Z) ε
−1

Z ΣZ (Z Z)

−1

Au delà de ces résultats, on vérifie que l’estimateur de Heckman en deux étapes est asymptotiquement convergent : p (1.27) γ H −→ γ
N1 →∞

On dispose ainsi d’un estimateur convergent et qui ne nécessite dans la première étape que l’utilisation d’un estimateur du maximum de vraisemblance pour un probit simple. Cet estimateur représente donc un gain de capacités de calculs par rapport à l’estimateur du maximum de vraisemblance appliqué directement au modèle Tobit. Remarquons toutefois, que cet estimateur est biaisé à distance finie en raison de la corrélation entre la perturbation wi = η i + vi et la variable explicative λ xi δ .

1.3. Estimation par le Maximum de Vraisemblance La procédure d’estimation la plus utilisée aujourd’hui est celle du maximum de vraisemblance. En effet, les capacités informatiques sont désormais suffisantes pour envisager l’optimisation des fonctions de vraisemblance associées directement aux modèles Tobit et non plus uniquement aux probit dichotomiques comme dans le cas de la procédure d’Heckman (1976). Commençons par définir la log-vraisemblance associée au modèle Tobit simple : yi =
∗ yi 0 ∗ si yi = xi β + εi > 0 sinon

∀i = 1, ..N

avec xi = x1 ..xK , ∀i = 1, .., N, β = (β 1 ...β K ) ∈ RK et où les perturbations εi sont distribués i i selon une loi N 0, σ 2 . ε 1.3.1. Log Vraisemblance dans un modèle Tobit simple Considérons un échantillon de N observations yi , noté y = (y1 , .., yN ) . La vraisemblance de ce modèle est définie par : L y, β, σ 2 = ε
i: yi =0

1−Φ

xi β σε

i: yi >0

1 σε

φ

yi − xi β σε

(1.28)

En effet, on sait que si l’on définit une variable dichotomique probit zi telle que zi = 1 0
∗ si yi = xi β + εi > 0 sinon

∀i = 1, ..N

(1.29)

Econométrie des Variables Qualitatives. Cours C. Hurlin

17

alors on peut écrire la probabilité que la variable yi prenne des valeurs positives sous la forme P rob (zi = 1) = P rob (εi /σ ε < xi β/σε ) = Φ (xi β/σ ε ) . Par conséquent, la probabilité que yi prenne une valeur nulle s’écrit comme la probabilité complémentaire : P rob (yi = 0) = P rob (zi = 0) = 1 − Φ xi β σε

Ce qui explique le terme du premier produit de la fonction de vraisemblance (1.28). Le second terme de cette expression correspond tout simplement au produit des lois marginales ∗ des variables yi positives. On sait que si yi > 0, on a part définition yi = yi = xi β + εi où 2 les perturbations εi sont distribués selon une loi N 0, σε . On en déduit que les variables yi sont distribuées selon une loi normale N xi β, σ 2 . Ainsi, la loi marginale d’une observation yi ε positive est définie par la quantité : 1 1 √ exp − 2 σ ε 2π yi− xi β σε
2

=

1 σε

φ

yi − xi β σε

où φ (.) désigne la fonction de densité associée à loi normale centrée réduite. On en déduit l’écriture de la log-vraisemblance : Proposition 1.7. La log-vraisemblance concentrée associée à un échantillon y = (y1 , .., yN ) dans un modèle Tobit simple s’écrit : log L y, β, σ 2 = ε
i: yi =0

log 1 − Φ

xi β σε

−

N1 1 log σ 2 − 2 ε 2 2σ ε

i: yi >0

(yi − xi β)

2

(1.30)

où N1 désigne le nombre d’observations pour lesquelles yi > 0. En effet, on sait que la log-vraisemblance est définie par : log L y, β, σ2 ε =
i: yi =0

log 1 − Φ log 1 − Φ log 1 − Φ log 1 − Φ

xi β σε xi β σε xi β σε xi β σε

+
i: yi >0

log

1 σε

φ

yi − xi β σε log φ yi − xi β σε
2

=
i: yi =0

−

log (σ ε ) +
i: yi >0 i: yi >0

=
i: yi =0

i 1 − (yi −x2β) 2σ ε log √ e − N1 log (σ ε ) + 2π i: yi >0

=
i: yi =0

− N1 log (σ ε ) −

1 2σ 2 ε

i: yi >0

(yi − xi β)2

N1 − log (2π) 2 En omettant les termes constants (log-vraisemblance concentrée), il vient : log L y, β, σ 2 = ε
i: yi =0

log 1 − Φ

xi β σε

− N1 log (σε ) −

1 2σ 2 ε

i: yi >0

(yi − xi β)

2

Sachant que N1 log (σ ε ) = (N1 /2) log σ 2 , on retrouve l’expression (1.30) de la fonction de log ε vraisemblance. On en déduit alors l’expression des dérivées premières par rapport à β et à σ2 : ε

Econométrie des Variables Qualitatives. Cours C. Hurlin

18

Definition 1.8. Dans le cas d’un modèle Tobit, le gradient associé à la log-vraisemblance s’écrit sous la forme suivante :  
xi β σε

∂ log L y, β, σ 2 1 ε =− ∂β σε ∂ log L y, β, σ 2 1 ε = 3 2 ∂σ ε 2σ ε

φ

xi
xi β σε

i: yi =0

i: yi =0

 

1−Φ
xi β σε xi β σε



xi β φ 1−Φ



+ 1 σ2 ε

i: yi >0

(yi − xi β) xi

(1.31)

 − N1 + 1 2σ 2 2σ 4 ε ε

i: yi >0

(yi − xi β)2

(1.32)

Amemiya (1973) démontre que l’estimateur γ = β σ ε du maximum de vraisemblance satisfaisant : γ = arg max [log L (y, γ)] = arg max log L y, β, σ 2 (1.33) ε
{γ} {β,σ ε }

est convergent et asymptotiquement distribué selon une loi normale de moyenne nulle et de variance égale à l’inverse de la matrice d’information de Fischer : √ L −1 N (γ − γ 0 ) −→ N 0, I (γ 0 ) (1.34)
N →∞

avec I (γ) = −E

∂ 2 log L (y, γ) ∂γ∂γ

(1.35)
γ=γ 0

où γ 0 désigne la varie valeur du vecteur de paramètres3 . Nous allons à présent proposer un changement de paramètre permettant d’obtenir une expression de la log-vraisemblance globalement concave, comme dans le cas des modèles logit et probit dichotomiques. 1.3.2. Re-paramétrisation d’Olsen (1978) Nous avons montré que les estimateurs du maximum de vraisemblance des paramètres d’un modèle Tobit simple, notées respectivement β et σε , sont solution du programme :
{β,σ ε }

max log L y, β, σ2 ε

et vérifient donc par conséquent les conditions nécessaires suivant, correspondant à l’annulation du vecteur gradient de la log-vraisemblance :   β φ xiε ∂ log L y, β, σ 2 σ 1 1 ε  =− yi − xi β xi = 0 xi  + 2 xi β ∂β σ ε i: y =0 1 − Φ σε i: yi >0 i β=β
σε

∂ log L y, β, σ 2 ε ∂σ 2 ε

=
σ 2 =σ 2 ε ε

1 2σ 3 ε

i: yi =0

 

φ

xi β σε xi β σε

1−Φ

xi β  −



1 N1 + 2σ 2 2σ 4 ε ε

2 i: yi >0

yi − xi β

=0

Pour déterminer les estimateurs β et σ ε , il convient donc de résoudre ce système de K + 1 équations non linéaires. Comme dans le cas des modèles probit et logit, il n’existe pas d’expression analytique des solutions de ce programme. La résolution d’un tel système ne peut
3 La formule de la matrice de variance covariance asympotoique des estimateurs du MVC dans la paramétrisation (β, σε ) est donnée dans Amemiya (1973).

Econométrie des Variables Qualitatives. Cours C. Hurlin

19

donc se faire qu’en utilisant une procédure d’optimisation numérique. Nous avons vu dans le premier chapitre, que généralement on recours alors à des algorithmes d’optimisation fondés notamment sur la méthode du gradient (comme l’algorithme de Newton Raphson par exemple). Amemiya (1973) a démontré que la fonction de vraisemblance du modèle Tobit paramétrée en β et σ ε n’est pas globalement concave. Cette propriété est alors particulièrement gênante puisque nous savons que les solutions des algorithmes d’optimisation numérique sont alors extrêmement sensibles au problème du choix des conditions initiales. S’il existe des extrema locaux de la fonction à optimiser, en l’occurrence ici la fonction de log-vraisemblance, il peut arriver que l’algorithme converge vers ces extrema locaux. En effet, si l’on utilise des conditions initiales dans l’algorithme d’optimisation relativement proches des extrema locaux de la fonction de log-vraisemblance, alors il y a des risques que l’algorithme d’optimisation s’arrête en ces points pour lesquels le gradient est nul, mais qui ne maximisent pas de façon globale la fonction de log-vraisemblance. On risque alors d’obtenir des estimateurs non convergents des vrais paramètres du modèle Tobit, non pas en raison de mauvaises propriétés de la méthode économétrique utilisée (maximum de vraisemblance), mais simplement en raison de la défaillance de l’algorithme d’optimisation numérique utilisé pour maximiser la logvraisemblance. Plusieurs solutions, non exclusives les unes des autres, peuvent être apportées à ce problème : 1. La première solution consiste à modifier les valeurs des conditions initiales de l’algorithmes d’optimisation4 de sorte à vérifier la robustesse des estimations obtenues à la modification de ces valeurs. Si le changement des valeurs initiales ne conduit à aucune modification des estimations des paramètres, cela tend à montrer que l’algorithme a convergé vers un extremum global. Si en revanche, les estimations sont modifiées, cela prouve que la solution précédente n’était pas un extremum global de la fonction de vraisemblance. Mais se pose alors la question de savoir ce qu’il en est pour les nouvelles estimations obtenues ? Correspondent elles à un extremum global de la fonction de la vraisemblance ? 2. La deuxième solution consiste à vérifier la robustesse des estimations au choix de l’algorithme d’optimisation. Généralement, plusieurs algorithmes sont proposés sous les logiciels usuels : simplex, Newton Raphson, Marquadt etc.. Ces algorithmes, fondées sur des méthodes différentes, n’ont pas la même sensibilité au choix des conditions initiales. Ainsi, si pour différents algorithmes, on obtient des estimations relativement proches, cela tend à prouver que ces estimations correspondent au maximum global de la fonction de log-vraisemblance. Si, en revanche, on obtient des estimations sensiblement différentes pour différents algorithmes ayant convergés, cela tend à montrer que certains de ces algorithmes, pour les conditions initiales posées, ne permettent pas d’identifier le maximum global de la vraisemblance. La question qui se pose est alors de savoir quel algorithme doit être privilégié en fonction du problème posé ? 3. La troisième solution proposée par Olsen (1978) consiste à reparamétriser la fonction de vraisemblance de sorte à garantir sa concavité globale. Dès lors, on supprime le problème de la sensibilité des solutions des algorithmes au choix des conditions initiales sur les paramètres puisqu’il n’existe qu’un seul extremum global pour la fonction de logvraisemblance. Le choix des conditions initiales et de l’algorithme n’affecte alors que la
4 Sous

Eviexs, cliquez pour cela sur l’onglet options dans la fenêtre d’estimation.

Econométrie des Variables Qualitatives. Cours C. Hurlin

20

vitesse de convergence des procédure d’optimisation, et ne doit pas théoriquement affecter les résultats.

La solution d’Olsen (1978) est ainsi particulièrement habile puisqu’elle supprime le problème en reformulant la log-vraisemblance du modèle Tobit en des paramètres transformés θ = β/σ ε et h = σ −1 de sorte à obtenir une nouvelle expression de la log-vraisemblance re-paramétrée ε globalement concave. Proposition 1.9 (Olsen 1978). La log-vraisemblance d’un modèle Tobit re-paramétrée en θ = β/σε et h = σ −1 est globalement concave : ε log L (y, θ, h) =
i: yi =0

log [1 − Φ (xi θ)] + N1 log (h) −

1 2 i: y

i >0

(hyi − xi θ)2

(1.36)

où N1 désigne le nombre d’observations pour lesquelles yi > 0. Preuve : la matrice hessienne associée à la log-vraisemblance log L (y, θ, h) s’écrit sous la forme suivante : 2 2 H (θ, h) =
(K+1,K+1) ∂ log L(y,θ,h) ∂θ∂θ ∂ 2 log L(y,θ,h) ∂h∂θ ∂ log L(y,θ,h) ∂θ∂h ∂ 2 log L(y,θ,h) ∂h2

(1.37)

Olsen (1978) démontre alors que la matrice hessienne H (θ, h) est égale à la somme de deux matrices telles que : H (θ, h) = ∆ + Γ = Ψ (θ, h) 0 1 0 − N2 h + − xi xi yi xi i: yi >0
i: yi >0

xi yi 2 i: yi >0 yi
i: yi >0

où le bloc Ψ (θ, h) de dimension (K, K) est défini par :: Ψ (θ, h) =
i: yi −1

φ (xi θ) φ (xi θ) xi θ − xi xi 1 − Φ (xi θ) 1 − Φ (xi θ) =0

avec xi θ − φ (xi θ) [1 − Φ (xi θ)] < 0. En effet, on sait que la quantité φ (z) + zΦ (z) correspond à la primitive de la fonction Φ (z) :
z

φ (z) + zΦ (z) =
−∞

Φ (t) dt > z

∀z ∈ R

On en déduit que ∀z ∈ R : φ (z) > z [1 − Φ (z)] ⇐⇒ z − φ (z) [1 − Φ (z)]−1 < 0 Dès lors, puisque xi xi est une matrice définie positive, les deux matrices ∆ et Γ sont des matrices définies négatives (cf annexe A.1) : dès lors, la matrice hessienne est égale à la somme de deux matrices définies négatives, elle est donc définie négative. La fonction de log-vraisemblance est donc globalement concave. Lorsque la log-vraisemblance est paramétrée en h et θ, le gradient s’écrit sous la forme suivante :

Econométrie des Variables Qualitatives. Cours C. Hurlin

21

Definition 1.10. Le gradient associé à la log-vraisemblance d’un modèle Tobit reparamétrée en θ = β/σ ε et h = σ −1 est : ε ∂ log L (y, θ, h) = ∂θ i: y φ (xi θ) 1 x − 1 − Φ (xi θ) i 2 i: y =0 (hyi − xi θ) xi (1.38)

i

i >0

∂ log L (y, θ, h) N1 1 = − ∂h h 2 i: y

i >0

(hyi − xi θ) yi

(1.39)

Compte tenu du résultat d’Olsen, il est possible en utilisant des algorithmes d’optimisation usuels de déterminer les estimateurs du maximum de vraisemblance des paramètres transformés θ et h. Ces estimateurs sont solutions du programme suivant : θ h = max log L (y, θ, h)
{θ,h}

et vérifient naturellement les conditions nécessaires suivantes : ∂ log L (y, θ, h) ∂θ =
θ=θ

∂ log L (y, θ, h) ∂h

=0
h=h

On en déduit alors les estimateurs des paramètres du modèles Tobit originel puisque l’on a θ = β/σ ε et h = σ −1 : ε β = θ σε (1.40) σε = h La matrice de variance covariance asymptotique des estimateurs σε et β se déduit alors de celle de θ et β, qui s’exprime en fonction de la matrice hessienne H θ, h selon les formules usuelles.

1.4. Application Considérons tout d’abord une application sur données simulées qui nous permettra par la suite d’évaluer la portée des biais. On simule un échantillon de 1000 points satisfaisant les propriétés suivantes : ∗ ∗ yi si yi = α + βxi + εi > 0 yi = ∀i = 1, ..N sinon 0 avec xi ∈ R, ∀i = 1, .., N, pour une taille d’échantillon N = 1000 et où les perturbations εi sont distribués selon une loi N 0, σ 2 . On pose la valeur suivante des paramètres : ε α = 1 β = 0.8 σ2 = 1 ε

On suppose ici que la variable explicative xi satisfait l’hypothèse de Goldberger (1981) : la variable explicative xi est distribuée selon une loi normale N (0, Ω) , avec Ω = 1, et est indépendante du résidu, cov (εi xi ) = 0. Le programme permettant de simuler la série observable yi est fourni en annexe (A.2). Commençons par estimer les paramètres α, β et σ 2 par une ε méthode de maximisation de la vraisemblance standard. Les résultats sont représentés dans la figure (1.2) : Eviews indique tout d’abord que l’échantillon simulé comporte 781 observations pour lesquelles yi > 0 et 219 observations censurées à gauche, c’est à dire pour lesquels yi = 0. On vérifie tout d’abord que l’algorithme d’optimisation numérique de la maximisation de la vraisemblance a convergé après 5 itérations.. Compte tenu de la taille d’échantillon N relativement importante,

Econométrie des Variables Qualitatives. Cours C. Hurlin

22

Figure 1.2: Estimation Modèle Tobit Simple par Maximum de Vraisemblance

les réalisations des estimateurs α = 0.965 et β = 0.793 sont très proches des vraies valeurs α = 1 et β = 0.8. Eviews fournit en outre un estimation de la variance résiduelle, comme tenu de la distribution choisie (en l’occurrence une loi normale dans le cas d’un modèle Tobit simple) : la réalisation de l’estimateur σ 2 est alors égale à 0.97, valeur relativement proche de la vraie valeur ε de la variance σ2 = 1. Les z statistiques correspondant aux tests de nullité des paramètres nous ε permettent de rejeter l’hypothèse nulle au seuil de 5% pour les trois paramètres α, β et σ 2 . ε Comparons la réalisation de ces estimateurs du maximum de vraisemblance à celles obtenues par les estimateurs des M CO appliqués à l’échantillon complet, notés αLS , β LS et σ 2 ε,LS reportés sur la figure (1.3). On vérifie que l’estimation par les M CO sur les 1000 points des paramètres α et β donne des résultats largement moins bons que ceux obtenus par maximum de vraisemblance, puisque nous avons vu précédemment que ces estimateurs sont biaisés. En effet pour une vraie valeur β = 0.8, la réalisation de l’estimateur des MCO est, dans notre expérience, de 0.6253. Nous avions vu que sous l’hypothèse de normalité des variables xi (hypothèse de Goldberger 1981), l’estimateur des M CO du paramètre β vérifie : β LS −→ β × Φ
N→∞ p

α σy

(1.41)

Dans le cas de notre expérience, sachant que α = 1 et que : σ 2 = σ 2 + β Ωβ = σ 2 + β 2 Ω = 1 + 0.82 × 1 = 1. 64 y ε ε

Econométrie des Variables Qualitatives. Cours C. Hurlin

23

Figure 1.3: Estimation par les M CO sur l’échantillon complet

on en déduit que β LS −→ 0.8 × Φ
N →∞ p

1 √ 1.64

= 0.8 × Φ (0. 78087) = 0.6260

Ainsi, on sait que théoriquement l’estimateur β LS converge en probabilité vers la valeur 0.6260. On vérifie en effet sur la figure (1.3), pour une taille d’échantillon N = 1000 relativement importante, que la réalisation de β LS = 0.6253 est très proche de cette valeur asymptotique. Nous avions vu en outre, toujours sous l’hypothèse de normalité des variables explicatives c xi , que l’estimateur des M CO corrigé β LS = (N/N1 ) × β LS est convergent : β LS =
c

N p × β LS −→ β N →∞ N1

Dans le cas de notre simulation, la réalisation de cette estimateur vaut : β LS =
c

N 1000 × β LS = × 0.6253 = . 80064 N1 781

Cette réalisation est en effet très proche de la vraie valeur β = 0.8. On remarque que pour notre échantillon simulé, la réalisation de l’estimateur des M CO corrigé est plus proche de la vraie valeur que l’estimateur du MV. ********************** **** 1◦ ) Faire estimation MCO sur partie positive de la distribution c **** 2◦ ) Introduire N simulations sur β LS , β LS , β y>0 , β MV et β Hec en contrôlant le pourcentage de données censurées : Matlab **** 3◦ ) Répartir les applications Eviews ou Limdep sur les différentes sections ? ********************** 1.5. Effets marginaux Supposons que l’on dispose d’un estimateur convergent β des paramètres β et d’un estimateur convergent σ 2 de la variance des résidus. On cherche à mesurer les effets marginaux. ε

Econométrie des Variables Qualitatives. Cours C. Hurlin

24

Definition 1.11. Les effets marginaux dans un modèle de régression censuré correspondent à la déformation des prévisions sur une variable continue engendrée par une variation d’une unité d’une des variables explicatives. Il y alors plusieurs prévisions possible dans le cas du modèle Tobit suivant que l’on s’intéresse ∗ à la variable censurée yi ou à la variable latente yi . En effet, trois cas peuvent apparaître : 1. Soit l’on considère la prévision sur la variable latente représentée par l’espérance conditionnelle ∀i = 1, .., N : ∗ (1.42) E ( yi / xi ) = xi β 2. Soit l’on considère la prévision sur la variable dépendante représentée par l’espérance conditionnelle ∀i = 1, .., N : E ( yi / xi ) = Φ xi β σε xi β + σε φ xi β σε (1.43)

3. Soit l’on considère la prévision sur la variable dépendante censurée représentée par l’espérance conditionnelle ∀i = 1, .., N :
∗ ∗ E ( yi / xi , yi > 0) = E ( yi / xi , , yi > 0) = xi β + σ ε λ

xi β σε

(1.44)

On peut ainsi déterminer différents effets marginaux suivant que l’on considère l’une ou l’autre de ces prévisions. Tout d’abord si l’on considère la prévision sur la variable latente, on obtient tout simplement un effet marginal mesuré par la dérivé partielle de l’espérance ∗ conditionnelle E ( yi / xi ) par rapport à une composante quelconque du vecteur des variables explicatives xi .
` Definition 1.12. L’effet marginal d’une variation unitaire de la keme variable ex(k) ∗ plicative xi , ∀k = 1, .., K, sur la prévision de la variable latente yi est mesuré par la quantité : ∗ ∂E ( yi / xi ) = β (k) ∀i = 1, .., N (1.45) (k) ∂xi

ou par l’élasticité εy∗ /x[k] :
i i

εy∗ /x[k] =
i i

∗ ∂E ( yi / xi )

∂xi

(k)

x β (k) xi = i ∗ E ( yi / xi ) xi β
(k)

(k)

(k)

∀i = 1, .., N

(1.46)

` ` Ainsi, une variation de 1% de la keme variable explicative xi pour le ieme individu, modifie ∗ la prévision de la variable latente yi pour ce même individu de εy∗ /x[k] pour cent. On peut i i alors calculer une élasticité moyenne εy∗ /x[k] sur l’ensemble des N individus telle que :
i i

εy∗ /x[k] =
i i

1 N

N

εy∗ /x[k] =
i=1
i i

1 N

N

i=1

xi β (k) xi β

(k)

Considérons à présent la prévision sur la variable dépendante non censurée. De la même façon, l’effet marginal est mesuré par la dérivé partielle de l’espérance conditionnelle E ( yi / xi ) par rapport à une composante quelconque du vecteur des variables explicatives xi .

Econométrie des Variables Qualitatives. Cours C. Hurlin

25

` Definition 1.13. L’effet marginal d’une variation unitaire de la keme variable ex(k) plicative xi , ∀k = 1, .., K, sur la prévision de la variable dépendante yi est mesuré par la quantité : xi β ∂E ( yi / xi ) =Φ ∀i = 1, .., N (1.47) β (k) (k) σε ∂x i

ou par l’élasticité εyi /x[k] :
i

εyi /x[k] =
i

∂E ( yi / xi ) ∂xi
(k)

xi β (k) xi = β E ( yi / xi ) xi β + σ ε λ xiε σ

(k)

(k)

∀i = 1, .., N

(1.48)

Preuve : A partir de l’espérance conditionnelle E ( yi / xi ) déterminons l’effet marginal as(k) socié à xi . ∂E ( yi / xi )
(k) ∂xi

=

∂
(k) ∂xi

Φ

xi β σε

xi β + σ ε φ xi β σε

xi β σε β
(k)

∂Φ =

xi β σε (k)

Si l’on pose z = xi β/σ ε , on obtient : ∂E ( yi / xi )
(k) ∂xi

= β (k) 

∂xi 

β (k) xi β + Φ σε
xi β σε (k)

∂φ + σε ∂φ

xi β σε (k)

∂Φ

∂xi

xi β +Φ σε

xi β σε

+

xi β σε (k)

∂xi

∂xi  

β (k) σε

= β (k)

∂Φ (z)
(k) ∂xi

z+

∂φ (z) ∂xi
(k)

+ Φ (z)

Or, on sait que la quantité φ (z) + zΦ (z) correspond à la primitive de la fonction Φ (z) :
z

φ (z) + zΦ (z) =
−∞

Φ (t) dt

∀z ∈ R

Dès lors, par dérivation par rapport à une composante z (k) on obtient : ∂φ (z) ∂ [zΦ (z)] + = Φ (z) ∂z (k) ∂z (k) ∂φ (z) ∂z ∂Φ (z) ∂z + (k) Φ (z) + z = (k) Φ (z) ∂z (k) ∂z ∂z (k) ∂z ∂Φ (z) ∂φ (z) +z =0 ⇐⇒ ∂z (k) ∂z (k) Ainsi, on obtient finalement que : ⇐⇒ ∂E ( yi / xi )
(k) ∂xi

= β (k) Φ (z) = β (k) Φ

xi β σε

En ce qui concerne l’élasticité εyi /x[k] on montre que celle-ci est définie par la quantité i suivante : εyi /x[k]
i

= Φ =

xi β σε 1

β (k) Φ
xi β σε

xi
xi β σε (k)

(k) xi β σε

xi β + σ ε φ

xi β + σ ε λ

xi β (k)

Econométrie des Variables Qualitatives. Cours C. Hurlin
(k)

26

` ` Ainsi, une variation de 1% de la keme variable explicative xi pour le ieme individu, modifie la prévision de la variable dépendante yi pour ce même individu de εyi /x[k] pour cent. On peut i alors calculer une élasticité moyenne εyi /x[k] sur l’ensemble des N individus telle que : i   N N (k) xi β (k) 1 1   εyi /x[k] = ε [k] = i N i=1 yi /xi N i=1 xi β + σ ε λ xi β σε

De façon générale, on montre que εy∗ /x[k] > εyi /x[k] .
i i i

McDonald et Moffit (1980) ont proposé une décomposition particulièrement intéressante de l’effet marginal associé à la prévision sur la variable dépendante yi . Cette décomposition est la suivante : xi β xi β xi β xi β ∂E ( yi / xi ) = Φ + λi β (k) 1 − λi (k) σε σε σε σε ∂x
i

+β (k) φ

xi β σε

xi β + λi σε

xi β σε
(k)

` Dès lors, l’effet marginal d’une variation unitaire de la keme variable explicative xi , ∀k = 1, .., K, sur la prévision de la variable dépendante yi peut se décomposer comme la somme de deux éléments :

Remark 3. La variation de xi a deux effets sur la prévision de la variable dépendante yi représentés par la décomposition de McDonald et Moffit (1980): ∂E ( yi / xi )
(k) ∂xi

(k)

= P rob (yi > 0)

∂E ( yi / xi , yi>0 )
(k) ∂xi (k)

+ E ( yi / xi , yi>0 )

∂P rob (yi > 0) ∂xi
(k)

1. D’une part, la variation de xi modifie l’espérance conditionnelle de yi dans la partie positive de la distribution. 2. D’autre part, la variation de xi affecte la probabilité que l’observation yi appartienne à cette partie de la distribution.
` Au passage, cette décomposition nous donne la 3eme mesure de l’effet marginal : celle relative à la prévision de la variable dépendante sur la partie positive de la distribution : (k)

∂E ( yi / xi , yi>0 )
(k) ∂xi

= β (k) 1 − λi

xi β σε

xi β + λi σε

xi β σε

où λ (x) = φ (x) /Φ (x) désigne le ratio de Mill. ************* Application : construire les différentes EM et commentez (exemple éco) Utiliser la simulation ou Utiliser exemple Eco : 1. calculer EM1 et élasticité sur y ∗ 2. calculer EM2 et élasticité sur y 3. Décomposer EM2 par McDonald et Moffit *************

Econométrie des Variables Qualitatives. Cours C. Hurlin

27

1.6. Propriétés de l’estimateur du MV sous des hypothèses non standard Nous allons à présent nous intéresser aux propriétés de l’estimateur du M V sous principales hypothèses en présentant chaque fois les tests appropriés : 1. Hypothèse d’hétéroscédasticité 2. Hypothèse de non normalité Commençons par évoquer les problèmes d’hétéroscédasticité. 1.6.1. Hétéroscédasticité De nombreuses études ont été consacrées au problème de l’hétéroscédasticité dans le cadre des modèles Tobit simple. Hurd (1979) a ainsi évalué les biais asymptotiques de l’estimateur du M V d’un modèle Tobit simple tronqué en présence de différentes formes d’hétéroscédasticité. Rappelons que dans le cas d’un modèle Tobit simple tronqué , on ne dispose que ∗ d’observations pour les individus pour lesquels yi > 0. La vraisemblance s’écrit alors sous la forme : N −1 xi β 1 xi β Φ φ (1.49) L y, β, σ 2 = ε σε σε σε i=1 Hurd considère une certaine forme d’hétéroscédasticité en générant deux sous échantillons : un échantillon de taille rN, avec r ∈ [0, 1] , d’observations pour lesquelles σ 2 = σ 2 et un ε 1 second échantillon de taille (1 − r) N d’observations pour lesquelles σ2 = σ 2 = σ 2 . Il étudie ε 2 1 alors la déformation de la limite en probabilité de l’estimateur du MV, noté plim β, en fonction des valeurs de σ 2 en considérant σ 2 = 1 et r = 0.5. Hurd démontre ainsi l’existence de biais 1 2 asymptotiques sur l’estimateur du M V en présence d’hétéroscédasticité et il constate que ces biais peuvent être très importants pour certaines valeurs de σ 2 . Reprenant la même approche, 1 Arabmazar et Schmidt (1981) montre que les biais asymptotiques de l’estimateur du M V sont beaucoup moins important dans le cadre d’un modèle Tobit simple censuré, tel que celui que l’on a vu jusqu’à présent. Les résultats de ces deux études illustrent parfaitement le sens général des résultats de cette littérature. Proposition 1.14. De façon générale, on montre que l’estimateur du M V en présence d’hétéroscédasticité est asymptotiquement biaisé. L’importance des biais asymptotiques croît avec le degré de censure des données. Il est toutefois difficile d’aboutir à une conclusion plus précise que cette proposition dans la mesure où les différentes études proposées sur ce thème diffèrent très sensiblement sur la représentation retenue de l’hétéroscédasticité. Les modèles utilisés sont en effet très spécifique. Il faut ainsi simplement retenir que l’hétéroscédasticité pose un sérieux problème d’estimation des modèles Tobit simples. La question qui se pose est alors de savoir comment tester l’hétéroscédasticité ? Considérons tout d’abord une forme particulière d’hétéroscédasticité. Hypothèses Soit un modèle Tobit hétéroscédastique tel que ∀i = 1, .., N : σ 2 = σ 2 (α) = σ 2 exp (wi α) ε,i ε,i ε où α = (α1 .. αP ) et où wi = wi ...wi
(1) (P )

(1.50)

∈ RP est un vecteur de caractéristiques.

Econométrie des Variables Qualitatives. Cours C. Hurlin

28

Cette spécification est suffisamment générale pour englober différentes configurations d’hétéroscédasticité. En particulier, lorsque α = 0, on retrouve le modèle Tobit simple homoscédastique. Sous cette hypothèse, la log-vraisemblance concentrée du modèle Tobit simple s’écrit alors : log L y, β, σ 2 , α ε =
i: yi =0

log 1 − Φ

xi β σε,i (α) (yi − xi β)
2

−

1 N1 log σ 2 (α) − 2 ε,i 2 2σ ε,i (α) i: y

i >0

Les estimateurs du M V des paramètres du Tobit hétéroscédastique, notés β, σ 2 et α vérifient ε alors respectivement les conditions suivantes : ∂ log L y, β, σ 2 , α ε ∂γ =0
γ=γ

∀γ = β, σ2 , α ε

où les composantes du gradient de la fonction de log-vraisemblance en β et σ 2 correspondent à ε celles définies pour le modèle Tobit simple (cf. proposition 1.8) lorsque α = 0, c’est à dire dans le cas homoscédastique.   β N φ xiε xi ∂ log L y, β, σ 2 , α σ 1 ε  + 1 =− (yi − xi β) xi = ai xi ∂β σ ε i: y =0 1 − Φ xi β σ 2 i: y >0 ε i=1
α=0
i

σε

i

∂ log L y, β, σ 2 , α ε ∂σ 2 ε

α=0

1 = 3 2σε

i: yi =0

 

xi β φ 1−Φ

xi β σε xi β σε



 − N1 + 1 2σ2 2σ 4 ε ε

N

i: yi >0

(yi − xi β)2 =

bi
i=1

Sous ces hypothèses, un test naturel de l’hypothèse d’hétéroscédasticité consiste donc à tester la nullité du vecteur α, puisque si α = 0, on a σ 2 = σ 2 ∀i = 1, .., N . Ainsi sous les ε ε,i hypothèses précédentes, le test de l’hypothèse nulle d’homoscédasticité revient au test bilatéral suivant : (1.51) H0 : α = 0 Ha : α = 0 (1.52)

Plusieurs méthodes sont envisageable pour mener à bien ce test sur les paramètres. Greene (1997) propose d’utiliser un test du multiplicateur de Lagrange5 (cf. chapitre 1). Definition 1.15. La statistique LM du test de l’hypothèse nulle d’homoscédasticité H0 : α = 0 est définie par : LM =   ∂ log L y, β, σ ε , α ∂α
α=0



statistique LM du multiplicateur de Lagrange associée au test unidirectionnel H0 : γ = a ∈ Rk contre H1 : γ = a admet la loi suivante sous H0 : LM = ∂ log L (y, γ) ∂γ I −1
γ=γ c

5 La

 Qα α 



∂ log L y, β, σ ε , α ∂α
α=0

 

(1.54)

∂ log L (y, γ) ∂γ

γ=γ c

N →∞

−→ χ2 (k)

L

(1.53)

où γet γ c désignent respectivement les estimateurs non contraint et contraint de γ.

Econométrie des Variables Qualitatives. Cours C. Hurlin

29

où β et σ ε désignent les estimateurs du M V des paramètres β et σ 2 obtenus sous ε l’hypothèse nulle α = 0, et où la matrice Qα α désigne le bloc de dimension (P, P ) correspondant au vecteur de paramètre α de la matrice inverse de la matrice d’information de Fischer estimée sous H0 :   Qββ Qβσ2 Qβ α ε  (K,K) (K,1) (K,P )    −1  Qβ σ2 Qσ2 Qα σ2  2 ε ε ε  I β, σ ε , α (1.55) = (1,1) (1,P )   (1,K)   Q (K+P +1,K+P +1) α=0 Qασ2 Qαα αβ ε
(P,K) (P,1) (P,P )

On montre alors que sous H0 cette statistique converge en loi : LM −→ χ2 (P )
N →∞ L

(1.56)

où P rappelons-le désigne la dimension du vecteur de varaibles explicatives wi expliquant la variance indivudelle σ 2 (α) . Ainsi, si la réalisation de la statistique LM est supérieure au fracε,i tile de la loi du chi-2 à P degrés de liberté, alors on rejette l’hypothèse nulle d’homoscédasticité. Les résidus du modèle Tobit sont hétéroscédastiques : les estimateurs du M V des paramètres β et σ 2 sont asymptotiquement biaisés selon les résultats d’Arabmazar et Schmidt (1981). ε

Quelle que soit la nature du modèle, il existe une autre façon de construire la statistique LM. Celle-ci peut en effet s’écrire en fonction de la matrice G β, σ 2 , α de dimension (N, K + P + 1) ε contenant les dérivés de la log-vraisemblance évaluées pour chaque observation sous l’hypothèse H0 .Soit G β, σ 2 , α le vecteur du gradient évalué sous H0 : ε   =   g1 β, σ 2 , α ε
(1,K+P +1)

G β, σ 2 , α ε
(N,K+1+P ) α=0

gN

(1,K+P +1)

où les vecteurs gi correspondent au gradient de la fonction de la log-vraisemblance évalués sous l’hypothèse nulle α = 0 et pour chaque observation individuelle yi : gi β, σ 2 , α = ε
(1,K+P +1) ∂ log L(yi ,β,σ 2 ,α) ε ∂β α=0 ∂ log L(yi ,β,σ 2 ,α) ε ∂σ 2 ε ∂ log L(yi ,β,σ 2 ,α) ε ∂α α=0 α=0

  ...   β, σ2 , α ε



(1.57)

Greene (1997) montre que les vecteurs gi (.) s écrivent sous la forme : gi β, σ 2 , α = ε
(1,K+P +1)

ai xi
(1,K)

bi (1,1)

σ 2 bi wi ε
(1,P )

(1.58)

où les scalaires ai et bi sont définies par les composantes du gradient associé à la log-vraisemblance du modèle Tobit simple (cf. proposition 1.8) d’une observation donnée yi , ∀i = 1, ..N . ai = − bi = 1 (1 − zi ) λ σε xi β σε − + zi (yi − xi β) σε (1.59) (1.60)

1 (1 − zi ) xi β λ 2σ 3 ε

xi β σε

zi zi 2 + (yi − xi β) 2σ 2 2σ4 ε ε

Econométrie des Variables Qualitatives. Cours C. Hurlin

30

avec λ (z) = φ (z) / [1 − Φ (z)] = λ (−z) et où la quantité zi correspond à la variable dichotomique simple suivante : 1 si yi > 0 zi = (1.61) 0 sinon Naturellement un estimateur de ce vecteur du gradient de la log-vraisemblance sous H0 : α = 0 peut être obtenu en remplaçant dans les expressions de ai et de bi les paramètres β et σ2 par leurs estimateurs du M V respectifs β et σ 2 obtenus sous l’hypothèse nulle α = 0. ε ε   g1 β, σ 2 , 0 ε     a1 x1 b1 σ2 b1 w1  (1,K+P +1)  ε    2  ... ... G β, σε , 0 = =   2 2  gN β, σ ε , 0  aN xN bN σ ε bN wN (N,K+1+P ) α=0
(1,K+P +1)

Reste alors à construire la matrice d’information de Fischer. Greene (1997) montre que sous H0 l’inverse de la matrice d’information de Fischer peut s’écrire sous la forme : I β, σ 2 , α ε
−1

= G β, σ 2 , 0 G β, σ 2 , 0 ε ε
(K+P +1,N ) (N,K+P +1)

(K+P +1,K+P +1) α=0

=

a2 xi xi i  ai bi xi i=1 σ 2 ai bi wi xi ε
N



ai bi xi b2 i σ 2 b2 wi ε i

 σ 2 ai bi xi wi ε  σ 2 b2 wi ε i σ 2 b2 wi wi ε i

(1.62)

A partir de ces différents éléments on peut alors construire la statistique LM de la façon suivante : Definition 1.16. Une autre expression de la statistique LM du test de l’hypothèse nulle d’homoscédasticité H0 : α = 0 est :  −1 LM = eN G β, σ 2 , 0 G β, σ 2 , 0 G β, σ 2 , 0  ε ε ε
(1,1) (1,N ) (N,K+P +1) (K+P +1,N ) (N,K+P +1)

Un estimateur de la matrice d’information de Fischer est alors donné par :   a2 xi xi ai bi xi σ 2 ai bi xi wi N ε i −1   = I β, σ 2 , α σ 2 b2 wi b2  ai bi xi  ε ε i i α=0 i=1 σ 2 ai bi wi xi σ 2 b2 wi σ 2 b2 wi wi ε ε i ε i

G β, σ 2 , 0 ε

(K+P +1,N )

eN (N,1)

(1.63)

où eN désigne un vecteur unitaire de dimension (N, 1) et où β et σ ε désignent les estimateurs du M V des paramètres β et σ2 obtenus sous l’hypothèse nulle α = 0. ε On peut montrer que cette expression de la statistique LM est identique à celle proposée dans la définition (1.15). La loi asymptotique et la règle de décision sont évidemment les mêmes que celles évoquées précédemment.

Il existe enfin une troisième façon d’obtenir la statistique LM :

Econométrie des Variables Qualitatives. Cours C. Hurlin

31

Definition 1.17. Une autre expression de la statistique LM du test de l’hypothèse nulle d’homoscédasticité H0 : α = 0 est : LM = N R2 (1.64)

où N désigne le nombre d’oibservations et où R2 est le coefficient de détermination de la régression du vecteur unitaire eN = (1, ...1) de dimension (N, 1) sur les K +P +1 colonnes de la matrice G β, σ 2 , 0 . ε En effet, une fois que l’on a construit la matrice G β, σ 2 , 0 , on peut montrer que le ε coefficient de détermination de la régression de eN sur les colonnes G1 , G2 , .., GK+P +1 de cette matrice fournit au coefficient N près la valeur de la statistique LM. Si l’on pose y = eN et X = G (.) , on sait que le coefficient de la régression linéaire de y sur les colonnes de X est donné par la formule : 1 −1 y X (X X) X y R2 = N où N désigne le nombre d’observation. On reconnaît ici la forme de la statistique LM au scalaire N près. ***** **************************************************** 1◦ ) Simulation : simuler biais à distance finie avec Hétéro à la Hurd. 2◦ ) Application : Construire un test sous LIMDEP et application ***** ****************************************************

1.6.2. Non normalité La seconde principale hypothèse qui peut affecter de façon sensible les propriétés de l’estimateur du M V est l’hypothèse de non normalité des perturbations. Alors quelles sont le propriétés de l’estimateur du M V sous cette hypothèse de non normalité ? Nous admettrons le résultat suivant : Proposition 1.18. De façon générale, on montre que l’estimateur du M V n’est pas convergent lorsque la vraie distribution des perturbations εi n’est pas normale. Goldberger (1980) a en effet démontré dans le cas d’un modèle Tobit simple tronqué, l’existence de biais asymptotique de l’estimateur du M V lorsque la vraie distribution des εi est une loi de Student, de Laplace ou une loi logistique. Pour démontrer ce résultat, Goldberger supposait que la variance des perturbations était toutefois connue. Arabmazar et Schmidt (1982) ont quant à eux montré que les biais étaient particulièrement accrus lorsque l’on levait cette hypothèse et que l’on supposait la variance des perturbations étaient inconnues. Intuitivement on conçoit qu’une erreur sur la distribution des perturbations et donc sur la forme de vraisemblance, peut conduire à l’apparition d’un biais dans les estimateurs du M V. ******************************************************************** Effectuer Simulation Tobit Simple avec loi Student, de Laplace ou loi logistique Estimation MV fonction de la censure et de N ********************************************************************

Econométrie des Variables Qualitatives. Cours C. Hurlin

32

Partant du résultat que l’application de la procédure du M V à des perturbations de loi non normale conduit à un biais asymptotique, il convient donc de proposer un test permettant de repérer les cas où les perturbations du modèle sont distribuées selon une loi non normale. Deux principales stratégie de test sont proposés pour détecter la non normalité des perturbations dans un modèle censuré ou tronqué : 1. Une stratégie de test à la Hausman (1978) : Nelson (1981), Melenberg et Van Soest (1996) 2. Un test de spécification à la Hansen (1982) : Pagan et Vella (1989) Nous n’évoquerons ici que le premier type de test. Pour les tests de spécification reposant sur les conditions sur les moments voir Pagan et Vella (1989). Considérons la démarche retenue par Melenberg et Van Soest (1996) fondée sur un test d’Hausman (1978) avec esstiamteur LAD de Powell (1984). Commençons par définir de façon général le principe d’un test de Hausman (1978). Ce test admet pour hypothèse nulle la normalité des résidus εi . Soit β l’estimateur du M V du vecteur des paramètres β. On sait que cet estimateur est (i ) convergent, (ii ) asymptotiquement efficace et (iii ) asymptotiquement biaisé sous l’hypothèse alternative H1 de non normalité des perturbations.. Considérons un second estimateur, noté β, du vecteur des paramètres β. On choisit cet estimateur de sorte à ce qu’il soit (i ) moins efficace que l’estimateur du M V sous H0 mais (ii ) qu’il soit convergent sous H0 et sous l’hypothèse alternative H1 . Il ne reste plus alors qu’à étudier la ”distance” entre les deux estimateurs β et β. En effet : • Si les deux estimateurs sont ”proches” : cela signifie que les deux estimateurs sont non biaisés : l’hypothèse H0 est acceptée • Si les deux estimateurs sont suffisamment ”éloignés” : cela signifie que l’estimateur γ est biaisé : l’hypothèse H0 est rejetée. Reste alors à construire une mesure de la ”distance” entre les deux estimateurs. Hausman dans son article de 1978 montre que de façon générale, sous ces hypothèses, la quantité définie converge une loi du Chi deux admettant pour degré de liberté le nombre de paramètre estimés sous l’hypothèse H0 . HN = β − β V −1 β − β
N →∞

−→ χ2 (K)

L

(1.65)

où V = V β − V β désigne la différence entre les matrices de variance covariances asymptotiques des deux estimateurs obtenues sous H0 . Ce qui est remarquable c’est que sous H0 , il n’est pas nécessaire de connaître les termes de covariances des deux estimateurs pour construire la statistique de test. Proposition 1.19. Soit β l’estimateur du M V du vecteur des paramètres β. Soit β un estimateur convergent sous l’hypothèse de non des perturbations εi. Un test de l’hypothèse nulle de normalité peut être réalisé à partir de la statistique du test de Hausman (1978) : HN = β − β V β −V β
−1

β−β

(1.66)

Econométrie des Variables Qualitatives. Cours C. Hurlin

33

où V β et V β désignent les matrices de variance covariances asymptotiques des estimateurs sous H0 . Sous l’hypothèse nulle de normalité : HN −→ χ2 (K)
N→∞ L

(1.67)

Ainsi, si la réalisation de la statistique HN est supérieur au fractile à α% de la loi du Chideux, la distance entre les deux estimateurs est grande : on rejette l’hypothèse nulle H0 de normalité. L’estimateur du M V est alors asymptotiquement biaisé.

Pour construire ce test, reste à définir un estimateur convergent du vecteur de paramètres β sous l’hypothèse de non normalité. Il y a là aussi deux optiques : 1. Soit on spécifie la distribution non normale des perturbations et l’on construit un estimateur du maximum de vraisemblance : Amemiya et Boskin (1974) utilisent ainsi un estimateur du M V avec une distribution log-normale 2. Soit on construit un estimateur convergent pour des formes très générales de distributions des perturbations à la fois normale et non normale : Powell (1984), Melenberg et Van Soest (1996). La première approche est à la fois risquée et relativement compliquée à mettre en oeuvre. Elle peut apparaître compliquée dans la mesure où pour certaines formes de distributions, il peut être délicat de construire la fonction de vraisemblance. De plus, rien ne garantit alors la concavité globale de cette fonction, ce qui peut poser des problèmes d’optimisation numérique. Mais elle de plus risquée dans la mesure où l’on rejette a priori la distribution normale pour spécifier une forme alternative de distribution : log-normale, Student, Laplace etc.. Or, rien ne garantit que les perturbations soient effectivement engendrées par cette distribution. Une erreur sur la forme de la distribution peut alors conduire à une évaluation biaisée des paramètres. C’est pourquoi, dans la littérature on privilégie généralement la seconde approche : l’approche non paramétrique ou semi-paramétrique. Melenberg et Van Soest (1996) proposent d’utiliser l’estiamteur LAD. L’estimateur de Powell (1984) ou estimateur des Moindres Valeurs Absolues (LAD Least Absolute Deviations) est un exemple d’estimateur non paramétrique convergent sous l’hypothèse de non normalité. Definition 1.20. L’estimateur des Moindres Valeurs Absolues (LAD Least Absolute Deviations) de Powell (1984) des paramètres β du modèle Tobit simple est défini par :
N

β P =arg min
{β} i=1

yi − max (0, xi β)

(1.68)

Powell montre que cet estimateur est asymptotiquement normal : √ L N β P − β −→ N 0, V β P
N →∞

(1.69)

où la matrice de variance covariance asymptotique est donnée par : V β P = 4f (0)
(K,K) 2 N→∞

lim

1 N

xi xi
i:xi β>0

(1.70)

Econométrie des Variables Qualitatives. Cours C. Hurlin

34

où f (.) désigne la fonction de densité des perturbations. Paarsch (1984) a proposé différentes simulations de Monte Carlo de cet estimateur, de l’estimateur en deux étapes d’Heckman et de l’estimateur du M V obtenu sous l’hypothèse de normalité pour des modèles Tobit avec des distributions normal, exponentielle et de Cauchy. Sur de larges échantillons, l’estimateur de Powell est toujours meilleur (au sens du biais moyen) que l’estimateur d’Heckman et est meilleur que l’estimateur du MV dans le cas de distribution de Cauchy. Powell (1984) note en outre que l’estimateur β P est convergent y compris sous l’hypothèse d’hétéroscédasticité. Ainsi, en utilisant la définition précédente du test d’Hausman et la définition de l’estimateur LAD on peut construire aisément un test particulier de l’hypothèse de non normalité fondé sur l’estimateur de Powell. Si l’on note β l’estimateur du M V obtenu sous l’hypothèse de normalité et β P l’estimateur de Powell, la statistique du test d’Hausman devient : HN = β − β P où V β et V β P teurs sous H0 : V β − V βP
−1

β − βP

(1.71)

désignent les matrices de variance covariances asymptotiques des estimaV βP = 4f (0)2 lim 1 N xi xi
i:xi β>0

N→∞

(1.72) (1.73)

V β = I (β)−1 avec I (β) = −E ∂ 2 log L (β, β) ∂β∂β

(1.74)

Naturellement si le test conduit à rejeter l’hypothèse nulle de normalité, il convient de privilégier un estimateur convergent sous l’hypothèse de non normalité : l’estimateur LAD de Powell en est un, mais il existe de nombreux autres estimateur non paramétriques applicables dans ce cas. ******* *************************** Application Eviews ou Limdep ou Matlab ******* ***************************

Econométrie des Variables Qualitatives. Cours C. Hurlin

35

1.7. Extensions du modèle Tobit Simple : modèles à censure multiples Différentes extensions du modèle Tobit simple ont été proposées sans pour autant remettre en cause sa structure générale : une variable dépendante correspondant à une variable latente observée sur un certain intervalle. Ces extensions portent finalement sur la définition de l’in∗ tervalle sur lequel est observé la variable latente yi . En effet dans certaines applications, la variable dépendante peut être censurée à la fois à droite et à gauche. C’est par exemple le cas sur un marché de cotation où il existerait une limite inférieure et supérieure aux cours, auxquels cas la valeur du cours est fixée soit à un cours plancher soit à un cours plafond. On parle alors de modèle Tobit à censures multiples. Lorsque les seuils de censure sont identiques à tous les individus, on parle alors de modèle Tobit à double censures. Naturellement le modèle à double censure est un cas particulier du modèle à censures multiples, c’est pourquoi nous débuterons notre analyse par ce dernier. 1.7.1. Modèle Tobit simple à censures multiples Le modèle Tobit simple à censures multiples s’écrit sous la forme suivante : Definition 1.21. Un modèle Tobit simple à censures multiples est défini par :  ∗ si yi ≤ ci,1  ci,1 ∗ ∗ y si ci,1 < yi ≤ ci,2 (1.75) yi =  i ∗ ci,2 si yi ≥ ci,2 où (ci,1 , ci,2 ) ∈ R2 désigne les bornes de censure et où :
∗ yi = xi β + εi

∀i = 1, ..N

(1.76)

où xi = x1 ..xK , ∀i = 1, .., N désigne un vecteur de caractéristiques observables et où i i β = (β 1 ...β K ) ∈ RK est un vecteur de paramètres inconnus et où les perturbations εi sont distribués selon une loi N 0, σ 2 . ε Considérons un échantillon de N observations yi , noté y = (y1 , .., yN ) . La la fonction de vraisemblance d’un modèle à censures multiples s’écrit sous la forme : L y, β, σ 2 , c1,1 , c1,2 , ..., cN,1 , cN,2 ε =
i: yi =ci,1

Φ

ci,1 − xi β σε

i: yi =ci,2

1−Φ

ci,2 − xi β σε

∗ i: yi =yi

1 σε

φ

yi − xi β (1.77) σε

Le premier terme désigne le produit des probabilités que les observations yi prennent les valeurs de censures inférieures ci,1 :
∗ P rob (yi = ci,1 ) = P rob (yi ≤ ci,1 ) = Φ

ci,1 − xi β σε

Le second terme désigne le produit des probabilités que les observations yi prennent les valeurs de censures supérieures ci,2 :
∗ P rob (yi = ci,2 ) = P rob (yi ≥ ci,2 ) = Φ

ci,2 − xi β σε

Econométrie des Variables Qualitatives. Cours C. Hurlin

36

Enfin, le troisième terme représente tout simplement le produit des lois marginales des variables yi lorsque ces dernières appartiennent à l’intervalle compris entre les deux bornes ∗ ∗ de censure. On sait que si ci,1 < yi ≤ ci,2 , on a part définition yi = yi = xi β + εi où les 2 perturbations εi sont distribués selon une loi N 0, σε . On en déduit que les variables yi sont alors distribuées selon une loi normale N xi β, σ 2 . Ainsi, la loi marginale d’une observation yi ε sur cet intervalle est définie par la quantité : 1 1 √ exp − 2 σ ε 2π yi− xi β σε
2

=

1 σε

φ

yi − xi β σε

où φ (.) désigne la fonction de densité associée à loi normale centrée réduite. On peut en déduire la log-vraisemblance dans un modèle à censures multiples : Definition 1.22. La log-vraisemblance concentrée associée à un échantillon y = (y1 , .., yN ) dans un modèle Tobit simple à censures multiples s’écrit : log L y, β, σ2 , c1,1 , c1,2 , ..., cN,1 , cN,2 ε =
i: yi =ci,1

log Φ −

ci,1 − xi β σε

+
i: yi =ci,2

log 1 − Φ

ci,2 − xi β σε (1.78)

1 N1 log σ 2 − 2 ε 2 2σ ε

∗ i: yi =yi

(yi − xi β)

2

∗ où N1 désigne le nombre d’observations pour lesquelles yi = yi .

Il est souvent utile dans ces modèles de déterminer les espérances conditionnelles de la variable dépendante limitée et de la variable non censurée, notamment pour calculer les effets marginaux. On pose ∀i = 1, ..N : Φ1,i = Φ ci,1 − xi β σε Φ2,i = Φ c2,1 − xi β σε φ1,i − φ2,i Φ2,i − Φ1,i

Dès lors, on montre (Alban 2000) que l’espérance de la variable dépendante limitée est :
∗ E (yi /xi , ci,1 < yi ≤ ci,2 ) = xi β + σε

(1.79)

En effet dans le cas du modèle Tobit simple on a uniquement une censure à gauche, ce qui se traduit par des seuils de censure égaux à c1,i = 0 et c2,i = +∞. On obtient alors : φ1,i = φ Φ1,i = Φ −xi β σε φ2,i = lim φ
c2,i →∞

c2,1 − xi β σε

=0

−xi β c2,1 − xi β Φ2,i = lim Φ =1 c2,i →∞ σε σε Ainsi, on montre que l’espérance conditionnelle se ramène à l’expression suivante dans le cas du modèle Tobit simple :
∗ E (yi /xi , ci,1 < yi ≤ ci,2 ) = xi β + σε

φ1,i 1 − Φ1,i φ (xi β/σ ε ) = xi β + σε Φ (xi β/σ ε ) −xi β = xi β + σε λ σε

Econométrie des Variables Qualitatives. Cours C. Hurlin

37

On retouve ainsi l’expression standard d’une espérance conditionnelle d’une loi normale censurée. Revenons au cas général, c’est à dire au cas du modèle Tobit à censurs multiples. L’espérance de la variable dépendante non censurée est alors : E (yi /xi ) = P rob (yi = ci,1 ) × ci,1 + P rob (yi = ci,2 ) × ci,2 On obtient alors la formule suivante : E (yi /xi ) = Φ1,i ci,1 + (1 − Φ2,i ) ci,2 + xi β (Φ2,i − Φ1,i ) +σ ε φ1,i − φ2,i 1.7.2. Modèle Tobit simple à double censure : Rosett et Nelson (1975) Comme nous l’avons dit précédemment le modèle Tobit simple à double censure est un cas particulier du modèle Tobit simple à censures multiples. C’est un modèle dans lequel on suppose que les seuils de censure à droite et gauche sont identiques pour tous les individus. ci,1 = c1 ci,2 = c2 ∀i = 1, ..N (1.81)

∗ ∗ +P rob (ci,1 < yi ≤ ci,2 ) × E (yi /xi , ci,1 < yi ≤ ci,2 )

(1.80)

où (c1 , c2 ) ∈ R2 .

Definition 1.23. Un modèle Tobit simple à double censure (modèle de friction ou de Rosett) est un modèle où les seuils de censures à gauche et à droite sont identiques pour tous les individus.  ∗ si yi ≤ c1  c1 ∗ ∗ y si c1 < yi ≤ c2 yi = (1.82)  i ∗ c2 si yi ≥ c2

Ce modèle est aussi parfois appelé modèle de Rosett ou modèle de friction du fait de l’application proposée par cet auteur. C’est en effet Rosett et Nelson (1975) qui ont proposé la première modélisation Tobit simple à double censure. La log-vraisemblance concentrée associée à un échantillon y = (y1 , .., yN ) dans un modèle Tobit simple à double censure s’écrit : log L y, β, σ 2 , c1 , c2 ε =
i: yi =c1

log Φ

c1 − xi β σε

+
i: yi =c2

log 1 − Φ
2

c2 − xi β σε (1.83)

1 N1 − log σ2 − 2 ε 2 2σ ε

∗ i: yi =yi

(yi − xi β)

∗ où N1 désigne le nombre d’observations pour lesquelles yi = yi .

Ce modèle est utilisé dans des applications où la variable dépendante ne répond qu’à de fortes variations (ou de fortes valeurs) des variables explicatives. Nous allons à présent évoquer deux exemples de modèle Tobit simples à double censure : 1. Modèle de distributions de dividendes : Maddala (1977) 2. Modèle d’investissement financier avec coût de transaction : Rosett (1959) Commençons par le modèle de Maddala (1977).

Econométrie des Variables Qualitatives. Cours C. Hurlin

38

Politique de Dividendes : Maddala (1977) Maddala (1977) remarque que le modèle Tobit simple à double censure ou modèle de friction est particulièrement adapté pour modéliser la politique de dividendes des entreprises, les variations des salaires offerts par les firmes ou tout autre décisions pour lesquelles les firmes répondent par saut après un certain effort cumulatif.
∗ Considérons une société par action qui distribue des dividendes à ses actionnaires. Soit yt le montant désiré de dividende qui dépend d’un ensemble de caractéristiques de l’entreprise : montant des bénéfices, décisions d’autofinancement, montant des investissements etc..On pose que ces caractéristiques peuvent être représentées par un vecteur xt et qu’elles sont liées au ∗ dividende potentiel par une relation du type yt = xt β + εt où εt est distribué selon une loi 2 N 0, σ ε . Si l’on suppose que le mécanisme de distribution des dividendes est coûteux, on suppose que l’entreprise limite leur distribution dans le temps (au plus une fois par an) mais aussi suivant leur montant :

• L’entreprise ne verse des dividendes que si le montant potentiel de ces dividendes est supérieur à un certain seuil c1 • L’entreprise limite le montant de ces dividendes à un niveau c2 afin de maintenir une marge de manoeuvre financière. Dès lors, si l’on note yt le montant des dividendes effectivement versés on a :  ∗ si yt ≤ c1  0 ∗ ∗ y si c1 < yt ≤ c2 yt =  t ∗ c2 si yt ≥ c2

Investissements financiers et coûts de transaction : Rosett (1959) Rosett (1959) avait déjà proposé une application dans laquelle apparaissait une version particulière du modèle Tobit simple à double censure. Ce n’est qu’en 1975 que Rosett et Nelson donneront la forme générale du modèle, mais c’est pourquoi le nom de modèle de Rosett ou modèle de friction est généralement attribué à ce modèle. Dans son application Rosett(1959) considère un modèle d’investissement dans des actifs financiers où les coûts de transaction peuvent limiter le volume des transactions par rapport au niveau désiré. Le modèle suppose que les modifications dans la position de l’investisseur, ∗ c’est à dire la décision d’achat ou de vente, dépend des variations du rendement. Soit yt la variation désirée de la position du titre (montant acheté ou vendu), yt la variation de la position effective et xt la variation du rendement du titre. L’investisseur n’effectuera une transaction que si les variations du rendement sont suffisamment importantes. La position réelle du titre ne change donc pas pour de petites variations à la hausse ou à la baisse du rendement et donc de la position désirée. Supposons que la position désirée soit liée à la variation du rendement ∗ par la relation yt = xt β + εt où εt est distribué selon une loi N 0, σ2 . Le modèle est alors ε défini par :  ∗ ∗ si yt ≤ c1  yt − c1 ∗ 0 si c1 < yt ≤ c2 yt =  ∗ ∗ yt − c2 si yt ≥ c2

où c1 est le niveau de baisse de la position désiré déclenchant la vente et c2 > 0 le niveau déclenchant l’achat.

Econométrie des Variables Qualitatives. Cours C. Hurlin

39

1.7.3. Application modèle à double censure *************************** Application Eviews ou Limdep ***************************

Econométrie des Variables Qualitatives. Cours C. Hurlin

40

2. Les Modèles Tobit Généralisés
Nous allons à présent envisager des modèles Tobit incluant au moins deux variables y1 et y2 . Cette classe de modèle s’appelle la classe des modèles Tobit généralisés. Comme nous l’avons dit en introduction, Amemiya (1983) propose de classer les différents modèle Tobit généralisés en 5 principales classes. Le modèle Tobit simple étant par convention défini comme le modèle Tobit de type I. L’auteur propose la classification suivante en fonction de la forme de la vraisemeblance et des propriétés des variables introduites dans le modèle : Tableau 2.1: Fonctions de Vraisemblance des Modèles Tobit Généralisés Modèle Tobit Type I Tobit Type II Tobit Type III Tobit Type IV Tobit Type V Forme de la Vraisemblance P (y1 < 0) × P (y1 ) P (y1 < 0) × P (y1 > 0, y2 ) P (y1 < 0) × P (y1 , y2 ) P (y1 < 0, y3 ) × P (y1 , y2 ) P (y1 < 0, y3 ) × P (y1 > 0, y2 ) y1 C D C C D y2 – C C C C y3 – – C C

S o u r c e : A m e m iy a ( 1 9 8 3 ) , Ta b le s 1 e t 2 , p a g e 3 0 , D : va r ia b le d ich o t o m iq u e , C : c e n s u r é e

Ainsi dans le cas du modèle standard, la notation P (y1 < 0)×P (y1 ) d’Amemiya désigne une ∗ fonction de vraisemblance de la forme yi =0 P y1,i ≤ 0 . yi >0 f (y1,i ) où f (y1,i ) désigne la densité marginale de la variable y1,i distribuée selon une loi N xi β, σ2 . Les notations pour les ε autres modèles sont similaires, sachant que P (y1 , y2 ) désigne la densité jointe des variables y1 et y2 . L’autre façon de distinguer les différents modèles Tobit consiste à distinguer les propriétés des variables du système en différentiant les variables dichotomiques D et les variables censurées C. En effet dans ces modèles on a deux types de modélisation de la variable y1 : 1. Soit le signe de la variable y1 (par exemple dans le Tobit II) conditionne la modélisation (la censure ou la troncation) d’une autre variable : on a alors une modélisation dichotomique D sur cette variable. 2. Soit la variable y1 joue un double rôle : son signe détermine le modèle (la censure ou la troncation) d’une autre variable mais elle est en outre elle même une variable censurée.

Nous allons dans un premier temps nous intéresser au modèle Tobit généralisé de type II qui est très souvent utilisé et dont la structure est très similaire à celle des modèles de selection (ou modèles à troncature auxiliaire) popularisés par Heckman et Gronau. Enfin, nous étudierons plus succintement les autres modèles Tobit généralisés recencés par Amemiya (1983).

Econométrie des Variables Qualitatives. Cours C. Hurlin

41

2.1. Modèle Tobit Généralisé Type 2 Reprenons l’exemple des dépenses de consommation en biens durables. Dans le modèle Tobit simple (ou modèle Tobit de type I), nous avons supposé que le consommateur décide simultanément (i ) du fait qu’il va ou non consommer et (ii ) du montant de revenu qu’il va affecter à cette consommation. Un modèle alternatif consisteriat à supposer un comportement séquentiel. Dans une première étape l’individu décide ou non de consommer : cette décision peut être ∗ représentée par un modèle qualititatif dichotomique basée sur un certain critère y1,i .
∗ si y1,i > 0 l’individu i décide de consommer ∗ si y1,i ≤ 0 l’individu i décide de ne pas consommer

Dans une seocnde étape, s’il a décidé de consommer, l’individu décide du montant qu’il va consacrer à l’achat du bien. On a alors un modèle de données censurées puisque, si l’on note y2,i la consommation effective de l’agent i, celle-ci est définie par ∀i = 1, ..N : y2,i =
∗ y2,i 0 ∗ si y1,i > 0 ∗ si y1,i ≤ 0

(2.1)

Cette formulation généralise le modèle Tobit simple dans la mesure om l’on retouve ∗ ∗ le modèle Tobit simple en posant y1,i, = y2,i . L’avantage de cette modélisation est qu’elle permet notamment de faire apparaître la plus ou moins forte corrélation pouvant exister entre les deux décisions (i ) décision de consommation (ii ) décision du montant consommé. On a bien ∗ un modèle Tobit généralisé de type II puisque seul le signe de la variable y1,i représenté ∗ par la variable dichotomique y1,i = I y1,i > 0 importe (y1,i est une variable D) tandis que la variable y2 est censurée (y2,i est une variable C).

2.1.1. Définition du Tobit généralisé de type II Ainsi, un modèle Tobit généralisé de type II est définie de la façon suivante : Definition 2.1. Un modèle Tobit généralisé de type II est défini par ∀i = 1, ..N : y2,i =
∗ y2,i 0 ∗ si y1,i > 0 ∗ si y1,i ≤ 0

(2.2) (2.3) (2.4)

∗ y1,i = x1,i β 1 + ε1,i ∗ y2,i = x2,i β 2 + ε2,i

où xj,i =

x1 ..xj,ij j,i

K

avec j = 1, 2 désignent deux vecteurs de caractéristiques ob-

servables, où les vecteurs β j = β j,1 ...β j,Kj ∈ RKj , j = 1, 2 sont des vecteurs de paramètres inconnus et où les perturbations εj,i sont distribués selon une loi N 0, σ 2 , j = 1, 2 avec E (ε1,i ε2,i ) = σ 12 , ∀i = 1, ..N . j
∗ ∗ Ainsi, seul le signe de la variable y1,i est observable et la variable y2,i est observable unique∗ ment lorsque y1,i > 0. On suppose que les variables x1,i sont observables pour tous les individus de l’échantillon, tandis qu’il n’est pas nécessaire que les variables x2,i soient observables pour

Econométrie des Variables Qualitatives. Cours C. Hurlin

42

∗ les individus pour lesquels y1,i ≤ 0. Par la suite, on supposera tout de même que ces caractéristiques sont observables pour tous les individus, ce qui confère un statut de variable censurée à la variable y2,i . Enfin, pour simplifier les notations, on introduit la variable dichotomique z1,i telle que : ∗ 1 si y1,i > 0 (2.5) z1,i = ∗ 0 si y1,i ≤ 0

En d’autres termes, les couples de variables (z1,i , y2,i ) constituent les variables dépendantes observées du système. Il convient en outre de noter la propriété suivante : Remark 4. Contrairement au cas du modèle Tobit simple, dans un modèle Tobit généralisé de type II, la variable dépendante y2,i peut prendre des valeurs négatives. Une telle propriété peut dans certains problèmes économiques être génante, c’est pourquoi Cragg (1971) a proposé des modèles qui assure la non-négativité de y2,i . 2.1.2. Estimation par Maximum de Vraisemblance Naturellement, tout comme dans le cas du modèle Tobit simple, les paramètres du modèle Tobit généralisé peuvent être estimés par maximum de Vraisemblance (M V ). Commençons par définir la vraisemblance dans un tel modèle. D’après la forme générique donnée par Amemiya (1983), pour le modèle de type II, on a une vraisemblance de la forme P (y1 < 0) × P (y1 > 0, y2 ) . On pose θ = β 1 , β 2 , σ 2 , σ 2 , σ 12 l’ensemble des paramètres du modèle. Formellement, si l’on 1 2 considère un échantillon y2 = (y2,1 , .., y2,N ) et un ensemble d’observations z1 = (z1,1 , .., z1,N ) , la vraisemblance s’écrit sous la forme : L (y2 , z, θ) =
i: y2,i =0 ∗ P rob y1,i ≤ 0 ∗ ∗ f y2,i y1,i > 0 P rob y1,i > 0
∗ i: y2,i =y2,i

(2.6)

∗ ∗ où f y2,i y1,i > 0 désigne la densité conditionnelle de y2,i sachant y1,i > 0. Réécrivons la ∗ seconde partie de cette fonction. On note fy1 (.) la fonction de densité marginale associée à y1,i , il vient : ∞ ∗ P rob y1,i > 0 =

fy1 (z) dz

0

Dès lors, on peut érécrire le second membre de la fonction de vraisemblance sous la forme ∗ ∗ d’une intégrale simple définie sur la fonction de densité jointe des variables y1,i et y2,i , notée fy1 ,y2 (., .). En effet, en omettant les indices i pour simplifier les notations, il vient :
∗ ∗ f ( y2 / y1 > 0) P rob (y1 > 0) = 0 ∞ ∞ 0 ∞ 0

f ( y2 / z) fy1 (z) dz fy1 ,y2 (y2 , z) dz
∗ ∗ fy1 ,y2 (y2 , y1 ) dy1

= =

(2.7) (2.8)

Car en effet, on a par définition f ( y2 / z) fy1 (z) = fy1 ,y2 (y2 , z) . Toute l’astuce consiste ∗ ∗ alors à réécrire la densité jointe fy1 ,y2 (y2 , y1 ) en fonction de la densité conditionnelle de y1 par rapport à y2 . En effet, on peut écrire cette quantité sous la forme suivante :
∗ ∗ fy1 ,y2 (y2 , y1 ) = f ( y1 / y2 ) fy2 (y2 )

Econométrie des Variables Qualitatives. Cours C. Hurlin
∗ où fy2 (.) la densité marginale de la variable y2 . On obtient ainsi l’expression suivante : ∗ ∗ f ( y2 / y1 > 0) P rob (y1 > 0) = 0 ∞ ∗ ∗ f ( y1 / y2 ) fy2 (y2 ) dy1 ∞ 0 ∗ ∗ f ( y1 / y2 ) dy1

43

= fy2 (y2 )

(2.9)

Quel est l’avantage de cette expression ? Cette expression fait apparaître la densité condi∗ ∗ ∗ tionnelle de y1 sachant que y2 = y2 , notée f ( y1 / y2 ) , qu’il est relativement facile de calculer. On utilise pour cela le résultat suivant : Proposition 2.2. Soit (y1 , y2 ) un couple de v.a.r. distribuées selon des lois normales respectives N µ1 , σ 2 et N µ2 , σ 2 , telles que E (y1 y2 ) = σ 12 , la loi conditionnelle de 1 2 y1 sachant que y2 = y 2 , est une loi normale d’espérance E ( y1 / y2 = y 2 ) avec E ( y1 / y2 = y 2 ) = µ1 + et de variance V ( y1 / y2 = y 2 ) avec : V ( y1 / y2 = y 2 ) = σ 2 − 1 σ2 12 σ2 2 (2.11) σ 12 (y − µ2 ) σ2 2 2 (2.10)

∗ ∗ Ainsi, dans le cadre du modèle Tobit, la loi conditionnelle de y1 sachant que y2 = y2 , est ∗ ∗ une loi normale d’espérance E ( y1 / y2 = y2 ) et de variance V ( y1 / y2 = y2 ) avec ∗ ∗ E ( y1 / y2 = y2 ) = x1 β 1 +

σ12 (y − x2 β 2 ) σ2 2 2 σ2 12 σ2 2

(2.12)

∗ ∗ V ( y1 / y2 = y2 ) = σ 2 − 1

(2.13)

On en déduit la relation suivante :
∞ 0 0 ∗ ∗ f ( y1 / y2 ) dy1

= 1−

∗ ∗ f ( y1 / y2 ) dy1 −∞ ∗ ∗ 0 − E ( y1 / y2 = y2 ) ∗ ∗ V ( y1 / y2 = y2 )

= 1−Φ = Φ On en déduit finallement que :
∞ 0 ∗ ∗ f ( y1 / y2 ) dy1 = Φ

∗ ∗ E ( y1 / y2 = y2 ) ∗ ∗ V ( y1 / y2 = y2 )

x1 β 1 + σ 12 /σ2 (y2 − x2 β 2 ) 2 σ 2 − (σ2 /σ 2 ) 1 12 2

(2.14)

∗ où Φ (.) désigne la fonction de répartition de la loi N (0, 1) . Sachant que y2 suit une loi N x2 β 2 , σ 2 , on montre alors que : 2 ∞ 0

fy2 (y2 )

∗ ∗ f ( y1 / y2 ) dy1 =

1 φ σ2

y2 − x2 β 2 σ2

Φ

x1 β 1 + σ12 /σ 2 (y2 − x2 β 2 ) 2 σ 2 − (σ 2 /σ2 ) 1 12 2

Econométrie des Variables Qualitatives. Cours C. Hurlin
∗ ∗ Sachant que f ( y2 / y1 > 0) P rob (y1 > 0) = nallement que : ∞ 0

44

∗ ∗ ∗ ∗ f ( y1 / y2 ) fy2 (y2 ) dy2 , on montre donc fi-

∗ ∗ f ( y2 / y1 > 0) P rob (y1 > 0) =

1 φ σ2

y2 − x2 β 2 σ2

Φ

x1 β 1 + σ12 /σ 2 (y2 − x2 β 2 ) 2 σ 2 − (σ 2 /σ2 ) 1 12 2

Il est alors immédiat d’écrire la vraisemblance du modèle Tobit généralisé à partir de l’équation (2.6). Definition 2.3. La vraisemblance associée à un échantillon y2 = (y2,1 , .., y2,N ) et un ensemble d’observations z1 = (z1,1 , .., z1,N ) dans un modèle Tobit généralisé de type II de paramètres θ = β 1 , β 2 , σ 2 , σ 2 , σ 12 s’écrit : 1 2 L (y2 , z, θ) =
i:y2,i =0

1−Φ 1 φ σ2

x1,i β 1 σ1 y2 − x2 β 2 σ2 Φ x1 β 1 + σ12 /σ 2 (y2 − x2 β 2 ) 2 σ 2 − (σ 2 /σ2 ) 1 12 2

(2.15)

×

∗ i:y2,i =y2,i

On constate que cette fonction de vraisemblance ne dépend de σ 1 que par l’intermédiaire du ratio β 1 /σ 1 : il y a donc un problème d’identifiabilité. Seules sont identifiables les fonctions de σ 12 , σ 2 , β 2 et β 1 /σ 1 . On peut donc sans perte de généralité poser σ 1 = 1 ce qui permet d’identifier le reste des paramètres. Dans le cas où β 1 et β 2 comportent des éléments en commun, le paramètre σ 1 est de nouveau identifiable. De la même façon que pour le modèle tobit simple, la fonction de vraisemblance associée à un modèle tobit généralisée n’est pas globalement concave. C’est pourquoi, il est souvent intéressant d’utiliser la re-parmétrisation d’Olsen : h2 = 1 σ2 θ1 = β1 σ1 θ2 = β2 σ2 (2.16)

Si l’on note ρ la corrélation entre les deux perturbations telle que : σ 12 = ρ σ 1 σ 2 alors on montre le résultat suivant. Proposition 2.4. Pour un niveau de corrélation ρ des chocs donnés, la log-vraisemblance d’un modèle tobit généralisé re-paramétré en h2 = σ −1 , θ1 = β 1 /σ 1 et θ2 = β 2 /σ 2 est 2 globalement concave : log L (y2 , z, h2 , θ1 , θ2 , ρ) =
i:y2,i =0

(2.17)

log [1 − Φ (x1,i θ1 )] + N1 log (h2 ) log (h2 y2 − x2 θ2 ) log Φ x1 θ1 + ρ (h2 y2 − x2 θ2 ) 1 − ρ2

+
∗ i:y2,i =y2,i

+
∗ i:y2,i =y2,i

Econométrie des Variables Qualitatives. Cours C. Hurlin

45

Ainsi il peut être intéressant de modifier la méthode du maximum de vraisemblance pour tenir compte de la concavité partielle de la log-vraisemblance en h2 , θ1 et θ2 à ρ fixé. On peut par exemple faire un balayage sur ρ et maximiser pour chauqe valeur de ρ retenue la vraisemblance par rapport à h2 , θ1 et θ2 . Il n’y a alors aucun problème de choix dans les conditions initiales en raison de la propriété de concavité. Puis dans un second temps, on retient la valeur de ρ qui maximise la valeur de la vraisemblance et l’on en déduit les estimateurs correspondant des autres paramètres. 2.1.3. Estimation en deux étapes : Heckman (1976) Généralement les paramètres des modèles Tobit généralisés sont estimés par M V . Toutefois, il peut être utile de recourir à d’autres méthodes d’estimation simples, qui même si elles ne sont pas efficaces, permettent d’avoir une première idée de l’échelle de grandeur des paramètres et qui peuvent en outre servir dans les phases de détermination des conditions initiales dans les algorithmes d’optimisation numérique de la vraisemblance. Parmi ces méthodes d’estimation simples, on retrouve bien évidemment la méthode d’estimation en deux étapes proprosée par Heckman (1976) et présentée précédemment dans le cas du modèle Tobit simple. On considère le modèle suivant : y2,i =
∗ y2,i 0 ∗ si y1,i > 0 ∗ si y1,i ≤ 0

(2.18) (2.19) (2.20)

∗ y1,i = x1,i β 1 + ε1,i ∗ y2,i = x2,i β 2 + ε2,i

, j = 1, 2 avec E (ε1,i ε2,i ) = où les perturbations εj,i sont distribués selon une loi N σ12 , ∀i = 1, ..N . Pour construire l’estimateur en deux étapes d’Heckman, on cherche tout ∗ ∗ d’abord à construire l’espérance conditionnelle E y2,i y1,i > 0 . Pour cela, considérons l’∗ expression de y2,i et exprimons là en fonction de la projectioon linéire des résidus ε2,i sur les résidus ε1,i . Compte tenu des hypothèses faites sur les pertubations, on a par hypothèse ε2,i = σ 12 σ −2 ε1,i + µ2,i où µ2,i est indépendant de ε1,i et normallement distribué de moyenne 1 nulle de de variance égale à σ 2 − σ 2 σ −1 . Ainsi, on obtient : 2 12 1
∗ ∗ y2,i = x2,i β 2 + ε2,i = x2,i β 2 + σ 12 σ −2 y1,i − x1,i β 1 + µ2,i 1 ∗ ∗ ∗ ∗ On en déduit alors l’expression E y2,i y1,i > 0 en fonction de celle de E y1,i y1,i > 0 que l’on avait déjà construit dans le chapitre précédent. En effet, sachant : ∗ ∗ E y1,i y1,i > 0 = x1,i β 1 + σ 1 λ (x1,i θ1 )

0, σ2 j

on montre que :
∗ ∗ E y2,i y1,i > 0 ∗ ∗ = x2,i β 2 + σ 12 σ −2 E y2,i y1,i > 0 − x1,i β 1 + µ2,i 1

= x2,i β 2 + σ 12 σ −1 λ (x1,i θ1 ) + µ2,i 1

avec µ2,i = ε2,i − σ 12 σ −2 ε1,i . 1 Ainsi, pour les observations y2,i positives, on montre que l’on a un modèle décrit par la relation non linéaire suivante.
∗ ∗ y2,i = E y2,i y1,i > 0 + vi

Econométrie des Variables Qualitatives. Cours C. Hurlin
∗ ∗ avec vi = y2,i − E y2,i y1,i > 0 ou encore :

46

y2,i = x2,i β 2 + σ 12 σ−1 λ (x1,i θ1 ) + µ2,i 1 où les perturbations µ2,i vérifient
∗ ∗ µ2,i = µ2,i + vi = ε2,i − σ 12 σ −2 ε1,i + y2,i − E y2,i y1,i > 0 1

(2.21)

(2.22)

On obtient ainsi la proposition suivante. Proposition 2.5. Le modèle Tobit généralisé de type II, pour les observations y2,i > 0, peut être représenté par la relation non linéaire hétéroscédastique suivante : y2,i = x2,i β 2 + σ 12 σ−1 λ (x1,i θ1 ) + µ2,i 1 avec θ1 = β 1 /σ 1 et où les perturbations µ2,i vérifient E µ2,i = 0 et : V ar µ2,i = σ 2 − σ 12 σ −2 x1,i θ1 λ (x1,i θ1 ) + λ (x1,i θ1 ) 2 1
2

(2.23)

(2.24)

Dans le cas du modèle Tobit généralisé de type II, la méthode d’estimation d’Heckman, dite aussi méthode d’estimation en deux étapes, en comporte en fait trois. • Etape 1 : On commence par estimer le ratio θ1 = β 1 /σ1 en utilisant la partie di∗ chotomique du modèle, c’est à dire en modélisant la probabilité d’obtenir une valeur y1,i positive. ∗ 1 si y1,i > 0 ∗ N x1 β 1 , σ 2 (2.25) y1,i z1,i = ∗ 1 0 si y1,i ≤ 0 Pour cela, on considère le modèle probit dichotmique suivant :
∗ P rob (zi,1 = 1) = P rob y1,i > 0 = Φ (x1 θ1 )

(2.26)

Soit θ1 un estimateur convergent de θ1 obtenu à partir de ce modèle probit. • Etape 2 : A partir de l’estimateur θ1 on constuit le ratio de Mill λ x1,i θ1 pour chaque observation x1,i . Soit λ x1,i θ1 l’estimateur ainsi obtenu. On effectue alors la régression linéaire suivante par la méthode des M CO : y2,i = x2,i β 2 + σ λ x1,i θ1 + µ2,i ˆ (2.27)

et l’on obtient alors un estimateur asymptotiquement convergent des paramètres β 2 , noté β 2 et un estimateur asymptotiquement convergent σ du ratio de ˆ paramètres σ 12 σ−1 . Si l’on impose une contrainte sur σ 1 (par exemple σ1 = 1) cela 1 permet alors d’identifier la covariance σ 12 . Toutefois, ces deux estimateurs ne sont efficaces en rtaison de de l’hétéroscédascticité : V ar µ2,i = σ 2 − σ σ −1 x1,i θ1 λ x1,i θ1 + λ x1,i θ1 2 1
2

Econométrie des Variables Qualitatives. Cours C. Hurlin

47

• Etape 3 : Reste alors à estimer le paramètre σ2 . Pour cela, considérons le résidu µ2,i de la régression (2.27). Pour une valeur donnée de σ 1 , on obtient alors par construction un estimateur convergent de σ 2 : 2 σ2 = 2 1 N1 µ2,i +
i: y2,i >0

σ 1 σ 1 N1

2

x1,i θ1 λ x1,i θ1 + λ x1,i θ1
i: y2,i >0

(2.28)

où N1 désigne le nombre d’observations pour lesquelles y2,i > 0. On montre que les estimateurs β 2 , σ 2 et σ 12 ainsi obtenus sont asymptotiquement convergent 2 et normalement distribuées (Olsen 1980). Proposition 2.6. La convergence des estimateurs β 2 , σ 2 et σ 12 de Heckman ne néces2 ∗ ∗ site pas de supposer la normalité jointe des variables y1,i et y2,i . Il suffit de supposer ∗ que la variable y1,i est distribuée selon une loi normale et que la composante des résidus µ2,i telle que
∗ ∗ y2,i = x2,i β 2 + ε2,i = x2,i β 2 + σ 12 σ −2 y1,i − x1,i β 1 + µ2,i 1 ∗ est indépendamment distribuée par rapport à y1,i .

Ainsi, contrairement à l’estimateur du M V, la convergence de l’estimateur de Heckman ne recquiert pas la normalité jointe des deux variables latentes. 2.1.4. Exemples Un des exemples les plus célébres de modèle Tobit généralisés de type II est l’application de Gronau (1974) sur le travail des femmes. Son modèle d’offre de travail est fondé sur la théorie du salaire de réservation et sera repris par la suite de très nombreuses fois, notamment par Heckman avec des modèles de biais de sélection. Le travail de Gronau (1974) consiste à déterminer sous quelles conditions les femmes décident de travailler ou de ne pas travailler. Gronau suppose que le taux de salaire réel effectivement offert aux femmes, noté W s , est indépendant du nombre d’heures travaillées H. La femme maximise son utilité U (C, X) où C désigne le temps passé à s’occuper des enfants et X le vecteur des autres biens de consommation. Etant donné le salaire W s offert, la femme cherche donc le panier (C, X) qui maximise son utilité sous la contrainte de temps C + H = T où T désigne temps disponible total et sous la contrainte de revenu X = W s H + V où V désigne le montant de ses revenus autres que les revenus salariaux. Le programme est donc :
{C,X}

max U (C, X)

(2.29)

sc : C + H = T sc : X = W s H + V Dès lors la femme n’acceptera de travailler que si le TMS du bien C au bien X évalué au point H = 0 (c’est à dire sans travailler) est inférieur le taux de salaire W s . ∂U (C, X) /∂C ∂U (C, X) /∂X < Ws
H=0

Econométrie des Variables Qualitatives. Cours C. Hurlin

48

Intuitivement, sans travailler, la réduction d’une unité du temps consacré aux enfants implique pour maintenir le niveau d’utilité une augmentation de la consommation égale au terme de gauche. Si en travaillant une unité la femme, gagne W s et que ce salaire réel est supérieur à cette augmentation nécessaire de la consommation, la femme décidera de travailler. Si elle décide travailler, le nombre d’heures travaillées H sera défini par l’égalité : ∂U (C, X) /∂C (H) = W s ∂U (C, X) /∂X Gronau qualifie le terme de gauche de ”housewife’s value of time”, mais plus généralemnt il s’agit ici d’un salaire de réservation, noté W r . Si W r > W s , l’agent accepte de travailler, sinon il refuse. En supposant que W r et W s peuvent s’écrire comme la somme de combinaisons linéaires des variables explicatives indépendantes et d’un terme d’erreur, le modèle devient : Wis = x1,i β 1 + ε1,i Wir = x2,i β 2 + ε2,i Wi = Wis 0 si Wis > Wir sinon (2.30) (2.31) (2.32)

où Wi désigne le salaire effectif. Pour les femmes ayant un salaire de réservation supérieur au salaire offert, le salaire effectif est nul puisque ces dernières refusent de travailler. En posant que ∗ ∗ y1,i = Wis − Wir et y1,i = Wis , en supposant que les perturbations ε1,i et ε2,i sont normallement dsitribuées on retrouve un modèle tobit généralisé de type II. C’est un tel modèle qui donna lieu plus tard à l’extension des modèles à troncature auxiliaire ou modèles Heckit.

2.1.5. Modèle de Troncature Auxiliaire ou Modèle Heckit Parfois, on appele modèle de Troncature Auxiliaire ou modèle Heckit, en hommage à Heckman, ou modèles de biais de sélection, les modèles Tobit généralisés de type II. Les exemples sont multiples : caractéristiques des demandeurs d’emploi connues que s’ils sont inscrits à l’ANPE, notes des étudiants connues que s’ils ont décidé de passer l’examen, réponses aux enquêtes connues que si les individus ont décidé de les fournir, etc... Tous ces exmples cachent un processus de selction des individus observés dans lequel ceux-ci interviennent de façon déterminante : on a donc un problème d’auto-sélection. Considérons un modèle Tobit généralisé : y2,i =
∗ y2,i 0 ∗ si y1,i > 0 ∗ si y1,i ≤ 0

(2.33) (2.34) (2.35)

∗ y1,i = x1,i β 1 + ε1,i ∗ y2,i = x2,i β 2 + ε2,i

Il est tentant alors d’appliquer les M CO à l’ensemble des observations pour déterminer les paramètres β 2 .

Econométrie des Variables Qualitatives. Cours C. Hurlin

49

Proposition 2.7. On montre que l’estimateur β 2 des M CO ne sera pas biaisé qu’à partir du moment où le processus de sélection sera totalement indépendant de la ∗ variable auxiliaire y1,i : E β 2 = β 2 ⇐⇒ ρσ 1 λ (x1,i β 1 ) = 0 ⇐⇒ ρ = 0 (2.36)

∗ Dès que le processus de sélevction dépend, même partiellement de y1,i , le biais s’introduit : il s’agit d’un biais de sélection. Le biais apparaît parce que certaines variables explicatives, celles contenues dans x1,i , ont été oubliées : il s’agit encore une fois d’un biais de variable omise. On parle parfois de modèle Heckit, en hommage à Heckman, la spécification de ce dernier étant donnée par : ∗ (2.37) zi = wi γ + µi

yi = xi β + εi
∗ où yi n’est observée que si zi > 0 ou encore si zi = 1 avec :

(2.38)

zi =

1 0

∗ si zi > 0 ∗ si zi ≤ 0

Econométrie des Variables Qualitatives. Cours C. Hurlin

50

2.2. Autres Modèles Tobit Généralisés 2.2.1. Modèle Tobit Généralisé Type 3 2.2.2. Modèle Tobit Généralisé Type 4 2.2.3. Modèle Tobit Généralisé Type 5

3. Les Modèles à régimes
3.1. Modèle à régimes observables 3.2. Modèle à régimes inobservables

Econométrie des Variables Qualitatives. Cours C. Hurlin

51

A. Annexes
A.1. Concavité de la log-vraisemblance Soit les matrices ∆ et Γ respectivement définies par : ∆= − Ψ (α, h) 0 1 0 − N2 h
i: yi >0

(A.1)

Γ= avec Ψ (α, h) =
i: yi −1

xi xi yi xi i: yi >0

xi yi 2 i: yi >0 yi
i: yi >0

(A.2)

φ (xi α) φ (xi α) xi α − xi xi 1 − Φ (xi α) 1 − Φ (xi α) =0

et xi α − φ (xi α) [1 − Φ (xi α)] < 0. Sachant que la matrice xi xi est définie positive. *** A finir *** a b , eigenvalues: b c 1 1 1 (a2 − 2ac + c2 + 4b2 ), 1 a + 1 c − 1 (a2 − 2ac + c2 + 4b2 ) 2a + 2c + 2 2 2 2 A.2. Programme de simulation d’un probit simple Le programme permettant de simuler la série observable yi est le suivant : ’ Tirage des Epsilon dans une loi N(0,1) scalar sigeps=1 genr eps=nrnd*sigeps ’ Construction de la Variable Exogène X scalar sigx=1 genr x=nrnd*sigx ’ Construction de la Variable Latente y* scalar beta=0.8 scalar alpha=1 genr ystar=alpha+beta*x+eps ’ Construction de la Variable Observale y genr y=0 genr y= (ystar>0)*ystar

Econométrie des Variables Qualitatives. Cours C. Hurlin

52

Bibliographie
Alban T. (2000), ”Econométrie des Variables Qualitatives”, Dunod. Goldberger (1964) Gourieroux C. (1989), ”Econométrie des Variables Qualitatives”, Economica. Greene W.H. (1997), ”Econometric Analysis”, Londres, Prentice Hall. McDonald, J. and R. Moffitt (1980) The Uses of Tobit Analysis, Review of Economic and Statistics, 62, 318321 Maddala. G.S. (1983), ”Limited-dependent and Qualitative Variables in Econometrics”, Econometric Society Monographs, 3, Cambrige University Press. Tobin J. (1958), ”Estimation of Relationships for Limited Dependent Variables”, Econometrica, 26, 24-36.


				
DOCUMENT INFO
Shared By:
Categories:
Stats:
views:1883
posted:10/30/2009
language:French
pages:143
Description: Econom�trie des Variables Qualitatives