Analyse Bayésienne et méthodes MCMC quelles applications en by malj

VIEWS: 48 PAGES: 2

									Analyse Bayésienne, méthodes MCMC et copules : quelles
              applications en hydrologie ?


    Cette présentation s’intéresse à la modélisation probabiliste des évènements hydrologiques,
dont une application classique est l’analyse fréquentielle des évènements extrêmes, qui
conduit au calcul de quantiles de crues ou de pluies, par exemple. Le schéma général d’une
modélisation probabiliste peut être décrit comme suit :
        Création d’un échantillon de données, si possible iid (indépendant, identiquement
           distribué)
        Choix d’une loi de probabilité pour décrire la distribution de ces données
        Estimation des paramètres de cette loi
    Parmi les différentes méthodes d’estimation, l’analyse Bayésienne a gagné en popularité au
cours des dernières années. Schématiquement, cette méthode consiste à baser l’estimation des
paramètres sur une distribution nommée loi a posteriori, qui mélange l’information portée par
les données (via la vraisemblance) et une information a priori exogène aux données (avis
d’expert, informations régionales, contraintes physiques, …).
    Le formalisme Bayésien possède plusieurs avantages par rapport à une analyse classique.
Tout d’abord, l’introduction de connaissances a priori est susceptible d’améliorer l’estimation
des paramètres. Ce type de connaissances existe dans la grande majorité des cas : par
exemple, il est possible d’utiliser les méthodes développées pour l’estimation des quantiles de
crues sur des sites non jaugés (cf. programme PUB). De plus, le formalisme Bayésien permet
une analyse complète des incertitudes : échantillonnage (c’est le cas également des analyses
classiques), mais aussi de modélisation (quelle loi de probabilité choisir ? modéliser une
tendance linéaire, exponentielle, quadratique ?), ou de métrologie (prise en compte de
l’incertitude liée à l’extrapolation des courbes de tarage, ou à la reconstitution de données
historiques). Enfin, en basant l’inférence sur une loi de probabilité, le calcul des intervalles de
confiance est très naturel, et ne repose sur aucune hypothèse asymptotique.
    Cependant, certains inconvénients demeurent : tout d’abord, la traduction de connaissances
a priori en une loi de probabilité sur les paramètres est loin d’être triviale. De plus, la loi a
posteriori s’exprime en général comme une distribution multivariée qui est délicate à
manipuler dès que le nombre de paramètres est supérieur à deux ou trois. Cette difficulté
explique pourquoi l’utilisation de l’analyse Bayésienne est assez récente dans le domaine des
valeurs extrêmes, alors que certains hydrologues utilisent déjà ce formalisme depuis les
années 60 (cf. les travaux de J. Bernier), dans le cadre de lois Gaussiennes plus simples à
manipuler. Les méthodes dites MCMC (Monte Carlo Markov Chain) fournissent une solution
algorithmique à ce problème, mais nécessitent une puissance informatique qui n’était pas
disponible il y a encore quelques dizaines d’années. Dans cet exposé, nous présenterons
brièvement le principe de ces méthodes, qui présentent l’avantage d’être utilisables même
avec un « grand » nombre de paramètres (quelques dizaines).

    L’apport de l’analyse Bayésienne et des méthodes MCMC en hydrologie sera ensuite
illustré par des cas d’études relatifs à l’estimation des quantiles de crues. Tout d’abord, nous
verrons comment inclure des connaissances exogènes aux données, via une distribution a
priori. Ces connaissances peuvent être issues d’une certaine expertise de l’hydrologue, ou
peuvent dériver de connaissances physiques. Il est également possible d’inclure de manière
très naturelle des informations régionales dans cette distribution a priori (cf. thèse de M.
Ribatet).
    Nous illustrerons ensuite comment mélanger différents modèles, ce qui permettra de
prendre en compte au moins partiellement l’incertitude liée au choix du modèle. L’application
concernera ici la modélisation d’une tendance temporelle sur les paramètres de la distribution
des crues. Un des problèmes est lié au fait que plusieurs tendances peuvent s’ajuster de
manière équivalente aux données, mais peuvent diverger lorsque l’on cherche à extrapoler ces
évolutions dans le futur. Ne considérer qu’un unique modèle peut alors entraîner une forte
sous-estimation des intervalles de confiance futurs.
    La troisième application concerne les modèles impliquant l’estimation d’un grand nombre
de paramètres. De tels modèles résultent souvent d’une vision multivariée des phénomènes
(évaluation multi-durée des pluies ou des débits, caractérisation pointe-volume-durée d’une
crue, phénomènes spatialisés). Deux grandes difficultés empêchent d’effectuer ce type
d’analyse de manière totalement rigoureuse. La première est liée au nombre de paramètres à
estimer, ce qui empêche d’utiliser des méthodes classiques de type Newton pour la
maximisation de la vraisemblance. Des méthodes alternatives sont en général développées,
mais elles reposent souvent sur des hypothèses fortes, qui conduisent à une sous estimation
des incertitudes. Nous verrons donc comment les outils MCMC peuvent être utiles pour
estimer proprement un nombre modérément élevé de paramètres. Le cas d’étude présenté
concernera l’estimation d’une tendance régionale sur les débits de crues pour un ensemble de
sites. Nous évoquerons également quelques applications potentielles à la méthode de l’indice
de crue, ou à l’estimation de distributions multi-durées sur les pluies par exemple (cf. thèse de
A. Muller).
    La seconde difficulté est d’ordre théorique, et est liée à la difficulté de modéliser des
dépendances dans un cadre non-Gaussien. Ce domaine est toujours du domaine de la
recherche en statistiques, et ne possède pas aujourd’hui de solution satisfaisante à la fois du
point de vue théorique et du point de vue pratique. Cependant quelques solutions, faisant
intervenir des hypothèses plus ou moins fortes, sont d’ores et déjà envisageables. En
particulier, l’utilisation de copules permet de créer assez simplement des lois multivariées à
partir des lois marginales souhaitées (des distributions des valeurs extrêmes, par exemple).
Nous illustrerons brièvement le principe de ces outils, et présenterons quelques exemples
d’application, concernant la significativité régionale d’un test répété sur plusieurs sites, ou la
gestion du risque à une échelle régionale.

   L’intégration des progrès statistiques aux problématiques hydrologiques est
indiscutablement un des moyens d’améliorer l’analyse fréquentielle des évènements extrêmes.
L’analyse Bayésienne ou les outils MCMC sont souvent indispensables pour parvenir à
intégrer ces améliorations. La première perspective consistera à évaluer comment l’utilisation
combinée des outils MCMC et des copules peut améliorer la prise en compte de problèmes
multivariés. Nous évoquerons également d’autres possibilités pour prendre en compte la
dépendance entre valeurs extrêmes, notamment l’utilisation d’outils issus de la géostatistique,
couplés avec des modèles Bayésiens.

								
To top