Revista Colombiana de Estad ıstica Volumen No P gs a

Reviews
Shared by: rockman16
Stats
views:
5
rating:
not rated
reviews:
0
posted:
12/30/2008
language:
Spanish
pages:
0
Revista Colombiana de Estad´ ıstica Volumen 26 No 2. P´gs. 89 a 128. Diciembre 2003 a Un pron´stico no param´trico de la inflaci´n o e o colombiana Norberto Rodr´ ıguez N.* Patricia Siado C.** Resumen En este trabajo se presentan los resultados de un ejercicio de pron´stio co no param´trico, m´ ltiples pasos adelante, para la inflaci´n colombiana e u o mensual. En particular, se usa estimaci´n kernel para la media condicioo nal de los cambios de la inflaci´n, dada su propia historia. Los resultados o de pron´stico se comparan con un modelo ARIMA estacional y un moo delo tipo STAR. Se encuentra que, excepto para el pron´stico un mes o adelante, el pron´stico no param´trico mejora a las otras dos metodoo e log´ que le compiten; adem´s, de entre las tres alternativas consideraıas a das, el no param´trico es el unico pron´stico que estad´ e ´ o ısticamente mejora al pron´stico que se hace con un modelo de caminata aleatoria. o Palabras clave: Pron´stico no param´trico, evaluaci´n y comparaci´n o e o o de pron´sticos, ancho de banda (bandwidth), estimaci´n kernel. o o Abstract This paper contains the results of a non parametric multi-step ahead forecast for the monthly Colombian inflation, using Mean conditional kernel estimation over inflation changes, with no inclusion of exogenous variables. The results are compared with those from an ARIMA and a non-linear STAR. The nonparametric forecast over perform the others two, as well as being the only, from the three, that statistically improved the na¨ forecast given by a random-walk model. ıve Key words: Nonparametric forecast, Kernel estimation, Forecast evaluation, Bandwidth selection, Rolling forecast. * Econometrista asociado de la Unidad de Econometr´ del Banco de la Rep´ blica. Corresıa u pondencia nrodrini@banrep.gov.co. ** Estad´ ıstica de la Universidad Nacional de Colombia. 89 90 Norberto Rodr´ ıguez N. & Patricia Siado C. 1. Introducci´n o El control de la inflaci´n es casi siempre uno de los objetivos prioritarios o de la pol´ ıtica econ´mica gubernamental, en particular del banco central. Su o pron´stico acertado ayudar´ a atenuar todos los posibles inconvenientes, al o a permitir tomar medidas remediales anticipadas si es necesario. Para el estudio de la inflaci´n se han usado varias herramientas estad´ o ısticas entre las cuales se encuentran los modelos de series de tiempo a trav´s de e m´todos param´tricos, con b´sicamente dos prop´sitos: uno es construir un e e a o modelo que ajuste adecuadamente los datos con la estimaci´n de los par´metros o a del modelo y as´ hacer an´lisis de pol´ ı a ıtica; el segundo prop´sito es usar el modelo o identificado y estimado para realizar pron´sticos. El presente trabajo se centra o exclusivamente en este ultimo objetivo. ´ La metodolog´ de Box-Jenkins ofrece la manera de lograr estos objetivos ıa a trav´s de la construcci´n, identificaci´n y predicci´n de un proceso autoe o o o rregresivo de media m´vil estacional, SARIMA; pero la linealidad, que es el o soporte fundamental de la teor´ Box-Jenkins, es bastante fuerte e inadecuada ıa en muchas situaciones pr´cticas. a Uno de los problemas que se presenta en predicci´n, principalmente si el o horizonte de pron´stico es largo, es el aumento en el error cuadr´tico medio o a de pron´stico conforme aumenta el horizonte de predicci´n. Consideraciones o o de modelos param´tricos no lineales tipo STAR, como bi-lineales o procesos e ARCH1 no siempre logran producir un notable mejoramiento en la calidad de la predicci´n. o Hasta el momento no se hab´ utilizado m´todos no param´tricos para ıan e e realizar pron´sticos en la serie de la inflaci´n colombiana, pero gracias a los o o desarrollos en la teor´ de estad´ ıa ıstica no param´trica para series de tiempo, e se facilita dicha labor. En el presente trabajo se realizaron pron´sticos de la o inflaci´n colombiana por medio de los m´todos de predicci´n no param´tricos o e o e basados en estimaci´n kernel. No obstante, la aplicaci´n de t´cnicas no pao o e ram´tricas a datos de la econom´ colombiana no es tan poco com´n como e ıa u se podr´ pensar; s´lo por mencionar dos trabajos de aplicaci´n a datos de ıa o o ingresos, est´n N´nez & Jim´nez (1998) y, m´s novedoso, Z´rate (2003). a u˜ e a a Los m´todos no param´tricos tienen ventajas sobre los param´tricos. Los e e e m´todos param´tricos en muchas ocasiones no cumplen con los supuestos acerca e e de la forma funcional del conjunto de variables aleatorias de las cuales provie1 ARCH: Autoregressive Conditional Heteroskedasticity. La familia de modelos GARCH, o ARCH generalizado, provee recursos para realizar estimaciones cuando la varianza de un proceso no es constante a trav´s del tiempo. e Un pron´stico no param´trico de la inflaci´n colombiana o e o 91 nen los datos, produciendo as´ modelos no muy confiables que generan sesgos y ı deterioran la calidad de los pron´sticos. En el campo no param´trico se evita eso e te problema al permitir una forma funcional flexible, y no un conjunto peque˜o n de modelos r´ ıgidos como lo hacen los param´tricos. Sin embargo, se les hacen e dos cr´ ıticas: la primera se refiere a la demora en el trabajo computacional, y la segunda al amplio error cuadr´tico medio de predicci´n. Gracias a desarrollos a o tecnol´gicos en el ´mbito computacional y su disponibilidad a bajo costo queda o a sin peso la primera cr´ ıtica. La segunda ha sido estudiada en la literatura; se ha demostrado que los pron´sticos del m´todo no param´trico de la mediana o e e condicional, al ser comparados con los de modelos ARIMA dan resultados favorables en t´rminos del error cuadr´tico medio Gannoun (1991)2 ; resultados e a similares son mostrados para la media condicional Carbon & Delecroix (1993). Puesto que se plantea el uso de una nueva t´cnica de pron´stico, es deseable e o comparar sus resultados con los de otros modelos existentes. Con eso en mente, y por ubicar al lector, a continuaci´n de esta introducci´n se presenta una breve o o sintaxis de dos de los modelos usados por el Banco de la Rep´blica para generar u pron´sticos de la inflaci´n. En la secci´n 3 se introducen los primeros conceptos o o o de estimaci´n no param´trica de densidades condicionales o funciones de regreo e si´n, junto a un ejemplo de datos simulados, para terminar dicha secci´n con o o una descripci´n de algunas de las funciones kernel m´s usadas en aplicaciones o a estad´ ısticas de m´todos no param´tricos de suavizamiento. Se pasa a la secci´n e e o 4, donde se resume la metodolog´ de pron´sticos no param´tricos m´ltiples ıa o e u pasos adelante, basados en suavizamiento kernel, y las especificaciones que se requieren del mismo. La secci´n 5 presenta los resultados del pron´stico no pao o ram´trico de la inflaci´n colombiana, as´ como los resultados de la evaluaci´n e o ı o de los mismos. La secci´n 6 concluye y enuncia algunas recomendaciones para o futuro trabajo de aplicaci´n en el ´rea. o a 2. Modelos param´tricos usados para e pronosticar Actualmente el Banco de la Rep´blica utiliza, entre otros, dos tipos de u modelos para pronosticar mensualmente la inflaci´n; son ellos los tradicionales o modelos ARIMA y los modelos no lineales tipo STAR. Una breve descripci´n o de ellos se presenta en seguida. 2 V´anse e las definiciones m´s adelante. a 92 Norberto Rodr´ ıguez N. & Patricia Siado C. 2.1. Modelo ARIMA El modelo que se usa com´nmente para hacer pron´sticos a la serie de u o tiempo de la inflaci´n es un modelo ARIMA estacional de la forma: o φ(L)Φ(L12 )(1 − L)(1 − L12 ) ln(IP Ct ) = θ(L)Θ(L12 )et , (1) donde ln es el logaritmo natural, L es el operador de rezagos3 , φ(L) y θ(L) son polinomios en L, con coeficientes fijos a trav´s de la muestra, de grados e p y q, respectivamente; Φ(L12 ) y Θ(L12 ) son polinomios en L12 de grados P y Q, respectivamente, los cuales modelan el componente estacional; {et } es un proceso ruido blanco: variables aleatorias independientes e id´nticamente e distribuidas con media 0 y varianza σ 2 , usualmente asumidas con distribuci´n o normal (gaussiana). Entre las ventajas de estos modelos se encuentran: son de f´cil manejo a computacional, est´n incorporados en la mayor´ de paquetes estad´ a ıa ısticos, son bastante conocidos y utilizados. Entre sus desventajas, sus pron´sticos resultan o desmejorados para el mediano o largo plazo. 2.2. Modelos autorregresivos de transici´n suave: STAR o Los modelos tipo STAR corresponden a una gama de modelos no lineales, presentados como una extensi´n de los modelos TAR (Threshold Autoregreso sive), donde se supone que el proceso generador de la serie Yt oscila de forma suave entre dos reg´ ımenes: Yt = α0 + αi Yt−i + β0 + βt Yt−i F (Yt−d ) + εt , (2) 2 εt ∼ N (0, σe ), F (Yt−d ) es una funci´n no lineal de Yt−d que toma valores entre o 0 y 1, es no decreciente y continua, se denomina funci´n de transici´n; los dos o o modelos m´s comunes suponen las siguientes funciones: a Modelo LSTAR: F (Yt−d ) = 1 + exp[−γ(Yt−d − c)] Modelo ESTAR: F (Yt−d ) = 1 − exp −γ(Yt−d − c) 2 −1 γ>0 γ > 0. (3) (4) Los cambios de la no linealidad que introduce el r´gimen por medio de la e funci´n F (Yt−d ) dependen de los par´metros γ y c. En particular, para un o a 3 El operador L de rezagos est´ definido por: Lk zt = L. . .Lzt = zt−k . a k Un pron´stico no param´trico de la inflaci´n colombiana o e o 93 modelo LSTAR los reg´ ımenes de transici´n ocurren alrededor de Yt−d = c o donde el par´metro γ indica el grado de no linealidad, es decir, qu´ tan r´pido a e a ocurre la transici´n entre los dos reg´ o ımenes extremos: el paso de cero a uno en F (Yt−d ). Este modelo ha sido tambi´n utilizado con una variable ex´gena Jalil e o & Melo (2000). Entre las desventajas se encuentra que sus intervalos de pron´stico son o dif´ ıciles de obtener con m´todos convencionales y los pron´sticos puntuales e o a mediano y largo plazo deben ser generados v´ simulaci´n estoc´stica. La ıa o a ventaja que presentan frente a los ARIMA y otras t´cnicas param´tricas es que e e resultan pronosticar consistentemente mejor que aquellos a mediano y largo plazo. 2.3. Otros modelos Existen varios trabajos en los cuales se involucran especificaciones de modelos no lineales para la inflaci´n de Colombia. Uno de los primeros trabajos o explica el proceso inflacionario como un modelo switching con dos o tres estados (Melo & Misas 1998), pero resulta de dif´ implementaci´n y no util para ıcil o ´ pron´stico, debido a que bajo cierta especificaci´n necesaria se requieren 20 o o d´ continuos de ejecuci´n en computador. ıas o Recientemente se han usado modelos de redes neuronales, los cuales son intensivos en uso de recurso computacional; esto dificulta el proceso de evaluaci´n de sus pron´sticos, pero aun as´ no han dado muestra de mejorar otros o o ı modelos en el trabajo de pronosticar (Misas, L´pez & Querub´ 2002). o ın 3. Regresi´n no param´trica o e Con el objeto de introducir conceptos, en este cap´ ıtulo se presenta la estimaci´n no param´trica de densidades condicionales, o dicho de otro modo, o e funciones de regresi´n, lo cual es b´sico para entender las estimaciones no pao a ram´tricas en modelos de series de tiempo. Con el ´nimo de ilustrar las ideas e a se presenta un ejemplo. La estimaci´n no param´trica de densidades no cono e dicionales y resultados b´sicos de estimaci´n kernel son dejados como anexo a o A. Como lo escribe H¨rdle (1990), la aproximaci´n no param´trica a la esa o e timaci´n de curvas de regresi´n tiene cuatro prop´sitos principales. Primero, o o o proveer un m´todo vers´til de explorar una relaci´n general entre dos variables. e a o Segundo, generar una predicci´n de observaciones a´n no hechas, sin referencia o u 94 Norberto Rodr´ ıguez N. & Patricia Siado C. a un modelo param´trico fijo. Tercero, proporcionar una herramienta para ene contrar observaciones espurias, mediante el estudio de la influencia de puntos aislados. Cuarto, constituye un m´todo flexible de sustituci´n de observacioe o nes faltantes o at´ ıpicas y permite interpolar entre valores adyacentes de las variables ex´genas. o Dentro del marco de regresi´n no param´trica se pueden citar adem´s de o e a los m´todos basados en kernel o suavizamiento, los de estimaci´n basada en e o los k vecinos m´s cercanos (k-nearest neighbor ), las estimaciones con series a ortogonales, regresi´n cuant´ o ılica y los suavizamientos de Splines. El presente trabajo se centra en los basados en metodolog´ kernel, la cual se describe a ıa continuaci´n. o 3.1. Estimaci´n de regresi´n por el m´todo kernel o o e Se consideran las variables aleatorias bidimensionales, independientes e id´ntie camente distribuidas (X1 , Y1 ), . . . , (Xn , Yn ). Suponiendo que existe una funci´n o r(.) la cual modela la relaci´n entre la respuesta Yi y la co-variable Xi , as´ o ı: Yi = r(Xi ) + εi , y adem´s que E(εi |Xi ) = 0, se puede mostrar que la aproxia maci´n optima a Yi , en el sentido de menor error cuadr´tico medio, est´ dada o a a por la esperanza condicional, r(x) = E(Yi |Xi = x), x ∈ R, n´tese que no se hace ning´n supuesto sobre la linealidad de dicha relaci´n. o u o Si se definen las funciones: f (x) = f (x, y)dy, la densidad marginal de X, donde f (x, y) es la densidad conjunta, sea: ϕ(x) = yf (x, y)dy, entonces, la esperanza condicional de Yi dado Xi = x es, f (x, y)y ϕ(x) dy = , f (x) f (x) r(x) = x ∈ R. Un pron´stico no param´trico de la inflaci´n colombiana o e o 95 Un estimador kernel de f (x), basado en las n observaciones, es: fn (x) = 1 nhn n K i=1 x − Xi , hn donde K(.) es una funci´n sim´trica alrededor de cero, continua, acotada, no o e necesariamente positiva en todo su soporte e integrable (detalles en el anexo A, ecuaci´n 34, haciendo d = 1), an´logamente, un estimador de ϕ(x) es (Pagan o a & Ullah 1999, p´gs. 83-84): a ϕn (x) = 1 nhn n K i=1 x − Xi Yi , hn x ∈ R. El estimador kernel de r(x), basado en n observaciones, est´ definido como: a rn (x) = ϕn (x) , fn (x) n x ∈ R; rescribiendo esta funci´n se obtiene: o rn (x) = i=1 Wni (x)Yi , donde4 : x − Xi hn Wni (x) = n x − Xs K hn i=1 K . As´ el estimador de regresi´n kernel de E(Yi |Xi = x) es: ı, o x − Xi Yi hn rn (x) = i=1 , n x − Xi K hn i=1 K n x ∈ R, (5) el cual puede verse como un promedio ponderado de los Y , donde el peso depende de la distancia entre Xi y x, la cual es cuantificada por la funci´n K(.); o en general el procedimiento de ponderaci´n asigna el mayor peso a puntos cero canos a x, y menor o ning´n peso a puntos apartados de x. Este es precisamente u el estimador de Nadaraya-Watson; v´ase Bosq (1998) para detalles adicionales. e 4 Se debe usar la convenci´n Wni (x) = 0 si el denominador es cero. o 96 Norberto Rodr´ ıguez N. & Patricia Siado C. Las ponderaciones kernel definen una vecindad de puntos alrededor de x. El suavizador kernel puede ser entendido como un polinomio de ajuste local constante. Extensiones naturales a esta idea son las regresiones polin´micas o locales, esto es, ajustar una regresi´n lineal local, un ajuste cuadr´tico local, o a etc. Propiedades te´ricas deseables son obtenidas con esta estrategia. En la o pr´ctica, muchas veces resulta suficiente con la regresi´n lineal local. V´ase a o e Fan & Gijbels (1996). 3.2. Ejemplo de regresi´n no param´trica o e Este ejemplo, m´s que detallar el uso de la regresi´n no param´trica, pretena o e de ilustrar lo cr´ ıtico de la selecci´n del ancho de banda. El ejemplo est´ b´sado o a a en Gy¨rfi, Kohler, Krzizak & Walk (2002); en ese caso Yi = r(xi ) + εi , donde o εi ∼ N 0, var(εi ) , var(εi ) = 0,2 − 0,1 cos(2πxi ) y  si −1 ≤ x < −0,5,  (x + 2)2 /2   x/2 + 0,875 si −0,5 ≤ x < 0, r(x) = 0 ≤ x < 0,5,  −5(x − 0,2)2 + 1,075 si   x + 0,125 si 0,5 ≤ x < 1, Gr´fica 1: Datos simulados. a donde x es generado aleatoriamente como una variable normal est´ndar truna cada al intervalo [−1, 1]; as´ la funci´n r(x) es polinomial a trazos, con disı, o continuidades; n´tese adem´s la heterocedasticidad del t´rmino de error. La o a e Un pron´stico no param´trico de la inflaci´n colombiana o e o 97 gr´fica 1 muestra la nube de puntos de los n = 400 datos simulados; de all´ a ı, se nota que el ojo humano no es capaz de ver con claridad cu´l puede ser la a funci´n de regresi´n. o o La gr´fica 2 muestra el modelo te´rico junto con la l´ a o ınea de ajuste que se obtendr´ con un modelo param´trico lineal. Obviamente, la aproximaci´n ıa e o lineal no es una muy buena alternativa. Gr´fica 2: Datos simulados, l´ a ınea continua relaci´n simulada, l´ o ınea a trazos ajuste lineal. Gr´fica 3: Dos estimaciones kernel, a trazos h = 0,01, l´ a ınea continua h = 0,4. La gr´fica 3 muestra dos ajustes obtenidos por el m´todo kernel. El primero, a e la l´ ınea a trazos, se obtiene con el kernel gaussiano y usa h = 0,01, lo cual 98 Norberto Rodr´ ıguez N. & Patricia Siado C. Gr´fica 4: Estimaci´n kernel, con h ´ptimo, h = 0,1527. a o o produce sub-ajuste (poco suavizamiento), en el sentido de que el ajuste sigue muy de cerca los datos originales. El segundo, la l´ ınea continua, se obtiene con h = 0,4, generando sobre-ajuste (suavizamiento excesivo). La gr´fica 4 muestra, junto a la relaci´n te´rica, el ajuste kernel con sea o o lecci´n de ancho de banda que se˜ala el m´todo plug-in, en el que se sugiere o n e h = σx n−1/5 , en este caso h = 0,1527. Los expertos recomiendan, en cuanto sea posible, recurrir a la inspecci´n visual del ajuste obtenido para varios anchos o de banda y tener en cuenta que es menos da˜ino excederse un poco en suavin zamiento que en sobre-ajuste. As´ queda en evidencia la importancia de una ı adecuada selecci´n del ancho de banda. Los problemas son mucho m´s graves o a cuando la regresi´n es m´ltiple, esto es, con varios regresores. De la construco u ci´n del estimador se encuentra que la metodolog´ es menos influenciable a o ıa valores extremos y situaciones at´ ıpicas que los modelos param´tricos. Otras e aplicaciones, extensiones y detalles se pueden encontrar ilustradas en H¨rdle a (1990). 3.3. Funciones kernel A continuaci´n se mencionan las funciones kernel m´s usadas en aplicaciones o a pr´cticas. Con fines ilustrativos se presentan los kernel est´ndar, K(u), pero se a a debe tener en cuenta que en la practica se utiliza Kh (u) = h−1 K u . h Kernel uniforme: Asigna peso de 1 h por igual a todas las observaciones Un pron´stico no param´trico de la inflaci´n colombiana o e o 99 que est´n a distancia no mayor de h y cero a las dem´s. a a K(u) = 1 I[−1,1] (u). 2 Gr´fica 5: Kernel uniforme. a 1 Kernel triangular: Asigna pesos de h a observaciones coincidentes y el peso de las otras decrece linealmente hasta un peso de cero a las que est´n a h a o m´s lejos. a K(u) = 1 − |u| I[−1,1] (u). Gr´fica 6: Kernel triangular. a Kernel Epanechnikov: Para las observaciones que est´n a distancia de 0 a a h asigna pesos entre 0,75 y cero, con decrecimiento cuadr´tico. Las que est´n a a a una distancia de h o mayor tienen peso cero. K(u) = 3 1 − u2 I[−1,1] (u). 4 100 Norberto Rodr´ ıguez N. & Patricia Siado C. Gr´fica 7: Kernel Epanechnikov. a Kernel bicuadrado: Los pesos para observaciones cercanas son cuando m´s de 0,93 con decrecimiento polinomial cu´rtico hasta llegar a cero, cuando a a la distancia es de h o mayor. K(u) = 15 1 − 2u2 + u4 I[−1,1] (u). 16 Gr´fica 8: Kernel bicuadrado a Kernel gaussiano: Asigna pesos de acuerdo con una densidad normal est´ndar. Observaciones cuya distancia oscila entre cero y 1 reciben peso entre a 0,4 y 0,2; las que est´n a distancia 3 reciben peso de 0,0039 y pr´cticamente cero a a el resto de observaciones. Es un kernel muy popular, con soporte no compacto y diferenciable en todo su soporte o recorrido. En este caso el ancho de banda Un pron´stico no param´trico de la inflaci´n colombiana o e o 101 en Kh (u) desempe˜a el papel de desviaci´n est´ndar. n o a 1 1 K(u) = √ exp − u2 . 2 2π Gr´fica 9: Kernel gaussiano. a Kernel tri-c´ bico: Es similar al Epanechnikov pero m´s plano en la cima, u a con la ventaja te´rica de que es diferenciable en los l´ o ımites de su soporte (|u| = 1) K(u) = 1 − |u|3 I[−1,1] (u). 3 Gr´fica 10: Kernel tri-c´bico. a u Kernel Dirichlet: Los pesos son asignados seg´n ondas senosoidales de u magnitud decrecientes, con un “l´bulo principal” o mayor alrededor de cero o y l´bulos laterales o menores a los dos lados. Este kernel resulta de soporte o 102 Norberto Rodr´ ıguez N. & Patricia Siado C. no acotado. Tiene la particularidad de no ser siempre positivo y es usado en an´lisis espectral; v´ase Prietsley (1984). a e K(u) = sen (M + 0,5)u . 2π sen(0,5u) Gr´fica 11: Kernel Dirichlet, M = 2. a De las anteriores funciones kernel y de otras que existen en la literatura, las m´s usadas son la funci´n tri-c´bico, Epanechnikov y la gaussiana soportada a o u en sus propiedades estad´ ısticas y asint´ticas. Dado que la elecci´n de la funci´n o o o kernel no afecta marcadamente los resultados, como es aceptado ampliamente en la literatura, en este trabajo se usa el kernel gaussiano, como se explica m´s a adelante. V´ase Hastie, Tibshirani, Friedman & Friedman (2002). e 4. Implementaci´n del m´todo no param´trico o e e en series de tiempo Cuando un estimador kernel es aplicado a datos dependientes como en el caso de series de tiempo, el efecto por la dependencia entre las observaciones afecta solamente un peque˜o intervalo de tiempo y no a todos los datos n (Heiler 1999). Este hecho reduce la dependencia entre las estimaciones, por lo que muchas de las t´cnicas desarrolladas para datos independientes pueden ser e usadas en el caso de series de tiempo. Sin embargo, dentro de las hip´tesis o se encuentra el que las observaciones sean asint´ticamente independientes, lo o Un pron´stico no param´trico de la inflaci´n colombiana o e o 103 que ha sido estudiado ampliamente por varios autores para los casos que se presentan en este cap´ ıtulo. 4.1. Estacionarizaci´n o El primer paso de la implementaci´n de los m´todos no param´tricos es la o e e estacionarizaci´n de los datos, que se lleva a cabo estabilizando la varianza y o removiendo la tendencia, si es del caso; sin embargo, algunos autores afirman que si los cambios en la media o la varianza para las series de tiempo no estacionarias son leves, las t´cnicas no param´tricas siguen siendo igualmente e e efectivas5 . 4.2. Notaci´n y suposiciones generales o Sea {Zt } un proceso observado de serie de tiempo univariado estrictamente estacionario6 con 1 ≤ t ≤ n. En la pr´ctica, el supuesto de variables indea pendiente e id´nticamente distribuidas dif´ e ıcilmente se cumple, mientras que el supuesto de un proceso asint´ticamente independiente o mixing 7 y no necesariao mente distribuido id´nticamente es m´s simple de mantener. Estos supuestos e a han sido verificados para procesos gaussianos (Ibragimov & Rozanov 1978) y para procesos ARIMA no gaussianos (Pham & Tran 1985). Sin embargo, esta suposici´n es muy dif´ de verificar en la pr´ctica en situaciones generales. o ıcil a Como tercer supuesto, {Zt } sigue un proceso d-markoviano8 (suposici´n H), o donde d es llamado el coeficiente de Markov. Dada la realizaci´n z1 , z2 , . . . , zn o se desea predecir la variable aleatoria no observada Zn+m , m ≥ 1 donde m es el horizonte de predicci´n. o Para este prop´sito se construye el proceso asociado {Xt , Yt }, donde o Xt = (Zt , . . . , Zt−d+1 ), (6) 5 V´ase Bosq (1998, p´g. 88), donde se menciona el m´todo cynical que consiste en ignorar e a e el componente determin´ ıstico de la serie observada, siendo este componente el que podr´ ıa inducir la no estacionaridad. 6 Z es estrictamente estacionario si (Z , . . . , Z −−−− t t t+n ) − − − − → (Zt+g , . . . , Zt+n+g ) para todo entero t, g, n ≥ 1. Esto indica que los dos vectores aleatorios tienen la misma funci´n o de distribuci´n conjunta. o 7 Ve´se anexo B. a 8 Para un proceso Z de Markov se cumple: F (Z |Z t t t−s s ≥ 1) = F (Zt |Zt−1 , . . . , Zt−d ), con F la funci´n de distribuci´n acumulativa de probabilidad. o o distribuci´n o 104 y Yt = Zt+m , Norberto Rodr´ ıguez N. & Patricia Siado C. t ∈ {d, . . . , n}. (7) Considerando el estimador de regresi´n kernel rn , basado en los datos o z1 , z2 , . . . , zn para E(Yn |Xn ) = E(Zn+m |Zn , . . . , Zn−d+1 ) es n−m rn (x) = E(Yn |Xn ) = t=d Wtm (x)Yt , donde x − Xt hn Wtm (x) = n−m x − Xt Kd hn t=d Kd , x ∈ Rd . (8) N´tese que la fijaci´n del ancho de banda hn controla el tama˜o de la o o n vecindad local y debe ser un valor real positivo que debe tender a cero cuando n tiende a infinito. La funci´n de Kd (.) es una funci´n kernel d-variada, con o o integral m´ltiple igual a uno y ella controla la forma de los pesos. Finalmente, u x = Xn = (Zn , . . . , Zn−d+1 ) se llamar´ el bloque de referencia con el cual a se comparan los otros bloques. As´ una secuencia de observaciones o bloque, ı, tendr´ mayor peso en el pron´stico si es m´s parecido en t´rminos de distancia a o a e al bloque de referencia, que un bloque que no lo sea. La gr´fica 12 ilustra esas ideas, cuando se tiene un proceso markoviano a de orden d = 3. Dependiendo de la amplitud de banda, hn , y si el soporte del kernel es acotado, las secuencias en negrilla ser´n consideradas en la generaci´n a o del pron´stico; las dem´s no. o a Ahora, fijado un h, las secuencias pasadas que se han de considerar en el pron´stico son aquellas que caen completamente dentro de la banda a trazos o que se muestra en la gr´fica 13, y los pesos son asignados acorde con la funci´n a o kernel usada. 4.3. Predictores no param´tricos basados en kernel e La predicci´n de las variables Zn+m ´ Yn consiste en encontrar la variable o o aleatoria m´s cercana (con respecto a cierta norma), conociendo todo el pasado a de la serie. Este problema puede ser visto as´ suponga que existe una funci´n ı: o r(.) que modela la relaci´n entre la respuesta Y y la co-variable X, y que o Un pron´stico no param´trico de la inflaci´n colombiana o e o 105 Gr´fica 12: Secuencias por considerar en el pron´stico kernel. a o Gr´fica 13: Vecindades de sendas pasadas. a 106 Norberto Rodr´ ıguez N. & Patricia Siado C. r(.) est´ definida a trav´s de la distribuci´n condicional9 . Dada una funci´n a e o o de p´rdida convexa l(.) con m´ e ınimo unico en cero, se define r(x) como la que ´ minimiza la media E l(Y − a)|X = x , con respecto a a, es decir: r(x) = arg m´ E l(Y − a|X = x) . ın a∈R entonces estimando no param´tricamente r(.) por rn (.) y calculando rn (Xn ) se e genera Yn . De esta forma se obtiene la predicci´n Zn+m . Tres alternativas han o sido propuestas en la literatura: media, mediana y moda condicional, dependiendo de la funci´n de p´rdida que se considere. o e 4.3.1. Media condicional Se puede ver que con l(u) = u2 se llega a la funci´n de media condicional o r(x) = E(Y |X = x). Entonces usando la suposici´n H y estimando r(.) se o obtiene: n−m t=d rn (x) = Wtm (x)Yt . (9) Aqu´ el predictor no param´trico m-pasos adelante de la media es: ı e n−m med Zn+m = t=d Wtm Xn Yt . (10) En Collomb (1984) se encuentra que, con alguna condici´n de regularidad, es o posible demostrar que: med Zn+m − Zn+m −→ 0. − c.s. 4.3.2. Mediana condicional Ahora se asume que la distribuci´n condicional de Y dado X es m´s pesao a da en un extremo o asim´trica. Entonces es mejor usar la mediana en vez de e la media para predecir valores futuros, teniendo en cuenta que la mediana es ampliamente resistente en estos casos. En este ejemplo la funci´n de p´rdida o e 9 Cuando se ha observado una realizaci´n x = (z , . . . , z ) de longitud n de un proceso o t n 1 estoc´stico y se desea obtener la predicci´n del valor zn+m con el criterio de minimizar el a o error cuadr´tico medio (ECM), el predictor zn+m que minimiza el ECM es la esperanza de a ˆ la distribuci´n condicionada zn+m = E[zn+m | xt ] como predictor ´ptimo. o ˆ o Un pron´stico no param´trico de la inflaci´n colombiana o e o 107 es dada por l(u) = |u|, y la soluci´n de r(x) lleva a la funci´n mediana condio o 1 cional r(x) = ´ y : F y|X = x ≥ 2 . Entonces, usando la suposici´n H y ınf o estimando r(.) se obtiene: n−m rn (x) = ´ ınf y : t=d Wtm (x)I{Yt ≤y} ≥ 1 . 2 (11) Aqu´ el estimador no param´trico de la mediana para m pasos adelante est´ daı e a do por: n−m 1 mediana , (12) Zn+m =´ ınf y : Wtm (Xn )I{Yt ≤y} ≥ 2 t=d bajo algunas condiciones de regularidad se prueba que (Gannoun 1990): mediana Zn+m − Zn+m −→ 0. − c.s. 4.3.3. Moda condicional Algunos autores propusieron un m´todo para producir predictores no parae m´tricos basados en la funci´n moda θ(x) = arg m´xy f Y |X = x , esta funci´n e o a o puede ser estimada como sigue (Collomb, Hardle & Hassani 1987). Suponga que se tiene una funci´n de p´rdida no convexa con m´ o e ınimo unico l(u) = 0 cuando ´ u = 0 y l(u) = 1 en otro caso. Entonces la soluci´n de r(x) conduce a la funci´n o o moda condicional r(x) = arg m´x f Y |X = x . Despu´s, usando la suposici´n a e o y∈R H y estimando r(.), se obtiene: n−m r(x) = arg m´ h ın y∈R −1 t=d Wtm (x)K y − Yt . hn (13) Consecuentemente el predictor no param´trico m pasos adelante es: e n−m moda Zn+m = arg m´x a y∈R t=d Wtm (Xn )K y − Yt ; hn (14) bajo algunas condiciones de regularidad se ha demostrado que: moda Zn+m − Zn+m −→ 0. − c.s. Todos los predictores dados pueden ser interpretados con respecto a los pesos Wtm (Xn ). Una observaci´n con peso grande desempe˜a un papel m´s o n a 108 Norberto Rodr´ ıguez N. & Patricia Siado C. importante en la elaboraci´n de los predictores. Los pesos estar´n cerca de o a cero si el correspondiente bloque Xt contiene un outlier ; sea ´ste Zt , (t ∈ e {t, . . . , t − d + 1}). As´ la metodolog´ de estimaci´n kernel es robusta a la ı, ıa o presencia de valores at´ ıpicos. 4.4. 4.4.1. Elecci´n de coeficientes o Elecci´n de la funci´n kernel K o o La funci´n kernel m´s usada en el caso multivariado es el producto kernel: o a d Kd (x1 , . . . , kd ) = j=1 K(xj ), donde la funci´n kernel K(.) est´ definida en la recta real. Ser´ usado el kernel o a a gaussiano, definido como: Kd (x1 , . . . , kd ) = (2π)− 2 exp − d d i=1 x2 i , xi ∈ R. 2 (15) Esta funci´n corresponde a la idea de dar pesos grandes a Xt cuando o est´ cercano a Xn usando la norma Xn − Xt ∞ = sup0 0 y α0 + 2α1 = 1. Esta idea puede generalizarse incluyendo el resto de los intervalos con peso decreciente para obtener: 1 ˆ αi n(hi) + n(−hi) , f (x) = a0 n(0) + hn i=1 m (32) donde α0 + 2 αi = 1, para valores de i tales que los intervalos formados contengan elementos de la muestra. El anterior estimador puede aplicarse si se divide el rango o soporte de valores de la variable x en k puntos x1 , . . . , xk , para k tan grande como se quiera; se elige un valor de h y se aplica la ecuaci´n 32 a cada punto. La o ˆ estimaci´n de f (xi ) equivale a construir un histograma con centros de clase: o xi −mh; xi −(m−1)h, . . . , xi −h, xi , xi +h, . . . , xi +(m−1)h, xi +mh, y estimar la densidad en el punto xi aplicando la ponderaci´n sim´trica 32. o e ˆ Para calcular f (xi+1 ) se toma xi+1 como nuevo punto central y se aplica de nuevo 32. Este proceso equivale a calcular la frecuencia absoluta en cada punto dando ciertos coeficientes de ponderaci´n a cada uno de los datos, la cual depende de o la distancia a dicho punto. A.2. Estimaci´n de densidad por el m´todo kernel o e El estimador encontrado anteriormente es llamado el estimador de densidad kernel. Formalmente se supone que los datos x1 , . . . , xn vienen de una secuencia de variables reales aleatorias independientes con una densidad com´n f u perteneciente a alguna familia . Si es grande (por ejemplo si contiene las densidades continuas), se sabe que el estimador insesgado de f puede no existir y que el supremo de la funci´n o m´ximo veros´ a ımil es infinito (Bosq 1998, p´g. 3). a Entonces un estimador de densidad primario es el del histograma mencionado en la secci´n anterior, definido formalmente como: o vnj ˆ fn (x) = , x ∈ Inj , j ∈ Z, n(an,j − an,j−1 ) donde Inj = an,j−1 , an,j ) y (anj , j ∈ Z) es una secuencia estrictamente creciente tal que |ajn | → ∞ cuando |j| → ∞ y donde vnj = n i=1 1[an,j−1 ,an,j ) (Xi ). 124 Norberto Rodr´ ıguez N. & Patricia Siado C. Si f es continua en el intervalo Inj y si an,j − an,j−1 es peque˜o, entonces n ˆ (x) est´ cercano a f (x) para cada x que pertenece a Inj . fn a Dado que este estimador no utiliza la informaci´n de toda la muestra, soo lamente los datos contenidos en el intervalo Inj , se construye el estimador histograma adaptable definido como: ∗ fn = vn (x) , nhn x ∈ R, donde n vn (x) = i=1 I x− hn 2 ,x + hn 2 (Xi ). As´ fn (x) se puede escribir en t´rminos de una funci´n continua, sim´trica ı ∗ e o e y acotada K(.) que da pesos a los datos en el intervalo dependiendo de la distancia al punto x: ∗ fn (x) = 1 nhn n K i=1 x − Xi , hn x ∈ R. (33) Considerando el caso en que las observaciones sean la realizaci´n de un o proceso estoc´stico {Xt }, por la extensi´n del teorema de Kolmogorov la disa o tribuci´n v de un proceso estoc´stico est´ completamente especificada por las o a a distribuciones finito dimensionales (Bhat 1933). El problema de estimaci´n de o v se reduce a las estimaciones de las densidades finito dimensionales asociadas. As´ si (Xt , t ∈ Z) es un proceso estoc´stico de dimensi´n Rd con funci´n ı a o o de densidad com´n f , el estimador de densidad kernel d-dimensional se puede u escribir como: fn (x) = = 1 nhd n 1 nhd n n Kd t=1 n x − Xt hn x1 − X1t xd − Xdt ,... , hn hn x ∈ Rd , (34) Kd t=1 donde Kd (.) es una funci´n kernel d-variada. o Un pron´stico no param´trico de la inflaci´n colombiana o e o 125 B. B.1. ANEXO B Condiciones mixing Las condiciones mixing son herramientas matem´ticas planteadas para dar a propiedades asint´ticas a los estimadores basadas en kernel para datos depeno dientes. B´sicamente ´stas prueban el control de la dependencia entre Xt y Xs a e cuando la distancia en el tiempo t − s se incrementa. Generalmente estas condiciones son dif´ ıciles de chequear, sin embargo si el proceso es una cadena de Markov estacionaria, entonces la ergodicidad geom´trica implica regularidad e absoluta, lo cual implica las condiciones strong mixing (H¨rdle, L¨tkepohl & a u Chen 1997, p´gs. 53-54). a B.1.1. Condici´n strong mixing o α−mixing o Para A un elemento de la σ−´lgebra ϕk generada por {Xs }, s ≤ t y B a un elemento de la σ−´lgebra ϕk+s generada por {Xs }, s ≥ t + k , se dice que a una secuencia es α−mixing si: sup P (A ∩ B) − P (A)P (B) ≤ αk , ϕk , ϕk+s donde αk → 0 cuando k → ∞. B.1.2. Condici´n uniformly mixing ´ φ−mixing o o Se dice que una secuencia es φ−mixing si: P (A ∩ B) − P (A)P (B) ≤ φk P (A), donde φk → 0 cuando k → ∞. 126 Norberto Rodr´ ıguez N. & Patricia Siado C. Bibliograf´ ıa Auestad, B. & Tjøstheim, D. (1990), ‘Identification of nonlinear time series: First order characterization and order determination’, Biometrika 77, 669– 687. ˜ Bhat, U.N. (1933), Elements of Applied Stochastic Processes, John Wiley & Sons, New York. Bickel, P. J. & Rosenblaty, M. (1973), ‘On some global measures of the deviations of density function estimates’, Annals of Statistics 1, 1071–1091. Bosq, D. (1998), Nonparametric Statistics for Stochastic Processes, SpringerVerlag, New York. Carbon, M. & Delecroix, M. (1993), ‘Nonparametric vs parametric forecasting in time series: a computational point of view’, Applied Stochastic Models and Data Analysis 9, 215–229. Collomb, G. (1984), ‘Propri´t´s de convergence presque compl`te du pr´dicteur ee e e a ` noyau’, Zeitschrift f¨r Wahrscheinlichkeitstheorie 66, 441–460. u Collomb, G., Hardle, W. & Hassani, S. (1987), ‘A note on prediction via estimation of the conditional mode function’, Journal of Statistical Planning and Inference 15, 227–236. Deheuvels, P. (1977), ‘Estimation non param´trique de la densit´ par histoe e gramme g´n´ralis´’, Revue de Statistique Appliqu´e 35, 5–42. e e e e Diebold, F. X. & Mariano, R. S. (1995), ‘Comparing predictive accuracy’, Journal of Business and Economic Statistics 13, 253–263. Fan, J. & Gijbels, I. (1996), Local Polynomial Modeling and Its Applications, Chapman and Hall, London. Gannoun, A. (1990), ‘Estimation non param´trique de la m´diane conditione e nelle: m´diano gramme et m´thode du noyau’, Publication de I’Institut de e e Statistique de l’Universit´ de Paris 45, 11–22. e Gannoun, A. (1991), ‘Pr´diction non param´trique: m´dianogramme et m´thoe e e e de du noyau en estimation de la m´diane conditionnelle’, Statistique et e Analyse des Donn´es 16, 23–42. e Gasser, T. & Muller, H. G. (1979), Kernel estimation of regression functions, in ‘Smoothing Techniques for Curve Estimation’, Springer-Verlag, Heidelberg, pp. 23–68. Un pron´stico no param´trico de la inflaci´n colombiana o e o 127 Gooijer, J. D. & Zerom, D. (2000), ‘Kernel-based multistep-ahead predictions of the us short-term interest rate’, Journal of Forecasting 19, 335–353. Gy¨rfi, L., H¨rdle, W., Sarda, P. & View, P. (1989), Nonparametric Curve o a Estimation from Time Series, Springer-Verlang, New York. Gy¨rfi, L., Kohler, M., Krzizak, A. & Walk, H. (2002), A Distribution Free o Theory on Nonparametric Regression, Springer-Verlang, New York. H¨rdle, W. (1990), Applied Non-parametric Regression, Cambridge University a Press, New York. H¨rdle, W., L¨tkepohl, H. & Chen, R. (1997), ‘A review of nonparametric time a u series analysis’, International Statistical Review 65, 1, 49–72. Hardle, W. & Yang (1996), Nonparametric Time Series Model Selection, Humbold-Universitat zu Berlin, Discussion paper. Hart, J. D. & Wherly, T. E. (1986), ‘Kernel regression estimation using repeated measurement data’, Journal of the American Statistical Association 81, 1080–1088. Hastie, T., Tibshirani, R., Friedman, J. H. & Friedman, J. (2002), Elements of Statistical Learning: Data Mining, Inference, and Prediction, SpringerVerlag, New York. Heiler, S. (1999), A survey on nonparametric time series analysis, Working paper, Universit¨t Konstanz Fakult¨t f¨r Wirtschaften. a a u Ibragimov, I. A. & Rozanov, Y. (1978), Gaussian Random Processes, Spring Verlag, New York. Jalil, M. & Melo, V. (2000), ‘Una relaci´n no lineal entre inflaci´n y los medios o o de pago’, Borradores de econom´ Banco de la Rep´blica 145, Bogot´. ıa. u a Johnston, G. J. (1982), ‘Probabilities of maximal deviations for nonparametric regression functions estimates’, Journal of Multivariate Analysis 12, 402– 414. Kreiss, J. P. & Franke (1992), ‘Bootstrapping stationary autoregressive movingaverage models’, Journal of Time Series Analysis 13, 297–317. Liu, R. Y. & Singh (1992), ‘Moving blocks jackknife and bootstrap capture weak dependence’, Exploring the Limits of Bootstrap pp. 225–248. 128 Norberto Rodr´ ıguez N. & Patricia Siado C. Matzner-Løber, E., Gannoun, A. & Gooijer, J. G. D. (1998), ‘Nonparametric forecasting: a comparison of three kernel-based methods’, Communications in Statistics: Theory and Methods 27, 1593–1617. Melo, L. F. & Misas, M. A. (1998), ‘An´lisis del comportamiento de la inflaci´n a o trimestral en Colombia bajo cambios de r´gimen: una evidencia a trav´s e e del modelo “switching de hamilton”’, Borradores de Econom´ Banco de ıa. la Rep´blica 086. u Misas, M. A., L´pez, E. & Querub´ P. (2002), ‘La inflaci´n en Colombia: Una o ın, o aproximaci´n desde las redes neuronales’, Borradores de Econom´ Banco o ıa. de la Rep´blica 199. u N´nez, J. & Jim´nez, J. (1998), Correcciones a los ingresos de las encuestas u˜ e de hogares y distribuci´n del ingreso urbano, in c. F. S´nchez, ed., ‘La o a distribuci´n del ingreso en Colombia, DNP’, Tercer Mundo Editores. o Pagan, A. & Ullah, A. (1999), Nonparametric Econometrics, Cambridge University Press, UK. Pham, T. D. & Tran (1985), ‘Some strong mixing properties of time series models’, Stochastic Processes and their Applications 19, 297–303. Prietsley, M. B. (1984), Spectral Analysis and Time Series, Academic Press, London. Z´rate, H. M. (2003), ‘Cambios en la estructura salarial: Una historia desde a la regresi´n cuant´ o ılica’, Borradores de Econom´ Banco de la Rep´blica ıa, u 245.

Related docs
Other docs by rockman16
pos010
Views: 60  |  Downloads: 0
tr200
Views: 83  |  Downloads: 0
wv100_001
Views: 35  |  Downloads: 0
Torts 8.26.05
Views: 341  |  Downloads: 8
wg012_001
Views: 40  |  Downloads: 1
Security in VoIP Telephony Systems
Views: 694  |  Downloads: 126
wg020_001
Views: 23  |  Downloads: 0
Valuation
Views: 873  |  Downloads: 106
dinner invite
Views: 1084  |  Downloads: 30
Country Economic Data Anguilla[2]
Views: 177  |  Downloads: 0
wv140_001
Views: 25  |  Downloads: 0
mc510_001
Views: 82  |  Downloads: 0
sum100_001
Views: 37  |  Downloads: 1