Reconocimiento de Letra Manuscrita para la Creación Automática de

Reviews
Shared by: Tony Parker
Stats
views:
8
rating:
not rated
reviews:
0
posted:
4/15/2009
language:
pages:
0
Reconocimiento de Letra Manuscrita para la Creación Automática de Bases de Datos Digitales. Pilar Gómez-Gil, , Cristian Cruz-Castañeda, Sergio Linares-López, Carlos Spínola-Tenorio Departamento de Ing. en Sistemas Computacionales y Centro de Investigación en Tecnologías de Información y Automatización (CENTIA) Universidad de las Américas, Puebla Cholula, Puebla 72820. México pgomez@mail.udlap.mx y Manuel Ramírez-Cortés Departamento de Ing. en Electrónica y Centro de Investigación en Tecnologías de Información y Automatización (CENTIA) Universidad de las Américas, Puebla Cholula, Puebla 72820. México RESUMEN La creación de bases de datos digitales de documentos históricos está siendo de gran importancia, debido al auge en el uso de Internet como fuente de información. En la Universidad de las Américas-Puebla, en México, contamos con una colección de cartas y telegramas escritos y recibidos por el General Porfirio Díaz, quien fue presidente de nuestro país a principios del siglo XX, y un personaje clave en la Revolución Mexicana. La biblioteca de nuestra universidad ha decidido colocarlos en su página Web a fin de que estén disponibles a la comunidad. Este proyecto, entre otras actividades, implica la digitalización de los telegramas y la trascripción del texto que éstos contienen, actividad que a la fecha se está realizando manualmente. En este artículo se describe un proyecto de investigación que tiene como objetivo final apoyar en la trascripción automática de estos telegramas, a través del reconocimiento de la letra manuscrita de un solo autor, utilizando Redes Neuronales Artificiales. Se muestran sus principales componentes del proyecto y se describe su estado actual, así como el trabajo en proceso. Palabras Claves: Reconocimiento de Caracteres Manuscritos, bases de datos digitales, Redes neuronales Artificiales 1. INTRODUCCIÓN A pesar del avance en diferentes área del reconocimiento de patrones y procesamiento de imágenes, el reconocimiento automático de caracteres manuscritos sigue siendo un reto, sobre todo en aquellos casos donde la escritura es de tipo cursiva, con muchos adornos. Tal es el caso de la escritura del siglo XIX, utilizada por el General Porfirio Díaz, presidente de México en la época de la revolución mexicana. En la Universidad de las Américas, Puebla se está construyendo actualmente una base de datos digital que contendrá la imagen y el texto de aproximadamente 60,000 cartas y telegramas escritas por el General Díaz y por algunos de sus contemporáneos. Estos documentos contienen información muy valiosa para los historiadores mexicanos, que se desea esté disponible a un número masivo de usuarios [6]. Para construir esta colección digital se requiere que un experto en historia lea e interprete el contenido de cada telegrama, a fin de transcribir el texto. Este trabajo es tedioso y difícil. Por otro lado, cabe añadir que los telegramas se encuentran microfilmados, la imagen generada no es clara y contiene una gran cantidad de ruido. La figura 1 muestra un ejemplo de estos telegramas. Aun y cuando sabemos de la complejidad del problema, hemos deseado incursionar en la posibilidad de realizar esta trascripción automáticamente, o al menos construir un sistema que sirva de apoyo al experto. En la siguiente sección se describe el proyecto y sus componentes. La sección 3 muestra los resultados obtenidos en la primera fase del proyecto. La sección 4 comenta el trabajo realizándose actualmente y algunos resultados parciales obtenidos. La sección 5 presenta algunas conclusiones. 2. DESCRIPCIÓN DEL PROYECTO La figura 2 muestra un diagrama del “Sistema de Trascripción de Telegramas manuscritos de Porfirio Díaz.” Las burbujas en el diagrama representan procesos, las flechas datos y las líneas rectas archivos o cualquier repositorio de datos. Enseguida se explican brevemente cada uno de los componentes: El proceso 1, digitalización de telegramas, consistió en digitalizar 25 telegramas para utilizarlos como prueba en la investigación. Éstos se escogieron al azar teniendo cuidado de que hubieran sido escritos por Porfirio Díaz. Se utilizó un scanner AGFA modelo Studio Scan IIsi, generándose imágenes en formato “pict.” Posteriormente se limpiaron las imágenes manualmente usando Adobe Photoshop y generándose imágenes con formato “gif.” En el proceso 2, separación de palabras, se seleccionaron manualmente aquellas que podrían ser las mas adecuadas Publicado en Memorias digitales de la Conferencia Iberoamericana en Sistemas, Cibernética e Informática CISCI 2002 Orlando, Florida. Julio 2002. para formar una base de datos que permitiera entrenar y probar al reconocedor. En esta selección se buscó que estuvieran representadas la mayoría de las letras del alfabeto. Cada palabra se separó manualmente de la imagen. El proceso 4, reconocimiento de caracteres, se realizó utilizando una red neuronal multicapa alimentada hacia delante la cual fue entrenada con retro-propagación (proceso 6) [5]. La red fue entrena a recibir la imagen del carácter y reconocerlo. El proceso 5, Reconocimiento de palabras, se realizó de una manera muy simple, concatenando el reconocimiento de cada carácter a fin de formar una palabra, la cual puede o no existir. 3. RESULTADOS PRELIMINARES Figura 1. Un ejemplo de telegrama enviado por Porfirio Díaz [1]. El proceso 3, segmentación de caracteres, consistió de 3 partes fundamentales: normalización del tamaño de cada palabra, corrección de inclinación y finalmente separación de segmentos. En el caso ideal, cada segmento corresponde a una letra que será reconocida por la red neuronal. Todas las imágenes de palabras fueron normalizadas al mismo tamaño utilizando el algoritmo propuesto en [2]. La inclinación se corrigió utilizando una utilería del paquete Photoshop. El algoritmo de segmentación que se implementó es una modificación al propuesto en [3] y consiste en obtener el histograma de la imagen que contiene a la palabra, y a su vez procesarlo para obtener un nuevo histograma que contiene 2 posibles valores: 10 o 0, llamado “histograma límite.” El valor de corte T utilizado para construir el histograma límite se calcula multiplicando el valor promedio en el histograma por 0.8. Cada valor en el histograma original se compara con T: si es mayor se asigna 10 en el histograma límite y si es menor o igual se asigna cero. Posteriormente se obtiene cada segmento de la siguiente manera: se lee el histograma límite de izquierda a derecha, cuando se encuentra un cero, se localiza al siguiente valor 10, y el segmento estará compuesto de todos los pixeles correspondientes a las columnas desde el último “10” que se encontró hasta el siguiente “10.” Si el segmento es menor a 3 columnas, entonces se une este segmento al segmento anterior, pues se supone que ninguna letra es tan angosta. Los segmentos ya normalizados quedan en matrices de 8x27 pixeles. La figura 3 muestra un ejemplo del proceso de segmentación. En la primera fase de este proyecto se probaron diferentes topologías de red incluyendo redes total y parcialmente conectadas, las cuales fueron entrenadas para reconocer 26 segmentos (uno por cada letra del alfabeto). Además se realizaron otras pruebas entrenando redes para reconocer solamente 13 clases de segmentos. Esto último se hizo a fin de disminuir la complejidad del problema para la red neuronal, y suponiendo que en el futuro podría construirse un reconocedor que determine una clasificación inicial de tipo de segmento, la cual sería la entrada a diferentes reconocedores que determinarían el segmento exacto. Para entrenar a los reconocedores, se utilizaron 90 palabras de las cuales se obtuvieron segmentos representativos de todas las letras. El número de patrones para cada letra varía desde 1 hasta 27, dependiendo de la frecuencia en que dicha letra apareció en las palabras seleccionadas. Para el experimento que reconoce las 26 clases, los mejores resultados se obtuvieron utilizando una red parcialmente conectada con una topología de (216-43-1126) obteniéndose un reconocimiento del 39% de las letras en las palabras probadas. Las conexiones parciales de la red se hicieron de la siguiente manera: cada 10 nodos del nivel de entrada se conectaron a un nodo del nivel escondido, encimando 5 nodos en cada grupo de los nodos de entrada. Esto es, del nodo 1 al 10 del nivel de entrada se conectó al nodo 1 del nivel escondido; del nodo 6 al nodo 15 del nivel de entrada se conectó al nivel 2, y así sucesivamente. Para el experimento que reconoce 13 segmentos, el mejor resultado se obtuvo con una red totalmente conectada, con una topología de (216-162-54-13) obteniéndose un 84% de reconocimiento. Para detalles sobre estos resultados ver [4]. 4. TRABAJO EN PROCESO Actualmente nos encontramos trabajando en encontrar algoritmos mas eficientes para realizar los procesos de segmentación de caracteres, reconocimiento de caracteres y reconocimiento de palabras. Se están analizando algoritmos de segmentación propuestos en la literatura para encontrar el mas adecuado a este problema. También se están analizando otras topologías de redes neuronales Publicado en Memorias digitales de la Conferencia Iberoamericana en Sistemas, Cibernética e Informática CISCI 2002 Orlando, Florida. Julio 2002. telegramas 1. Digitalización de telegramas imagen digital 3. Segmentación de caracteres imágenes de caracteres segmentados imágenes para entrenamiento texto en el 5. Reconocimiento telegrama de palabras 2. Separación de palabras 6. Entrenamiento Reconocedor imágenes palabras Parámetros entrenamiento 4. Reconocimiento de caracteres Conocimiento RNA caracteres posibles imágenes para entrenamiento Figura 2. Sistema de Trascripción de Telegramas Manuscritos de Porfirio Díaz artificiales incluyendo las Redes de Kohonen y Hopfield que podrían sustituir o añadirse al sistema actual. Asimismo se investiga un procedimiento mas sofisticado que el actual de reconocimiento de palabras utilizando gramáticas formales. Por otra parte y para poder evaluar y ajustar el diseño del reconocedor, consideramos importante construir una base de datos cuyas palabras fueran más claras que aquellas escritas por el General Porfirio Díaz. . Se espera que si el reconocedor es entrenado con segmentos (letras) bien definidos sea capaz de mejorar su reconocimiento aun y cuando reciba letras no muy claras. Para esto se seleccionó un conjunto de 60 palabras escritas muy claramente por otra persona. La figura 4 muestra un ejemplo de una palabra de esta nueva base de datos. Estas palabras fueron digitalizadas y limpiadas manualmente y se contó el número de veces que cada letras se repetía en la base de datos. Dado que algunas letras llegaban a repetirse hasta 40 veces y por el contrario otras no llegaban a 10 se decidió balancear el número digitalizando 30 letras de manera separada, las cuales también fueron limpiadas manualmente. Esta nueva base de datos fue procesada de la misma manera que se describe en la sección 2, utilizando 13 clases de letras solamente. La selección de las clases de letras a usar en este experimento se hizo de manera aleatoria, pero explícitamente excluyendo a las clases “m,” “n” y “u” que en la mayoría de las ocasiones son separadas en dos segmentos por el proceso que tenemos actualmente. Finalmente la base de datos quedó compuesta de 11 instancias de cada una de las siguientes letras: a, b, c, d, e, g, h, i, j, l, o, p y q. Cabe aclarar que las palabras no se sometieron al proceso de corrección de inclinación descrito en la sección 2. Se entrenó a la red usando varias topologías incluyendo redes total y parcialmente conectadas. Los mejores resultados se obtuvieron con una red totalmente conectada con una topología (216-108-13). Después de aproximadamente 14,000 barridas la red alcanzó un error cuadrático medio en el entrenamiento de 0.5 qué no disminuyo más. Esta red fue capaz de reconocer un 50 % de palabras que no habían sido utilizadas para el entrenamiento. Este resultado mejoró notablemente el resultado obtenido con la base de datos de Don Porfirio Díaz, cuyos resultados fueron del 39% de reconocimiento para una base de datos compuesta por el 70% de caracteres que habían sido utilizados para el entrenamiento y 30% de nuevos caracteres. Palabra Histograma con limite aplicado Líneas de segmentación Segmentos Figura 3. Proceso de segmentación [4]. Publicado en Memorias digitales de la Conferencia Iberoamericana en Sistemas, Cibernética e Informática CISCI 2002 Orlando, Florida. Julio 2002. La tabla 1 muestra la matriz de confusión obtenida por el reconocedor al probarse con 26 palabras mas 10 letras aisladas no utilizadas para entrenar . Cada renglón muestra el número de instancias que la letra especificada en el renglón fue confundida con la letra especificada en cada columna. En un reconocedor ideal esta tabla tendría solo valores en la diagonal y ceros en el resto de sus entradas. Figura 4. Ejemplo de una palabra y una letra en la nueva base de datos 5. CONCLUSIONES Hemos presentado brevemente los resultados parciales obtenidos a la fecha y el trabajo en proceso en un sistema de transcripción automática de texto manuscrito antiguo. Se comentan los principales componentes del sistema, y las limitaciones de éste en su diseño actual. Consideramos que cada proceso descrito puede ser mejorado e implica en sí mismo un área de investigación muy rica. Tabla 1. Matriz de Confusión obtenida con la nueva base de datos Clase a B c d e g h i j l o p Q Asignada → Real ↓ Tesis de Licenciatura, Departamento de Ing. En Sistemas Computacionales. Universidad de las Américas Puebla. México, Primavera 2000 [1] Gómez-Gil, P.; Linares-Pérez, S. , Spinola-Tenorio C. and Ramirez Cortés M. “On the automatic digital storage of historical documents: Recognition of handwritten telegrams of Don Porfirio Diaz", with Proccedings of the Fifth International Conference on Knowledge-Based Intelligent Information Engineering Systems & Allied Technologies 6, 7 & 8 September 2001 Osaka-Kyoiku University, Osaka, Japan. [3] Kussul Ernest M., Kasatkina Lora M. “Neural Network for Continuous handwritten words recognition.” Proceedings of the International Joint Conference on Neural Networks. Washington, DC. July 10 (1999) 22. [5] Rumelhart, D.E. G. E. Hinton and R.J. Williams, 1986. Learning Internal Representation by error propagation In Parallel Distributed Processing: Explorations in the Microstructure of Cognition D.E. Rumelhart and J.L. McClelland, eds. Vol. 1, Chapter 8. Cambridge, MA: MIT Press. [2] Universidad de las Américas, Puebla. 2002 “Digitalización, Codificación y el Acceso vía Internet de los Telegramas del Ex-Presidente de México Porfirio Díaz” http://biblio.udlap.mx/telegramas/. Consultado el 13 de Junio del 2002. [6] Güdsen, A. “Quantitative Analysis of preprocessing techniques for Recognition of Hand printed characters. Pattern Recognition 8, (1977) 219-27 7. RECONOCIMIENTOS El presente trabajo se realiza con apoyo financiero proporcionado por el Consejo Nacional de Ciencia y Tecnología (CONACYT), como parte del proyecto No. 35804-A y por el Instituto de Investigación y Posgrado de la UDLA. Parte del software utilizado fue apoyado por el CONACYT proyecto No. 132900-A a B C D E G H I j l o p q 6 10 2 3 1 1 1 5 4 3 1 1 8 1 1 1 2 2 4 7 1 4 1 4 1 3 7 6. REFERENCIAS [4] Linares-Pérez Sergio y Carlos Alberto Spínola Tenorio. Reconocimiento de Letra Manuscrita de Porfirio Díaz, utilizando una Red Neuronal Artificial. Publicado en Memorias digitales de la Conferencia Iberoamericana en Sistemas, Cibernética e Informática CISCI 2002 Orlando, Florida. Julio 2002.

Related docs
premium docs
Other docs by Tony Parker
Daily Exit Security Checklist
Views: 389  |  Downloads: 5
Board Resolution approving new property lease
Views: 274  |  Downloads: 5
OSHA Forms 300 and 300A
Views: 1009  |  Downloads: 18
Jetblue Airways Inc Ammendments and Bylaws
Views: 181  |  Downloads: 2
Board Resolution Calling Special Board Meeting
Views: 189  |  Downloads: 2
Disability Policy
Views: 393  |  Downloads: 9
Employee Rejection Letter
Views: 1907  |  Downloads: 7
Customer Purchase Thank You Letter
Views: 1784  |  Downloads: 44
BULK SALES AFFIDAVIT
Views: 375  |  Downloads: 7