�REDES NEURONALES EN RECONOCIMIENTO DE ROSTROS�

Document Sample
�REDES NEURONALES EN RECONOCIMIENTO DE ROSTROS� Powered By Docstoc
					     “REDES
 NEURONALES EN
RECONOCIMIENTO
  DE ROSTROS”
                 Alumnos:
        Alejandro Flores P.
          Marcelo Gatica F.
            Antuan Vidal I.
               SÍNTESIS
 El trabajo aborda el reconocimiento de rostros
usando redes neuronales de retropropagación.
 La red es implementada en Matlab.
 Es entrenada con 5 imágenes (fotos) distintas
pertenecientes a 40 individuos.
 La prueba, realizada con otro set de 5 fotos de
los mismos 40 individuos, entrega una precisión de
100% para la identificación.
         INTRODUCCIÓN
El tema de Reconocimiento de Rostros ha
cobrado gran importancia en el contexto actual, en
lo que respecta a medidas de seguridad
(aeropuertos).
El trabajo aborda el reconocimiento de rostros
usando Redes Neuronales de Retropropagación
La red es implementada en Matlab.
En la actualidad los estudios en esta materia
siguen 2 métodos: Estadístico (probabilidades) y
Conexionista (reconocimiento de patrones).
Otros sistemas de reconocimiento: Pentland
(1994) y Malsburg (1995), se basan en
propiedades de las imágenes.
Reconocer rostros se ha asociado tradicionalmente
al reconocimiento de imágenes, lo cual es un
enfoque netamente perceptual y no cognitivo.
En este trabajo se adopta que: LA AFIRMACIÓN
ANTERIOR ES ERRÓNEA, EL RECONOCIMIENTO
DE ROSTROS ES UNA ACTIVIDAD PERCEPTUAL
Y COGNITIVA, que difiere de sobremanera del
reconocimiento de objetos.
Ejemplo:   LOS  NIÑOS    APRENDEN    A
DISTINGUIR ROSTROS ANTES QUE OBJETOS.
              PROBLEMA
Implementar    una  Red  Neuronal             de
Retropropagación para Reconocimiento           de
Rostros.
Los datos son un set de 400 fotos, 10 fotos de 40
individuos. En formato pgm y la imagen en 256
niveles de gris, como una matriz de 92x112 bytes.
Características de las imágenes: tomadas sobre un
fondo homogéneo obscuro, rotación máxima de 20°
y la máxima variación de escala es de 10%. La
diversidad también considera tomos con y sin
anteojos y cambios en el peinado. (Figura 1)
Datos Entrenamiento: Las primeras 5 fotos de
cada uno de los individuos.
Datos Prueba: La prueba consistió en presentar a
la red, las 5 fotos restantes de cada uno de los
individuos.
A cada muestra le corresponde un código con un
número    de       posibilidades    igual    a:
13189120=5x92x112x256
PRECAUCIÓN:
PUEDE QUE LA RED NO PASE LA ETAPA DE
ENTRENAMIENTO,    DEBIDO   A   LA  GRAN
CANTIDAD DE POSIBILIDADES ES MUY DIFÍCIL
QUE LA RED PUEDA ASOCIAR UNÍVOCAMENTE
A LA MUESTRA CON UN INDIVIDUO.
SOLUCIÓN:
DOTAR   A  LA   RED  DE  UN    NÚMERO
SUFICIENTEMENTE GRANDE DE PESOS, DE
MODO QUE MEMORICE EL ESPACIO MUESTRAL
Y   COMPLETE    ASÍ  SU    ETAPA   DE
ENTRENAMIENTO.
Aquí se puede llegar a una situación de SOBRE-
ENTRENAMIENTO; la red carece de la capacidad de
generalización, al procesar el espacio de prueba
entrega respuestas erróneas.
                 MODELO
Para modelar el proceso se postula una
característica cuantitativa que tiene 2 parámetros:
k: corresponde al número de individuos.
m: número de fotos de cada uno de ellos.
Se plantea una arquitectura con 2 capas ocultas.
La capa de INPUT tiene 10304 nodos, la 1a Capa
Oculta tiene 2x(k+2) neuronas; la 2da Capa
Oculta tiene (k+m) neuronas. La capa OUTPUT
tiene k neuronas.
Las funciones de activación de las capas ocultas
son tanh (tangente hiperbólica).
Los resultados de ésta asociación de datos,
proporciona una medida de “confusión”, situación
análoga al proceso de reconocimiento de rostros en
los seres humanos, dado que los rostros presentan
características comunes entre sí.
Los datos fueron normalizados, esto es: media
nula y varianza unitaria.
El script de Matlab, con el cual se realizó el
trabajo, se muestra a continuación:
k=40;                                                                                                      n e t .t r a i n P a r a m . s h o w = 1 0 ;
m =5;                                                                                                      n e t .t r a i n P a r a m .g o a l = 0 .0 0 1 ;
% k i n d i v i d u o s, m fo t o s d e c a d a u n o d e e l lo s                                         % a h o r a a e n t r e n a r .. .
fo r n = 1 :m ;                                                                                            [ n e t ,t r ] = t r a i n ( n e t ,p n , t ) ;
fo r i = 1 :k ;                                                                                            % a h o ra se v e c o m o q u e d a m o s, p ro b a m o s e l in p u t
t h e _ fi l e = [ 'D : \ fa c e \ fa c e _ f i l e s \ s ' i n t 2 s t r ( i ) '\ ' i n t 2 s t r ( n )   fo r i= 1 : m * k
'. p g m '] ;                                                                                              a ( : ,i ) = s i m ( n e t , p n ( : ,i ) ) ;
f o t o = fo p e n ( t h e _ fi l e , 'r ') ;                                                              en d
[ B ,h e a d e r ] = fr e a d ( f o t o ,1 4 , 'c h a r = > c h a r ') ;                                   % s i e s t a m a t r i z s e p a r e c e a [ e y e ( k ) , e y e ( k ) .. .] e s t a m o s
% e l e n c a b e z a d o n o i n t e r e sa , h a y q u e sa l ta rlo                                     b ien
[ p ( : ,k * ( n -1 ) + i ) , p i x ] = fr e a d ( f o t o ,1 0 3 0 4 ,'i n t 8 = > d o u b l e ') ;       % a h o r a v a m o s a p r o b a r o t r o s e t d e 'm ' f o t o s d e l o s
% la i m a g e n s e g u a rd a c o m o v e c t o r c o lu m n a d e la                                    m i s m o s i n d i v i d u o s . ..
m a tri z d e d a t o s p                                                                                  fo r n = m + 1 :m + m ;
j= fc l o s e ( fo to );                                                                                   fo r i= 1 :k ;
en d                                                                                                       t h e _ fi l e = [ 'D : \ fa c e \ fa c e _ f i l e s \ s ' i n t 2 s t r ( i ) '\ ' i n t 2 s t r ( n )
en d                                                                                                       '. p g m '] ;
% l i st o l o s d a t o s , m * k fo to s c o m o v e c to r e s c o lu m n a d e                         f o t o = fo p e n ( t h e _ fi l e , 'r ') ;
la m a tr i z d e d a t o s p                                                                              [ B ,h e a d e r ] = fr e a d ( f o t o ,1 4 , 'c h a r = > c h a r ') ;
% l o s n o r m a li z a m o s                                                                             [ p ( : ,k * ( n -1 ) + i ) , p i x ] = fr e a d ( f o t o ,1 0 3 0 4 ,'i n t 8 = > d o u b l e ') ;
[p n ,m ea n p ,std p ]= p r e std ( p );                                                                  j= fc l o s e ( fo to );
% a h o ra e l o u tp u t                                                                                  en d
t= e y e (k );                                                                                             en d
f o r n = 1 : m -1 ;                                                                                       [p n ,m ea n p ,std p ]= p r e std ( p );
t= [t,e y e (k )];                                                                                         % l i st o s l o s d a to s d e p ru e b a
en d                                                                                                       fo r i= 1 : m * k
% e l o u t p u t 't ' s e c o m p o n e d e 'm ' m a t r i c e s e y e ( k )                              b ( : , i ) = s i m ( n e t , p n ( : ,i ) ) ;
% l i sta la fi c h a b i n a ria d e i d e n ti d a d , e l A N D e s n u lo                              en d
n e t = n e w f f( m i n m a x ( p n ) ,[ 2 * ( k + 2 ) ,k + m ,k ] ,{ 't a n s i g ', 't a n s i g        b -a
', 'l o g s i g '} , 't r a i n r p ') ;                                                                   % l o s v e c t o r e s c o l u m n a n o n u l o s d e e s t a m a t r i z 'm i d e n '
                                                                                                           la fid e l id a d d e la id e n ti fi c a c ió n
              RESULTADOS
El entrenamiento tomó 70 épocas, lograndose la
meta de error prefijada:
Log del proceso de entrenamiento
TRAINRP, Epoch 0/100, MSE 0.371922/0.001, Gradient
0.389574/1e-006
TRAINRP, Epoch 10/100, MSE 0.0183699/0.001, Gradient
0.0120647/1e-006
TRAINRP, Epoch 20/100, MSE 0.00686645/0.001, Gradient
0.00241339/1e-006
TRAINRP, Epoch 30/100, MSE 0.00319294/0.001, Gradient
0.00116063/1e-006
TRAINRP, Epoch 40/100, MSE 0.00210703/0.001, Gradient
0.00165312/1e-006
TRAINRP, Epoch 50/100, MSE 0.00152078/0.001, Gradient
6.16599e-005/1e-006
TRAINRP, Epoch 60/100, MSE 0.0012267/0.001, Gradient
0.000784313/1e-006
TRAINRP, Epoch 70/100, MSE 0.000993673/0.001, Gradient
0.000253889/1e-006
TRAINRP, Performance goal met.
El proceso hasta la etapa de fin del entrenamiento
tardó alrededor de 6 minutos.
Prueba: Los datos se almacenaron en 2 matrices.
La matriz A, con los datos de entrenamiento; y la
matriz B, con los datos de prueba. Finalmente se
calculó la matriz (B-A), matriz que mide el grado de
confusión en la identificación.
Análisis de Resultados: En la figura siguiente, se
muestra la gráfica de la matriz (B-A). Los “spikes”
(con un valor máximo de 0.5), INDICAN ALGÚN
GRADO DE CONFUSIÓN DE LA RED.
Figura 2: Despliegue de la matriz (B-A)




  0.6

  0.4

  0.2

    0

  -0.2

  -0.4

  -0.6

  -0.8
   40

         30                                      200
                                           150
              20
                                     100
                   10
                                50
                        0   0
            CONCLUSIÓN
Los principios de diseño de la red dieron
excelentes resultados en reconocimiento de rostros,
tanto en tiempo como en fidelidad de
identificación.
El SOBRE-APRENDIZAJE NO se produjo, debido
a que el procedimiento de prueba involucró
imágenes distintas a las del entrenamiento.
La NORMALIZACIÓN de los datos probó ser un
método muy eficiente. Sin este procedimiento, la
convergencia no se alcanza en menos de 100
épocas. (Figura 3)
A partir del punto anterior, se puede decir, que es
imprescindible pre-procesar los datos para su
mejor análisis.
La extracción de características relevantes desde
las imágenes, es realizada en forma satisfactoria por
la red.
El flujo neto de señales debe ser REDUCIDO, al
igual como lo es en seres humanos.
SE    CONCLUYE   QUE   EL  CANAL   DE
COMUNICACIÓN ENTRE LA PARTE PERCEPTUAL
Y COGNOSCITIVA DEBE SER BIDIRECCIONAL,
LO CUAL HACE QUE SEAN COMPLEMENTARIAS.
LO CUAL AVALA EL POSTULADO INICIAL DE
ESTE TRABAJO.
Figura 1: Las 10 fotos del individuo




                                       
Figura 3: Entrenamiento con datos no
             normalizados




                                       

				
DOCUMENT INFO
Shared By:
Categories:
Tags:
Stats:
views:157
posted:3/24/2012
language:
pages:17