Statistical Association Rules and Relevance Feedback

Document Sample
scope of work template
							Combatendo os Pesadelos da
Busca Por Conteúdo em Imagens
Médicas

Marcela X. Ribeiro, Joselene Marques
Agma J. M. Traina,Caetano Traina Jr.

Grupo de Base de Dados e Imagens
Departamento de Computação
Instituto de Ciências Matemáticas e de Computação
Universidade de São Paulo
USP (São Carlos –SP)

                                                    1
Conteúdo
 Introdução
 Regras de Associação e Realimentação
 de Relevância
 Método Proposto
 Experimentos



                                        2
Introdução

      Sistemas médicos necessitam lidar com
    uma grande quantidade de imagens médicas.


        É necessário o desenvolvimento de
        técnicas mais rápidas e eficazes de
           análise de imagens médicas.




                                                3
Sistemas de Busca por Conteúdo
em Imagens
 existem para auxiliar a busca de imagens;
 usam algoritmos de processamento de imagens para extrair
 as características das imagens, organizando-as em vetores de
 características;
 os vetores de características são indexados no lugar das
 imagens permitindo uma rápida recuperação das mesmas.




                                                           4
Busca por Conteúdo em Imagens
Problema Crítico 1
     Causado pela alta dimensionalidade
       dos vetores de características.

           Processo de indexação e
       recuperação se torna mais lento.

  Algumas características são correlacionadas e
  outras distorcem os resultados das consultas



    Problema da “Maldição da
     Alta Dimensionalidade”.                      5
Busca por Conteúdo em Imagens
Problema Crítico 2
   Causado pela inconsistência que existe entre a
representação de baixo nível da imagem através dos
     vetores de características e a interpretação
              de alto nível do usuário.


      Freqüentemente o conhecimento
     do especialista não é considerado.

            Problema do “Gap
               Semântico”.
                                                     6
Como lidar com esses problemas
críticos da Busca por Conteúdo em
Imagens?
                                                     Lida com a
                                                  “Maldição da Alta-
                                                  Dimensionalidade”
 Mineração de Regras de Associação Estatísticas


                    +                              Lida com o “gap
                                                     semântico”

         Realimentação de Relevância




                                                                       7
Mineração de Regras de Associação

 É uma das tarefas de mineração mais
 investigadas;
 Inicialmente usada na análise de cestas de
 compras. Ex: fralda   cerveja




                                              8
Método Proposto de Mineração de
Regras de Associação

 Usa medidas estatísticas para encontrar padrões nos dados;
 Procura por padrões que indiquem mudanças no comportamento
 das características que ocorram com a variação da categoria das
 imagens.
 Algoritmo desenvolvido StARminer (Statistical   Association
 Rule Miner).




                                                                   9
Método Proposto
StARMiner
   Seja x uma categoria e A uma característica.
   Uma regra de associação x A é identificada
   se:
      O comportamento de A na categoria x é diferente do
      seu comportamento em outras categorias.
      A apresenta um comportamento uniforme em x.


x A, indica que a categoria x influencia os valores de A:
“Se a categoria é x, a característica A tende a ter um
comportamento especial”.

                                                            10
Método Proposto
StARMiner
   Restrições de interesse usadas para a
   mineração de regras de associação x A
    |μ A(Tx) – μA (T-Tx)|≥Δμmin

          σA (Tx) ≤ σmax             Parâmetros
                                     de entrada.

Teste de Hipóteses. H0 deve ser rejeitada
com confiança γmin em favor de H1:
   H0: μA (Tx) = μA (T-Tx)
   H1: μA (Tx) ≠ μA (T-Tx)
                                                   11
Realimentação de Relevância
 Permite que o usuário interaja no processo de CBIR;
 O usuário seleciona imagens relevantes (realimentação
 positiva) e irrelevantes (realimentação negativa) e
 fornece pesos as mesmas;




 O conhecimento do usuário é utilizado para reprocessar a
 consulta durante a iteração de realimentação de relevância.

                                                               12
Realimentação de Relevância
Técnica MPP-RF
 Realimentação Positiva:
    Garante pequenas melhoras;
    Satura com um pequeno número de iterações;
 Realimentação Negativa:
    Permite maior melhora (não garante melhora).


 Método proposto:
    Técnica MPP-RF (Multiple Point Projection –
    Relevance Feedback)
      Um objeto phantom é gerado combinando dados
      de realimentação positiva e negativa.
                                                    13
Técnica MPP-RF

 O algoritmo executa r+1 consultas, usando os Ri
 objetos relevantes e o objeto phantom como centros de
 consulta.
 Uma nova distância é usada para ordenar os resultados
 da consulta:                            d = distância;
                                                                 w = peso;
                                                                 Oij = jth objeto retornado na
                                                                 ith consulta;
                                                                 Ci = centro da ith consulta;
                                ⎡                            ⎤
                                ⎢ w(C )     ∑ d (C , Oij )   ⎥
                                                                 C = centro da consulta
                                                                 original
 d ' (C , Oij ) = d (Ci , Oij ) ⎢ r +1 i + i                 ⎥   r = número de objetos
                                ⎢                            ⎥
                                  ∑ w(C j )
                                             d (C , Oij )        relevantes selecionados
                                ⎢                            ⎥   pelo usuário;
                                ⎣ j =1                       ⎦
                                                                 n= número de objetos
                                                                 irrelevantes selecionados
                                                                 pelo usuário;             14
Esquema do Método proposto para
Melhorar a Recuperação de Imagens
Médicas
              Extração de
      Base de Características   Dados das StARMiner Características
      Imagens Dados de          Imagens             selecionadas
              Diagnóstico


               Requisição de Consultas

               Resultados de Consultas     MPP-RF
                                                    Reprocessamento
                                                    da Consulta




        Dados de Realimentação de Relevância

                                                                      15
Experimentos
Método de Avaliação
 Gráficos de Precisão e Revocação (P&R)
Largamente utilizados para a avaliação de sistemas de
Busca por Conteúdo em Imagens .
Precisão (precision) = fração das imagens
retornadas que são relevantes.
Revocação (recall) = fração das imagens
relevantes que foram retornadas.
Ao analisar gráficos de P&R : Mais alta a curva, melhor
a técnica.
                                                          16
Experimento 1 – A base
Mamografia
   89 imagens de regiões de interesse tiradas de mamografias, classificadas
   como benigna e maligna.
   Passo 1
       os primeiros 255 momentos de Zernike foram extraídos para cada
       imagem.
   Passo 2:
       StARMiner selecionou 38 características como relevantes promovendo
       uma redução de 85% do vetor de características.

Exemplo de imagens da base             Passo 3:
                                           O processo de realimentação
                                           de relevância foi aplicado. O
                                           usuário selecionando 5
                                           exemplos positivos e 5
                                           exemplos negativos.

benigno         maligno
                                                                          17
         without/with RF (1 iteration, 10 positives, 5 negatives)                      without/with RF (1 iteration, 5 positives, 5 negatives)
    1                                                                         1
Gráficos de P&R obtidos de No RF(255)
                              RF(255)                                                                                         No RF(255)
 0.95                                                                       0.95                                                 RF(255)
consultas executadas no sistema de RF(38)
                                 No RF(38)                                                                                     No RF(38)
   0.9                                                                       0.9                                                  RF(38)
CBIR desenvolvido.
  0.85                                                                      0.85
   0.8
•Curvas rosas               sem usar RF e StARMiner                          0.8
  0.75                                                                      0.75
•Curvas azuis
   0.7
                         usando apenas StARMiner                             0.7
  0.65                                                                      0.65

•Curvas verdes
   0.6                       usando apenas RF                                0.6
  0.55                                                                      0.55
•Curvas vermelhas usando o método proposto
   0.5                                                                       0.5
que combina StARMiner com RF
       0    0.2    0.4    0.6    0.8      1                                        0              0.2        0.4       0.6          0.8          1
                                  Recall (%)                                                                  Recall (%)


             without/with RF (3 iterations, 5 positives, 5 negatives)                      without/with RF (5 iterations, 5 positives, 5 negatives)
     1                                                                             1
                                                  No RF(255)                                                                    No RF(255)
  0.95                                               RF(255)                 0.95                                                  RF(255)
                                                   No RF(38)                                                                     No RF(38)
   0.9                                                RF(38)                  0.9                                                   RF(38)
  0.85                                                                       0.85
   0.8                                                                        0.8
  0.75                                                                       0.75
   0.7                                                                        0.7
  0.65                                                                       0.65
   0.6                                                                        0.6
  0.55                                                                       0.55
   0.5                                                                        0.5
         0            0.2        0.4       0.6           0.8            1              0            0.2        0.4       0.6           0.8            1
                                  Recall (%)                                                                    Recall (%)


             Processo de RF usando: 1 iteração no primeiro gráfico; 3 iterações
             no segundo gráfico e 5 no terceiro gráfico.
                                                                                                                                                 18
            without/with RF (1 iteration, 10 positives, 5 negatives)                      without/with RF (1 iteration, 5 positives, 5 negatives)
   1                                                                             1
                                                 No RF(255)                                                                      No RF(255)
 0.95                                               RF(255)                    0.95                                                 RF(255)
Quanto maior é o número de
   0.9
                                                  No RF(38)
                                                     RF(38)                     0.9
                                                                                                                                  No RF(38)
                                                                                                                                     RF(38)
iterações, maior é a precisão dos
  0.85                                                                         0.85

resultados.
   0.8                                                                          0.8
 0.75                                                                          0.75
   melhor técnica é representada
A 0.7                                                                           0.7
                                                                               0.65
pelas curvas vermelhas, que é a
 0.65
                                                                                0.6
  0.6
técnica proposta (combina
 0.55                                                                          0.55
StARMiner com RF)
  0.5                                                                           0.5
                                                                                      0              0.2        0.4       0.6          0.8          1
        0            0.2        0.4       0.6           0.8            1
                                 Recall (%)                                                                      Recall (%)


            without/with RF (3 iterations, 5 positives, 5 negatives)                          without/with RF (5 iterations, 5 positives, 5 negatives)
    1                                                                                 1
                                                   No RF(255)                                                                      No RF(255)
 0.95                                                 RF(255)                   0.95                                                  RF(255)
                                                    No RF(38)                                                                       No RF(38)
  0.9                                                  RF(38)                    0.9                                                   RF(38)
 0.85                                                                           0.85
  0.8                                                                            0.8
 0.75                                                                           0.75
  0.7                                                                            0.7
 0.65                                                                           0.65
  0.6                                                                            0.6
 0.55                                                                           0.55
  0.5                                                                            0.5
        0             0.2         0.4       0.6           0.8              1              0            0.2        0.4       0.6           0.8            1
                                   Recall (%)                                                                      Recall (%)




                                                                                                                                                    19
Experimento 2 – Base de
Imagens Heterogêneas
 210 imagens de 8 classes;
 Passo 1
   30 características de textura foram extraídas de cada imagem
   previamente segmentada em 5 regiões por uma variação do
   método EM/MPM.
 Passo 2:
   StARMiner selecionou 21 características relevantes.
                                  Passo 3:
                                      Foram usadas 5 iterações de
                                      RF, onde é requisitado que o
                                      usuário selecione 5 imagens
                                      como relevantes e 5 imagens
                                      como irrelevantes.
                                                                  20
      Experimento 2 – Base de
      Imagens Heterogêneas
          without/with RF (3 iterations, 5 positives, 5 negatives)                 without/with RF (5 iterations, 5 positives, 5 negatives)
 1                                                                        1
                                            Without RF(30)                                                           Without RF(30)
0.9                                            With RF(30)               0.9                                            With RF(30)
                                            Without RF(21)                                                           Without RF(21)
                                               With RF(21)               0.8                                            With RF(21)
0.8
0.7                                                                      0.7
0.6                                                                      0.6
0.5                                                                      0.5
0.4                                                                      0.4
0.3                                                                      0.3

0.2                                                                      0.2

0.1                                                                      0.1
      0           0.2         0.4        0.6          0.8            1         0           0.2         0.4        0.6          0.8            1
                                Recall (%)                                                               Recall (%)


      A melhor técnica é representada pela curva vermelha,
      que corresponde a técnica proposta (combina
      StARMiner com RF).                                                                                                             21
Telas mostrando o resultado da execução de uma consulta usando
a)Nem RF nem StARMiner; b) Apenas StARMiner; c) Apenas RF; d) A
técnica proposta que combina StARMiner with RF (maior precisão).   22
Conclusões
 Um novo método é proposto para solucionar os dois
 problemas críticos de CBIR: a alta dimensionalidade dos
 vetores de características e o gap semântico;

 Os experimentos mostram que o método proposto é
 eficaz em aumentar a precisão das consultas atingindo
 um aumento de precisão de até 100%.




                                                      23
     Questões?


  mxavier@icmc.usp.br

Marcela X. Ribeiro, Joselene Marques
Agma J. M. Traina,Caetano Traina Jr.

     GBDI - USP (São Carlos)




                                       24

						
Related docs