Statistical Association Rules and Relevance Feedback
Document Sample


Combatendo os Pesadelos da
Busca Por Conteúdo em Imagens
Médicas
Marcela X. Ribeiro, Joselene Marques
Agma J. M. Traina,Caetano Traina Jr.
Grupo de Base de Dados e Imagens
Departamento de Computação
Instituto de Ciências Matemáticas e de Computação
Universidade de São Paulo
USP (São Carlos –SP)
1
Conteúdo
Introdução
Regras de Associação e Realimentação
de Relevância
Método Proposto
Experimentos
2
Introdução
Sistemas médicos necessitam lidar com
uma grande quantidade de imagens médicas.
É necessário o desenvolvimento de
técnicas mais rápidas e eficazes de
análise de imagens médicas.
3
Sistemas de Busca por Conteúdo
em Imagens
existem para auxiliar a busca de imagens;
usam algoritmos de processamento de imagens para extrair
as características das imagens, organizando-as em vetores de
características;
os vetores de características são indexados no lugar das
imagens permitindo uma rápida recuperação das mesmas.
4
Busca por Conteúdo em Imagens
Problema Crítico 1
Causado pela alta dimensionalidade
dos vetores de características.
Processo de indexação e
recuperação se torna mais lento.
Algumas características são correlacionadas e
outras distorcem os resultados das consultas
Problema da “Maldição da
Alta Dimensionalidade”. 5
Busca por Conteúdo em Imagens
Problema Crítico 2
Causado pela inconsistência que existe entre a
representação de baixo nível da imagem através dos
vetores de características e a interpretação
de alto nível do usuário.
Freqüentemente o conhecimento
do especialista não é considerado.
Problema do “Gap
Semântico”.
6
Como lidar com esses problemas
críticos da Busca por Conteúdo em
Imagens?
Lida com a
“Maldição da Alta-
Dimensionalidade”
Mineração de Regras de Associação Estatísticas
+ Lida com o “gap
semântico”
Realimentação de Relevância
7
Mineração de Regras de Associação
É uma das tarefas de mineração mais
investigadas;
Inicialmente usada na análise de cestas de
compras. Ex: fralda cerveja
8
Método Proposto de Mineração de
Regras de Associação
Usa medidas estatísticas para encontrar padrões nos dados;
Procura por padrões que indiquem mudanças no comportamento
das características que ocorram com a variação da categoria das
imagens.
Algoritmo desenvolvido StARminer (Statistical Association
Rule Miner).
9
Método Proposto
StARMiner
Seja x uma categoria e A uma característica.
Uma regra de associação x A é identificada
se:
O comportamento de A na categoria x é diferente do
seu comportamento em outras categorias.
A apresenta um comportamento uniforme em x.
x A, indica que a categoria x influencia os valores de A:
“Se a categoria é x, a característica A tende a ter um
comportamento especial”.
10
Método Proposto
StARMiner
Restrições de interesse usadas para a
mineração de regras de associação x A
|μ A(Tx) – μA (T-Tx)|≥Δμmin
σA (Tx) ≤ σmax Parâmetros
de entrada.
Teste de Hipóteses. H0 deve ser rejeitada
com confiança γmin em favor de H1:
H0: μA (Tx) = μA (T-Tx)
H1: μA (Tx) ≠ μA (T-Tx)
11
Realimentação de Relevância
Permite que o usuário interaja no processo de CBIR;
O usuário seleciona imagens relevantes (realimentação
positiva) e irrelevantes (realimentação negativa) e
fornece pesos as mesmas;
O conhecimento do usuário é utilizado para reprocessar a
consulta durante a iteração de realimentação de relevância.
12
Realimentação de Relevância
Técnica MPP-RF
Realimentação Positiva:
Garante pequenas melhoras;
Satura com um pequeno número de iterações;
Realimentação Negativa:
Permite maior melhora (não garante melhora).
Método proposto:
Técnica MPP-RF (Multiple Point Projection –
Relevance Feedback)
Um objeto phantom é gerado combinando dados
de realimentação positiva e negativa.
13
Técnica MPP-RF
O algoritmo executa r+1 consultas, usando os Ri
objetos relevantes e o objeto phantom como centros de
consulta.
Uma nova distância é usada para ordenar os resultados
da consulta: d = distância;
w = peso;
Oij = jth objeto retornado na
ith consulta;
Ci = centro da ith consulta;
⎡ ⎤
⎢ w(C ) ∑ d (C , Oij ) ⎥
C = centro da consulta
original
d ' (C , Oij ) = d (Ci , Oij ) ⎢ r +1 i + i ⎥ r = número de objetos
⎢ ⎥
∑ w(C j )
d (C , Oij ) relevantes selecionados
⎢ ⎥ pelo usuário;
⎣ j =1 ⎦
n= número de objetos
irrelevantes selecionados
pelo usuário; 14
Esquema do Método proposto para
Melhorar a Recuperação de Imagens
Médicas
Extração de
Base de Características Dados das StARMiner Características
Imagens Dados de Imagens selecionadas
Diagnóstico
Requisição de Consultas
Resultados de Consultas MPP-RF
Reprocessamento
da Consulta
Dados de Realimentação de Relevância
15
Experimentos
Método de Avaliação
Gráficos de Precisão e Revocação (P&R)
Largamente utilizados para a avaliação de sistemas de
Busca por Conteúdo em Imagens .
Precisão (precision) = fração das imagens
retornadas que são relevantes.
Revocação (recall) = fração das imagens
relevantes que foram retornadas.
Ao analisar gráficos de P&R : Mais alta a curva, melhor
a técnica.
16
Experimento 1 – A base
Mamografia
89 imagens de regiões de interesse tiradas de mamografias, classificadas
como benigna e maligna.
Passo 1
os primeiros 255 momentos de Zernike foram extraídos para cada
imagem.
Passo 2:
StARMiner selecionou 38 características como relevantes promovendo
uma redução de 85% do vetor de características.
Exemplo de imagens da base Passo 3:
O processo de realimentação
de relevância foi aplicado. O
usuário selecionando 5
exemplos positivos e 5
exemplos negativos.
benigno maligno
17
without/with RF (1 iteration, 10 positives, 5 negatives) without/with RF (1 iteration, 5 positives, 5 negatives)
1 1
Gráficos de P&R obtidos de No RF(255)
RF(255) No RF(255)
0.95 0.95 RF(255)
consultas executadas no sistema de RF(38)
No RF(38) No RF(38)
0.9 0.9 RF(38)
CBIR desenvolvido.
0.85 0.85
0.8
•Curvas rosas sem usar RF e StARMiner 0.8
0.75 0.75
•Curvas azuis
0.7
usando apenas StARMiner 0.7
0.65 0.65
•Curvas verdes
0.6 usando apenas RF 0.6
0.55 0.55
•Curvas vermelhas usando o método proposto
0.5 0.5
que combina StARMiner com RF
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
Recall (%) Recall (%)
without/with RF (3 iterations, 5 positives, 5 negatives) without/with RF (5 iterations, 5 positives, 5 negatives)
1 1
No RF(255) No RF(255)
0.95 RF(255) 0.95 RF(255)
No RF(38) No RF(38)
0.9 RF(38) 0.9 RF(38)
0.85 0.85
0.8 0.8
0.75 0.75
0.7 0.7
0.65 0.65
0.6 0.6
0.55 0.55
0.5 0.5
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
Recall (%) Recall (%)
Processo de RF usando: 1 iteração no primeiro gráfico; 3 iterações
no segundo gráfico e 5 no terceiro gráfico.
18
without/with RF (1 iteration, 10 positives, 5 negatives) without/with RF (1 iteration, 5 positives, 5 negatives)
1 1
No RF(255) No RF(255)
0.95 RF(255) 0.95 RF(255)
Quanto maior é o número de
0.9
No RF(38)
RF(38) 0.9
No RF(38)
RF(38)
iterações, maior é a precisão dos
0.85 0.85
resultados.
0.8 0.8
0.75 0.75
melhor técnica é representada
A 0.7 0.7
0.65
pelas curvas vermelhas, que é a
0.65
0.6
0.6
técnica proposta (combina
0.55 0.55
StARMiner com RF)
0.5 0.5
0 0.2 0.4 0.6 0.8 1
0 0.2 0.4 0.6 0.8 1
Recall (%) Recall (%)
without/with RF (3 iterations, 5 positives, 5 negatives) without/with RF (5 iterations, 5 positives, 5 negatives)
1 1
No RF(255) No RF(255)
0.95 RF(255) 0.95 RF(255)
No RF(38) No RF(38)
0.9 RF(38) 0.9 RF(38)
0.85 0.85
0.8 0.8
0.75 0.75
0.7 0.7
0.65 0.65
0.6 0.6
0.55 0.55
0.5 0.5
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
Recall (%) Recall (%)
19
Experimento 2 – Base de
Imagens Heterogêneas
210 imagens de 8 classes;
Passo 1
30 características de textura foram extraídas de cada imagem
previamente segmentada em 5 regiões por uma variação do
método EM/MPM.
Passo 2:
StARMiner selecionou 21 características relevantes.
Passo 3:
Foram usadas 5 iterações de
RF, onde é requisitado que o
usuário selecione 5 imagens
como relevantes e 5 imagens
como irrelevantes.
20
Experimento 2 – Base de
Imagens Heterogêneas
without/with RF (3 iterations, 5 positives, 5 negatives) without/with RF (5 iterations, 5 positives, 5 negatives)
1 1
Without RF(30) Without RF(30)
0.9 With RF(30) 0.9 With RF(30)
Without RF(21) Without RF(21)
With RF(21) 0.8 With RF(21)
0.8
0.7 0.7
0.6 0.6
0.5 0.5
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
Recall (%) Recall (%)
A melhor técnica é representada pela curva vermelha,
que corresponde a técnica proposta (combina
StARMiner com RF). 21
Telas mostrando o resultado da execução de uma consulta usando
a)Nem RF nem StARMiner; b) Apenas StARMiner; c) Apenas RF; d) A
técnica proposta que combina StARMiner with RF (maior precisão). 22
Conclusões
Um novo método é proposto para solucionar os dois
problemas críticos de CBIR: a alta dimensionalidade dos
vetores de características e o gap semântico;
Os experimentos mostram que o método proposto é
eficaz em aumentar a precisão das consultas atingindo
um aumento de precisão de até 100%.
23
Questões?
mxavier@icmc.usp.br
Marcela X. Ribeiro, Joselene Marques
Agma J. M. Traina,Caetano Traina Jr.
GBDI - USP (São Carlos)
24
Related docs
Get documents about "