Docstoc

.pdf - Download as PDF

Document Sample
.pdf - Download as PDF Powered By Docstoc
					        Обзор робастных схем оценки параметров моделей на основе
                           случайных выборок
                                  Антон Конушин, Кирилл Мариничев, Владимир Вежневец
                        Лаборатория Компьютерной Графики и Мультимедиа, Факультет ВМК,
                       Московский Государственный Университет им. Ломоносова, Москва, Россия
                                                   {ktosh, kirmar, vvp}@graphics.cs.msu.ru


                                                                         медианы квадратов (Least Median of Squares) [3],[14], а также
Аннотация                                                                семейство методов на основе случайных выборок
                                                                         (RANSAC)[1].
Робастные схемы оценки параметров модели являются
мощным и широко используемым инструментом в области
машинного зрения. Практически в каждой работе                            2. ОБЩАЯ СХЕМА РОБАСТНЫХ МЕТОДОВ
используется та или иная схема робастной оценки. За 23 года,             ОЦЕНКИ НА ОСНОВЕ СЛУЧАЙНЫХ ВЫБОРОК
прошедших с момента появления первой робастной схемы на
основе случайных выборок, было предложено множество                      В 1981 году для решения задачи робастной оценки
различных алгоритмов, развивающих тот или иной этап                      параметров Фишером и Болесом был предложен алгоритм
базовой схемы. В данной работе предлагается обзор                        RANdom SAmpling Consensus (RANSAC). Он решает задачу
существующих методов робастных схем оценки параметров.                   оценки исследуемой модели за счет поиска наилучшей
проводится сравнение эффективности части из них.                         гипотезы θ в среди множества всех возможных гипотез Θ ,
Keywords: robust estimation, RANSAC, outliers, line fitting,             порожденных исходными данными. Понятно, что за разумное
maximum likelihood, MAP, homography estimation                           время возможно рассмотреть только небольшую часть
                                                                         гипотез. Для максимизизации вероятности получения
                                                                         гипотезы, построенной по выборке без выбросов, необходимо
1. ВВЕДЕНИЕ
                                                                         проводить поиск только среди гипотез, построенных по
Одной из ключевых задач машинного зрения является                        выборке из минимально необходимого для оценки числа
сопоставление информации, содержащейся в изображении                     элементов (назовем это число размерностью модели). Но
некоторой математической модели. Общую задачу оценки                     поскольку даже таких гипотез слишком много, то случайным
параметров модели по имеющимся данным можно записать                     образом выбирается только N из них. Алгоритм RANSAC
следующим образом. Нужно определить вектор параметров                    состоит из N повторений следующего цикла:
θ , такой чтобы                                                              1) Построение выборки S k ⊂ x из m элементов;
                                                                              2)        Построение гипотезы на θ k основе выборки S k ;
F ( x, θ ) = 0;                        (1)
где x – информация, содержащаяся в изображении, F ( x,θ )                     3)        Оценка степени согласия           Rk   гипотезы     θ k на
задает исследуемую математическую модель. Классическим                             множестве всех исходных данных x ;
примером задачи оценки параметров является аппроксимация                 После построения и оценки всех N гипотез, из них
набора точек прямой линией. В таком случае x - это набор                 выбирается        гипотеза    с     наилучшей       оценкой
точек, F ( x,θ ) - уравнение прямой, θ - параметры прямой.                            , которая и принимается за результат робастной
                                                                         R = max( R )   k
Традиционные методы оценки параметров, такие как метод                        k =1, N

максимального правдоподобия или метод максимизации                       оценки.
апостериорной вероятности исходят из следующего
предположения об исследуемой модели и исходных данных -                  3. ВАРИАНТЫ ФУНКЦИИ ОЦЕНКИ ГИПОТЕЗЫ
все данные x = {xi } порождены исследуемой моделью и
                                                                         3.1 Базовая схема RANSAC
зашумлены      некоторой     помехой          ε,    математическое
                                                                         В базовой схеме RANSAC качество гипотезы определяется
ожидание       которой         M (ε ) = 0 ,        а     дисперсия
                                                                         количеством    элементов    исходных     данных      ей
 D(ε ) = σ , σ = const . Указанное предположение верно не
          2
                                                                         удовлетворяющих. Степень согласия (а точнее несогласия)
всегда. В случае, если часть исходных данных порождена не                гипотезы и исходных данных вычисляется следующим
исследуемой моделью, а, например, ошибками измерений                     образом:
(такие данные называются outliers – выбросами), результат
                                                                                                                  0 ri < T 2
                                                                                                                      2
оценки параметров модели с помощью метода максимального                   R (θ ) = ∑ p (ri (θ ) 2 ) , p (ri 2 ) =     2
                                                                                                                              , i = 1,n   (2)
правдоподобия может оказаться сколь угодно далек от                                                               1 ri > T
                                                                                                                            2
                                                                                   i
реальных параметров модели. Для решения указанной
проблемы разработан ряд методов робастной оценки                         где ri (θ ) 2 - невязка точки xi и оцениваемой гипотезы θ , T -
параметров, учитывающих присутствие выбросов в исходных                  фиксированный порог, изначально заданный из некоторых
данных – М-оценки (M-estimators) [14], схемы голосования                 общих соображений или свойств исходных данных. В случае,
(например преобразование Хафа [2],[14]), метод наименьшей
если невязка точки xi превышает порог T , точка xi считается                     3.5 MAPSAC
выбросом. Гипотеза с наименьшей          величиной R(θ )                         Оценка максимального правдоподобия не учитывает
выбирается как наилучшая.                                                        дополнительно известной нам априорной информации о
                                                                                 модели и данных. В работе [6] дана Байесовская
                                                                                 формулировка робастной оценки параметров путем
Базовая функции оценки гипотез RANSAC обладает                                   максимизации апостериорной вероятности.
серьезными недостатками. При неправильно установленном
пороге T гипотеза, построенная по содержащей выбросы
выборке, могла быть оценена наравне с гипотезой по выборке                       3.6 Сравнение функций оценки гипотез
без выбросов. Также, если порог устанавливается слишком                          Функция оценки гипотез M-SAC позволяет выбирать более
низким, то за выбросы могут быть приняты и данные,                               корректные гипотезы чем RANSAC без дополнительной
порожденные исследуемой моделью. Если порог ставится                             вычислительной сложности, как показано в [4],[5]. Однако,
слишком высоким, то многие выбросы не будут обнаружены.                          оценка максимального правдоподобия MLESAC, несмотря на
Поэтому при развитии робастных схем большое внимание                             возросшую вычислительную сложность дает только
уделялось созданию функций оценки гипотез, лишенных этих                         сравнимые с M-SAC результаты [9]. Оценка MAPSAC
недостатков.                                                                     позволяет использовать максимум информации для оценки
                                                                                 гипотез, и поэтому должна быть наиболее точной. Но для
                                                                                 большинства задач, в которых необходимо применение
3.2 LMS                                                                          робастных оценок, не существует эффективной априорной
В отличие от базовой схемы, метод наименьшей медианы                             оценки гипотез. В условиях неизвестной априорной
квадратов (least median of squares) [3] не требует задания                       информации оценка апостериорной вероятности сводится к
порога T . В качестве критерия согласия модели и данных                          оценке максимального правдоподобия. Таким образом, если
используется следующая функции:                                                  для конкретной задачи можно оценить априорную
                                                                                 вероятность гипотез, то наилучший результат будет
R (θ ) = median(ri (θ ) 2 ), i = 1,n                                (3)          достигнут при использовании MAPSAC, в противном случае
                                                                                 можно ограничиться M-SAC.
Однако схема LMS успешно работает при доле выбросов в
исходных данных не более 50%, в то время как базовая схема
RANSAC может успешно работать с большей долей                                    4. ВАРИАНТЫ СХЕМЫ ВЫБОРКИ
выбросов.
                                                                                 Количество всевозможных выборок S k элементов исходных
                                                                                 данных чрезвычайно велико, и за разумное время можно
3.3 M-SAC                                                                        проверить только незначительную их часть. Поэтому
Помимо зависимости от априорно задаваемого порога T ,                            вероятность верной оценки требуемой модели напрямую
базовая функция оценки гипотез имеет еще один недостаток                         зависит от вероятности получения гипотезы, построенной по
– она не оценивает то, насколько хорошо данные без                               выборке не содержащей выбросов. Эта вероятность
выбросов соответствуют исследуемой модели. По аналогии с                         определяется способом построения выборки. С момента
M-оценками [14] в работе [4] было предложено каждому                             появления базовой схемы было предложено несколько
выбросу назначать фиксированный штраф, а вклад всех                              вариантов модификации способа выборки, некоторые из
остальных точек сделать пропорциональном квадрату                                которых [7], [8] предлагают прямо противоположные
ошибки:                                                                          модификации.

                                       r 2     2
                                               ri ≤ T 2
R (θ ) = ∑ p (ri (θ ) 2 ), p (ri 2 ) =  i 2     2
                                                        , i = 1,n         ( 4)   4.1 Базовая схема RANSAC
         i                             T      ri > T 2
                                                                                 В базовой схеме каждая точка может быть включена в
                                                                                 текущую выборку S k с равной вероятностью [1]. Если доля
Как было показано в работе [4], эта модификация позволяет
находить модели с более высоким качеством без                                    выбросов в исходных данных равна δ ∈ [0,1] , то вероятность
дополнительных накладных расходов по скорости.                                   того, что все элементы в выборке не являются выбросами,
                                                                                 равна (1 − δ ) m . Таким образом эффективность равномерной
                                                                                 выборки экспоненциально убывает при увеличении размера
3.4 MLESAC
                                                                                 выборки.
Функция оценки гипотез M-SAC не является в полной мере
статистически обоснованной оценкой. В работе [5]
предлагается     модификация    метода   максимального                           4.2 Модификация Жанга
правдоподобия для данных, содержащих выбросы. В этом                             При использовании базовой схемой с равномерной выборкой
методе в явном виде учитывается параметр δ ∈ [0,1] ,                             вероятны ситуации, когда расстояния между выбранными
задающий долю выбросов в общей выборке. Для                                      точками будут сравнимы с погрешностью, вносимой помехой
одновременного вычисления параметров модели θ и доли                             ε . В таком случае гипотеза будет далека от исследуемой
выбросов δ применяется схема ожидания–максимизации                               модели и будет отвергнута как ложная. Для исключения
(expectation maximization, EM).                                                  подобных ситуаций, в [7] была предложена регулярно-
                                                                                 случайная схема построения выборки. Пространство,
занимаемое   множеством     исходных    точек    x = {xi }   5. МОДИФИКАЦИИ СХЕМЫ ОЦЕНКИ МОДЕЛИ
разбивается на p корзинок, регулярным образом
                                                             Для выбора верной гипотезы с высокой вероятностью
покрывающую область определения элементов. При
                                                             требуется   проверить   внушительное    число    гипотез
составлении выборки случайным образом выбирается k
                                                             построенных по разным выборкам исходных данных.
корзинок, в каждой из которых с равной вероятностью
                                                             Большая часть времени работы алгоритма приходится на
выбирается по одному элементу. Вероятность выбора i-ой
                                                             оценку качества гипотез. Поэтому в последнее время
корзинки прямо пропорциональна количеству содержащихся
                                                             большое внимание уделяется созданию схем оценок, либо не
в ней элементов.
                                                             требующих использования всех исходных данных для оценки
                                                             гипотезы, либо позволяющих значительно сократить
                                                             количество подобных оценок.
4.3 NAPSAC
Экспоненциальный рост количества необходимых выборок в
базовой схеме не позволяет эффективно ее использовать для    5.1 Рандомизированный RANSAC с              Td ,d
оценки моделей большой размерности. В работе [8] было
теоретически обосновано, что вероятность выбрать “не-        тестом
выброс” в окрестности другого “не-выброса” выше, чем при     В 2002 году, в работе [10] было предложено ввести элемент
выборке каждого элемента с равной вероятностью. На основе    случайности также и схему проверки гипотез. Перед
этой идеи была предложена неоднородная схема выборки.        проверкой каждой гипотезы осуществляется Td ,d -тест.
Только первый элемент x ' каждой выборки выбирается
случайно, все остальные элементы выборки берутся из          Согласно ему, из исходных данных с равномерной
                                                             вероятностью выбирается d элементов, и проверяется, не
окрестности Ω x этого элемента. Если в Ω x нет
                                                             содержится ли среди них хотя бы один выброс относительно
необходимого для выборки количества элементов, то            текущей гипотезы. Если хотя бы один выброс присутствует,
выбирается новый первый элемент. Данная схема позволяют      гипотеза считается не прошедшей тест, и отбрасывается.
более эффективно оценивать модели высокой размерности в      Таким образом, на всем множестве исходных данных
условиях сильного шума, но зачастую проигрывает другим       осуществляется оценка только части гипотез, прошедших
схемам на моделях с низкой размерностью, из-за проблемы      Td ,d - тест.
пространственной близости элементов выборки (см. раздел
4.2).                                                        5.2 Превентивный RANSAC
                                                             Доля гипотез не содержащих выбросов, значительно меньше
4.4 Метод Тордоффа и Мюррея                                  доли выбросов в исходных данных. Поэтому требуется много
                                                             времени, прежде чем выборка без выбросов будет найдена по
Описанные выше схемы не используют априорной                 базовой схеме. В системах реального времени требуется же
информации об исходных данных при построении выборки.        фиксированное время работы алгоритма. Поэтому была
Если же для каждого элемента данных имеется некоторая        предложена превентивная схема RANSAC [11], согласно
оценка «достоверности» этого элемента, такую информацию      которой вначале создаются все N гипотез. После этого
можно использовать для увеличения вероятности получения      выбирается случайным образом элемент исходных данных, и
выборок не содержащих выбросов. Авторы работы [9]            все гипотезы оцениваются только на нем. После оценки
предлагают способ получения такой оценки для задачи          гипотезы сортируются в порядке качества, и самые плохие
отслеживания перемещения точечных особенностей в             гипотезы могут быть отброшены. Затем выбирается
видеопоследовательности. Имея такую оценку можно             следующей элемент, и процедура продолжается до истечения
выбирать элементы при построении выборки с вероятностью      отведенного времени. Лучшая гипотеза берется в качестве
пропорциональной их «достоверности».                         результата.

4.5 Сравнение различных схем построения                      5.3 Сравнение схем оценок модели
выборок
                                                             Очевидно, что оценка гипотезы с использованием всех
При создании оптимальной схемы построения гипотез            исходных данных более точна, чем оценка только по части из
необходимо     учитывать    две    основные    проблемы:     них. Однако, как показывают работы [10] и [11],
потенциально низкая вероятность построения выборки без       дополнительная рандомизация схемы оценки модели
выбросов и возможность оценки некачественных гипотез по      позволяет за счет незначительного снижения вероятности
неудачной выборке свободной от выбросов. Предложенные        нахождения корректной гипотезы, значительно уменьшить
методы без использования дополнительной априорной            время работы алгоритма. В большинстве случаев, схемы с
информации ([7], [8]) позволяют частично решить одну из      рандомизацией оценки показывают сравнимый с обычной
проблем за счет усугубления другой. Только использование     схемой оценки результат. Но при фиксированном и
априорной информации о «достоверности» исходных данных,      небольшом    времени    выполнения    алгоритма,     когда
позволяющей вычислить вероятности того, что произвольный     невозможно оценить большое число гипотез на всех
элемент является выбросом, позволяет повысить вероятность    исходных данных, превентивный RANSAC дает наилучший
построения «удачной» выборки [9]. Однако получение такой     результат.
оценки требует статистики достоверности элементов данных,
накопление которой осуществляется по-разному для каждой
конкретной задачи.
6. ДРУГИЕ МОДИФИКАЦИИ                                          эффективных методов оценок априорной информации о
                                                               гипотезах и выбросах в исходных данных для конкретных
Поскольку вероятность построения выборки без выбросов          задач, в которых необходимо применение робастных схем.
падает с экспоненциальной скоростью при увеличении ее
размера,    обычно    строится     выборка     минимально
необходимого для построения гипотезы размера (например
при аппроксимации точек прямой достаточно двух точек для       9. СПИСОК ЛИТЕРАТУРЫ
построения гипотезы). Однако, как показано в [12], гипотеза    [1] M.A.Fischler, R.C.Bolles. “Random Sample Consensus: A
построенная по большему числу элементов (но без                paradigm for model fitting with applications to image analysis
выбросов), имеет значительно лучшую оценку, нежели             and automated cartography” CACM 24.381-395,1981
построенная по минимальной выборке. Поэтому в работе [12]
было предложено добавить в базовую схему этап локальной        [2] J.Illingworth. J.Kittler. “A survey of the Hough transform”
оптимизации гипотезы. Согласно ей, как только находится        CVGIP 44:87-116,1988
наилучшая на текущий момент гипотеза, она уточняется с         [3] P.J.Rousseeuw. “Least median of squares regression”
использованием всех исходных данных, удовлетворяющих ей        Journal of the American Statistical Association, 79:871-880,1984
с невязкой меньше заданного порога. Количество гипотез, к
                                                               [4] P.Torr,    A.Zisserman,    “Robust     Computation     and
которым применяется локальная оптимизация равно log(N),
                                                               Parametrization of Multiple View Relations”, ICCV Proc, p.727,
где N – число выборок, т.е. незначительное по сравнению с
                                                               1998
количеством выборок.
                                                               [5]P.H.S.Torr, A.Zisserman, “A MLESAC: A New Robust
                                                               Estimator with Application to Estimating Image Geometry”
При использовании локальной оптимизации количество             Computer Vision and Image Understanding, 2000
итераций, необходимое для получения гипотезы с заданным
                                                               [6]P.H.S. Torr. “Bayesian Model Estimation and Selection for
качеством, уменьшается в несколько раз. На этапе локальной
                                                               Epipolar Geometry and Generic Manifold Fitting”. In
оптимизации также возможно построение более общих
                                                               International Journal of Computer Vision, 50(1), pp. 27—45,
моделей большей размерности. В работе [13] сравнивается
                                                               2002
применение обычной робастной схемы оценки модели
движения точек между кадрами видеопоследовательности с         [7]Z.Zhang, R.Deriche, O.Faugeras, Q.T.Luong. “A robust
учетом радиальных искажений камеры, с оценкой этой             technique for matching two uncalibrated images through the
модели только на этапе локальной оптимизации. В последнем      recovery of the unknown epipolar geometry” AI Journal,
случае продемонстрировано увеличение скорость в 100 раз        vol.78:87-119, 1994
при сходном качестве результирующей гипотезы.                  [8] D. Myatt, P.H.S. Torr, S. Nasuto, R. Craddock. “NAPSAC:
                                                               High Noise, High Dimensional Robust Estimation” In
                                                               Proceedings British Machine Vision Conference, pages 458-467,
7. РЕАЛИЗАЦИЯ                                                  2002

Описанные методы были реализованы на Matlab 6.5 в виде         [9] B. Tordoff, D. Murray “Guided sampling and consensus for
библиотеки инструментов SACTool. На примере задач              motion estimation”. ECCV, Proc, v.1, pp. 82–96, 2002
аппроксимация точек прямой и оценки гомографии как             [10] O.Chum, J.Matas, “Randomized RANSAC and T(d,d) test”
модели     движения      точек      между    двумя   кадрами   BMVC Proc, 2002
видеопоследовательности       было     проведено   сравнение
                                                               [11]D.Nister, “Preemptive RANSAC for live structure and motion
большинства робастных схем. Результаты сравнения и
                                                               estimation” ICCV Proc, pp.199-206, 2003
библиотека             доступны            по         адресу
http://www.graphics.cs.msu.su/files/SACTool.                   [12]O.Chum, J.Matas, J.Kittler “Locally Optimized RANSAC”,
                                                               DAGM 2003
                                                               [13]O.Chum, J.Matas, S.Obdrzalek, “Enhancing RANSAC by
8. ЗАКЛЮЧЕНИЕ                                                  Generalized Model Optimization”, ACCV 2004
                                                               [14]С.V.Stewart “Robust parameter estimation in computer
За прошедшее с момента появления RANSAC время были             vision” SIAM Review v.1, n.3 pp. 513-537, 1999
предложены пути решения трех основных недостатков
базовой схемы: низкой вероятности выборки без выбросов,        Об авторах
неточности оценки гипотез и высокой вероятности
построения далекой от исследуемой модели гипотез даже по       Антон Конушин выпускник ВМК МГУ, аспирант ИПМ им.
выборке без выбросов. Самым эффективным путем решения          Келдыша. Его электронный адрес: ktosh@graphics.cs.msu.ru
этих   проблем    является     использование  априорной        Кирилл Мариничев: студент 3-го курса ВМК МГУ. Его
информации о гипотезах и исходных данных как на этапе          электронный адресе: kirmar@graphics.cs.msu.ru
построения выборки, так и при оценке модели.
                                                               Владимир Вежневец, к.ф.-м.н, старший научный сотрудник
Однако при отсутствии априорных оценок, эффективность          лаборатории Компьютерной Графики факультета ВМК МГУ.
байесовского подхода оценки гипотезы падает практически        Его электронный адрес: vvp@graphics.cs.msu.ru
до уровня M-SAC [6], а способ выборки сводится к базовой
схеме. Поэтому основным направлением дальнейшего
развития робастных схем оценок следует признать поиск

				
DOCUMENT INFO
Shared By:
Categories:
Stats:
views:122
posted:2/22/2010
language:Russian
pages:4