Docstoc

A Multicamera Setup For Generating Stereo Panoramic Video

Document Sample
A Multicamera Setup For Generating Stereo Panoramic Video Powered By Docstoc
					A Multicamera Setup for Generating
     Stereo Panoramic Video
               姓名:劉冠賢         學號:Q36994469

               Email: allen30616@hotmail.com

               系所: 電腦與通信工程研究所乙組

                 指導老師: 楊家輝 特聘教授

                           Abstract
在傳統的視訊傳輸系統下,我們總是在 2-D 且有限的 FOV 的基礎下去實現 : 藉
由連續的 2-D 圖片,總是缺乏第三維的深度資訊,而且視角皆為固定,無法提供
使用者 360 度的感官享受。這篇 paper 的目標就是解決這兩個問題,不僅可以提
供 Stereo、全視角(360 度),而且是 video rates。作者提出一種新的相機架構,從
傳統的單一相機改良成 Multi-Camera,這個進展對於提供高畫質的影片有決定性
的影響(後面會談到)。另外還討論到這裝置的一些限制,發現影片的品質取決於
兩個重要的參數–相機的數量(N)還有相機的大小(W),這兩個參數間的 tradeoff
是貫穿整個裝置可行性的關鍵。

               Ⅰ. INTRODUCTION AND PREVIOUS WORK

Motivation :
  會接觸全景圖相關的領域是因為前一陣子用到 google MAP ,覺得街景車這
個技術真的很厲害,其實他也是用很多台相機組成的裝置,掛在車上走遍大街小
巷,再把拍攝到的圖用演算法黏合起來。所以除了本篇 Paper,我也找了一些相
關的 Paper 研讀過了,包含到兩張圖片間要找 Overlapping Region 的相關演算法、
黏合起來的演算法,還有這篇可以建置出包含 Stereo 資訊的裝置,都讓我覺得十
分有趣,還有幾篇也是談到蠻有趣的實作層面,例如今天在一座巨大的足球場上
正上演著精彩的世界盃足球賽,但並不是每個人都如此幸運的買到好座位,仔某
些偏遠角落的觀眾可能常會漏看到一些精采進球,而有一項新的技術是可以在球
場周圍架設幾台攝影機,再利用 Panorama 的概念把他黏合起來,提供每位觀眾
最佳角度的球賽,當然目前可能實做到可以重播某幾個精彩鏡頭。諸如此類的技
術都讓我願意花時間在相關領域多了解一些,影像處理如此浩瀚,此為我為何獨
鍾於全景圖重建的原因與動機。
A. Panoramic Imaging Applications
    一般 panoramic image 的定義是一張圖片,包含拍攝者周圍 360 度的資訊,所
    有視線方向(direction of view)都被包含。Panoramic imaging applications 可以依
    提供給使用者的資訊而分成很多部分
  (i) Still Panoramic Applications :
    靜止的全景圖,是藉由旋轉單一台相機去取得一系列的靜止圖片,然後投影
    到共同的平面上(一般為圓柱體[3]-[5]或球體[6]、[7]),多張魚眼鏡頭取得的圖
    片間融合在[8]有詳細描述。
  (ii) Still Stereo Panoramic Applications :
    除了一般的全景圖,此種應用又加入了 Stereo 的技術。何以稱為 Stereo 技術?
    即有兩張全景圖,一隻眼睛一張。為了要製造 Stereo,有兩種方式去達到: 第
    一種是用兩台相機去旋轉取得所有視角,此兩台相機間的幾何關係為已知。
    第二種是只用一台相機去旋轉取得所有視角[9],但是這種方法不能用傳統的
    projection method,而必須搭配多視點的 Circular projection。而這篇 paper 提出
    的新架構,其實是基於第二種方法下去改良的,當然也會用到 Circular
    projection,在 Section I-B 裡面有較詳細的討論。
  (iii) Panoramic Video :
    就像虛擬實境提供給使用者的資訊,是全景影片而不是全景圖。有兩種方法
    可以做到: 第一種是單一相機附上一片特殊鏡子[10][11],這片鏡子必須經過
    特殊設計,才能達到我們要求的特殊數學性質。另一種方法是多台相機被固
    定在特殊裝置上,彼此之間的相對位置是不變的,再利用演算法黏合這一
    系列的 frame 來製造出影片。
  (iv) Stereo Panoramic Video :


   此篇 paper 作者提出一個多台相機組成的裝置,不僅有 360 度的全視角,還有
   水平的視差值。接下來,本篇的 Section I-B 是要討論[9],如何建構一個靜且
   具有 Stereo 資訊的全景圖,本篇的裝置也是由這個理論為出發點去改良的。
   SectionⅡ會提出整個裝置的架構。SectionⅢ我們會分析整個架構的實作層面
   還有重要參數間的 trade-offs。最後則有實驗結果跟結論。
B. Circular Projection for Stereo Panorama
     在前面的(ii)我們有提到 Circular Projection,有別於一般的 perspective
   projection,對於要取得 Stereo 資訊,這種 Projection 扮演著極重要的腳色。下
   面我們將進一步討論如何在這個基礎上去實現我們的裝置。
     一般的 perspective projection 跟 circular projection 有什麼決定性的差異?對於
   前者而言,每個 scene point 投影到 image plane(surface)都是藉由通過投影中心
   (COP)或稱相機的視點去達成的,如圖 1(a)(此圖是從[9]節錄)。
                                                    圖1




    而 circular projection 其實是一種多視點的投影法,何謂多視點投影?即是不
同的 direction of view 會對應到不同的視點,由於此種特殊投影,相異的 world
points 會藉由不同的視點投影到 image plane(surface)上,如圖 1(b)(c)。圖 1(b)(c)
有何差異我們下段將會詳述。
    在這裡我們引進圖 2 以便詳述多視點投影:




                            圖2

    多視點投影的詳細數學性質是他有很多個視點(前面說到不同的 direction
                                                。
of view 對應到不同視點)均落在一個稱為 viewing circle 的圓上 而這個 viewing
                                      ,
circle 跟 image plane 的中心均跟此裝置的中心重疊 而 world point 投影到 image
plane 上是藉由與 viewing circle 相切的切線跟 image plane 的交點去完成,而因
為圓外一點跟圓必有兩條切線的這個數學性質,所以任一 world point 跟
viewing circle 也會有兩條切線、兩個視點。一個點對應兩條切線,所以切線
有兩種方向 : 順時鐘方向跟逆時鐘方向,而蒐集所有順時鐘方向的切線所得
到的 image,我們可以進一步製造出出左邊的 panorama,反之逆時鐘方向的切
線則可以得到右邊的 panorama。至於要如何進一步得出左右邊的 panorama,
以下將詳細討論。
                           圖3
  圖 3(b),我們旋轉一台相機去模擬 circular projection 在兩個位置成功取得
        ,
兩張 image 在這兩張 image 上面左半邊的固定位置各取出一條 strip(即取出逆
       ,                             ,
時針方向的切線) 每個位置取得的 image 都取出同樣位置的 strip 將這些 strip
給黏合起來就會得到一張全景圖,逆時針方向構成的全景圖。而順時針方向
                             ,
的全景圖則是在每張 image 的右半邊取出一條 strip 一樣把它全部黏合起來,
就可以得到順時針方向的全景圖,如下圖,可以幫助您想像:




                            ,      ,
  通常這些 strip 都是非常狹小的 而且經由上面的分析 可以知道一張 image
只能提供兩條 strip(分別給兩張 panorama),所以為了建構正確的全景圖,我們
需要大量的 image,下面的章節我們將討論在有限的 image 下怎麼建構出品質
最好的 Stereo Panoramic Video。

Ⅱ. DESCRIPTION OF PROPOSED STEREO PANORAMIC VIDEO SETUP
 前面有概述如何產生全景圖的方法,產生全景圖有一個很重要的重點就是
   該裝置必須為靜止的,等待單一相機旋轉完一圈取得所有 image 之前必須是
   靜止的,這個限制對於要產生全景影片而言是很不利的。
    本篇提出的裝置,擺脫單一相機的困擾,我們必須安裝多台相機在一個環
   型支架上,所有鏡頭朝外捕捉影像,並搭配著 circular projection,如圖 4.。




假設在此裝置上掛有 N 台相機,因此在每個瞬間都會有 N 張相片產生,即 N
                   圖4
個不同方向視線的圖。然後就如之前所述的方式,每張 image 取出適當的 strip 再
把他們黏合起來得到左右眼的全景圖,得到的結果會跟轉動一隻相機相同,但決
定性的差別是我們不需要轉動相機,此 N 台相機皆是固定不動的,這使得我們
這個裝置達到全所未有的功能,不僅可以一邊取得影像,裝置亦可移動,讓原本
要產生 Panoramic Video 的目的得以實現。
 但跟轉動單一相機的 Case 去比較,並不全然佔優勢,轉動單一相機可以藉由
減少每轉動一次間隔的角度而增加 sample 數,但本篇的裝置相機都是固定的,
就算縮小相機尺寸而增加相機數量,Sample 數也必定有限,接著我們也會討論到
這個關鍵部分,如何在有限 sample 數的限制下達到最好品質,牽扯到一些參數
間的 trade-offs。


         Ⅲ ANALYSIS OF PROPOSED STEREO PANORAMIC SETUP
  誠如上面章節所述,相機數量有限,就建構此裝置而言,越少相機成本越低,
在相機大小固定下,相機越多所需的環型支架也越大,不過相機數目跟大小當然
對結果的品質有決定性的影響,本節將要對這些參數做討論。


A. Size of the Rig and Perspective Correction
              ,
     假設相機數量為 N 相機大小 W(我覺得亦可看成相機鏡頭中心間的距離
   比較容易想像),Ө為相機間的夾角,R 為環的半徑,而且為了推導方便,且
   因為會掛相機在環上,因此可把此還看成一正多邊形,如圖 5:
                         圖5

                              2
                                     (1)
                              N
  而在 N 跟 W 已知的情況下,環的半徑:

                                              (2)


   由上面的方程式可得知這個裝置的大小取決於兩個參數(N , W),N(相機個數)
越大,所需要的環就越大。
    由前面段落的描述可以得知,在 ideal case 裡,我們有無限台的相機掛在裝
置上,而相機數量其實跟 strip 是相關的(後面方程式會導證),所以從每張 image
上取出的 strip 都非常小。但真實情況下相機有限,所以 strip 會比較寬(數十到數
百 pixels) ,如果我們還是直接去將 strips 之間做黏合,將會導致失真,感覺相鄰
的兩條 strips 會有不連續的現象產生。所以再取出 strips 之前,我們先將 image 折
成弧形黏到曲面或圓柱體上(跟 circular projection 的曲度一樣) ,如圖:
B. “Blind”Areas
 有限相機的限制還會造成一個重要的影響,有些環境中物體由於不會被相機所
拍攝到,而消失在最後的全景圖上,我們稱這塊區域作(Blind Areas)。此章節我
們將討論(N , W)對 Blind Areas 造成的影響。




                          圖7

  圖 7,我們假設兩隻相機(C1 , C2) ,我們的目標是要探討這兩隻相機間的 Blind
Areas,如圖 7(a).我們先定義一個新的變數Φ代表的是 direction of view(跟 viewing
circle 相切) ,如方程式(3) ,R 是此裝置(環)的半徑,r 是 viewing circle 的半徑。

                               r
                      arcsin( )
                               R
前面有提過由於有限相機個數的情況下,Strips 的寬度大約在數十到數百個 pixels
之間,所以我們再假設一個新的變數 Ω,這個變數代表的意義是 Strips 寬度的一
半,意即在 direction of view 的兩側各有一 Ω,即 Strips 的寬度為 2Ω。如圖 7(b)




                          圖7

 在圖 7(c) ,我們要討論 strips 的邊界問題,C1I1 表示的是從相機 1 取得的 strip
的左邊界,換句話說,任何落在這條線左邊的 object,都不會存在 strip1 上。而
           1 相同地 C2I2 表示的是從相機 2 取得的 strip 的右邊界 如圖 7(d) ,
CT1 垂直於 C1I。    ,                             ,
同樣道理,任何落在此邊界右邊的 object,都不存在於 strip2,而 CT2 垂直於 C2I2。
接著我們要計算 C1I1 的斜率(α1),和 CT1 的長度 :
               ^             ^   
      1  I1 C C1  C C1 I1  (  )  (  )
                                  2   2
                   
                    
         2        2
      | CT1 || CC1 | * s i n  )  R * s i n  )
                             (                 (
根據圖 7(d),C2I2 的斜率(α2)以及 CT2 的長度如下:
               ^             ^
                                    
       2  I 2 C C2  C C2 I 2  (  )  (  )
                                  2    2
                   
                    
         2        2
                                              
      | CT2 || CC2 | *s i n (  )  R * s i n (  )
  接著我們要討論 strips 的寬度,一般來說它有三種情形,我們拿他來跟兩台
相機間的夾角 Ѳ 做比較 : (請老師搭配圖 7 來看)


Ω < Ѳ/2 :在這個 case 裡,C1I1 跟 C2I2 會相交在下半平面(從上面計算出來的斜
率可得知)。換句話說,隨著 Y 值遞增,兩條直線會越來越遠,也就是中間沒
覆蓋到的區域越來越大,所以這個 case 是不可行的。
Ω = Ѳ/2 :在這個情形下,根據上面的式子,C1I1 跟 C2I2 因為斜率相等,所以是呈
現平行的情況。換句話說,因為平行,所以這兩塊 strips 之間一定會存在著 Blind
Area,這個選擇好或不好後面會去討論。
Ω > Ѳ/2 :把這個關係代入到斜率公式,可得知兩條邊界會在上半平面相交,也就
是說兩條 strips 間會有重疊部分,不會有 Blind Area。
    上面三個 case,看起來 Case 3 似乎是最棒的選擇,中間有 overlap 部分,我
們可以選擇適當的演算法將它黏合起來。不過這會相當費力,因為不同的物體在
不同的景深(Depth)下他的重疊部分不一樣大,所以計算量一定相當大。這個缺點
是不得不考慮的,因為本裝置有價值的地方在於它可以製造出具有 Panorama 以
及 Stereo 效果的”影片” ,本身要處理的計算量已經相當龐大,如果還要加入
黏合 strips 的演算法,計算量更是可觀。所以為了避免龐大的計算壓力,在可以
接受的效果下,我們會選擇 Case 2。讓兩條 strips 之間存在著 invisible area,就是
所謂的 Blind Area。 所以結論就是每一條從 image 上面取下的 strips 之間,不用
任何的演算法去做黏合,就是直接將他們拼湊在一起。
      然而既然 Blind Area 必定是存在的,我們就要致力於讓它最小化,巧的是,
不管是選用 Case 2(blind area 存在) or Case 3(計算量大) ,對於最佳化的那組參數
(N , W)而言,結果是一樣的。所以目標就是找到適合的(N , W)可以讓 Blind Area
達到最小。
      接下來我們將計算 Blind Area,並用 N、W 去表示它。由於 Case 2,C1I1 跟
C2I2 是平行的兩條線,也就是說 C、T1 跟 T2 三點是共線的,因此這兩條平行線間
的距離可以用下面方程式表示(也就是 Blind Area 的寬度)

                                                                       
| CT1 |  | CT2 | R * sin(  )  R * sin(  )  R * (sin(  )  sin(  ))
                                2              2                 2         2
                                                             r
| CT1 |  | CT2 | 2 R * sin cos()  2 R * sin cos(arcsin ))
                                                             (        (8)
                              2                  N             R
    再一次提醒這邊的 R 是裝置的半徑,r 是 viewing circle 的半徑。如果我們將
這兩個變數視為常數(即Φ不變),降低 Ѳ(相機間的夾角),會發現 Blind Area 會趨
近於零,但這是不合理的,由於相機的實際寬度不會是零,所以在 R(裝置半徑)
固定的情形下我們能塞入的相機數量一定有限,也就是相機間的夾角不能無限度
的降低,而且為了塞更多相機到裝置上,R 也會被提高,在一次說明實驗的品質
好壞完全取決於相機寬度(W)和相機數量(N)這兩個變數間的 trade-off。
                     ,
      接著我們討論一個小細節 此裝置上的相機的 FOV 會影響到Φ的值(direction
of view),意即我們選擇的 direction of view 是不能落在 image plane 外的。概略地
說 : Φ> FOV/ 2 ,更仔細一點,因為 direction of view 的兩側都會有Ω(strips 的寬
度) ,所以須滿足下列方程式 :

                              FOV      FOV 
                    m ax             
                               2        2   2
此方程式可用來評估一裝置是否可行,如果(N , W)所推導出的Φ大於上面的極大
值,此裝置就無法正常運作。
    這裡我們對裝置稍微做一些描述,此裝置的 R 至少需大於 r(viewing circle 的
半徑),才有辦法使用 circular projection。另外 r 是一個很重要的參數,他在建置
此裝置得一開始便被決定,因為他會直接影響到結果的 disparity,所以 r 代表我
們渴望的 Stereo Panoramic 的 disparity 大小,所以一但裝置被設置好,其實是可
以去改變 r,只要他不需要提高相機的 FOV 即可。
    在圖 9 中,我們繪製出 Blind Areas 寬度的曲線圖,以不同的(N , W)搭配方程
              ,                            、             、
式(8)即可得到此圖 相關參數設定如下: FOV of Cameras = 55 16 <= W <= 42(mm)
r = 4.3cm。
                       圖9

 根據圖 9 我們可以得到些結論,為了降低 Blind Areas 的寬度而去增加相機數
量是沒有任何幫助的,因為增加相機數量雖然 減小,但 R 卻上升了,連帶讓
Φ也上升了,再去看方程式(8)就知道這是個愚蠢的決定。
 再來我們發現,再給定一固定的相機 FOV,為了要讓我們裝置是可用的,裝
置愈是小台,所需要的相機也就越多。我們可以先從方程式(9)推導得到下式 :

                                    r    2
      FOV  2    FOV  2 arcsin( ) 
                                    R    N
可以進一步將上面的=方程式繪製成圖 10:




                       圖 10
 從圖 9 我們可以觀察到,與其增加 N,到不如有效的降低 W 可以更有效的改
善效果,且可以減少成本,而且可以觀察出減低 W,所需要的最小相機數量(N)
會跟著變大,好消息是 Blind Areas 很有效地縮小。對於給定 FOV = 55,不考慮
其他參數,所以需要的最小相機數量 = 21(暗示著最少要有 21 台相機才有辦法建
構此裝置,所以需要很多$$)。
C. Disparity Variation
     何謂 ideal case?即是相機數量有限但相機尺寸非常小,小到增加相機數量不
會影響到 R(裝置半徑) ,這種 ideal case 沒有 preferred direction of view 的問題?什
麼意思呢?由於相機數量夠多,使得整個裝置趨於一致,沒有哪個 direction of view
比較好的問題,所有方向效果都很棒。但真實情況並非這麼完美,由於相機的數
量有限,裝置的完美性會被破壞,所以跟 ideal case 比起來在 Stereo 這一塊會有
Disparity Variation 的問題。這個 Disparity Variation 最主要出現在兩種 Case : 當固
定 Direction of view 時不同深度的物體時、改變 Direction of view 時也會有。
     根據圖 11.,我們定義出一個叫 Angular Disparity 的參數 2α:




                                                             
                                  sin          arcsin( )
                                            Z              Z



               圖 11

     然而在 actual case 裡,相機數量跟位置不可能如此完美,換句話說,對於
viewing circle 的切線不是每條都滿足我們需求的(即不會剛好有兩台相機位置滿
足此組切線)。如圖 12,我們考慮一個實際深度 Z 的點 P,C1 跟 C2 是兩台相機
位置,OP 跟 C1C2 垂直,此時 angular disparity 為 2ω :




                                                         
                                                   R sin( )
                                 arctan(               2        )
                                                             
                                                ( Z  R cos( ))
                                                            2
             圖 12
  所以針對同一個景深 Z,我們去比較 actual case 跟 ideal case 之間 disparity 到
底偏差了多少個百分點,這個比率就稱為 disparity variation :

       DisparityVariation( Z )
         | IdealDisparity  ActualDisparity |
                                              100
                    IdealDisparity
         |  |
                 100
            
  對於任何一組裝置(N , W),我們都會去計算他 disparity variation 的最大值(不
同深度 Z 都去計算並取出最大),並把這結果繪製在圖 13,我們可以發現在任何
滿足此裝置可以正常運作的(N , W)下,要讓 disparity variation= 0 是不可能的。




                            圖 13
   我們來討論一下圖 13,跟圖 9 一樣,給定一個 FOV,對於任何相機尺寸(W)
都存一個最小的相機數量(N),使得這個裝置可以正常運作。我們可以發現就算
增加再多的相機,disparity variation 並不會降低,相較之下減小相機尺寸(W),情
況就會改善許多!當 N 為定值,我們去減小 W 可以看到 disparity variation 會下降
很快,在最好的 case 裡 disparity variation 有 20%,最差的有 50%,我們稍後會討
論當 disparity variation 如此之大對效果究竟有多大的影響。
  從[19]裡我們得到一個 disparity 的重要觀念,disparity 在我們人類是用來判斷
物體的"相對深度"的一個重要資訊。一般人眼觀測物體會先用其他資訊去估測絕
對深度,例如物體間相對的大小,接下來會用 disparity 這個唯一資訊去量測相對
深度,詳細過程是這樣的,人類看一個 scene 時通常會先注視著一個特定深度,
然後運用 disparity 去估測深度相差不大的物體的深度,所以只有視差值較小時才
                   ,
會被人腦拿來估測相對深度 視差值太大的畫看起來就像在看兩張不同的圖片,
無法被人腦拿來當有用的線索。
     由上面的一些推導可以得知對於不同的深度 Z,他所得到的 disparity variation
是不同的。但在深度差異不大的情況下,雖然 disparity variation 相異,但相差不
會太多,是可以假設為相等的,這是一個很重大的突破,上面有敘述 disparity 是
用來判斷相對深度的,所以當深度差異不大的物體間,因為他們的 disparity
variation 是一樣的,也就是說 disparity 的偏差是相同的,這樣對於我們判斷相對
深度是不會造成影響的。舉個例來說會更容易理解,假如 A 跟 B 這兩個物體各
自的值(視差值)是不同的,而 A-B = D,那同時將這兩個值各減掉一個定值 C,A
跟 B 間的差值還是 D,所以拿來判斷相對深度是不會有偏差的,但話是這樣說,
如此大的 disparity variation(最好的 case 仍有 20%),當我們要用來計算 3D 資訊時
仍是會造成錯誤的。
                                                      ,
  接下來我們仍要分析在同樣的深度但不同的 directions 下的 disparity variation
在圖 14,我們假設 P 跟 P'是兩個相同深度的點但是方向不同,中間的角度差值
定義為''Offset",照前面的方程式這兩個方向的 disparity variation 是應該相等的,
但在 actual setup 中卻不是如此。對於 P'來說他的視差值 :

                               ˆ         ˆ
                         2  OP ' C1  OP ' C 2

對於給定一個深度 Z,我們可以去計算他的 disparity variation : 假設 Offset= 0 的
angular disparity 為 w0

                                     | 2  2 |
                 Ⅳ EXPERIMENTAL RESULTS 0
  Disparity Variation( Z , offset) =              100
                                         20
     一樣我們對於任何深度在任何 offset 情形下的 disparity variation 都去探討,並
取出最大值,可以當作評估效果好與壞的依據,我們把它稱作 Maximum disparity
variation for different offsets,並把結果繪製在圖 15,(N , W)與此種 disparity variation
間的關係,並有三種不同的深度 Z:




                                     圖 15
    繪出上面三個曲線圖,我們得到了一些結論。首先對於增加相機數量,對於
減低此種 disparity variation 有非常顯著的效果,數量如果大於 20 效果就都很不錯
了。另外我們也注意到當深度較深時,三種曲線之間的差距縮小了,這三種曲線
分別代表三種不同的相機尺寸(W) ,顯示出相機尺寸較小是會得到較好的結果,
但隨著深度越深,相機尺寸這個因素影響就減少許多了。
     根據我們前面的介紹,對於任何相機尺寸(W),要讓這個裝置可以正常運作
                        ,                    ,
的最小相機數量大概是 21 很幸運的根據圖 15 當相機數量為 21 時 此種 disparity
通常小於 2%,這麼低的 disparity variation 是不會對結果造成很大影響的。所以在
此我們歸納出一個結論 : 此裝置因為受限於相機數量有限而產生 disparity
variation,根據上面分析是不會對結果造成可視的影響。
                  Ⅴ EXPERIMENTAL RESULTS


 在本篇的實驗結果,我們使用的一些規格如下: NTSC 相機,焦距 5.6mm 且 FOV
= 55。因為我們要測試各種不同(N , W)所造成的影響,所以我們打造一台虛擬的
裝置放在虛擬的房間裡面做測試。這個虛擬房間約為 9.1m x 6.1m,而這個房間裡
距離裝置最近(深度最小)的物體約為 1.75m,最遠的約為 4.4m。另外 r = 4.3cm
這個 viewing circle 的半徑完全控制著左 view 跟右 view 間 disparity 的大小。下面
的圖 16,我們取出整個 video sequence 中的一個 frame 出來檢視,一張左一張右,
(N , W) = ( 32 , 42mm),此組參數造成的裝置大小 R=21.3cm。




                              圖 16
  接下來我們使用不同的三組參數(N , W),下圖的三個 frame 分別是從三台參
                               。
數相異的裝置所產生的 video sequence 中取出來的 最左邊的圖為(N=21 , W=42mm)
        ,
的裝置所產生的 可以看出來此組裝置因為 Blind Areas 所產生的不連續性極為嚴
重(圈起來部分)。而在圖 17(b)裡,我們將 N 提升到 32,亦即增加相機的數量,
                         ,
可以發現不連續的效果非但沒有變好 反而變得更糟糕(Blind Area 反而變大了),
由此可看出前面的推論是正確的,增加相機數量對於減少 Blind Area 來說是沒有
幫助的,反倒可以這樣說,當給定相同的相機大小,取相機數量的最小值(即可
讓裝置正常運作)可以得出最好的結果,縱使因為相機數量取最小值會造成 Blind
Areas 變多,但 Blind Areas 的寬度驟減會使得效果看起來較好。在圖 17(c) ,我
們讓將相機的尺寸縮小(W=16mm) ,FOV 依然是 55 度,此時滿足此條件的 N 的
最小值為 43,雖然 Blind Areas 實質上是增多,但 Blind Areas 卻下降至 1.5cm。所
以由此可確定 Blind Areas 並不是重點,重要的是 Blind Areas 的寬度,且降低相機
的尺寸(縮短相機鏡頭中心間的距離)比增加相機數量還來的重要很多。
      接下來我們來看看 Disparity Variation 的部分,前面部分有提到因為 Disparity
Variation 的關係,Panorama 的景深會跟真實情況有些落差,假設我們固定 Direction
of view(方程式(13)),會因為 Disparity Variation 影響到 relative depths 而使得畫面的
深度失真。而另一方面,因為方程式(15) ,當 viewer 改變他的 direction of view,
也會因為 Disparity Variation 的存在而造成影響。以上這兩種 Disparity variation 都
會造成視覺上的不舒服,針對這些觀察,我們的結論是並不會對觀察者造成很大
影響,綜合地說,Video Panorama 有一些更詳盡更深入的觀點是此篇 paper 所不
及的,本篇 paper 著重於如何提出一個好的架構跟參數間的關係,使得要實現此
裝置變得更容易一些。
  在本篇的最後,我們大概描述一下何謂”big head”。對於任何一組裝置(N ,
W),不管效果好或壞,那些位於此裝置環內的點是無法出現在 Panorama 上的,
也就是對於觀察者來說這些點是不可視的,而當然視線的高度也是取決於相機的
位置,所以當我們改變 Direction of view 時,就好像把我們的眼睛掛在安裝相機
的環上,如果此裝置越大,那環內不可視的區域就越大,這會產生一種好像頭很
大顆的感知。本篇 Paper 所提出的架構將可讓這種感覺降低,為了讓效果最好,
本篇 paper 選擇縮小相機尺寸(相機鏡頭中心的距離縮小) ,而且在這種尺寸下盡
可能的讓相機數量最小,這會直接使得裝置變得較小,換句話說環內不可視的區
域會變小,”big head”effect 則降低。
                                 Ⅴ CONCLUSIONS

    本篇 paper 的目的就是建構出一套裝置,此裝置可以產生 Stereo Panorama in
video rate,這一切都是由靜止的 Stereo Panorama 搭配 Circular projection 、且裝置
上一次掛多台相機,這使得裝置可以邊拍邊移動來產生 Stereo Panorama。然而針
對這架構我們去討論其中的參數,包括相機數量及相機尺寸大小(相機鏡頭中心
距離)。
    重要結論如下。給定一種相機(固定 FOV 及尺寸),存在一個可以達成此裝置
的相機數量(N)最小值,影響這個最小值得通常是相機的 FOV。但可喜可賀的是
最小的相機數量剛好也是此組裝置的最佳解(效果最好),因為經由方程式推導可
以知道提升相機數量並不會讓效果變好,反而會造成畫面間的不連續更為嚴重些。
還好在 Disparity Variation 這方面,提升相機數量並不會造成不良影響,反而會因
為裝置對稱性的提升而稍稍降低 Disparity Variation 的干擾。而相較於相機數量,
我們會更樂於在相機尺寸(W)上花心思,有效的降低相機大小有很多好處 : 裝置
得以變小、Blind Areas 更窄、Disparity Variation 也降低。
 最後來一個小提醒:對於本台裝置,我們要產生的是一個全景影片,也就是說
每秒至少包含 30 個 Stereo Panoramic frames ,處理的資料量相當大,為了便於傳
輸或儲存,或許需要開發新的壓縮技術,所以增進現有的壓縮技術以利於此裝置
似乎是必需的。


                                  Ⅵ REFERENCES

[1] S. Tzavidas and A. K. Katsaggelos, “Multicamera setup for generating
stereo panoramic video,” in Proc. 2002 SPIE Conf. VCIP, San Jose, CA,
Jan. 2002.
[2]            , “Disparity variation in stereo panoramic video,” in Proc. IEEE Int.
Conf. Image Processing, Rochester, NY, Sep. 2002.
[3] S. E. Chen, “Quicktime VR—An image based approach to virtual envi-
ronment navigation,” in Proc. f ACM SIGGRAPH, 1995.
[4] R. Szeliski, “Video mosaics for virtual environments,” IEEE Comput.
Graph. Applicat., pp. 22–30, Mar. 1996.
[5] H.-C. Huang and Y. P. Hung, “Panoramic stereo imaging system with au-
tomatic disparity warping and seaming,” Graph. Models Image Process.,
vol. 60, no. 3, pp. 196–208, May 1998.
[6] R. Szeliski and H. Y. Shum, “Creating full view panoramic image mo-
saics and environment maps,” in Proc. ACM SIGGRAPH, 1997.
[7] S. Gumustekin and R. W. Hall, “Mosaic image generation on a flattened
Gaussian sphere,” in Proc. IEEE Workshop on Applications of Computer
Vision, 1996, pp. 50–55.
[8] Y. Xiong and K. Turkowski, “Creating image-based VR using a self-cali-
brating fisheye lens,” in Conf. Computer Vision and Pattern Recognition,
San Juan, PR, Jun. 1997, pp. 237–243.
[9] S. Peleg and M. Ben-Ezra, “Stereo panorama with a single camera,” in
Proc. IEEE Conf. Computer Vision and Pattern Recognition, Jun. 1999.(已看完)
[10] Y. Onoe, K. Yamazawa, H. Takemura, and N. Nokoya, “Telepresence by
real-time view-dependent image generation from omnidirectional video
streams,” Comput. Vis. Image Understand., vol. 71, no. 2, pp. 154–165,
Aug. 1998.
[11] S. K. Nayar, “Omnidirectional video camera,” in Proc. DARPA Image
Understanding Workshop, New Orleans, LA, May 1997.
[12] S. K. Nayar and S. Baker, “Catadrioptic image formation,” in Proc.
DARPA Image Understanding Workshop, New Orleans, LA, May 1997.
[13] V. Nalwa, “A True Omnidirectional Viewer,” Bell Laboratories, 1996.
[14] J. Gluckman, S. Nayar, and K. Thoresz, “Real-time omnidirectional and
panoramic stereo,” in Proc. DARPA Image Understanding Workshop
1998, Monterey, CA, Nov. 1998, pp. 299–303.
[15] S. Peleg, Y. Pritch, and M. Ben-Ezra, “Cameras for stereo panoramic
imaging,” in Proc. CVPR’00, vol. I, Hilton Head Island, SC, Jun. 2000,
pp. 208–214.
[16] P. Rademacher and G. Bishop, “Multiple-center-of-projection images,”
in SIGGRAPH, New Orleans, LA, Jul. 1998, pp. 199–206.
[17] D. Wood, A. Finkelstein, J. Hughes, C. Thayer, and D. Salesin, “Multi-
perspective panoramas for Cel animation,” in SIGGRAPH, Los Angeles,
CA, Aug. 1997, pp. 243–250.
[18] M. Freeman, The 35 mm Handbook, A Complete Course from Basic
Techniques to Professional Applications: Windward, 1980.
[19] T. O. Salmon. Vision Science IV: Binocular Vision. North-
eastern State Univ., Tulsa, OK. [Online]. Available: http://ara-
paho.nsuok.edu~salmonto/BinocularVision
[20] S. Tzavidas, “A New Setup for Generating Stereo Panoramic Video,”
M.S. thesis, Dept. Elect. Comput. Eng., Northwestern Univ., Evanston,
IL, 2001.
[21] Qian Xia, Yong Zhang “A roust algorithm of constructing
panorama” Networking and Digital Society (ICNDS), 2010 2nd International
Conference on , 30-31 May 2010 (自己額外找的 已看完)
                     Ⅶ  Discussion
 本篇 Paper 有提到由於此裝置產生的資料量非常之大,為了不要再增加處理
的負擔,我們不用演算法去黏合兩條有 overlapping 的 strips,就讓有些 strips 之間
存在著一些 Blind Areas,造成影像有不連續的地方出現。


              Ⅷ   Solution
  或許我們可以考慮用計算量較小的演算法,像是 reference 的最後一篇,我另
                ,
外看的一篇黏合全景圖的有效演算法 他是用熵(Entropy)去找 overlapping 的區塊,
速度快,正確率高且計算量較少,或許可以搭配著這個裝置使用,同時須盡量把
Blind Areas 的數量減少,這樣需要用到演算法的次數也少掉很多。

				
DOCUMENT INFO
Shared By:
Categories:
Tags:
Stats:
views:3
posted:2/25/2012
language:
pages:20