?????????????? ???????? - PowerPoint

Shared by: 8k7dFe7
Categories
Tags
-
Stats
views:
14
posted:
11/22/2011
language:
Japanese
pages:
43
Document Sample
scope of work template
							誤り訂正出力符号の拡張による
  多値判別法とその応用
  奈良先端科学技術大学院大学
       石井 信
 竹之内高志 大羽成征 行縄直人
多値判別の一般的枠組み
• 多値判別関数 F(x,y) を直接構成する
 – Fisherの(線形)判別関数
 – Multi-class SVM, AdaBoost, …
• F(x,y) を2値判別関数の組み合わせで構成する
 – Error correcting output coding (ECOC) に基づく手法
   • Bradley-Terryモデル(Hastie & Tibshirani, Yukinawa, et al.)
      – クラス所属確率 p(y|x) を推定できる
      – 確率出力を持つ2値判別器が必要
      – 例題ごとに事後確率を計算する必要がある
   • Loss-based decoding (Dietterich & Bakiri, Allwein, et al.)
      – 単純な Hamming decoding を含む
      – 実装が簡単
      – クラス所属確率に関しては言及しない
              ECOCの定式化
• コード表W : p×G 行列
Class 1   2   3

                  2値判別1
                  2値判別2
                  2値判別3
                  :

                          2 3 4   5   6
                          1 6 25 90 301
      ハミング復号

                     1 -1    - 1
                    
                     -1 1    -1
                     -1 -1   -1
                    
                     1 -1     0
                             -1
                     1 0
                             - 1
                     0 1



ハミング距離最小のコードワードによってラベルを決める
基本コンセプト




    復号法
           確率モデルの仮定
• 3元(1,0,-1)入力、2元出力(1,-1)通信路
• 多値判別における仮定
 – 各2値判別器(ビット)は独立
 – 判別器ごとにノイズの性質が異なる
   • パラメータは j ごとに決める
 – 非対称
   False positive rate ≠
             False negative rate
確率モデル1
通信路の同定
ラベルの復号
  Hamming decodingとの関連




 ハミング復号の仮定
  各2値判別器が同じ性質を持つ
  2種の過誤の割合が等しい
  各クラスが同じサンプル数を持つ
確率モデル2
    数値実験:人工データ
• 50回の繰り返し
 – 200点の訓練データ、2000点のテストデータ
• 評価モデル
 – モデル1およびモデル2
 – 各2値判別器はSVM
 – カーネルはRBFカーネルと多項式カーネル
• 比較モデル
 – Multi-class SVM (C-SVM, Spoc-SVM)
 – カーネルはRBFカーネルと多項式カーネル
 – 各2値判別器をSVMとしたECOCでHamming decoding
数値実験:人工データの例
数値実験:訓練誤差
数値実験:テスト誤差
           UCIデータセット:テスト誤差
                 Spoc-svm:RBF       C-svm: RBF    Proposed: RBF
                 Spoc-svm: Poly     C-svm: Poly   Proposed: Poly
Ann-thyroid            0.05076         0.05309          0.03501
                       0.04142         0.03384          0.03355
Satimage               0.11750         0.12050          0.12150
                       0.16400         0.14050          0.14550
Segmentation           0.16400         0.17048          0.15143
                       0.07381         0.05810          0.07619
Iris           0.04293±0.00896 0.03967±0.00784 0.04027±0.00715
               0.03600±0.00858 0.03667±0.00790 0.03380±0.00859
Wine           0.01834±0.00817 0.01331±0.00488 0.01291±0.00419
               0.03286±0.00793 0.03794±0.00914 0.03360±0.00996

Glass          0.14862±0.01241 0.16400±0.01278 0.13424±0.01178
               0.07595±0.01323 0.06805±0.01000 0.04852±0.00715
          マルチカテゴリ問題
• マルチカテゴリ問題とは
 – 入力に複数のラベル(タグ)が付与されている問題
   • 例)WEBにおけるテキスト分類、Gmail等

    メール1             仕事
                     遊び
    メール2
                     友人

                   メルマガ
• 既存手法:               カテゴリ
 – 各カテゴリを判別問題として解く
 – 多項分布の拡張(PMM)
 – SVMを応用
      2値判別器のナイーブな適用
                              判別器
入力x   カテゴリラベル列y                f1
        1 2 3
                                カテゴリ1以外
       ( 1, -1, 1)
                              カテゴリ1
       ( 1, 1, -1)
       (-1, 1, 1)
                               判別器
       ( 1, -1, -1)             f2
                              カテゴリ2

                                 カテゴリ2以外

 判別器
                      カテゴリ3
  f3
            カテゴリ3以外
 ECOCによるマルチカテゴリ分類
入力   カテゴリラベルy        パリティビット列z         パリティz=z(y)はカテゴ
      1 2 3         1 2 3 4 5          リラベル列yから一意に
     ( 1, -1, 1) ( 1, -1, 1, 1, 0)     決まる

     ( 1, 1, -1) ( 0, 1, -1, 0, 1)
                 +
     (-1, 1, 1) ( 1, 0, 1,-1,-1)
     ( 1, -1, -1) ( -1, 1, -1, 0, 0)



判別器の誤り⇔ビット反転ノイズ
      マルチカテゴリの推定
• カテゴリラベル列 y の推定(MAP復号)



• 問題点:可能な y のバリエーションは 2カテゴリ数
 – 事前分布による拘束
   • (例)各入力は一度に多くのカテゴリに含まれない
 – 近似的周辺化アルゴリズムの援用
   • Belief propagation など
実験用データ
結果:カテゴリの誤推定率
      ここまでのまとめ
• ECOCの枠組みに基づき、多数の2値判別
  器の組み合わせによる多値判別法を構成
 – 判別誤りの非対称性を考慮
 – 特殊な場合としてHamming decodingを含む
 – Multi-class SVMよりも優れた性能
• マルチカテゴリ問題への応用
 – カテゴリラベルにパリティを付加し冗長にする
   ことで性能向上
• Encoding問題への拡張
           UCIデータセットの概要

Dataset        #Total   #Training #Test #Attributes   #Classes
Ann-thyroid    7200     3772      3428   21           3
Satimage       6435     4435      2000   36           6
Segmentation   2310     210       2100   19           7
Iris           150                       4            3
Wine           178                       3            3
Glass          214                       9            6


5-fold cross-validationを100回行い、平均挙動を見る
           UCIデータセット:訓練誤差
                 Spoc-svm: RBF      C-svm: RBF    Proposed: RBF
                  Spoc-svm:Poly     C-svm:Poly     Proposed:Poly
Ann-thyroid            0.04348         0.04745          0.02519
                       0.02572         0.02333          0.02386
Satimage               0.09515         0.10688          0.10462
                       0.12469         0.10485          0.11995
Segmentation           0.11429         0.17143          0.12381
                       0.02857         0.00952          0.03333
Iris           0.02248±0.00241 0.02478±0.00266 0.02290±0.00253
               0.02422±0.00239 0.02408±0.00283 0.02343±0.00248
Wine           0.00063±0.00078 0.00476±0.00123 0.00445±0.00106
               0.00000±0.00000 0.00000±0.00000 0.00000±0.00000

Glass          0.06481±0.00620 0.08886±0.00781 0.04509±0.00310
               0.00931±0.00204 0.00581±0.00119 0.00676±0.00143
     多重検定の問題
• (典型例)遺伝子発現に基づく有意遺伝子
  の抽出およびそれを用いた判別

        良いスコア(検定統計量)の選び方
        良いしきい値の決め方
        検定誤差の見積もり方



      各個検定が最適であること
              vs.
         多重検定が全体として最適であること
    有意遺伝子選択の問題
       class 1                        class 2
   (tumor samples)             (non-tumor samples)

                             si                  遺伝子 i の

                     mi1 mi2                     発現レベル xi


対立仮説 H1:                 mi1 = mi2
                       gene i is active
対立モデル尤度:


帰無仮説 H0:                 mi1 = mi2
                       gene i is inactive

帰無モデル尤度:
     Neyman-Peason’s lemma
                   対立モデルの尤度




「尤度比は最強の検定スコアである」
一定の有意水準 P( FP ) = a のもとで、
検出力 ( 1-P( FN ) = 1-b ) が最大   帰無モデルの尤度



• 単純仮説(パラメータを持たない)が前提
• 非単純仮説では最尤推定値をプラグイン
  した尤度比が漸近的に最強
           遺伝子の有意性スコア
                                                         si
• t-score (正規モデルの尤度比スコア)
   – i.e. S/N ratio                            mi1 mi2
                            mij : 各クラス内標本平均
                             Si : クラス内標準偏差(両クラス共通)
• SAM score (Tusher, Tibshirani & Chu, 2001)

                            S0 : 全遺伝子で共通の定数
• Empirical Bayes score (Efron, 2002)
   – 仮説の事後確率をスコアとする
   – 事前分布 P(si) に関して多重性を利用した経験ベイズ推
     定値に基く
                   さまざまな細かい改良
     多重検定における最良さ
• 多重性を利用した場合に、単純な個別検定
  の繰り返しよりも良い検定ができないか?
• 「最良」の多重検定スコアの定義

EFP = E[FPR] が同程度である統計的検定の中で
ETP = E[1-FNR] を最大にする統計的検定を
optimal discovery procedure (ODP) と呼ぶ
                              (Storey, 2005)

  – FPR: false positive rate (FDR) (第一種の過誤)
  – FNR: false negative rate (第二種の過誤)
                 ODP lemma           (Storey, 2005)


•   「以下の統計量に基く検定は ODP である」




    ただし、 G1 = { 1, 2, ..., M } は対立仮説が真である遺伝子の集合、
         G0 = { M+1, M+2, ..., N } は帰無仮説が真である遺伝子の集合

• 前提:
  – N個の単純帰無仮説 f1(X), f2(X), ..., fN(X)と
    N個の単純対立仮説 g1(X), g2(X), ..., gN(X)に基く多重検定
  –      を全遺伝子 i=1,…,N に対して共通の統計量
           として用い、共通のしきい値を設定
           漸近ODP




実際の多重検定状況では       非単純仮説では
真の集合 G0, G1 は未知   帰無・対立仮説の確率密度関数
そこで適当なしきい値にもとづく   は最尤推定パラメータに基いて
尤度比検定による決定で近似     決定

• 各X を構成するサンプル数無限大の極限で一致
  潜在変数モデルを対立仮説とした
       遺伝子選択


• 各サンプル j の所属クラス k が必ずしも観測さ
  れない場合

                                        center of class k
    expression level        class label    for gene i
  of gene i at sample j   prior of class k
                                                   intra-class variance
                                                         of gene i
                                                     (common among
                                                      classes k=1,2)

• 教師無し遺伝子選択・準教師付き遺伝子選択
教師あり、教師なし、準教師ありスコア




• 教師付き: P(k)  P( k | y(j) )= I( k = y(j) )
  – 帰無仮説モデル H0: mi1 = mi2
  – 対立仮説モデル H1: mi1 = mi2

このとき、尤度比スコアはt-検定で使われる S/N 比 と全く同等
  隠れ変数モデルに対するODP

•ODPp パラメータを共有する




•ODP パラメータと隠れ変数を共有する
 評価用人工データ


inactive genes     active genes


                                   非癌

                                    癌




                          癌/非癌ラベルに対して
                          活性である遺伝子

            癌/非癌以外の
            8種の特徴量のいずれかに関して
            活性である遺伝子
教師あり、教師なしスコア


                                        非癌

                                        癌



           inactive            active

Supervised score が検出したい遺伝子分類


     inactive         active
Unsupervised score が検出したい遺伝子分類
              教師なしスコアの比較


 Likelihood
 Ratio


 ODPp
 θ のみ共有



ODP
θ と Z を共有
              準教師ありスコアの比較
Observation

  tumor               non-tumor

       unknown samples




     inactive genes   active genes
     準教師ありスコア:実データ

前立腺がんデータ(公開)
- 52 癌組織 × 50 正常組織
- 約 1万遺伝子


全N症例のクラスラベルのうち
一部~全部を隠した場合の
スコアランキングの変化


     オリジナルランキングと
     一部ラベルに基くランキングと
     の間の Spearman 順位相関
     準教師ありスコア:実データ

大腸がんデータ
- 40 癌組織
× 22 正常組織
- 約 2000遺伝子




ラベルの順位相関       オリジナルの
               上位 1%遺伝子
               検出に関するAUC
   多重検定スコアのまとめ
• ODP は、多重検定スコアの最適性を
  Neyman-Pearson の拡張によって定義する
• 隠れ変数モデルを対立仮説とするとき、
  ODP には 2種類の自然な実装法がある
• 隠れ変数を含む多重検定は、隠れ変数情
  報の共有によって性能が大きく向上する
• 理論的側面の整備は不十分

						
Related docs
Other docs by 8k7dFe7
Processo Julgados 1� Inst
Views: 3304  |  Downloads: 0
G DEC 30
Views: 2  |  Downloads: 0
State_Query - Excel
Views: 29  |  Downloads: 0
Sheet1
Views: 18  |  Downloads: 0
2009 - Excel 11
Views: 68  |  Downloads: 0
??????????? - Excel 2
Views: 68  |  Downloads: 0
??: - Download Now DOC
Views: 80  |  Downloads: 0
Hoja1
Views: 7  |  Downloads: 0
Newsletter
Views: 1  |  Downloads: 0
CLASSICAL(DRAFT MERIT LIST)
Views: 51  |  Downloads: 0