Docstoc

Mining generalized association rules AIxploratorium Decision Trees 1 1 10W 10L

Document Sample
Mining generalized association rules AIxploratorium Decision Trees 1 1 10W 10L Powered By Docstoc
					AIxploratorium Decision Trees




                            1
1.(10W,10L)




              2
2.Away:8   (4W,4L)




                     3
3.(10L)~ 4L:9pm




                  4
4.Fred didn’t start:10 (2W,8L)




                             5
5.Joe plays center:11 (8W,3L)




                            6
6.OppC tall:10(6W,4L)




                        7
             Decision Trees




How to use a data set (such as the records from the previous
 games) to LEARN an accurate decision tree?
                                                               8
   Learning Decision Trees

• A decision tree needs to decide when
  to split on which attributes.



• what is the appropriate root (ie, top-
  most) attribute?


                                           9
    Learning Decision Trees
• if the root was "FredStart", the records for all 10
  "FredStart" games go left (following the "Yes" arc)
• Step1:


                                      FredStart
                                     yes      NO




                                                   10
   Learning Decision Trees
• Another question is "When to stop?".
• Step2:
                                          FredStart
                                      yes        NO

                                  Where
                              Home   Away


                            Win
                                                      11
               Random Splits
• this one has a total of 22 nodes, including 10 internal
  (splitting) nodes.




                                                            12
This tree is much smaller than the tree produced by Splitting
Randomly, as it has only 12 nodes, including 5 internal nodes.




                                                                13
Evaluation Process
+ Cross Validation




                     14
資料分類法



        15
                     何謂分類
• 根據已知資料及其分類屬性值,建立資料
  的分類模型,接著利用此分類模型預測新
  資料的類別
 – 範例:顧客是否會購買筆記型電腦的分類模
   型    婚姻
         單身              已婚

        年齡                收入
 < 30        >= 30   低                高
                              中

 否            是      否            否       是
                                              16
         分類的目的與應用
• 分類目的
 – 分析影響資料歸類的因素
 – 預測資料所屬的類別 (class label)
• 分類應用
 – 信用額度核准(credit approval)
   • 例如:根據預測的信用等級決定核卡額度
 – 目標行銷(target marketing)
   • 例如:找出會購買筆記型電腦的顧客屬性
 – 醫療診斷(medical diagnosis)
   • 例如:依病人的症狀判斷是否罹患SARS
 – 〃〃〃                       17
    分類所需的資料前置處理
• 資料一般化
 – 將連續性資料離散化,資料的數值分布精簡化
 – 避免分類的品質不佳
• 特徵屬性選取(feature selection)
 – 找出具有關鍵影響的屬性,將無關屬性去除
 – 提高分類的精準度
• 注意
 – 每筆建立分類模型的資料樣本,一定要有已知
   的分類標記(class label) ,包含這個已知分類
   標記的屬性稱之為標記屬性
   • 是否購買筆記型電腦標記屬性               18
                    分類的程序
•   建立模型
    –       利用現有資料找出分類模型
    –       模型的表示方式有:
        •    分類規則(classification rules)
        •    決策樹(decision trees)
        •    數學公式(mathematical formulas)
•   評估模型
    –       將資料分成訓練樣本(training samples) 及測試樣
            本(testing samples)
        •    第一階段利用訓練樣本來建立模型
        •    第二階段測試樣本評估準確性
•   使用模型
    –       找出資料分類的原因
    –       預測新進資料類型
                                           19
            分類程序的範例 (1)
 • 步驟1:建立模型
           訓練樣本                      分類模型
 姓名 年齡     婚姻   收入 購買筆記型電腦
                                             婚姻
王大銘 <30    單身    高    否
                                     單身               已婚
陳倩茹 <30    單身   中     否
     =
張明雄 > 30   已婚   高     是             年齡                 收入
     =
田信程 > 30   單身   低     是      < 30        >= 30                     高
                                                  低        中
     =
何偉業 > 30   已婚   高     是
     =
林葳婷 > 30   已婚   低     否      否           是        否            否       是




                                                                       20
              分類程序的範例 (2)
• 步驟2:評估模型
        測試樣本                            分類模型
 姓名 年齡 婚姻 收入 購買筆記型電腦                        婚姻
黃欣怡 >=30 單身 中   是                   單身               已婚
胡志銘 <30 單身    中   否
劉志強 <30 單身    低   否                年齡                 收入
鄧喬賢 >=30 已婚   高   否         < 30        >= 30    低                高
                                                          中

                            否           是        否            否       是



                      胡志銘                                 鄧喬賢


                            否           購買筆記型電腦?                  是
                                                                          21
    分類程序的範例 (3)
• 步驟3:使用模型
 – 假設有一位新會員陳建成前來註冊,其基本
   資料為35歲,單身,低收入
 – 依分類模型所預測的結果為 “是”,也就是
   此會員有可能會購買筆記型電腦
 – 該線上購物商店可對此會員進行一連串筆記
   型電腦的廣告行銷活動,例如寄送電子報,
   以促使顧客下單購買筆記型電腦


                          22
          分類法的準確性
• 訓練測試法(training-and-testing)
  – 資料樣本分為訓練和測試資料集,訓練資料集建立分類
    模型,利用測試資料集測試準確性
  – 適合用在樣本空間非常大的情況
• 交互驗證法 (cross-validation)
  – 資料樣本分成k個子樣本,輪流將k-1個子樣本當作訓練
    樣本,剩下一個子樣本當作測試樣本,重複做k次建立模
    型的工作之後,找出準確度最高的分類模型,也稱作k疊
    交互驗證法 (k-fold cross validation)
  – 適合用在樣本空間不多的情況
• 自助法 (bootstrap method)
  – 只留一筆資料當做測試樣本,其他全部拿來當訓練樣本,
    這是交互驗證法的特例
  – 適合用在樣本空間非常小的情況          23
       分類演算法的評估 (1)
• 準確度
• 速度
  – 建立分類模型的速度
  – 使用分類模型預測的速度
• 品質
  – 藉由事後修剪 (postpruning) 降低分類模型複雜度
• 可詮釋性 (interpretability)
  – 能不能從建立出來的分類模型去歸納、解釋
    分類的原因

                                     24
    分類演算法的評估 (2)
• 其他的評估觀點
 – 健全性 (robustness)
 – 考量分類法對於雜訊以及遺缺值 (missing
   value)的處理能力
 – 擴展性 (scalability),考量分類法在資料樣
   本規模擴大時是否仍能在可容忍的時間內求
   得探勘的結果



                                 25
    第五章 資料分類法
• 以決策樹為基礎之分類法
• 非決策樹為基礎之分類法




                26
            何謂決策樹
• 決策樹(Decision tree )
  –類似流程的樹狀結構。
  –樹的中間節點 (non-leaf nodes) 代表測試的條件
  –樹的分支 (branches) 代表條件測試的結果
  –樹的葉節點 (leaf nodes) 代表分類後所得到的分
   類標記,也就是表示分類的結果




                                 27
  決策樹的產生程序與用途
• 決策樹的產生程序
 – 步驟1:建立樹狀結構
  • 開始時,所有的訓練樣本都在根節點
  • 依據選取的屬性,重複地將樣本分隔開來
 – 步驟2:修剪樹狀結構
  • 辨識並且移除導致雜訊或特例的分支
• 決策樹的用途:分類未知的樣本
 – 靠著決策樹測試樣本的屬性值

                         28
         決策樹推論演算法 (1)
• 基本演算法(貪婪演算法,greedy algorithm)
  – 樹結構是以由上而下,遞迴(recursive)各個擊破
    (divide-and-conquer)方式建立
  – 無法處理連續性的數值,數值屬性必須先轉換
• 運作方式
  –   一開始,所有的訓練樣本都在根節點。
  –   屬性都是類別型態(若是連續型數值,事先做離散化)
  –   依據選取的屬性,反複地將樣本分隔開來。
  –   測試各屬性是不是以嘗試性或統計性測量
      (例如資訊獲利information gain)為基礎,而挑選出來的




                                           29
   決策樹推論演算法 (2)
• 停止分支的條件
 – 當某分支子集合內的所有樣本都屬於同一個
   類別時
 – 可能所有的屬性都用完了 ,用多數投票法以
   樣本數較多的類別來代表此葉節點
 – 選取屬性之後產生某分支完全沒有測試樣本
    的情況


                          30

				
DOCUMENT INFO
Categories:
Tags:
Stats:
views:4
posted:9/16/2011
language:English
pages:30