Embed
Email

team3 SAS EnterpriseMiner

Document Sample
team3 SAS EnterpriseMiner
Shared by: HC111204151650
Categories
Tags
Stats
views:
44
posted:
12/4/2011
language:
Chinese
pages:
69
國 立 中 央 大 學



資訊管理學系 碩士在職專班一年級



電子商務資料管理 Data Mining 報告





SAS Enterprise Miner

指導教授: 陳彥良 博士



研 究 生: 謝國忠(90433002)

陳明華(90433006)

吳木同(90433009)

鄭伊宏(90433012)

薛崴立(90433013)



組 別: 第三組





中 華 民 國 九 十 一 年 六 月 八 日

>

第一篇、 SAS Enterprise Miner 功能簡介 .............................................................. 1

第一章、 導論 ........................................................................................................ 1

壹、 前言.............................................................................................1

貳、 本報告章節安排.........................................................................2

第二章、 SEMMA 方法論 .................................................................................... 2

壹、 抽樣節點(Sampling Nodes) ..................................................3

貳、 探索節點(Exploration Nodes) ..............................................5

參、 變換節點(Modifying Nodes) ................................................8

肆、 模式節點(Modeling Nodes) ................................................13

伍、 評估節點(Assessment Node) ..............................................18

陸、 工具節點(Utility Nodes) .....................................................20

柒、 結論:Data Mining 的應用 .....................................................22

第二篇、 案例實作: 一個郵寄直銷公司的郵寄策略研討............................ 22

第一章、 案例介紹 .............................................................................................. 22

第二章、 資料存取(Accessing Data).................................................................. 23

壹、 建立新專案...............................................................................24

貳、 探索資料(Explor Data) ............................................................25

第三章、 資料準備(Preparing Data) .................................................................. 27

壹、 轉換變數...................................................................................27

貳、 修改屬性...................................................................................28

參、 定義目標的檔案--定義成本益結構 ........................................31

肆、 切割資料...................................................................................33

伍、 取代資料...................................................................................34

第四章、 模式化/評估:以迴歸模式為例 ...................................................... 36

壹、 建立迴歸模式...........................................................................36

貳、 評估迴歸模式...........................................................................38

第五章、 模式化/評估:以決策樹模式為例 ................................................. 40

壹、 評估決策樹模式.......................................................................42

貳、 建立一個 HTML 的報告 .........................................................45

參、 建立程式碼...............................................................................46

第三篇、 資料探勘在保險業的應用探討 ........................................................... 48

第一章、 前言 ...................................................................................................... 48

第二章、 資料探勘對保險業的效益 ............................................................... 49

壹、 估算保險費率:.......................................................................49

貳、 拓展新客源:...........................................................................50

參、 留住原有的顧客:...................................................................51

肆、 開發新的產品:.......................................................................53

伍、 建立可地區性探索的報告 ......................................................54

陸、 預防詐騙行為:.......................................................................55

柒、 提供再投保(Reinsurance)服務 ...........................................56

捌、 估計尚未支付的保險金: ......................................................57

玖、 協助調整者:...........................................................................58

壹拾、 結合保險與行銷部門: ...................................................58

第三章、 資料探勘專案的實行分析 ............................................................... 59

壹、 評估資料(Accessing the Data)............................................59

貳、 儲存資料(Warehousing the Data) .......................................60

參、 利用 SEMMA 方法論來分析資料 ..........................................60

肆、 報告分析的結果.......................................................................64

伍、 將分析結果展現在企業優勢上 ..............................................65

第四章、 結論 ...................................................................................................... 65

第四篇、 參考文獻 ............................................................................................... 66

SAS Enterprise Miner









第一篇、 SAS Enterprise Miner 功能簡介



第一章、 導論





壹、 前言

企業競爭愈來愈激烈之情形下,如何利用有效專業資訊系統工具,協助企業

擬定有效策略,企業資料挖礦軟體,將是不可或缺之工具。企業的龐大資料,尤

如一座藏量豐富的礦山,取之不盡,用之不竭。要挖掘出決策資訊,須配合統計

分析功能,才能去除雜質,找出高純度的模式(MODEL),進而建構出高獲益的

企業策略。





本文主要針對 SAS 4.1 版,對其特徵及主要元件進行了解。分成三大部份:

單一圖形化使用者介面、資料採礦之過程、client/server 的能力。





SAS 企業資料挖礦軟體(SAS Enterprise Miner)之統計分析功能超強,是將常

用之企業決策功能予以模組化,SAS 資料挖礦提供下列模組:



1. 資料抽樣(SAMPLING)

2. 變數相關(ASSOCIATION)

3. 資料分組(DATA PARTITION)

4. 變數轉換(TRANSFORMATION VARIALLES)

5. 離位過濾(FILTER OUTLIERS)

6. 迴歸分析(REGRESSION)

7. 決策樹法(DECISION TREE)

8. 類神經網路(NEURO NETWORK TOOL)

9. 模式評估(ASSESSMENT)

10. ...........







資管系碩士在職專班一年級 ~1~ 第三組

SAS Enterprise Miner







貳、 本報告章節安排

本報告主要分為三大篇來介紹 SAS Enterprise Miner 的基本功能與實例實作及

應用。第一篇以 SEMMA 方法論的觀點來介紹 SAS Enterprise Miner 的基本功能;

第二篇以實例實作的方式來介紹 SAS Enterprise Miner 的操作,文中將以一個郵寄

直銷公司的郵寄策略來研討;第三篇將運用前兩篇所學的 SEMMA 方法論來分析

Data Mining 實際應用於保險業所帶來的效益。







第二章、 SEMMA 方法論



The Enterprise Miner 資料採礦過程:採用圖形化使用者界面讓使用者藉著可見

的架構呈現,也就是處理流程圖,圖形化的描述整個完成整個資料採礦作業之過

程,並且估計人工編碼之時間需求並減低開發模組的需要。





圖形介面元件包括:(如下圖所示)





1. Project Navigator:用來管理任務和圖形。可以增加工具在圖形化的工作空間。

並且檢視 HTML 的文件報告。第二層的工具顯示存在建構處理流程圖形的資

料採礦之節點。



2. Diagram Workspace:用來建立、編輯和執行處理流程圖形。



3. Tool Palette:包含通常使用在圖形工作頁來建構處理流程圖形的一組工具,使

用者可以在此增加或刪除工具。



4. Nodes:一組用來幫助使用者在資料採礦過程中完成任務之工具。如資料導入、

分析和報告之過程。



5. Message Panel, Progress Indicator and Connection Status Indicator:用來展示資訊和

對使用者之動作反映估計任務之完成度。









資管系碩士在職專班一年級 ~2~ 第三組

SAS Enterprise Miner









分析人員可以配合資料挖礦五部曲(SEMMA):



1. 抽樣(SAMPLE)



2. 探索(EXPLORE)



3. 變換(MODIFY)



4. 模式(MODEL)



5. 評估(ASSESS)



將上述之各模組,任意組合及建立架構,將可產生無窮多的應用。







壹、 抽樣節點(Sampling Nodes)

資料採礦是資料密集的作業,如能採用成功的抽樣以降低資料量,使用抽樣

樣本當作輸入而非使用整個資料庫,則能大量降低整體作業的時間。如果你能夠

保證這些抽樣樣本具備資料的代表性,將可以同時保證在樣本中發掘的樣式

(Pattern)同樣也能在整個資料庫中被發掘,而 Enterprise Miner 可透過抽樣節點

的使用就能夠使用最少的時間和努力來完成抽樣樣本。







資管系碩士在職專班一年級 ~3~ 第三組

SAS Enterprise Miner









輸入資料來源節點(Input Data Source Node)



讓使用者取出並觀看資料的工具,而因為本系統可以在 SAS/ACCESS 關聯之

下作業,使用者可以讀取超過 50 種不同檔案格式,包括 DB2 和 Oracle 的圖表。





同時允許你在一個單一專案中使用一個或多個的輸入資料來源節點。當你打

開輸入資料來源節點時,首先看到的就是 Data 的標籤,在這邊你可以輸入資料

集合的名稱,在輸入名稱之後,鍵入 Enter 之後便開始前處理資料來源,前處理

包括自動產生 meta data、自動指定變數的角色和統計資訊。





輸入資料來源節點預設使用 2000 個抽樣樣本,當然你可以改變抽樣樣本的

大小,也可以改變輸入來源節點中資料集合的角色,資料來源的預設角色是原始



資 料 , 你 可 以 根 據 資 料 來 源 的 目 的 來 改 變 角 色 為 訓 練 ( Training ) 驗 證

(Validation)、測試(Testing)和評分(Scoring)之用。









抽樣節點(Sampling Node)



主要幫助使用者在母體中萃取樣本之用,特別建議在超大資料量時使用,可

有效降低模組訓練時間和產生可靠之模組。抽樣節點允許你從輸入資料來源取出

一個抽樣樣本,首先你必須決定樣本大小(Sampling Size)和亂數種子(Random

Seed),亂數種子可由系統產生,接下來再選擇抽樣方法:





 Simple Random Sampling:簡單隨機抽樣。

 Sampling Every nth:根據所設定樣本佔母體的百分比,每 n 個抽一次樣本。

 Stratified Sampling:設定分類的變數,依照所選定的變數分類,讓每種分類

都具有相同的抽樣機率。

 First n Observations:抽出資料中最前面的 n 個。

 Cluster Sampling:設定聚類的變數,依照所選定的變數聚類,讓每個聚類

都具有相同的抽樣機率。







資料分割節點(Data Partition Node)



允許使用者分割資料做為訓練、確認及測試等目的。分割資料也有助於加速





資管系碩士在職專班一年級 ~4~ 第三組

SAS Enterprise Miner



一開始的模組發展。此外資料分割也提供相互獨立之資料做為交叉驗證和模組評

估之用。主要以一般、分層隨機或使用者定義之抽樣為基礎。在做完抽樣之後,

你可以對將資料分割成幾個互斥的子集合,使用互斥的集合可使得評估模式更為

精確。在這邊可設定的參數,除了抽樣方法、樣本大小和亂數種子之外,必須分

別決定訓練、驗證和測試集合所佔的比例。









貳、 探索節點(Exploration Nodes)

提供多種視覺化資料觀察工具,讓使用者可以反覆且動態的探索及更改他們

的資料。資料挖礦是一種動態而且反覆的程序,所以必須在不同階段提供探索的

功能,如此你便可根據探索的內容做變換。因此 Enterprise Miner 提供下列的探索

功能:





 圖形顯示(Graphics Displays)





 異常過濾(Outlier Filter)





 轉換(Transformations)





 進階視覺化技術(Advanced Visualization Techniques)。









分佈探索者節點(Distribution Explorer Node)



以瞭解資料分布。讓使用者使用多面向的長條圖探索大量資料,可以目視辨

認模式和趨勢,並可藉著預測值和正確值之比對評估模組結果。分佈探索者節點

是一個進階視覺化的工具,它可以用來辨認樣式、研判資料的趨勢和顯示極值,

而且不管變數是離散或是連續的,都可以畫出多維度的直方圖。另外,它是完全

互動的,你可以任意傾斜或者旋轉它,也可以任意的在視窗中移動它。









繪製節點(Multiplot Node)



繪製節點是一個視覺化工具,幫助使用者在大量資料中找到資料之形態。可





資管系碩士在職專班一年級 ~5~ 第三組

SAS Enterprise Miner



批次產出長條圖和散佈圖,並可以做回歸及平滑長條圖以了解資料之分布。它和

分布探索者節點不同的是―它會從資料集合中的輸入和目標變數自動的繪製圖

表,而圖表的種類有:長條圖(Bar Charts)和散佈圖(Scatter Plots)等。另外,

它還會預設的繪製一條在 90%信賴區間內的迴歸線。









洞察節點(Insight Node)



互動式圖形化統計分析工具,可以讓使用者用在不同的視窗中的不同的圖形

和分析值互動式的探索和分析資料。洞察節點允許你從多個圖形和分析中互動的

探索和分析資料,舉例來說,你可以分析單變量或是多變量的分配、建立散佈圖

或是箱型圖或是檢驗相關係數 ANOVA 和 GLM 等等。如果洞察節點是來自流程

中的資料集合,則它可以使用整個資料集合或是使用抽樣的 meta data 當做輸入。









關聯節點(Association Node)



在一個事件或是一筆記錄中,不同項目一起發生的機率,藉著發掘關聯規則,

形成每一個關聯和順序,讓使用者確認資料間關聯關係。如:尿布和啤酒的關係。





這些關聯規則發掘的基礎是建立在項目單獨和一起在資料庫中發生的頻率次

數,一個關聯規則可能表達成“如果項目 A 是事件的一部分,則項目 B 也是事件

的一部分,這樣的情形發生的機率有 X“。這些關聯規則不能解釋成直接的因果

關係,但是可以解釋成兩個或是多的項目的關聯,然而發掘這些可信的關聯規可

供企業決策,例如:商品的促銷或是擺設。





在這邊可以設定關聯規則的參數有:





 Minimum Transaction Frequency:最小的支持(Support) ,也就是項目在整

個資料庫中一起發生的機率。

 Maximum Number of Items in an Association:最大在關聯集合的項目數。

 Minimum Confidence:最小的信賴(Confidence) ,也就是項目一起發生的

正確率。

進階的參數有:





 Calculate Maximum Number of Associations Using 2**n:這個選項可決定最





資管系碩士在職專班一年級 ~6~ 第三組

SAS Enterprise Miner



大的關聯數。

 Customize Sort:自訂化的排序,如果關聯規則小於或等於 100,000 個,則

它會依照支持來排序,如果大於 100,000 個,就不會作排序的動作。







變數選擇節點(Variable Selection Node)



變數與標的間之關聯性與篩選,在預測及分類目標變數過程中提供一個演算

法去評估輸入變數之重要。





Link Analysis(連結分析):順序間關聯分析,藉著呈現一連串交互相關和連

結的物體以顯示母資訊之結構與內容。許多資料挖礦的資料庫都含有數百個潛藏

的獨立變數當作模式的輸入變數,透過變數選擇節點可以去除與目標不相關的變

數來減少輸入的變數。通常使用的方法是利用線性模式用選擇的輸入變數來預測

目標變數,然後保留資訊含量較大的輸入變數,舉例來說,使用最小平方(Least

Squares)、Logistic 的迴歸方法或是其他分析的方法,在這邊你可以先用使用

R-square 或是 Chi-square 的方法來選擇變數。





在這邊有一些選項可以設定:





 Remove Variables Unrelated to the Target:移除與目標不相關的變數,這個

方法提供快速的初步變數評估,你可以在線性的模式下,快速的指定輸

入變數來預測目標值。

 Remove Variables in Hierarchies:移除階層的變數,這個方法可以尋找輸

入變數的階層關係,舉例來說,你可能有 state 和 zip code 兩個變數,

然後你不希望同時使用這兩個變數,因為這兩個變數含有重複的資訊,

這邊會幫你保留含有最多資訊的變數。

 Remove Variables by Percentage of Missing:移除過多缺值的變數,這個方

法可以移除過多缺值的變數,你可以指定缺值的百分比,預設是移除超

過 50% 的缺值的變數。

 Remove Class Variables with Greater Than or Equal to n Values:移除過多分



類的變數 這個方法可以移除只有單一分類或是大於或等於 n 種分類的

變數,預設是移除超過 80 種分類的變數。









資管系碩士在職專班一年級 ~7~ 第三組

SAS Enterprise Miner







參、 變換節點(Modifying Nodes)

藉著使用本身之商業和統計規則,讓使用者調整它們的資料。









資料集合屬性節點(Data Set Attributes Node)



改變資料檔與變數屬性,允許使用者在處理流程圖形中之任一點修正資料預

設屬性,如名稱、描述及角色。你也可以修改 meta data 的屬性,舉例來說,你

可以在 SAS Code 節點產生資料集合,然後利用資料集合屬性節點修改它的 meta

data。









轉換變數節點(Transform Variable Node)



各式衍生變數的產生功能,數值資料轉置。讓使用者創造新變數做已存在變

數之轉換。轉換變數節點允許你透過轉換在資料中已存在的變數建立新的變數。

當你想提升適合一個模式時,通常就是利用轉換變數,舉例來說,你可以在變數

中穩定變異數、移除非線性和更正非常態的資料,有幾種轉換的型態:





 Log:取對數。

 Square root:取平方根。

 Inverse:取倒數。

 Square:取平方。

 Exponential:取指數。

 Standardize:標準化。

 Bucket:將資料依照同大小的寬度分成 n 個區間,每個區間內的資料個

數通常會不一樣。

 Quantile:將資料依照資料個數分成 n 個區間,每個區間內的資料各數

會相同。

 Optimal binning for relationship to target:根據目標去最佳化區間。

 Maximize normality:最大化常態。

 Maximize correlation with target:最大化與目標的相關係數。

 Equalize spread with target levels:使與目標的區間相同。







資管系碩士在職專班一年級 ~8~ 第三組

SAS Enterprise Miner



而在介面可以呈現原始變數或是轉換變數,呈現的欄位包括:

 Name:原始變數或是轉換變數的名稱。

 Keep:保留變數做為輸出。

 Mean:平均值。

 Std Dev:標準差。

 Skew:歪斜值,如果為正,表示在平均值右邊的寬度比左邊大;如果為

負,則表示平均值右邊的寬度比左邊小。

 Kurtosis:針對分佈的形狀的測量值,大的值表示含有一些資料距離平均

值較遠。

 C.V.:共變異數。

 Formula:轉換的公式。

 Format:變數的格式。

 Label:變數的標籤。







過濾異常節點(Filter Outliers Node)



允許使用者使用過濾器,把觀察資料中之極端值排除在外。就如同某些極端

值和觀察值或一些異常的資料,是日後的資料採礦中不需要的,就此排除。這樣

過濾一些極值得好處是可以讓你的模式更加的穩定,有三個選項可以設定:





 Eliminate rare values for classification variables with fewer than 25 unique

values:去除在分類變數中較稀少的值,藉由去除較為稀少的值,可以提

升準確度,像是 REGION 變數。

 Eliminate Extreme Values for Interval Variables:去除區間變數的極值,像是

SALARY 變數,去除的方法有:

 :

Standard Deviations from the Mean 去除超過平均值 n 個標準差的值。

 Extreme Percentiles:去除開頭和結尾 p%。

 Modal Centroid:去除超過模式中心 n 空間的值。

 Median Absolute Deviations(MAD) :去除超過中位數 n 個標準差的

值。







取代節點(Replacement Node)



資料值之替換與遺失值填補等遺失資料處理,允許使用者在此填入觀察所得

之數值以修補遺失值。資料來源可能包含缺值的變數,這些缺值的資料可能來自





資管系碩士在職專班一年級 ~9~ 第三組

SAS Enterprise Miner



輸入資料的錯誤、客戶不完全的回應、交易系統錯誤、測量系統錯誤或是其他方

式,然而 Enterprise Miner 會在變數選擇節點、類神經網路節點或迴歸節點將這些

缺值資料剔除,但是有時候非缺值的變數會含有有用的資訊,在剔除這些缺值資

料會造成樣本的偏差,而且缺值的資料通常也代表其他的特性。





一個替代的方法是利用決策樹狀節點,將這些含有缺值的資料分到一個特別

的分類中。另外一個較好的方式便是使用取代節點,它可以將這些連續或是離散

的變數中缺值的資料補上,補上缺值的方法有:





 Mean:補上算數平均值,可以使母體的平均值不變,對於資料是常態分

佈的話,這是一個很好的方法。

 Median:補上中位數,如果資料呈現歪斜的分佈,用中位數就比平均值

來的好,因為平均值會受極值影響。另外,中位數也適用於順序性的資

料。

 Midrange:補上(最大值+最小值)÷2,這個方法的好處是易於計算。

 Distribution Based:利用非缺值的分佈。

 Tree Imputation:利用樹的演算法。

 Mid-minimum spacing:計算修正後分佈的最大值和最小值的平均值。

 Tukey’s biweight, Hubers, or Andrews wave:利用最小化與估計值的差

異,最常是用最小化加總的平方差。

 Default Constant:補上一個單一的常數。

 None:不補上缺值。





另外,你也可以根據區間變數或分類變數自訂除了以上之外的取代方法,例

如:在分類變數上還有使用 Most Frequent 的方法,也就是補上資料中最常發生

的值。





在圖形的支援上,取代節點提供了:





 Print the graph:列印圖形。

 Copy it to the clipboard:複製至剪貼簿。

 View a text box that lists the frequency and value for a bar:觀看長條圖並且在

文字框顯示頻率。

 Move the graph:移動圖形。

 Zoom in and out:縮放大小。

 Reset the graph setting:重新設定圖形。







資管系碩士在職專班一年級 ~10~ 第三組

SAS Enterprise Miner









聚類節點(Clustering Node)



經由分析矩陣,形成觀察群組以辨認資料之相似度觀察值。聚類節點可以用

來切割資料庫,它可以將相似的資料分在同一個群組,而群組之間的資料卻是不

相似的,同時它也可以做一個簡單的排序。聚類方法的基礎是建立在從一個或是

多個的量性變數和種子上計算出歐幾里德距離,除了歐幾里德距離之外,當然你

也可以設定其他計算距離的方式。





在這邊有幾個選項可以設定:





Clusters

 Segment Identifier:這是由變數名稱、標籤和角色所組成。

 Number of Clusters:最大的聚類個數,你可以選擇自動的最佳個數。

Seeds

 General:允許你指定分類的規範,方法有下面幾種:

 Mean Absolute Deviation (Median)

 Modified Ekblom-Newton

 Root-Mean-Square Difference

 Least Squares (fast)

 Least Squares

 Newton

 Midrange

 Initial:指定聚類種子如何被更新會取代。

 Final:產生聚類種子停止的規範。

Missing Value

對於缺值資料的處理,有下列幾種方法:



 Seed of Nearest Cluster

 Mean of Nearest Cluster

 Conditional Mean

Output

 Print:指定輸出的方式,有下列幾種方法:

 Cluster Statistics

 Distance Between Cluster Mean

 Cluster Listing





資管系碩士在職專班一年級 ~11~ 第三組

SAS Enterprise Miner



 No Output

 Statistics Data Sets:列出含有聚類統計和種子統計資訊的資料集合。

 Clustered Data:列出資料庫和輸出的資料集合。







(SOM/Kohonen Node)



藉著使用 Kohonen vector quantization (VQ)和 Kohonen 自我組織圖形成不

需指導的學習,或在 Nadaraya-Watson 和 local-linear smoothing 批次自我組織圖。

在執行完 SOM/Kohonen 節點後,一樣可以做到聚類的效果。



在這邊有幾個選項可以設定:



Cluster

在這邊可以設定聚類的變數名稱、標籤和角色。



General

有幾種網路架構可以選擇:



 Self-Organizing Map (SOM)

 Kohonen Network

 Kohonen Vector Quantization

Advanced

你可以在這邊設定一些建立 SOM/Kohonen 的控制參數。



Seeds

在這邊可以指定種子的初始值,預設的初始化的方法會根據所選擇的網路而

有 所 不 同 , SOM 預 設 是 使 用 Principal Component , Kohonen 預 設 是 使 用

Random 的方法。初始化的方法有:



 Random

 None

 Partial

 Principal Component

Missing Value

對於缺值資料的處理,有下列幾種方法:



 Seed of Nearest Cluster





資管系碩士在職專班一年級 ~12~ 第三組

SAS Enterprise Miner



 Mean of Nearest Cluster

 Conditional Mean

Output

 Print:指定輸出的方式,有下列幾種方法:

 Cluster Statistics

 Distance Between Cluster Mean

 Cluster Listing

 No Output

 Statistics Data Sets:列出含有聚類統計和種子統計資訊的資料集合。

 Clustered Data:列出資料庫和輸出的資料集合。



Time Series(時間序列)



讓使用者可以將交易資料轉換成時間序列資料。









肆、 模式節點(Modeling Nodes)



提供許多模組幫助使用者從輸入的變數值預測目標變數值。







迴歸節點(Regression Node)



提供圖表式的模組,讓使用者更方便的去使用 Linear 和 Logistic 兩種迴歸

模式,Linear 的迴歸模式適合用在以一個或多個的獨立變數來預測屬於連續變數

的目標值,Logistic 的迴歸模式則適合用在以一個或多個的獨立變數來預測屬於

二元和順序的變數的目標值。除此之外,你還可以將迴歸模式放在批次的環境之

中。



在這邊有幾個選項可以設定:



Variables

在這邊定義使用到的變數。



Model Options

在這邊提供迴歸模式的選項:



 Target Definition:定義目標變數。



資管系碩士在職專班一年級 ~13~ 第三組

SAS Enterprise Miner



 Regression:指定 Linear 或 Logistic 迴歸模式,二元或順序資料預設是

Logistic 的 迴 歸 模 式 , 而 區 間 資 料 預 設 是 Linear 的 迴 歸 模 式 , 在

Logistic 迴歸模式中你還可以選擇 Logit、Cloglog 或 Probit。

Selection Methods

在這邊設定模式選擇的方法:



 Backward:一開始使用所有變數,系統地拿掉與目標不相關的變數,直

到等於 Stay Significance Level 或停止條件為止。

 Forward:一開始不使用任何變數,系統地加入與目標相關的變數,直到

等於 Entry Significance Level 或停止條件為止。

 Stepwise:一開始不使用任何變數,加入與目標相關的變數,也可能會

取代之前的輸入變數。

 None:使用所有的變數。



如果你選擇的是 Backward、Forward 或是 Stepwise 的方法,你還可以指定

選擇的規範:AIC(Akaike’s Information Criterion) 、SBC(Schwarz’s Bayesian

Criterion)、Validate、Cross Validate 或是 None。



Advanced

在這邊你可以設定最佳化的方法、迴圈的控制和收斂的規範,非線性的最佳

化方法包括:



 Gradient

 Double dogleg

 Newton-Raphson with line search

 Newton-Raphson with ridging

 Quasi-Newton

 Trust-region

Estimates

在這邊會顯示從迴歸分析而來的正規化或非正規化參數的長條圖,另外,它

可以顯示訓練資料、驗證資料和測試資料的統計分析資料。



另外,可以指定輸出的內容,Linear 迴歸模式的標準輸出包含:



 R-square



 Adjusted R-square



 AIC(Akaike’s Information Criterion)







資管系碩士在職專班一年級 ~14~ 第三組

SAS Enterprise Miner



 SBC(Schwarz’s Bayesian Criterion)



 BIC(Bayesian Information Criterion)



 Cρ(Mallows’ Cρ statistic)



而 Logistic 迴歸模式的標準輸出則包含:



 Response Profile



 Class Level Information







決策樹節點(Tree Node)



決策樹是分割大量資料成為最終節點的一種預測模組。Tree Node 主要功能

就是幫助使用者建立決策樹。支援 CHAID、CERT、C4.5/ID3。(圖六)決策樹節點

允許你建立:



 Classify or predict observations

 Predict the appropriate decision when you specify decision alternatives



決策樹可以產一組規則的集合,你可以從新的資料集合產生預測,這個資訊

可以幫助企業決策。決策樹超越其他模式的一點好處是它產生的規則是比較容易

懂的,舉例來說,如果薪資大於 $30,000 和 負債比率小於 28%,則提供額外的

信用額度,另外一個好處是它可以處理缺值的資料。



決策樹節點支援自動和互動式訓練,當你選擇自動訓練,它會自動決定輸入

變數的強度,而互動式訓練則可以已經驗法則去產生決策數。為了滿足這一點,

決策樹節點它提供了:



 Use prior probabilities and frequencies to train data:提供訓練樣本的比率。

 Base the criterion for evaluating a splitting rule on either a statistical significance

: , 、

test 提供分割的規則 如 F 檢定 卡方檢定或是變異數 熵函數或是 Gini 、

係數。

Basic

在這邊可以指定分割的規範和樹的大小:



 Chi-Square Test

 Entropy Reduction

 Gini Reduction







資管系碩士在職專班一年級 ~15~ 第三組

SAS Enterprise Miner



如果是區間資料,還可以有:



 F-Test

 Variance Reduction

Advanced

在這邊設定模式的評估值:



 Traditional statistical measure:選擇最小的平均平方誤差(ASE)

 Profit (or Loss)

 Proportion of event:根據比率來選擇。

 Total leaf impurity:選擇最小的 Gini 係數。







類神經網路節點(Neural Network Node)



Neural Network(類神經網路模型):可以從呈現的資料樣本中,找出資料中

之某種型態,支援 GLM、MLP、RBF。(圖七)一個人工類神經網路嘗試想要模擬

人在從資料中找出樣式的大腦行為,它是一種非線性迴歸、區別分析模式和資料

刪減的模式,它可以幫助你預測實際的問題。在這邊有幾種類神經的網路架構可

以選擇:



 Generalized linear model (GLIM)

 Multi-layer perceptron (MLP)

 Radial basis function (RBF)

 Equal-width RBF

 Normalized RBF

 Normalized equal-width RBF

General

 The model selection criteria:

 Profit / Loss

 Misclassification Rate

 Average Error

 Basic or advanced user interface

 The accumulation of the training history

 The use of the training process monitor

Basic

這邊是提供給初級使用者使用,在這邊可以指定網路架構、最大的代數、訓

練的方法和時間的限制。



資管系碩士在職專班一年級 ~16~ 第三組

SAS Enterprise Miner





Advanced

 Network:允許你建立網路圖,增加隱藏層節點、觀看節點和連結的屬性。

 Initialization:產生一個亂數種子,初始化目標的權重和初始值。

 Optimization:設定目標函數、修正的權重和收斂的參數。

 Train:選擇訓練的技術,最小化和最大化代數和最大的 CPU 時間。

 Prelim:初步的訓練可以幫你找到好的起始值,因此你可以避免區域的最

佳解。







Output

 Estimates data sets

 Output data sets

 Fit statistics data sets



Princomp/Duneural:讓使用者符合一個添加的非線型模組,去預測一個二元

或等距之目標變數。它也同時可以形成主要元件分析,並且將完成計分之主要元

件分析交給後續的模組進行分析。並以以下幾種圖形呈現:







使用者定義模式節點(User-Defined Model Node)



提供任何 SAS 產生的模式,以便於進行模式比較評估。使用者定義模式節點

允許你從 Score Code 產生一個估算預測值的模式,它可以連接輸入來源資料節

點,產生一個新的資料集合。







整體節點(Ensemble Node)



讓使用者結合多重模組所產生之結果,從他們的資料去創造一個單一且整合

的模組。包括分層模組與複合模組。整體節點允許從結合多個模式的結果,建立

一個單一的、整合的模式,通常它是採取一個重新抽樣的策略,分別的去合適每

一個模式。它執行了:



 Stratified modeling

 Bagging

 Boosting

 Combined modeling







資管系碩士在職專班一年級 ~17~ 第三組

SAS Enterprise Miner





Memory-Based Reasoning

使用 K-nearest neighbor approach 去分類且預測觀察值。



Two-Stage Model(兩階段模式)



讓使用者可以結合分類目標的分類模組與間隔目標的預測模組。









伍、 評估節點(Assessment Node)



為多層次模組之比較提供一個共同的架構,並且運用預測模組來做預測。









評估節點(Assessment Node)



對不同模式進行評比,比較那一個是最好的。評估節點提供了整體節點、類

神經網路節點、迴歸節點和決策樹節點的比較,它會自動的產生統計資訊,可以

讓你交叉去比較每個模式的預測值,它的輸入來源可以從:



 Scored data set:像是由整體節點、類神經網路節點、迴歸節點和決策樹

節點自動產生的 Scored data set。

 Decision matrix:期望收入和成本的表格,每一個目標值所造成的利潤。



而評估的圖形包含:



 Lift Charts (or gains charts)

 Profit charts

 Return on investment (ROI) charts

 Cross lift charts

 Diagnostic classification charts

 Statistical receiver operating characteristic (ROC) charts

 Response threshold charts

 Threshold-based charts

 Interactive profit/loss assessment charts









資管系碩士在職專班一年級 ~18~ 第三組

SAS Enterprise Miner









程式碼節點(Score Node)



程式碼節點允許你從訓練的模式中管理、編輯、輸出和執行程式碼,從程式

碼中可以產生新資料的預測值,有幾種節點可以產生程式碼:



 Transformation Node

 Data Replacement Node

 Clustering Node

 Group Processing Node

 Regression Node

 Neural Network Node

 Tree Node

 SAS Code Node







報告節點(Reporter Node)



產生 HTML 格式分析流程報表,讓使用者可以把分析所得結果組成可以在網

路瀏覽器上觀看之 HTML 格式報告。每份報告都包含流程圖和每個子節點的子報

告,報告節點通常會是最後一個節點。





模組化展開(Model Deployment)



讓使用者為所有的模組發展過程,產出完整的評分編碼,包括變數減少及格

式轉換





評分(Score)



對新資料評分,那一個是最具利潤的客戶。讓使用者可以管理、編輯、輸出

和執行從測試模組產出的 SAS scoring code。可以對每個信用交易戶評分從而辨識





ANSI C 程式語言模型輸出(C*Score )



將由 Enterprise Miner 工具組所產生的 SAS DATA step score code 轉換成 C 程

式語言,例如:ISO/IEC9899 的國際標準程式語言—C handbook。







資管系碩士在職專班一年級 ~19~ 第三組

SAS Enterprise Miner







陸、 工具節點(Utility Nodes)



包含一系列實用的工具,提供一系列的服務,幫助資料採礦的過程更流暢。







群組處理節點(Group Processing Node)



對數個不同群組提供分別分析處理,讓使用者定義群組變數,去獲得每一個

階層變數分別的分析。群組處理節點允許你定義一個群組變數,如果你定義了超

過一個以上的目標,你也可以針對個別的目標做分析,像是性別,你可以把男、

女分開分析。因此你可以在這邊設定:



Model

在這邊指定你所使用的評估模式。



Looping Information

在這邊會顯示目標使用的個數、群組的個數和迴圈的個數,另外你可以指定

迴圈的方式:



 Variables:依照群組的每一個去執行迴圈。

 Index:指定迴圈的個數。

 Resampling:你可以使用沒有權重或是重新權重當做 bagging 和 boosting

的訓練樣本,而進行重新抽樣。

 No Loop:不執行迴圈。







資料挖礦資料庫節點(Data Mining Database Node)



Metadata 管理,讓使用者創造一個資料採礦的資料庫。這是一個 SAS 的資料

組,它設計用來經由減少分析引擎所需經過的資料而達成最佳化。資料挖礦資料

庫節點允許你建立一個資料挖礦資料庫,它是藉由分析節點-變數選擇節點、決

策樹節點、類神經網路節點、迴歸節點,來最佳化它的效能,因此它的執行效能

就必須減少它通過的節點,在這個節點裡包含了數值變數的統計資訊和分類變數

的因素等級資訊。









資管系碩士在職專班一年級 ~20~ 第三組

SAS Enterprise Miner









SAS Code 節點(SAS Code Node)



針對特殊處理需求,可以自行編寫 SAS 程序的開放性介面。讓使用者可以把

SAS code 合併進處理流程圖形。SAS Code 節點允許你將 SAS Code 結合到流程

圖中,這個結果是可以利用 SAS Code 擴展 Enterprise Miner 的功能,你可以在資

料挖礦過程中使用到 SAS 系統的其他程序,你也可以自己建立一個程式碼節點、

有條件的處理資料和合併存在的資料集合,另外,它提供了巨集的機制,可以動

態的參考到資料集合和變數,,它可以定義在流程的任何一個階段。



在這邊最主要有三個部分的設定:



Program

你可以輸入已經存在的 SAS Code,或是撰寫新的 SAS Code,然後可以設定

SAS Code 的種類-執行、結果或評分,當流程在執行的時候,必須將執行打開,

若是要暫停的話,就把執行關閉。



Export

在這邊指定你要向輸出到繼承節點的資料集合。



Macros

在這邊存放巨集所指定的資料集合、變數和程式庫的名稱。







控制點節點(Control Point Node)



分析流程執行控制,讓使用者可以創造一個控制點在處理流程圖中。控制點

可以減少一些流程圖中所需聯結之數目。控制點節點允許你在流程途中建立一個

控制點,好處是可以減少一些圖形的連結個數,舉例來說,有多個的輸入資料來

源節點聯結到多個的模式節點,在流程圖上就必須有許多的連結,這時候就會讓

流程圖複雜許多,這時候可以讓輸日資料來源節點先連結上控制點節點,再由控

制點節點連上模式節點。







子圖節點(Subdiagram Node)



分析流程層級化架構管理,用來呈現其他功能之集合,這可以幫助控制並且





資管系碩士在職專班一年級 ~21~ 第三組

SAS Enterprise Miner



單純化原本複雜的處理流程圖形。一個子圖可以看成包含其他的節點的集合,你

也可以在子圖節點中建立子圖節點,將流程分層控制,所得到的好處是可以將一

個複雜的流程圖簡化,將功能劃分成一個一個的子圖,使得整體架構更為清楚。









柒、 結論:Data Mining 的應用



資料採礦的應用可以衍生到不同的產業與企業機能上。其在各產業中廣泛提

及的客戶關係管理、資料庫行銷等應用



目前 SAS Enterprise Miner 已在各行業的應用:



 金融業:信用評比、風險管理、信用卡偽冒的預防、提款機現金存量管





 保險業:保險費率制定、出險評估、詐欺預防。



 電信通訊業:客戶使用行為分析、電信網路績效。



 零售通路業:購物籃分析、供應戀分析。



 製造業:良率提昇、供應鏈管理









第二篇、 案例實作:



一個郵寄直銷公司的郵寄策略研討



第一章、 案例介紹



假設你工作於郵寄直銷公司,主要產品是家具和家庭用品,因此你負責每個

月寄送家具和家庭用品的郵件目錄給客戶,最近你想要寄送包含廚房用具、盤

子、湯匙、刀叉等用餐物品的特別目錄給客戶,然而寄送給所有客戶的成本太過

昂貴,所以你不能寄送這個目錄給所有的客戶,你必須針對那些很有可能會購買

的對象寄送。因此你想透過發展一個模型然後用它來產生一個新的郵寄名單。



資管系碩士在職專班一年級 ~22~ 第三組

SAS Enterprise Miner



幸運地,你已經有一些顧客購買的記錄,這些資料包括顧客是否在過去兩年

買了廚房用具、盤子等用餐物品。用這個購買歷史資料來建立叫做 CUSTDET1

的資料集合,它包含了 49 個變數。其中 Total Dining 這個變數是 Kitchen

Product、Dishes Purchase 和 Flatware Purchase 三個變數的加總,它代表客戶對

用餐物品可能有較高的興趣。





Purchase Kitchen Product Ladies Coats

Dollars Spent Dishes Purchase Ladies Apparel

Yearly Income Flatware Purchase His/Her Apparel

Home Value Total Dining (kitch+dish+flat) Jewelry Purchase

Order Frequency Promo: 1-7 Months Date 1st Order

Recency Promo: 8-13 Months Telemarket Order

Married $ Value per Mailing Account Number

Name Prefix Country Code State Code

Age Total Returns Race

Sex Mens Apparel Heating Type

Telemarket Ind. Home Furniture Number of Cars

Rents Apartment Lamps Purchase Number of Kids

Occupied 0 的,因

此我們必須轉換變數,在這邊我們就加入一個轉換變數節點,並和輸入資料來源

節點連接起來:









在轉換變數節點上按下左鍵二下,即可進行參數設定:









資管系碩士在職專班一年級 ~27~ 第三組

SAS Enterprise Miner









按下 Create Variable :









在 Name 的欄位輸入:DINEBIN



在 Label 的欄位輸入:DINING No/Yes



按下 Define,在 Formula 中輸入:dining>0



最後按下 OK,就建立好一個新的變數 DINEBIN,代表有購買或沒有購買

用餐物品。





貳、 修改屬性



1.修改目標變數的屬性:



在建好新變數(DINEBIN)後,你必須將其設成目標變數,因此你必須加入一

個資料集合屬性節點,並且和轉換變數節點連接起來:



資管系碩士在職專班一年級 ~28~ 第三組

SAS Enterprise Miner









在修改屬性節點上按下左鍵二下,即可進行參數設定:









在 DINEBIN 按下右鍵,選擇 New Model Role,並將之設為 target:









2.去除多餘的輸入變數::







資管系碩士在職專班一年級 ~29~ 第三組

SAS Enterprise Miner









由於 DINEBIN 是由 KITCHEN、DISHES、FLATWARE 和 DINING 而來

的,所以我們不能把它們當作輸入,所以我們必須加以去除,做法如同上述。









3.針對資料作資料的描述( metadata):









unary:單一個值。



binary:兩個值。



nominal:超過兩個非數字的值。



資管系碩士在職專班一年級 ~30~ 第三組

SAS Enterprise Miner



ordinal:超過兩的數值,但不超過十個數的值。



interval:超過十個數的值。



在 DINEBIN 按下右鍵,選擇 New Measurement,並將之設為 binary:









參、 定義目標的檔案--定義成本益結構



因為寄發目錄給客戶必須承擔成本,所以我們須要建立模型以為預測郵寄名



單之用,在這邊我們假設每寄發一個目錄的成本為 $10,每個目錄的平均收入為



$90,所以如果預測正確的話可以得到 $90 - $10 = $80 的收入,但是預測錯誤的



話會損失 $10。



Enterprise Miner 提供了定義收入和成本矩陣的方法,在資料屬性集合的節



點,在 DINEBIN 這個變數的 New Model Role 按下右鍵,選擇 Edit target



profile,則會出現:









資管系碩士在職專班一年級 ~31~ 第三組

SAS Enterprise Miner









按下 Assessment Information 的標籤後,會出現:









在左方的對話盒按下右鍵,選擇 Add 一個名稱叫 Profit Matrix,並將名稱改



為 Dining matrix,再按下 Edit Decisions,會出現:









資管系碩士在職專班一年級 ~32~ 第三組

SAS Enterprise Miner





選擇 Maximize profit with costs,並且將固定成本設為 10:









關起對話盒,並且儲存設定,在 Assessment Information 的標籤中可以看到



Dining Matrix 的矩陣,並將第一列第一行的值之設為 90,代表平均收入:









肆、 切割資料

Entermise Miner 為了有效建立一個模型會把資料分成訓練(Training)、驗證

(Validation)和測試(Testing)的資料子集合,訓練集合是用來做初步模型適配之

用,驗證集合是在估計的時候調整模式的權重,測試集合是用來評估模式:









資管系碩士在職專班一年級 ~33~ 第三組

SAS Enterprise Miner









首先在這邊加入一個分割節點,並和資料集合屬性節點連接起來:









在 Data Partition 節點上按二下,可以在此設定資料分割的方法及分割的比



例。上述的例子我們使用隨機抽樣的方法,但是將 Train 改成 50%,Validation 改



成 25%,Test 改成 25%。





伍、 取代資料



當資料量愈龐大,資料發生缺值或異常值的的機會愈大,而這些有問題的資



料是否會對分析造成影響,完成取決於要建立的模型為何,例如當要建立迴歸模



型時,會忽略整筆異常資料,常使得訓練資料大量流失造成建立一個不實的模型。



如下圖所示:









資管系碩士在職專班一年級 ~34~ 第三組

SAS Enterprise Miner









在這邊我們可以加入一個取代資料節點,並和資料分割節點連接起來,可以



利用取代資料節點將這些缺值的資料補上:









Enterprise Miner 補上缺值的作法是 Interval 變數是補上平均值,Binary、許



Nominal 和 Ordinal 是補上最常發生的值。





資管系碩士在職專班一年級 ~35~ 第三組

SAS Enterprise Miner







第四章、 模式化/評估:以迴歸模式為例



經過整理的資料即可進入模式化階段及評估模式階段。Enterprise Miner 提供



許多建立模型的方法,每一種模型都有其最適合解決的問題,其中邏輯迴歸適合



用於解決目標變數是二元(Binary)或順序(Ordinal)變數的問題。在此以邏輯迴歸模



式為例試圖為前述問題建立模式。





壹、 建立迴歸模式



在這邊加入一個迴歸節點,並和取代節點連接起來:









然後選擇使用哪些變數做為輸入變數:









資管系碩士在職專班一年級 ~36~ 第三組

SAS Enterprise Miner





按下 Selection methods 的標籤,這邊可以設定選擇變數的方法:



 None:使用所有的變數。



 Backward:一開始使用所有變數,系統地拿掉與目標不相關的變數,直



到等於 Stay Significance Level 或停止條件為止。



 Forward:一開始不使用任何變數,系統地加入與目標相關的變數,直到



等於 Entry Significance Level 或停止條件為止。



 Stepwise:一開始不使用任何變數,逐步加入與目標相關的變數,加入變



數後會視狀況取代之前輸入但較不相關的變數。









關閉這個視窗後,將這個模式的名稱儲存為 StepReg:









資管系碩士在職專班一年級 ~37~ 第三組

SAS Enterprise Miner







貳、 評估迴歸模式



在這邊加入一個評估節點,並和迴歸節點連接起來:









在評估節點上按下右鍵,選擇 Run,則會出現:









按下 Yes,則會出現:









選擇 StepReg,並且在主選單中選擇 Tools 中的 Lift Chart,則會出現:









資管系碩士在職專班一年級 ~38~ 第三組

SAS Enterprise Miner









Baseline 代點整個母體的回應率,也就是如果全數寄出產品目錄的回應率。



Reg 代表迴歸模式以經過分類的客戶的各別累積回應率,客戶被分類成十個等



分,例如,被評比為前百分之十的客戶其回應率達到 30%,換言之若針對此百分



之十的客戶寄出產品目錄,其可能購買的比例高達 30%。



選擇 Non-Cumulative,則會出現:









由上圖可以更清楚了解各個評比等級的客戶的回應率,第一等級的客戶(前





資管系碩士在職專班一年級 ~39~ 第三組

SAS Enterprise Miner





百分之十)的回應率高達 30%,但第二等級的客戶(百分之十一至百分之二十)的回





應率已經劇降至接近 Baseline 了 到了第四等級的客戶的回應率更是掉到 Baseline



以下了。







第五章、 模式化/評估:以決策樹模式為例

Enterprise Miner 允許使用多個模式分析同一個問題,在此以決策樹模式為



例對前述問題進行模式化,最後的結果再與迴歸模式作一比較。



加入一個決策樹節點,並與資料切割節點連接起來:









在 Tree 節點上按下二次,會出現:









資管系碩士在職專班一年級 ~40~ 第三組

SAS Enterprise Miner





在這邊可以設定分割的方法,設定完成後,把對話盒關閉,按決策樹節點按下



右鍵,選擇 Run,則會出現:









在這個圖中,左上角可以看到總結的資訊,右上角是一個簡單的探索樹的視覺



化工具,每一個樹輪都代表節點距離樹根的分支數,左下角是嘗試每種葉數的資



訊,右下角是圖形的顯示。



選擇 Score 的標籤,並選擇 Variable Selection,則會出現:









資管系碩士在職專班一年級 ~41~ 第三組

SAS Enterprise Miner





在主選單中選擇 View 的 Tree,則會出現決策樹圖:









壹、 評估決策樹模式



在這邊可以再將決策樹節點與評估節點連接起來:









資管系碩士在職專班一年級 ~42~ 第三組

SAS Enterprise Miner









和評估迴歸模式的方法相同,我們可以顯示 Lift Chart,圖中可以明顯地看出



決策樹模式的回應率大致上都屈於迴歸模之下。









同樣的,我們選擇 Non-Cumulative 則會出現下圖,圖中由於各有領先,很難



判斷那種模式表現較好,完全取決於我們要挑選多少客戶名單,例如,我們想只



寄第一等級的客戶,迴歸模式是比較好的選擇,但若是我們想寄第一及第二等級



客戶,那麼決策樹模式會是比較好的選擇。









資管系碩士在職專班一年級 ~43~ 第三組

SAS Enterprise Miner









我們也可以選擇 Profit 來觀看,由於在此己將前面設定的產品目錄成本與平



均收入納入考量,所以可以看出迴歸模式預測的第一等級客戶產生的平均獲利為



$17,而決策樹模式預測的第一等級客戶產生的平均獲利是$11。









資管系碩士在職專班一年級 ~44~ 第三組

SAS Enterprise Miner





我們也可以選擇 ROI 來觀看,則會出現:









由上圖可以看出針對第一等級的客戶,迴歸模式有相當高的投資報酬率,也



就是顯示迴歸模式是比較有效率的模式。





貳、 建立一個 HTML 的報告



加入一個報告的節點,並與評估節點連接起來:









在報告節點上按下右鍵,選擇 Run,就可以建立一份 HTML 的報告,報告



中詳細記載整個 Data Mining 的過程所產生的資訊。





資管系碩士在職專班一年級 ~45~ 第三組

SAS Enterprise Miner







參、 建立程式碼



加入一個程式碼節點,可以讓建立好的模式轉成 Score Code,例如:將迴歸



模式轉成 Score Code:









在 Score 節點上按二下,會出現:









圖中即是其程式碼,Enterprise Miner 讓使用者可以把程式碼儲存起來,這樣



一來,我們就可以在有 Base SAS 的任何系統上去執行,不一定要在 Enterprise



Miner 內才能執行,這對於沒有安裝 Enterprise Miner 的系統是相當方便的。



接著,我們以此程式碼去執行 CUSTDET1 資料集,所得的結果如下:







資管系碩士在職專班一年級 ~46~ 第三組

SAS Enterprise Miner



Obs DINEBIN P_DINEBIN1 P_DINEBIN0





1 1 1.00000 0.00000

2 1 0.99932 0.00068

3 1 0.99839 0.00161

4 1 0.99419 0.00581

5 1 0.99280 0.00720

6 1 0.98637 0.01363

7 1 0.98637 0.01363

8 1 0.98315 0.01685

9 1 0.97920 0.02080

10 1 0.94142 0.05858

11 1 0.92837 0.07163

12 1 0.87181 0.12819

13 1 0.87181 0.12819

14 0 0.87181 0.12819

15 1 0.87181 0.12819

16 1 0.84581 0.15419

17 1 0.84581 0.15419

18 1 0.84581 0.15419

19 1 0.84581 0.15419

20 1 0.81565 0.18435

21 1 0.81565 0.18435

22 1 0.81565 0.18435

23 1 0.81565 0.18435

24 1 0.81565 0.18435



25 0 0.81565 0.18435



:



:



以上僅列出前 25 筆,除了兩筆預測錯誤以外其餘皆預測正確,而且愈往下



走的資料,預測錯誤的比例愈高,這與我們前面評估模式時所得到的結果相符。



經過上述執行的結果,我們可以很容易地從中選出適量的客戶名單來寄送產



品目錄(即選擇 P_DINEBIN1 較大者)。







資管系碩士在職專班一年級 ~47~ 第三組

SAS Enterprise Miner







第三篇、 資料探勘在保險業的應用探討



第一章、 前言



資料探勘(Data Mining)技術是透過選擇、分析、模組化等過程,將儲存在

資料庫的資料,挖掘出鮮為人知的訊息。在保險業中,資料探勘能夠幫助保險業

者獲得營業上的優勢。例如,資料庫中同樣是儲存客戶的基本資料,但透過資料

探勘的技術,保險業者能夠進一步瞭解到顧客購買保險的行為模式,以及幫助業

者了解顧客購買保險的真正動機,進而去規劃公司的資源需求,和減少因顧客詐

騙而遭逢的損失。本研究於下面章節中欲探討保險公司如何受益於資料探勘技

術,包括減少費用的支出、增加實質的收益、留住目前的顧客、拓展新的客源,

以及發展出新的保險產品等等。



伴隨資訊科技的進步,各行各業無不受到影響,保險業這些年經歷了資訊技

術的大躍進,硬體,軟體,和網路上的進步促使保險業者因資訊科技而節省下不

少的費用與時間。例如資料探勘和資料倉儲的技術,大大地減少了客戶在資料上

儲存、提取和處理的費用。以往保險業務上不容易處理的難題,例如一個常見的

問題是: 「保險公司如何能夠留住他們最好的顧客?」透過資料探勘技術,保險公

司可以瞭解到其所提供的服務或保險產品是否符合顧客的需求,此外,對於預測

顧客行為的能力亦能更加的精進。而資料探勘技術也提供了良好的使用者界面

( GUIs ),這使得保險業者更容易將此技術應用在經營策略上。



在保險業中,為了解決一些商業上的難題,資料探勘技術可透過改善傳統的

統計研究方法來尋求解答。 例如,由於保險業者需要那些容易且可解釋的模型以

及模型參數,因此業者可以利用統計中線性迴歸方法來解決這些問題。資料探勘

技術透過找出之前不存在但卻重要的變數、定義這些變數間的相互作用,以及找

出他們非線性的關係,利用這些結果來確實改善現有的模型結構。這個改善後的

模型可以更精準地去預測企業與顧客的關係,以及顧客的行為模式等等,進而帶

給保險業者更大的收益與費用支出的減少。換言之,對保險業的經營策略而言,

資料探勘技術可以帶來以下的效益:



A、估算保險費率。



B、拓展新客源。



C、留住原有的顧客。





資管系碩士在職專班一年級 ~48~ 第三組

SAS Enterprise Miner



D、開發新的產品。



E、建立可地區性探索的報告。



F、預防詐騙行為。



G、提供再投保服務



H、估計尚未支付的保險金。



I、協助調整者。



J、結合保險與行銷部門。







第二章、 資料探勘對保險業的效益





壹、 估算保險費率:



保費費率的建立與價格的訂定是每一位保險從業人員的要務之一。所謂保險

費率意指透過比率(Rates)的建立來估算保險公司在面對投保人時,其風險所能

承受的程度,亦即估算該保險產品何時會到達損益點,這可以充分反應投保人的

危險水準,通常風險越低,其保險費率也越低。



推估風險因子



保險費率之所以有差異的原因,在於風險因子對其所要求的保險項目中,所

造成「影響」的可能性有多大。例如,在汽車保險業中,投保人所投保的項目與

其居住地是有明確的相關性存在。通常業者可以利用這個相關性來規定汽車車主

的保費,亦即以投保人居住地的郵遞區號來訂定保險費率。如果一位三十歲的男

性投保了一個汽車險,他若是居住在城市地區,則他需要以較高的價格去投保汽

車險。同樣地,對於健康保險業者而言,吸煙者就必須支付較高的健康保險費,

許多保險業者認為該風險的標準即在於投保人是否有吸煙的習慣。



雖然影響保險費率的危險因子顯而易見,但事實上若缺乏一些精鍊的分析技

術,是很難從一些變數中發現這些因子的存在。目前資料探勘的技術能夠精確地

去評量這些風險因子的存在,因此,保險業者能夠將保險費率推算得更加精確,

當然這會進一步導致費用支出的減少以及獲利能力的耀眼表現。



增加預測的準確性





資管系碩士在職專班一年級 ~49~ 第三組

SAS Enterprise Miner





為了改善預測的精準性,我們可以將資料庫內資料加以分群(Group) 之後

再將分群的資料加以探索、分析以及模組化。針對不同的企業需求,將分群的原

則與風險因子、獲利需求,或投保人行為等考量結合在一起以利事後的分析。若

保險業者以這些群組為基礎,去與真正發生的事件進行精確的比對,則往往可以

將一些現象解釋得更加清楚。如此一來,保險業者可以更精確地去預測事件發生

的可能機率或是可能次數為何。



舉例來說,保險公司發現有一個「18 到 20 歲年紀的男性駕駛」群組,該群

組的肇事率遠低於其他同年齡層同性別的群組。到底保險公司該如何解讀這類的

差異呢?經過資料探勘後發現,這個肇事率相對較低的群組,他們多半駕駛較老

。因此,在駕駛的

舊的車子,而且他們會花比較多的時間去照顧他們的「老爺車」

時候,該群組的成員很有可能比其他群組的成員謹慎小心。





貳、 拓展新客源:



保險業另一個關注的議題在如何拓展新的客源。傳統方法是希望透過銷售部

門及保險經紀人的努力,去吸引新的顧客上門,但如果行銷的對象是由資料探勘

的結果來導引,則絕對可以使這些銷售單位達到事半功倍的效果。



將行銷策略鎖定在目標群組上



保險公司傳統的行銷方式很簡單,增加業績的方式就是將目標鎖定在所有知

道有這個保險的人身上。然而這個方式有很大的缺點,就是花了很大的精力去做

行銷,卻往往只獲得一點的回報。 換個角度看,銷售是變得越來越困難,且因為

目標是全體消費者,如此龐大的行銷預算更是導致獲利能力整個被稀釋掉。



增加「投資在行銷上」的回收



與傳統行銷方式相比較,資料探勘技術可重新定義行銷的焦點(Focus)。舉

例來說,重新定義的焦點可將投保人所能提供的價值最大化,亦即可以預測投保

「知道這保險產品

人長時間對該企業的貢獻度有多少。行銷的思考角度應該轉為:

的人當中,有誰是最有可能投保的?」針對這群目標客戶去做行銷,其投資報酬

率相對之下才能最大。



保險業者心中也有一些疑問,當收集到的資料越多,他們能夠藉此發展出更

好的模型嗎?努力行銷的目標能夠更一步的集中嗎?為了使焦點更加的集中,保

險從業人員可以利用先進的資料探勘技術,將目標客戶群組化(Group),這會使

得那些「有價值且會對此保險有興趣」的客戶歸為同一群組,之後針對此一群組

加強行銷,以達到企業利潤最大化目的。





資管系碩士在職專班一年級 ~50~ 第三組

SAS Enterprise Miner



例如,在一個「已經知道該保險」的群組中,再將那些有極可能會投保,及

對該保險公司永保忠誠的客戶更進一步的分組,接著集中行銷資源在此組潛在的

客戶身上,以期每單位行銷的付出能得到最大的回收。



將具有相同特質的顧客歸在同一群組,並針對這群潛在、貢獻度極佳的客戶

進行行銷,無疑地保險業者將會獲取更佳的顧客回應與銷售利益。更甚者,當完

成資料探勘的工作後,保險業者可在最佳的時間點,針對目標客戶提供最適當的

行銷措施與服務。



,最

因此,透過資料探勘技術,保險業者可將客戶一步步分組(如下圖所示)

後將目標客戶鎖定,集中企業資源在最有價值的客戶身上,以期展現最佳的成本

效益。





現存與潛在客戶



知道此保險產品的客戶









現存與潛在客戶



知道此保險產品的客戶



可能會投保的客戶





現存與潛在客戶

知道此保險產品的客戶

可能會投保的客戶

忠誠度極高的客戶









參、 留住原有的顧客:

提供保險「套餐」



「如果一個顧客在同一家保險公司內投保兩個項目,會延續保單的

經驗顯示:

。同樣的,一個顧客若在同一家保險公司投保三

比例大於只投保一個項目的顧客」

個項目,他轉換保險公司的機會遠低於投保三個項目以下的顧客。因此,藉由提





資管系碩士在職專班一年級 ~51~ 第三組

SAS Enterprise Miner



供保險「數量」上折扣的措施,或是提供多樣化保險服務給顧客,例如提供顧客

搭配房屋險、車險等可享保費折扣的優惠,則保險公司可藉由顧客投保項目的多

樣性,一方面大幅提昇顧客的忠誠度,另一方面亦可降低顧客轉換保險公司的可

能性。



以顧客層級(Level)來進行分析



想要成功地留住顧客,最好的方法是站在適當的層級去思考,亦即以顧客的

層級去思考問題,這遠比到處去收集顧客資料要有效的多。與其他行業不同的是,

保險業長期以來一直都是「靠顧客為生」,他們懂得透過分析顧客的資料來獲取利

益,保險業者最常思考一個問題:「什麼樣的保險產品是顧客最有可能接受的?」

資料倉儲與資料探勘不僅是一項突破性的資訊技術,他們更是提供了回答這類的

問題的關鍵能力。



利用資料探勘中「Association Analysis」技術,保險業者能更精確地將保

險產品及服務提供給適合的顧客。透過這項技術,保險業可達到以下的效益:



Ⅰ、將資料庫中的客戶資料進行分組。



Ⅱ、針對單一保險產品,對某一特定群組加以分析。例如,當一個新的保險產品

預計問世前,保險業者能夠針對特定的顧客群組進行深度的分析。



Ⅲ、針對多項保險產品,利用一些複合的變數,對多個顧客群組同時進行分析。

,對保

例如,對於這些能吸引顧客興趣的保險產品(如人壽險、車險、房險)

險業者而言是否真的有利可圖?



Ⅳ、針對顧客群組,提供長時間的市場分析。例如,投保車險的投保人有多少比

例在五年內會投保人壽險?



留住那些意圖轉換保險公司的顧客



透過資料庫的群組化以及一些進步的模組技術,保險業者可以更精確的鎖定

那些欲轉換至別家保險公司的顧客。保險公司可透過預測模組(Predictive

Model),定義出哪些投保人有可能轉換保險公司。另外推理性的覆歸模組

(Logistic Regression Model)為一種傳統的研究方法,他可以推論出哪些投保

人有強烈意願轉換投保公司,並將這些顧客歸為「目標群組」 。



清楚定義出此目標群組將有助於改善這些投保人轉換的意願。透過包括非線

性以及一些相互作用的方式,例如類神經網路模組(Neural Network Model)能

夠針對投保人轉換保險公司的可能性方面,產生更精確的分析資料。



除此之外,決策樹模組(Decision Tree Model)可以提供更精確的識別方式,

將這些顧客歸為同一群組內。定義目標群組準確性程度的能力越高,則對保險業



資管系碩士在職專班一年級 ~52~ 第三組

SAS Enterprise Miner



者而言,就能夠減少大量的費用,以及大幅提昇改善這些投保人意向轉變的可能

性。





肆、 開發新的產品:



市場會伴隨著時間改變,而產品也應該隨著顧客需求的轉換有所改變。為了

使保險如預期地獲得顧客的青睞,保險公司應對所提供的保險產品詳加審視,研

判該產品是否符合市場上需求的改變。換句話說,透過這類符合需求的產品,保

險公司方能從中獲取利益。



定義出有貢獻度的顧客群組



保險業著藉由定義出高貢獻度顧客群組,並對其優先提供行銷的資源,以提

高該公司的獲利能力。對保險業而言,可能存在著許多令人難以想像的消費著群

組。例如,倫敦的 Lloyd's 保險集團(勞依茲保險集團,為英國個人保險業者集

團之總稱)有一項產品是針對無實體的 「名譽 」

(Reputation) 做保險的, Lloyd's

的經紀人訂定出保險費率來為任何人或任何事物的名譽作投保。當中就有一個不

尋常例子,一位食品評論家和美食家 Egon Ronay,就透過 Lloyd's 投保了 250,

000 英鎊在他的「味蕾」上。



獲利能力最大的問題就在於保險業者是否能提供「正確」的保險產品或保險

費率,在「正確」的時間,提供給「正確」的顧客。舉例來說,最有利可圖的顧

客群組很有可能是風險最大的消費者,這時保險公司應要求較高的保險費率。 另

外,也有可能這個顧客群組會一次購買一堆保險。還有可能就是最有利可圖的顧

客群組,他們是一輩子的好顧客,且會隨著時間增加不同保險產品的購買。保險

業者針對不同的顧客群組,應提供不同的分析方式,以衡量這些顧客的期望報酬

率為何。



針對市場變化做調整



為了針對市場的變化作調整,保險業者需要知道哪種類型的新產品將是有利

可圖的。例如, 保險從業人員可以專門針對搭飛機旅遊的人設計一種全新保單。

行銷部門亦可發展出一套服務顧客的模式,但是,這些努力一定會獲得同等值的

回報嗎?答案也許是否定的,畢竟要滿足大部分人的需求幾乎是不可能的事情。



更清楚地說,這問題就在於到底什麼樣的產品或是保單能夠最貼近客戶的需

求?資料探勘技術能夠將保險公司 ,套用在目前所碰到

「解決另一個問題的答案」

的企業問題上。在分析的過程中,資料探勘技術將會找出答案,這些答案將可解

、 ,以及「新產品的獲利能力」等

決「是否符合顧客需求」「新產品如何打入市場」





資管系碩士在職專班一年級 ~53~ 第三組

SAS Enterprise Miner



問題。



舉例來說,這些分析可能會問到:



Ⅰ、針對不同的顧客族群,將不同的新保險產品加以分析後,到底哪些新產

品是有利可圖的?



Ⅱ、哪些新的保險產品有廣大的市場?



Ⅲ、哪些新的保險產品最容易進入市場?



如今,保險公司透過資料探勘技術,能將他們所有的資訊加以利用,以期從

中發展出新的保險產品或是行銷方式。



將新的保險產品推到市場上



一旦新的保險產品被視為是有利可圖的,則下一步就得將這產品推到市場上

去。這項新產品既然被保險公司寄予重望,當然期望他能創造利潤、吸引顧客注



意,以及讓顧客迅速投保。資料探勘技術可以利用在「顧客的群組化」「將顧客



行為模組化」「計算可能的收益」,以及「比較這項行動的各種可能策略」上。





伍、 建立可地區性探索的報告



保險業者常常會擴大他們的業務範圍以及地區的資料庫。之所以會擴大資料

的範圍,往往是因為一些現實狀況的考量,例如潛在顧客的地理位置與目前資料

庫地區劃分方式不符,這對費率訂定的模組而言是一項重要的風險因素。舉例來

說,駕駛所在的地區與發生意外、汽車被偷竊的機率息息相關。不同的風險因子



會導致不同的保險費率 這是因為這與要求理賠的可能性與預期理賠的總數相關。



在資料倉儲中會包含完整的地區性資料,這對於保險業者而言是十分有利

。保險業的分析人員可以善用

的,可以幫助他們建立起數位地圖(Digital Maps)

這些資料,並藉由這些資料評估以及監督各個地理區域。這類的地區性資料藉由

處理、對應等過程,不僅僅只是要將地區性的資料展現出來而已,更重要的目的

是將這類資料應用在保險費率的訂定,以及其他的分析模組上。假設一個地區的

資料被詳盡地探索過,透過「保險費率的調整」或是「再投保」等措施,則該地

區的風險值便會顯著降低。









資管系碩士在職專班一年級 ~54~ 第三組

SAS Enterprise Miner







陸、 預防詐騙行為:



很明顯地,保險公司視「詐騙行為」為當下一個十分嚴重的問題。資訊科技

的進步,將可清楚的定義並減緩此類事件的發生,而詐騙事件的減少又是保險公

司成功的關鍵要素之一。一般說來,資料探勘的專案能針對投保人「詐騙行為」

提供相當完善的分析,而保險業者在這方面的投資亦可很快的回收。



良好的詐騙行為預防措施將可導致成本的降低



投保人的詐騙行為是顯而易見的。舉例來說,美國每年在健康保險上需支出

約 1 Trillion 美金,在這麼大的支出裡面,估計每年超過 100 Billion 美金的支

出是浪費在「詐騙行為」上(Goldmann 2000)。如果把故意詐騙所支出的保險金

兩千億算進去,則「保險詐騙產業」可以併入全美五百大企業的第二十五名。將

詐騙行為問題謹慎處理,這意味著保險公司能將詐騙事件機會降低,並可使業者

提供適當的產品定價,使該產品更具競爭力,進而減少企業的開銷,以及保有長

期的獲利能力。



詐騙行為是有固定模式抑或只是隨性的?



典型的詐騙行為往往不會是投保額度大的保險,這是因為詐騙者瞭解到這類

的保單,其審核機制會比較嚴謹,因此這些詐騙者會使用更謹慎的方法去詐騙保

險金。因此,在搜尋詐騙性的行為時,分析者必須去尋找出那些不尋常的事件、

異常狀況,或者是資料中較突出的部分。 有一些分析的技術專門負責找出這些細

微的差異性,例如購物籃分析 ,叢集分析(Cluster Analysis)

(Market Basket) ,

以及預測模組(Predictive Modeling)。



藉由期望與現實的比較,較大的偏差行為比較能夠被挖掘出來。例如據耳鼻

喉大夫表示 「支氣管鏡」 ,

在醫療上是有效的 而紐約的 Empire Blue Cross and Blue

Shield 利用資料庫來比對「支氣管鏡」在耳鼻喉科中使用的數量。最新報告指出

把這些使用數量與四百一十萬的投保人數做比較,有個耳鼻喉大夫所使用支氣管

鏡數量是遠超過平均值的,而且進一步的研究更指出這位內科醫生所提出的醫療

帳單是錯誤的。結果,這位醫生被判除十個月的徒刑,並禁止他再從事醫療的行

為,另外還需賠償五十八萬六千美元。Empire Blue Cross and Blue Shield 1997

年時估計在利用資料探勘技術防止詐騙行為方面,已經為他省下了四百萬美金的

支出。









資管系碩士在職專班一年級 ~55~ 第三組

SAS Enterprise Miner







柒、 提供再投保(Reinsurance)服務



當「再投保」的情況發生時,這代表投保人所支付的保險金額與其可能產生

的風險,均由多家保險公司一起分擔。透過風險的分散,單一的保險公司不會因

為需承擔的投保人風險過大,而導致無法承保的情形。雖然再投保可為保險公司

減少承擔大量風險的危機,但是相對的,再投保亦會導致保險公司獲利的減少。

因此,保險公司的目標是希望找出再投保的適當水準為何。畢竟,再投保的比例

太少,這會導致保險公司暴露在高風險的危機當中;再投保的比例過高,保險公

司相對的所能獲得的收益就會銳減。



此外,保險公司極需瞭解再投保「風險」與「收益」之間是否能夠平衡。這

是因為保險公司需要考量他所能忍受的風險程度為何,亦即,再投保的合約內容

絕對需要符合保險公司的期待。



傳統分析模式的限制



事實上,當再投保期間所評估的索賠風險很小時,傳統模式會導致保險公司



的策略傾向「再投保」 例如,對於大部分的保險而言,分配的模式會明顯的向

左偏移。如果一個保險公司為企業投保了大量的保險,一般他所期望的整體報酬

是可能是所有單一保單報酬的總和。



換句話說,如果其他條件不變,則分配尾部的機率可能更顯重要。在這樣的

情況下,信賴區間會比承保人所估計的要低,而這個信賴區間所縮小的範圍,這

是導致保險公司誤認為應該採取再投保策略的首要動機。而在這樣的情況下,保

險公司經常因為再投保的保單而遭受到損失。



資料探勘在「再投保」上的效益



資料探勘技術一般會使用在資料分組上面,以期分組的精確度更加準確。在

「再投保」發生的情況下,資料探勘技術會依據另外一個保單群組的經驗,將此

再投保模組化。接著面對群組更細微的分割,分析者會期望此模組的結果會產生

更高的信心水準。因此,再投保策略的選擇應該基於其他有風險經驗的模型,而

非傳統統計機率分配的尾部。



理賠分配(Claims Distribution)的探究



傳統上,保險業者可能會以對數常態分配(Log Normal Distribution)作為

基本的理賠分配(Loss Distribution)原則。但是在資料並無適當的儲存、出現

一 個 數 量 變 化 極 大 , 或 是 極 端 數 據 出 現 的 情 況 時 , Pareto 分 配 ( Pareto

Distribution)可能可以提供更適當的表示方法。更進一步說,對保險業者或是



資管系碩士在職專班一年級 ~56~ 第三組

SAS Enterprise Miner



再投保業者而言,在訂定保險費率時,Pareto 分配所訂出的費率會比指數常態分

配訂出的費率要昂貴,這是因為他們對風險看法不一致的關係。這從中也說明了

保險公司在訂定保險費率的同時,為求損失的風險能忠實的表達,工具的選擇與

評估亦是一項重要的工作。



模組(Model)的角色



模組可透過以往理賠的歷史資料,來解釋目前保單的風險。當這個模組建立

起來後,代表著過往的經驗可以被用來定義目前這些高風險的保單,並判斷出哪

些保單適合以「再投保」方式投保。



模組可以使預測的準確性大幅提高。因此,除非真正必要,否則企業不應該

透過「再投保」的方式將利潤稀釋掉。另外,雖然保險公司可以不透過「再投保」

的方式來將求償損失降低,但事實上,這些有風險的保單仍是應該「再投保」的。

面對以上這兩個問題,如果保險業者可以避免,則一方面可以增加他們的利潤,

另一方面可以降低他們的損失。



當預測模組的技術被應用的時候,面對有風險的保單,保險業者可以準確地

預估其可能的損失分配為何。因此,「再投保」與否的問題是可以被解決的。「再

投保」的保單多半為容易被求償的保單,雖然利潤會被稀釋,但必要時將風險與

其他保險業者共同分擔亦是不錯的選擇。





捌、 估計尚未支付的保險金:



保險公司保險金的給付通常會延誤一些時程。例如,在需提供理賠責任的保

險中,很有可能直到理賠申請出現多年後,才能釐清到底應該理賠至何種程度。

以老闆必須連帶負保險責任的案子來說,甚至還有可能發生連理賠的申請都遭延

誤 的 事 件 。 這 類 的 耽 擱 可 能 會 導 致 理 賠 非 常 態 性 的 分 配 ( Non-Normal

,亦即分配會發生不均,且隨著時間與企業層級不同,其分配的尾

Distribution)

巴會拖得越長。



保險公司的業務必須延續,且而對於理賠要求的估計,往往需至「理賠的金

額到達一合理水準」為止。 理賠要求的估計應達到下面幾點要求:



Ⅰ、對理賠的要求嚴格把關。



Ⅱ、盡可能在理賠前有一定數量的時間。



Ⅲ、注意財務變數的影響,例如通貨膨脹和利率變化的影響。



Ⅳ、注意社會變化的影響。 例如,由於社會上觀念的改變,對吸煙者漸漸的



資管系碩士在職專班一年級 ~57~ 第三組

SAS Enterprise Miner



排斥,這對於煙草工業而言產生了莫大地影響。



預測目前應理賠的數目



對於保險業者所提供的理賠而言,主要是建立在對保險理賠的估計之上。理

賠金額總數的精確性是十分重要的,這是因為這些資金如果被應用在理賠上面,

則它就不能對長期、或高附加價值的資產進行投資。如果保險公司所能提供的理

賠準備金太少,這表示這個保險公司很有可能財務上有問題。但相反地,如果保

險公司的理賠準備金過多,則代表著這家保險公司很可能無利可圖。因此,若在

這方面估計越準確,則表示有更多的機會獲利。



資料探勘技術能夠用來建立理賠要求的分配與過去理賠資料的模型。所蒐集

到的資料將會被分析以及模組化,當這個預測的模型被建立好後,目前這些理賠

的要求就立刻會獲得實現。保險金理賠要求的估算,可以讓許多保險業者明白到

底該準備多少的理賠準備金。



更新預測的模型



理賠金額的預估,主要前提在於假設投保人未來的行為會與以往雷同。如果

此預測模組沒有進行更新,則隨著時間的流逝,業者會發現之前的假設會與更古

老的狀況相符,而與現在發生脫節現象。然而,當資料的可用性越高時,資料探

勘的預測模組越易被更新,這表示我們可以假設未來會與近代的狀況相似。





玖、 協助調整者:



保險費率的改變需要透過調整者(Regulators)的審視。然而,這群被雇用

的分析人員,都是利用高度非線性模型(Non-Linear Model)或其他一些不可思

議的分析方法來進行審視。想要讓一般群眾瞭解這些模型或是所產生的結果,顯

然是件極富挑戰之事。不過很幸運的是,透過一些如人類語言規則或文字化敘述

等的明確表示法,這些高度複雜的分析法可以使一般大眾容易地瞭解。舉例來說,

藉由更清楚的表示法,例如以可閱讀式文件(Readable Text)為表達的決策樹模

,這些分析可以協助保險產業的調整者,以統計為基礎,判斷保

式(Tree Model)

險費率改變或是其他保險政策改變時的因應之道。





壹拾、 結合保險與行銷部門:



將保險部門與行銷部門相結合,將可為保險公司帶來可觀的效益。傳統上,

保險上或是費率訂定上的問題都是由目標市場而來,而行銷部門與保險部門的作



資管系碩士在職專班一年級 ~58~ 第三組

SAS Enterprise Miner



業,傳統上是相互獨立的。但經研究後發現事實卻不然,它們之間的業務應該可

說是息息相關的。



如果管理階層能瞭解這種相關性,則兩者業務就可以相互結合,然而這種結

合就可藉由資料探勘的技術予以達成。行銷部門可以利用保險部門整理的資料進

行銷售,而保險部門則可利用行銷部門客戶的資料加以研究分析。







第三章、 資料探勘專案的實行分析



許多權威性的書報雜誌已將資料探勘專案的實施方法定義出一套最好的方

法,尤其是一些資訊專家提供了許多值得參考的意見。此外,在許多著作中都有

提到一個重要的觀念,就是實施一個資料探勘專案時,業者必須考慮到真實的世

界,亦即實施時會遭遇到許多實務上的挑戰。成立資料中心(Data-Center)是一

種解決現實問題的方法,尤其它可以有效依功能作以下的分類:



A、評估資料。



B、儲存資料。



C、分析資料。



D、報告分析的結果。



E、將分析結果展現在企業優勢上。





壹、 評估資料(Accessing the Data)



資料的可信度與正確性是進行資料探勘的先決條件。完整的資料評估策略應

該包括下面這些關鍵元素:



Ⅰ、評估所有形式的來源資料。



Ⅱ、評估位於所有平台上的來源資料。



Ⅲ、透過安全程序來進行來源資料的保存。



Ⅳ、使用者介面應盡量一致且容易使用,並提供彈性以應付特別的需求,不要每

一種資料類型都需不同的方法來處理。



Ⅴ、盡量就現有的技術作整合,這遠比要使用者去熟悉新的軟、硬體要好的多。





資管系碩士在職專班一年級 ~59~ 第三組

SAS Enterprise Miner



在資料評估策略方面,如果能透過資料倉儲(Data Warehouse)的建置,則

可以確實幫助上述關鍵元素的完成。





貳、 儲存資料(Warehousing the Data)



資料倉儲(Data Warehouse)可以幫助保險業者更容易地存取資料,這些資

料可能儲存在不同的表格(Table)中,甚至橫跨多種平台。藉由資料倉儲,保險

從業人員可以將不同資料予以整合,以應用在某一特定用途上。然而,在進行資

料分析之前,這些原始資料很有可能是錯誤的,甚至裡面包含了誤導性的訊息,

這會造成問題更加的複雜。有種解決問提的方式是將這些有錯誤的資料予以刪

除,但是這種方式亦會造成新的問題,畢竟刪除的角度很有可能包含自身「偏見」

的因子,且這些資料也有可能在其他議題方面,提供重要的訊息或價值。保險業

者利用資料探勘的技術,在清理資料方面,可以輕鬆的重新定義變數名稱、找出

錯誤的訊息、定義錯誤、修正錯誤,以及偵測出不實的資料等等。



好的資料倉儲工具能夠大大地提昇資料探勘團隊的生產力。最重要的是可以

使分析的結果快速產生,且成本會大幅降低。



SAS/Warehouse Administrator 軟體可為資料倉儲管理方面提供一個視覺化

的環境。透過 Warehouse Administrator 的使用,保險業者可以定義複雜的資料,

這包括了定義資料的來源、資料的儲存、程式庫,以及其他資料倉儲的資源。此

時 Warehouse Administrator 可以利用這些複雜的資料,進一步產生或者重新編

譯出新的程式碼,來將這些資料擷取、轉換,以及載入至資料倉儲或是資料市集

(Data Marts)中。





參、 利用 SEMMA 方法論來分析資料



即使將資料整合後應用在某一特定領域,但資料間高度複雜的關係,沒辦法

很容易地藉由資料的觀察或是基本的統計分析來來加以瞭解。而實際的模式很可

能只是隨機的出現,或是根本未被察覺到。附帶一提的,線性模型並沒有辦法去

描述非線性的關係。現代資料探勘技術能夠透過下面的方法來克服這些限制:



A、透過適當的使用者界面所展現出的資料,可以將變數間的關係明白表示出

來。



B、利用變數選擇方法論(Variable Selection Methodology)來定義模組內

裡最重要的變數。





資管系碩士在職專班一年級 ~60~ 第三組

SAS Enterprise Miner



C、利用如線性模型(Linear Models)的進階技術來相互影響。



D、利用非線性的類神經網路(Nonlinear Neural Networks)以及決策樹模

式(Tree Models)。



E、以獲利最大化及成本最小化為基本訴求,利用存取工具來協助分析師找出

最適的模組。



藉由嚴謹的資料探勘規則,在存取時資料可利用使用者介面(GUI)來展現。

例如,子集合的資料能夠顯示出銷售對象的重要關係。 將資料分解,企業可藉由

分解的資料,發現公司作業成本上的異常現象。專研分解後的資料子集合,亦可

找出企業錯過獲利的機會。



資料探勘專案可以對資料進行分析,此專案藉由選擇、探索,以及模組化等

動作,大量挖掘出隱藏在資訊中對企業競爭優勢有益的訊息。一個問題的答案經

常會導引出新的且更專門的問題。因此,資料探勘是一個反覆不斷的過程,且資

料探勘方法論應該將這個反覆不斷的過程與勘探的方法合而為一。



為了提供一個資料探勘分析法以供遵循,此分析法將是一個有彈性且具預測

功能的,SAS 發展出一套資料探勘分析法,將此分析法每個字頭拆開就稱為

「SEMMA」。這五個字母代表了資料探勘分析的五個步驟。這五個步驟是資料探勘

專案內容的一部份,包括了:



1、抽樣(SAMPLE)。

2、探索(EXPLORE)。

3、變換(MODIFY)。

4、模式(MODEL)。

5、評估(ASSESS)。



下圖說明了資料探勘專案的任務,以及指出了此任務如何藉由 SEMMA 的五個

步驟來完成。









資管系碩士在職專班一年級 ~61~ 第三組

SAS Enterprise Miner









Sample Sampling

Yes/No







Explore

Data Clustering

Visualization Factor

Correspondence



Modify

Variable Selection Data

Creation Transformation









Model

Neural Tree-Based Logistic Other Stat

Networks Models Models Models









Assess Model

Assessment





從抽樣開始,SEMMA 分析週期就指引著保險分析師利用視覺化的統計工具來探索

資料、轉換資料至預測用的變數中、將變數模組化以利預測結果,以及與新資料

一起測試來評估此模組。因此,SEMMA 分析週期為一種進步的科學方法。





1、抽樣(SAMPLE)



資料探勘分析方法論的第一步就是從資料倉儲中進行資料的抽樣,並建立一

個或多個資料表格(Table)。抽樣的數量要大到足以代表母體,但同時亦得顧及

其效率,因此抽樣數量也不能過於龐大。研究指出,透過可靠、有代表性的樣本,

對企業而言將是最經濟的一種分析方法。從這些樣本中挖掘遠比從整個母體中挖

掘要節省許多時間,且一樣能挖掘出企業所需的訊息。



所謂有代表性的樣本,意指在整體中經常出現且為可追蹤的。如果一項物件





資管系碩士在職專班一年級 ~62~ 第三組

SAS Enterprise Miner



太過微小以致於他無法以樣本形式展現,但他又是極其重要的,此時我們可以利

用概要模式(Summary Methods)的方式將其顯現出來。





2、探索(EXPLORE)



在抽樣完之後,接下來的步驟是去探索其內部或整體所表達的訊息。探索能

將「發現」(Discovery)的過程重新定義。假若視覺化的探索無法清楚瞭解未來

的趨勢,則分析師可以藉由一些工具,如要素分析(Factor Analysis)、協調分

析(Correspondence Analysis),以及叢集(Clustering)等方式來加強探索,

以找出隱藏在訊息後面真正的意義。例如,新生代的父母多半對人壽保險有興趣,

但往往他們希望用最少的成本換取最多人壽保險。這類的群組直接用郵寄的方式

聯絡即可,因為他們只在乎壽險的價格。





3、變換(MODIFY)



變換資料意味著去建立、選擇,以及轉換一個或多個變數,以使模組選擇的

過程中,方向能夠確定,並使資料能夠明確而且一致。



根據在探索過程中的發現,並藉由兩個先前變數的比較,保險分析師可能需

要修改資料以找出隱含在內的訊息,例如由顧客群組化的資訊,或是找出新的變

數例如保險費率。保險分析師亦需找尋外層資訊,並盡量減少變數的數量至一個

最重要的變數為止。此外,由於資料探勘是屬於一種動態且反覆的過程,因此當

早期曾經探勘過的資料發生異動時,業者仍須去修改資料以符合實際狀況。









4、模式(MODEL)



利用資料探勘軟體來建立一個資料模式(Data Model),此模式可自動找尋

整合後的資料,這些資料對預測結果有很大的助益。



在資料被評估(Access)以及變換(Modify)之後,保險分析師可以利用資

料模組化技術來建立模組,這些模組可用來解釋目前平台上的資料。資料倉儲的

模組化技術包括了類神經網路、決策樹模式、邏輯模式,以及其他統計模式,例

如時間數列分析與倖存分析(Survival Analysis)。



每一種形式的模式都有其優點,並且各自適合某種型態的資料探勘情境。舉

例來說,類神經網路在結合資訊方面就相當擅長。



資管系碩士在職專班一年級 ~63~ 第三組

SAS Enterprise Miner





5、評估(ASSESS)



資料探勘的下一個步驟是評估資料(Access Data),亦即評估現有模組的表

現能力。模組評估另一種解釋就是在抽樣階段就去執行評估的工作。如果此模組

是正確無誤的,則它應適用於此預定的樣本中,亦即可以利用此樣本去建立該模

組。



同樣的,保險業分析人員可以針對已知的資料來評估模組的正確性。例如,

如果知道檔案中的顧客有極高的續保率,而模組亦預測會續保,則保險分析師應

檢驗此模型是否能正確地篩選這些顧客。此外,在模型實際應用方面,例如以郵

寄方式在該地區進行宣傳,應評估並證明此行銷措施的有效性。



雖然評估資料模型是 SEMMA 方法論中的最後的步驟,然而評估資料模型的

有效用卻不是 SEMMA 實際執行中的最後步驟,這是因為 SEMMA 是一種循環不已

的過程。在資料探勘專案中,這些步驟的實行通常是週而復始的。









肆、 報告分析的結果



企業報告的能力取決於是否使用者能透過資料倉儲或其他的資料來源,建立

並發表能展現出有用資料的報告。企業報告系統的特質包括了:



Ⅰ、完整的系統整合。



Ⅱ、簡化資料倉儲的報告。



Ⅲ、簡單的使用者介面。



Ⅳ、報告快速散播的能力



Ⅴ、在網際網路上展現的能力



現代化報告的工具例如 SAS 所出的「Enterprise Miner」,此工具能幫助企

業的用戶利用儲存在資料倉儲內的資料,建立、發佈並列印出標準格式的報告。

透過簡單的使用者介面,使用者可以輕易的在濟濟的作業平台上,建立各式的報

告圖表文集。









資管系碩士在職專班一年級 ~64~ 第三組

SAS Enterprise Miner







伍、 將分析結果展現在企業優勢上



因此,對保險業而言,資料探勘技術可以提供策略性的資訊、線上即時的分



析,以及產生實用的報表。保險業的決策者可以利用資料探勘的結果來解決一些



「我們公司的行銷策略能夠創造出利潤嗎?」藉由探索資料探

重要的問題,例如:



勘的結果,保險業可以一方面為長期的成長做好準備,另一方面可以顯著提昇他



們長期獲利的機會。









第四章、 結論



提昇保險業者競爭優勢的關鍵就在於顧客的資料庫,而這個資料庫必須被妥



善的管理,並透過分析使其成為企業中最有價值的資產。保險業者可以藉由資料



探勘技術來挖掘出隱藏在顧客資料庫中的價值,而資料探勘利 用預測模組



(Predictive Modeling)、資料庫分組(Database Segmentation)、購物籃分析



(MarketBasket Analysis)等技術來迅速且精確地回答保險業者亟需想知道答案



的問題。因此,對保險業者而言,資料探勘技術可以幫助他們開發新的保險產品



與訂定有用的行銷策略,更重要的是,資料探勘可以將業者豐富的資訊轉化為準



確的預測能力、穩定的企業營運能力。









資管系碩士在職專班一年級 ~65~ 第三組

SAS Enterprise Miner









第四篇、 參考文獻



[1]. Finding the Solution to Data Mining : Exploring the

Features and Components of Enterprise Miner , Release

4.1 from SAS.





[2]. Getting Started with Enterprise Miner (Tutorial) .

(http://www.sas.com/service/tutorials/v8/em/mainmenu.htm )





[3]. Data Mining in the Insurance Industry : Solving Business

Problems using SAS Enterprise Miner Software.





[4]. Data Mining and the Case for Sampling : Solving Business

Problems Using SAS Enterprise Miner Software.









資管系碩士在職專班一年級 ~66~ 第三組


Related docs
Other docs by HC111204151650
Sheet1
Views: 32  |  Downloads: 0
CALIFORNIA STATE PALMA CHAMPIONSHIP
Views: 0  |  Downloads: 0
Function and Their Graphs (Ch
Views: 8  |  Downloads: 0
VISN 22 Drug Monograph Template
Views: 0  |  Downloads: 0
Urban Farmers Market Program
Views: 2  |  Downloads: 0
Planning and Development Committee
Views: 0  |  Downloads: 0
upu coord.
Views: 299  |  Downloads: 0
PROVINCE OF NEW BRUNSWICK
Views: 8  |  Downloads: 0
FDIC Law, Regulations, Related Acts
Views: 1  |  Downloads: 0
310111
Views: 34  |  Downloads: 0
By registering with docstoc.com you agree to our
privacy policy

You are almost ready to download!

You are almost ready to download!