十、變方分析 (Analysis of Variance)
劉仁沛 教授 國立台灣大學農藝學研究所生物統計組 國家衛生研究院生物統計與生物資訊組 jpliu@ntu.edu.tw
變方分析(Analysis of Variance)
1. 2.
F分配(F-Distribution) 變異數同質性之檢定(Homogeneity of Variance)
3.
4. 5.
單項變方分析(One-way Analysis of Variance)
完全隨機設計(Completely Randomized Design) 容許區間(Tolerance Interval)
例:痛風病人與正常人血中尿酸量之變異
樣品數 n1=10 n2=8 平均 變方
痛風病人 正常人
x2 5.795
x1 9.17
s12 10.6001 2 s2 1.145
痛風病人尿酸量之變異是否大於正常人的變異
H 0 : H a :
2 1 2 1
2 2 2 2
例:一個試驗比較三種飼料對天竺鼠體重 之影響
12隻天竺鼠隨機指派食用三種飼料(4隻飼料A;4隻飼 料B;4之飼料C),兩星期後體重增加之觀測值(g) 飼料 A B C 1 7 4 10 2 3 10 14 3 10 6 9 4 4 8 11
三種飼料對天竺鼠增重是否不同
三個族群平均值的比較
H 0 : 1 2 3 H a : i i
F分佈
樣品變方(偏差平方和)之分佈→卡方分佈 兩個獨立樣品變方(或平方和)之分佈 兩個獨立卡方變數之比的分佈 →F分佈(F-Distribution) F分佈為紀念R.A. Fisher 而命名, 故稱費氏F分佈
F分佈
F為兩個卡方變數比之分佈 F有兩個自由度
– – –
分子卡方→分子自由度 分母卡方→分母自由度 P.478-482,附表7 t自由度為n1-1
t為標準常態變數除以卡方平方根比之變數
–
t2為分子自由度為1,分母自由度為n1-1之F分佈 F之倒數1/F亦為F分佈:分子與分母自由度互換
H0 :
2 1
1 2
2 N 2 1
2 2
V .S . H a :
2 1
變方
s12
2 s2
2 2
敘述統計量 樣品數 平均 n1 x1
n2
2 2
x2
令S max{ S , S } ; 自由度 df N S min{ S , S } ; 自由度 df D
2 D 2 1 2 2
決策方法:
2 2 F S N S D F ,df N ,df D
痛風病人與正常人尿酸量之變異
樣品數 n1=10 n2=8 平均 變方
痛風病人 正常人
x2 5.795
x1 9.17
s12 10.6001 2 s2 1.145
2 S N max{10.6001,1.145} 10.6001; df N 10 1 9 2 S D min{10.6001,1.145}; df D 8 1 7
F 10.6001 1.145 9.25 F0.05,9,7 3.6767
拒絕H0痛瘋病人尿酸之變異大於正常人尿酸之變異
例:人工與儀器測定成年人血液中尿酸量 (mg/ml)
人工 n1=8 儀器 n2=8 4.5 6 5.6 6.8 6.5 7.6 7.5 8 8.6 8.5 9.8 10.7 12 9 9.5 9.8
S12 6.7457 df1 8 1 7
2 S 2 1.7371 df1 8 1 7 2 S N max{6.7457,1.7371} 6.7457 ; df N 7
2 S D min{6.7457,1.7371} 1.7371; df D 7
F 6.9457 1.7371 3.8833 F0.05,7,7 3.7870 拒絕H 0
人工測定成人血液中尿酸的變異>儀器測定法的變異
飼料與天竺鼠2週增重(g)
飼料 A B 1 7 4 2 3 10 3 10 6 4 4 8 平均 組內偏差平方和 變方 6 7 30 20 10 6.67
C
10 14
9
11 11 總平均=8
14
4.67
飼料稱為處理組或處理(Treatment) 天竺鼠稱為試驗單位(Experimental Unit)
影響天竺鼠2週增重變異的原因(變因)
已知變因(Known Variation)
– 飼料品牌
未知變因(Unknown Variation)
– 試驗誤差(Experimental
– 其他所有可能的原因
Error)
天竺鼠起始體重 測量誤差 試驗環境 …
單項變方分析(One-way Analysis of Variance)
飼料A第一號天竺鼠的兩週增重 兩週增重-總平均=(飼料A平均-總平均) +(兩週增重-飼料A平均) 飼料A平均-總平均=處理A與總平均之偏差 =組間變異 兩週增重-飼料A平均=飼料A第一號天竺鼠與 處理A之偏差 =處理A組內變異
7 8 6 8 7 6 3 8 6 8 3 6 10 8 6 8 10 6 4 8 6 8 4 6 4 8 7 8 4 7 10 8 7 8 10 7 6 8 7 8 6 7 8 8 7 8 8 7 10 8 11 8 10 11 14 8 11 8 14 11 9 8 11 8 9 11 11 8 11 8 11 11
(兩週增重-總平均)2和 (-1)2+ (-5)2+ 22+ (-4)2+ (-4)2+ 22+ (-2)2+ 02+ 22+ 62+ 12+ 32=120 (飼料平均-總平均)2和 (-2)2+ (-2)2+ (-2)2+ (-2)2+ (-1)2+ (-1)2+ (-1)2+ (1)2+ 32+ 32+ 32+ 32=56 (兩週增重-飼料平均)2和 12+ (-3)2+ 42+ (-2)2+ (-3)2+ 32+ (-1)2+ (1)2+ (-1)2+ 32+ (-2)2+ 02=64 (兩週增重-總平均)2和=(飼料平均-總平均)2和+(兩週增 重-飼料平均)2和 120 = 56 + 64 總平方和=組間平方和+誤差平方和 =處理平方和+誤差平方和
資料結構
處理 1 2 : i : m 總平均 觀測值 x11,x12,…,x1n1 x11,x12,…,x1n2 : x11,x12,…,x1ni : x11,x12,…,x1nm 處理平均 樣品數 n1 n2 : ni : nm
N ni
i 1 m
x1. x2.
:
xi.
:
xm.
x..
1 ni
1 N
處理平均: xi. 總平均: 總樣品數:
xij xi . ni xij x.. N
i 1 j 1
m i 1
ni
x..
j 1 m ni
N ni
xij x.. ( xi. x.. ) ( xij xi. )
觀測值 - 總平均 (處理平均 - 總平均) (觀測值 - 處理平均)
總變異 組間變異 組內變異
( xij x.. ) 2 ( xi. x.. ) 2 ( xij xi. ) 2
i 1 j 1 i 1 j 1 i 1 j 1 m ni m ni m ni
總平方和 組間平方和 組內平均和 總平方和 已知變因平方和 未知變因平方和 總平方和 處理平方和 誤差平方和
SST SSt SSE
處 樣 處理平均 理 品 數 1 2 n1 n2
組內平方和
自由 度
2
組內變方
x1. x2.
:
SS1 x1 j x1.
n1 j 1 n2
j 1
n1 1
2
S12 SS1 (n1 1)
2 S2 SS2 (n2 1)
SS2 x2 j x2.
n2 1
:
: : i ni
:
SSi xij xi.
j 1 ni 2
:
Si2 SSi (ni 1)
xi.
:
ni 1
:
: : m nm
:
SSm xmj xm.
j 1 nm 2
:
xm.
2 nm 1 Sm SSm (nm 1)
總平方和
SST xij x..
m ni i 1 j 1
2
x..2 2 xij N i 1 j 1
m
ni
總(平方和)自由度
dfT N 1(總樣品數 1)
處理平方和
m ni 2 m 2 i 1 j 1 i 1
SSt xi. x.. ni xi. x..
x..2 2 ni xi. N i 1
m
處理(平方和)自由度
dft m 1(處理數 1)
誤差平方和 n m
n1
SSE ( xij xi. ) 2
i
i 1 j 1
( x1 j x1. ) 2 ( x2 j x2. ) 2
j 1 ni j 1
n2
( xij xi. ) 2 ( xmj xm. ) 2
j 1 j 1
nm
SS1 SS 2 SSi SS m
誤差自由度
m
df E n1 1 n2 1 ni 1 nm 1 ni 1 N m N 1 m 1
i 1
總自由度 處理自由度
總平方和=處理平方和+誤差平方和 總自由度=處理自由度+誤差自由度 SST=SSt+SSE
x
m ni i 1 j 1
ij x.. ni xi . x.. xij xi . 2 m 2 m ni i 1 i 1 j 1
2
N 1 (t 1) ( N t )
均方(Mean Square, MS): 平均的平方和=平方和/自由度
– 處理均方:MSt=SSt/(t-1)
– 誤差均方:MSE=SSE/(N-t)
單項變方分析(One-way Analysis of Variance)
將上述結果整理於變方分析表 Analysis of Variance Table (ANOVA Table) 第一行為變因(Source of Variation, SOV)
變因 自由度 平方和 均方 F值 (SOV) (df) (SS) (MS) (F-value) 處理 t-1 SSt MSt=SSt/(t-1) MSt/MSE
誤差 總和
N-t N-1
SSE SST
MSE=SSE/(N-t)
H 0 : 1 1 m H a : i i , 1 i i m 顯著水準為 決策方法 MSt F F , t 1 , N t MSE
, 拒絕H 0
例:飼料與天竺鼠兩週增重(g)
飼料 A B C
m ni i 1 j 1
ni 4 4 4
xi.
6 7 11
組內平方和 30 20 14
2 SST xij x..2 N 7 2 32 112 96 2 12 888 768 120
dfT 12 1 11
SSt n x x N 4 6 7 11 962 12 824 768 56
i 1 2 i i. 2 .. 2 2 2 2
m
dft 3 1 2
SSE SST SSt 120 56 64 60 20 14 SS1 SS 2 SS 3 dfE 12 3 9
ANOVA Table
變因 (Sov) 飼料 誤差 總和 自由度 (df) 2 9 11 平方和 (SS) 56 64 120 均方 (MS) F值 (F-value) 28=56/2 28/7.11=3.9735 7.11=64/9
顯著水準為 0.05 MSt F 28 / 7.11 3.9175 F0.05,2,9 4.26 ,不拒絕H 0 MSE 顯著水準為 0.10 MSt F 28 / 7.11 3.9175 F0.10 , 2 , 9 3.0065 ,拒絕H 0 MSE
例:微陣列試驗(Microarray Exp)
基因數>1,000
試驗整體型:誤差機率很高 基因無表現誤判有表現的機率很高 必須控制試驗整體型:誤差機率在顯著水準α之下
多重比較(Multiple Comparisons)
F值顯著處理平均值間有顯著差異,但不知 哪兩個處理平均值間有顯著差異,必須進行處 理間之兩兩比較 三個飼料:三個兩兩比較
–A
VS. B – A VS. C – B VS. C
多重比較(Multiple Comparisons)
個別比較型:誤差(Comparisonwise Type Ⅰ Error) – 單一兩兩比較之型:誤差 試驗整體型:誤差(Experimentwise Type Ⅰ Error) – 飼料試驗一共有三個兩兩比較,其中任一個 的型:誤差
個別比較型:誤差機率α=0.05 兩兩比較個數 試驗整體型:誤差機率 1 0.05 2 3 4 0.08 0.11 0.11
: 10 : 1000 : ∞
: 0.19 : 0.53 : 1
Fisher’s 最小顯著差異(Least Significance Difference, LSD)
xi. xi. t
2 , df E
MSE
1 ni
n1i
決策方法:若處理i與i´之LSD不包括0 處理i與i´之平均值間有顯著差異
例:飼料與天竺鼠兩週增重
df E 9 0.10 t0.05,9 1.833 t0.05,9 MSE
1 ni
n1i 1.833 7.11 1 1 3.46 4 4
LSD (-4.46,12.46)
比較 A VS. B
A VS. C B VS. C
(-8.46,-1.54)* (-7.46,-0.54)*
Bonferroni多重比較方法
顯著水準:α,兩兩比較個數:k 調整顯著水準: α*=α/k Bonferroni(1-α)%信賴區間
xi. xi. t /2k,df
E
MSE
1 ni
n1i
決策方法:若處理i與i´之Bonferroni(1-α)%信 賴區間不包括0 處理i與i´之平均值間有顯著差異
例:飼料與天竺鼠兩週增重
df E 9 0.10 3 t0.05,9 2.51 t0.0175,9 MSE
比較 A VS. B A VS. C B VS. C
1 ni
n1i 2.51 7.11 1 1 3.46 4 4
0.1/ 3 0.033
(-5.73,3.73) (-9.73,-0.27)* (-8.73,0.73)
Tukey忠誠顯著差異值 (Honest Significance Distance,HSD)
Qα, m, dfE
xi. xi. q ,m,df
E
MSE
1 ni
1 ni
決策方法:若處理i與i´之HSD不包括0 處理i與i´之平均值間有顯著差異
例:飼料與天竺鼠兩週增重
m 3 df E 9 0.10 q0.1,3,9 3.32 q0.1,3,9 MSE
比較 A VS. B
1 ni
n1i 3.32 7.11 1 1 6.26 4 4
HSD (-7.26,5.26)
A VS. C B VS. C
(-11.26,1.26) (-10.26,2.26)
族群容許區間(Tolerance Interval)
X N ,
2
及 2已知時
觀測值 90% 95% 99%
範圍 (μ-1.645σ, μ+1.645σ) (μ-1.96σ, μ+1.96σ) (μ-2.58σ, μ+2.58σ)
族群中95%的觀測值會落在(μ-1.96σ, μ+1.96σ)之間
μ及σ2未知時必須修正為κ值,替代標準常 態百分位
x ;s 所得 x s, x s , 稱為容許區間
κ值隨樣品數,信心水準(1-γ)與包含率(1α)而異,見P.490-492 附表13 所得的容許區間:
– 吾人有(1-γ)%信心水準,族群中(1-α)%觀測值介
於
x s, x s之間
應用於品管方面: (1-γ)%信心保證(1-α)% 產品會在 x s, x s 之間 應用於生物特性正常值範圍
例:某醫院30位新生兒血液中含鈣 量(mg%)
x 10.5 s 0.86 求有90%信心族群中95%新生兒血液含鈣量的範圍 1- 0.9 1- 0.95 2.417 x s 10.5 2.417 0.86 10.5 2.08
8.42,12.58
吾人有90%信心族群95%新生兒血液中含鈣量在 (8.42,12.58)之間
總結(Summary)
F分配 變異數同質之檢定 單向變方分析 多重比較 容許區間
習題
P313 1, 4, 5, 8