十一、簡單相關與簡單直線回歸分析
(Simple Correlations and Simple
Linear Regression )
劉仁沛教授
國立台灣大學農藝學研究所生物統
計組
國家衛生研究院生物統計與生物資
訊組
jpliu@ntu.edu.tw
例1:氮肥用量與水稻穀收量表(公斤)
氮肥用量x 0 0.5 1.0 1.5 2.0 2.5
稻穀收量y 10 18 32 48 55 62
例2:成人年齡與血液中膽固醇的量
年齡x 34 39 44 46 48 51
膽固醇y(mg/ml) 141.4 180.5 178.4 212.0 203.2 224.1
年齡x 53 6 61 65 66 67
膽固醇y(mg/ml) 186.0 350.0 286.3 287.6 330.3 371.3
例3:年雨量與小麥產量
年雨量(公厘/20) 23.5 20.4 22.8 25.9 28.9 27.1 26.8 25.2
產量(公斤/100) 20.4 23.0 33.5 35.8 44.6 41.2 45.4 39.0
氮肥用量與稻穀收量的Scatter Plot
70
稻 60
穀 50
40
收 30
量 20
y 10
0
0 0.5 1 1.5 2 2.5 3
氮肥用量x
年齡與膽固醇量的Scatter Plot
400
膽
300
固
200
醇
100
y
(mg/ml) 0
0 20 40 60 80
年齡x
年雨量與小麥產量的Scatter Plot
50
40
產 30
量 20
(公斤/100) 10
0
0 5 10 15 20 25 30 35
年雨量(公厘/20)
探討兩個變數之間的關係
問題:
兩個變數間是否存在直線關係?
將直線關係以方程式表示
資料型態( xi , yi )
假定(Assumption)
1. 每對資料均為獨立
2. 常態
3. 相同變方
4. X與Y的關係為直線
簡單關係數(Simple correlation coefficient)
簡單直線回歸(Simple Linear Regression)
模式建立之推論(Models and Inference)
回歸模式直線性檢定(Evaluation of Linearity)
假定之確認(Checking the Model Assumptions)
y
Ⅱ Ⅰ Ⅱ Ⅰ Ⅱ Ⅰ
μy μy μy
Ⅲ Ⅳ Ⅲ Ⅳ Ⅲ Ⅳ
μχ μχ μχ
(a) ρ> 0 正相關 (b) ρ 落在第Ⅱ
及Ⅳ象限的點數
負相關:落在第Ⅰ及Ⅲ象限的點數 t α/2,n-2 拒絕H0
例:雨量與小麥產量
n=8, Σxi=200.5, Σyi=296.5
S xx 23.5 2
25.2
2 (200.5) 2 51.8988
8
S yy 34.0 2
39.0
2 (296.5) 2 368.6188
8
S xy (23.5)(34.0) (25.2)(39.0) (200.5)(296.5) 129.2688
8
S xy 51.8988
r 0.9346
S xx S yy (368.6188)(129.2688)
n2 82
T r 0.9346 6.436
1 r 2
1 0.9346 2
T 6.346 t0.025,6 2.447 拒絕H 0
簡單直線回歸(Simple Linear Regression)
水稻穀產量(y)與氮肥用量(x)可以用直線關係描述
yi=β0+βxi,i=1, …,6(=n)
y i:依變數(Dependent variable)
x i:獨立(自)變數(Independent variable)
β0:截距(Intercept) x=0時y的值
β:斜率(Slope) x變動一個單位y變動的量
但實際觀測值與直線y=β+βx有差距
原因:環境、實驗誤差、量測誤差及其他原因
yi=β0+βxi+εi,i=1, …,6(=n)
εi:誤差(Error)或殘差(Residual)
The Simple Linear Regression Model
(Here β1 > 0)
y An observed value of
y when x equals x0 Straight line defined
by the equation
μy∣x=β0+β1x
Error term
Slope = β1 Mean value of y
when x equals x0
β0 One-unit
change in x
y-intercept
0 x
x0= A specific value of the
independent variable x
假定(Assumptions) :
獨立性(Independent)
常態性(Normality)
直線關係(Linearity)
相同變方(homogeneity of Variance)
無數條直線可描述X與Y的關係
選擇直線的方法:
最小平方法(Least Squares Method)
德國大數學家Gauss發明
yi
75
e5
e4
50 e6
e3
y 9.68 22.11x
ˆ
25
e1
e2
0 xi
0 0.5 1 1.5 2 2.5 3
圖11.4 回歸直線與殘差圖
最小平方法
殘差(Residual):
觀測值與迴歸直線垂直距離 yi 0 xi
垂直距離平方=殘差平方 (yi 0 xi ) 2
n
垂直距離平方和=殘差平方和 F= (yi 0 xi ) 2
i=1
最小平方法
觀測值與迴歸直線垂直距離平方和為最小之斜率與截距
對 0及進行偏微分
F
= -2 (yi 0 xi ) 0
0
F
= -2 (yi 0 xi )xi 0
正常方程式(Normal Equations)
n 0 xi yi
0 xi x xi yi
2
i
斜率估算值 b
( x x )( y y ) S
i i xy
(x x ) i
2
S xx
截距估算值 b0 0 y bx
推測直線回歸方程式 ( Predicted Linear Regression Equations )
yi bo bxi yi 為當獨立之變數為x 時依
ˆ ˆ i
變數之最小平方推測平均值
殘差估算值 i yi yi
ˆ
yi (b bxi ) i 1 n
計算推測直線回歸方程式
所需統計值 n x y S xx S xy S yy
例:成人年齡與血液膽固醇含量
n 12 x 52.8333 y 240.825
S xx 342 392 67 2 (12)(52.8333)2 1337.6667
S xy (34)(141.4) (39)(180.5) (67)(311.3) (12)(52.8333)(240.925) 7558.15
S yy 141.42 180.52 311.32 (12)(240.925)2 52100.7825
S xy
b 7558.1500 5.65025
S xx 1337.6667
b0 240.925 (5.65025)(52.8333) 57.5963
y 57.5963 5.65025 x
ˆ
假定
獨立性
常態性
直線關係
相關變方
– 殘差εi為常態分布
– 族群平均值為0
– 族群變方為σ2
An Illustration of the Model Assumptions
y 12.4=Observed value of y when x=32.5
The mean fuel consumption when x=32.5
The mean fuel consumption
when x=45.9
9.4=Observed value of y
when x=45.9
Population of y
The straight line defined by
values when
Population of y the equation μy∣x =β0+ β1x (the
x=32.5
values when line of means)
x=45.9
X
32.5 45.9
σ2之估算
殘差估算值 i yi yi
ˆ ˆ
殘差估算值平方 ˆ i2 ( yi yi ) 2
ˆ
殘差(估算值)平方和n n
SSE i2 ( yi yi ) 2
ˆ ˆ
i 1 i 1
n
( yi b0 bx ) 2 S yy bS xy
i 1
估算殘差值時必須先計算b0和b
SSE之自由度為n-2
2 SSE / n 2 MSE
ˆ
斜率與截距變方之估計
v (b) ˆ 2
ˆ MSE
S xx S
12 x2
v (b0 ) ( )
n S xx
1 x2
MSE ( )
n S xx
例 成人年齡與膽固醇
SSE S yy bS xy
52100.7825 (5.65025)(7558.15)
9395.3455
2 MSE SSE (n 2) 9395.345512 2
ˆ
939.53455
2
v(b) ˆ
ˆ 935.53455 0.6994
S xx 1337.6667
2 1 x2 1 52.83332
v(b0 ) 939.53455
n S xx 12 1337.6667
2038.8553
斜率
H0:β=0 V.S. Ha:β≠0
顯著水準α
檢定統計值(Test statistic)
b b
T
ˆ
v(b) MSE
S xx
決策方法 若|Tβ|>tα/2,n-2 拒絕H0
β之(1-α) %信賴區間
b t ,n 2 v (b)
ˆ
2
b t ,n 2
MSE
2 S xx
截距
H0:β0=0 V.S. Ha:β0≠0
顯著水準α
檢定統計值(Test statistic)
b0 b0
T0
ˆ
v (b0 ) 1 x2
MSE
n S xx
決策方法 若|Tβ0|>tα/2,n-2 拒絕H0
β0之(1-α) %信賴區間
b0 t ,n 2 v(b0 )
ˆ
2
1 x2
b0 t ,n 2 MSE
2
n S xx
例:成人體重與膽固醇
斜率H0:β=0 V.S. Ha:β≠0 α=0.05
b 5.65025
T 6.7419
ˆ
v (b) 0.6994
|Tβ|=6.7419 > t0.025,10=2.228,拒絕H0
β之95 %信賴區間
b t ,n 2
ˆ
v(b)
2
5.65025 2.228 0.6994
3.78527, 7.51973
例:成人體重與膽固醇
截距H0:β0=0 V.S. Ha:β0≠0 α=0.05
b0 57.5963
T0 1.2756
ˆ
v(b0 ) 2038.8553
|Tβ0|=1.2756 Fα,k-2,n-k 拒絕H0
例子:成人年齡與血壓(mmHg)
年齡 20 30 40 50 60 70
102 120 126 135 150 160
血 110 115 119 130 146 155
108 118 120 120 148 159
壓 112 138 150
140
總和yi 320 465 365 529 722 624
ni 3 4 3 3 5 4
例子:成人年齡與血壓(mmHg)
170
160
血 150
壓
140
130
120
110
100
90
0 10 20 30 40 50 60 70 80 年齡
例子:成人年齡與血壓(mmHg)
n 23 x 3 20 4 70 1080
y 320 624 3025
S xx 3 20 2
4 70
2 10802 6486.9565
23
S xy 20 320 70 624 (1080)(3025)
23
6356.5217
S yy 102 120
2 2
150 2(3025) 2 6619.7391
23
例子:成人年齡與血壓(mmHg)
2
S xy (6356.5217) 2
SSR 6228.7096
S xx 6486.9565
SSE S yy SSR 6619.7391 6228.7096 391.0295
ni
n k
yi2
SSPE yij
2
i 1 j 1 i 1 ni
102 2
150 ( 320 2
2
624 2 )
3 4
314.0333
SSLF=SSE+SSPF=391.0295-314.0.3333=76.9962
變方分析表
變 因 自 由 度 平 方 和 均 方 F 值
迴歸(R) 1 6228.7096 6228.7096
殘差(E) (23-3=21) 391.0295 18.6025
欠合(L) 6-2=4 76.9962 19.2491 1.0420
純誤差(P) 23-6=17 314.0333 18.4725
總計(T) 23-1=22 6619.7391
FLF = 1.0240 F0.05,1,21 = 4.32478
迴歸係數≠0
例子:成人年齡與血壓(mmHg)
S xy
b 6356.5217 0.9799
S xx 6486.9565
b0 y bx
131.52174 (0.9799)(46.9565)
85.5094
年齡上升一歲 血壓上升0.9799mmHg
R 2 6228.7096
6619.7391
0.9409
r 0.9409 0.97
假定之確認(Checking the Model
Assumptions)
同質變方(Homogeneity of Variance)
殘差圖
– 殘差v.s.獨立變數
– 殘差v.s.預測值 殘差v.s.時間
殘差圖不能有任何規則性
蒼蠅在開會員大會無任何規則性
殘差v.s.獨立變數
Residual Residuals fan out Residual Residuals fannel in
(a) Increasing erroe variance (b) Decreasing erroe variance
Residual Residuals from a horizontal band
(c) Constant erroe variance
獨立性 殘差v.s.時間
Error term Error term
Time Time
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
有規則性的殘差圖
(1)
(2)
(3)
常態性(Normality)
殘差百分位值v.s.標準常態之變數百分位值
Normal Probability Plot of the Residuals
300
200
Residua
100
0
l
-100
-200
-300
-2 -1 0 1 2
Normal Score
總結
直線相關係數
簡單直線回歸
– 最小平方法
– 斜率與截距估算值與檢定
– 變方分析法
– 預測平均值及信賴區間
– 假定確認
– 直線性
– 同質變方
– 獨立性
– 常態性
習題
Page 393:1、3