Embed
Email

????????????????(Simple ...

Document Sample
????????????????(Simple ...
Shared by: HC1112130011
Categories
Tags
Stats
views:
1
posted:
12/12/2011
language:
pages:
65
十一、簡單相關與簡單直線回歸分析

(Simple Correlations and Simple

Linear Regression )

劉仁沛教授

國立台灣大學農藝學研究所生物統

計組

國家衛生研究院生物統計與生物資

訊組

jpliu@ntu.edu.tw

 例1:氮肥用量與水稻穀收量表(公斤)

氮肥用量x 0 0.5 1.0 1.5 2.0 2.5

稻穀收量y 10 18 32 48 55 62



例2:成人年齡與血液中膽固醇的量



年齡x 34 39 44 46 48 51

膽固醇y(mg/ml) 141.4 180.5 178.4 212.0 203.2 224.1

年齡x 53 6 61 65 66 67

膽固醇y(mg/ml) 186.0 350.0 286.3 287.6 330.3 371.3



例3:年雨量與小麥產量

年雨量(公厘/20) 23.5 20.4 22.8 25.9 28.9 27.1 26.8 25.2

產量(公斤/100) 20.4 23.0 33.5 35.8 44.6 41.2 45.4 39.0

氮肥用量與稻穀收量的Scatter Plot



70

稻 60

穀 50

40

收 30

量 20

y 10

0

0 0.5 1 1.5 2 2.5 3



氮肥用量x

年齡與膽固醇量的Scatter Plot



400



300



200



100

y

(mg/ml) 0

0 20 40 60 80



年齡x

年雨量與小麥產量的Scatter Plot



50



40



產 30



量 20

(公斤/100) 10



0

0 5 10 15 20 25 30 35



年雨量(公厘/20)

探討兩個變數之間的關係



 問題:

兩個變數間是否存在直線關係?

將直線關係以方程式表示

 資料型態( xi , yi )

 假定(Assumption)

1. 每對資料均為獨立

2. 常態

3. 相同變方

4. X與Y的關係為直線

 簡單關係數(Simple correlation coefficient)



 簡單直線回歸(Simple Linear Regression)



 模式建立之推論(Models and Inference)



 回歸模式直線性檢定(Evaluation of Linearity)



 假定之確認(Checking the Model Assumptions)

y

Ⅱ Ⅰ Ⅱ Ⅰ Ⅱ Ⅰ



μy μy μy



Ⅲ Ⅳ Ⅲ Ⅳ Ⅲ Ⅳ

μχ μχ μχ

(a) ρ> 0 正相關 (b) ρ 落在第Ⅱ



及Ⅳ象限的點數



 負相關:落在第Ⅰ及Ⅲ象限的點數 t α/2,n-2 拒絕H0

例:雨量與小麥產量

n=8, Σxi=200.5, Σyi=296.5





S xx  23.5 2

 25.2 

2 (200.5) 2  51.8988

8

S yy  34.0 2

 39.0 

2 (296.5) 2  368.6188

8

S xy  (23.5)(34.0)   (25.2)(39.0)  (200.5)(296.5)  129.2688

8

S xy 51.8988

r   0.9346

S xx S yy (368.6188)(129.2688)

n2 82

T r  0.9346  6.436

1 r 2

1  0.9346 2





T  6.346  t0.025,6  2.447 拒絕H 0

簡單直線回歸(Simple Linear Regression)



 水稻穀產量(y)與氮肥用量(x)可以用直線關係描述

yi=β0+βxi,i=1, …,6(=n)

y i:依變數(Dependent variable)

x i:獨立(自)變數(Independent variable)

β0:截距(Intercept) x=0時y的值

β:斜率(Slope) x變動一個單位y變動的量

但實際觀測值與直線y=β+βx有差距

原因:環境、實驗誤差、量測誤差及其他原因

yi=β0+βxi+εi,i=1, …,6(=n)

εi:誤差(Error)或殘差(Residual)

The Simple Linear Regression Model

(Here β1 > 0)



y An observed value of

y when x equals x0 Straight line defined

by the equation

μy∣x=β0+β1x

Error term







Slope = β1 Mean value of y

when x equals x0

β0 One-unit

change in x

y-intercept



0 x

x0= A specific value of the

independent variable x

假定(Assumptions) :



 獨立性(Independent)

 常態性(Normality)

 直線關係(Linearity)

 相同變方(homogeneity of Variance)

無數條直線可描述X與Y的關係

選擇直線的方法:

最小平方法(Least Squares Method)

德國大數學家Gauss發明

yi

75

e5

e4



50 e6

e3

y  9.68  22.11x

ˆ

25

e1

e2



0 xi

0 0.5 1 1.5 2 2.5 3



圖11.4 回歸直線與殘差圖

最小平方法



殘差(Residual):

觀測值與迴歸直線垂直距離 yi   0   xi

垂直距離平方=殘差平方 (yi   0   xi ) 2

n

垂直距離平方和=殘差平方和 F=  (yi   0   xi ) 2

i=1



最小平方法 

觀測值與迴歸直線垂直距離平方和為最小之斜率與截距

對 0及進行偏微分

F

= -2 (yi   0   xi )  0

 0

F

= -2 (yi   0   xi )xi  0



正常方程式(Normal Equations)





n 0    xi   yi

 0  xi    x  xi yi

2

i

斜率估算值 b 

 ( x  x )( y  y )  S

i i xy



 (x  x ) i

2

S xx



截距估算值 b0   0  y  bx

推測直線回歸方程式 ( Predicted Linear Regression Equations )

yi  bo  bxi yi 為當獨立之變數為x 時依

ˆ ˆ i

變數之最小平方推測平均值

殘差估算值  i  yi  yi

ˆ

 yi  (b  bxi ) i 1 n

計算推測直線回歸方程式



 所需統計值 n x y S xx S xy S yy

例:成人年齡與血液膽固醇含量

n  12 x  52.8333 y  240.825

S xx  342  392   67 2  (12)(52.8333)2  1337.6667

S xy  (34)(141.4)  (39)(180.5)   (67)(311.3)  (12)(52.8333)(240.925)  7558.15

S yy  141.42  180.52   311.32  (12)(240.925)2  52100.7825

S xy

b  7558.1500  5.65025

S xx 1337.6667

b0  240.925  (5.65025)(52.8333)  57.5963

y  57.5963  5.65025 x

ˆ

假定



 獨立性

 常態性

 直線關係

 相關變方

– 殘差εi為常態分布

– 族群平均值為0

– 族群變方為σ2

An Illustration of the Model Assumptions



y 12.4=Observed value of y when x=32.5



The mean fuel consumption when x=32.5



The mean fuel consumption

when x=45.9

9.4=Observed value of y

when x=45.9

Population of y

The straight line defined by

values when

Population of y the equation μy∣x =β0+ β1x (the

x=32.5

values when line of means)

x=45.9

X

32.5 45.9

σ2之估算



殘差估算值  i  yi  yi

ˆ ˆ

殘差估算值平方 ˆ i2  ( yi  yi ) 2

ˆ

殘差(估算值)平方和n n

SSE    i2   ( yi  yi ) 2

ˆ ˆ

i 1 i 1

n

  ( yi  b0  bx ) 2  S yy  bS xy

i 1

估算殘差值時必須先計算b0和b

 SSE之自由度為n-2

  2  SSE / n  2  MSE

ˆ

斜率與截距變方之估計





v (b)  ˆ 2

ˆ  MSE

S xx S

12 x2

v (b0 )   (  )

n S xx

1 x2

 MSE (  )

n S xx

例 成人年齡與膽固醇

SSE  S yy  bS xy

 52100.7825  (5.65025)(7558.15)

 9395.3455

 2  MSE  SSE (n  2)  9395.345512  2

ˆ



 939.53455

2

v(b)  ˆ

ˆ  935.53455  0.6994

S xx 1337.6667

2  1 x2   1 52.83332 

v(b0 )       939.53455   

 n S xx   12 1337.6667 

 2038.8553

斜率



 H0:β=0 V.S. Ha:β≠0

 顯著水準α

 檢定統計值(Test statistic)

b b

T  

ˆ

v(b) MSE

S xx

 決策方法 若|Tβ|>tα/2,n-2 拒絕H0

 β之(1-α) %信賴區間

b  t ,n  2 v (b)

ˆ

2



 b  t ,n  2

MSE

2 S xx

截距



 H0:β0=0 V.S. Ha:β0≠0

 顯著水準α

 檢定統計值(Test statistic)

b0 b0

T0  

ˆ

v (b0 ) 1 x2 

MSE   

 n S xx 

 決策方法 若|Tβ0|>tα/2,n-2 拒絕H0

 β0之(1-α) %信賴區間

b0  t ,n  2 v(b0 )

ˆ

2



1 x2 

 b0  t ,n  2 MSE   

2

 n S xx 

例:成人體重與膽固醇



 斜率H0:β=0 V.S. Ha:β≠0 α=0.05

b 5.65025

T    6.7419

ˆ

v (b) 0.6994

|Tβ|=6.7419 > t0.025,10=2.228,拒絕H0

 β之95 %信賴區間

b  t ,n  2

ˆ

v(b)

2



5.65025  2.228 0.6994

3.78527, 7.51973

例:成人體重與膽固醇



 截距H0:β0=0 V.S. Ha:β0≠0 α=0.05

b0 57.5963

T0    1.2756

ˆ

v(b0 ) 2038.8553

|Tβ0|=1.2756 Fα,k-2,n-k 拒絕H0

例子:成人年齡與血壓(mmHg)



年齡 20 30 40 50 60 70

102 120 126 135 150 160

血 110 115 119 130 146 155

108 118 120 120 148 159

壓 112 138 150

140

總和yi 320 465 365 529 722 624

ni 3 4 3 3 5 4

例子:成人年齡與血壓(mmHg)



170

160

血 150



140

130

120

110

100

90

0 10 20 30 40 50 60 70 80 年齡

例子:成人年齡與血壓(mmHg)



n  23 x  3  20   4  70  1080

y  320   624  3025

S xx  3  20 2

 4  70 

2 10802  6486.9565

23

S xy  20  320   70  624  (1080)(3025)

23

 6356.5217



S yy  102  120 

2 2

 150 2(3025) 2  6619.7391

23

例子:成人年齡與血壓(mmHg)

2

S xy (6356.5217) 2

SSR    6228.7096

S xx 6486.9565

SSE  S yy  SSR  6619.7391  6228.7096  391.0295

ni

n k

yi2

SSPE   yij  

2



i 1 j 1 i 1 ni

 102  2

 150  ( 320 2

2

  624 2 )

3 4

 314.0333

SSLF=SSE+SSPF=391.0295-314.0.3333=76.9962

變方分析表



變 因 自 由 度 平 方 和 均 方 F 值

迴歸(R) 1 6228.7096 6228.7096

殘差(E) (23-3=21) 391.0295 18.6025

欠合(L) 6-2=4 76.9962 19.2491 1.0420



純誤差(P) 23-6=17 314.0333 18.4725



總計(T) 23-1=22 6619.7391



FLF = 1.0240 F0.05,1,21 = 4.32478

迴歸係數≠0

例子:成人年齡與血壓(mmHg)



S xy

b  6356.5217  0.9799

S xx 6486.9565

b0  y  bx

 131.52174  (0.9799)(46.9565)

 85.5094

 年齡上升一歲 血壓上升0.9799mmHg

R 2  6228.7096

6619.7391

 0.9409

r 0.9409  0.97

 假定之確認(Checking the Model

Assumptions)

 同質變方(Homogeneity of Variance)

 殘差圖

– 殘差v.s.獨立變數

– 殘差v.s.預測值 殘差v.s.時間



殘差圖不能有任何規則性

蒼蠅在開會員大會無任何規則性

殘差v.s.獨立變數

Residual Residuals fan out Residual Residuals fannel in









(a) Increasing erroe variance (b) Decreasing erroe variance

Residual Residuals from a horizontal band









(c) Constant erroe variance

獨立性 殘差v.s.時間



Error term Error term





Time Time

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

有規則性的殘差圖





(1)







(2)







(3)

常態性(Normality)



殘差百分位值v.s.標準常態之變數百分位值

Normal Probability Plot of the Residuals

300

200

Residua









100

0

l









-100

-200

-300

-2 -1 0 1 2

Normal Score

總結



 直線相關係數

 簡單直線回歸

– 最小平方法

– 斜率與截距估算值與檢定

– 變方分析法

– 預測平均值及信賴區間

– 假定確認

– 直線性

– 同質變方

– 獨立性

– 常態性

習題



 Page 393:1、3


Other docs by HC1112130011
In re T
Views: 0  |  Downloads: 0
Finanzas Internacionales
Views: 25  |  Downloads: 0
atualiz manual 12
Views: 1  |  Downloads: 0
OSTEOMIELITIS
Views: 0  |  Downloads: 0
PLANTEO DE SOLUCIONES TECNICAS
Views: 6  |  Downloads: 0
Sin t�tulo de diapositiva
Views: 6  |  Downloads: 0
Slide 1
Views: 1  |  Downloads: 0
Infecciones intraabdominales
Views: 3  |  Downloads: 0
By registering with docstoc.com you agree to our
privacy policy

You are almost ready to download!

You are almost ready to download!