免费文献传递   相关文献

Inverse Prediction in Linear Regression Analysis

线性回归分析的逆预测



全 文 : 
第 27 卷 第 5 期 作 物 学 报 V o l. 27, N o. 5
2001 年 9 月 A CTA A GRONOM ICA S IN ICA Sep t. , 2001
线性回归分析的逆预测Ξ
莫 惠 栋
(扬州大学数量遗传研究室, 江苏扬州 225009)
提 要 逆预测又称逆回归, 是从依靠变数 Y 的某一定值 Y 0 预测独立变数X 的对应值X 0 及其 100 (1
- Α) % 可信区间。本文详细地解释了逆回归的原理、方法和注意问题, 推导了逆回归的一些基本公式,
并用两个实例分别说明 Y 0 为 Y 总体的条件平均数和单一观察值时的逆回归程序。
关键词 线性回归; 逆回归
Inverse Pred iction in L inear Regress ion Ana lys is
M O H u i2Dong
(L ab of Q uan tita tive Genetics, Y ang z hou U niversity , Y ang z hou 225009, Ch ina)
Abstract  T he inverse p red ict ion, i. e. , inverse regression, w h ich is p red ict ing an inde2
penden t varia te X 0 and its 100 (1- Α) % fiducia l lim its from a given value Y 0 of dependen t
variab le Y. In the p resen t paper, the p rincip le and m ethod fo r inverse regression w ere ex2
p la ined and som e fundam en ta l fo rm u lae w ere derived and ex tended. Tw o rea l exam p les w ere
taken to dem on stra te the inverse regression p rocedu re w hen Y 0 w as a condit iona l m ean and a
sing le ob served varia te of Y popu la t ion, respect ively.
Key words   Inverse regression; L inear regression
回归分析是处理具有自变数 (X ) 和依变数 (Y ) 之分的试验资料的统计方法, 通常要求 X
固定, Y 随机。所以分析的基本目的是由 X 估计或预测 Y , 其 k 元线性回归模型的一般形式
为 Y j = a+ 2 biX ij + ej ( i= 1, 2, ⋯, k; j = 1, 2, ⋯, n) [ 1 ]。但是, 在有些情况下, 研究者需要
了解的却是 Y 在某一 Y 0 时的 X 值及其置信区间。例如: 在农用药物的毒力测定中, 药品浓
度是 X 变数, 昆虫死亡率是 Y 变数, 如欲得到半致死浓度 (Y = 50% 时的药品浓度) , 就必须
从 Y 反推X ; 在树龄测定中, 年轮数是 X 变数, “碳记年”是 Y 变数, 由碳记年估计树木年龄
也是由 Y 反推X 。很多仪表的校准 (ca lib ra t ion) 亦属由 Y (仪表读数) 预测 X (标的物状况)。
在近代遗传学研究中, Q TL 的定位也是要从 Y (表型值)估计X (基因座位位置)。这类从 Y 反
推、估计或预测 X 的分析, 统称为逆回归或逆预测, 其统计原理和方法国内尚未见报道。本
文将阐述逆回归的意义, 推导其区间估计, 并以实例说明演算过程, 以供应用和深入理解某
些涉及逆回归的问题。文中所用符号和公式, 除特别说明外, 都按照文献[1 ], 不再解释。Ξ 国家自然科学基金 (39670391)项目资助
收稿日期: 2000208214, 接受日期: 2000209225
Received on: 2000208214, A ccep ted on: 2000209225

1 原理和公式
在一元线性回归中, Y 依 X 的条件总体平均数 ΛY öX 由
Yδ = a + bX (1)
估计; 其对 ΛY öX 的 100 (1- Α) % 置信带由
Yδ± tΑsYδ = Yδ± tΑsY öX 1
n
+
(X - xθ) 22 x 2 1ö2 (2)
给出。当
Y = Y 0 (3)
图 1  逆回归的几何意义
F ig. 1  Geom etrical exp lanation fo r inverse regression,
i. e. , p redicting X 0, X L and X U given Y 0
时, 以上 3 个方程的几何轨迹可见图 1。图 1 上
3 个交点所对应的 X 轴坐标值: X 0 表示对应于
Y 0 的 X 估计值; X L 和 X U 分别表示对应于 Y 0
的 X 0 的 100 (1- Α) % 可信限 (f iducia l lim its) [ 2 ]
或逆置信限 ( inverse confidence lim its) [ 3 ]的低限
和高限。 [X L , X U ]则称为逆回归的 100 (1 -Α) % 可信区间或预测区间。
估计X 0 是方便的, 因为根据 (1)可有 Y 0= a
+ bX 0, 故
X 0 = (Y 0 - a) öb。 (4)
对于X L 和X U 的估计, 可推导如下: 低限X L 上
的“高度”Y 可表示为:
Y = Y 0 = a + bX 0, (5)
和 Y = a+ bX L - tΑsY öX 1
n
+
(X L - xθ) 22 x 2 1ö2。 (6)
令 (5) = (6) , 并左右平方可得:
(bX 0 - bX L ) 2 = t2Αs2Y öX 1
n
+
(X L - xθ) 22 x 2 。 (7)
同理, 对高限 X U 上的“高度”亦可得:
(bX 0 - bX U ) 2 = t2Αs2Y öX 1
n
+
(X U - xθ) 22 x 2 。 (8)
  上述 (7)和 (8)除X L 和X U 的区别外, 其余完全相同; 若以X 代X L 或X U , 均可写成二次
三项式:
A X 2 + B X + C = 0。 (9)
其中       
A = b2- t2Αs2Y öX ö2 x 2, B = 2x t2Αs2Y öX ö2 x 2- 2b2X 0
C = b2X 20- t2Αs2Y öX ön- x 2 t2Αs2Y öX ö2 x 2 。 (10)
因此, 解 (9)得到 X 的两个根即分别为 X L 和 X U。
  令
g = t2Αs2Y öX öb22 x 2 (11)
简化 (10) , 再代回 (9)即可解得:
645                 作  物   学  报                 27 卷

X =
X U
X L
= [ (X 0 - g x ) ± d ]ö(1 - g ) , (12)
其中 d = tΑsY öXb (1- g )n + (X 0- x ) 22 x 2 1ö2。 (13)
2 推广
上述是 Y 0 为条件总体平均数 ΛY öX 的逆回归, 可推广于:
2. 1 Y0 仅是 Y 的一个观察值的逆回归
由于 Y 的标准误为:
sY = sY öX 1 + 1
n
+
(X 0 - x ) 22 x 2 1ö2。 (14)
这一改变仅使应用 (12)于估计 X U 和X L 时的 d 值改变为:
d = tΑsY öXb n + 1n (1 - g ) + (X 0 - xθ) 22 x 2 1ö2。 (15)
2. 2 Y0 是m 个 Y 值的平均值的逆回归
仍应用 (12)估计X U 和X L , 但 d 改变为:
d = tΑsY öXb 1m + 1n (1 - g ) + (X 0 - x ) 22 x 2 1ö2。 (16)
2. 3 Y0 是多元线性回归依变数的逆回归
上述原理和方法也可能推广到多元线性回归模型, 这里只作概述。k 元线性回归方程 Yδ
= a+ b1X 1+ b2X 2+ ⋯+ bkX k 的逆回归, 即求 Y = Y 0 时 k 维空间点 (X 10, X 20, ⋯, X k0)的可信
区 (f iducia l reg ion)。由于 k 元回归中 Yδ和 Y 的标准误可以一般化地写作[ 3 ]:
sYδ = sY öX 1, X 2, ⋯, X k [X ′0 (X′X ) - 1X 0 ]1ö2
sY = sY öX 1, X 2, ⋯, X k [1 + X ′0 (X′X ) - 1X 0 ]1ö2 。 (17)
( 17) 中的 X 为 X 变数的 n× (k + 1) 阶矩阵, X 0 为 X i0的列向量, 即 X ′0 = (1, X 10, X 20, ⋯,
X k0)。而前述令 (5) = (6)并左、右平方也可写成:
[Y 0 - (a + bX ) ]2 = t2Αs2Yδ。 (18)
故推广于 k 元回归时, 若 Y 0 是条件总体平均数 ΛY öX i0 , 则 X i0可信区的界面满足方程:
[Y 0 - (a + b1X 1 + b2X 2 + ⋯ + bkX k ) ]2 = t2Αs2Y öX 1, X 2, ⋯, X k [X ′0 (X′X ) - 1X 0 ]。 (19)
若 Y 0 是单一观察值则满足方程:
[Y 0 - (a + b1X 1 + b2X 2 + ⋯ + bkX k ) ]2 = t2Αs2Y öX 1, X 2, ⋯, X k [1 + X ′0 (X′X ) - 1X 0 ]。 (20)
3 异常和原因
逆回归可能出现一些异常情况, 例如: (1) X L 和 X U 为复数, 其几何图形是 Y = Y 0 与置
信带的双曲线不相交, 如图 2 (a) ; (2) X L 和X U 虽为实数, 但其间不包含X 0, 如图 2 (b)。以
上逆回归显然都没有实际意义。其原因是回归的线性不强, 使置信带双曲线迅速偏离回归直
线, 以及预测的 X 0 远离回归中心 x。这可通过对 g 和 (X 0- x )的分析得到了解。
7455 期            莫惠栋: 线性回归分析的逆预测                   

图 2  逆回归的异常情况: (a) X L 和X U 为虚根; (b) X L 和X U 均大于或小于X 0
F ig. 2   Inverse regression peculiarit ies: (a) X L and X U are im aginary roo ts; (b) Bo th
X L and X U are reals, bu t larger o r sm aller than X 0
   (12)的分母是 (1- g )。在测验回归系数显著性H 0: Β= 0 时, 学生氏 t 值为:
tb =
b
sY öX ö 2 x 2。
将它代入 (11)可得:
g = ( tΑötb) 2。
所以 g 愈小, 回归显著性愈强, (1- g ) 将愈近于 1, 从而使预测区间[X L , X U ]愈为狭窄, 预
测精度愈高。如果 g≥1, 即 tΑ≥tb, 则回归为不显著, 当然不应该有逆回归。
(12) 右边的第 1 项是:
(X 0 - g x ) ö(1 - g ) = x + (X 0 - x ) ö(1 - g )。
所以X 0 愈接近 x , 就愈能精确地预测X 。如果回归为弱线性 ( tb≈ tΑ)而又预测X 的较极端值,
预测区间就会变得很大或至产生异常情况。
表 1  鱼藤酮浓度 (C, mgöL )和菊蚜死亡率
(P, % )的实验结果
Table 1  Rotenone concen tration (C, mgöL ) and
death rate of chrysan themum aphids (P, % )
浓度
C , m göL 死亡率P , % X = lgC Y = P 的概率单位Y = P robit of P
2. 6 12 0. 4150 3. 8250
3. 8 33 0. 5798 4. 5601
5. 1 52 0. 7076 5. 0502
7. 7 86 0. 8865 6. 0803
10. 2 88 1. 0086 6. 1750
4 实例
4. 1 Y0 为总体平均数的逆回归
研究鱼藤酮浓度和菊蚜死亡率的关系, 得
结果于表 1[ 1 ]。试求半致死浓度 C 50及其 95◊
可信区间。
  这里的 C 50是总体死亡率 P = 50% 时的鱼
藤酮浓度。由于已知 C 的对数与 P 的概率单
位 (p rob it)成线性, 故需要先令X = lgC 和 Y =
P 的概率单位, 求出 Y = 5 时的 X 0 及其 X L 和
X U , 然后才能由反转换:
C = an t i lg X
845                 作  物   学  报                 27 卷

得到C 50等。
从表 1 的X 和 Y 得到: x = 0. 7195, y = 5. 13812, 2 x 2= 0. 223846, 2 y 2= 4. 028944, 2 x y
= 0. 938747, Yδ= 2. 120737+ 4. 193721X , sY öX = 0. 175216。查 t 表, df = 5- 2= 3 时, t0. 05 =
3. 182。因此, 根据 (4)、 (11)、 (13)和 (12)依次有:
X 0 = (5 - 2. 120737) ö4. 193721 = 0. 686565,
g = (3. 1822 × 0. 1752162) ö(4. 1937212 × 0. 223846) = 0. 078959,
d = 3. 182 × 0. 1752164. 193721
1 - 0. 078959
5 +
(0. 686565 - 0. 7195) 2
0. 223846
1ö2
= 0. 057805,
X U = [ (0. 686565 - 0. 078959 × 0. 7195) + 0. 057805 ]ö(1 - 0. 078959) = 0. 746502,
X L = [ (0. 686565 - 0. 078959 × 0. 7195) - 0. 057805 ]ö(1 - 0. 078959) = 0. 620981。
表 2  水流流率 (X , m 3ösec)
和流率仪读数 (Y)
Table 2  Flow rate (X , m 3ösec)
and readings on a f low meter (Y)
X Y
1 1. 4
2 2. 3
3 3. 1
4 4. 2
5 5. 1
6 5. 8
7 6. 8
8 7. 6
9 8. 7
10 9. 5
  以上结果说明: 鱼藤酮对菊蚜的半致死浓度为
C 50= an t ilg 0. 686565= 4. 86 m göL ; 其 95% 可信高限
为 an t ilg 0. 746502 = 5. 58 m göL , 低限为 an t ilg
0. 620981= 4. 18 m göL。
4. 2 Y0 为单一观察值的逆回归
研究灌溉水流率和流率仪读数的关系, 得表 2 结
果[ 4 ]。某次测定读得 Y 0= 4. 0, 求流率X 0 及其 95% 可
信限。
  从表 2 可得回归分析的基本数据: x = 5. 5, y =
5. 45, 2 x 2= 82. 5, 2 y 2= 67. 065, 2 x y = 74. 35 和 Yδ=
0. 493333+ 0. 901212X , sY öX = 0. 086503。df = 8 时的
t0. 05= 2. 306。故根据 (4)、 (11)、 (15)和 (12)依次有:
X 0 = (4. 0 - 0. 493333) ö0. 901212 = 3. 8911 m 3ösec,
g = (2. 3062 × 0. 0865032) ö(0. 9012122 × 82. 5) = 0. 000594,
d = 2. 306 × 0. 0865030. 901212
11 × 0. 999406
10 +
(3. 8911 - 5. 5) 2
82. 5
1ö2
= 0. 2354,
X 0 - g x = 3. 8911 - (0. 000594 × 5. 5) = 3. 8878,
所以,  X U = (3. 8878+ 0. 2354) ö0. 999406= 4. 1256 m 3ösec,
X L = (3. 8878- 0. 2354) ö0. 999406= 3. 6546 m 3ösec。
参 考 文 献
1 莫惠栋. 农业试验统计. 上海: 上海科学技术出版社, 1992. 308~ 329, 510~ 526
2 W illium s E J. R eg ression A na ly sis. N ew Yo rk: John W iley & Sons, Inc. , 1959. Chap t. 6
3 D raper N R , H Sm ith. A pp lied R eg ression A na ly sis. N ew Yo rk: John W iley & Sons, Inc. , 1998. 47~ 51
4 O tt R L. A n in trod uction to sta tistica l M ethod s and D ata A na ly sis. Belmont, Califo rn ia: D uxbury P ress, W adswo rth
Inc. , 1993. 437~ 563
9455 期            莫惠栋: 线性回归分析的逆预测