全 文 :第 28 卷 第 4 期 作 物 学 报 V o l. 28, N o. 4
2002 年 7 月 433~ 438 页 A CTA A GRONOM ICA S IN ICA pp. 433~ 438 Ju ly, 2002
脊回归技术及其应用Ξ
莫 惠 栋
(扬州大学数量遗传研究室, 江苏扬州 225009)
摘 要 介绍了脊回归的统计学原理和方法; 阐述了脊回归和常规回归的差别和关系。提出评价脊回归的得和失的统
计指标。较详细地讨论了脊回归在作物科学和数量遗传学领域的可能适用场合, 并用一个有关小麦育种中个体选择的
实例解释了脊回归的具体应用和计算程序。
关键词 脊迹; 脊回归; 病态矩阵; 有偏估计
中图分类号: Q 332; S11+ 4 文献标识码: A
R idge Regress ion Procedure and Its Appl ica tion
M O H u i2Dong
(L abora tory of Q uan tita tive Genetics, Y ang z hou U niversity , Y ang z hou 225009, Ch ina)
Abstract T he stat ist ical theo rem and m ethod of ridge regression w ere in troduced, and the difference and rela2
t ionsh ip betw een ridge regression and tradit ional regression w ere expounded. T he stat ist ical criteria fo r evaluat2
ing the gain and lo ss of ridge regression w ere p resen ted. T he app licab le occasions of ridge regression in the field
of crop science and quan t ita t ive genet ics w ere suggested, and an examp le concerned w ith individual select ion in
w heat breeding w as used to exp lain the app licat ion and calcu lat ing p rocedure of ridge regression.
Key words R idge trace; R idge regression; I112condit ioned m atrix; B iased est im at ion
脊回归是在自变数信息矩阵的主对角线元素上
人为地加入一个非负因子 Η, 从而使回归系数的估
计稍有偏差、而估计的稳定性却可能明显提高的一
种回归分析方法。近年来, 它在工业生产、工程技
术、环境保护等方面已有较多应用[ 1~ 3 ]。本文试图
将这种方法引入生物学领域, 特别是作物科学和数
量遗传学领域, 并结合我们的工作提出一些评价标
准和应用注意, 供有关研究者参考。文中统计符
号, 如无说明, 均参照文献[4 ]。
1 脊回归的统计基础
1. 1 脊迹的概念
线性回归分析的正规方程组可以写成:
X′X b = X′Y, (1)
其最小平方解则为:
b = (X′X ) - 1X′Y. (2)
式 (1)和 (2)中的 X 为自变数的 n×m 阶矩阵; X′为
X 的转置; (X′X ) 为对称的 m ×m 阶方阵;
(X′X ) - 1为 (X′X ) 的逆阵; Y 为依变数的 n×1 向
量; b 为待解元、即回归系数的m ×1 向量。这里的
n 为观察值组数, m 为待估计的回归系数数。在生
物学研究中, 往往又特称上述的X 为模型矩阵或设
计矩阵, X′X 为信息矩阵[ 5~ 7 ]。
如果我们在 (X′X ) 的主对角线元素上加入一个
非负因子 Η, 即令:
b (Η) = (X′X + ΗIm ) - 1X′Y (3)
( Im 为m 阶单位矩阵) , 那么 b (Η) 和 b 有何不同呢?
最先研究这一问题的是 Hoerl 和 Kennard [ 8, 9 ]以及
M arquard t [ 10 ] , 他们的基本结果是: b (Η) 是 Η的非
线性函数; Η= 0 时, b (Η) = b 同为最小平方估计数,
即式 (2) 和式 (3) 相等; 而后, 随着 Η的增大, b (Η)
中各元素 bi (Η)的绝对值均趋于不断变小[由于自变
数间的相关, 个别 bi (Η) 可能有小范围的向上波动
或改变正、负号[ 11 ] ], 它们对 bi 的偏差也将愈来愈Ξ 基金项目: 国家自然科学基金资助项目 (39670391)
作者简介: 莫惠栋 (19342 ) , 男, 浙江温岭人, 教授、博士生导师, 研究方向: 生物统计学和数量遗传学
Received on (收稿日期) : 2001209210, A ccep ted on (接受日期) : 2001211222
大; 如果 Η→∞, 则 b (Η) →0。b (Η) 随 Η的改变而变
化的轨迹, 就称为脊迹, 参见图 1。脊迹图表明, Η
的加入使 b (Η)成为回归系数的有偏 (偏低)估计数。
图 1 脊迹: 表明 b (Η)随 Η而改变的趋势
F ig 1 R idge trace: indicating a tendency
of b (Η) as Ηincreases
1. 2 Η的效应
实际上, Η的加入会影响到回归分析中的许多
统计数[下文在这些统计数之后均加标 (Η) , 以与最
小平方估计、即 Η= 0 的统计数相区别 ], 而不仅是
上述的 b (Η)。其中最重要的还有以下两项:
1 ) 随着 Η的增大, 离回归平方和 Q (Η) =2 [Y - Yδ(Η) ]2 和离回归均方 s2 (Η) = Q (Η) ö(n - m -
1) 都将不断增大, 亦即必有Q (Η) > Q 和 s2 (Η) > s2。
这是随着 Η增大 b (Η) 的偏差也愈来愈大的直接反
应。
2) 随着 Η的增大, (X′X + ΗI ) 的逆阵、即 (X′X
+ ΗI ) - 1的主对角元素 cii (Η) ( i= 1, 2, ⋯, m ) 将不
断减小, 亦即必有 cii (Η) < cii。这也是 Η的直接效
应。
由于回归系数的误差均方 s2bi = ciis2, 所以在 Η
适当时可能使 cii (Η) s2 (Η) < cii s2 和∑m
1
s
2
bi (Η) < ∑m
1
s
2
bi,
即回归系数的误差均方之和较 Η= 0 时为小。这意
味着b (Η) 的估计将比 b 更稳定。这就是采用脊回归
的基本出发点。下面以一简例说明以上特征。
设有资料:
X′= (- 0. 50, - 0. 25, - 0. 25, - 0. 25,
0, 0. 25, 0. 50, 0. 50) ,
Y′= (35, 40, 36, 38, 40, 43, 45, 43).
由之可得: X′X = 1, X′Y= 8. 75。当取不同 Η值时,
其 c11 (Η) = (X′X + ΗI ) - 1 (本例是一元回归, 故只有
一个主对角元素 c11, 并且 I = 1) , b (Η) = (X′X +ΗI) - 1X′Y, 回归方程 Yδ(Η) = yθ+ b (Η)X , 离回归平方
和Q (Η) = ∑[Y - Yδ(Η) ]2 和回归系数的误差平方和
c11 (Η)Q (Η)可列于表 1; 其脊迹则示于图 1。
在表 1 中, Η= 0 行的统计数为无偏 (最小平方)
估计, 其余行均为有偏估计。可以直观地看出, 随
着 Η增大, c11 (Η) 和 b (Η) 均不断减小, 而Q (Η) 则不
断增大。但是 c11 (Η) 和Q (Η) 的积却不是单调地上升
或下降, 例如 Η= 0. 1 和 0. 2 时的 c11 (Η)Q (Η) 小于Η= 0时的对应值, 而 Η≥0. 3 时的 c11 (Η)Q (Η) 大于Η= 0时的对应值。所以脊回归分析的关键是要确定
cii (Η)和Q (Η) 达到合理平衡的一个 Η值。该 Η值应
当: ①是尽可能小的数; ②可保证cii (Η)Q (Η) 明显地
小于 ciiQ。前者使回归系数的估计只产生有限偏差,
后者使估计的稳定性明显提高。
表 1 不同 Η值的回归系数 b (Η)、回归方程 Yδ(Η)和
离回归平方和Q (Η)
Table 1 An example: regression coeff ic ien t b (Η) , equation
Yδ(Η) and residual SS Q (Η) depending on ΗΗ c11 (Η) b (Η) Yδ(Η) Q (Η) c11 (Η)Q (Η)
0. 0 (1. 0+ 0. 0) - 1= 1 8. 75 40+ 8. 75X 11. 4375 11. 4375
0. 1 (1. 0+ 0. 1) - 1= 0. 9091 7. 95 40+ 7. 95X 12. 0775 10. 9775
0. 2 (1. 0+ 0. 2) - 1= 0. 8333 7. 29 40+ 7. 29X 13. 5691 11. 3076
0. 3 (1. 0+ 0. 3) - 1= 0. 7692 6. 73 40+ 6. 73X 15. 5179 11. 9364
0. 4 (1. 0+ 0. 4) - 1= 0. 7143 6. 25 40+ 6. 25X 17. 6875 12. 6342
0. 5 (1. 0+ 0. 5) - 1= 0. 6667 5. 83 40+ 5. 83X 19. 9639 13. 3093
1. 0 (1. 0+ 1. 0) - 1= 0. 5 4. 38 40+ 4. 38X 30. 5781 15. 2890
2 脊回归程序
2. 1 模型变换
通常的线性回归模型为:
Y j = Β0 + Β1X 1j + Β2X 2j
+ ⋯ + ΒmX m j + Εj , (4)
具有:
X =
1 X 11 X 21 ⋯ X m 1
1 X 12 X 22 ⋯ X m 2
1 X 1n X 2n ⋯ X m n n× (m + 1)
, Β= Β0Β1Βm (m + 1)×1 , Y = Y 1Y 2Y n n×1.
该模型中回归系数 Β的最小平方估计为:
434 作 物 学 报 28 卷
b = (X′X ) - 1X′Y
= (b0, b1, b2, ⋯, bm )′. (5)
脊回归分析通常要先对 X 变数作中心化和标
量化处理, 以使不同自变数处于同样数量级上而便
于比较。这就是引入新变数 Z , 令
Z ij = (X ij - xθ i) ö ∑x 2i
( i = 1, 2, ⋯, m ; j = 1, 2, ⋯, n). (6)
于是式 (4)变为:
Y j - yθ = ΒZ1 Z 1j + ΒZ2 Z 2j
+ ⋯ + ΒZm Zm j + Εj , (7)
具有:
Z =
Z 11 Z 21 ⋯ Zm 1
Z 12 Z 22 ⋯ Zm 2
Z 1n Z 2n ⋯ Zm n n×m
, ΒZ = ΒZ1ΒZ2ΒZm m ×1 , (Y - yθ I n) = Y 1 - yθY 2 - yθ Y n - yθ n×1 .
上述 ΒZ表示回归系数 Β是由 Z 变数估计, 它
们在统计上又称为标准化回归系数。ΒZ的最小平方
估计为:
bZ = (Z′Z) - 1Z′(Y - yθ I n)
= (Z′Z) - 1Z′Y
= (bZ1 , bZ2 , ⋯, bZm )′ (由于 Z′In = 0).
(8)
所以在实际分析中, 依变数可仍用观察值向量 Y 而
不用中心化向量 (Y- yθ I ) , 只要最后在回归方程中
记:
yθ = bZ0. (9)
这里应注意到, 同一资料的式 (5) 和式 (8) 是精
确对应的, bi 和 bZi 具有关系:
bi = bZi ö ∑x 2i , b0 = yθ - ∑m
1
bixθ i. (10)
2. 2 合适 Η值 (记为 Η3 )的确定
从理论上说, Η3 应当是既减小了 b 的误差均
方, 又使 b 的偏性尽可能地小。它在脊迹图上就是
bZ (Η) 已较少随 Η的变化而变化时的一个最可能小
的 Η值。但在多个自变数时, 选代试做脊迹图比较
麻烦, 影响实际应用。现在比较普遍采用的是 Ho2
erl 等建议的计算公式[ 12 ]:Η3 = m s2ö∑m
1
(bZi ) 2. (11)
上式中的m 为回归模型的参数数目 (不包括 Β0) ; s2
为资料配合式 (4) 或 (7) 的离回归均方 (结果同) ; bZi
为对于 ΒZi 的最小平方估计数, 即式 (8) 中元素。式
(11)实际上是离回归均方对回归系数平方平均值的
一个比率。它与 s2 成正比, 与∑ (bZi ) 2 成反比; 包含
了回归系数均方和偏回归平方和两个方面的信息。
一般情况下 Η3 ≯0. 5, 尤以< 0. 1 为多。
式 (11) 表明, 为了进行脊回归分析, 需先配合
式 (7)模型, 得到 s2 和 bZi。
2. 3 脊回归分析
脊 回归模型仍用式 ( 7 ) , 只是将 ΒZ 换成ΒZ (Η3 ) :
[ΒZ (Η3 ) ]′= [ΒZ1 (Η3 ) , ΒZ2 (Η3 ) , ⋯, ΒZm (Η3 ) ].
(12)
其估计数则为:
bZ (Η3 ) = (Z′Z + Η3 Im ) - 1Z′Y
= [bZ1 (Η3 ) , bZ2 (Η3 ) , ⋯, bZm (Η3 ) ]′. (13)
由于 bZ (Η3 )不满足最小平方条件, 故离回归平方和
Q (Η3 )和均方 s2 (Η3 )应由以下式直接求得:
Q (Η3 ) = ∑[Y - Yδ(Η3 ) ]2
= [Y - ZbZ (Η3 ) ]′[Y - ZbZ (Η3 ) ], (14)
s
2 (Η3 ) = Q (Η3 ) ö(n - m - 1). (15)
2. 4 模型表达
脊回归方程可直接表示为:
Yδ(Η3 ) = yθ + bZ1 (Η3 ) Z 1j + bZ2 (Η3 ) Z 2j
+ ⋯ + bZm (Η3 ) Zm j. (16)
如果用原观察单位表达更为适宜, 则可写作:
Yδ(Η3 ) = b0 (Η3 ) + b1 (Η3 )X 1j + b2 (Η3 )X 2j
+ ⋯ + bm (Η3 )X m j. (17)
式 (17)中的
bi (Η3 ) = bZi (Η3 ) ö ∑x 2i ,
b0 (Η3 ) = yθ - ∑m
1
bi (Η3 ) xθ i. (18)
式 (18) 即式 (10) , 只是 (10) 用于 bi 和 bZi 的变换;
(18)用于 bi (Η3 )和 bZi (Η3 )的变换。
2. 5 脊回归评价
脊回归是有得有失的。“得”是由于估计稳定性
提高、回归系数的误差均方减少; “失”是由于有偏
估计、离回归均方增大。因此作者建议以得率 (ga in
facto r, GF) 和失率 ( lo ss facto r, L F ) 评价其统计效
果。它们分别是引入 Η3 后回归系数的误差均方之和
减小和离回归均方增加的成数, 即:
5344 期 莫惠栋: 脊回归技术及其应用
GF = [∑
m
1
s
2
bi - ∑
m
1
s
2
bi (Η3 ) ]ö∑m
1
s
2
bi × 100%
=
[s2∑
m
1
cii - s
2 (Η3 )∑m
1
cii (Η3 ) ]
s
2∑
m
1
cii
× 100% , (19)
L F = [s2 (Η3 ) - s2 ]ös2 × 100%. (20)
3 脊回归分析实例
3. 1 资料
考察丰产 3 号小麦的每株穗数 (X 1)、每穗结实
小穗数 (X 2)、百粒重 (X 3, 克) 和籽粒产量 (Y , 克)
的关系, 得结果于表 2 的列 (1)~ (4) ; 根据式 (6)得
到X ij的相应转换值 Z ij则列于表 2 的列 (5)~ (7)。
表 2 丰产 3 号小麦的每株穗数 (X 1)、每穗结实小穗数
(X 2)、百粒重 (X 3)和每株籽粒产量 (Y)
Table 2 Number of sp ikes per plan t (X 1) , num ber of sp ikelets
w ith grains per sp ike (X 2) , we ight of 100 gra in s(X 3) and gra in
y ield per plan t(Y) of wheat cultivar FengChan No3
(1)
X 1
(2)
X 2
(3)
X 3
(4)
Y
(5)
Z 1
(6)
Z 2
(7)
Z 3
10 23 3. 6 15. 7 0. 103510 0. 233136 0. 088852
9 20 3. 6 14. 5 - 0. 069007 - 0. 422559 0. 088852
10 22 3. 7 17. 5 0. 103510 0. 014571 0. 236940
13 21 3. 7 22. 5 0. 621059 - 0. 203994 0. 236940
10 22 3. 6 15. 5 0. 103510 0. 014571 0. 088852
10 23 3. 5 16. 9 0. 103510 0. 233136 - 0. 059235
8 23 3. 3 8. 6 - 0. 241523 0. 233136 - 0. 355409
10 24 3. 4 17. 0 0. 103510 0. 451701 - 0. 207322
10 20 3. 4 13. 7 0. 103510 - 0. 422559 - 0. 207322
10 21 3. 4 13. 4 0. 103510 - 0. 203994 - 0. 207322
10 23 3. 9 20. 3 0. 103510 0. 233136 0. 533114
8 21 3. 5 10. 2 - 0. 241523 - 0. 203994 - 0. 059235
6 23 3. 2 7. 4 - 0. 586556 0. 233136 - 0. 503497
8 21 3. 7 11. 6 - 0. 241523 - 0. 203994 0. 236940
9 22 3. 6 12. 3 - 0. 069007 0. 014571 0. 088852
平均数
M ean
9. 4 21. 93 3. 54 14. 4733 0 0 0
平方和
S S
33. 6 20. 93 0. 456 239. 8893 1 1 1
3. 2 常规回归分析
从表 2 的列 (1)~ (4) 以常规方法配合式 (4) 模
型得到回归方程 (A ) [ 4 ]:
(A ) Yδ = - 46. 9663 + 2. 0131X 1
+ 0. 6746X 2 + 7. 8302X 3.
当应用式 (7) 模型配合时, 从表 2 的列 (5)~ (7) 和
(4)得到正规方程组:
1 - 0. 135742 0. 500730
- 0. 135742 1 - 0. 148887
0. 500730 - 0. 148887 1
bZ1
bZ2
bZ3
Z′Z bZ
=
13. 89792037
0. 71543641
10. 67116503
.
= Z′Y.
其最小平方解为:
bZ1
bZ2
bZ3
=
1. 341489 0. 083946 - 0. 659225
0. 083946 1. 027923 0. 111010
- 0. 659225 0. 111010 1. 346622
bZ = (Z′Z) - 1
13. 89792037
0. 71543641
10. 67116503
Z′Y,
=
11. 669263
3. 086699
5. 287585
.
即有回归方程 (B ) :
(B ) Yδ = 14. 4733 + 11. 6693Z 1
+ 3. 0867Z 2 + 5. 2876Z 3.
这里可注意: ①上述 Z′Z 实际上就是X 变数的
相关矩阵, 其中元素即 X 变数的有关相关系数[故
实践上 Z′Z 可直接由表 2 的列 (1)~ (3) 得出 ]; 但
Z′Y 不是相关系数, 因为 Y 未标准化。②上述方程
(A )和 (B )只是表达不同, 实际关系完全一样, 由式
(10)即可将 (B ) 还原为 (A ) , 例如 b1= bZ1 ö ∑x 21 =
11. 6693ö 33. 6= 2. 0131, ⋯等。③方程 (A ) 和 (B )
的离回归均方等也都是相同的, 如Q = 19. 0779, s2
= 1. 7344; 回归系数的误差均方之和则为∑
m
1
s
2
bi=
s
2 (c11 + c22 + c33) = 1. 7344 (1. 341489 + 1. 027923
+ 1. 346622) = 6. 4451.
3. 3 脊回归计算
根据式 (11) , 从上述结果可计算 Η3 :Η3 = 3 × 1. 7344ö173. 6580 = 0. 02996≈ 0. 03.
故脊回归分析的方程组为:
1. 03 - 0. 135742 0. 500730
- 0. 135742 1. 03 - 0. 148887
0. 500730 - 0. 148887 1. 03
bZ1 (Η3 )
bZ2 (Η3 )
bZ3 (Η3 )
(Z′Z+ 0. 03I ) - 1 bZ (Η3 )
=
13. 89792037
0. 71543641
10. 67116503
.
= Z′Y.
634 作 物 学 报 28 卷
其解为:
bZ (Η3 ) = 1. 277806 0. 080283 - 0. 609595 0. 080283 0. 996637 0. 105035
- 0. 609595 0. 105035 1. 282409
(Z′Z+ 0. 03I) - 1
13. 89792037
0. 71543641
10. 67116503
Z′Y
=
11. 311196
2. 949642
5. 287838
.
即表 2 资料有脊回归方程 (C) :
(C) Yδ(Η3 ) = 14. 4733 + 11. 3112Z 1
+ 2. 9496Z 2 + 5. 2878Z 3.
或根据 (18)得出自变数为原观察单位的脊回归方程
(D )为:
(D ) Yδ(Η3 ) = - 45. 7301 + 1. 9514X 1
+ 0. 6447X 2 + 7. 8306X 3.
上述方程 (C) 和 (D ) 的离回归平方和均为: Q
(Η3 ) = [ Y- ZbZ ( Η3 ) ]′[ Y - ZbZ ( Η3 ) ] = [ Y - X b
(Η3 ) ]′[ Y - X b ( Η3 ) ] = 19. 2153, 即 s2 ( Η3 ) =
1. 7468; 而∑
m
1
s
2
bi ( Η3 ) = 1. 7468 ( 1. 277806 +
0. 996637+ 1. 282409) = 6. 2131。
3. 4 脊回归与常规回归分析的比较
根据式 (19)和 (20) , 从上述结果可得:
GF = (6. 4451 - 6. 2131) ö6. 4451 × 100%
= 3. 6% ,
L F = (1. 7468 - 1. 7344) ö1. 7344 × 100%
= 0. 7%.
这表明本例引入 Η3 = 0. 03 后, 离回归均方仅增加
0. 7% , 而回归系数的误差均方却减少 3. 6% , 确实
达到了估计数的偏性较小而估计稳定性明显提高的
目标。
3. 5 脊迹
表 3 列出本例的 3 个回归系数在 Η取 0~ 0. 1
区间的一些脊迹值。由之可以看出, 随着 Η的增大,
各 bi (Η)的总趋势均变小, 且下降速率愈来愈慢; 但
b3 (Η) 在 Η= 0. 00~ 0. 03 之间表现出微小的向上波
动, 显示百粒重增加对提高单株产量的高度稳定
性。Η3 = 0. 03 时的 bi (Η) 与 Η= 0 (最小平方估计) 的
bi 接近则表明偏差较小。
表 3 表 2 资料回归系数的脊迹
Table 3 R idge trace of regression coeff ic ien ts
for the data in Table 2Η b1 (Η)(克ö穗)
(gösp ike) b2 (Η)(克ö小穗)(gösp ikelet) b3 (Η)(克ö克)(gög)
0. 00 2. 01314 0. 67464 7. 83024
0. 01 1. 99199 0. 66441 7. 83249
0. 02 1. 97141 0. 65443 7. 83256
0. 03 1. 95137 0. 64469 7. 83061
0. 04 1. 93184 0. 63518 7. 82681
0. 05 1. 91280 0. 62590 7. 82129
0. 10 1. 82425 0. 58262 7. 77210
4 脊回归的应用
脊回归对最小平方法是一种挑战, 它表明满足
最小平方条件的估计数 (这里是回归系数)并非在各
方面都尽善尽美; 如果可以引入一个小小的偏差
(这里是 Η3 ) , 有可能获得更好的统计结果 (这里是
回归系数的误差均方之和更小)。但是脊回归只是
常规回归方法的一种补充而不是替代。作者认为以
下 4 种情况可能是特别值得推荐作脊回归分析的。
4. 1 当X 变数间存在高度线性相关时
一般地说, 若 X 的任两列间相关系数 r >
0. 99, 则 Z′Z 的逆阵将极度“膨胀”, 造成回归估计
数的很大误差。如果加入 Η, (Z′Z+ ΗI ) - 1就会迅速
“缩小”, 于是估计数的稳定性和精确度都得到提
高。
例: 设有资料
X′1 = (4, 4, 7, 7, 7. 1, 7. 1) ,
X′2 = (16, 16, 49, 49, 50. 41, 50. 41)
这里的 X 1 和 X 2 的相关系数 r= 0. 9999, 属高
度线性依赖。该资料按式 (6) 变换后, 得到的 (Z′Z)
和 (Z′Z) - 1为:
(Z′Z) = 1 0. 999969373
0. 999969373 1
,
(Z′Z) - 1 = 16326. 2640 - 16325. 7640
- 16325. 7640 16326. 2640
.
如果加入 Η= 0. 1, 则有:
(Z′Z + 0. 1I) = 1. 1 0. 999969373
0. 999969373 1. 1 ,
(Z′Z + 0. 1I ) - 1 = 5. 2366 - 4. 7604
- 4. 7604 5. 2366
.
4. 2 当 Z′Z 的行列式值很小时
回归分析中, Z′Z 的行列式值 det (Z′Z) 是一个
非常重要的数, 例如计算 (Z′Z) - 1中的任何一个元
7344 期 莫惠栋: 脊回归技术及其应用
素都要用到以 det (Z′Z)为除数。当 det (Z′Z) < 0. 01
时, Z′Z 常被称为病态矩阵[ 13, 14 ] , 因为这种矩阵在
计算过程中极易造成约数误差 ( roundoff erro r) , 即
使在计算机上应用双精度算术也难以避免[ 2 ]。由此
得到的统计数往往缺乏稳定性和可靠性。在数量遗
传学中, 较为突出的一个例子是M ather 和 J ink s 的
P 1、P 2、F 1、F 2、B 1、B 2 六世代平均值配合加性- 显
性- 上位性 6 参数的遗传模型[ 5 ]。据作者计算, 该
模型的 det (Z′Z) = 0. 0040, 存在明显病态。所以,
如果 6 个参数都存在, 其估计数是相当不稳定、不
可靠的。如在 Z′Z 中加入 Η, det (Z′Z+ ΗI )的值就能
迅速变大, 从而改进了估计数质量。此研究详情另
发。
4. 3 当较小的回归系数有其理论上和ö或实践上的
合理性时
由于总体上脊回归系数 bi (Η3 ) 的绝对值总是小
于 bi 的绝对值, 故在有关专业中此种变小应当有其
合理依据, 例如较小的回归系数可靠度较高或可信
度更大等。前述的丰产 3 号小麦例可认为属于此
类: 每增加 1 穗、1 个结实小穗可依次提高单株籽
粒产量 1. 95 克、0. 64 克 (方程 D ) 的目标, 要比
2. 01克、0. 67 克 (方程A )更有把握达到。
4. 4 当 (bZi ) 2 的均值在离回归均方 s2 的 10 倍以下
时
这是对式 (11) 的一个解释, 表明若 Η3 > 0. 1,
特别需要应用脊回归以提高估计数的稳定性, 虽然
这种估计数的偏性也将是较大的。
References
[ 1 ] Hoerl A E, Kennard RW. R id g e reg ression: ad vances, a lg o2
rithm s and app lica tions. OH: Am erican Sciences P ress,
1981
[ 2 ] D raper N R , Sm ith B. A pp lied reg ression ana ly sis, 3rd ed.
N ew Yo rk: John W iley & Sons, 1998, 387~ 408
[ 3 ] M arquardt DW , Snee RD. R idge regression in p ractice. T he
A m erican S ta tistician, 1975, 29: 3~ 19
[ 4 ] M o HD (莫惠栋). A g ricu ltu ra l E xp erim en ta tion (农业试验统
计) , 2nd ed. Shanghai: Shanghai Sci & T ech P ress, 1992,
467~ 602
[5 ] M ather K, J ink s JL. B iom etrica l g enetics, 3rd ed. Iondon:
Chapm an & H all, 1982
[6 ] Box GEP, H unter W G, H unter JS. A n in trod uction to d e2
sig n, d a ta ana ly sis and m od el bu ild ing. N ew Yo rk: John
W iley & Sons, 1978
[ 7 ] L ynch M , W alsh B. Genetics and ana ly sis of quan tita tive
tra its. Sunderland: Sinauer A ssociates Publishers, 1998
[8 ] Hoerl A E, Kennard RW. R idge regression: b iased estim a2
t ion fo r non2o rthogonal p rob lem. T echnom etrics, 1970, 12:
55~ 67
[ 9 ] Hoerl A E, Kennard RW. R idge regression: app lications to
non2o rthogonal p rob lem. ibid , 1970, 12: 69~ 82
[ 10 ] M arquardt DW. Generalized inverses, ridge regression, b i2
ased linear estim ation and nonlinear estim ation. ibid , 1970,
12: 591~ 612
[ 11 ] M ullett GM. W hy regression coefficien ts have the w rong
sign. J . of Q ua lity T echnology , 1976, 8: 121~ 126
[ 12 ] Hoerl A E, Kennard RW , Baldw in KF. R idge regression:
som e sim ulation. Comm unica tions in S ta tistics, 1975, A 4:
105~ 123
[13 ] Belsley DA. Cond ition ing d iag nostics, collinearity and w eak
d a ta in reg ression. N ew Yo rk: John W iley & Sons, 1991
[ 14 ] Chen JL (陈景良) , Chen XH (陈向晖). S p ecia l m a trix es (特
殊矩阵). Beijing: Q ing2H ua U niv P ress, 2001, 154~ 162
834 作 物 学 报 28 卷