全 文 :Vol. 29 , No. 6
pp. 884~891 Nov. , 2003
作 物 学 报
ACTA AGRONOMICA SINICA
第 29 卷 第 6 期
2003 年 11 月 884~891 页
作物品种区域试验中品种均值估计的模型和方法
———算术平均值、加权最小二乘估值和 BL UP的比较
张群远1 孔繁玲1 , 3 杨付新2
(1中国农业大学植物遗传育种系 ,北京 100094 ; 2中国农业科学院棉花研究所 ,河南安阳 455112)
摘 要 针对作物区域试验中的品种均值估计问题 ,根据混合线性模型的一般原理 ,总结和提出多种加权最小二乘估计
(WLSE)和最佳线性无偏预测 (BLUP)的方法 ,推导了这些方法的平衡数据计算简式 ;同时 ,利用 14 套 2 年多点的棉花区
试资料和一套 4 年多点的棉花品种试验对这些方法的预测效果进行验证比较。结果表明 ,与算术平均值相比 ,以环境内
误差方差倒数加权的 WLSE估值的预测精度 (包括预测差的大小和品种排名的一致性) 明显不同 ,但其高低因数据而异 ;
其他 WLSE估值以及 BLUP的预测结果差别不大 ,和算术平均值以及相互间的相关系数和秩相关系数均在 0193 以上。Ξ
关键词 区域试验 ;算术平均值 ;加权最小二乘估计 ;BLUP
中图分类号 : O212 文献标识码 : A
Models and Methods for Estimating Variety Means in Regional Crop Trials
———Comparisons of Arithmetic Mean , Weighted Least Squares Estimates and BL UPs
ZHANG Qun2Yuan 1 KONG Fan2Ling 1 YANG Fu2Xin 2
(1 Department of Plant Genetics and Breeding , China Agricultural University , Beijing 100094 ; 2 Institute of Cotton , Chinese Academy of Agricultural Science , An2
yang , Henan 455112 , China)
Abstract Based on the mixed linear model , several weighted least squares estimates(WLSEs) and best linear unbiased
predictors(BLUPs) were summarized and proposed for estimating variety means in regional crop trials , and the correspond2
ing calculating formulae were derived and presented for balanced data1 The data of 14 rounds of 22year2multi2location re2
gional cotton trials and a 42year2multi2location cotton trial were used to compare the predictive efficiencies of arithmetic
means , WLSEs and BLUPs1 The results showed that the predictive differences and variety ranks of the WLSE weighted by
the reciprocals of error variances within environments (WLSEe) differed significantly from that of the arithmetic means , but
the predictive accuracy of WLSEe increased or decreased irregularly in different trials ; the predictive results of other WLSEs
and BLUPs were similar to that of the arithmetic means , the correlation coefficients and rank correlation coefficients between
them were all above 01931
Key words Regional trial ; Arithmetic mean ; Weighted least squares estimate ; BLUP ; Prediction
作物品种区域试验 (简称区试) 中 ,品种 ×环境
组合均值 (即某品种在某参试环境中的性状均值)和
品种均值 (即某品种在所有参试环境中的性状均值)
是两种最基本的统计数 ,是分析和评价品种的主要
依据。通常 ,它们都由算术平均的方法获得 ,但算术
平均值不一定是最精确的估值[1 ,2 ] 。张群远等曾利
用我国区试数据 ,对品种 ×环境组合均值的几种主
要估计方法作过比较[2 ] ,本文则专门探讨区试中品
种均值估计的模型和方法问题 ,并利用我国区试数
据和专设的多年多点试验数据对各种方法的精度作
比较 ,旨在为区试中品种均值估计方法的选择或改
进作探索。Ξ基金项目 :国家自然科学基金资助项目 (30070433) 。
作者简介 :张群远 (1970 - ) ,男 ,云南宣威人 ,博士 ,副教授 ,研究方向 :生物统计学和统计遗传学。3 通讯作者 :孔繁玲 ,女 ,教授 ,博士生导
师 ,Tel :62893397。
Received (收稿日期) :2002209205 ,Accepted (接受日期) :20022112121
1 材料与方法
111 品种均值估计的模型和方法
作物品种区试是在多环境中实施同一套试验方
案 ,其品种均值的估计属于多套试验的合并分析问
题。以往的研究或应用中 ,除算术平均外 ,品种均值
估计的其他一些方法基本上是基于加权平均的思
想 ,所采用的“权”有误差方差倒数、环境内剩余方差
倒数、环境内遗传力、与参照环境的距离的倒数
等[3~5 ] 。这些加权方法是经验性的 ,缺乏完整的统
计学依据 ,为此 ,本文利用混合线性模型的理论来统
一阐述品种均值估计方法。
区试中第 i 个品种在第 j 个环境中的第 k 次重
复观测值的线性模型可写为 :
Yijk = μ + gi + ej +θij +εijk (1)
μ为观测值的总体均值 ; gi 为第 i 个品种的效
应 ; ej 为第 j 个环境的效应 ;θij 为第 i 个品种与第 j
个环境的基因型 ×环境 ( GE) 互作效应 ;εijk为第 i 个
品种在第 j 个环境中的第 k 次重复观测值的误差。
上式也可表达为更为一般的混合线性模型[6 ,7 ] 的矩
阵形式 :
Y = Xb + Zu + Iε (2)
Y为观测值向量 ; b 为固定效应向量 ; X 为固定
效应的系数矩阵 ; u 为随机效应向量 ,通常假设其均
值为 0 ,具有方差协差阵 G ; Z 为随机效应的系数矩
阵 ;ε为误差向量 ,通常假设其均值为 0 ,具有方差协
差阵 R ; I 为单位矩阵。通过广义最小二乘方程组
和混合模型方程组可获得固定效应 b 的最佳线性
无偏估计 (best linear unbiased estimate ,BLUE) 以及随
机效应 u 的最佳线性无偏预测值 (best linear unbi2
ased prediction BLUP) [6~8 ] 。
估计品种均值 ,就是要估计 (1)式中的总均值μ
与品种效应 gi 之和。μ通常为固定效应 ,包含在
(2)式的 b 中 ; gi 若为固定效应 ,也包含在 b 中 ,若
为随机效应 ,则包含在 u 中 ,所以品种均值的估计
受方差协差阵 G 和 R 的影响。G 和 R 的构成是由
不同效应的固定或随机以及误差方差的同质或异质
的假设来决定的 ,不同假设下 G 和 R 的组成不同 ,
由此也就产生了品种均值的不同估计方法。品种效
应固定假设下得到的品种均值为 BLUE;品种效应随
机假设下得到的品种均值为 BLUP。
考虑到计算和应用的方便 ,本文附录中对 v 个
品种、s 个环境的平衡数据 ,以 r 次重复均值为基
础 ,推导了混合模型的几种主要假设下品种均值的
计算简式。将附录中各公式的误差方差 (σ2 和σ2j )
替换成单个观测值的误差方差除以重复数 r 的形式
(σ2eΠr 和σ2e( j) Πr) ,即可得到品种均值的各种估算公
式 ,列于表 1。表中μ均为固定效应 ,误差均为随机
效应 ;σ2e( j) 表示环境 j 内的误差方差 ;误差同质 (或
异质)指各环境中的试验误差方差同质 (或异质) ;剩
表 1 混合线性模型几种主要假设下品种均值估值的名称及平衡数据计算简式
Table 1 Calculating formulae for balanced data under several main assumptions of mixed linear model
模型假设
Effects assumptions in model
估值类型
Types of estimates
品种 i 的均值计算式
Calculating formulae for the i th variety mean
品种和环境固定 ,误差同质
Varieties and environments fixed errors homologous
最小二乘估计 (算术平均)
LSE(arithmetic mean)
1
s 6sj = 1
Y ij
品种和环境固定 ,误差异质
Varieties and environments fixed errors heterologous
加权最小二乘估计
WLSEe
6sj = 1
Y ijσ2e( j)Πr 6sj = 1 1σ2e( j) Πr
品种和环境固定 ,剩余方差异质
Varieties and environments fixed residual variances heterologous
加权最小二乘估计
WLSER
6sj = 1
Y ijσ2R( j) 6sj = 1 1σ2R( j)
品种固定 ,环境随机 ,误差异质
Varieties fixed , environments random errors heterologous
加权最小二乘估计
WLSEE
6sj = 1
Y ijσ2E + σ2GE +σ2e( j)Πr 6sj = 1 1σ2E + σ2GE +σ2e( j)Πr
品种固定 ,环境随机 ,剩余方差异质
Varieties fixed , environments random residual variances heterologous
加权最小二乘估计
WLSEER
6sj = 1
Y ijσ2E + σ2R( j) 6sj = 1 1σ2E +σ2R( j)
品种随机 ,环境固定 ,误差同质
Varieties random , environments fixed errors homologous
最佳线性无偏预测
BLUP0
Y + σ2Gσ2G +σ2GEΠs +σ2eΠsr (
Y i -
Y)
品种和环境随机 ,误差同质
Varieties and environments random errors homologous
最佳线性无偏预测
BLUP1
Y + σ2Gσ2G +σ2EΠs +σ2GEΠs +σ2eΠsr (
Y i -
Y)
588 6 期 张群远等 : 作物品种区域试验中品种均值估计的模型和方法
余方差指环境内互作和误差的混合方差 ;σ2R( j) 为环
境 j 内的 GE互作和误差的混合方差 ;σ2G、σ2E 、σ2GE和
σ2e 分别指基因型、环境、GE 互作以及误差的方差 ; s
和 r 分别指环境数和环境内重复数 ,其余符号含义
见附录。
从表 1 可看出 ,品种效应固定时的某品种均值
的估计 ,都是加权平均值 ,而“权”就是对应模型假定
下品种 i 在环境 j 中的算术平均值
Yij自身方差的倒
数 ,这意味着某环境中各个
Yij 自身的变异越小 ,其
值对品种均值的贡献越大。品种效应随机时的品种
均值的 BLUP 值 ,则是一种“收缩”的预测值 ,相当于
用对应模型假定下品种均值的重复力对品种效应进
行“收缩”。若品种均值的重复力越小 ,对试验中的
品种表型效应估值 (即
Yi -
Y) 就越持“谨慎”态度 ,
也就是根据表型值对品种进行选择后获得的期望的
遗传进展越小 ,这与我们的实际经验是吻合的。从
这一个角度看 ,尽管品种随机的假设与我们区试中
的习惯做法 (即品种固定) 不太一致 ,但也有其合理
性。
112 数据来源和试验方案
为比较表 1 中各种估值的统计精度 ,采用两类
数据进行分析。一类是我国区试历史数据 ,即长江
流域春棉 1990~1997 年 ,黄河流域春棉 1986~1996
年以及黄河流域夏棉 1986~1993 年每 2 年为 1 轮的
区试资料 (简称为区试数据) ;另外 ,考虑到以上区试
的年份数只有 2 年 ,对于进行较长年份的预测效果
分析来说有一定局限 ,还采用了一套专设的 4 年多
点的品种试验数据 (简称专设试验数据) 。该试验选
择建国以来黄河流域具有代表性的 10 个棉花品种 ,
连续进行了 4 年的 4~6 个地点的试验 (表 2) ,各点
次均采用随机完全区组设计 ,3~4 次重复 ,3 行区 ,
小区面积 20 m2 ,种植管理和性状考察按国家区试标
准进行。以上两类资料均采用皮棉产量 ,单位为 kgΠ
hm2 。
表 2 4 年多点棉花品种验证试验的设置
Table 2 Information of the 42year2multi2location cotton trial for validation
年份
Years
参试点
Experimetal locations
重复数
Replication numbers
参试品种
Experimetal cultivars
1996 沧州 安阳 西华 临清 4
1997 沧州 安阳 西华 临清 菏泽 3
1998 沧州 安阳 西华 临清 菏泽 运城 3
1999 沧州 安阳 西华 临清 菏泽 运城 3
岱 15 , 徐州 1818 ,徐州 142 ,鲁棉 1 号 ,鲁棉 6
号 ,冀棉 8 号 ,中棉所 12 号 (种质库原种) ,中
棉所 12 号 CK(目前生产用种) ,中棉所 19
号 ,石远 321
113 估值精度的比较方法
根据各轮历史区试中第 1 年的数据计算出各品
种对应于表 1 中的 7 种估值 ,以之作为各品种未来
表现的 7 种预测值 ;然后 ,计算各品种在第 2 年试验
中的算术平均值 ,作为验证值。专设试验则依次根
据 4 年中的每一年计算出品种估值 (即预测值) ,把
其他 3 年的各品种算术平均值作为验证值。计算各
种估计方法所得预测值与验证值之间差值的绝对值
(称为预测差)以及该差值占验证值的百分比 (称为
相对预测差) ,并对每轮验证中所有品种的预测差求
平均 ;同时计算各种估值以及验证值之间的相关系
数和秩相关系数。计算结果列于表 3~表 5。
以上计算中 ,需要估计表 1 公式中的各种方差
组分 ,其中σ2G、σ2E 、σ2GE和σ2e 通过一年多点的方差分
析获得 ;σ2e( j) 则通过第 j 个地点的单一点次的方差
分析获得 (即误差项均方 MSe ) ;剩余方差σ2R( j) 的计
算采用 Shukla (1972)的方法[4 ] 。
2 结果与分析
从表 3 中各种估值各轮验证的预测差来看 ,在
18 轮验证中 ,加权最小二乘估值 (WLSE) 的预测差
小于LSE估值 (即算术平均值) 的有 16 轮 ,但其中
WLSEE 和 WLSEER 与 LSE 的差别不大 , WLSER 和
WLSEe 则分别有 3 轮和 7 轮的预测差明显小于
LSE。预测精度的提高较为明显的 (即预测差明显
小于LSE的) ,大多数是 WLSEe 估值。比如用验证
试验中 1996 年的 WLSEe 估值对 1997~1998 三年的
688 作 物 学 报 29 卷
表 3 几种品种均值估计方法的绝对预测差和相对预测差
Table 3 Absolute and relative predictive differences ( PDs) for variety mean in different estimating methods
试验类型
Trial types
年份 3
Years 3 绝对预测差 (上)和相对预测差 ( %) (下)Absolute PDs(above) and relative PDs( %) (below)
LSE WLSEe WLSER WLSEE WLSEER BLUP0 BLUP1
长江春棉区试
Spring cotton trials
in the Changjiang
River region
1990(1991)
1992(1993)
1994(1995)
1996(1997)
平均 Average
112191 50115 42138 111176 97174 112191 112191
9170 4131 3164 9160 8140 9170 9170
204108 60146 181187 203147 199113 204108 204108
19112 5166 17104 19106 18166 19112 19112
134153 30128 342183 132121 129177 134153 134153
10178 2143 27147 10159 10140 10178 10178
147172 385118 130178 149141 150168 147172 147172
10160 27164 9139 10172 10181 10160 10160
149154 164160 168177 149124 145116 149154 149154
12105 13126 13160 12103 11170 12105 12105
黄河春棉区试
Spring cotton trials
in Yellow River region
1985(1986)
1987(1988)
1989(1990)
1991(1992)
1993(1994)
1995(1996)
平均 Average
298181 380130 312110 301111 309144 298181 298181
27101 34138 28121 27122 27197 27101 27101
525149 518142 535191 526137 524188 525149 525149
77189 76184 79144 78102 77180 77189 77189
125109 43182 83120 120111 121161 125109 125109
14106 4193 9135 13150 13167 14106 14106
498188 348169 515163 499101 498144 498188 498188
102160 71172 106105 102163 102151 102160 102160
152185 185170 244183 153183 163131 152185 155108
18191 22197 30128 19103 20120 18191 19118
68159 206107 99149 68162 79156 69101 72130
8138 25117 12115 8138 9172 8143 8183
271158 277112 293147 271150 276142 271166 272165
34104 34173 36178 34103 34164 34105 34117
黄河夏棉区试
Summer cotton trials in
Yellow River region
1986(1987)
1988(1989)
1990(1991)
1992(1993)
平均 Average
59135 127142 49144 59199 55182 65112 82148
6190 14182 5175 6198 6149 7157 9159
83139 61109 96148 82158 90183 83139 83139
13112 9161 15117 12199 14129 13112 13112
84194 95155 129156 84199 85110 84194 84194
10155 11187 16110 10156 10157 10155 10155
135174 202188 52146 136103 138133 135174 135174
21147 32109 8130 21151 21188 21147 21147
91141 116134 88145 91139 93144 92146 95162
12153 15195 12112 12153 12181 12167 13111
验证试验
Validation trial
1996(97 ,98 ,99)
1997(96 ,98 ,99)
1998(96 ,97 ,99)
1999(96 ,97 ,98)
平均 Average
113103 60192 104165 110170 104122 119147 151127
12177 6189 11183 12151 11178 13150 17110
215160 278141 204136 217135 214176 215160 215160
22166 29126 21148 22184 22157 22166 22166
199152 570125 194120 201125 201144 199152 199152
18194 54114 18144 19111 19113 18194 18194
56190 208104 142105 55120 52151 60111 95129
5177 21109 14140 5160 5132 6109 9166
146126 279141 161132 146113 143123 148168 165142
15109 28183 16165 15108 14178 15134 17107
总平均 Total average
184130 232143 199166 184117 184177 185121 191105
20119 25146 21187 20117 20124 20129 20193
注 : 3 用括号外年份的数据估算各种品种均值 ,对括号内年份的品种试验均值进行预测 (表 4 同) 。
Notes : 3 The data of the years out of brackets were used to estimate variety means to predict variety experimental means in the years in brackets (table 4 is
the same) 1
788 6 期 张群远等 : 作物品种区域试验中品种均值估计的模型和方法
平均结果进行预测 ,其预测差平均为 60192 kgΠhm2 ,
相当于验证均值 884 kgΠhm2 的 6189 % ,而算术平均
值的预测差平均为 113103 kgΠhm2 ,相当于验证均值
的 12177 %。就这一轮验证来看 ,WLSEe 估值的预测
精度高出算术平均值近 1 倍。不过 ,预测差明显大
于LSE 的 ,多数也发生在 WLSEe 估值上。这说明
WLSEe 估值的预测精度比LSE提高或降低的状况不
很稳定。正因为如此 ,从所有轮的总平均来看 ,WL2
SEe 估值的预测差依然大于 LSE。WLSER 也基本类
似 ,但相对而言 ,预测精度明显提高和降低的情况较
少。WLSEE 和 WLSEER则基本上没有预测精度明显
比LSE提高或降低的情况。至于 BLUP 预测值 (包
括BLUP0 和 BLUP1) ,在大多轮的验证中都和 LSE
具有相同的平均预测差 ,少数轮有变化 ,但变化都不
大。另外 ,各种估值 (包括目前常用的算术平均值)
的相对预测差平均都在 20 %以上 ,这从一个侧面说
明 ,仅根据一年的区试结果对品种表现作出估计 ,准
确性不高。
预测差只是预测效果的一个方面 ,对于区试 ,还
要求预测值的品种排名与后续年份中的表现一致 ,
这对于品种比较和选择来说更为重要。为此 ,表 4
计算列出了各种估值和验证值的秩相关系数。从表
中可看出 ,秩相关系数比 LSE 有明显提高和降低
的 ,多数还是 WLSEe 和 WLSER 两种估值 ,而且依然
是 WLSEe 的波动大于 WLSER 的 ,这一点和预测差的
情况相似 ;但是 ,预测差小的情况下 ,秩相关系数不
一定高 ,所有 18 轮的预测差和秩相关系数的相关系
数平均只有 - 01005 ,说明二者之间没有明显相关。
不过 ,验证试验中用 1996 年的 WLSEe 估值对1997~
1998 三年的平均结果进行预测时 ,与 LSE 相比 ,其
预测差从 12177 %减小到 6189 %的同时 ,预测值与
验证值的秩相关系数也从 01830 提高到 01976。各
种估值与验证值的秩相关系数平均为 01811 ~
01824 ,决定系数为 0166~0168 ,说明 1 年的区试尚
不能很好地反映品种在后续年份表现的相对优劣。
表 4 几种品种均值估值与验证值的秩相关系数
Table 4 Rank correlation coefficients between several variety mean estimates and validation data
试验类型
Trials
年份
Years
各种估值与验证值之间的秩相关系数
Rank correlation coefficients between estimates and validation data
LSE WLSEe WLSER WLSEE WLSEER BLUP0 BLUP1
长江春棉 1990 (1991) 11000 11000 11000 11000 11000 11000 11000
1992 (1993) 01900 01900 01600 01900 01800 01900 01900
1994 (1995) 01700 01700 01800 01900 01900 01700 01700
1996 (1997) 01571 01690 01524 01571 01571 01571 01571
长江春棉 (总) 01737 01797 01690 01761 01749 01737 01737
黄河春棉 1985 (1986) 01738 01643 01738 01738 01738 01738 01738
1987 (1988) 01476 01571 01595 01476 01476 01476 01476
1989 (1990) 01905 01786 01833 01905 01905 01905 01905
1991 (1992) 01786 01524 01786 01786 01786 01786 01786
1993 (1994) 01400 01717 01500 01400 01400 01400 01400
1995 (1996) 01983 01783 01950 01983 01967 01983 01983
黄河春棉 (总) 01715 01684 01735 01715 01711 01715 01715
黄河夏棉 1986 (1987) 11000 11000 11000 11000 11000 11000 11000
1988 (1989) 01943 01886 01829 01943 01943 01943 01943
1990 (1991) 01929 01786 01929 01929 01857 01929 01929
1992 (1993) 01500 01500 01300 01500 01500 01500 01500
黄河夏棉 (总) 01881 01806 01821 01881 01851 01881 01881
验证试验 1996(97 ,98 ,99) 01830 01976 01964 01879 01939 01830 01830
1997(96 ,98 ,99) 01915 01939 01915 01915 01915 01915 01915
1998(96 ,97 ,99) 01806 01733 01782 01806 01794 01806 01806
1999(96 ,97 ,98) 01903 01855 01830 01903 01903 01903 01903
验证试验 (总) 01864 01876 01873 01876 01888 01864 01864
总 计 01817 01811 01818 01824 01824 01817 01817
888 作 物 学 报 29 卷
表 5 几种品种均值估值之间的相关系数(上)和秩相关系数(下)
Table 5 Correlation coefficients( above) and rank correlation coefficients( below) between several variety mean estimates
LSE WLSEe WLSER WLSEE WLSEER BLUP0
WLSEe 01843
01868
WLSER 01948 01806
01957 01890
WLSEE 01999 01845 01949
01998 01873 01962
WLSEER 01999 01838 01953 01999
01990 01875 01968 01993
BLUP0 01999 01840 01948 01999 01998
11000 01868 01957 01998 01990
BLUP1 01982 01823 01932 01981 01981 01989
11000 01868 01957 01998 01990 11000
另外 ,各种估值之间的相关系数和秩相关系数
(见表 5)都较大 ,除 WLSEe 以外 ,各种估值间的两种
相关系数均在 0193 以上 ,其中 LSE、BLUP 和 BLUP1
间的秩相关系数为 1 ,这是因为 BLUP 只是对品种效
应进行收缩 ,但不改变其相对大小顺序的缘故。
WLSEe 和其他各种估值的相关较低一点 ,两种相关
系数均在 01806~01890 之间。
3 讨论
综合以上分析可以看出 ,与算术平均值 (即 LSE
估计) 相比 ,BLUP 对品种均值的预测效果基本上没
有变化 ;WLSE 类估计中 ,主要是 WLSEe 的预测效果
和LSE不一致。这意味着 ,除 WLSEe 以外的其他几
种方法不易获得预测效果明显优于算术平均值的估
计。不过 ,WLSEe 的预测效果是否优于算术平均值 ,
也难以一概而论。
本研究从混合线性模型的角度总结出了一系列
区试品种均值的估计方法。尽管在实际数据的验证
中没有发现哪种方法绝对的优于算术平均值 ,但至
少表明 ,对某些轮的数据而言 ,确实存在着比算术平
均值更“好”的估值 ,而 WLSEe 是最有“希望”的一
种。WLSEe 利用各试点试验误差的倒数进行加权计
算 ,这意味着 ,若某试点的试验误差越大 ,其数值对
品种总均值的贡献就越小 ,我们对该试点试验结果
的“相信程度”就越低 ,这与我们的一般直觉也是吻
合的 ,可以解释为什么 WLSEe 估值有时比算术平均
值具有更好的预测效果。然而 ,另一方面 ,对于一些
轮的数据来说 ,WLSEe 预测效果与算术平均值的相
差不大或者反而明显比算术平均值差 ,这意味着 ,
WLSEe 估值预测效果的好坏 ,可能与不同的数据“特
点”有关。由此看来 ,以后需进一步研究的问题 ,似
乎不应该是“哪种估值更好 ?”,而应该是“哪种估值
更适合于哪种数据 ?”。至于数据的特点 ,包括各项
变异 (尤其误差)的大小 ,异常值的多少 ,误差的同质
性、独立性和正态性等许多方面 ,需要借助更多的数
据资料 (包括更多年份的连续试验资料和数学模拟
数据)来研究。
本文的研究是基于平衡数据的 ,因为目前我国
区试中大部分数据是平衡的 ,而且 ,从实际应用的角
度出发 ,平衡数据便于计算。对于非平衡数据 ,计算
量较大 ,有待进一步探讨。
附录 区试平衡数据的各种品种均值
估计方法的公式推导
将区试观测值模型写成品种 i 在环境 j 中的 r
次重复均值
Yij的形式 :
Yij = μ + gi + ej +θij +εij (附 1)
εij为 r 次重复均值对应的误差 ,其余符号含义
与正文中 (1)式相同。采用 Searle 等表示法[7 ] ,上式
可表示为 :
Y = ( 1v á 1s )μ + ( Iv á 1s ) g + ( 1v á Is ) e
+ ( Iv á Is )θ + ( Iv á Is )ε (附 2)
Y为
Yij 构成的观测值向量 , g、e、θ、ε分别为
gi 、ej 、θij 、εij效应构成的向量 , v 为品种数 , s 为环境
数。以 1n 表示 n 个元素均为 1 的向量 ;以 In 表示
对角线元素为 1 ,其余元素为 0 的 n ×n 的单位矩
阵 ;以 J n 表示所有元素均为 1 的 n ×n 的矩阵 ;以
A á B 表示矩阵 A 中的每一个非 0 元素均扩展为该
元素与矩阵 B 的乘积矩阵 ,其余元素则以 0 填充。
988 6 期 张群远等 : 作物品种区域试验中品种均值估计的模型和方法
1 品种效应固定时品种均值的最佳线性无
偏估计( BL UE)
把 (附 2)式中 g 的每个元素加上μ,即得到品种
均值向量μg , (附 2)式可改写为 :
Y = ( Iv á 1s ) μg + ( 1v á Is ) e
+ ( Iv á Is ) θ+ ( Iv á Is ) ε (附 3)
μg 即为品种均值μg( i) = μ + gi 构成的向量。
由于μg( i) 为固定效应 ,由广义最小二乘方程组[7 ] 可
获得μg 的估计 :
μ^ g = [ ( Iv á 1s )′V - 1 ( Iv á 1s ) ] - 1
( Iv á 1s )′V - 1 Y (附 4)
在此 ,假定品种效应是相互独立的 ,所以不同品
种的观测值可以独立进行矩阵运算。记与品种 i 有
关的观测值向量为 Y( i) ,对应 V 中的分块矩阵为
V ( i) ,则根据 (附 4)式可得到品种 i 的均值的估计式
为 :
μ^ g ( i) =
( 1s )′( V ( i) ) - 1 Y( i)
( 1s )′( V ( i) ) - 1 1s (附 5)
(A) 若 ej 固定 ,环境 j 中的误差方差为σ2j
此时 , V ( i) = Isσ2j ,则 :
μ^ g ( i) =
( 1s )′( Isσ2j ) - 1 Y( i)
( 1s )′( Isσ2j ) - 1 1s
= 6sj = 1
Yijσ2j 6sj = 1 1σ2j (附 6)
此估值为加权最小二乘估值 (weighted least
squares estimate ,WLSE) ,即以环境内误差方差倒数加
权的品种平均值 ,记为 WLSEe 。
若各环境中的误差方差同质 ,即σ2j =σ2 ,则 (附
6)式可简化为 :
μ^ g ( i) = 1
s 6sj = 1
Yij =
Yi (附 7)
此即为算术平均值 ,其实质是非加权的最小二
乘估值 (least squares estimate) ,记为LSE。
(B) 若 ej 固定 , GE 互作和误差均看作主效以
外的随机剩余效应 ,环境 j 中的剩余方差记为σ2R( j)
此时 , V ( i) = Isσ2R( j) ,把 (附 6) 式中的σ2j 替换为
σ2R( j) 可得到 :
μ^ g ( i) = 6sj = 1
Yijσ2R( j) 6sj = 1 1σ2R( j) (附 8)
此即为以环境内剩余方差倒数加权的品种平均
值 ,记为 WLSER ,若σ2R( j) 同质 ,则相当于算术平均。
(C)若 ej 随机 ,各环境中的误差方差为σ2j
此时 , V ( i) 的构成中还包括环境方差σ2E 以及
GE互作方差σ2GE ,即 V ( i) = Is (σ2E +σ2GE +σ2j ) ,与 (附
6)式同理
μ^ g ( i) = 6sj = 1
Yijσ2E +σ2GE +σ2j 6sj = 1 1σ2E +σ2GE +σ2j
(附 9)
此估值也是一种加权最小二乘估计 ,记为 WL2
SEE 。若σ2j 同质 ,上式即为算术平均。
(D)若 ej 随机 ,其余同 (B)
此时 , (B) 的 V ( i) 中还将包括环境方差σ2E ,即
V ( i) = Is (σ2E +σ2R( j) ) ,所以
μ^ g ( i) = 6sj = 1
Yijσ2E +σ2R( j) 6sj = 1 1σ2E +σ2R( j) (附 10)
此估值也是加权最小二乘估计 ,记为 WLSEER 。
若σ2R( j) 同质 ,则相当于算术平均。
2 品种效应随机时品种均值的最佳线性无
偏预测( BL UP)
若品种效应 gi 随机 ,则需求出μi = μ+ gi 的
BLUP 预测值来估计品种均值。若直接根据混合线
性模型方程组来推导平衡数据下计算 μ + gi 的
BLUP 的简式比较困难 ,在此利用一等价公式 (Searle
等 ,1992) [7 ] :
BLUP( w) = L′b0 + CV - 1 ( Y - Xb0 )
(附 11)
其中 w 为需要估计的固定效应与随机效应之
和的向量 , L′b0 为 w 中固定效应的线性组合部分 ,
C 为 w 与 Y的协方差阵 , b0 为固定效应的广义最小
二乘估计。对于品种效应 gi 随机时品种均值μi =
μ+ gi 来说 :
BLUP(μi ) = μ0 + C ( i) V - 1( i) ( Y( i) - 1sμ0 )
(附 12)
μ0 = [ ( 1vs )′V - 1 1vs ] - 1 ( 1vs )′V - 1 Y =
( 1vs )′V - 1 Y
( 1vs )′V - 1 1vs
(附 13)
C ( i) 、V ( i) 和 Y( i) 为对应品种 i 的参数与观测值
的协差阵、观测值的方差协差阵以及观测值向量。
( E) 若 ej 固定 ,各环境中的误差方差同质 (即
σ2j =σ2 )
此时 , V ( i) = J sσ2G + Is (σ2GE +σ2 ) , C ( i) = 1′sσ2G。
据 (附 12)式有 :
098 作 物 学 报 29 卷
BLUP(μi ) = μ0 + ( 1′sσ2G) [ J sσ2G
+ Is (σ2GE +σ2 ) ] - 1 ( Y( i) - 1sμ0 )
(附 14)
与 (附 6) 、(附 7) 式的同理 ,根据 (附 13) 式可得
出 ,误差同质情况下 ,试验总均值μ0 的广义最小二
乘估计即为算术平均值 ,即
μ0 = 1
vs 6vi = 1 6sj = 1 Yij =
Y (附 15)
另外 ,根据下面的求逆公式[7 ]
( aIn + bJ n ) - 1 = 1
a
In -
b
a + nbJ n (附 16)
可得到
[ J sσ2G + Is (σ2GE +σ2 ) ] - 1
=
1
σ2GE +σ2
Is -
σ2G
σ2 +σ2GE + sσ2G J s
(附 17)
所以
[ 1′sσ2G[ J sσ2G + Is (σ2GE +σ2 ) ] - 1
= 1′s
σ2G
σ2 +σ2GE + sσ2G
(附 18)
把 (附 15)和 (附 18)式代入 (附 14)式 ,可得到
BLUP(μi ) =
Y + σ2Gσ2Πs +σ2GEΠs +σ2G (
Yi -
Y)
(附 19)
此即为品种效应随机 ,环境效应固定时的品种
均值的 BLUP 预测值 ,记作 BLUP0。
(F) 若 ej 随机 ,且各环境中的误差方差同质
此时 , V ( i) = J sσ2G + Is (σ2E +σ2GE +σ2 ) ,而 C ( i) 同
( E) 。类似 (附 19)式推导 ,可得到 :
BLUP(μi )
=
Y + σ2Gσ2Πs +σ2GEΠs +σ2EΠs +σ2G (
Yi -
Y)
(附 20)
此即为品种和环境效应随机时 ,品种均值的
BLUP 预测值 ,记作 BLUP1。
References
[1 ] Gauch H G. Statistical Analysis of Regional Yield Trials. New York :
Elsevier ,1992
[2 ] Zhang Q2Y(张群远) , Kong F2L (孔繁玲) , Yang F2X (杨付新) .
Comparison of the predictive accuracy of arithmetic means and BLUPs
and AMMI estimates in regional crop trial . Acta Agronomica Sinica (作
物学报) ,2001 ,27 (4) :428 —433
[3 ] Yates F ,Cochran W G. The analysis of groups of experiments. Journal
of Agricultural Science ,1938 ,28 :556 —580
[4 ] Bernardo R. Weighted vs1 unweighted mean performance of varieties
across environments. Crop Science ,1992 ,32 :490 —492
[5 ] Huhn M. Weighted means are unnecessary in cultivar performance tri2
als. Crop Science ,1997 ,37 :1745 —1750
[6 ] Wang S2G(王松桂) . Theory and Application of Linear Models (线性
模型的理论及应用) . Hefei :Anhui Education Press ,1987
[7 ] Searle S R , Casella G,McCulloch C E. Variance Components. New
York :John Wiley & Sons ,1992 ,19 —33
[8 ] Henderson C R. Best linear unbiased estimation and prediction under a
selection model . Biometrics ,1975 ,31 :423 —447
[9 ] Shukla G K. Some statistical aspects of partitioning genotype2environ2
mental components of variability. Heredity ,1972 ,29 :237 —245
198 6 期 张群远等 : 作物品种区域试验中品种均值估计的模型和方法