全 文 :中国生态农业学报 2015年 9月 第 23卷 第 9期
Chinese Journal of Eco-Agriculture, Sep. 2015, 23(9): 11691177
* 国家转基因生物新品种培育重大专项(2012ZX08013015)资助
许乃银, 主要从事棉花区域试验和生态模型研究。E-mail: naiyin@jaas.ac.cn
收稿日期: 20150213 接受日期: 20150505
http://www.ecoagri.ac.cn
DOI: 10.13930/j.cnki.cjea.150221
GGE双标图的信息比校正原理与应用*
——以长江流域棉花品种生态区划分为例
许乃银 李 健
(江苏省农业科学院经济作物研究所/农业部长江下游棉花和油菜重点实验室 南京 210014)
摘 要 GGE双标图方法在农作物品种区域试验中被广泛地应用于品种评价、环境评价和品种生态区划分的
统计分析和图形直观展示, 但 GGE 双标图分析只能局限于前两个主成分, 不能根据信息比准则恰当地取舍主
成分数, 因而无法保证对数据的最优拟合效果。本研究以长江流域国家棉花区域试验数据为例, 选择信息比 IR≥
1 的主成分对 GGE 双标图模型进行校正, 通过试验环境主成分得分的欧氏距离矩阵的聚类分析, 校正通过双
标图分析的品种生态区划分方案。结果表明, GGE双标图恰当拟合试验数据的比例仅为 28.6%, 在 68.6%的试
验中拟合不足, 并在 2.9%的试验中拟合过度。信息比校正的 GGE(IR-GGE)模型总体拟合度提高了 8.7%, 而在
GGE双标图拟合不足或拟合过度的试验中校正了 12.2%的失拟度。GGE双标图模型的离优度系数为 15.9%, 对
区域试验的总体模拟效果较好, 仍可以展示基因型与环境互作的基本模式; 但 IR-GGE模型的拟合度更高, 分
析结果也更可靠。GGE 双标图模型和 IR-GGE 模型对棉花品种生态区划分的总体架构相似, 都将南襄盆地和
四川盆地棉区划分为特定生态区, 但在长江中下游棉区的划分细节上存在较大差异。IR-GGE模型的生态区划
分方案与地理区域和生态特征更加吻合, 实用性更强。本研究为 GGE双标图的信息比校正研究和应用提供了
范例, 是对GGE双标图应用的重要补充, 在基于GGE双标图的农作物品种区域试验数据分析和利用等方面具
有重要的理论意义和应用价值。
关键词 棉花(Gossypium hirsutum L.) GGE模型 双标图 信息比 品种生态区 区域试验
中图分类号: S562.03 文献标识码: A 文章编号: 1671-3990(2015)09-1169-09
Principles and applications of information ratio adjustment of GGE biplot
— A case study of cotton mega-environment investigation in
the Yangtze River Valley
XU Naiyin, LI Jian
(Key Laboratory of Cotton and Rapeseed, Ministry of Agriculture / Institute of Industrial Crops, Jiangsu Academy of Agricultural
Sciences, Nanjing 210014, China)
Abstract The GGE (genotype main effect plus genotype by environment interaction effect) biplot is the most powerful
statistical and visual display tool available for cultivar evaluation, environmental evaluation and mega-envrironment
investigation. The versatility of GGE biplot in displaying cultivar stability and high yielding, identifying ideal cultivars and
test environments, evaluating the representativeness and discrimination ability of test sites, and differentiating mega-
environments have attracted extensive application in analyzing regional trials of many crops. Nevertheless, few reports have
focused on the potential loss of fit of GGE biplot models and model adjustment using information ratio (IR). IR is the product
of percent variation explained by each principal component and the minor value of degree of freedom of genotypes along with
the number of test locatons in GGE biplot analysis of datasets in regional crop trials. As principal component with IR ≥ 1 has
useful information, it is a sufficient and necessary condition of GGE model with appropriate goodness of fit to cover all data
analysis. In fact, the goodness of fit of GGE biplot models is restricted to the sum of percent variation explained by the first
1170 中国生态农业学报 2015 第 23卷
http://www.ecoagri.ac.cn
two principal components (PC1 and PC2), rather than the suitable principal components determined by IR. Thus although GGE
biplot model is an efficient graphical display of data structure, it is not so efficient to guarantee optimal fitting of effects.
Using the GGE biplot method and collected datasets in national regional cotton (Gossypium hirsutum L.) trials in the Yangtze
River Valley in 2000ԟ2012, this study showed the effects of IR adjustments of GGE models in maga-environment investigation.
The scores of principal components for IR ≥ 1 in 35 groups of regional cotton trials were used to calculate Euclidean distance
matrix among the test environments. Also a hierachical cluster analysis was implemented to outline the scheme of
differentiation of the mega-environment. A corresponding analysis was also carried out using fixed first two principal
components of GGE biplot analysis for the purpose of mutual comparision between GGE biplot model and IR-adjusted GGE
model for mega-environment investigation efficiency. The results showed that while only 28.6% was appropriately fitted by
GGE biplot model, 68.6% was under-fitted and 2.9% over-fitted in 35 groups of regional cotton trials. The IR-adjusted GGE
model enhanced the goodness of fit by 8.7% and reduced loss of fit by 12.2% for under- and over-fitted GGE biplot model
trials. Compared with IR-adjusted model, the superiority index of GGE biplot model was 15.9%. This indicated that GGE
biplot model performed satisfactorily in depicting the overall pattern of genotype by environment interaction of regional cotton
trials. However, the IR-adjusted GGE model was more reliable and had a more precise goodness of fit. The first hierachical
mega-environment differentiation by the IR-adjusted GGE model was the same as that of GGE biplot model in terms of
identifying cotton planting regions in Nan-Xiang Basin and Sichuan Basin as particular ecological regions. However, they
were significantly different in terms of subregion divisions in the middle and lower reaches of the Yangtze River Valley. The
mega-environment division scheme based on the IR-adjusted GGE model was of more practical in terms of geographical and
ecological factor representation. Thus the study demonstrated an excellent example of the principles and application effects of
GGE biplot adjusted with IR. This served as a significant supplement and improvement to GGE biplot application. It also
provided the scientific basis and guidline for the application of GGE biplot in mega-environment investigation.
Keywords Cotton; GGE model; Biplot; Information ratio; Mega-environment; Regional crop trial
(Received Feb. 13, 2015; accepted May 5, 2015)
农作物品种区域试验中普遍存在着基因型与环
境的互作(GE)现象, 相同基因型在不同试验环境中
的表现差异悬殊[12]。在品种评价和环境评价中利用
基因型与环境互作效应, 适当地进行品种生态区划
分 , 发挥品种对环境的特殊适应性效应 [3], 将有利
于发挥生态环境的资源优势和品种的生产潜力, 提
高品种选择和利用效率。基于基因型加基因型与环
境互作效应的 GGE(genotype main effect plus genotype
by environment interaction effects, GGE)双标图综合
考虑了与环境评价和品种评价相关的基因型主效和
基因型与环境互作效应, 是农作物品种区域试验中
进行品种评价、试验环境评价和品种生态区划分的
最高效直观的统计和图形展示工具 [45], 已经在多
环境品种试验的品种稳定性分析 [67]、试验环境评
价[811]和品种生态区划分[1215]中得到了广泛的应用。
目前 , GGE 双标图进行品种生态区划分及解
释的精确度都依赖于一个默认的假设 , 那就是所
采用的两维 GGE双标图可以充分近似所分析的数
据表 [16]。这个假设的可靠性决定于双标图的拟合
度。如果数据集中有 g个品种和 e个试验环境, 那么
百分之百表现这套数据所需要的最大主成分数目是
K=min(g1, e)。Yan 和 Tinker 提出了 “信息比 ”
(information ratio, IR)的概念[17], 它是各主成分所解
释 GGE 总变异的份额乘以 K。当某个主成分的 IR≥
1 就表示含有规律性信息, IR<1 则表示不含有任何
有效信息。对于一套数据, 有几个主成分具有 IR≥
1, 就需要几个主成分来充分近似。当且仅当 PC1和
PC2的 IR≥1时, 两维 GGE双标图才会恰如其分地
表达数据中的规律[16]。当只有 1 个或 3 个及以上主
成分的 IR≥1 时, 双标图分析不是拟合不足就是拟
合过度, 都是对固有规律的失拟, 并可能导致依据
双标图所做出的推断精确度不足。可见, 当 GGE双
标图失拟时 , 采用信息比确定的主成分进行校正 ,
可以提高基因型与环境互作效应分析的精确度。
本研究以基于 GGE 双标图和 2000—2012 年期
间长江流域 35 组国家棉花品种区域试验数据的品
种生态区划分为例, 阐明了 GGE双标图的信息比校
正原理和方法, 用均方差平方根法和离优度系数检
验GGE双标图的拟合度和信息比校正效果[18]。同时,
利用 GGE 双标图方法分别基于前两个主成分和信
息比校正的主成分数计算试验环境间欧氏距离矩阵,
并据此分别进行系统聚类分析和品种生态区划分[19],
以比较和检验信息比校正的 GGE 模型在品种生态
区划分中的作用。本研究可为 GGE双标图的信息比
校正研究和应用提供范例, 是对 GGE双标图应用的
重要补充, 在基于 GGE双标图的农作物品种生态区
第 9期 许乃银等: GGE双标图的信息比校正原理与应用 1171
http://www.ecoagri.ac.cn
划分研究和利用等方面具有重要的理论意义和应用
价值。
1 材料与方法
1.1 数据来源
研究数据取自 2000—2012 年期间 35 组长江流
域国家棉花区域试验汇总报告的棉花品种产量性
状、纤维品质性状、抗病性和早熟性等性状的原始
试验数据, 以及根据我国棉花品种审定标准中的品
种评价指标构建的棉花品种多性状综合品种选择指
数[14]数据集。试验每年在四川、湖南、湖北、江西、
河南、江苏、安徽和浙江等长江流域棉区各省市设
置 18 个试验点(即试验环境, 下同)左右, 本研究选
用其中 15个相对稳定的试验环境为研究对象, 各试
验环境的地理因子和所在棉区等信息详见先前的报
道[14]。试验均采用随机区组排列, 重复 3次, 小区面
积 20 m2。选择指数 (selection index, SI)公式为 :
SI=0.40皮棉产量+0.13纤维比强度+0.09(纤维长
度+马克隆值)+0.11枯萎病+0.09黄萎病+0.10霜
前花率[20]。
1.2 GGE模型的结构
在农作物多环境品种试验的变异来源中, 与品
种评价和环境评价关系密切的只有品种主效应(G)
和基因型与环境互作效应(GE), 而与环境主效应(E)
无关。因而, 可靠的品种评价和环境评价需要同时
考虑品种主效和基因型与环境互作效应 [2122]。Yan
等 [23]提出的GGE模型将品种主效(G)加基因型与环
境互作效应(GE)合称为GGE模型, 具有如下结构:
ger e n gn en ge gerY (1)
式中: Yger是基因型 g在环境 e中第 r个重复的产量
(或者其他性状值), μ是总体均值, βe是环境 e的主效,
λn是第 n个主成分的奇异值, γgn是基因型 g第 n个特
征向量得分, δen为环境 e的第 n个特征向量得分, ρge
为基因型 g在环境 e的残差, εger是总体误差。
1.3 GGE双标图模型的结构
将基因型与环境的主成分得分同时在图中表达
出来就形成了基因型与环境的双标图, 这是 GGE双
标图的主要表现形式, 根据需要也可以作三维双标
图, 而更高维的则无法用图形表达[5]。试验环境图标
在双标图中的距离和向量夹角的大小等图形元素
就表达了试验环境间的关系, 基因型图标和试验环
境图标的相对位置则表达了基因型与环境的互作
模式[22]。GGE模型分析中通常选取试验环境和品种
的前两个主成分得分(PC1 和 PC2)作为横坐标和纵
坐标在平面图中展示, 而将其后的主成分信息合并
为模型残差[5]。由于图中可以同时表达品种和试验
环境信息, 故称为 GGE 双标图。两维 GGE 双标图
是直观表达 GGE 模型和展示品种与试验点关系的
主要形式, 双标图中品种图标和试点图标的相对位
置表达了试验环境间、品种间以及品种与环境的互
作模式。目前, GGE 模型是在区域试验中分析基因
型对环境适应性的最流行的统计方法 , 在燕麦
(Avena sativa L.)、小麦(Triticum aestivum L.)、棉花、
玉米(Zea mays L.)、甘蔗(Saccharum spp.)等多种作物
品种的产量及品质性状与环境的互作效应分析上得
到了很广泛的应用[2426]。具有如下结构:
1 1 1 2 2 2ger e g e g e ge gerY (2)
式中: Yger是基因型 g在环境 e中第 r个重复的产量,
λ1是第 1个主成分的奇异值, γg1是基因型 g第 1个特
征向量得分, δe1是环境 e的第 1个特征向量得分, 余
类推。
1.4 GGE双标图的拟合度与信息比
双标图的拟合度(goodness of fit)就是GGE模型
分析的前两个主成分(PC1和PC2)所解释的GGE总变
异的百分比。在对GGE双标图分析结果的解释中 ,
有一个隐含的假设, 就是所讨论的二维双标图可以
充分近似所代表的两向表数据, 而拟合度越高则双
标图分析的结果越可靠[16]。主成分分析的信息比(IR)
就是各主成分所解释GGE总变异的份额乘以基因型
自由度和环境数中的最小值[17]。只有IR≥1的主成分
包含有规律的信息, 而IR<1则表示该主成分不含任
何有意义的信息。对于一套数据, 有几个主成分具有
IR≥1, 就需要几个主成分来充分近似。因而, IR≥
1是主成分数量选择的充分必要条件 , 而GGE双标
图只能选择前两个主成分进行解释, 就可能存在过
度拟合或拟合不足的情况, 从而影响了双标图的可
靠性。当且仅当PC1和PC2的IR≥1时, GGE双标图才
会恰如其分地表达了数据中的规律。当只有1个或3
个及以上主成分的IR≥1时 , 双标图分析不是拟合
不足就是拟合过度, 都是对固有规律的失拟, 并导
致依据双标图做出的推断精确度不足。
1.5 GGE双标图模型的信息比校正
信息比较正方法就是在GGE模型中选择IR≥1
的主成分参与分析 , 优化模型的拟合度 , 使基于
GGE模型的数据分析结果更可靠。由于依据IR≥1
时选择的GGE模型主成分所解释的变异百分比之和
表达了最合理的拟合度, 可称为信息比校正的GGE
模型(information ratio adjusted GGE model, IR-GGE
1172 中国生态农业学报 2015 第 23卷
http://www.ecoagri.ac.cn
model)。IR-GGE模型具有如下结构:
IR 1
1
n
ger e n gn en ge gernY ≥ (3)
式中: IRn=SSn(%)×min(g1, e), g为品种数, e为试点
数, SSn为第 n 个主成分解释变异的百分比, 其余同
公式(1)。
1.6 GGE双标图模型的检验方法
由于 IR-GGE模型是优化的 GGE模型, 因而可
以用来检验两维 GGE 双标图(2D-GGE)模型的拟合
度与最优 GGE模型的吻合程度。2D-GGE模型拟合
度与 IR-GGE 模型拟合度的差值绝对值体现了用
GGE 双标图解释变异与 IR-GGE 模型拟合度的偏离
程度, 称为失拟度(loss of fit , LOF)。采用两个模型
相应拟合度之间的均方差平方根(root mean square
error, RMSE)[27]对两个模型之间的吻合度进行统计
分析。
均方差平方根:
22 IR
1RMSE
n
D i i
i
S S
n
(4)
式中: n、 2D iS 、 IR iS 分别表示样本数、2D-GGE模
型拟合度、IR-GGE模型拟合度。RMSE值越小, 2D-
GGE模型的预测精确度越高。
离优度系数 :
2
RMSECDOM % 100
DS
(5)
式中: 2DS 表示2D-GGE模型拟合度的平均值, RMSE为
均方差平方根。离优度系数小于10%, 则说明 2D-
GGE 模型拟合度与 IR-GGE 模型拟合度一致性非常
好; 10%~20%为较好, 20%~30%为一般; 若大于 30%,
则说明 2D-GGE 模型拟合度与优化值偏差大, 拟合
效果差。
2 结果与分析
2.1 IR-GGE模型与GGE双标图模型的拟合度比较
对 2000—2012 年区域试验品种选择指数的
GGE双标图分析表明(表 1), 35组试验中有 24组试
验 PC1、PC2 和 PC3 的信息比 IR≥1, 10 组试验的
PC1和 PC2的信息比 IR≥1, 1组试验只有 PC1的信
息比 IR≥1, 而各组试验 PC4 的信息比均小于 1。
GGE双标图模型与信息比校正的 IR-GGE模型相比,
有 10组试验充分必要地解释了数据的规律, 24组试
验的拟合不足, 1组试验过度拟合, 分别占试验总数
的 28.6%、68.6%和 2.9%。由此可见, 对 GGE 双标
图进行信息比校正是十分必要的。
GGE 双标图分析的前两个主成分得分 (PC1+
PC2)解释 GGE 总变异的比例体现了双标图分析的
拟合度。表 1 可见, GGE 双标图模型的平均拟合度
为 65.6%, 其中只有 7 组试验在 70%以上, 有 20 组
试验在 60%以上, 有 8组试验的拟合度在 50%以上;
而 IR-GGE模型平均拟合度为 73.8%, 其中有 4组试
验在 80%以上, 24组试验在 70%以上, 有 6组试验在
60%以上, 只有 1组试验的拟合度在 60%以下。GGE
双标图模型的失拟度平均为 8.7%, 而在 25组拟合不
足或拟合过度的试验中的失拟度平均达到 12.2%。
GGE 双标图模型与 IR-GGE 模型相比较的均方
差平方根(RMSE)和离优度系数分别为 10.4和 15.9%,
说明 GGE 双标图模型对区域试验的总体拟合效果
较好 , 仍可以展示基因型与环境互作的基本模式 ,
但 IR-GGE模型的拟合度更高, 分析结果也更可靠。
2.2 基于 GGE 双标图和单组试验数据的品种生态
区探索
作物品种生态区划分需要在多年多点品种试验
数据分析的基础上, 探索和发现年际间可重复的试
验环境亚区划分模式, 才可以总结出有实用价值的
生态区划分方案。现以 2000年长江流域国家棉花区
域试验数据为例, 展示 GGE 双标图(2D-GGE)在探
索品种生态区划分方面的应用方法。由 GGE双标图
中的试验环境向量间夹角大小及其空间关系可知
(图 1a): 长江流域棉区 15 个试验环境大致可以划分
为 3个生态区。第 1个生态区包括位于四川盆地(简
阳和射洪)试验环境, 第 2 个生态区包括南襄盆地和
江苏省沿江棉区(襄阳、南阳和南通)试验环境, 而第
3个生态区则包括其余的 10个试验环境。但由于对
选择指数的 GGE 双标图分析前两个主成分 PC1 和
PC2分别解释了GGE总变异的 48.2%和 18.2%, GGE
双标图共解释了 GGE 总变异的 66.4%。同时, PC3
也解释了 10.9%的变异, 其信息比 IR=1。说明 GGE
双标图对该组试验选择指数的拟合度偏低估计了
10.9%, 并没有充分揭示环境间的关系。
在 GGE双标图不能充分近似数据信息时, 理论
上可以用三维 GGE(3D-GGE)双标图来表达数据信
息(图 1b)。一个动态和旋转的 3D-GGE 双标图通常
可以表达足够的信息量, 但静态的 3D-GGE 双标图
由于直观性差 , 其所展示的信息量反而小于 2D-
GGE 双标图所含信息量, 所以静态的 3D-GGE 双标
图可能会对分析结果产生误导作用。图 1b 是 2000
年试验的静态 3D-GGE 双标图, 其表达的信息量高
于 2D-GGE 双标图(图 1a), 但试验环境间的空间关
系反而不容易鉴别。可见, 当 GGE双标图拟合度不
足时, 也很难用 3D-GGE 双标图代替, 而基于试验
第 9期 许乃银等: GGE双标图的信息比校正原理与应用 1173
http://www.ecoagri.ac.cn
表 1 2000—2012年 35组长江流域棉花区域试验品种选择指数的方差分析和主成分分析
Table 1 ANOVA and PC analysis of selection index in 35 sets of national cotton regional trials in the Yangtze River Valley in 20002012
主成分解释变异
Variation explained by PCs (%)
主成分信息比
Information ratio of PCs
拟合度
Goodness-of-fit (%) 试验
Trial
PC1 PC2 PC3 IR1 IR2 IR3 2D-GGE IR-GGE LOF
2000 48.2 18.2 10.9 4.3 1.6 1.0 66.4 77.3 10.9
2001 38.9 17.4 10.1 3.5 1.6 0.9 56.3 56.3 0.0
2002 34.9 21.3 14.5 3.1 1.9 1.3 56.2 70.7 14.5
2003a 33.1 24.2 14.7 2.3 1.7 1.0 57.3 72.0 14.7
2003b 57.8 14.0 10.8 4.6 1.1 0.9 71.8 71.8 0.0
2004a 50.8 18.2 11.9 4.1 1.5 1.0 69.0 80.9 11.9
2004b 38.4 26.0 12.6 3.1 2.1 1.0 64.4 77.0 12.6
2005a 53.4 14.8 8.7 4.8 1.3 0.8 68.2 68.2 0.0
2005b 40.5 19.1 15.2 3.6 1.7 1.4 59.6 74.8 15.2
2005c 62.8 12.6 7.2 5.7 1.1 0.6 75.4 75.4 0.0
2006a 44.1 18.1 14.8 4.4 1.8 1.5 62.2 77.0 14.8
2006b 54.2 13.3 10.2 4.9 1.2 0.9 67.5 67.5 0.0
2006c 47.5 12.9 10.8 4.3 1.2 1.0 60.4 71.2 10.8
2007a 51.7 18.0 11.4 4.7 1.6 1.0 69.7 81.1 11.4
2007b 68.3 10.5 8.4 6.8 1.1 0.8 78.8 78.8 0.0
2007c 49.5 17.1 12.0 4.5 1.5 1.1 66.6 78.6 12.0
2008a 49.8 16.5 11.1 5.0 1.7 1.1 66.3 77.4 11.1
2008b 55.2 16.0 6.8 5.5 1.6 0.7 71.2 71.2 0.0
2008c 54.6 14.2 9.3 6.0 1.6 1.0 68.8 78.1 9.3
2009a 44.7 13.7 10.5 4.5 1.4 1.1 58.4 68.9 10.5
2009b 34.3 19.6 13.6 3.4 2.0 1.4 53.9 67.5 13.6
2009c 49.3 13.9 9.6 4.4 1.3 0.9 63.2 63.2 0.0
2009d 42.7 21.9 12.7 3.8 2.0 1.1 64.6 77.3 12.7
2010a 43.2 18.7 10.9 3.9 1.7 1.0 61.9 72.8 10.9
2010b 45.3 21.2 11.4 4.1 1.9 1.0 66.5 77.9 11.4
2010c 50.6 15.4 11.1 4.6 1.4 1.0 66.0 77.1 11.1
2010d 41.3 21.4 13.2 3.7 1.9 1.2 62.7 75.9 13.2
2011a 71.3 9.0 6.9 5.7 0.7 0.6 80.3 71.3 9.0
2011b 50.6 16.1 14.2 4.0 1.3 1.1 66.7 80.9 14.2
2011c 42.3 16.8 11.9 3.4 1.3 1.0 59.1 71.0 11.9
2011d 61.2 16.3 8.8 4.9 1.3 0.7 77.5 77.5 0.0
2012a 35.7 20.6 13.7 2.9 1.6 1.1 56.3 70.0 13.7
2012b 42.0 21.2 13.4 3.4 1.7 1.1 63.2 76.6 13.4
2012c 58.1 11.0 7.4 5.2 1.0 0.7 69.1 69.1 0.0
2012d 51.8 18.8 11.4 4.7 1.7 1.0 70.6 82.0 11.4
PC1、PC2、PC3、IR1、IR2、IR3、2D-GGE、IR-GGE、LOF分别代表主成分分析第 1、第 2和第 3主成分得分、第 1、第 2和第 3主成
分的信息比、两维 GGE双标图拟合度、信息比校正的 GGE模型拟合度、GGE双标图的失拟度。试验数据集用试验实施年份命名, 同年份实
施的不同组别试验则在年份后标注 a、b、c、d 等小写字母以示区别, 如“2007b”表示 2007 年实施的第 2 组区试, 余类推。各组试验的其余主
成分信息比均小于 1, 未在表中列出。PC1, PC2, PC3, IR1, IR2, IR3, 2D-GGE, IR-GGE and LOF stand for the first to the third principal component
scores, the information ratios of the first to the third principal components, goodness-of-fit of 2D-GGE biplot and IR-GGE, and the loss of fit of GGE
biplot model, respectively. Different datasets of regional trials are named as the trial implementation year and small letters a, b, c, d, etc. “2007b”
stands for the second set of trial implemented in 2007, and so on. Information ratios of other principal components in all datasets were less than 1, and
thus were omitted here.
环境间欧氏距离进行聚类分析将不受双标图直观性
的影响, 尤其在对多年多组数据进行分析时, 累积
欧氏距离聚类更能表达数据信息。
2.3 基于 IR-GGE模型和多年多点试验数据的品种
生态区划分
利用 2D-GGE 双标图模型和 IR-GGE 模型对多
1174 中国生态农业学报 2015 第 23卷
http://www.ecoagri.ac.cn
图 1 2000年长江流域棉花区域试验品种选择指数“试点间关系”的 2D-GGE双标图(a)和 3D-GGE双标图(b)
Fig. 1 “Relationship among testers” view of 2D-GGE biplot (a) and 3D-GGE biplot (b) based on cultivar selection index in the
national cotton regional trials in the Yangtze River Valley in 2000
图中 AQ、NY、HG、JZ、WH、XY、CD、YY、NJ、NT、YC、JJ、JY、SH和 CX分别代表安庆、南阳、黄冈、荆州、武汉、
襄阳、常德、岳阳、南京、南通、盐城、九江、简阳、射洪和慈溪等试验点。+号为品种图标。The test location codes of AQ, NY, HG,
JZ, WH, XY, CD, YY, NJ, NT, YC, JJ, JY, SH and CX stand for Anqing, Nanyang, Huanggang, Jingzhou, Wuhan, Xiangyang, Changde, Yueyang,
Nanjing, Nantong, Yancheng, Jiujiang, Jianyang, Shehong and Cixi, respectively. The same below. Plus signs were genotypes markers.
年多点品种区域试验数据的分析结果, 可以比较和
检验 IR-GGE 模型对品种生态区划分的校正效果。
2000—2012 年期间的 35 组试验试验环境间的欧氏
距离平均值列于表 2, 基于欧氏距离的聚类分析见
图 2。
基于 2D-GGE 双标图模型的多组试验环境间欧
氏距离矩阵聚类分析(图 2a)表明, 长江流域棉区的
15个试验点首先可清晰地划分为 2个基于综合选择
指数的品种生态区: 第 1 个品种生态区包括南襄盆
地棉区的南阳和襄阳试验环境和四川盆地棉区的简
阳和射洪试验环境; 其余试验环境划分为第 2 个品
种生态区。其中, 第 1 个品种生态区又可划分为两
个生态亚区, 即“南襄盆地生态亚区”和“四川盆
地生态亚区”。第 2个品种生态区又可划分为 3个生
态亚区, 但亚区间地理边界不很清晰, 第 1 个生态
亚区包括安庆、黄冈、武汉和荆州试验环境, 第 2
个生态亚区包括慈溪和南通试验环境, 第 3 个生态
亚区包括南京、盐城、常德、岳阳和九江试验环境。
表 2 2000—2012年长江流域棉花区域试验品种选择指数 GGE双标图分析中试点间平均欧氏距离
Table 2 Average Euclidean distances among test location marks in GGE biplots with the datasets of cultivar selection index in the
national cotton regional trials in the Yangtze River Valley in 20002012
试验环境
Trial environment
安庆
AQ
常德
CD
慈溪
CX
黄冈
HG
九江
JJ
简阳
JY
荆州
JZ
南京
NJ
南通
NT
南阳
NY
射洪
SH
武汉
WH
襄阳
XY
盐城
YC
岳阳
YY
安庆 AQ 0.321 0.288 0.236 0.310 0.435 0.199 0.271 0.328 0.377 0.410 0.246 0.384 0.287 0.297
常德 CD 0.391 0.351 0.264 0.328 0.488 0.304 0.274 0.372 0.468 0.440 0.300 0.431 0.259 0.235
慈溪 CX 0.341 0.426 0.271 0.367 0.429 0.311 0.304 0.305 0.444 0.415 0.272 0.398 0.342 0.320
黄冈 HG 0.311 0.372 0.341 0.270 0.457 0.197 0.248 0.284 0.399 0.420 0.198 0.391 0.271 0.276
九江 JJ 0.324 0.350 0.364 0.298 0.432 0.256 0.280 0.336 0.403 0.416 0.312 0.391 0.271 0.284
简阳 JY 0.475 0.604 0.485 0.522 0.494 0.425 0.401 0.457 0.267 0.183 0.454 0.248 0.388 0.406
荆州 JZ 0.246 0.395 0.368 0.279 0.326 0.494 0.273 0.314 0.388 0.417 0.211 0.365 0.252 0.288
南京 NJ 0.364 0.416 0.385 0.369 0.365 0.495 0.335 0.281 0.380 0.373 0.230 0.397 0.230 0.234
南通 NT 0.389 0.491 0.380 0.372 0.347 0.509 0.364 0.416 0.420 0.449 0.276 0.405 0.286 0.285
南阳 NY 0.451 0.527 0.486 0.469 0.445 0.393 0.464 0.465 0.511 0.262 0.427 0.177 0.342 0.382
射洪 SH 0.455 0.526 0.459 0.462 0.412 0.316 0.479 0.440 0.490 0.368 0.444 0.282 0.351 0.374
武汉 WH 0.294 0.367 0.327 0.317 0.309 0.501 0.261 0.370 0.335 0.453 0.485 0.398 0.280 0.237
襄阳 XY 0.394 0.499 0.400 0.420 0.437 0.341 0.396 0.441 0.454 0.303 0.381 0.425 0.338 0.362
盐城 YC 0.380 0.376 0.403 0.363 0.329 0.444 0.344 0.341 0.353 0.413 0.439 0.372 0.416 0.213
岳阳 YY 0.387 0.347 0.394 0.412 0.377 0.476 0.392 0.384 0.404 0.440 0.487 0.312 0.436 0.351
上、下三角数据分别为基于 2D-GGE模型和 IR-GGE模型的试验环境间欧氏距离矩阵。The data on upper and lower triangle are Euclidean
distance matrix among test environments based on 2D-GGE model and IR-GGE model, respectively.
第 9期 许乃银等: GGE双标图的信息比校正原理与应用 1175
http://www.ecoagri.ac.cn
图 2 2000-2012年长江流域棉花区域试验环境基于 2D-GGE双标图模型(a)和 IR-GGE模型(b)主成分得分的聚类图
Fig. 2 Dentrogram of test environments based on principal component scores of 2D-GGE biplot model (a) and IR-GGE model (b)
with cotton regional trials datasets in the Yangtze River Valley in 20002012
基于 IR-GGE 模型的多组试验环境间欧氏距离
矩阵聚类分析(图 2b)表明, 长江流域棉区的 15个试
验点可划分为 2 个与 2D-GGE 双标图模型同样的品
种生态区, 第 1 个品种生态区涵盖区域和亚区划分
也与 2D-GGE 双标图模型下的情况相同, 但第 2 个
生态区亚区划分的地理脉络和边界更加清晰和合
理。第 1 个生态亚区包括长江中游湖北省江汉平原
棉区的荆州和武汉、鄂东南岗地棉区的黄冈、江西
省环鄱阳湖棉区的九江和安徽省沿江棉区的安庆
试验环境; 第 2个生态亚区包括长江下游江苏省宁
镇丘陵棉区的南京、沿海棉区的盐城、沿江棉区的
南通和浙江沿海棉区的慈溪试验环境; 第 3个生态
亚区包括湖南省环洞庭湖棉区的岳阳和常德试验
环境。
3 讨论与结论
3.1 基于信息比确定 GGE模型主成分数量的依据
农作物品种在区域试验中的平均表现是进行品
种评价、审定和推广应用的最主要的依据, 而品种
生态区划分的目的就是在目标环境一体化的大框架
下划分出可能存在的特殊品种生态区, 有针对性地
进行品种选育和应用, 从而发挥基因型与环境最佳
配组对农业生产的促进作用, 同时可避免特殊不适
应的基因型与环境组合可能带来的生产安全风险。
GGE双标图方法是农作物品种区域试验中进行品种
评价、环境评价和品种生态区划分的最高效直观的
统计和图形展示方法 [45], 目前已经广泛地应用于
农作物的品种稳定性分析和品种生态区探索, 但关
于GGE双标图可能存在的拟合度不足和信息比校正
的问题研究报道较少[16]。双标图分析只能利用前两
个主成分近似地表达两维数据表的信息, 而通常不
能100%解释两维数据表。关于选择多少个主成分才
能合理地表达数据表中包含的主要模式和规律的问
题, 前人采用了交叉验证的方法进行了研究。由于
试验误差的存在, 品种与环境两向数据表中既包含
有规律的“模式”, 也包含无规律的“噪音”, 通常第1
个主成分包含的信噪比最高, 随后的主成分的信噪
比递减。Gauch[28]提出用“预测精度”准则确定必须保
留的主成分数, 即用2个重复数据预测第3个重复的
数据, 并与第3个重复的实际观察值比较, 选择预测
误差最小时的主成分数。Crossa等[29]采用删除部分
观察值, 采用缺值估计的方法估计出观察值并与实
际观察值比较的方法 , 同样可确定必要的主成分
数。但当试验误差均方可以估计时, Gauch和Zobel[30]
提出的“试探法”在确定主成分数目方面更有实用意
义。在品种与环境两向数据的方差分析表中, 各变
异来源的期望误差平方和通过自由度乘误差均方进
行估计, 而各变异来源期望模式的平方和由其总平
方和减去噪音的期望平方和。由此, 可计算期望模
式平方和与总平方和的比率, 以此比率为标准与各
主成分所解释变异的百分比相比较, 即可确定准确
解释变异所需要的主成分数。Yan和Tinker[17]提出的
“信息比”(information ratio, IR)的方法, 正是基于这
样的原则确定的。如果数据集中有g个品种和e个试
验环境, 那么百分之百表现这套数据所需要的最大
主成分数目是K=min(g1, e)。如果品种间和环境间
均不存在线性相关, 那么每个主成分解释总变异的
比例都是1/K。如果品种间或环境间存在相关性, 前
几个主成分解释的变异比例可能大于1/K。在GGE双
标图软件给出的IR分析结果是各主成分解释的变异
1176 中国生态农业学报 2015 第 23卷
http://www.ecoagri.ac.cn
比例除以1/K。因此, 保留所有IR≥1的主成分才能充
分揭示数据表中的重要模式。本研究表明 , 在对
2000—2012年35组长江流域国家棉花区域试验的
GGE双标图分析中, 有10组试验充分必要地解释了
数据的规律, 24组试验拟合不足, 1组试验过度拟合,
分别占试验总数的28.6%、68.6%和2.9%, 说明有必
要对GGE双标图进行信息比校正。
3.2 GGE双标图的信息比校正的意义
IR-GGE 模型是对 GGE 双标图的校正与补充,
不能完全代替 GGE 双标图, 也不影响 GGE 双标图
的直观性。在分析单组区域试验数据时。如果只有
PC1和 PC2的 IR≥1, IR-GGE模型与 GGE双标图模
型完全一致; 当存在 PC3及其后主成分的 IR≥1时,
提示研究人员在使用 GGE 双标图时需要考虑其拟
合度不足的问题, 并谨慎下结论。在分析多年多组
区域试验数据时, GGE双标图方法需要采用“逐年分
析, 多年综合”的方式对试点间关系进行归纳总结。
具体地说, 就是依据多个单组数据双标图中环境间
欧氏距离或环境组合, 计算出多组试验双标图的环
境间平均欧氏距离或组合概率矩阵, 并据此进行聚
类分析, 以划分可能存在的品种生态区。在此过程
中, IR-GGE模型的作用就是当存在 PC3及其后主成
分的 IR≥1时, 采用所有 IR≥1的主成分参与欧氏距
离计算, 而不是固定地采用前两个主成分计算欧氏
距离, 以保证平均欧氏距离矩阵最大限度地包含有
用的信息 , 从而使品种生态区划分结果更准确可
靠。品种生态区的划分必须以多年多组区域试验的
数据为基础, 单年单组试验数据通常只用于展示双
标图的使用方式, 而不能得出可靠的生态区划分方
案。基因型与环境互作模式似乎永远也不可能是完
全可重复的, 但是通过多年多点区域试验的数据分
析, 试点生态区划分的趋势和模式还是可以研究和
利用的。在分析多年多组试验数据时, 无论是 GGE
双标图还是 IR-GGE模型分析, 都侧重于概括, 而不
仅是展示。因此, 在针对多组数据分析并得出结论
时, IR-GGE模型高拟合度保证下的高精确性就显得
更加重要。本研究结果表明, 基于 IR-GGE 模型与
2D-GGE双标图模型将长江流域棉区的 15个试验点
可划分为 2 个品种生态区, 第 1 个品种生态区涵盖
区域和亚区划分也与 2D-GGE 双标图模型下的情况
相同, 但第 2 个生态区的亚区划分的地理脉络和边
界更加清晰和合理。可见, 由于 IR-GGE模型涵盖了
全部有规律的信息, 与部分采用有规律信息的 GGE
双标图及方法相比, 分析结果更加准确可靠。
参考文献
[1] Anandaraj M, Prasath D, Kandiannan K, et al. Genotype by
environment interaction effects on yield and curcumin in
turmeric (Curcuma longa L.)[J]. Industrial Crops and
Products, 2014, 53: 358–364
[2] Sibiya J, Tongoona P, Derera J, et al. Genetic analysis and
genotype × environment (G × E) for grey leaf spot disease
resistance in elite African maize (Zea mays L.) germplasm[J].
Euphytica, 2012, 185(3): 349–362
[3] Gauch H G, Zobel R W. Identifying mega-environments and
targeting genotypes[J]. Crop Science, 1997, 37(2): 311–326
[4] Yan W K. GGEbiplot — A windows application for graphical
analysis of multienvironment trial data and other types of two-
way data[J]. Agronomy Journal, 2001, 93(5): 1111–1118
[5] Yan W K, Kang M S. GGE Biplot Analysis: A Graphical Tool
for Breeders, Geneticists, and Agronomists[M]. Boca Raton,
London, New York, Washington D. C: CRC Press, 2003
[6] Farshadfar E, Mohammadi R, Aghaee M, et al. GGE biplot
analysis of genotype × environment interaction in wheat-
barley disomic addition lines[J]. Australian Journal of Crop
Science, 2012, 6(6): 1074–1079
[7] Flores F, Hybl M, Knudsen J C, et al. Adaptation of spring
faba bean types across European climates[J]. Field Crops
Research, 2013, 145: 1–9
[8] Glaz B, Kang M S. Location contributions determined via
GGE biplot analysis of multienvironment sugarcane genotype-
performance trials[J]. Crop Science, 2008, 48(3): 941–950
[9] Yan W K, Pageau D, Frégeau-Reid J, et al. Assessing the
representativeness and repeatability of test locations for
genotype evaluation[J]. Crop Science, 2011, 51(4): 1603–1610
[10] 许乃银, 张国伟, 李健, 等. 基于 HA-GGE 双标图的长江
流域棉花区域试验环境评价[J]. 作物学报 , 2012, 38(12):
2229–2236
Xu N Y, Zhang G W, Li J, et al. Evaluation of cotton regional
trial environments based on HA-GGE biplot in the Yangtze
River Valley[J]. Acta Agronomica Sinica, 2012, 38(12):
2229–2236
[11] 许乃银, 李健, 张国伟, 等. 基于 GGE 双标图和马克隆值
选择的棉花区域试验环境评价 [J]. 中国生态农业学报 ,
2013, 21(10): 1241–1248
Xu N Y, Li J, Zhang G W, et al. Evaluation of regional cotton
trial environments based on cotton fiber micronaire selection
by using GGE biplot analysis[J]. Chinese Journal of Eco-
Agriculture, 2013, 21(10): 1241–1248
[12] Hamidou F, Ratnakumar P, Halilou O, et al. Selection of
intermittent drought tolerant lines across years and locations
in the reference collection of groundnut (Arachis hypogaea L.)[J].
Field Crops Research, 2012, 126: 189–199
[13] Yan W K, Pageau D, Frégeau-Reid J, et al. Oat mega-environ-
ments and test-locations in Quebec[J]. Canadian Journal of
Plant Science, 2011, 91(4): 643–649
[14] 许乃银, 李健. 利用 GGE 双标图和综合选择指数划分棉花
品种生态区[J]. 中国生态农业学报, 2014, 22(9): 1113–1121
Xu N Y, Li J. Using GGE biplot and comprehensive selection
第 9期 许乃银等: GGE双标图的信息比校正原理与应用 1177
http://www.ecoagri.ac.cn
index to investigate mega-environments of cotton cultivar[J].
Chinese Journal of Eco-Agriculture, 2014, 22(9): 1113–1121
[15] 许乃银, 张国伟, 李健, 等. 基于 GGE 双标图和比强度选
择的棉花品种生态区划分 [J]. 中国生态农业学报 , 2012,
20(11): 1500–1507
Xu N Y, Zhang G W, Li J, et al. Investigation of cotton mega-
environment based on fiber strength selection and GGE
biplot[J]. Chinese Journal of Eco-Agriculture, 2012, 20(11):
1500–1507
[16] 严威凯 . 双标图分析在农作物品种多点试验中的应用[J].
作物学报, 2010, 36(11): 1805–1819
Yan W K. Optimal use of biplots in analysis of multi-location
variety test data[J]. Acta Agronomica Sinica, 2010, 36(11):
1805–1819
[17] Yan W K, Tinker N A. Biplot analysis of multi-environment
trial data: Principles and applications[J]. Canadian Journal of
Plant Science, 2006, 86(3): 623–645
[18] Rinaldi M, Losavio N, Flagella Z. Evaluation and application
of the OILCROP-SUN model for sunflower in southern
Italy[J]. Agricultural Systems, 2003, 78(1): 17–30
[19] Redden R J, Delacy I H, Butler D G, et al. Analysis of line
environment interactions for yield in navy beans. 2. Pattern
analysis of lines and environment within years[J]. Australian
Journal of Agricultural Research, 2000, 51(5): 607–617
[20] 许乃银 , 李健 . 棉花区试中品种多性状选择的理想试验环
境鉴别[J]. 作物学报, 2014, 40(11): 1936–1945
Xu N Y, Li J. Identification of ideal test environments for
multiple traits selection in cotton regional trials[J]. Acta
Agronomica Sinica, 2014, 40(11): 1936–1945
[21] Samonte S O P, Wilson L T, McClung A M, et al. Targeting
cultivars onto rice growing environments using AMMI and SREG
GGE biplot analyses[J]. Crop Science, 2005, 45(6): 2414–2424
[22] Yan W K. GGE Biplot vs. AMMI graphs for genotype-by-
environment data analysis[J]. Journal of the Indian Society of
Agricultural Statistics, 2011, 65(2): 181–193
[23] Yan W K, Hunt L A, Sheng Q L, et al. Cultivar evaluation and
mega-environment investigation based on the GGE biplot[J].
Crop Science, 2000, 40(3): 597–605
[24] Sánchez-Martín J, Rubiales D, Flores F, et al. Adaptation of
oat (Avena sativa) cultivars to autumn sowings in
Mediterranean environments[J]. Field Crops Research, 2014,
156(1): 111–122
[25] Badu-Apraku B, Akinwale R O. Cultivar evaluation and trait
analysis of tropical early maturing maize under Striga-
infested and Striga-free environments[J]. Field Crops Research,
2011, 121(1): 186–194
[26] Baxevanos D, Goulas C, Rossi J, et al. Separation of cotton
cultivar testing sites based on representativeness and discrimina-
ting ability using GGE biplots[J]. Agronomy Journal, 2008,
100(5): 1230–1236
[27] 陈兵林 , 曹卫星 , 周治国 . 棉花单铃干物质积累分配的分
期动态模拟及检验[J]. 中国农业科学, 2006, 39(3): 487–493
Chen B L, Cao W X, Zhao Z G. Simulation and validation of
dry matter accumulation and distribution of cotton bolls at
different flowering stages[J]. Scientia Agricultura Sinica,
2006, 39(3): 487–493
[28] Gauch H G. Model selection and validation for yield trials
with interaction[J]. Biometrics, 1988, 44(3): 705–715
[29] Crossa J, Cornelius P L, Seyedsadr M, et al. A shifted
multiplicative model cluster analysis for grouping environ-
ments without genotypic rank change[J]. Theoretical and
Applied Genetics, 1993, 85(5): 577–586
[30] Gauch H G, Zobel R W. Optimal replication in selection
experiments[J]. Crop Science, 1996, 36(4): 838–843