全 文 :作物学报 ACTA AGRONOMICA SINICA 2010, 36(11): 1805−1819 http://www.chinacrops.org/zwxb/
ISSN 0496-3490; CODEN TSHPA9 E-mail: xbzw@chinajournal.net.cn
作者联系方式: E-mail: weikai.yan@agr.gc.ca
Received(收稿日期): 2010-03-29; Accepted(接受日期): 2010-08-09.
DOI: 10.3724/SP.J.1006.2010.01805
双标图分析在农作物品种多点试验中的应用
严威凯
Eastern Cereal and Oilseed Research Centre (ECORC), Agriculture and Agri-Food Canada (AAFC), Neatby Building, 960 Carling Ave.,
Ottawa, Ontario, Canada, K1A 0C6
摘 要: 双标图分析越来越多地被用于直观分析农作物品种多点试验数据和其他类型的两向数据。这种方法深受植
物育种家和农业研究人员的推崇, 认为它可以提高研究者理解和驾驭试验数据的能力; 但也受到一些学者的批评,
认为它是统计分析方面的旁门左道。事实上, 学术界对什么是双标图的认识尚存混乱, 一些双标图的使用者并不总能
正确地选择和解释双标图, 一些双标图的批评者对双标图分析及其研究对象也缺乏深入了解。为使研究者对双标图
分析有一个客观全面的认识, 本文就用双标图分析农作物品种多点试验中的几个问题进行阐述: (1)如何针对特定的
研究目的选择适当的双标图; (2)如何选择适当的GGE双标图来分析多点试验数据; (3)如何使用GGE双标图的不同功
能形态进行品种评价、试验点评价和品种生态区划分; (4)如何判断双标图是否充分表现试验数据中的规律; (5)如何检
验双标图显示的结果是否显著。
关键词: 双标图; 品种-环境互作; 品种评价; 试验点评价; 品种生态区划分
Optimal Use of Biplots in Analysis of Multi-Location Variety Test Data
YAN Wei-Kai
Eastern Cereal and Oilseed Research Centre (ECORC), Agriculture and Agri-Food Canada (AAFC), Neatby Building, 960 Carling Ave., Ottawa,
Ontario, Canada, K1A 0C6
Abstract: Biplot analysis has been increasingly used in visual analysis of genotype-by-environment data and other types of
two-way data. While many plant breeders and agricultural researchers are enthusiastic about the capacity of biplot analysis in
helping them to understand their research data, some statisticians consider the use of biplots as a sidetrack to genotype-
by-environment interaction analyses. Confusion also exists among statisticians on what is or is not a biplot. Admittedly, some
users of biplot analysis are not always clear on how to select a proper type of biplot for a particular research objective and how to
interpret a biplot correctly, accurately, and adequately. Some criticisms of biplot analysis may arise from incomplete understand-
ing of the practitioners’ research problems as well as of the biplot methodology. In this review, I summarize the experiences and
understanding in biplot analysis of genotype-by-environment data achieved during the last decade and discuss the following issues:
(1) how to choose a proper biplot; (2) how to choose a proper GGE (genotype + genotype-by-environment interaction) biplot; (3)
how to use the key functions of a GGE biplot for genotype evaluation, test-environment evaluation, and mega-environment de-
lineation; (4) how to judge the adequacy of a 2-D biplot; and (5) how to test the statistical significance of a biplot pattern.
Keywords: Biplot; Genotype-by-environment interaction; Genotype evaluation; Test-environment evaluation; Mega-environment
delineation
1 问题的提出
1.1 多点试验数据分析的三大目标
农作物多点试验(或区域试验)是最基础、最常
用的农业试验。每年、每个省区市、每个育种单位
及种子公司都要对各种作物进行品种多点试验, 为
品种的选育、审定和推荐提供依据。多点试验之所
以必要是因为品种与环境之间存在着相互作用(GE),
即品种的排名因环境或试验点的不同而变化。由于
同一原因, 多点试验数据的分析也成为植物育种和
品种推广的重要组成部分。多点试验数据通常包括
多个性状(产量、品质、病虫害抗性、农艺性状等)
的数据, 本文中以产量数据为例。
1806 作 物 学 报 第 36卷
在早期的品种-环境两向数据分析中 , 多把GE
当作一个干扰因素, 因为其主要目的是选育受GE影
响较小的稳产品种。许多旨在避免GE的“稳定性”指
标应运而生[1]。稍后, 人们认识到一些品种与地点的
互作在年际间可重复出现, 因此是可以利用的[2]。为
此 , Gauch和Zobel[3]提出了按G和GE划分品种生态
区(mega-environment)的概念和方法, 目的是把目标
环境分为不同的品种生态区, 通过在不同的生态区
内选育和部署不同的品种, 把GE中可重复的部分利
用起来, 从而提高作物的总体生产力。再后来, 人们
认识到, 多点试验数据不但可以用来评价品种, 而
且也是评价和选择适合于品种鉴定的试验点或环境
的宝贵资料, 由此确立了多点试验数据分析的三大
目标, 即品种评价、试验点评价和品种生态区划分
[4-8]。从方法论的角度, 划分品种生态区应在第一顺
位, 因为所谓优良品种和理想试验点都是针对特定
品种生态区而言的[8]。
1.2 双标图分析简史与现状
“一图胜千言”。为帮助认识和理解多点试验数
据 , 人们提出了多种图解方法。其中最著名的是
Finlay和Wilkinson[9]的联合回归图, Gauch和Zobel等
[3,10]创立的AMMI (加性主效应和积性互作效应)组
图 , 和笔者等 [4-8]创立的GGE双标图分析系统。
AMMI分析问世后, 联合回归图的使用越来越少。
GGE双标图问世后, AMMI分析也逐渐被取代, 尽管
对于AMMI和GGE双标图孰优孰劣尚有争论[8,10-11]。
双标图(biplot)最初由Gabriel[12]提出, 用来图解
主成分分析(PCA)或特征值分解(SVD)两向数据表
所得出的结果。“双标图”的字面意思, 是指把两向表
中每个行的名称(如品种名)和每个列的名称(如地点
名)都标在同一个图上。与其他图解法相比, 双标图
有一个独特的 “内积原理”。即双向表中的每一个数
值(元素)都可从图上直观得出, 因为它近似等于该
数据所在行的向量长度、所在列的向量长度及行向
量和列向量间夹角的余弦三者之积。由于这一特性,
任意两向表或矩阵, 只要能为一个 2-D(两维)矩阵所
近似, 就可以用一个 2-D双标图来同时直观分析各
行之间的关系、各列之间的关系和行与列之间的交
互关系。这在品种-环境两向数据的分析上分别对应
于品种之间的相似性、试验点之间的相关性和品种
与试验点之间的相互作用, 即品种的一般适应性和
特殊适应性。因此, 正确使用双标图可能同时实现
上述品种多点试验数据分析的三大目标。其他图解
法, 包括AMMI组图[10]都不具备这个特性。
Bradu和Gabriel[13]最早把双标图用于分析农作物
(棉花, Gossypium sp.)品种-环境两向数据。Kempton[14]
首次把它用于分析小麦(Triticum aestivum)品种与环境
的相互作用。Kroonenberg[15]以农业研究人员为对象写
了一个系统介绍双标图分析的小册子, 其主要内容稍
后被收入[16]。“biplot”一词最早出现在美国农学会的杂
志上, 是由 1988 年Zobel等 [17]介绍AMMI时提出。
“GGE Biplot”一词由笔者等首次提出[18]。此后, “biplot”
便越来越多地出现于这些杂志中(图 1)。在中国,
“biplot”一词首先由王磊等[19]在介绍AMMI分析时引
入并被译为“双标图”。笔者等[20]在介绍GGE双标图时
把“biplot”译为“叠图”, 但“双标图”似乎更为贴切并已
得到广泛认可。随着有关双标图文章的大量涌现, 双
标图分析越来越成为育种工作者和农业研究人员必不
可少的数据分析工具。
图 1 含有“双标图”的文章在美国农学会杂志上逐年出现
的次数
Fig. 1 Number of publications by year in the journals of Crop
Science and Agronomy Journal
虽然许多育种工作者和农业研究人员对双标图
在数据分析中的独到作用极为推崇, 但也有一些学
者把它视为旁门左道[21]。的确, 关于双标图分析尚
存许多模糊看法。诸如, 学者之间对于某个图是不
是双标图尚有争议 [8,10]; 双标图分析的使用者不一
定总能正确地选择和确切地解释双标图; 双标图分
析的批评者未必对双标图分析的原理和实际应用有
透彻了解。为了帮助研究者正确有效地使用双标图
分析, 使之在育种和农业研究中发挥最大作用, 有
必要对相关问题加以澄清。本文的目的是总结笔者
近十年来在双标图分析上的探索, 就双标图分析的
若干问题进行梳理, 以供以中文为第一语言的研究
者参考。这些问题包括以下几个方面: (1)如何选择
第 11期 严威凯等: 双标图分析在农作物品种多点试验中的应用 1807
适当的双标图(GGE双标图为其中一种), (2)如何选
择适当的GGE双标图, (3)如何使用同一GGE双标图
的 4种重要功能形态, (4)如何判断 2-D双标图是否充
分表现数据中的规律, 和(5)如何对双标图上显示的
关系作出统计检验。
2 如何建立双标图
进行双标图分析, 首先要把待分析的两向表数
据进行特征值分解 (Singular Value Decomposition,
SVD)。特征值分解是进行主成分分析 (Principal
Component Analysis, PCA)的一个必要过程, 因而有
时也被当作主成分分析的同义词[17]。特征值分解可
从两个不同的角度来理解。其一, 它把两向数据分
解为K个由大到小排列的主成分(PC), K≥(g–1, e),
式中g是数据中的行数, e是列数。每一个主成分由 3
个部分组成 , 即描述各行之间关系的行特征向量
(eigenvalues), 描述各列之间关系的列特征向量, 和
描述该主成分大小的特征值或奇异值(singular val-
ues)。解释变异最多的主成分叫第一主成分或PC1,
第二多的主成分叫第二主成分或PC2, 依此类推。从
另一个角度, 主成分分析把两向数据分解为描述行
之间关系的K个行特征向量, 描述列之间关系的K个
列特征向量 , 和表现各主成分(PC)大小的K个特征
值 3个部分。
在主成分分析中, 通常用 PC1 的列向量和 PC2
的列向量作成关于列的 2-D散点图, 来研究各列(如
不同环境)之间的关系。偶尔, 也有用 PC1的行向量
和 PC2 的行向量作成关于行的 2-D 散点图, 来研究
各行(如不同品种)之间关系的。若把这两种散点图
相叠于同一个图上, 就成了类似双标图的散点图。
我们说“类似”, 是因为这个图并不具有真正双标图
的全部功能。
要做出真正意义上的双标图, 还有一个必要的
步骤。就是通过适当的比例, 将每个主成分的特征
值分配到相应主成分的行特征向量和列特征向量之
间, 形成描写行之间关系的行PC值和描写列之间关
系的列 PC值。这个过程被称为特征值分配
(Singular-Value Partitioning, SVP)。 把特征值全部分
配到行上叫以行为主的SVP, 适用于认识行之间的
关系; 把特征值全部分配到列上叫以列为主的SVP,
适用于认识列之间的关系[22]。经过适当的特征值分
配以后, 在同一个图上用行的PC1 值对PC2 值作关
于行的散点图, 用列的PC1 值对PC2 值作关于列的
散点图, 就成了一个具有完全功能的 2-D双标图。特
征值分解、特征值分配、建立双标图以及在双标图
上加上必要的辅助线, 都是较复杂繁琐的过程。所
幸, 现在已有专门进行双标图分析的计算机软件包,
如“GGEbiplot”[4,6](http://www.ggebiplot.com/)。很多
著名的统计软件包, 如SAS、GENSTAT、SPSS等, 也
可以进行双标图分析, 只是友好性较差。这些工具
使得双标图分析变得十分简便。因此分析者应注重
理解双标图分析的原理和功能, 不必拘泥于具体的
计算过程。
3 5种可能的双标图
从多点试验得到的产量(或其他性状)结果可以
整理成一个品种-地点两向表。其中每一个数值是相
应品种在相应试验点内各重复的平均值。在数量遗
传和生物统计上, 这个值被称为表现型(P), 按照线
性统计模型, P = M + E + G + GE; 式中M代表多点
试验产量的总平均值, E代表环境主效应, G代表品
种主效益, GE代表品种-环境互作效应。其中只有G
和GE都带个“G”字, 因而与品种评价有关[23]。
通过数据中心化 (data-centering), 可从数据中
移除 M、E和/或 G。从两向表的每个数据减去多点
试验总平均值将去掉 M, 形成一个总均值中心化的
两向表。从两向表的每个数据减去相应环境下的平
均值将去掉M和E, 形成一个环境中心化的两向表。
从两向表的每个数据减去相应品种的平均值将去掉
M 和 G, 形成一个品种中心化的两向表。从两向表
的每个数据减去相应环境的平均值及相应品种的平
均值后再加回一个总平均值, 将去掉 M、E和 G, 形
成一个双向中心化的两向表。用不同中心化所形成
的两向表, 可构建不同的双标图。这些双标图所含
信息不同, 解释和用途也不同, 简述如下。
3.1 未中心化的双标图
基于原始的、未中心化的数据建立的双标图含
有M、E、G和GE。M和E不含对品种评价或环境评
价有用的信息, 但其存在通常会掩盖其他信息。因
此双标图的创始人Gabriel[12]力戒使用这种双标图。
但是, 当总平均值接近于 0 时, 这种双标图有一个
独特的优点, 即它所近似显示的是原始的绝对数据
(而非中心化后的相对数据)。Yan和Tinker[24]把这一
特性用于直观研究QTL(数量性状位点)与环境的相
互作用。
1808 作 物 学 报 第 36卷
3.2 总均值中心化的双标图
这是Gabriel[12]提出双标图时所指的类型。对于
多点试验数据, 这种双标图含E、G和GE。由于E 与
品种评价无关且通常数倍于G和GE, 致使对品种评
价至关重要的G和GE被掩盖。所以, 这种双标图不
能用于品种评价。
3.3 环境中心化的双标图
这种双标图只含与品种评价有关的G和GE, 而
不含与品种评价无关的其他效应 , 因此称为“GGE
双标图”[18]。值得强调的是, 多点试验数据分析有两
个重要原则: (1)只有G和GE与品种评价有关[23]; (2)
评价品种时必须对G和GE同时考虑[8]。因此GGE双
标图是分析多点试验数据最适当的双标图。GGE双
标图不仅适用于品种评价, 而且适用于试验环境(试
验点)评价和品种生态区划分[8,18]。当把所有特征值
都分配至环境特征向量时, GGE双标图有一个独特
的性质, 即任两环境间夹角之余弦近似等于该两环
境间的遗传相关系数。这个特性被称为 “余弦-相关
系数等值原理”[15]; 它是用双标图评价试验点的重
要基础。正确而充分地使用GGE双标图是本文的主
要目的。
3.4 品种中心化的双标图
基于品种中心化的双标图只含有 E和 GE。E大
而无用; G有用却被排除在外。因此这种双标图不能
用于品种评价、试验环境(地点)评价或品种生态区
划分。但是, 这种双标图或许对以土壤或地点为主
要研究对象的研究者有用。
3.5 双向中心化的双标图
基于双向中心化数据的双标图只含GE, 因此应
称之为“GE双标图”。在AMMI分析中 , 也被称为
AMMI2 双标图 [10]。如果研究的焦点是GE(如文献
[14]), 这种双标图无疑是最合适的。但是, 由于它不
含G, 所以不能用于品种评价、试验环境评价或品种
生态区划分。事实上, 使用GE双标图常会误导品种
评价, 因为一个与某环境有正向互作的品种不一定
在这个环境下高产, 反之亦然。有些文章专注于对
GE的研究(例如文献[25])。这类研究或许对认识GE
的成因有所帮助, 但如何把这种认识用于对品种和
试验地点的评价尚有疑义。应当指出的是, GE双标
图特别适合于直观分析基因表达(gene expression)数
据[26], 因为这类研究的焦点是各个基因在不同条件
下表达的相对水平而不是其绝对水平。
综上所述, 对于一套多点试验数据, 按数据中
心化方法的不同, 可以建立 5 种不同类型的双标图
(表 1)。其中只有 GGE 双标图可以用于品种评价、
试验点评价和品种生态区划分。
表 1 不同类型双标图的用途比较
Table 1 Five different types of biplots and their usefulness in genotype-by-environment data analysis
双标图类型
Type of Biplot
未中心化的双标图
Un-centered
总均值中心化
的双标图
Grand mean-centered
环境中心化的双标图
Environment-centered
品种中心化的双标图
Genotype-centered
双向中心化的双标图
Double-centered
常见称谓 GGE双标图 GE双标图;
AMMI2双标图
涉及效应 E+G+GE 及总均值 E+G+GE G+GE E+GE GE
在品种和试验环
境评价上的用途
无用, 因G和GE通
常被掩盖
无用, 因 G和 GE通
常被掩盖
有用 无用, 因不含 G 无用, 因不含 G
其他用途 分析 QTL-环境互
作数据
分析品种-性状两向
表及其他多元数据
分析基因表达数据
两环境间夹角之
余弦的生物学解
释
环境间的遗传相关系
数
4 GGE双标图的 4种重要功能图型
一个GGE 双标图建立后 , 可以从很多不同的
角度进行分析, 以直观回答不同的问题[6-7]。这里简
介 4种最常用的功能形态或功能图型, 即“哪个赢在
哪里” (“Which-Won-Where” View) (图 2), “环境间关
系” (“Environmental Vector” View) (图 3), 试验点的
“区分力和代表性” (“Discriminating Ability vs. Rep-
resentativeness” View) (图 4), 和品种的“高产性和稳
产性” (“Mean vs. Stability” View) (图 5)。这些功能图
专为解决多点试验数据分析中的三大问题, 即品种
生态区划分、品种评价和试验点评价而设计。它们虽
然表现为不同的形态, 其实都是由同一个GGE双标图
加上不同的辅助线而成。本文中的双标图以表 2中的
第 11期 严威凯等: 双标图分析在农作物品种多点试验中的应用 1809
数据为例; 它是1993年加拿大安大略省冬小麦区域试
验的产量数据, 包括 18 个冬小麦品种(g1 至g18)和 9
个试验点(E1 至E9)。数据是经过环境中心化的, 所以
在同一环境内, 大于0表示高于平均产量, 小于0表示
低于平均产量。这套数据曾被作为例子在笔者[4,6-8]及
一些批评者的文章[10,21]中讨论过。
表 2 18个冬小麦品种(g1至 g18)在 9个安大略试验点上的平均产量
Table 2 Location-centered mean yield of 18 winter wheat genotypes (g1 to g18) at nine Ontario test locations (t hm−2)
试验点 Test location 品种
Genotype E1 E2 E3 E4 E5 E6 E7 E8 E9
平均
Mean
g1 0.10 −0.29 −0.29 −0.41 0.26 −0.61 0.11 −0.32 −0.23 −0.19
g2 0.05 0.33 −0.23 0.01 0.02 0.09 0.72 0.03 0.04 0.12
g3 0.31 0.14 −0.04 −0.04 0.39 −0.04 0.49 −0.46 −0.28 0.05
g4 0.37 0.31 0.24 0.41 0.54 0.28 −0.01 0.53 0.55 0.36
g5 0.03 0.17 0.37 0.35 0.09 0.36 0.91 −0.26 −0.07 0.22
g6 0.82 0.04 −0.15 0.28 0.90 −0.02 −0.25 −0.09 −0.12 0.16
g7 −0.99 −0.26 −0.40 −0.34 −0.34 −0.79 −0.08 −0.30 −0.87 −0.48
g8 0.49 0.23 1.29 0.46 −0.15 0.77 −0.07 0.70 0.67 0.49
g9 0.68 0.30 0.37 −0.06 0.28 −0.20 0.74 0.15 −0.04 0.25
g10 0.83 0.22 0.46 0.26 0.25 0.29 −0.34 0.09 0.40 0.27
g11 −0.07 0.09 −0.38 −0.07 0.46 0.19 0.62 −0.22 0.25 0.10
g12 −1.21 −1.40 −0.75 −1.15 −1.45 −0.80 −0.85 −0.29 −0.80 −0.97
g13 −0.26 −0.56 −0.84 0.22 −1.13 0.09 −1.64 0.60 −0.01 −0.39
g14 −1.02 −0.58 −0.72 −0.71 −1.05 0.03 −0.96 −0.44 −0.34 −0.64
g15 0.01 0.26 0.52 0.10 0.51 0.08 −0.31 −0.15 0.03 0.12
g16 0.58 0.26 −0.19 0.40 0.38 0.27 0.06 −0.06 0.13 0.20
g17 −0.58 0.53 0.24 −0.14 −0.91 0.24 0.08 0.50 0.48 0.05
g18 −0.13 0.22 0.47 0.42 0.96 −0.23 0.78 0 0.21 0.30
标准差 SD 0.60 0.45 0.53 0.42 0.69 0.40 0.66 0.35 0.40
表中数据是环境中心化后的数据。数据来源: 1993年安大略冬小麦区域试验。
Data from the 1993 Ontario Winter Wheat Performance trails.
4.1 “哪个赢在哪里”功能图
图 2的功能是按照品种-环境的相互关系来对试
验点分组并揭示各组内最高产的品种[18]。图中的多
边形由连接同一方向上距离原点最远的品种而成 ;
它把所有品种都框在其内。由原点发出的射线是对
多边形各边的垂线。比如, 图中射线 1 是对连接品
种g8 和g18 的那条边的垂线。射线 2 是对连接品种
g18 和g7 的那条边的垂线, 余类推。这些垂线把整
个双标图分成几个扇形区, 并由此把试验点分为不
同的组。9个试验点被分为两组, E5和E7为一组, 其
他 7 个试验点为另一组。这种功能图有一个有趣而
重要的特性, 各区内位于多边形顶角上的品种恰好
是本区内各环境下名义上最高产的品种。本例中 ,
品种g18 在试验点E5 和E7 最高产, 是“赢家”, 品种
g8 在另 7 个试验点最高产, 是“赢家”。这种环境分
组与各试验点地气候条件相吻合: E5和E7位于安大
略省东部, 冬季较长, 气候较冷; 其他地点(E1 除外)
则位于安大略省西南部, 冬季较短, 气候较温和。E1
亦属东部, 但位于圣劳伦斯河边, 因而气候较E5 和
E7 温和。由于气候条件的不同, 适应于两个地区的
冬小麦品种也不同, 形成了不同的品种生态区。图 2
所展示的最高产品种因地区而异的现象称为交叉性
互作(crossover GE)。它的存在是划分品种生态区的
重要依据[3]。
4.2 “环境间关系”功能图
图 3 可用于直观分析各试验点之间在品种评价
上的相似性。图中连接原点和各环境的直线称为
“向量”。向量的长度和向量间的夹角都有生物学上
的解释。两环境向量间夹角的余弦近似于它们之间
的遗传相关系数。夹角小于 90°表示正相关, 大于
90°表示负相关, 接近 90°表示无相关。正相关说明
两环境对品种的排序相似; 负相关说明两环境对品
1810 作 物 学 报 第 36卷
种的排序相左。本图中, 多数环境之间存在正相关;
许多环境之间存在紧密正相关, 如在E1、E2、E3和
E4之间。少数环境之间存在微弱负相关, 如在E7和
E8之间。无相关或负相关意味着可能存在不同品种
生态区。 紧密正相关则意味着有一些试验点可能是
重复设置的; 去掉一些试验点可以减少试验成本而
不影响对品种的评价。这一特性被用以选择在加拿
大东部选育燕麦品种所必要的试验点[27]。
图 2 GGE双标图的“哪个赢在哪里”功能形态
Fig. 2 Which-won-where view of the GGE biplot
此图是基于环境-中心化的(Centering =2)、未定标的(Scaling =0)
的品种-环境两向表。采用聚焦环境的特征值分配方法(SVP =2)。
品种以 g1至 g18表示, 环境以 E1至 E9表示。
The biplot is based on environment-centered (Centering = 2) and
un-scaled data (Scaling = 0), using environment-focused singular
value partitioning (SVP = 2) method. The genotypes are from g1 to
g18 and the environments are from E1 to E9.
图 3 GGE双标图的“环境间相关性”功能形态
Fig. 3 Environmental vector view of the GGE biplot
此图基于环境-中心化的(Centering =2), 未定标的(Scaling =0)的
品种-环境两向表。采用聚焦环境的特征值分配方法(SVP =2)。
品种以 g1至 g18表示, 环境以 E1至 E9表示。
The biplot is based on environment-centered (Centering = 2) and
un-scaled (standardized) data (Scaling = 0), using environ-
ment-focused singular value partitioning (SVP = 2) mothod. The
genotypes are from g1 to g18 and the environments are from
E1 to E9.
环境向量的长度是试验点对品种区分能力的度
量。图 3中, 东部地点(E5和 E7)看起来比其他地点
有较强的区分能力。对 GGE双标图上环境向量长度
的解释因数据定标方法不同而异 , 详见“不同类型
的 GGE双标图”一节。
4.3 “区分力和代表性”功能图
理想的试验地点应当具备两个条件, 一是对参
试品种有较强的区分能力, 二是对目标生态区有较
强的代表性。GGE双标图之“区分力和代表性”功能图
(图 4)专为直观评价试验点的这两个方面而设计[4]。它
在图 3 的基础上加了一个“平均环境轴”。图中的小
圆圈代表“平均环境”。它的位置取决于各试验环境
坐标的平均值。我们用这个平均环境来代表目标环
境。带箭头的直线通过双标图的原点和平均环境 ,
称为平均环境向量或平均环境轴(Average Environ-
ment Axis或AEA)。如上所述, 各试验点向量的长度
是其区分能力的度量。而试验点向量与平均环境向
量的角度是其对目标环境的代表性的度量。角度越
小, 代表性越强。角度越大, 代表性越弱。如果一个
试验点与平均环境向量的夹角是钝角(本例中没有
这样的环境), 则它不适合作为试验点。平均环境轴
箭头所指方向是对试验点区分力和代表性两方面的
综合评价[28]。就区分能力而言, E5和E7最好。就代
表性而言, E1、E2、E3、E4最好。综合起来, E1和
E5 最好。没有区分能力的试验点是无用的。有区
图 4 GGE双标图的“区分力与代表性”功能形态
Fig. 4 Discrimination and representativeness view of the GGE
biplot
此图基于环境-中心化的(Centering =2)、未定标的(Scaling =0)的
品种-环境两向表。采用聚焦环境的特征值分配方法(SVP =2)。
品种以 g1至 g18表示, 环境以 E1至 E9表示。
The biplot is based on environment-centered data (Centering = 2) and is
un-scaled (standardized) (Scaling = 0), using environment-focused
singular value partitioning (SVP = 2) method. The genotypes are from
g1 to g18 and the environments are from E1 to E9.
第 11期 严威凯等: 双标图分析在农作物品种多点试验中的应用 1811
分能力但没有代表性的试验点可用于淘汰不稳定的
品种, 但不能用于选择优良品种。只有既有区分力
又有代表性的试验点才能用来有效地选择高产稳产
的品种。育种点的选定是育种工作成败的重要因素。
4.4 “高产性和稳产性”功能图
在特定品种生态区内, 理想的品种应当既高产
又稳产。GGE双标图之“高产性和稳产性”功能图(图
5)专为同时了解品种的高产性和稳产性而设计[4]。与
图 4一样, 图中的小圆圈代表“平均环境”。带单箭头
的直线是平均环境轴。它所指的方向是品种在所有
环境下的近似平均产量。g8 平均产量最高, 接着是
g4、g10、g18, 依此类推。产量最低的是g12, 次低
者依次是g14、g7、g13、g1 等等。品种g17 的平均
产量接近试验总平均。与平均环境轴垂直并通过原
点的、带有双箭头的直线代表各品种与各环境相互
作用的倾向性; 箭头向外指向较大的不稳定性。越
偏离平均环境轴越不稳定。所以, 本例中最不稳定
的品种是g13。而g15、g16、g6、g4 等则较稳定。
其中, g4 可算作一个既高产又稳产的品种。由图还
可看出, g13之所以不稳定, 是因为它在南部一些试
验点(如E6, E8, E9)表现尚可但在东部(E5和E7在原
点的另一面) 表现很差。高产品种g8 也不太稳定;
它在西南部(E1~E4, E6, E8, E9)表现特别好但在东
部(E5 和E7)的产量只有中等偏下水平。由此可见,
GGE双标图不但可以同时显示各品种的高产性和稳
图 5 GGE双标图的“高产性与稳定性”功能形态
Fig. 5 Mean vs. stability view of the GGE biplot
此图基于环境-中心化的(Centering =2)、未定标的(Scaling =0)的
品种-环境两向表。采用聚焦品种的特征值分配方法(SVP =1)。
品种以 g1至 g18表示, 环境以 E1至 E9表示。
The biplot is based on environment-centered data (Centering = 2)
and is un-scaled (standardized) (Scaling = 0), using genotype-
focused singular value partitioning (SVP = 1) method. The geno-
types are from g1 to g18 and the environments are from E1 to E9.
产性, 而且还保留了各品种在各环境下产量的原始
信息。
应当指出, 稳产性或稳定性只在与高产相结合
时才有意义。比如, 品种g12也可以说是 “稳定的”,
但它是“稳定地”低产, 因此就产量而言毫无价值。那
种认为g12 携带有价值的“稳产基因”的观点是荒唐
的; 这是过去品种-环境互作研究和稳定性分析中的
一个误区。还应当指出, 品种评价必须针对特定的
品种生态区才有意义。因此, 高产性和稳产性这一
功能图应当在所有试验点属于同一品种生态区时使
用[8]。顺便指出, 与前 3个功能图(图 2~图 4)不同, 图
5 是基于聚焦品种的特征值分配(SVP = 1), 因为这
里关注的焦点是品种。在前 3 个功能图中采用了聚
焦环境的特征值分配(SVP = 2), 因为研究的焦点是
试验点。对特征值分配的选择不影响图 2 “哪个赢在
哪里”的模式和结论[22]。
5 如何判断双标图是否充分体现数据中的
规律
5.1 “拟合度”和“信息比”
以上对双标图的解释中 , 有一个隐含的假设 ,
就是所讨论的 2-D 双标图可以充分近似所代表的两
向表数据。但是, 如何知道这个假设是否满足, 首先
要看双标图的拟合度(Goodness of Fit), 即前两个主
成分(PC1 和 PC2)所解释的两向表中总变异的百分
数。如果拟合度高, 则双标图能较好地近似实际数
据。本例中(图 2~图 5), 双标图的拟合度是 78%, 属
于中等偏好。因此, 从图中所看到的关系或规律应
当是接近真实的。
当拟合度较低时, 双标图仍有可能很好地表现
了数据中隐含的规律。假定待分析数据中有g个品种
和e个环境(地点)。本例中, g = 18, e = 9。那末百分之
百表现这套数据所需要的最大主成分数目是K = min
(g–1, e)。本例中K = 9。如果数据中品种间和环境间
没有任何关系或规律, 每个主成分所解释的变异应
当都是总变异的 1/K。如果数据中存在一些关系或
规律, 那么有些主成分所解释的变异的比例就会大
于 1/K, 而其他的主成分所解释的比例则小于 1/K。
按此推理, Yan和Tinker[7]提出了“信息比”(IR)的概念,
它是各主成分所解释总变异的份额乘以K。这样, 对
于一个主成分, IR >1表示含有规律性信息, IR = 1表
示含有独立性信息, IR <1则表示不含任何规律或重
要信息。对于一套数据, 有几个主成分具有IR ≥1,
1812 作 物 学 报 第 36卷
就需要几个主成分来充分近似之。如果只需要 1 个
主成分, 那么双标图分析就是多余的。如果需要 2
个主成分, 则 2-D双标图足以表现数据中规律。如果
需要 3 个主成分, 则 2-D双标图不足以表现数据中
所有规律, 但 3-D双标图则可。如果需要 3个以上主
成分, 说明数据中规律复杂但没有突出规律。以表 2
数据为例, 前 6个主成分的IR值列于表 3。由于只有
前 2个主成分满足IR >1, 可以认为图 2中的双标图
充分体现了表 2数据中的规律。第 3个主成分(PC3)
的IR = 0.9, 说明它不含重要关系。
表 3 前 6个主成分的特征值、解释总变异的百分数及信息比
Table 3 Singular value, proportion explained, and information
ratio (IR) of the first six principal components (PC)
主成分
PC
特征值
Singular value
解释变异
Variation explained (%)
信息比
IR
1 5.0 58.9 5.3
2 2.9 19.1 1.7
3 2.1 10.0 0.9
4 1.1 2.9 0.3
5 0.9 1.8 0.2
6 0.3 0.3 0.0
5.2 2-D双标图不能充分表现数据时怎么办?
经验表明, 多数情况下, 2-D GGE 双标图足以
充分近似一年内多点试验的数据[8,18,29]。但在数据较
大(同时有很多品种和很多环境)或涉及到广泛的地
理分布, 或把不同年份的数据放在一起分析时, 情
况可能不同。2-D双标图不能充分近似数据时, 可以
考虑采取以下方法。
第 1 种方法是使用 3-D双标图。无论数据中所
含的规律有多复杂, 数据分析的目的是得出相对简
单的、可操作的结论。从这个意义上讲, 3-D GGE双
标图在大多数情况下都是足够的和适用的。需要指
出的是, 3-D双标图必须是动态的、旋转的。一个静
止的 3-D双标图所展示的信息量恒小于一个 2-D双
标图所含的信息量 , 不但无益 , 反而可能误导。
GGEbiplot软件包[4]具有旋转 3-D双标图的功能; 其
他软件包似乎暂无此功能。
第 2 种方法是把试验点分组并分别进行研究。
按照 2-D双标图表现出的环境间关系把环境分组 ,
然后按组分别研究, 是解决数据较大、关系较复杂
的有效途径。例如, 按图 2 显示的关系, 可把除E5
和E7 以外的环境拿出来单独分析[8]。当然本例不是
一个最好的例子, 因为图 2 已经足以概括整个数据
集。一个更恰当的例子是文献[30], 其中包含了 145
个大麦基因型和 25个试验环境, 试验点横跨美国北
部及加拿大且历时 3年。
第 3 种方法是去掉数据中的低产品种。2-D 双
标图不能充分表现数据中的规律多是因为数据中的
GE 关系复杂而得不到充分表现; 后者又可能是因
为品种主效益较强所致。在这个前提下, 去掉一些
在所有或多数环境下都低产的品种, 可以减少双标
图中 G 的分量, 使较多的 GE 得以在双标图上表现,
从而取得对环境更好的区分。图 6 是在去掉较低产
品种 g12、g13、g14、g1、g7和 g17后的 GGE双标
图。由于提高了 GE/G比, 9个地点被分成了 3组, 而
不是图 2中的两组, E7单独为第一组, E1和 E5为第
二组, 其他 6 个地点为第 3 组。各组名义上的最高
产品种分别为 g5、g6和 g8。需要指出的是, 去掉普
遍低产的品种后使数据中的规律性变弱。因此, 若
按上面提到的信息比(IR)来判断, 只含高产品种的
子集反而需要比原数据更多的主成分来充分展示其
品种间及环境间较弱的关系。
图 6 只包含较高产品种的 GGE双标图
Fig. 6 GGE biplot excluding some low yielding genotypes
其他设置如图 2。All settings are the same as Figure 2.
应当强调, 一个双标图即便不能展示数据中的
全部关系, 仍然是有用的。理由是无论数据多么复
杂, 2-D或 3-D双标图所显示的规律总是数据中最重
要的规律, 并且研究者总是要从中得出比较简单的,
易于操作的结论。为此研究者必须认识到并接受这
样的事实, 即许多较不重要的规律或关系必须暂时
地被忽略掉。从这个意义上, 双标图分析是一个对
试验资料去粗取精, 去枝蔓显主干的有效技术。
第 11期 严威凯等: 双标图分析在农作物品种多点试验中的应用 1813
6 如何检验双标图上关系的显著性
上面所讨论是关于双标图是否充分表现数据和
是否真实反映实际数据。而看到的规律在统计学上
是否显著是另一个不同的问题。拟合度高说明图上
显示的关系对于本套数据是真实的, 但它不一定在
统计上显著, 反过来也一样。比如, 如果数据中只有
3 个品种, 那么双标图一定 100%地反映数据。但由
于品种数太少, 图中显示的环境间遗传相关很可能
在统计上并不显著。反过来, 如果有几百个品种, 虽
然双标图只解释了总变异的一小部分, 图上显示的
一些环境间关系却可能是高度显著的。
由于双标图本身没有一个判断显著性的尺度 ,
在按照双标图做出重要决定之前需要进行统 检
验。因此, 原则上应当把双标图当作一个建立假说
的工具而不是作出最终结论的工具[5]。当然, 实际工
作中, 不是所有决定和行动都是按统计显著性作出
的。比如, 育种家通常要选择一定比例的品系作进
一步试验; 种植者通常只能选用一个或少数几个品
种。这种情况下, 重要的是对品种按优劣排序, 然后
在其他性状相同的情况下取排名靠前的品种, 而不
是看哪个品种是否比其他品种显著地好或差。在确
实需要对某个假说进行检验时, 可以采用以下几种
方法。
6.1 用原始两向表数据进行验证
图 2揭示, g8和 g18与两组环境(E5和 E7相对
于 E1-E4、E6、E8 和 E9)存在交叉性互作。这个观
察可以归纳成一个可检验的假说: “g18 在安大略东
部(由 E5和 E7代表)比 g8高产, 在安大略西南部(由
其他 7 个试验点代表)则相反”。由原表抽出的数据
(表 4-a)可见, 的确在东部的每个试验点都是 g18 高
于 g8, 而在西南部的每个试验点都是 g8高于 g18。
因此, 不需计算任何统计值就知道这个假说在统计
上是可靠的。表 4-b 数据可用于验证图 6 的试验点
分组。
表 4 由表 2抽提出的部分数据以验证双标图所揭示的交叉互作
Table 4 Data extracted from Table 2 t test the crossover genotype-by-location interactions revealed from the biplot
a) 试验点分
安大略东部
Eastern Ontario 品种
Geno-
type E5 E7 平均
Mean
g8 −0.15 −0.07 −0.11
g18 0.96 0.78 0.87
b) 试验点分为
安大略东部
Eastern Ontario
安大略东
Eastern On品种
Genotype E7 E1 E5
g5 0.91 0.03 0.09
g6 −0.25 0.82 0.90
g8 −0.07 0.49 −0.15
6.2 用原始重复数据进行统计检验
若有重复数据, 可对假说进行更严
验。2个品种与 2个(组)环境的互作是
(Y22 − Y12)。其中“Y11”是品种 1 在环境
“Y21”是品种 2在环境 1中的产量, 余类
中, 互作量是(0.66 − 0.14) + [0.87 − (−0
hm−2, 而本试验的误差是 0.42 t hm−2, 误
459。因此这个互作无疑是显著的。需要
性互作假说是D1 = Y11 − Y21 > 0且D2 =
由表 4-a的实际数据得出, D1 = 0.66 – 0
o 为 2组 W
E1
0.49
−0.13
3组 Whe
部
tario
平均
Mean
0.06
0.86
0.17
格的统
(Y11 − Y
1 中的
推。由表
.11)] = 1
差自由
检验的
Y22 – Y12
.14 = 0.5计hen the locations are divided into two groups
安大略西南部及 E1
Southwestern Ontario plus E1
E2 E3 E4 E6 E8 E9 平均
Mean
0.23 1.29 0.46 0.77 0.70 0.67 0.66
0.22 0.47 0.42 −0.23 0.00 0.21 0.14
n the test locations are divided into three groups
安大略西南部
Southwestern Ontario
E2 E3 E4 E6 E8 E9 平均
Mean
0.17 0.37 0.35 0.36 −0.26 −0.07 0.15
0.04 −0.15 0.28 −0.02 −0.09 −0.12 −0.01
0.23 1.29 0.46 0.77 0.70 0.67 0.69
计检
21) +
产量,
4-a
.50 t
度是
交叉
> 0。
2, D2
= 0.87 − (−0.11) = 0.98。检验的误差项是 /SE s n× ,
其中SE = 0.42, n = 4是每试验点内重复数, s (= 7或
2)是对比所涉及的试验点数。因此t值分别为t1= D1/
SE1 = 0.52/ (0.42/5.29) = 6.55, t2 = D2/SE2 = 0.98/
(0.42/2.83) = 6.60。显然这些t值都是极显著的, 假说
由此得证。
另一个检验双标图假说的例子是图 3 显示多数
试验点有正的遗传相关(锐角), 但 E5 和 E7 与 E6、
E8和 E9则呈负相关(钝角)或无相关(接近直角)。这
些关系可由环境间相关系数表(表 5)中得到验证。
1814 作 物 学 报 第 36卷
表 5 不同试验点间的遗传相关系数
Table 5 Correlation coefficients among test locations
试验点
Test location
E1 E2 E3 E4 E5 E6 E7 E8
E2 0.65**
E3 0.55* 0.69**
E4 0.75** 0.75** 0.62**
E5 0.74** 0.66** 0.48* 0.65**
E6 0.52* 0.61** 0.56* 0.70** 0.20
E7 0.36 0.64** 0.46 0.32 0.64** 0.11
E8 0.29 0.34 0.43 0.51* −0.10 0.54* −0.18
E9 0.58* 0.71** 0.66** 0.72** 0.36 0.83** 0.22 0.71**
*, **: 分别在 0.05和 0.01概率水平上显著。
*, **: significant at the 0.05 and 0.01 probability levels, respectively.
6.3 以试验小区为基本单位作双标图进行验证
由双标图提出的假说也可由以试验小区(重复)
为基本单位的双标图来验证(图 7)。图 7中把试验点
内的重复作为“环境”。如果图 2 中的交叉性互作属
实, 那么 g18 在 E5 和 E7 的多数重复的产量都应高
于 g8, 在其他试验点则相反。图 7说明确实如此, E5
和 E7内的所有重复都落在同一区域, 以 g18(以及与
其接近的 g5和 g9等)为赢者。其他试验点的所有重
复则落在另一区域, 以 g8 为赢者, 且两组“环境”没
有重叠。图 2的交叉性互作由此得到印证。
图 7 以环境内重复为基本数据的 GGE双标图
Fig. 7 Genotype by replication-within-environment biplot
“E1: 1” 表示环境 E1中的第一重复, 余类推。
The four replications within each location are represented by the
location code plus the replication code.
6.4 用多年数据进行验证
在作出具有长远影响的决定时, 由一年数据得
出的结论, 不管是用双标图分析还是其他分析, 都
需要用多年数据来验证。用多年数据来决定一个目
标地区可否分为若干品种生态区已经成为一个原则
和惯例, 例如对安大略冬小麦[18]、安大略大豆[31]、
阿根廷花生[32]、美国棉花[33]、加拿大东部燕麦[27]等
各生态区的研究。考虑到一年内的数据多是平衡的
(相同的品种出现在所有试验点), 而年间数据大多
不平衡, 这些研究都采取“逐年分析, 然后综合”的
策略 [16]。应当指出 , 相对于用多年数据相互验证 ,
对一年内数据的统计检验变得无关紧要。
分析多年数据的另一种策略是把年份和地点的
组合作为环境, 从而把多年数据放在同一个GGE双
标图上来分析。最理想的情况是各年参试品种或基
因型完全相同。这在常规品种试验中几不可能, 只
在专门的遗传或生理研究中才会有。例如对北美大
麦品种生态区的分析 , 用的是 145个大麦双二倍体
在北美 25 个地点-年份组合的产量数据[30]。在常规
多点试验中, 如果有一定数目的品种(如 10个以上)
参加了多年的试验, 也可以把由这些品种组成的平
衡数据抽提出来作类似分析。分析的原理是, 如果
品种和地点间存在可重复的交叉性互作, 那么环境
就会主要以地点聚类[30]。据此可以把目标地区划分
为不同品种生态区 , 并针对性地选择特适性品种 ;
反之, 则说明GE是随机的, 不可利用的, 不能把所
涉及的目标环境划分为不同的品种生态区。在这种
情况下, 必须选用数个(而不是一个)普适性的稳产
品种。
6.5 一种检验双标图上交叉互作之真实性的错
误方法
双标图因在直观分析品种多点试验数据以及其
他两向数据上的强大功能受到育种家和农学家们的
青睐, 同时也招致一些学者的批评。迄今对双标图
分析持最激烈否定观点的是Yang等[21]。他们使用一
种 “自拔”模拟(bootstrap simulation)的方法对表 2数
第 11期 严威凯等: 双标图分析在农作物品种多点试验中的应用 1815
据进行重新分析后, 认为图 2 所展示的交叉性互作
是虚假的, 并由此建议: “未来Crop Science杂志或其
他农业科学杂志接受有关双标图的论文时, 应以其
是否对双标图进行了适当的统计学检验 (比如用
“自拔”模拟)为条件”。遗憾的是, 他们所用的方法存
在严重问题, 因此得出的结论是误导的[47]。
7 不同类型的 GGE双标图
前面指出, GGE 双标图是唯一适合分析品种多
点试验数据的双标图。每一个双标图有 4 个重要的
功能形态或图型, 分别适用于品种评价、试验点评
价和品种生态区划分。本节将进一步指出, 按照数
据定标方法(data scaling)的不同 , 对同一套试验数
据, 可以作出几种不同类型的 GGE双标图。数据定
标是把同一环境内各品种的数值除以(或乘以)某个
能够表征该环境的量(表 6), 以便把各环境放在同一
尺度下比较。
这里介绍 4 类常用的数据定标方法及相应的
GGE双标图[28]。不同的数据定标方法实质上是给不
同试验点在品种评价上以不同的权重; 这会或多或
少地影响到对品种和试验点的评价。基于不同数据
定标的GGE双标图各有优缺点, 简介如下。
表 6 各试验点主要参数(基于 1993年安大略冬小麦区域试验)
Table 6 Parameters characterizing the test-environments (based on the 1993 Ontario winter wheat performance trials)
试验点
Test location
平均产量
Mean yield
(t hm−2)
标准误差
SE
(t hm−2)
标准差
SD
(t hm−2)
遗传力
Heritability
(h2)
h
变异系数
Coefficient of variation
(%)
E1 4.36 0.59 0.62 0.78 0.88 13
E2 4.44 0.29 0.47 0.90 0.95 7
E3 3.14 0.31 0.54 0.92 0.96 10
E4 3.50 0.24 0.43 0.92 0.96 7
E5 5.68 0.65 0.71 0.79 0.89 11
E6 5.06 0.32 0.41 0.84 0.92 6
E7 4.24 0.59 0.68 0.81 0.90 14
E8 4.36 0.21 0.36 0.92 0.96 5
E9 2.90 0.33 0.42 0.84 0.92 12
7.1 未定标的 GGE双标图
未定标的GGE 双标图是不经过数据定标 , 直
接将环境中心化的数据(表 2)进行特征值分解而建立
的。前面谈到的双标图(图 2~图 7)均属此类(“Scaling =
0”)。与其他数据定标方法相比, 其特点是, 在采用
聚焦环境的特征值分配(“SVP = 2”)时, 图中各环境
向量的长度与各环境内品种均值间的标准差
(standard deviation of means, SD, 等于环境内表型
方差的平方根σp)呈近似直线关系。近似的程度与双
标图的拟合度有关。某试验点内SD的大小可以作为
衡量该试验点对品种的表型区分能力的指标, 如在
针对图 3 和图 4 所谈到的。图 3 中E5 和E7 的向量
较长, 体现了其SD较大的事实(表 6)。
但是 , SD 并不是区分能力的最好指标 , 因为
, 即表型方差由基因型方差(2 2 2 /p g e nσ σ σ= + 2gσ )和
试验误差方差( 2eσ )共同决定, 而与环境的区分能力
直接有关的是基因型方差。式中 n是环境内重复数。
因此, 用未定标 GGE双标图对试验点进行有效评价
是有条件的 , 即各试验点的试验误差相同或相近
(称为误差同质性原则); 而这个条件在实际中不一
定能满足(表 6)。因此有必要探索其他的数据定标方
法。
7.2 标准误定标的 GGE双标图
用环境内标准误差(SE, =σe)对环境定标, 即以
环境SE去除两向表中相应环境内各品种的数值, 可
以在一定程度上消除试验点之间误差的不同质(图
8)。在SE-定标的GGE双标图中, 各环境向量的长度
与统计值 )1(/1 2h− 成正比 , 其中h2是产量在某环
境下的遗传力(heritability)(或叫重复性 , repeatabil-
ity)。图 8中E2、E3、E4和E8的向量比其他环境的
向量明显较长, 因为它们的遗传力较高(表 6)。但是,
由式 )1(/1 2h− 可知, 图上向量长度与遗传力的关
系是曲线关系, 而非直线关系。因此这种定标方法
也不是最理想的。
7.3 标准差定标的 GGE双标图
用环境内品种均值间的标准差(SD)对各环境进
行定标, 即以环境SD去除两向表中相应环境内各品
种的数值 , 可以消除各环境在SD上的差异。因此 ,
1816 作 物 学 报 第 36卷
在SD-定标的GGE双标图上, 在拟合度较高的前提
下, 各个环境之向量的长度应当是相同或相近的(图
9)。这一特性有两个用途。第一, 由于各环境的向量
长度相近, 此图更便于直观分析各环境在品种排序
上的相似性。第二, 可据以判断双标图是否充分表
现数据。如果双标图上各环境的向量长度显著不同,
则说明该双标图不能充分体现数据中环境间的关
系。图 9 中各环境向量长度基本相同, 印证了上节
的结论, 即 2-D双标图可以充分表现本套数据。如果
有些环境的向量比其他环境的向量明显短, 则说明
与这些环境有关的关系在双标图上没有得到充分表
现, 后者又说明这些环境与其他环境没有紧密关系
[35]。与这些优点相伴而来的缺点是, 此双标图上环
境向量的长度不再是其对品种区分能力的度量。
图 8 SE-定标的 GGE双标图
Fig. 8 SE-scaled GGE biplot (“Scaling =3”)
除 SE-定标(“Scaling = 3”)外, 其他设置同图 4。
Other settings are the same as in Figure 4.
图 9 SD-定标的 GGE双标图
Fig. 9 SD-scaled GGE biplot (“Scaling = 1”)
除 SD-定标(“Scaling = 1”)外, 其他设置同图 4。
Other settings are the same as in Figure 4.
SD-定标的GGE双标图与多元分析中常用的主成分
分析模型相一致 [16], 因而在多元数据(如品种-性状
两向表 , 品种-遗传标记两向表 , 等等)分析中有广
泛应用。在需要把各环境看得同等重要时, SD-定标
的GGE 双标图应当是第一选择。
7.4 遗传力平方根校正的 GGE双标图
根据数量遗传学上关于间接选择的理论, 评价
一个环境(或试验点, 或性状)在间接选择上的价值
时必须考虑两个方面: (1)该环境与目标环境的遗传
相关(rg), 即代表性; (2)该环境下的遗传力之平方根
(h), 即区分力; 而二者之乘积(rgh)则是一个综合的
指标[36-37]。据此, Yan和Holland[28]提出了一个遗传力
平方根(h)校正后的GGE 双标图。此图与SD-定标的
GGE双标图相同, 只是把SD-定标后的数据乘以相
应环境的h值。由此得到的GGE双标图(图 10)有以下
解释: (1)各环境向量的长度近似于相应环境的h值,
(2)各环境向量与平均环境之间夹角的余弦近似于
相应环境与平均环境之间的遗传相关rg, (3)各环境
向量在平均环境轴上的投影长度近似于rgh。这样, h-
校正的GGE双标图把双标图分析与间接选择理论完
美地结合了起来, 因此是在试验点评价和品种评价
上最理想的双标图。按照图 10, 最理想的试验点应
是E2 和E4, 而不是图 4 中所建议的E1 和E5。因为
E1 虽然有较大的表型方差, 但其遗传力却较低(表
6)。值得注意的是, 图 10与图 9看起来几乎完全相
同。这是因为各环境的h值差别有限(表 6)。由此推
论, SD-定标的GGE双标图在各试验点遗传力差别较
小时 , 可以很好地替代 h -校正的G G E双标图 ,
图 10 h-校正的 GGE双标图
Fig. 10 h-adjusted GGE biplot (“Scaling = 2”)
除 h-校正的定标(“Scaling = 2”)外, 其他设置同图 4。
Other settings are the same as in Figure 4.
第 11期 严威凯等: 双标图分析在农作物品种多点试验中的应用 1817
而 SD-定标的 GGE双标图是最简单的 GGE双标图。
不同数据定标方法的实质是按不同试验点(环
境)的特点, 给予其在品种评价上不同的权重或发言
权。例如, h-定标的 GGE双标图是按试验点的遗传
力平方根来权重; 遗传力高的试验点在评价品种上
得到较大的发言权。SE-定标的双标图有相似的性
质。SD-定标的双标图是给所有试验点(环境)以相同
的权重。未定标 GGE双标图则是按试验点上表型方
差的大小来权重。此外, 所有 GGE双标图有一个共
同特点, 就是在品种评价中把各试验点与平均环境
的遗传相关(即对目标环境的代表性)作为一个权重
因素。不同类型的 GGE双标图的优缺点总结于表 7。
表 7 不同类型的 GGE双标图
Table 7 Properties of different types of GGE biplot
类型
Type of GGE biplot
未定标
Un-scaled
SD-定标的
SD-scaled
SE-定标的
SE-scaled
h-校正的
h-adjusted
定标方法 — 环境内品种均值间标
准差(SD= pσ )
环境内试验误差
( eSE σ= )或其
变种
环境内 SD 及遗传力之
平方根( ) /p hσ
环境向量的长度近似于 SD = pσ 1 )1(/1 2h− h ( / )g pσ σ=
环境间夹角之余弦表示环境间遗传相关
(前提是采用聚焦环境的特征值分配)
rg rg rg rg
各环境对品种评价的权重 g pr σ rg 2/ (1 )gr h− gr h
关于试验点评价 适用于环境间的试验
误差同质时
适用于各环境同等重
要时
普遍适用 最适
关于品种评价 适用于环境间的试验
误差同质时
适用于各环境同等重
要时
普遍适用 最适
是否要求重复数据? 否 否 是 是
可否用于分析品种-性状两向表及其他多
元数据?
否 是 是 是
7.5 基于随机效应模型的 GGE双标图
迄今所讨论的双标图(以及 AMMI 有关的功能
图)都是基于传统的固定效应模型。近 20年来, 随着
计算机容量和计算速度的大幅提高, 基于随机效应
的统计模型得到越来越多的重视和应用。使用固定
效应模型有一些假设和局限性。其一, 它要求平衡
数据, 即同一套品种在同一套试验点上试验, 而且
每个试验点上重复数目也相同。这个要求虽然在每
年内的试验设计阶段可能得到满足, 但由于各种自
然或人为的原因, 总会出现一些缺区。在把不同年
份的数据放在一起统一分析时, 要求平衡数据更是
几不可能。在缺区较少时, 可设法填入“估计”数据,
使得双标图分析得以进行。缺区太多时也可设法填
入估计数据 , 但双标图上规律的可信度就大打折
扣。其二, 固定效应模型假定各试验点上各区组内
条件完全一致。在区组较大时(如大于 10), 这个假
设很难满足。其三, 固定效应模型假定各试验环境
的试验误差同质, 这个要求通常不能满足。上面谈
到的用环境内试验误差或遗传力定标的方法可以部
分解决第三个问题。在作双标图分析之前对各环境
进行田间变异校正(spatial analysis)可以解决第二个
问题。若把分析限定在一年内多点试验, 则第一个
问题基本上不是问题.
据信 , 使用基于随机效应模型的析因分析法
(Factor Analytic或FA), 可以同时解决这些问 题
[29,38-40]。概念上, 用FA分析多点试验数据包括以下
几个步骤。首先是诊断各试验内的田间变异(spatial
variation)模式, 然后将其作为随机效应模型的组成
部分, 估计各品种在各环境下的随机效应(BLUP)。
其次是在此基础上进行析因分析。这相当于主成分
分析; 一个“因子”相当于一个“主成分”。每一个因子
由一套环境载荷(loadings)和一套品种评分(scores)
组成。由第一和第二因子做出的双标图称为FA双标
图; 它实际上也是GGE双标图, 只是基于随机效应
模型。因此本文所述之GGE双标图的功能也适用于
FA双标图。但是, 在现有介绍FA分析的文章中, 很
少用到双标图, 而是限于关于环境的散点图, 侧重
于认识环境之间的遗传相关关系[29,39]。这大概是因
为品种太多、缺区太多和把品种-环境互作作为随机
效应, 因而双标图的功能大打折扣。这些文章中也
采用了GGE双标图分析中“平均环境”的概念, 并由
此计算品种的总体排序。在FA散点图上, 环境向量
1818 作 物 学 报 第 36卷
的长度代表其遗传方差之平方根(σg), 而环境之间
夹角的余弦表示环境间的遗传相关系 数[29]。介于传
统GGE双标图与FA双标图分析之间的另一种作法,
是先用随机效应模型估计出各品种在各环境下的无
偏预测值(BLUP), 然后以此品种-环境两向表为基
本数据进行GGE双标图分析[41]。
8 结语
双标图分析法是用图解的形式表现和分析两向
数据的独特方法。用 GGE 双标图分析品种-环境两
向数据可以达到 3 方面目的。第一, 直观地把环境
分为若干品种生态区(如果存在不同品种生态区的
话), 并同时揭示各生态区内最适应的品种。第二 ,
在一个生态区内, 同时显示各品种的高产性和稳定
性。第三, 同时显示各试验环境(试验点)对品种的区
分力和对目标环境(目标地区)的代表性。这些功能
都是育种工作者和农业研究人员长期以来孜孜以求
的, 对品种生态区的划分, 对新品种的选育、评价和
推广, 以及对试验点的评价和选用, 具有显见的实
用价值。特别是在适当计算机软件的帮助下, 双标
图的应用十分简单便利, 可大大提高研究的时效。
本文就双标图的主要变种, 双标图分析的基本方法
和注意事项作了简要介绍。双标图分析正在成为育
种家和其他农业研究人员日常必备的统计分析工具;
正确地使用双标图分析将会提高育种和农业研究的
效率。
双标图的应用不限于多点试验数据的分析, 也
不限于农业或生物学数据的分析。基本上, 任何数
据, 只要能够整理成两向表的形式, 就可以用双标
图进行直观分析。农业方面常见的数据类型, 除了
本文中提到的品种-环境两向表、QTL效应-环境两向
表[24]、品种-性状两向表[35]、基因表达数据[26]外, 还
有双列杂交两向表[42-43]、寄主-病原物两向表[44]、基
因型-遗传标记数据[6]、环境条件-作物性状两向 表
[45]、试验地点-气候土壤因素两向表[46]等等。双标图
也被广泛用于医学、社会学、商业和市场学等方面
的数据分析。本文对双标图在这些领域的应用也具
参考价值。
References
[1] Lin C S, Binns M R. Concepts and methods of analyzing regional
trial data for cultivar and location selection. Plant Breed Rev,
1994, 12: 271−297
[2] Cooper M, DeLacy I H. Relationship among analytical methods
used to study genotypic variation and genotype-by-environment
interaction in plant breeding multi-environment experiments.
Theor Appl Genet, 1994, 88: 561−572
[3] Gauch H G, Zobel R W. Identifying mega-environments and tar-
geting genotypes. Crop Sci, 1997, 37: 311−326
[4] Yan W. GGEbiplot—a Windows application for graphical analy-
sis of multi-environment trial data and other types of two-way
data. Agron J, 2001, 93: 1111−1118
[5] Yan W, Hunt L A. Biplot analysis of multi-environment trial data. In:
Kang M S ed. Quantitative Genetics, Genomics, and Plant Breeding.
CAB International, Wallingford, Oxon, UK. 2003. pp 289−303
[6] Yan W, Kang M S. GGE Biplot Analysis: A Graphical Tool for
Breeders, Geneticists, and Agronomists. Boca Raton, FL: CRC
Press, 2003
[7] Yan W, Tinker N A. Biplot analysis of multi-environment trial
data: Principles and applications. Can J Plant Sci, 2006, 86:
623−645
[8] Yan W, Kang M S, Ma B L, Woods S, Cornelius P L. GGE biplot
vs. AMMI analysis of genotype-by-environment data. Crop Sci,
2007, 47: 643−655
[9] Finlay K W, Wilkinson G N. The analysis of adaptation in a plant
breeding programme. Aust J Agric Res, 1963, 14: 742−754
[10] Gauch H G Jr, Piepho H P, Annicchiarico P. Statistical analysis of
yield trials by AMMI and GGE: further considerations. Crop Sci,
2008, 48: 866−889
[11] Gauch H G Jr. Statistical analysis of yield trials by AMMI and
GGE. Crop Sci, 2006, 46: 1488−1500
[12] Gabriel K R. The biplot graphic display of matrices with applica-
tion to principal component analysis. Biometrika, 1971, 58:
453−467
[13] Bradu D, Gabriel K R. The biplot as a diagnostic tool for models
of two-way tables. Technometrics, 1978, 20: 47−68
[14] Kempton R A. The use of biplots in interpreting variety by envi-
ronment interactions. J Agric Sci, 1984, 103: 123−135
[15] Kroonenberg P M. Introduction to Biplots for GE Tables. Leiden
University, 1995 (http://three-mode.leidenuniv.nl/document/biplot.
pdf)
[16] DeLacy I H, Basford K E, Cooper M, Fox P N. Retrospective
analysis of historical data from multi-environment trials—
Theoretical development. In: Cooper M, Hammer G L, eds. Plant
Adaptation and Crop Improvement. Wallingford: CAB Interna-
tional/IRRI/ICRISAT, 1996. pp 243−267
[17] Zobel R W, Wright M J, Gauch H G Jr. Statistical analysis of a
yield trial. Agron J, 1988, 80: 388−393
[18] Yan W, Hunt L A, Sheng Q L, Szlavnics Z. Cultivar evaluation
and mega-environment investigation based on GGE biplot. Crop
第 11期 严威凯等: 双标图分析在农作物品种多点试验中的应用 1819
Sci, 2000, 40: 596−605
[19] Wang L(王磊), McLaren C G, Yang S-H(杨仕华). Use of biplot
in the analysis of G×E interactions. Sci-Tech Commun (科技通
报), 1997, 13(5): 275−280 (in Chinese)
[20] Yan W-K(严威凯), Sheng Q-L(盛庆来), Hu Y-G(胡跃高), Hunt
L A. GGE biplot—an ideal method for analyzing genotype by
environment interaction patterns. Acta Agron Sin (作物学报),
2001, 27(1): 21−28 (in Chinese with English abstract)
[21] Yang R C, Crossa J, Cornelius P L, Burgueño J. Biplot analysis
of genotype × environment interaction: proceed with caution.
Crop Sci, 2009, 49: 1564−1576
[22] Yan W. Singular value partitioning for biplot analysis of
multi-environment trial data. Agron J, 2002, 94: 990−996
[23] Gauch H G Jr, Zobel R W. AMMI analysis of yield trials. In:
Kang M S, Gauch H G, eds. Genotype-by-Environment Interac-
tion. Boca Raton, FL: CRC Press, 1996. pp 85−122
[24] Yan W, Tinker N A. A biplot approach to the investigation of
QTL-by-environment patterns. Mol Breed, 2005, 15: 31−43
[25] Vargas M, Crossa J, van Eeuwijk F A, Ramírez M E, Sayre K.
Using partial least squares regression, factorial regression, and
AMMI models for interpreting genotype×environment interac-
tion. Crop Sci, 1999, 39: 955−967
[26] Chapman S, Schenk P, Kazan K, Manners J. Using biplots to in-
terpret gene expression patterns in plants. Bioinformatics, 2002,
18: 202−204
[27] Yan W, Frégeau-Reid J A, Pageau D, Martin R, Mitchell-Fetch J,
Etienne M, Rowsell J, Scott P, Price M, de Haan B, Cummiskey
A, Lajeunesse J, Durand J, Sparry E. Identifying essential test
locations for oat breeding in eastern Canada. Crop Sci, 2010, 50:
504−515
[28] Yan W, Holland J B. A heritability-adjusted GGE Biplot for test
environment evaluation. Euphytica, 2010, 171: 355–369
[29] Smith A, Cullis, B R, Thompson R. Exploring variety- environ-
ment data using random effects AMMI models with adjustment
for spatial field trends: Part 1: Theory. In: Kang M S ed. Quanti-
tative Genetics, Genomics and Plant Breeding. Wallingford,
Oxon, UK: CABI Publishing, 2003. pp 323−336
[30] Yan W, Tinker N A. An integrated system of biplot analysis for
displaying, interpreting, and exploring genotype-by-environment
interactions. Crop Sci, 2005, 45: 1004−1016
[31] Yan W, Rajcan I. Biplot analysis of test sites and trait relations of
soybean in Ontario. Crop Sci, 2002, 42: 11−20
[32] Casanoves F, Baldessari J, Balzarini M. Evaluation of multienvi-
ronment trials of peanut cultivars. Crop Sci, 2005, 45: 18−26
[33] Blanche S B, Myers G O. Identifying discriminating locations for
cultivar selection in Louisiana. Crop Sci, 2006, 46: 946−949
[34] Lebart L. Which bootstrap for principal axes methods. In: Vrito P,
Bertrand P, Cucumel G F, de Carvalho F, eds. Selected Contribu-
tions in Data Analysis and Classification, Part VII. Berlin, Hei-
delberg: Springer, 2007. pp 581−588
[35] Yan W, Frégeau-Reid J A. Breeding line selection based on mul-
tiple traits. Crop Sci, 2008, 48: 417−423
[36] Allen F L, Comstock R E, Rasmusson D C. Optimal environ-
ments for yield testing. Crop Sci, 1978, 18: 747−751
[37] Falconer D S, Mackay T F C. Introduction to Quantitative Ge-
netics, 4th edn. Harlow, Essex: Longman Scientific and Technical,
1996
[38] Gilmour A R, Cullis B R, Verbyla A P. Accounting for natural and
extraneous variation in the analysis of field experiments. J Agric
Biol Env Stat, 1997, 2: 269−293
[39] Kelly A M, Smith A B, Eccleston J A, Cullis B R. The Accuracy
of varietal selection using Factor Analytic models for multi-
environment plant breeding trials. Crop Sci, 2007, 47:
1063−1070
[40] Stefanova K T, Buirchell B. Multiplicative mixed models for ge-
netic gain assessment in Lupin breeding. Crop Sci, 2010, 50:
880−891
[41] Pswarayi A, van Eeuwijk F A, Ceccarelli S, Grando S, Comadran
J, Russell J R, Francia E, Pecchioni N, Li Destri O, Akar T,
Al-Yassin A, Benbelkacem A, Choumane W, Karrou M, Ouabbou
H, Bort J, Araus J L, Molina-Cano J L, Thomas W T B, Roma-
gosa I. Barley adaptation and improvement in the Mediterranean
basin. Plant Breed, 2008, 127: 554−560
[42] Yan W, Hunt L A. Biplot analysis of diallel data. Crop Sci, 2002,
42: 21−30
[43] Shang Y(尚毅), Li S-Q(李少钦), Li D-R(李殿荣). GGE biplot
analysis of diallel cross of B. napus L. Acta Agron Sin (作物学
报), 2006, 3(2): 243−248 (in Chinese with English abstract)
[44] Yan W, Falk D E. Biplot analysis of host-by-pathogen interaction.
Plant Dis, 2002, 86: 1396−1401
[45] Chen S-L(陈四龙), Li Y-R(李玉荣), Cheng Z-S(程增书), Liu
J-S(刘吉生). GGE biplot analysis of effects of planting density
on growth and yield components of high oil peanut. Acta Agron
Sin (作物学报), 2009, 35(7): 1328−1335 (in Chinese with Eng-
lish abstract)
[46] Ma B L, Yan W, Dwyer L M, Frégeau-Reid J A, Voldeng H D,
Dion Y, Nass H. Graphic analysis of genotype, environment, ni-
trogen fertilizer and their interactions on spring wheat yield.
Agron J, 2004, 96: 169−180
[47] Yan W, Glover K D, Kang M S. Comment on “biplot analysis of
genotype × environment interaction: proceed with caution”. Crop
Sci, 2010, 50: 1121–1123