全 文 :作物学报 ACTA AGRONOMICA SINICA 2010, 36(7): 1100−1107 http://www.chinacrops.org/zwxb/
ISSN 0496-3490; CODEN TSHPA9 E-mail: xbzw@chinajournal.net.cn
本研究由国家重点基础研究发展规划(973计划)项目(2006CB1017, 2009CB1184, 2010CB1259), 国家高技术研究发展计划(863计划)项目(2006AA1001
04, 2009AA1011), 国家农业部公益性行业专项(200803060)和教育部高等学校创新引智计划项目(B08025)资助。
* 通讯作者(Corresponding author): 盖钧镒, E-mail: sri@njau.edu.cn; Tel: 025-84395405
第一作者联系方式: E-mail: chfsu2008@163.com
Received(收稿日期): 2009-12-28; Accepted(接受日期): 2010-03-19.
DOI: 10.3724/SP.J.1006.2010.01100
不同统计遗传模型 QTL定位方法应用效果的模拟比较
苏成付 赵团结 盖钧镒*
南京农业大学大豆研究所 / 国家大豆改良中心 / 作物遗传与种质创新国家重点实验室, 江苏南京 210095
摘 要: 分子遗传和数量遗传的结合, 发展了 QTL 定位研究。随着定位方法与软件的建立和完善, QTL 定位的研究
越来越多。准确定位的 QTL 可用于分子标记辅助选择和图位克隆, 而假阳性 QTL 将误导定位信息的应用。本文分
析了迄今主要定位方法(软件)对于各种遗传模型数据的适用性。应用计算机模拟 4类遗传模型不同的重组自交系群
体(RIL), 第一类只包含加性 QTL; 第二类包含加性和上位性互作 QTL; 第三类包含加性 QTL 和 QTL 与环境互作效
应; 第四类包含加性、上位性互作 QTL 和 QTL 与环境互作效应。每类按模拟 QTL 个数不同设两种情况, 共分为 8
种数据模型(下称 M-1~M-8)。选用 WinQTLCart 2.5的复合区间作图(下称 CIM)、多区间作图前进搜索(MIMF)、多区
间作图回归前进选择(MIMR)、IciMapping 2.0的完备复合区间作图(ICIM)、MapQTL 5.0的多 QTL模型(MQM)以及
QTLnetwork 2.0的区间作图(MCIM) 6种程序对 8种不同遗传模型的 RIL进行 QTL检测。结果表明, 不同程序适用
的遗传模型范围不同。CIM和 MQM只适于检测第一类模型; MIMR、MIMF和 ICIM只适于检测第一类和第二类模
型; 只有 MCIM 适于检测所有 4 类遗传模型; 因而不同遗传模型数据的最适合检测程序不同。由于未知实际数据的
遗传模型, 应采用在复杂模型程序, 如 QTLnetwork 2.0, 扫描基础上的多模型 QTL 定位策略, 对所获模型用相应模
型软件进行验证。
关键词: QTL定位; 遗传模型; 定位程序; 定位方法与数据模型的适配性
Simulation Comparisons of Effectiveness among QTL Mapping Procedures of
Different Statistical Genetic Models
SU Cheng-Fu, ZHAO Tuan-Jie, and GAI Jun-Yi*
Soybean Research Institute, Nanjing Agricultural University / National Center for Soybean Improvement / National Key Laboratory for Crop Genetics
and Germplasm Enhancement, Nanjing 210095, China
Abstract: QTL mapping has emerged based on the development and integration of molecular genetics and quantitative genetics.
Along with the establishment and improvement of QTL mapping procedures, a great number of studies of QTL mapping in vari-
ous crop species have been carried out. QTLs detected with high accuracy can be used for marker-assisted selection and
map-based cloning, while the false-positive QTLs are meaningless, even mislead their usefulness. In the present study, the recom-
binant inbred line (RIL) populations were simulated based on four kinds of genetic models, including Model I, additive QTL;
Model II, additive and epistatic QTLs; Model III, additive QTL and QTL×environment interaction, and Model IV, additive,
epistatic QTLs and QTL×environment interaction. Two sets of RIL data for each of the four models were obtained, in a total of
eight sets of RIL data designated as M-1 to M-8. Six QTL mapping procedures, i.e. CIM (Composite interval mapping), MIMF
(forward search of multiple interval mapping) and MIMR (regression forward selection of multiple interval mapping) of WinQTL
Cartographer Version 2.5, ICIM (Inclusive composite interval mapping) of IciMapping Version 2.0, MQM (multiple-QTL model)
of MapQTL Version 5.0, and MCIM (mixed model based CIM) of QTLnetwork Version 2.0 were used for detecting QTLs of the
eight sets of RIL data. The results showed: (1) Different mapping procedures fit different genetic models. CIM and MQM were
only suitable for Model I data. MIMR, MIMF, and ICIM were only suitable for Model I and Model II data. Only MCIM was suit-
able for all four models’ data. Therefore, the data from different genetic models corresponded to different optimal QTL mapping
procedures. (2) Since the genetic model of the practical experimental data was unknown, a multiple model mapping strategy
should be taken, i.e., a full model scanning with complex model procedure, such as QTLnetwork 2.0, followed by verification
第 7期 苏成付等: 不同统计遗传模型 QTL定位方法应用效果的模拟比较 1101
with another procedure corresponding to the scanning results.
Keywords: QTL mapping; Genetic model; Mapping procedure; Pertinence between mapping method and data model
20 世纪后期以分子标记为手段的遗传图谱和
QTL (quantitative trait locus)定位方法的发明, 推进
了数量性状遗传的研究。QTL的区间作图、复合区
间作图、多区间作图相继出现使标记辅助选择的理
论和方法进一步得到了扩展和完善。作物 QTL定位
研究的数量迅速增长。迄今对各个作物都定位了大
量的 QTL, 其中对大豆已定位至少 2 000 个以上
QTL。准确性高、确实存在的 QTL可以用来做分子
标记辅助选择和图位克隆, 但假阳性 QTL将会误导
定位信息的应用。前人的研究结果表明, 不同的定
位方法对同一套遗传数据定位的结果不同。不同定
位软件实际上是不同遗传模型、不同统计模型以及
不同统计算法的组合。QTL定位是一种统计概率的
判断, 不同方法所能检测的遗传模型、算法和效果
不同, 适用的对象也不同, 不适当的方法可能导致
错判或假阳性。
最早推广发行的 QTL 分析通用软件是 Lander
等 [1]的 Mapmaker/QTL, 它是针对区间定位法而设
计的。该软件的发行, 大大促进了区间定位方法的
实际应用。此后, 陆续开发出了许多 QTL分析软件,
如 QTL Cartographer[2]、PLABQTL[3]、Map Man-
ager[4]、QGene[5]、MapQTL[6]、PGRI[7]、QTLMAPP-
ER[8]、QTLSTA、IciMapping[9]以及 QTLnetwork[10-11]
。等 许多QTL分析软件都可以从因特网上查寻到并
免费下载。通过由美国 Wis-consin-Madison 大学建
立的一个连接网站 (http://www.stat.wisc.edu/~yan-
dell/qtl/software/)可以很方便地连接到许多 QTL 定
位分析软件包。
目前研究者应用较多的几种作图软件有 Win-
QTLCart 2.5[12]、IciMapping 2.0[13]、MapQTL 5.0[14]
以及 QTLnetwork 2.0等 4种。不同定位软件应用的
遗传统计模型不同 , 常用来定位的遗传模型有
WinQTLCart 2.5的复合区间作图(下称 CIM)、多区
间作图前进搜索(MIMF)、多区间作图回归前进选择
(MIMR)、 IciMapping 2.0 的完备复合区间作图
(ICIM)、MapQTL 5.0 的多 QTL 模型(MQM)以及
QTLnetwork 2.0的区间作图(MCIM)等几种。
CIM 遗传模型中包括加性、显性效应。多区间
作图 MIM 遗传模型中包括加性、显性及 QTL 间的
上位性效应, MIMF和 MIMR是 MIM的两种不同算
法。ICIM 遗传模型中包括加性、显性及 QTL 间的
上位性效应。MQM 遗传模型中包括加性、显性效
应。MCIM遗传模型中包括加性、显性、QTL间上
位性和 QTL与环境互作效应。
6种遗传统计模型算法不同。其中 CIM检测某
一特定标记区间时, 将与其他 QTL连锁的标记也拟
合在模型中以控制背景的遗传效应。通过类似于区
间作图的方法获得各参数的最大似然估计值, 绘制
各染色体的似然图谱来推断 QTL的位置, 可以在被
标记覆盖的基因组上的任何位置搜索 QTL[3]。MIM
法从一个指定了 QTL 位置的初模型或者是在没有
初模型的情况下开始分析, 通过逐步选择方法和最
大似然比标准结合起来识别 QTL, 其过程是分阶段
最大化的, 因此最后必须在所保留的各 QTL附近区
域进行多维搜索, 从而获得位置和效应的全局性最
大似然估值, 确定最终模型[3,15]。CIM 和 MIM的参
数估计均应用极大似然法。MQM 法是区间作图的
单 QTL检测模型的进一步扩展, 同时利用多个标记
区间进行多个 QTL 的作图, MQM 的参数估计也应
用极大似然法[6]。ICIM 法包含两个步骤, 首先利用
所有标记的信息, 通过逐步回归选择重要的标记变
量并估计其效应; 然后利用逐步回归得到的线性模
型校正表型数据, 通过一维扫描定位加(显)性效应
QTL, 通过二维扫描定位上位性互作QTL[16]。MCIM
法是基于混合线性模型的区间作图方法, 把控制背
景遗传变异的分子标记效应归为随机变量, 使其不
会影响对 QTL位置和效应的无偏估算, 模型包括环
境效应及 QTL与环境的互作效应[10-11]。
本研究用计算机模拟具有各种不同遗传模型的
RIL群体, 应用不同 QTL定位程序对模拟的 RIL数
据进行 QTL 检测, 统计不同程序对不同数据模型
QTL 定位的结果与设定值的相符程度, 找出适合不
同数据模型的 QTL定位程序, 并提出对未知遗传模
型数据的定位策略。
1 模拟试验方法
1.1 模拟实验处理设置和考察指标
模拟群体为重组自交系群体, 考虑加性基因、
加性基因间互作以及基因与环境互作效应的存在 ,
分别设置以下 4类共 8个不同实验(下称 M-1~M-8),
模拟群体大小均为 250家系, 每个实验均模拟 30次,
1102 作 物 学 报 第 36卷
鉴于 30次的结果已相对稳定, 未再增加模拟次数。
实验的模型设计不同, 表型值亦不同。
第一类: 加性基因、无基因间互作、无基因与环境
互作。
M-1 设定 1个 QTL, Q1; y=µ+a1+e
M-2 设定分别位于 2个连锁群上的 2个 QTL, Q1
和 Q2; y=µ+a1+a2+e
第二类: 加性基因、有基因间互作、无基因与环境
互作。
M-3 设定分别位于 2个连锁群上的 2个 QTL, Q1
和 Q2, 且 Q1和 Q2之间存在上位性互作; y=µ+a1+
a2+aa12+e
M-4 设定分别位于 3个连锁群上的 3个QTL, Q1、
Q2和 Q3, 且 Q1和 Q2之间存在上位性互作; y=µ+
a1+ a2+aa12+a3+e
第三类: 加性基因、无基因间互作、有基因与环境
互作。
M-5 设定分别位于 2个连锁群上的 2个 QTL, Q1
和 Q2, 且 Q1 和 Q2 均与环境之间存在互作; y=µ+
a1+ a2+V+a1V+a2V+e (v=3)
M-6 设定分别位于 3个连锁群上的 3个QTL, Q1、
Q2和Q3, 且Q1、Q2和Q3都与环境存在互作; y=µ+
a1+ a2+a3+V+a1V+a2V+a3V+e (v=3)
第四类: 加性基因、有基因间互作、有基因与环境
互作。
M-7 设定分别位于 2个连锁群上的 2个 QTL, Q1
和Q2, 且Q1与环境之间存在互作, Q1与Q2之间存
在上位性互作; y=µ+a1+a2+aa12+V+a1V+e (v=3)
M-8 设定分别位于 3个连锁群上的 3个QTL, Q1、
Q2和 Q3, 且 Q1和 Q2都与环境之间存在互作, Q1
和 Q2 之间存在上位性互作; y=µ+a1+a2+a3+aa12+
V+a1V+a2V+e (v=3)
其中, y 表示数量性状表型值、µ表示总体平均
数、a 表示加性效应、V 表示环境效应、aa 表示基
因间互作效应(上位性效应)、aV 表示基因与环境互
作效应、e表示误差, 且 e~N (0, σe2)。
考察指标包括 30 次模拟中各程序设定 QTL 的
检出率(功效), 检测到的假阳性 QTL个(对)数, QTL
效应的变幅, QTL效应的准确度(1 – |平均值–设定值
| /设定值), QTL效应的变异系数(CV), QTL位置的变
幅(QTL设定位置左右 5 cM内认为是同一 QTL)。
1.2 作图群体的产生
1.2.1 作图群体标记基因型和 QTL基因型的产生
参考何小红等 [17]所用的计算机模拟方法 , 设
RIL 家系的某条染色体上两个相邻的标记位点分别
为 Mk和 Mk+1, 其重组率为 r。Mk和 Mk+1的基因型分
别记为 xk和 xk+1, 其取值为 0、1, 分别表示该标记位
点的两份 DNA分别来自 P1纯合体和 P2纯合体。当
xk已知时, 可由 xk确定 xk+1。设 n 个个体中 xk=1 的
个体数为 n1, 连续产生 n1个 0~1之间均匀分布的随
机数(记为 rnd), 当 rnd ≤ (1–r)2时, 取 xk+1=1; 当 rnd
> (1–r)2时, 取 xk+1=0; xk=0时可依此类推。当 xk+1确
定后, 又可据之确定 xk+2…。
起始位置标记基因型的确定, 由于任一 xk取 0、
1的概率均为 0.50, 故可连续产生 n个 0~1之间的随
机数 rnd, 当 rnd ≤ 0.50时, 取 xk=0; 当 rnd > 0.50时,
取 xk=1。
以上是标记基因型的确定方法, QTL基因型(记
为 xQ)也采用相同的方法确定。
每个群体共模拟 3 个连锁群, 记为 C1、C2 和
C3, 每条连锁群模拟 20个标记, C1上标记间重组率
设为 0.06, C2上标记间重组率设为 0.08, C3上标记
间重组率设为 0.10, 根据不同模型需要共模拟 3 个
QTL, 记为 Q1、Q2和 Q3, Q1位于 C1的第 12和第
13标记之间, Q2位于 C2的第 12和第 13标记之间,
Q3位于 C3的第 6和第 7标记之间。
1.2.2 数量性状表型值的确定 8 个实验表型值
按 1.1中设定的 8种模型产生。为方便比较, 各模型
统一设定 a1= –3, a2= –2.5, a3= –1.5; aa12=2; 对环境
效应 V 设置 3 个水平, V1=0.6、V2=0.8、V3= –1.4;
a1V1=1, a1V2=1.5, a1V3= –2.5; a2V1= –1.5, a2V2= –0.8,
a2V3=2.3; a3V1= –1.3, a3V2= –0.7, a3V3=2。误差 e值由
随机数字发生, σe2=2。这时同一模型的设定遗传率
值相同, 而模型间的设定遗传率不同, M-1~M-8 相
应为 82%、88%、91%、91%、88%、90%、91%和
91%(后四者为广义的, 包含与环境的互作)。
1.2.3 不同软件的不同程序的选择 选用目前研
究者应用较多的几种作图软件, 即 WinQTLCart 2.5
的 CIM、MIMF和 MIMR, IciMapping 2.0的 ICIM,
MapQTL 5.0的MQM以及QTLnetwork 2.0的MCIM
等 6种。
选用的 4种定位软件中WinQTLCart 2.5和Map-
QTL 5.0是国外开发的, IciMapping 2.0和 QTLnetwork
2.0是国内开发的, 这 4种软件 6种程序的检测范围基
本包含了加性、上位性、环境以及基因与环境互作等
遗传效应。不同方法定位时采用的 LOD 或 F 临界值
均为 1 000次 permutation的阈值。
第 7期 苏成付等: 不同统计遗传模型 QTL定位方法应用效果的模拟比较 1103
2 结果与分析
2.1 各种定位程序检测得到的 QTL 及其相应遗
传参数与设定值的相符性分析
各模型根据 30次模拟的表型值(即 30个 RIL群
体)按同一遗传图谱采用不同软件计算, 分别定位到
相应的 QTL, 并得到 30 个效应值。对 30 个效应值
经过计算得到平均值、准确度、最小值、最大值、
变异系数。由 30 次定位结果计得 QTL 位置变幅、
QTL 检出率(功效)和假阳性 QTL 个(对)数。表 1 和
表 2列出了各项统计结果。
除 CIM和 MQM检测上位性时功效为 0外, 不
同程序检测设定 QTL功效均为 100%。检出的 QTL
位置稍有波动, 变幅 0~3.5 cM。不同程序检测同一
QTL 的位置相对一致。不同程序检测时, 若模型适
合, 实际遗传率值与设定遗传率值间相对一致; 若
上位性效应检测不出, 如表 1中 M-3和 M-4的 CIM
和 MQM, 实际遗传率值比设定遗传率值小得多。但
在同一组数据不同方法检测到的同一 QTL 的遗传
效应、准确度、变异程度等均有波动。
在 M-1 的 30 次模拟数据中, CIM、MQM 及
MCIM均检测到设定的 1个 QTL。a1准确度估计除
ICIM为 0.97外, 其他 5种程序均达到 0.99, 变幅估
计 MQM和 MCIM最小, 为 0.39。
在 M-2 的 30 次模拟数据中, CIM、MQM 及
MCIM均检测设定的 2个 QTL。a1准确度估计MQM
最高, 达到 1.00, 其次是 MCIM, 为 0.99, 变幅估计
MQM最小, 为 0.36, 其次是MCIM, 为 0.37; a2准确
度估计 MCIM 最高, 达到 1.00, 其次是 MQM, 为
0.99, 变幅估计MQM最小, 为 0.29, 其次是MCIM,
为 0.30。
在 M-3的 30次模拟数据中, CIM和 MQM均检
测不到上位性(表 1), 故 CIM 与 MQM 均不适用于
M-3 数据的 QTL 分析。MIMR、MIMF、ICIM 和
MCIM均检测到设定的 2个加性和 1对上位性QTL。
a1准确度估计除 ICIM 为 0.97 外, 其他 3 种程序均
为 0.99, 变幅估计MCIM最小, 为 0.31; a2准确度估
计 ICIM最高, 达到 1.00, 变幅估计 4种程序无明显
差别; aa12准确度估计 ICIM 最高, 为 0.99, 其次是
MCIM, 为 0.98, MIMR和 MIMF均为 0.98, 变幅估
计 MIMR、MIMF及 MCIM均为 0.30, ICIM为 0.40。
表 1 M-1~M-4模拟数据的遗传参数估计
Table 1 Estimates of genetic parameters with simulation data of M-1 to M-4
方法
Procedure
效应
Effect
设定值
True value
平均值
Average
准确度
Accuracy
最小值
Minimum
最大值
Maximum
CV QTL位置变幅
RanQTL (cM)
功效
Power
(%)
假阳性 QTL
False QTL
M-1, 30次模拟 30 times of simulation
CIM a1 −3.0 −2.97 0.99 −3.32 −2.69 0.04 0 100 0
MIMR a1 −3.0 −2.98 0.99 −3.28 −2.72 0.04 0 100 1
MIMF a1 −3.0 −2.98 0.99 −3.28 −2.72 0.04 0 100 1
MQM a1 −3.0 −2.97 0.99 −3.17 −2.78 0.04 0 100 0
ICIM a1 −3.0 −2.92 0.97 −3.21 −2.64 0.05 0 100 8
MCIM a1 −3.0 −2.97 0.99 −3.17 −2.78 0.04 0 100 0
M-2, 30次模拟 30 times of simulation
CIM a1 −3.0 −3.07 0.98 −3.47 −2.56 0.08 0 100 0
a2 −2.5 −2.37 0.95 −2.99 −1.81 0.13 0
MIMR a1 −3.0 −3.07 0.98 −3.50 −2.63 0.08 0 100 1
a2 −2.5 −2.36 0.94 −2.90 −1.78 0.14 0
MIMF a1 −3.0 −3.07 0.98 −3.50 −2.63 0.08 0 100 1
a2 −2.5 −2.36 0.94 −2.90 −1.78 0.14 0
MQM a1 −3.0 −3.01 1.00 −3.20 −2.84 0.03 0 100 0
a2 −2.5 −2.56 0.98 −2.72 −2.43 0.05 0
ICIM a1 −3.0 −3.07 0.98 −3.49 −2.58 0.08 0 100 5
a2 −2.5 −2.42 0.97 −3.02 −1.90 0.11 0
MCIM a1 −3.0 −2.96 0.99 −3.15 −2.78 0.03 0 100 0
a2 −2.5 −2.50 1.00 −2.66 −2.36 0.04 0
1104 作 物 学 报 第 36卷
(续表 1)
方法
Procedure
效应
Effect
设定值
True value
平均值
Average
准确度
Accuracy
最小值
Minimum
最大值
Maximum
CV QTL位置变幅
RanQTL (cM)
功效
Power
(%)
假阳性 QTL
False QTL
M-3, 30次模拟 30 times of simulation
CIM a1 −3.0 −2.82 0.94 −3.10 −2.65 0.22 0 100 0
a2 −2.5 −2.53 0.99 −2.78 −2.13 0.29 0 100
aa12 2.0 — — — — — — —
MQM a1 −3.0 −2.84 0.95 −2.99 −2.70 0.13 0 100 0
a2 −2.5 −2.54 0.98 −2.72 −2.31 0.19 0 100
aa12 2.0 — — — — — — —
MIMR a1 −3.0 −2.98 0.99 −3.21 −2.82 0.03 0 100 0
a2 −2.5 −2.55 0.98 −2.71 −2.30 0.04 0.1
aa12 2.0 1.95 0.97 1.83 2.13 0.05 —
MIMF a1 −3.0 −2.98 0.99 −3.21 −2.82 0.03 0 100 0
a2 −2.5 −2.55 0.98 −2.71 −2.30 0.04 0.1
aa12 2.0 1.95 0.97 1.83 2.13 0.05 —
ICIM a1 −3.0 −2.90 0.97 −3.21 −2.65 0.06 0 100 4(A)
a2 −2.5 −2.50 1.00 −2.70 −2.26 0.04 0
aa12 2.0 1.98 0.99 1.80 2.20 0.05 —
MCIM a1 −3.0 −2.97 0.99 −3.13 −2.82 0.03 0 100 0
a2 −2.5 −2.54 0.98 −2.71 −2.30 0.04 0
aa12 2.0 1.95 0.98 1.83 2.13 0.04 —
M-4, 30次模拟 30 times of simulation
CIM a1 −3.0 −2.84 0.95 −3.17 −2.61 0.24 0 100 0
a2 −2.5 −2.68 0.93 −3.17 −2.34 0.20 0 100
aa12 2.0 — — — — — — 0
a3 −1.5 −1.47 0.98 −1.65 −1.29 0.39 0 100
MQM a1 −3.0 −2.80 0.93 −2.98 −2.65 0.14 0 100 0
a2 −2.5 −2.37 0.95 −2.51 −2.24 0.17 0 100
aa12 2.0 — — — — — — 0
a3 −1.5 −1.17 0.78 −1.33 −0.97 0.38 0 100
MIMR a1 −3.0 −2.99 1.00 −3.15 −2.84 0.02 0.1 100 0
a2 −2.5 −2.54 0.98 −2.67 −2.39 0.03 0.1
aa12 2.0 1.93 0.97 1.75 2.13 0.06 —
a3 −1.5 −1.56 0.96 −1.67 −1.36 0.06 0.1
MIMF a1 −3.0 −3.00 1.00 −3.21 −2.84 0.03 0.1 100 0
a2 −2.5 −2.54 0.98 −2.67 −2.39 0.03 0.1
aa12 2.0 −1.55 0.96 −1.67 −1.36 0.06 —
a3 −1.5 1.93 0.97 1.75 2.13 0.06 0.1
ICIM a1 −3.0 −2.91 0.97 −3.39 −2.72 0.07 0 100 3(A)+5(AA)
a2 −2.5 −2.49 1.00 −2.63 −2.36 0.03 0
aa12 2.0 1.94 0.97 1.68 2.12 0.06 —
a3 −1.5 −1.56 0.96 −1.73 −1.36 0.07 0
MCIM a1 −3.0 −2.98 0.99 −3.12 −2.84 0.02 0 100 0
a2 −2.5 −2.54 0.99 −2.67 −2.39 0.03 0
aa12 2.0 1.93 0.96 1.71 2.13 0.06 —
a3 −1.5 −1.57 0.96 −1.72 −1.36 0.07 1
准确度为 (1−|平均值−设定值 | /设定值); CV表示变异系数; A表示加性 QTL; AA表示上位性 QTL; QTL位置变幅为 30次模拟检
测到同一 QTL位置的变幅。
Accuracy is determined as (1−|average−true value| / true value); CV: coefficient of variation; A: additive QTL; AA: epistatic QTL pair;
RanQTL: range of QTL location.
第 7期 苏成付等: 不同统计遗传模型 QTL定位方法应用效果的模拟比较 1105
在M-4的 30次模拟数据中, 考虑到存在上位性
效应, CIM和 MQM均检测不到上位性效应。故 CIM
与MQM均不适用于 M-4数据的 QTL分析。MIMR、
MIMF、ICIM和 MCIM均检测到设定的 3个加性和
1对上位性 QTL。a1准确度估计 MIMR和 MIMF最
高, 达到 1.00, 其次是 MCIM, 为 0.99, 变幅估计
MCIM 最小, 为 0.28, 其次是 MIMR, 为 0.31; a2准
确度估计 ICIM 最高, 达到 1.00, 其次是 MCIM, 为
0.99, 变幅估计 4 种程序无明显差别; aa12准确度估
计 ICIM和 MIMR最高, 为 0.97, 变幅估计 ICIM最
小, 为 0.37, a3准确度估计 MIMF最高, 为 0.97, 变
幅估计 MIMR最小, 为 0.31。
在 M-5~M-8 数据中(表 2), 考虑到均存在环境
效应及基因与环境互作, 只有 MCIM 程序适合检
测。30次模拟中, 随着模型的遗传效应数越来越多,
越来越复杂 , 4 组分析均不同程度地出现假阳性
QTL, 但MCIM仍能估计出所有设定的 QTL及其相
应的遗传参数。
2.2 各种定位程序检测的假阳性分析
不同程序对同一组数据检测到假阳性 QTL 个
数不同。
CIM、MQM 在 M1~M4 中没有检测到假阳性
QTL。
MIMR和 MIMF在M-1中各检测到 1个假阳性
加性 QTL; 在 M-2中各检测 1个假阳性加性 QTL。
ICIM在M-1中检测到 8个假阳性加性QTL, 在
M-2中检测到 5个假阳性加性 QTL, 在 M-3中检测
到 4个假阳性加性 QTL, 在 M-4中检测到 3个加性
假阳性 QTL, 5对上位性假阳性 QTL。
MCIM 在 M-5~M-8 中分别检测到 1 个加性、1
个加性与 1对上位性、17对上位性、1个加性与 19
对上位性假阳性 QTL。
综上所述, CIM和 MQM 只能检测 M-1 和 M-2
中设定的全部 QTL; MIMR、MIMF和 ICIM只能检
测 M-1~M-4 中设定的全部 QTL; 只有 MCIM 能检
测所有 M-1~M-8 中设定的全部 QTL。在 M-1 数据
的模型下, CIM、MQM及 MCIM无假阳性出现, 从
遗传效应的变幅和准确度来看, MQM与MCIM更稳
定一些。在M-2数据的模型下, CIM、MQM及MCIM
无假阳性出现, 从变幅和准确度来看, 依然是MQM
与 MCIM更稳定, 其次是 CIM。在 M-3数据的模型
下, MIMR、MIMF及 MCIM无假阳性出现, 从变幅
和准确度来看 , MCIM 更稳定 , 其次是 MIMR 与
MIMF。在 M-4 数据的模型下, MIMR、MIMF 及
MCIM 均能检出设定的 QTL, 且无假阳性出现, 从
变幅和准确度来看, MIMR与MIMF更稳定, 其次是
MCIM。在 M-5~M-8模型下, 只有 MCIM一种程序
可用, 但有假阳性出现。
数据遗传模型不同, 最适合的 QTL定位程序也
不同。在实际 QTL定位过程中, 无法预知定位群体
属于哪类遗传模型, 便无法确定检测该群体的最适
程序, 最好先以复杂模型 QTLnetwork 2.0进行全模
型扫描 , 再用与所获结果相应模型的软件进行验
证。这种验证是必要的, 通过验证一定程度上可以
排除假阳性的干扰。应用这种多模型 QTL定位策略
对目标群体同时检测, 能同时被不同模型检出的可
认为其存在的可靠性高 ; 只能被个别模型检出的
QTL, 其存在的真实性有待验证。这样用不同 QTL
定位程序可以使存在可靠性高的 QTL 结果相互印
证, 又可有效避免一些主效 QTL的遗漏[18]。
3 讨论
Gai[19]提出了数量性状遗传体系的泛主基因加
多基因假设。该假设认为, 控制数量性状的基因数
目有多有少 , 各基因效应大小不同且受环境影响 ;
效应较大的、在一般试验条件下可以检测出来的称
为主基因, 效应小的、在现有试验条件下检测不出
来的称为多基因或微基因; 主基因与多基因是相对
的。将由主基因和多基因同时组成的数量性状遗传
体系称为主基因和多基因(微基因)混合遗传体系 ;
将纯主基因或纯多(微)基因遗传模式看作为主基因
加多基因混合遗传体系的特例。在这个遗传体系中
基因间还可能有交互作用或上位性, 在多环境条件
下还可能存在不同的表现(基因与环境互作)。因而
在 QTL 定位中必然要考虑主效 QTL、微效 QTL、
QTL间互作、QTL与环境互作等的统计遗传模型(一
个 QTL片段可能包含不止一个基因)。在 QTL定位
方法发展的过程中, 为便于入手, 先从简单方法开
始, 逐步完善。这样早期发展的方法趋于简单, 后来
发展的方法趋于完善, 这是可以理解的。但对于现
在的使用者来说必须妥善应用不同时期发展的方法,
以免疏漏。从目前文献报道的 QTL定位研究方法和
结果看, 许多研究均只采用个别程序, 而且是遗传
模型比较简单的程序, 如 CIM只考虑加性 QTL。但
实际上许多性状不仅由加性 QTL控制, 而且有上位
性 QTL 以及 QTL×环境互作存在, 这种情况下定位
1106 作 物 学 报 第 36卷
表 2 M-5~M-8模拟数据的遗传参数估计
Table 2 Estimates of genetic parameters with simulation data of M-5 to M-8
程序
Procedure
效应
Effect
设定值
True value
平均值
Average
准确度
Accuracy
最小值
Minimum
最大值
Maximum
CV QTL位置变幅
RanQTL (cM)
功效
Power (%)
假阳性 QTL
False QTL
M-5, 30次模拟 30 times of simulation
MCIM a1 −3.0 −3.04 0.99 −3.16 −2.91 0.02 1.9 100 1(AA)
a2 −2.5 −2.49 1.00 −2.67 −2.31 0.03 1.9
a1V1 1.0 1.05 0.96 0.92 1.16 0.08 —
a1V2 1.5 1.51 0.99 1.38 1.72 0.05 —
a1V3 −2.5 −2.44 0.98 −2.62 −2.29 0.04 —
a2V1 −1.5 −1.56 0.96 −1.69 −1.39 0.06 —
a2V2 −0.8 −0.84 0.95 −0.98 −0.69 0.10 —
a2V3 2.3 2.22 0.96 2.38 3.16 0.05 —
M-6, 30次模拟 30 times of simulation
MCIM a1 −3.0 −3.08 0.98 −3.23 −2.87 0.04 1.9 100 1(A)+1(AA)
a2 −2.5 −2.50 1.00 −2.66 −2.36 0.03 1.0
a3 −1.5 −1.62 0.92 −1.72 −1.48 0.09 1.5
a1V1 1.0 1.08 0.93 0.88 1.28 0.11 —
a1V2 1.5 1.57 0.96 1.37 1.72 0.07 —
a1V3 −2.5 −2.38 0.95 −2.62 −2.25 0.06 —
a2V1 −1.5 −1.50 1.00 −1.66 −1.25 0.07 —
a2V2 −0.8 −0.83 0.97 −0.99 −0.67 0.09 —
a2V3 2.3 2.21 0.96 2.11 2.33 0.05 —
a3V1 −1.3 −1.21 0.93 −1.40 −1.08 0.09 —
a3V2 −0.7 −0.62 0.89 −0.74 −0.53 0.14 —
a3V3 2.0 2.07 0.96 1.90 2.27 0.06 —
M-7, 30次模拟 30 times of simulation
MCIM a1 −3.0 −2.92 0.97 −3.07 −2.78 0.03 0 100 17(AA)
a2 −2.5 −2.64 0.95 −2.85 −2.47 0.07 2.9
a1V1 1.0 0.93 0.93 0.80 1.07 0.09 —
a1V2 1.5 1.42 0.95 1.29 1.61 0.07 —
a1V3 −2.5 −2.53 0.99 −2.72 −2.40 0.03 —
aa12 2.0 2.03 0.99 1.82 2.24 0.05 —
M-8, 30次模拟 30 times of simulation
MCIM a1 −3.0 −2.87 0.96 −2.97 −2.75 0.05 0 100 1(A)+19(AA)
a2 −2.5 −2.55 0.98 −2.73 −2.38 0.04 2.5
a1V1 1.0 0.90 0.90 0.70 1.06 0.13 3.5
a1V2 1.5 1.38 0.92 1.21 1.55 0.09 —
a1V3 −2.5 −2.59 0.97 −2.78 −2.34 0.06 —
aa12 2.0 1.96 0.98 2.22 1.78 0.06 —
a2V1 −1.5 −1.52 0.98 −1.73 −1.34 0.06 —
a2V2 −0.8 −0.83 0.97 −1.11 −0.66 0.15 —
a2V3 2.3 2.24 0.98 2.06 2.52 0.04 —
a3 −1.5 −1.56 0.96 −1.66 −1.47 0.05 —
准确度为(1−|平均值−设定值 | /设定值); CV表示变异系数; A表示加性 QTL; AA表示上位性 QTL; QTL位置变幅为 30次模拟检
测到同一 QTL位置的变幅。
Accuracy is determined as (1−|average−true value| / true value); CV: coefficient of variation; A: additive QTL; AA: epistatic QTL pair;
RanQTL: range of QTL location.
第 7期 苏成付等: 不同统计遗传模型 QTL定位方法应用效果的模拟比较 1107
结果可能遗漏了一些重要的遗传信息。所以本文建
议使用所提出的先以复杂模型(如 QTLnetwork 2.0)
进行全模型扫描, 再用与所获结果相应模型的软件
进行验证的多模型 QTL定位策略。从本研究的结果
看, QTLnetwork 2.0适用范围广, 确是 QTL定位的
优良软件体系, 但出现假阳性上位性 QTL 数较多,
所以本文提出在利用该软件作全模型扫描的基础上,
配合以所获模型相应的其他软件作验证。同时, 希
望软件研发单位进一步研究完善, 争取 QTL初定位
能够一步到位。
4 结论
不同程序适用的遗传模型范围不同, 不同遗传
模型数据的最适用检测程序不同。由于未知实际数
据的遗传模型 , 应采用在复杂模型程序 (如
QTLnetwork 2.0)扫描基础上的多模型 QTL 定位策
略, 对所获模型用相应模型软件进行验证。
References
[1] Lander E S, Bostein D R. Mapping Mendelian factors underlying
quantitative traits using RFLP linkage map. Genetics, 1989, 121:
185−189
[2] Basten C J, Weir B S, Zeng Z B. Zmap—a QTL cartographer. In:
Smith C, Gavora J S, Benkel B, Chesnais J, Fairfull W, Gibson J
P, Kennedy B W, Burnside E B, eds. Proceedings of the 5th
World Congress on Genetics Applied to Livestock Production:
Computing Strategies and Software. Guelph, Ontario, Canada,
1994, Vol 22, pp 65−66
[3] Utz H F, Melchinger A E. PLABQTL: a program for composite
interval mapping of QTL. J Agric Genomics, 1996 2: 1−5
[4] Manly K F, Cudmore J R, Meer J M. Map Manager QTX,
cross-platform software for genetic mapping. Mammalian
Genome, 2001, 12: 930−932
[5] Nelson J C. QGENE: Software for marker-based genomic analy-
sis and breeding. Mol Breed, 1997, 3: 239−245
[6] Van Ooijen J W, Maliepaard C. MapQTL version 3.0: software
for the calculation of QTL positions on genetic maps. Abstract of
Plant Genome IV Conference (http://www.intl-pag.org/4/abst-
racts/p316.html), San Diego, CA, 1996
[7] Lu Y Y, Liu B H. A new computer package for genomic research:
PGRI (Plant Genome Research Initiative). Abstract of Plant
Genome III Conference (http://www.intl-pag.org/3/abstracts/
201pg3. html), San Diego, CA, 1995
[8] Wang D L, Zhu J, Li Z K, Paterson A H. User Manual for
QTLMapper Version 1.6—A Computer Software for Mapping
Quantitative Trait Loci (QTLs) with Main Effects, Epistatic Ef-
fects and QTL × Environment Interactions. Department of
Agronomy, Zhejiang University, Hangzhou, China (http://ibi.zju.
edu.cn/software/qtlmapper/), 2003
[9] Li H, Ye G, Wang J. A modified algorithm for the improvement of
composite interval mapping. Genetics, 2007, 175: 361−374
[10] Yang J, Zhu J, Williams R W. Mapping the genetic architecture of
complex traits in experimental populations. Bioinformatics, 2007,
23: 1527−1536
[11] Yang J, Hu C C, Hu H, Yu R D, Xia Z, Ye X Z, Zhu J. QTLNet-
work: mapping and visualizing genetic architecture of complex
traits in experimental populations. Bioinformatics, 2008, 24:
721−723
[12] Wang S, Basten C J, Zeng Z B. Windows QTL Cartographer 2.5.
Department of Statistics, North Carolina State University, Ra-
leigh, NC (http://statgen.ncsu.edu/qtlcart/WQTLCart.htm), 2007
[13] Li H, Ye G, Wang J. A modified algorithm for the improvement of
composite interval mapping. Genetics, 2007, 175: 361−374
[14] Van Ooijen J W, Kyazma B V. MapQTL 5, Software for the Map-
ping of Quantitative Trait Loci in Experimental Populations.
Wageningen, the Netherlands, 2004
[15] Kao C H, Zeng Z B, Teasdale R D. Multiple interval mapping for
quantitative trait loci. Genetics, 1999, 152: 1203−1216
[16] Wang J-K(王建康). Inclusive composite interval mapping of
quantitative trait genes. Acta Agron Sin (作物学报), 2009, 35(2):
239−245 (in Chinese with English abstract)
[17] He X-H(何小红), Xu C-W(徐辰武), Kuai J-M(蒯建敏), Gu
S-L(顾世梁), Li T(李韬). Principal factors affecting the power
of detection and accuracy of QTL mapping. Acta Agron Sin (作
物学报), 2001, 27(4): 469−475 (in Chinese with English ab-
stract)
[18] Su C F, Lu W G, Zhao T J, Gai J Y. Verification and fine-mapping
of QTLs conferring days to flowering in soybean using residual
heterozygous lines. Chin Sci Bull, 2010, 55(6): 499−508
[19] Gai J Y. Segregation analysis on genetic system of quantitative
traits in plants. Front Biol China, 2006, 1: 85−92