全 文 :作物学报 ACTA AGRONOMICA SINICA 2009, 35(2): 239−245 http://www.chinacrops.org/zwxb/
ISSN 0496-3490; CODEN TSHPA9 E-mail: xbzw@chinajournal.net.cn
本研究由国家自然科学基金项目(30771351), 国家高技术研究发展计划(863计划)项目(2006AA10Z1B1)资助。
作者联系方式: E-mail: wangjk@caas.net.cn; jkwang@cgiar.org; Tel: 010-62133890
Received(收稿日期): 2008-06-19; Accepted(接受日期): 2008-10-04.
DOI: 10.3724/SP.J.1006.2009.00239
数量性状基因的完备区间作图方法
王建康
中国农业科学院作物科学研究所 / 国家农作物基因资源与基因改良重大科学工程 / CIMMYT中国办事处, 北京 100081
摘 要: 结合分子标记和表型数据的 QTL 作图已成为数量性状遗传分析的常规方法。复合区间作图是近 10 多年来
广泛应用的一种 QTL定位方法, 但它在算法上有一些缺陷, 致使 QTL效应可能会被侧连标记区间之外的标记变量吸
收, 同时不同的背景标记选择方法对作图结果的影响较大, 并且难以推广到上位型互作 QTL的定位。针对这些问题,
笔者提出完备区间作图方法。本文介绍了该方法的遗传和统计原理, 并通过一个大麦加倍单倍体群体说明其在定位
加性 QTL 和加性×加性互作 QTL 中的应用。完备区间作图包含两个步骤: 首先利用所有标记的信息, 通过逐步回归
选择重要的标记变量并估计其效应; 然后利用逐步回归得到的线性模型校正表型数据, 通过一维扫描定位加(显)性
效应 QTL, 通过二维扫描定位上位型互作 QTL。这种作图策略简化了复合区间作图中控制背景遗传变异的过程, 提
高了对 QTL的检测功效。
关键词: 数量性状; QTL作图; 完备区间作图; 加显性效应; 上位型互作
Inclusive Composite Interval Mapping of Quantitative Trait Genes
WANG Jian-Kang
Institute of Crop Sciences / National Key Facility for Crop Gene Resources and Genetic Improvement, Chinese Academy of Agricultural Sciences /
CIMMYT China Office, Beijing 100081, China
Abstract: Rapid increase in the availability of fine-scale genetic marker maps has led to the intensive use of QTL mapping in the
genetic study of quantitative traits. Composite interval mapping (CIM) is one of the most commonly used methods for QTL map-
ping with populations derived from biparental crosses. However, the algorithm used in CIM cannot completely ensure that the
effect of QTL at current testing interval is not absorbed by the background marker variables, and may result in biased estimation
of QTL effect. We proposed a statistical method for QTL mapping, which was called inclusive composite interval mapping (ICIM).
Two steps were included in ICIM. In the first step, stepwise regression was applied to identify the most significant regression
variables. In the second step, a one-dimensional scanning or interval mapping was conducted for detecting additive (and domi-
nance) QTL and a two-dimensional scanning was conducted for detecting digenic epistasis. ICIM provides intuitive statistics for
testing additive, dominance and epistasis, and can be used for most experimental populations derived from two inbred parental
lines. The EM algorithm used in ICIM has a fast convergence speed and is therefore less computing intensive. ICIM retains all
advantages of CIM over interval mapping, and avoids the possible increase of sampling variance and the complicated background
marker selection process in CIM. A doubled haploid (DH) population in barley was used to demonstrate the application of ICIM
in mapping additive QTL and additive by additive interacting QTL.
Keywords: Quantitative trait; QTL mapping; Inclusive composite interval mapping; Additive and dominance effects; Epistatic
interaction
随着分子标记技术的发展和标记连锁图谱的建立,
人们已经可以像研究质量性状基因一样研究数量性状
基因, 也可以把单个数量性状基因(quantitative trait
gene or locus, QTL)定位在染色体上, 并估计出单个数
量性状基因的遗传效应, 寻找QTL在染色体上的位置
并估计其遗传效应的过程称为 QTL作图[1-2]。自 1989
年 QTL区间作图方法提出以来[3], QTL作图逐渐成为
数量遗传学的研究重点[4-13], 根据 QTL定位结果对数
量性状基因进行图位克隆、利用标记对性状进行间
接选择等, 都已有成功的例子[14-19]。
QTL 作图方法研究大致经历以下几个过程[2]。
一是单标记或单点分析, 通过比较不同标记基因型
240 作 物 学 报 第 35卷
均值间的差异显著性来测验 QTL的存在, 这一方法
只有在 QTL的位置与标记完全重合、每条染色体上
至多包含一个 QTL的条件下, 才能获得准确的定位
结果。二是区间作图[3], 该方法的基本假定是每条染
色体上至多包含一个 QTL、QTL的遗传效应满足加
—显性模型, 因此当实际情况不符合此假定时, 例
如一条染色体上有 2个 QTL时, 若两 QTL的作用方
向相反, 往往检测不到; 若作用方向相同, 在两 QTL
间可能会出现一个“幻影”QTL, 且 QTL 位置的置信
区间较大, 一般在 10~30 cM之间, 会造成待估 QTL
位置与效应估计值的偏差。三是复合区间作图[20], 通
过引入其他标记作为协变量来消除区间以外QTL对
作图区间的影响, 从而消除“幻影”QTL 现象, 适用
于同一染色体上有多个 QTL 的情形。四是多 QTL
的同时定位[9-13], 多 QTL 定位的方法主要有极大似
然法和贝叶斯方法两大类, 极大似然法主要包括多
区间作图法[9]和惩罚最大似然法[10]。贝叶斯方法主
要包括可逆跳跃马尔可夫蒙托卡罗 (Markov chain
Monte Carlo, 简称MCMC)方法[11]和压缩估计方法[12]。
多 QTL同时定位的缺点在于算法太复杂、收敛速度
太慢、运算时间太长、而且需要较大的样本量。若
标记较多时, 难以进行参数估计, 很多贝叶斯模型
无法合理分析一个包含 127 标记、群体大小为 145
的大麦 DH 家系[13], 因此, 如何将贝叶斯方法应用
于实际作图群体仍有许多问题值得探讨。
复合区间作图(Composite Interval Mapping, 简
称 CIM)是近 10多年来广泛应用的 QTL/基因定位方
法[20]。最近我们发现该方法在算法上存在着一些缺
陷, 致使 QTL的效应可能会被侧连标记区间之外的
标记变量吸收, 同时不同的背景标记选择方法对作
图结果的影响很大 , 并且难以推广到上位型互作
QTL 的定位[21-22]。针对这些问题, 我们提出完备区
间作图方法(Inclusive Composite Interval Mapping,
简称 ICIM)[21-23]。本文介绍这一方法的基本遗传学
和统计学原理, 并通过一个真实群体说明完备区间
作图方法的应用。
1 QTL完备区间作图方法
1.1 单个 QTL的加显性遗传模型
在只有 1个 QTL(Q和 q表示该位点上的 2个等
位基因)的加显性遗传模型下, 3种 QTL基因型 QQ、
Qq和 qq的基因型值可表示为:
G aw dvμ= + + (1)
式中, µ代表 2种纯合基因型 QQ和 qq的平均, a为
加性效应, d为显性效应[1-2], w和 v是 QTL基因型的
指示变量, w = 1和 v = 0代表基因型 QQ, w = 0和 v =
1代表基因型 Qq, w = −1和 v = 0代表基因型 qq。如
果不考虑显性效应, 遗传模型可进一步简化为:
G awμ= + (2)
QTL作图时, 个体的QTL基因型是未知的, 即模
型(1)和(2)中的w和 v未知, 参数 a和 d有待估计。QTL
作图前, 已知个体的标记型, 但由于标记和 QTL 之间
存在连锁, 标记型提供了 QTL 基因型的信息, 因此需
要寻求 QTL基因型与标记基因型间的关系。
1.2 单个 QTL的线性统计模型
假定 2 个共显性标记(分别用 A-a 和 B-b 表示)
之间存在 1个 QTL, F2群体中有 9种不同的标记型,
每种标记型下 3 种 QTL 基因型的频率可通过 QTL
与 2 个标记位点间的重组率来估计[23]。可以证明,
QTL基因型指示变量 w的期望值是标记型指示变量
x1和 x2的线性函数, 指示变量 v 的期望值是标记型
指示变量 y1、y2以及乘积项 x1x2、y1y2的线性函数, 即
1 2 1 2 1 1 2 2( | , , , )E w x x y y x xλ λ= + (3)
1 2 1 2 1 1 2 2 12 1 2 12 1 2( | , , , )E v x x y y y y x x y yδ ρ ρ λλ ρρ= + + + +
(4)
其中,
1
1 32
21
1
1 322
1 1
1 1 3 42 2
1 12 1 2 32 2
112
1 32
12 1 1
1 2 3 4 52 2
( )
( )
( )
( )
( )
( )
g g
f
f f
g g g
g g g
g g
g g g g g
δ
λ
λ
ρ
ρ
λλ
ρρ
⎡ ⎤+⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥−⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= − − +⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥− + −⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥−⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎢ ⎥− + − +⎣ ⎦
上式中, 变量 f1、f2、f3、g1、g2、g3、g4和 g5是侧连
标记间以及 QTL与标记间重组率的函数[23]。这样得
到各种标记型的遗传型值:
1 2 1 2 1 2 1 2 1 2 1 2( | , , , ) ( | , , , ) ( | , , , )E G x x y y aE w x x y y dE v x x y yμ= + +
1 1 1 1 2 2 2 2[ ( ) ] ( ) ( ) ( ) ( )ˆ dd a A x d D y a A x d D yμ μ= + + + + + +
12 1 2 12 1 2( ) ( )d AA x x d DD y y+ (5)
模型(5)中参数的取值为:
1
1 32
21 1
1
1 322 2
1 1
1 1 1 3 42 2
1 12 2 1 2 32 2
112 12
1 32
12 12 1 1
1 2 3 4 52 2
( )( )
( )
( )( )
( ) ( )
( ) ( )
( ) ( )
( )
( )
d
g g dd d
f aa A a
f f aa A a
d D d g g g d
d D d g g g d
d AA d g g d
d DD d
g g g g g
μμ μ μ δ
λ
λ
ρ
ρ
λλ
ρρ
+ ++ +⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ −⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= = − − +⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ − + −⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ −⎢ ⎥ ⎢ ⎥⎣ ⎦⎣ ⎦ − + − + d
⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
第 2期 王建康等: 数量性状基因的完备区间作图方法 241
如果不考虑显性效应, 即对于模型(2), 线性统计模
型(5)可简化为:
1 2 1 2 1 1 2 2( | , ) ( | , ) ( ) ( )ˆE G x x aE w x x a A x a A xμ μ= + = + + (6)
线性模型(5)和(6)中, 变量 x1、x2、y1、y2以及乘积项
x1x2、y1y2是已知的, 通过对(5)和(6)的求解, 就能获
得包含QTL位置和效应的参数估计, 实现QTL作图
的目标。
1.3 多个 QTL的遗传和统计模型
将上述结果推广于 m个 QTL的情形, 加显性模
型下个体的基因型值可表示为:
1
[ ]
m
j j j j
j
G a w d vμ
=
= + +∑ (7)
式中, wj和 vj是第 j 个 QTL 基因型的指示变量。这
时期望遗传型值为:
1
( ) [( ) ( ) ( )
j
m
j d j j j j j j
j
E G d a A x d D yμ μ
=
= + + +∑
1 1 1 1 , 1 1( ) ( ) ( )j j j j j j j j j j ja A x d D y d AA x x+ + + + + ++ + +
1 1
, 1 1
1 1
( ) ] ˆ
m m
j j j j j j j j j
j j
d DD y y x yβ λ ρ+ ++ +
= =
+ = + +∑ ∑
, 1 1 , 1 1
1 1
m m
j j j j j j j j
j j
x x y yλλ ρρ+ + + +
= =
+ +∑ ∑
其中,
1
( )
j
m
j d
j
dβ μ μ
=
= +∑ ; 1 1 1( )a Aλ = ; 1 1 1( )d Dρ = ;
1( ) ( )j j j j ja A a Aλ −= + 和 1( ) ( )j j j j jd D d Dρ −= + , 式
中, 2, ,j m= ; 1 1( )m m ma Aλ + += ; 1 1( )m m md Dρ + += ;
, 1 , 1( )j j j j jd AAλλ + += , 和 , 1 , 1( )j j j j jd DDρρ + += , 式中,
1, ,j m= 。从而得到表型值与标记变量间的完备线
性模型为:
1 1
, 1 1
1 1 1
m m m
j j j j j j j j
j j j
y x y x xβ λ ρ λλ+ + + +
= = =
= + + +∑ ∑ ∑
, 1 1
1
m
j j j j
j
y yρρ ε+ +
=
+ +∑ (8)
式中, y是数量性状的观测值, ε是随机误差。
对于只包含 2 种基因型的作图群体, 如回交、
重组近交家系、加倍单倍体等, 只包含加性效应(加
性效应的含义因群体而异[20-21,23]), 这时多QTL遗传
模型和完备线性模型分别为:
1
m
j j
j
G a wμ
=
= +∑ (9)
和
1
1
m
j j
j
y xβ λ ε+
=
= + +∑ (10)
1.4 上位型互作 QTL的遗传和统计模型
上位性是不同位点间基因的互作。上位 QTL作
图目前还没有一个公认的比较完善的方法。杂种 F2
群体中包含 4种互作类型的完备线性模型比较复杂,
这里以加性×加性的互作来说明上位性的遗传和统
计模型[22]。加性效应(ai表示第 i 个 QTL 加性效应)
和加性×加性互作效应(aaij表示第 i个 QTL和第 j个
QTL间的加性×加性互作效应)的遗传模型可表示为:
1
m
j j jk j k
j j k
G a w aa w wμ
= <
= + +∑ ∑ (11)
与模型(11)对应的完备线性模型为:
1
0
1
m
j j jk j k i
j j k
y b b x b x x e
+
= <
= + + +∑ ∑ (12)
1.5 完备区间作图(ICIM)的加性 QTL作图假设
检验
ICIM 通过一个“两步策略”实现对 QTL 的定
位[21-23]。第一步利用逐步回归估计模型(8)或(10)中的
参数; 第二步通过对全基因组的一维扫描寻找加性
QTL[模型(10)]和加显性 QTL[模型(8)]。现以 F2群体
为例说明一维扫描时的检验方法。假定在标记区间
(k, k+1)上作图, 首先利用第一步模型选择的结果校
正表型值, 即令
, 1 , 1
, 1
ˆ ˆˆ[ ] [i i j ij j ij j j ij i j
j k k j k
y y x y x xλ ρ λλ + +
≠ + ≠
Δ = − + −∑ ∑
, 1 , 1ˆ ]j j ij i jy yρρ + ++ (13)
如果标记区间上有一个 QTL, 3 种 QTL 基因型
QQ、Qq和 qq的分布为 N(μl, σ2), 其中 l = 1, 2, 3代
表这 3 种 QTL 基因型。检验 QTL 的备择假设和零
假设分别为: HA: μ1、μ2和μ3至少有 2个互不相等, H0:
μ1= μ2 = μ3。备择假设 HA下的极大似然函数为:
9 3
2
A
1 1
log[ ( ; , )]
j
jl i l
j i S l
L f yπ μ σ
= ∈ =
= Δ∑∑ ∑ ,
式中, Sj代表第 j个标记基因型的集合(j = 1, 2, …, 9),
πjl是第 j个标记型下第 l个QTL基因型的概率, f(x; μl,
σ2) 表示正态分布 N(μl, σ2)的密度函数。在 H0下, 所
有 QTL 基因型服从同样的分布 N(μl, σ2), 这时的样
本似然函数为:
2
0 0 0
1
log ( ; , )
n
i
i
L f y μ σ
=
⎡ ⎤= Δ⎣ ⎦∑ 。
因此可通过似然比检验统计量检验二种假设间
242 作 物 学 报 第 35卷
的差异显著性。H0下参数的似然估计和最大似然函
数容易通过似然方程求得, 但HA下参数的似然估计
和最大似然函数需要借助迭代的 EM算法[21-24]。
1.6 完备区间作图(ICIM)的上位性 QTL作图假
设检验
第一步与加(显)性 QTL 作图类似, 利用逐步回
归估计模型(12)中的参数 , 第二步通过对全基因组
的二维扫描寻找两个作图区间[分别位于标记区间(j,
j+1)和(k, k+1)]之间的 QTL 互作。我们同样以 F2群
体为例说明 ICIM上位性作图的检验方法。首先利用
第一步模型选择的结果校正表型值, 即令
, 1, , 1 , 1, , 1
ˆ ˆi i r ir r ir
r j j k k r j j k k
y y x yλ ρ
≠ + + ≠ + +
Δ = − − −∑ ∑
, 1 , 1 , 1 , 1
, ,
ˆ ˆr r ir i r r r ir i r
r j k r j k
x x y yλλ ρρ+ + + +
≠ ≠
−∑ ∑ (13)
如果两区间上分别有一个 QTL, 这 2个 QTL的
9 种 QTL 基因型, 用 Q1Q1Q2Q2, Q1Q1Q2q2, Q1Q1q2q2,
Q1q1Q2Q2, Q1q1Q2q2, Q1q1q2q2, q1q1Q2Q2, q1q1Q2q2 和
q1q1q2q2表示, 其分布 N(μl, σ2), 其中, l = 1, 2, … , 9,
代表这 9 种 QTL 基因型。检验 QTL 存在的备择假
设和零假设分别为: HA: μ1, μ2, μ3, …, μ9至少有 2个
互不相等, H0: μ1= μ2 = μ3 = … = μ9。HA下的极大似
然函数为:
81 9
2
1 1
log[ π ( ; , )]
j
A jl i l
j i S l
L f y μ σ
= ∈ =
= Δ∑∑ ∑
式中, Sj代表第 j个标记基因型的集合 (j = 1, 2, …,
81)、πjl和 f(x; μl, σ2)符号意义同加—显性 QTL作图
的一维扫描。在 H0下, 所有 QTL基因型服从同样的
分布 N(μl, σ2), 这时的样本似然函数为:
2
0 0 0
1
log ( ; , )
n
i
i
L f y μ σ
=
⎡ ⎤= Δ⎣ ⎦∑
类似加性作图检验, 通过似然比检验统计量检
验二种假设间的差异显著性。H0下参数的似然估计
和最大似然函数依然通过求解似然方程求得, HA 下
参数的似然估计和最大似然函数则需要借助迭代的
EM算法[21-24]。根据 LA和 L0可以得到衡量互作显著
性的 LOD 统计量(记做 LODA)。值得注意的是, 从
LODA中只能知道 9 种基因型均值之间是否存在显
著性差异, 但差异究竟是由两 QTL本身的加性或显
性效应导致, 还是由互作效应导致, 却无从获知。
为此 , 需要进一步考虑如下的备择假设: HAA:
aa = ad = da = dd = 0。HAA下的极大似然函数为: LAA
= LA − (λ1aa + λ2ad + (λ3aa + λ4dd), 式中 λ1、λ2、λ3
和 λ4为拉格朗日乘子。由 LA和 LAA计算得到的 LOD
统计量(记做 LODAA)中去除了 2个 QTL自身加—显
性效应的影响 , 只衡量二者互作的显著性。但是
LODAA并没有将加加、加显、显加和显显这 4 种互
作类型分开检验, 如果想进一步检验每种互作的显
著性, 需要提出类似 LODAA的统计量。
2 ICIM在一个大麦 DH作图群体中的应用
由亲本 Harrington和 TR306衍生的 145个大麦
(Hordeum vulgare L.)DH 群体是国际上一个知名的
QTL 作图群体[25], 利用该群体和 127 个标记建立了
均匀覆盖大麦 7 条染色体(用 1H 至 7H 表示)的连锁
群。1992—1993 年间, 在 17 个地点 25 个环境条件
下评价各种数量性状的表现, 这里我们用平均粒重
(KWT)为例说明 ICIM的应用。亲本 Harrington的平
均粒重为 38.7 mg, TR306的粒重为 45.0 mg, DH群
体中的最低、平均和最高粒重分别为 35.8、42.0 和
48.1 mg。
ICIM第一步变量选择时, 采用的变量进、出回
归方程的显著水平分别为 0.01和 0.02; LOD临界值
取 2.5; 第二步的一维扫描时共检测到 9个影响粒重
的 QTL(表 1和图 1), 染色体 2H上有 3个, 3H和 7H
上各有 2个, 4H和 5H上各有 1个, 其中有 8个也被
其他作图方法所发现[25]。位于 5H染色体 5.0 cM上
的 qKWT5H和位于 7H染色体 95.0 cM上的 qKWT7H
是加性遗传效应最大的 2 个 QTL, 分别解释表型变
异的 38.37%和 17.20%(表 1)。大部分提高粒重的等
位基因来源于粒重较高的亲本 TR306, 但亲本
Harrington 仍 携 带 有 提 高 粒 重 的 等 位 基 因
qKWT2H-1、qKWT2H-3 和 qKWT3H-2, 这些基因解
释了群体中的超亲分离现象。
为了了解不同参数对 ICIM 作图结果的影响 ,
图 1 还给出变量进入模型的显著水平(PIN)分别是
0.05 和 0.001 下的 LOD 曲线, 变量离开模型的概率
水平(POUT)均设为 PIN 的 2 倍。当 PIN=0.01 和
POUT=0.02, 回归模型解释了 80.76%的表型变异(表
1), 已超过粒重的广义遗传力 0.71[25]。因此基本断
定该群体中加性 QTL是主要的遗传变异。在进行二
维扫描时, ICIM给出 2个 LOD值, 即 LODA(图 2-A)
和 LODAA(图 2-B), LODA度量所有的遗传变异 , 而
LODAA只度量上位性引起的变异。因此在图 2-A中,
具有显著加性效应的 QTL 在二维 LOD 图中呈现一
第 2期 王建康等: 数量性状基因的完备区间作图方法 243
表 1 大麦 DH作图群体中粒重性状的加性 QTL作图结果(PIN=0.01, POUT=0.02)
Table 1 Nine additive QTL identified by ICIM (PIN=0.01, POUT=0.02) to control kernel weight (KWT) in the barley DH population
QTL名称
QTL name
染色体上的位置
Position (cM)
LOD得分
LOD score
加性效应
Additive effect (mg)
表型变异率 1)
PVE 1) (%)
qKWT2H-1 83 4.60 0.39 3.13
qKWT2H-2 140 7.23 −0.51 5.34
qKWT2H-3 201 5.59 0.43 3.77
qKWT3H-1 1 4.39 −0.39 3.04
qKWT3H-2 22 7.41 0.51 5.33
qKWT4H 125 4.12 −0.37 2.73
qKWT5H 5 34.28 −1.37 38.37
qKWT7H-1 4 8.27 −0.55 6.07
qKWT7H-2 95 19.81 −0.92 17.20
Total variation explained (%) 2) 80.76
1) PVE: percentage of variance explained.
2) Total phenotypic variation explained by additive effects in the regression of phenotype on markers.
图 1 大麦 145个 DH系中对粒重性状 3种作图参数的 LOD曲线
Fig. 1 Mapping results from three mapping parameters for additive QTL affecting kernel weight in barley population consisting of
145 DH lines
从上到下, 逐步回归模型选择过程中变量进入的概率水平(PIN)分别为 0.01、0.001和 0.05, 变量被剔除的概率水平(POUT)为 PIN的 2
倍。扫描步长为 1 cM。1H到 7H表示大麦的 7条染色体。为清楚起见, PIN=0.001时的 LOD值加以 50, PIN=0.01时的 LOD值加以
100。
Three probabilities for entering variables and removing variables were considered (i.e., PIN = 0.01, 0.001, 0.05 and POUT = 0.02, 0.002, 0.10,
respectively). The scanning step is 1 cM. 1H to 7H represent the seven barley chromosomes. The LOD scores at PIN = 0.001, and 0.01 were
added by 50 and 100, respectively.
条带, 从 LODA难以看出上位性的存在。LODAA中已
扣除加性 QTL的影响, 因此在图 2-B中, 如某一点有
显著的 LOD值, 则说明对应的 2个坐标轴的位置上存
在显著的互作, 如图 2-B 中的互作 1 和互作 2。ICIM
通过二维扫描这种方法不仅能够检测到具有明显加性
效应的QTL间的互作(如图 2-B互作1), 也能检测到没
有加性效应的 QTL间的互作(如图 2-B互作 2)。
3 完备区间作图的统计性质和优点
从等式(3)和(4)可以看出, QTL只影响它所在区
间上的标记变量的系数。在完备线性模型(8)和(10)
中, 标记的系数是由标记左、右 2 个区间上的 QTL
唯一决定的, 而与其他标记区间上的 QTL无关。这
样在“分隔 QTL”的假定下(即 2 个 QTL 间包含至少
一个不存在 QTL 的空白区间), 区间标记的系数包
含了该区间上 QTL位置和效应的所有信息; 通过等
式(13)对表型的校正 , 排除了当前区间之外的所有
QTL对当前区间上 QTL作图的影响, 因而有效地控
制了背景遗传变异对当前位置上 QTL检测的影响。
ICIM 包含两个步骤: 首先利用所有标记的信息, 通
244 作 物 学 报 第 35卷
图 2 大麦 145个 DH系中同时检验粒重的加性和上位型效应(A)和只检验上位型效应(B)的二维扫描 LOD曲面图
Fig. 2 Two-dimensional scanning from ICIM testing the significance of additive and epistasis (A), and epistasis only (B) affecting
kernel weight (KWT) in barley population consisting of 145 DH lines
A: LODA度量所有的遗传变异; B: LODAA只度量上位性引起的变异。图形上方和左侧为一维扫描的 LOD曲线。
A: LODA determines the significance of all genetic variations; B: LODAA determines the significance of epistatic variation.
LOD profile from one-dimensional scanning is shown at the top and left.
过逐步回归选择重要的标记变量并估计其效应, 然
后利用逐步回归得到的线性模型校正表型数据, 并
利用校正后的数据进行全基因组的一维和二维扫
描。这种作图策略简化了 CIM中控制背景遗传变异
的过程。模拟研究和实际数据的分析表明 ICIM是一
个行之有效的 QTL定位方法; ICIM有较低的抽样误
差, 较高的作图效率; 有QTL的区域 ICIM有显著高
的 LOD 值, 没有 QTL 的区域 ICIM 的 LOD 值接近
于 0; ICIM对作图参数有着很好的稳健性(图 1), 同
时也很容易推广到上位性作图[21-23], 在上位性作图
时, 不仅可以检测到有加性效应 QTL 间的互作(图
2-B中的互作 1), 而且还可以检测到没有明显加性
效应的 QTL 之间的互作(图 2-B 中的互作 2)。笔者
已编制了实现 ICIM 的交互式用户友好软件 QTL
IciMapping, 可从 http://www.isbreeding.net网站免费
下载。
References
[1] Lynch M, Walsh B. Genetic and Analysis of Quantitative Traits.
Sunderland, MA: Sinauer Associates, 1998
[2] Zhai H-Q(翟虎渠), Wang J-K(王建康). Applied Quantitative
Genetics (应用数量遗传). Beijing: China Agricultural Scientech
Press, 2007 (in Chinese)
[3] Lander E S, Botstein D. Mapping Mendelian factors underlying
quantitative traits using RFLP linkage maps. Genetics, 1989, 121:
185−199
[4] Broman K W, Speed T P. A model selection approach for the
identification of quantitative trait loci in experimental crosses. J
Roy Statist Soc B, 2002, 64: 641−656
[5] Carlborg Ö, Kerje S, Schütz K, Jacobsson L, Jensen P, Andersson
L. A global search reveals epistatic interaction between QTL for
early growth in the chicken. Genome Res, 2003, 13: 413−421
[6] Doerge R W. Mapping and analysis of quantitative trait loci in
experiment populations. Nat Rev Genet, 2002, 3: 43−52
[7] Feenstra B, Skovgaard I M, Broman K W. Mapping quantitative
trait loci by an extension of the Haley-Knott regression method
using estimating equations. Genetics, 2006, 173: 2269−2282
[8] Sen S, Churchill G A. A statistical framework for quantitative
trait mapping. Genetics, 2001, 159: 371−387
[9] Kao C H, Zeng Z B, Teasdale R D. Multiple interval mapping for
quantitative trait loci. Genetics, 1999, 152: 1203−1206
[10] Zhang Y, Xu S. A penalized maximum likelihood method for es-
timating epistatic effects of QTL. Heredity, 2005, 95: 96−104
[11] Satagopan J M, Yandell B S, Newton M A, Osborn T C. A
Bayesian approach to detect quantitative trait loci using Markov
chain Monte Carlo. Genetics, 1996, 144: 805−816
[12] Wang H, Zhang Y, Li X, Masinde G, Mohan S, Baylink D, Xu S.
Bayesian shrinkage estimation of quantitative trait loci parame-
ters. Genetics, 2005, 170: 465−480
[13] Xu S, Jia Z. Genome-wide analysis of epistatic effects for quanti-
tive traits in barley. Genetics, 2007, 175: 1955−1963
[14] Frary A N, Nesbitt T C, Frary A M, Grandillo S, Knaap E V D,
Cong B, Liu J P, Meller J, Elber R, Alpert K B, Tanksley S D.
fw2.2: A quantitative trait locus key to the evolution of tomato
fruit size. Science, 2000, 289: 85−88
[15] Xue W, Xing Y, Weng X, Zhao Y, Tang W, Wang L, Zhou H, Yu S,
Xu C, Li X, Zhang Q. Natural variation in Ghd7 is an important
第 2期 王建康等: 数量性状基因的完备区间作图方法 245
regulator of heading date and yield potential in rice. Nat Genet,
2008, 40: 761−767
[16] Wan X, Weng J, Zhai H, Wang J, Liu X, Guo T, Su N, Wan J.
QTL analysis for rice grain width and fine mapping of an identi-
fied QTL allele gw-5 in a recombination hotspot region on chro-
mosome 5. Genetics, 2008, 179: 2239−2252
[17] Wang J, Wan X, Li H, Pfeiffer W, Crouch J, Wan J. Application
of identified QTL-marker associations in rice quality improve-
ment through a design breeding approach. Theor Appl Genet,
2007, 115: 87−100
[18] Wang J, Wan X, Crossa J, Crouch J, Weng J, Zhai H, Wan J. QTL
mapping of grain length in rice (Oryza sativa L.) using chromo-
some segment substitution lines. Genet Res, 2006, 88: 93−104
[19] Haley C S, Knott S A. A simple regression method for mapping
quantitative loci in line crosses using flanking markers. Heredity,
1992, 69: 315−324
[20] Zeng Z B. Precision mapping of quantitative trait loci. Genetics,
1994, 136: 1457−1468
[21] Li H, Ye G, Wang J. A modified algorithm for the improvement of
composite interval mapping. Genetics, 2007, 175: 361−374
[22] Li H, Ribaut J M, Li Z, Wang J. Inclusive composite interval
mapping (ICIM) for digenic epistasis of quantitative traits in bi-
parental populations. Theor Appl Genet, 2008, 116: 243−260
[23] Zhang L, Li H, Li Z, Wang J. Interactions between markers can
be caused by the dominance effect of QTL. Genetics, 2008, 180:
1177−1190
[24] Dempster A, Laird N, Rubin D. Maximum likelihood from incom-
plete data via the EM algorithm. J Royal Stat Soc B, 1977, 39: 1−38
[25] Tinker N A, Mather D E, Rossnagel B G, Kasha K J, Kleinhofs A,
Hayes P M, Falk D E, Ferguson T, Shugar L P, Legge W G, Irvine
R B, Choo T M, Briggs K G, Ullrich S E, Franckowiak J D, Blake
T K, Graf R J, Dofing S M, Saghai-Maroof M A, Scoles G J,
Hoffman D, Dahleen L S, Kilian A, Chen F, Biyashev R M,
Kudrna D A, Steffenson B J. Regions of the genome that affect
agronomic performance in two-row barley. Crop Sci, 1996, 36:
1053−1062