免费文献传递   相关文献

Bayesian Statistics-Based Multiple Interval Mapping of QTL Controlling Endosperm Traits in Cereals

基于贝叶斯统计的谷物胚乳性状QTL多区间作图方法



全 文 :作物学报 ACTA AGRONOMICA SINICA 2009, 35(9): 1569−1575 http://www.chinacrops.org/zwxb/
ISSN 0496-3490; CODEN TSHPA9 E-mail: xbzw@chinajournal.net.cn

本研究由国家重点基础研究发展规划(973计划)项目(2006CB101700)和教育部“新世纪优秀人才支持计划”项目(NCET-05-0502)资助。
*
通讯作者(Corresponding author): 徐辰武, E-mail: qtls@yzu.edu.cn; Tel: 0514-87979358
第一作者联系方式: E-mail: qtls@hotmail.com
Received(收稿日期): 2008-12-18; Accepted(接受日期): 2009-04-25.
DOI: 10.3724/SP.J.1006.2009.01569
基于贝叶斯统计的谷物胚乳性状 QTL多区间作图方法
王亚民 1,2 汤在祥 1 陆 鑫 1 徐辰武 1,*
1扬州大学江苏省作物遗传生理重点实验室 / 教育部植物功能基因组学重点实验室, 江苏扬州 225009; 2连云港职业技术学院基础部,
江苏连云港 222006
摘 要: 贝叶斯统计学已被广泛地应用在现代科学的各个研究领域。本研究将贝叶斯统计方法和谷物三倍体胚乳性
状数量遗传模型相结合, 以 F2群体中各植株的分子标记基因型以及植株上若干粒自交种子胚乳性状的单粒观测值为
数据模式, 提出了胚乳数量性状基因座(QTL)多区间作图的贝叶斯方法。该方法首先构建胚乳性状的多区间多 QTL
遗传模型, 然后通过基于 Gibbs抽样和 Metropolis-Hastings算法实现的马尔可夫链蒙特卡罗(MCMC)方法同时获得多
个 QTL 效应和位置的估计。方法的有效性通过一条长染色体的模拟实验进行了验证, 结果表明, 本文提出的贝叶斯
多区间方法能够准确地估计胚乳性状 QTL的位置和效应, 并可有效区分两种显性效应。
关键词: 贝叶斯统计; 胚乳性状; 马尔可夫链蒙特卡罗; 数量性状基因座位
Bayesian Statistics-Based Multiple Interval Mapping of QTL Controlling En-
dosperm Traits in Cereals
WANG Ya-Min1,2, TANG Zai-Xiang1, LU Xin1, and XU Chen-Wu1,*
1 Jiangsu Provincial Key Laboratory of Crop Genetics and Physiology / Key Laboratory of Plant Functional Genomics of Ministry of Education,
Yangzhou University, Yangzhou 225009, China; 2 Basis Course of Lianyungang Technical College, Lianyungang 222006, China
Abstract: The endosperm of plants is a major source of food, feed and industrial raw materials. The genetic analysis of en-
dosperm traits poses numerous challenges due to its complex genetic composition and unique physical and developmental proper-
ties. Modern molecular techniques and statistical methods have greatly improved the mapping of quantitative trait loci (QTL)
underlying endosperm traits. In recent years, Bayesian statistics-based analyzing methods have been developed for mapping QTL
underlying diploid quantitative traits, but these methods have not been effective to the mapping of triploid endosperm characters.
On the basis of Bayesian statistics and quantitative genetic model of triploid endosperm traits, a Bayesian multiple interval
method for mapping QTL underlying endosperm traits was proposed. This method used the DNA molecular marker genotypes of
each plant in F2 segregation population and the single endosperm observation of a few endosperms of each plant as data set to
analyze endosperm QTL. After constructing the multiple-QTL model, the Bayesian estimates of multiple QTL position and effects
were obtained through MCMC algorithm implementing via Gibbs and Metropolis-Hastings sampling. The validation of the statis-
tical procedure was verified through chromosome level simulation studies. The results showed that the proposed Bayesian method
can estimate the multiple QTL positions and effects as well as distinguish the two dominance effects.
Keywords: Bayesian statistics; Endosperm traits; Markov chain Monte Carlo; Quantitative trait loci
谷类作物品质性状的遗传改良自从 20 世纪 90
年代就已成为国际性的一大育种目标。这类性状主
要是指受三倍体遗传控制的胚乳数量性状。因此 ,
了解胚乳品质性状的遗传基础是实现谷类作物品质
改良的前提。莫惠栋[1-2]提出了胚乳性状的数量遗传
模型, 徐辰武等 [3]根据三倍体胚乳性状的数量遗传
模型, 率先提出胚乳性状 QTL图谱的构建方法。其
后, 国内外学者先后提出了一系列基于经典数理统
计的分析方法以定位控制胚乳数量性状的 QTL, 如
Wu 等[4-5]提出的基于 EM 算法的极大似然法和基于
一阶设计和二阶设计的作图方法, Xu 等[6]提出的迭
代重新加权最小平方法。这些方法均是基于单 QTL
模型发展起来的, 当在同一连锁群上存在多个 QTL,
以及QTL间存在互作时, 这些方法对有关QTL的估
1570 作 物 学 报 第 35卷

计可能出现偏差。为此, Kao等[7]发展出多区间作图
方法以解决这一问题。种子胚乳作为着生在母体植
株上的子代, 其遗传表达可能还受母体植株基因型
的影响, 为分析母体基因型的效应, Cui 等[8]发展出
用于同时分析母体和子代效应的遗传模型和分析方
法, 该方法假设存在亲代和子代两套遗传体系共同
控制胚乳性状的遗传表达。而 Hu等[9]认为母体 QTL
和子代 QTL应属于同一套遗传体系, 进而发展出包
含母体遗传效应的胚乳 QTL定位方法。值得注意的
是, 上述这些方法在株平均值数据模式下并不能分
辨出胚乳性状的两个显性效应 , 为解决这一问题 ,
Wen等[10]提出基于随机交配设计的胚乳性状QTL区
间定位方法 , 王学枫等 [11]用经典数量遗传学的
NCIII 和 TTC 设计试图精确估计两种显性效应。此
外, 为考虑胚乳性状不同位点间的上位性互作, He
和 Zhang[12]提出基于随机交配设计的惩罚似然方法
可对胚乳性状上位性 QTL进行分析。
上述方法均是基于经典数理统计发展出来的。
近年来, 随着高性能计算机的快速发展以及 MCMC
算法的提出, 有别于经典数理统计的贝叶斯统计方
法在科学研究的各个领域获得了广泛的应用。与此
同时, 在统计基因组学研究中已先后发展出一系列
的 QTL定位的贝叶斯方法[13-16]。然而如何将贝叶斯
方法应用于胚乳性状的 QTL作图, 国内外均未见报
道。在基于单 QTL 模型的胚乳性状 QTL 区间作图
的贝叶斯方法的基础上[17], 本文进一步将胚乳性状
单 QTL 模型扩展为多 QTL 模型, 并发展出基于
MCMC 算法实现的贝叶斯方法和程序, 以供实际数
据分析应用。
1 原理与方法
1.1 胚乳性状统计遗传模型
假定控制某一胚乳性状的 QTL有 p个, 依次位
于基因组上 p 个标记区间内。由于双亲杂交衍生分
离群体的任一 QTL仅涉及两个等位基因, 故任一胚
乳 QTL 有 4 种可能的基因型 QmQmQm、QmQmqm、
Qmqmqm和 qmqmqm (m = 1, 2, …, p), 其基因型值分别
为 3am/2、am/2+d1m、−am/2+d2m和−3am/2[2]。其中 am
为加性效应, d1m和 d2m分别为第一和第二显性效应。
设 Yij表示 F2分离群体中第 i个植株(i = 1,2, …, k)上
的第 j粒自交种子(j = 1,2, …, ni)胚乳表型值。则 Yij
具有如下统计模型。
1 1 2 2 3
1
( )
p
ij m ijm m ijm m ijm ij
m
Y a X d X d X eμ
=
= + + + +∑ (1)
式中, μ为群体均值, X1ijm、X2ijm和 X3ijm分别是第
i植株上第 j粒种子胚乳在基因组第 m个标记区间内
QTL基因型的指示变量, 具有如下定义:对 QmQmQm
基因型, X1ijm=3/2, X2ijm=X3ijm=0; 对 QmQmqm基因型,
X1ijm=1/2, X2ijm=1, X3ijm=0; 对 Qmqmqm基因型, X1ijm=
−1/2, X2ijm=0, X3ijm=1; 对 qmqmqm基因型, X1ijm=−3/2,
X2ijm = X3ijm = 0。eij~N(0, 20σ ), 20σ 为剩余方差。令:
11 12 1
21 22 2
1 2
...
...
...
...
p
p
k k kp
⎡ ⎤⎢ ⎥⎢ ⎥= ⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
X X X
X X X
X
X X X
# # #
其中
1 1 2 1 3 1
1 2 2 2 3 2
1 2 3 3i i i i
i m i m i m
i m i m i m
im
in m in m in m n
X X X
X X X
X X X ×
⎡ ⎤⎢ ⎥⎢ ⎥= ⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
X # # # 。

1 211 12 1 21 22 2
1 2 1
... ...
...
k
n n
T
k k kn n
Y Y Y Y Y Y
Y Y Y ×
⎡= ⎣
⎤⎦
Y



[ 1 11 21 2 12 22
1 2 1 3
...
T
p p p p
a d d a d d
a d d ×
=
⎤⎦
b


[
1 211 12 1 21 22 2
1 2 1
... ... ...
...
k
n n
T
k k kn n
e e e e e e
e e e ×
=
⎤⎦
e


其中, T表示矩阵的转置,
1
k
i
i
n n
=
= ∑ 。则模型(1)可以
进一步表示为:
μ= + +Y I Xb e (2)
式中, 的 I为 n行元素皆为 1的列向量。
1.2 模型中参数的条件后验分布
模型(2)中待估参数(μ, b 和 20σ )较多, 需采用贝
叶斯压缩估计方法进行估计。参照 Wang 等[13]定义
各参数的先验分布为 ( ) 1p μ ∝ 、 2 20 0( ) 1/p σ σ∝ 和
2( ) (0, )l lp b N σ= , 其中 bl为矩阵 b的第 l行元素(l=1,
2, …3p)。在贝叶斯压缩估计中, 需进一步定义 2lσ 具先
验分布 2 2( ) 1/l lp σ σ∝ , 并记 2 2 2 20 1 2 3( )pσ σ σ σ= ... v 。
然而, 值得注意的是, 模型(2)中的 X 并不已知, 需
要根据各 QTL的位置
1
1 2 ...
p
T
pλ λ λ ×⎡ ⎤= ⎣ ⎦λ 以及分
子标记基因型矩阵 M 联合推断。因此, 所有未知变
量包括θ={μ, b, v, λ, X}。
根据贝叶斯原理, 在 Y和M已知情况下, θ的后
第 9期 王亚民等: 基于贝叶斯统计的谷物胚乳性状 QTL多区间作图方法 1571


验分布可表示为:
( , , )( , ) ( , , ) ( , ) ( )
( , )
pp p p p
p
= ∝ =Y Μ θθ Y M Y M θ Y Μ θ θ
Y M

(3)
其中, p(θ)为各未知变量的联合先验分布, p(Y, M|θ)
为观察值向量的似然函数。公式(3)是贝叶斯推断的
核心, 据之可导出有关未知变量的条件后验分布。
1) 20... ~ ( , )N sμ μ
其中
1 1 2 2 3
1 1 1
1 [ ( )]
in pk
ij m ijm m ijm m ijm
i j m
Y a X d X d X
n
μ
= = =
= − + +∑∑ ∑ ,
2 2
0 0 /s nσ= 。
2) 2... ~ ( , )l l lb N b s
其 中 , 2 2 10( / ) [ ( )]T Tl l l l l l lb σ σ μ− − −= + − −X X X Y I X b ,
2 2 2 1 2
0 0( / )
T
l l l ls σ σ σ−= +X X 。Xl为矩阵 X 的第 l 列向
量, X-l为矩阵 X去掉第 l列向量后所得到的矩阵, b-l
为矩阵 b去掉第 l行元素后所得到的列向量。
3) 2 20 ... ~ [ , ( ) ( )]
TInv nσ χ μ μ− − − − −Y I Xb Y I Xb
4) 2 2 2| ... ~ (1, )l lInv bσ χ−
上述 1)至 4)式中的“…”表示除相应参数外的所
有参数θ。根据各参数的相应条件后验分布可更新有
关参数。
5) 矩阵 X的更新较为复杂, 其方法如下:
记第 i个植株在基因组第 m个 QTL(相应位置为
λm)的双侧标记基因型为 limM 和 rimM 。根据 Haldane
作图函数, 计算出该QTL与 limM 和 rimM 之间的重组率,
并进一步计算该QTL 3种可能植株基因型QmQm、Qmqm
和 qmqm 的先验概率 1 ( , , )l rim m m m im imp p Q Q M Mλ= 、
2 ( , , )
l r
im m m m im imp p Q q M Mλ= 和 3 ( ,im m m mp p q q λ=
, )l rim imM M 。需要注意的是, 在计算 QTL的先验概率
时, 如该 QTL的双侧标记中存在不完全信息标记或
标记信息缺失情况, 可采用 Jiang 和 Zeng[18]的方法
进行处理。在此基础上, 可得该植株上第 j粒种子胚
乳 QTL 的 4 种基因型 QmQmQm、QmQmqm、Qmqmqm
和 qmqmqm 的先验概率分别为 p1ijm=p1im+p2im/4、
p2ijm=p3ijm=p2im/4 和 p4ijm=p3im+p2im/4。根据 4 种胚乳
基因型的先验概率以及胚乳表型值 Yij可计算出该粒
种子 4种胚乳基因型的后验概率为:
4
*
1
( ) / ( )hijm hijm hijm ij h hijm hijm ij h
h
p p f Y G p f Y G
=
= ∑
式中, Gh(h = 1, 2, 3, 4)分别代表胚乳 4种可能基因型,
fhijm(Yij|Gh)为 Yij的条件概率密度。由 *hijmp 可确定该粒
种子胚乳基因型。该植株上 ni粒胚乳的 QTL基因型
均以此方法确定, 从而可得矩阵 Xim, 进而得到 X。
6) QTL位置λ的更新
记第 m 个 QTL 双侧标记的位置分别为ζl和ζr,
并 假 定 λm 的 先 验 分 布 为 λm~U(ζl, ζr)。 则 有
P(λm)=1/(ζr−ζl), 其条件后验分布 p(λm|…)无明确解
析式, 因此, 参数λm无法像其它参数那样进行Gibbs
抽样, 而需采用Metropolis-Hastings算法实现。首先,
从以λm为中心, c为半径的区间内按均匀分布抽取一
个候选位置 *mλ , 其中 c是一个给定的常数, 取 1 cM
或 2 cM, 则在λm 已知情况下获得 *mλ 的条件概率密
度为:
*( ) 1/[( ) ( )] 1/ 2m m m mq c c cλ λ λ λ= + − − =
当获得 *mλ 时, 必须确保有同样的概率密度抽取
到原来的位置λm, 因此,
* * *( ) 1/[( ) ( )] 1/ 2m m m mq c c cλ λ λ λ= + − − =
故有 * *( ) ( )m m m mq qλ λ λ λ= 。采用 Metropolis-
Hastings 算法来决定是否接受新位置 *mλ , 该法以
min(1, α)的概率来接受新位置 *mλ , 其中:
*
**
1 1
*
1 1
( )
( )( )
( ) ( )
( )
i
i
nk
ij m
m mi j m
nk
m m m
ij m
i j
f Y
qp
p q
f Y
λ λ λλα λ λ λλ
= =
= =
=
∏∏
∏∏
(4)
式中, *( )ij mf Y λ 和 ( )ij mf Y λ 分别为 *mλ 和λm 下 Yij 的
概率密度函数。由于任一粒胚乳可能有 4种基因型,
故 Yij为一混合分布。显然, 当α ≥1时, 将百分之百
接受新位置 *mλ , 当α<1 时, 将以概率α接受新位置
*
mλ 。一旦新位置被接受, λm就被 *mλ 所替换。如果新
位置 *mλ 被拒绝, 则原来位置λm保留不变。
但 值 得 注 意 的 是 , 在 一 些 特 殊 情 况 下 ,
* *( ) ( )m m m mq qλ λ λ λ≠ 。这是由于当 QTL位置λm靠近
区间边界以至于λm−ζl=dm<c 时, 新位置 *mλ 则不得
不在区间[λm–dm, λm+c]内按均匀分布抽取一个新位
置 *mλ , 即 *mλ ~U[λm–dm, λm+c]; 同理, 如果λm非常接
近右侧标记ζr以至于ζr–λm= dm<c 时, 新位置 *mλ 不
得不按 *mλ ~U[λm–c, λm+dm]进行抽取。无论上述哪种
情况 , 概率密度 *( )m mq λ λ 与 *( )m mq λ λ 都必须修改 ,
正确的形式应该为:
1572 作 物 学 报 第 35卷

*
1/[ ( )]
( ) 1/[
1/ 2
m l m l
m m r m r m
c c
q c c
c
λ ζ λ ζ
λ λ ζ λ ζ λ
+ − − <⎧⎪= + − ] − < ⎨⎪ ⎩


其他情况

* *
* * *
1/[ ( )]
( )= 1/[ ]
1/ 2
m l m l
m m r m r m
c c
q c c
c
λ ζ λ ζ
λ λ ζ λ ζ λ
⎧ + − − <⎪⎪ + ( − ) − < ⎨⎪ ⎪⎩


当 时
当 时
其他情况

若记δm、 *mδ 分别为λm、 *mλ 与区间最近的边界的距离,
则上面形式可进一步写成 q( *mλ |λm)=1/[c+min(c, δm)],
q(λm| *mλ )=1/[c+min(c, *mδ )]。又因为 p(λm)和 *( )mp λ 都
是同一区间上均匀分布的先验概率密度 , 所以
*( )mp λ / p(λm)=1。因此, 公式(4)可改写为:
*
*
1 1
1 1
( )
min( , )
min( , )
( )
i
i
nk
ij m
i j m
nk
m
ij m
i j
f Y
c c
c c
f Y
λ δα δλ
= =
= =
+= +
∏∏
∏∏

1.3 MCMC过程
除 QTL 位置λ需由上述 Metropolis-Hastings 算
法实现更新外, 其余参数均有确定的条件后验分布,
可直接依据相应分布进行 Gibbs抽样, 由此, MCMC
抽样过程简述如下:
1) 给未知变量赋初值 2(0)(0) (0) 0, ,μ σ (0), , , (0)b v X
(0) (0)
1 pλ λ , , 。
2) 从 20( , )N sμ 抽取随机数, 记作 (1)μ , 更新 (0)μ 。
3) 从 2( , )l lN b s 抽取随机数 , 记作 (1)lb , 更新
(0)
lb 。
4) 从 2[ , ( ) ( )]TInv nχ μ μ− − − − −Y I Xb Y I Xb 抽
取随机数, 记作 2(1)0σ , 更新剩余方差 2(0)0σ 。
5) 从 2 2(1, )lInv bχ− 中抽取随机数 , 记作 2(1)lσ ,
更新 2(0)lσ 。
6) 更新 QTL位置λ。
7) 更新 QTL的基因型指示变量 X(0)。
8) 重复 2)~7)t轮。
对收集到的 t轮后验样本 , 剔除前面若干轮未
收敛的数据, 然后按一定间隔收集后验样本, 依据
该后验样本分布特征, 选取平均数或众数作为相应
参数的贝叶斯估计值。
2 模拟研究
2.1 模拟设置
设 F2分离群体的样本容量为 200 株, 每株考察
30粒。假设一条长 100 cM的染色体, 其上均匀分布
11个共显性分子标记, 控制胚乳性状的 3个 QTL分
别位于 15、55和 95 cM处, 群体均值设为 20, 各个
QTL 的遗传力及效应设置见表 1。QTL 总遗传方差
2
Gσ 为各个 QTL遗传方差 2gσ 的累加, 其中, 单个 QTL
遗 传 方 差 2 2 2 21 2 1 25 / 4 ( ) / 4 (3 3g a ad ad d dσ = + − + + −
1 22 ) /16d d 。根据 QTL 总遗传力 2H 以及 QTL 总遗
传方差, 确定剩余方差 2 2 2 2(1 ) /E G H Hσ σ= − 。
重复模拟 100 次, QTL 的统计功效以检测到
QTL 的次数表示, 位置和效应估计的准确度以 100
个重复样本相应QTL位置和效应估计值的平均值度
量, 精确度则以 100个重复样本相应 QTL估计值的
标准差度量。对每一样本 QTL 位置和效应的估计,
第一步, 收集后验样本, 设定循环次数 20 000, 去除
最初的 2 000轮, 在剩下的 18 000轮中每间隔 20个
取样, 共收集 900 个后验数据。第二步, 将收集的
900 个 QTL 位置数据做成方柱图, 并计算该分布的
平均数, 作为 QTL 位置的估计值 λˆ。进一步计算方
柱图中 λˆ所在组区间内对应样本的加性效应和显性
效应估计值的平均数, 即作为相应 QTL的加性效应
和显性效应估计值。
2.2 模拟结果
本模拟共 10个标记区间, 故可能QTL有 10个。
每一 QTL均收集 900个位置数据。用 1 cM为组距
绘制 QTL位置数据的次数分布。图 1-A为某一随机
样本下 10个可能QTL位置数据的频次分布图, 由之
可见在设定的 3个 QTL区间均出现明显的峰, 表明
该样本的 3个 QTL均被发现。但由于每一标记区间
长 10 cM, 按 1 cM分组可分 10个组区间, 900个后
验数据落在每一组区间的平均次数仅为 90次, 为了
清晰反映目标 QTL 所在的染色体位置, 参照 Wang
等 [13]以及 Xu 和 Yi[19]的处理方法, 本文采用一种
QTL位置的加权频次分布图。即先计算每 1 组区间
后验样本相应的加性和两个显性效应平均值, 然后
依据单个QTL的遗传方差估计公式计算出 2gσ , 以之
绘制出加权的 QTL位置的频次分布图。图 1-B为该
样本 QTL位置的加权频次分布图。显然加权的频次
分布图可更清晰地展示QTL的存在与否及其相应位
置。按上述分析, 可得 3个 QTL位置估计的平均值
和标准差 , 分别为 15.98±0.07、 55.01±0.09 和
95.01±0.09。 相 应 的 加 性 效 应 估 计 值 分 别 为
1.00±0.03、0.87±0.02和 0.79±0.01; 第一显性效应估
计值分别为−0.53±0.47、0.48±0.45和−0.01±0.08; 第
第 9期 王亚民等: 基于贝叶斯统计的谷物胚乳性状 QTL多区间作图方法 1573


二显性效应估计值分别为−0.95±0.57、2.25±0.43 和
0.02±0.09。以此类推, 可以得到其他 99个样本的 QTL
位置和效应估计值, 并进而得到各 QTL的统计功效
以及位置与效应估计值的平均值与标准差(表 1)。可
见本文提出的贝叶斯多区间方法能够较好地定位控
制胚乳性状的 QTL的位置, 对群体均值和加性效应
的估计也十分准确, 相比而言, 两个显性效应的估
计略有偏差。



图 1 QTL位置的后验分布图
Fig. 1 Posterior frequency distribution of QTL position

表 1 3个 QTL的统计功效及其位置与效应估计的平均值和标准差
Table 1 Powers, means and standard deviations of three simulated QTLs
QTL位置
Position (cM)

群体均值
Mean


a



d1



d2


QTL 遗传力
h2 (%)
统计功效
Power
(%) True Estimated True Estimated True Estimated True Estimated True Estimated
qtl1 14.04 100 15 14.81±0.27 1 0.90±0.02 –1 –1.09±0.37 –2 –0.85±0.29
qtl2 10.82 100 55 54.91±0.32 1 0.85±0.03 1 0.48±0.08 2 1.39±0.33
qtl3 5.14 100 95 95.09±0.52
20 20.32±0.16
0.8 0.79±0.02 0 0.01±0.08 0 –0.06±0.08

3 讨论
三倍体胚乳性状的遗传研究是近 10 多年来谷物
品质研究中较引人注意的一个重要课题。与常规的
二倍体性状相比, 胚乳性状有着更为复杂的遗传结
构, 采用解析二倍体性状的统计方法, 如区间作图,
复合区间作图法显然并不合适。徐辰武等[3]首次报
道了利用分子标记对胚乳性状进行QTL图谱构建的
双侧标记基因型均值回归方法。其后, 国内外学者
先后提出了一系列的模型和方法 , 如极大似然法
[4,20-21], 迭代重新加权最小平方法[6]等, 以解析胚乳
数量性状的遗传结构。但这些方法均是基于经典的
数理统计学原理而发展起来的。近来, 由于贝叶斯
统计方法与经典数理统计方法相比, 能更直接地解
决问题, 且可有效整合部分先验信息, 已愈来愈引
起研究者的重视, 并已被成功地应用于二倍体性状
的 QTL作图[13-16]。作者在前文[17]中, 率先将贝叶斯
统计原理和胚乳性状的数量遗传模型相结合, 以分
离群体中各植株的分子标记基因型以及植株上若干
粒种子胚乳性状的单粒观测值为数据模式, 提出胚
乳性状 QTL 区间作图的贝叶斯方法。该方法在单
QTL模型的假定下, 可估计胚乳性状 QTL的位置和
效应, 并同时区分两种显性效应。然而, 控制胚乳性
状的 QTL通常并非 1个, 因此这种基于单 QTL模型
的区间作图方法有待进一步拓展。本文即是在这一
背景下进一步将胚乳性状单QTL模型扩展为多QTL
模型, 并发展出基于 MCMC 算法的贝叶斯方法和
程序。
模拟结果显示, 贝叶斯方法可以高效发现 QTL
并准确估计出 QTL的遗传位置。例如, 即使是遗传
力只有 5%左右的 QTL, 其统计功效也达 100%, 这
说明在本研究的模拟设置(200个 F2单株, 每株 30粒
胚乳)下利用贝叶斯统计对发现 QTL是非常有效的。
此外, 从 QTL 效应估计的准确度以及精确度来看,
只有两个显性效应的准确度略差。为了分析其原因,
进一步对有关参数的条件后验样本分布进行了分
析。图 2~图 4分别展示了 QTL位置、群体均值以及
各 QTL效应的后验样本收敛情况, 除两个显性效应
外, 所有参数的后验样本分布平稳, 且接近真值。两
个显性效应的后验分布虽然平稳, 但较真值略有偏
1574 作 物 学 报 第 35卷

差和混杂。这一结论与 Wu等[5]、Kao[7]以及 Wen和
Wu[22]研究结果一致。这一方面可能与模拟试验采用
的群体有关, 由于本文采用一阶设计的 F2 群体, F3
胚乳 QTL 基因型以其所着生的母株 QTL 基因型推
断, 由于世代的不对应, 必然会造成一定的信息丢
失。另一方面, 即使加性和显性效应在量值上相等,
显性效应引起的变异在胚乳性状遗传方差中所占分
量仍然相对很小。因此, 必然会带来对显性效应估
计在准确性和精确性上的偏差。为解决这一问题 ,
Wu 等[5]和 Kao[7]提出利用二阶设计, 即同时利用 F2
植株和子代胚两代分子标记基因型联合推断子代胚
乳 QTL基因型, 该设计比一阶设计提供了更多的遗
传信息, 明显优于一阶设计, 但却带来标记分析成
本的提高。Wen 等[10]提出随机交配群体来实现胚乳
第一和第二显性效应的无偏估计。王学枫等[11]新近
发展了基于NCIII和 TTC设计的胚乳性状QTL区间
作图方法, 结果表明两种设计均有较高的 QTL统计
功效, 在供试的大多数处理下, 即使 QTL 的遗传力
只有 5%, 其被发现能力也可高达 100%。两种设计
也均可有效区分胚乳 QTL的各种遗传效应, 特别是
区分两种显性效应。此外, Wen和 Wu[23]提出利用 F2
或 BC1种子的胚乳表现型以及各粒种子胚的分子标
记基因型进行胚乳性状 QTL定位, 不仅可消除母体
效应和环境效应的影响, 还能准确估计各个遗传效
应。因此, 将贝叶斯统计方法与这些遗传设计相结
合必然能解决贝叶斯框架下两种显性效应估计的精


图 2 3个 QTL位置后验样本链
Fig. 2 Chain of posterior sample of three QTL positions



图 3 群体均值后验样本链
Fig. 3 Chain of posterior sample of population mean



图 4 3个 QTL效应后验样本链
Fig. 4 Chain of posterior sample of three QTL effects
黑色表示加性效应, 红色表示第一显性效应, 蓝色表示第二显性效应。
Black, red and blue lines denote a, d1, and d2, respectively
第 9期 王亚民等: 基于贝叶斯统计的谷物胚乳性状 QTL多区间作图方法 1575


度问题。事实上, 两种显性效应的准确估计, 是建立
在胚乳 QTL 的两种杂合基因型 QQq 和 Qqq 可以有
效识别的基础上, 如能通过特种遗传设计结合分子
标记分析, 区分出两种杂合基因型, 则不论显性效
应量值的大小, 均可实现准确估计, 这一研究将是
胚乳 QTL分析的发展方向之一。
需要指出的是, 超负荷的运算量是贝叶斯方法
应用的制约瓶颈。本研究在设定 200 个植株, 每株
30个观测值, 10个标记区间, 共 20 000轮循环情况
下, 在主频 3.0 GH、内存 1.0 GB的 DELL计算机上
运行约需 3.2 h。可以预见, 在全基因组水平上, 如标
记区间 150个, 即便其他条件不变, 运算量也会激增。
因此, 优化算法、提高运算速度、在效率和耗时上
取得平衡也是下一步值得研究的问题。
4 结论
胚乳性状QTL的准确定位是谷物品质性状遗传
改良的重要基础。在先前胚乳性状 QTL区间作图方
法的基础上, 发展出胚乳性状 QTL多区间作图的贝
叶斯方法, 在适当的样本容量下, 不仅能够准确估
计各个 QTL所在的染色体位置, 而且能够区分出胚
乳 QTL的两种显性效应。
References
[1] Mo H-D(莫惠栋). Genetic research of endosperm-quality traits in
cereals. Sci Agric Sin (中国农业科学), 1995, 28(2): 1–7 (in Chi-
nese with English abstract)
[2] Mo H. Genetic expression for endosperm traits. In: Weir B S,
Eisen E J, Goodman M M, Namkoong G, eds. Proceedings of the
Second International Conference on Quantitative Genetics. Mas-
sachusetts: Sinauer Associates, Inc. 1988. pp 478–487
[3] Xu C-W(徐辰武), He X-H(何小红), Kuai J-M(蒯建敏), Gu
S-L(顾世梁). Mapping quantitative trait loci underlying en-
dosperm traits in cereals. Sci Agric Sin (中国农业科学), 2001,
34(2): 117–122 (in Chinese with English abstract)
[4] Wu R, Lou X Y, Ma C X, Wang X, Larkins B A, Casella G. An
improved genetic model generates high-resolution mapping of
QTL for protein quality in maize endosperm. Proc Natl Acad Sci
USA, 2002, 99: 11281–11286
[5] Wu R, Ma C X, Gallo-Meagher M, Littell R C, Casella G. Statis-
tical methods for dissecting triploid endosperm traits using mo-
lecular markers: An autogamous model. Genetics, 2002, 162:
875–892
[6] Xu C, He X, Xu S. Mapping quantitative trait loci underlying
triploid endosperm traits. Heredity, 2003, 90: 228–235
[7] Kao C H. Multiple-interval mapping for quantitative trait loci
controlling endosperm traits. Genetics, 2004, 167: 1987–2002
[8] Cui Y, Casella G, Wu R. Mapping quantitative trait loci

interactions from the maternal and offspring genomes. Genetics,
2004, 167: 1017–1026
[9] Hu Z, Xu C. A new statistical method for mapping QTLs under-
lying endosperm traits. Chin Sci Bull, 2005, 50: 1470–1476
[10] Wen Y, Wu W. Methods for mapping QTLs underlying en-
dosperm traits based on random hybridization design. Chin Sci
Bull, 2006, 51: 1976–1981
[11] Wang X-F(王学枫), Tang Z-X(汤在祥), Wang Y-M(王亚民),
Song W(宋雯), Xu C-W(徐辰武). Interval mapping of quantita-
tive trait loci underlying endosperm traits with NCIII and TTC
designs. Acta Agron Sin (作物学报), 2008, 34(10): 1734–1743
(in Chinese with English abstract)
[12] He X H, Zhang Y M. Mapping epistatic quantitative trait loci
underlying endosperm traits using all markers on the entire ge-
nome in a random hybridization design. Heredity, 2008, 101:
39–47
[13] Wang H, Zhang Y M, Li X, Masinde G L, Mohan S, Baylink D J,
Xu S. Bayesian shrinkage estimation of quantitative trait loci pa-
rameters. Genetics, 2005, 170: 465–480
[14] Yi N. A unified Markov chain Monte Carlo framework for map-
ping multiple quantitative trait loci. Genetics, 2004, 167: 967–
975
[15] Xu S. Estimating polygenic effects using markers of the entire
genome. Genetics, 2003, 163: 789–801
[16] Yi N, Yandell B S, Churchill G A, Allison D B, Eisen E J, Pomp
D. Bayesian model selection for genome-wide epistatic quantita-
tive trait loci analysis. Genetics, 2005, 170: 1333–1344
[17] Wang Y-M(王亚民), Sun C-S(孙长森), Tang Z-X(汤在祥), Hu
Z-Q(胡治球), Xu C-W(徐辰武). Bayesian method for mapping
QTL controlling endosperm traits in cereals. J Yangzhou Univ
(Agric Life Sci Edn) (扬州大学学报·农业与生命科学版), 2008,
29(3): 12–17(in Chinese with English abstract)
[18] Jiang C, Zeng Z B. Mapping quantitative trait loci with dominant
and missing markers in various crosses from two inbred lines.
Genetica, 1997, 101: 47–58
[19] Xu S, Yi N. Mixed model analysis of quantitative trait loci. Proc
Natl Acad Sci USA, 2000, 97: 14542–14547
[20] Wang W(王伟), Hu Z-Q(胡治球), Sun C-S(孙长森), Xu C-W(徐
辰武). Single grain observation-based mapping of quantitative
traits loci underlying endosperm traits. Acta Agron Sin (作物学
报), 2005, 31(8): 989–994 (in Chinese with English abstract)
[21] Xu C-W(徐辰武), Wang W(王伟), Hu Z-Q(胡治球), Sun C-S(孙
长森). Plant average-based maximum likelihood mapping of
quantitative traits loci controlling endosperm traits. Acta Agron
Sin (作物学报), 2005, 31(10): 1271–1276 (in Chinese with Eng-
lish abstract)
[22] Wen Y, Wu W. Interval mapping of quantitative trait loci under-
lying triploid endosperm traits using F3 seeds. J Genet Genomics,
2007, 34: 429–436
[23] Wen Y, Wu W. Experimental designs and statistical methods for
mapping quantitative trait loci underlying triploid endosperm
traits without maternal genetic variation. J Hered, 2008, 99:
546–551