全 文 :作物学报 ACTA AGRONOMICA SINICA 2013, 39(2): 198−206 http://www.chinacrops.org/zwxb/
ISSN 0496-3490; CODEN TSHPA9 E-mail: xbzw@chinajournal.net.cn
本研究由国家重点基础研究发展计划(973计划)项目(2009CB1184, 2010CB1259, 2011CB1093), 国家高新技术研究发展计划(863计划)
项目(2011AA10A105, 2012AA101106), 国家自然科学基金资助项目(31071442, 32671266), 农业部公益性行业专项(200803060), 江苏
省优势学科建设工程专项和国家重点实验室自主课题项目资助。
* 通讯作者(Corresponding author): 盖钧镒, E-mail: sri@njau.edu.cn, Tel: 025-84395405
第一作者联系方式: E-mail: wangjinshe@gmail.com
Received(收稿日期): 2012-05-25; Accepted(接受日期): 2012-11-16; Published online(网络出版日期): 2012-12-11.
URL: http://www.cnki.net/kcms/detail/11.1809.S.20121211.1709.021.html
DOI: 10.3724/SP.J.1006.2013.00198
回交自交系(BIL)群体4对主基因加多基因混合遗传模型分离分析方法
的建立
王金社 赵团结 盖钧镒*
南京农业大学大豆研究所 / 国家大豆改良中心 / 农业部大豆生物学与遗传育种重点实验室(综合) / 作物遗传与种质创新国家重点实
验室, 江苏南京 210095
摘 要: 主基因加多基因混合遗传模型是用于分析数量性状表型数据的统计分析方法, 该方法便于育种工作者利用
杂种分离世代的数据对育种性状的遗传组成初步判断,制定相应的育种策略,也可用于校验 QTL 定位所揭示的数量性
状的性状遗传组成。回交自交系(BIL)群体是永久性群体, 可以进行有重复的比较试验, 适用于受环境影响较大的复
杂性状的遗传研究。本研究以 BIL 群体为对象构建了4对主基因、主基因加多基因分离分析方法的遗传模型, 包括
2类 11个遗传模型。利用基于 IECM (iterative expectation conditional maximization)算法的极大似然分析方法估算各
个混合遗传模型中的分布参数, 用 AIC 值和一组适合性测验结果选取最优模型, 并从入选模型的分布参数通过最小
二乘法估计遗传参数。由 1 个模拟的随机区组试验对模型进行验证, 模拟群体中遗传参数的估计值与设定值之间具
有很好的一致性。利用本文建立的模型重新分析大豆回交自交系群体(Essex×ZDD2315)及其亲本对胞囊线虫(Hetero-
dera glycines Ichinohe) 1号生理小种的抗性数据后发现 4对主基因模型优于原报道的 3对主基因模型, 说明本方法的
有效性和正确性。
关键词: 回交自交家系群体(BIL); 主基因加多基因混合遗传; 分离分析
Establishment of Segregation Analysis of Mixed Inheritance Model with Four
Major Genes Plus Polygenes in Backcross Inbred Lines (BIL) Populations
WANG Jin-She, ZHAO Tuan-Jie, and GAI Jun-Yi*
Soybean Research Institute of Nanjing Agricultural University / National Center for Soybean Improvement / Key Laboratory for Biology and Genetic
Improvement of Soybean (General), Minister of Agriculture / National Key Laboratory for Crop Genetics and Germplasm Enhancement, Nanjing
210095, China
Abstract: The segregation analysis of major genes plus polygenes is a statistical method for genetic analysis of quantitative traits.
The method is particularly valuable for plant breeders to use their data accumulated from segregation populations to estimate the
genetic system of target traits, which is necessary for designing breeding strategies and also useful for validating the results of
QTL mapping. The backcross inbred line (BIL) population is one of the permanent populations, which is suitable for genetic
analysis of complex traits and can be used in replicated experiments. For BIL population, the analytical procedures of three and
less major genes plus polygenes mixed inheritance models have been established. The objective of the present study was to estab-
lish the analytical procedures of segregation analysis for four major genes plus polygenes mixed inheritance models in BIL popu-
lation. Eleven genetic models with four additive and (or) epistatic major genes including those without and with polygenes were
established. The component distribution parameters were solved and estimated by using maximum likelihood method based on
IECM (Iterative Expectation Conditional Maximization) algorithm. Among the possible models, the best one was chosen accord-
ing to Akaike’s Information Criterion (AIC) and a set of tests for goodness of fit. Then the genetic parameters of the optimal
model were estimated through the least square method. For demonstration of the established procedures, a simulated data set of a
第 2期 王金社等: 回交自交系(BIL)群体 4对主基因加多基因混合遗传模型分离分析方法的建立 199
randomized block experiment with three replications was analyzed and the estimated genetic parameters showed a relatively high
consistency with those fixed for the model. To validate the usefulness of the established genetic models, the data of resistance to
race of Cyst Nematode (Heterodera glycines Ichinohe) in soybeans from a BIL population derived from Essex×ZDD2315 along
with their P1 and P2 were analyzed. The results show that the four major genes genetic model is better than three major genes ge-
netic model, which illustrate the actual use of these genetic models.
Keywords: Backcross Inbred Lines (BIL) population; Major gene plus polygenes mixed inheritance; Segregation analysis
数量性状在育种和生产实践中表现为连续分布,
且容易受环境影响。Mather和 Jinks[1]将控制数量性
状的基因称之为数量基因或多基因。然而育种生产
和育种实践表明许多性状的分布与多基因假说不
符。有的性状既有数量性状连续分布特点, 又有质
量性状的分组趋势 [1], 这与经典数量遗传方法的假
定不一致。因而, Elkind 等[2-3]提出一个用于植物遗
传数据分析的单基因-多基因遗传模型。莫惠栋[4-5]、
Loisel等[6]和 Jiang等[7]研究了 F2单个主基因-多基因
遗传模型。随着 QTL定位的发展, 多数 QTL定位结
果表明许多性状受若干个效应大小不等的 QTL 控
制。据此, 盖钧镒等[8]提出了对数量性状遗传体系的
新认识, 即泛主基因加多基因理论。该理论认为, 控
制数量性状的基因数目有多有少, 各对基因效应大
小不等且易受到环境影响。将效应大的在一般条件
下可以检测出来的基因称为主效基因; 效应小的、
在现有试验条件下即使通过专门技术仍然检测不出
来的基因称之为微效基因或多基因; 主基因与多基
因是相对的。数量性状遗传体系可能仅由主基因组
成, 也可能仅由多基因组成, 也可能是由主基因和
多基因共同组成; 将可能由主基因和多基因共同组
成的数量遗传体系称为主基因和多基因混合遗传体
系, 或主基因加多基因混合遗传体系, 或主基因加
微基因混合遗传体系。将纯主基因或纯多基因遗传
模式看作主基因加多基因混合遗传体系的特例。
基于上述认识, 南京农业大学大豆研究所数量
遗传课题组建立了一套数量性状主基因加多基因混
合遗传模型分离分析体系。该体系包括 5个环节: (1)
每个主基因型的分布为受微效多基因和环境效应修
饰的正态分布, 分离世代的分布为若干个正态分布
的混合分布; (2)建立了一个或多个分离世代联合的
各种可能遗传模型的似然函数, 其中纳入了各个成
分分布的平均数、方差和成分分布的频率等待估参
数。推导出了与这些待估参数相关的遗传模型 9类,
即 1对主基因(A)模型、2对主基因(B)模型、多基因
(C)模型、1对主基因加多基因(D)模型、2对主基因
加多基因(E)模型、3 对主基因(F)模型、3 对主基因
加多基因(G)模型、4对主基因(H)模型和 4对主基因
加多基因(I)模型。每类模型中又按分离世代类型和
主基因及多基因的加、显、上位性效应的有无、相
对大小分为若干个模型; (3)采用 IECM 算法估计混
合分布中各成分分布的分布参数(包括均值、方差和
分布频率); (4)对观察数据进行各种可能遗传模型的
极大似然分析, 利用 AIC 准则、似然比检验以及一
组适合性测验的结果从各种可能模型中选出最佳遗
传模型及其相应的成分分布参数; (5)按入选的遗传
模型及其相应的遗传参数与成分分布参数间的关系
式, 由入选模型的成分分布参数通过最小二乘法估
计相应的遗传参数。
植物数量性状受环境影响较大, 提高数量性状基
因检测效率和遗传效应估计精度的一个有效途径就是
利用遗传上稳定的永久分离群体, 通过重复试验(时
间、空间或重复测量等)减小环境误差。植物育种研究
中可利用的永久群体主要有双单倍体群体 (double
haploid, DH)、重组自交系群体(recomination inbred line,
RIL)、回交自交系群体(backcross inbred line, BIL)、近
等基因系群体(near isogenic line, NIL)、染色体片段代
换系群体(chromosome segment substitution line, CSSL)
等。章元明等[9-10]、胡中立等[11-12]和王金社等[13]已建
立了利用 RIL 群体进行数量性状遗传体系分析的方
法。何小红等[14]已建立了利用 BIL群体数量性状分
析的 3对主基因-多基因遗传体系分析方法。然而, 育
种实践和 QTL分析结果表明有些性状受 4对或 4对
以上数量性状位点控制, 为充分提取遗传数据的信
息, 许多研究工作者提议, 需要将遗传模型拓展到
更多主基因数。本研究在何小红等建立的遗传模型
基础上, 构建了用于 BIL 群体数量性状分析的 4 对
主基因(H)和 4 对主基因-多基因(I)遗传体系分析方
法。通过模拟试验对所构建的模型进行了验证。
1 方法推演
假定: (1)用于分析研究的植物为二倍体, 且无
复等位基因存在; (2)用于构建 BIL 群体的植物亲本
是完全纯合的; (3)不存在母体效应; (4)用于研究的
200 作 物 学 报 第 39卷
BIL群体不存在突变、迁移和选择的影响; (5)不考虑
基因位点之间的连锁。
1.1 遗传模型及其分布函数
BIL 群体是指 2 个纯合亲本杂交产生的 F1与任
一亲本回交, 回交后代经多代自交而产生的同质纯
合家系群体, 其中 F1与亲本 P1回交产生的后代称之
为 BIL1, 与亲本 P2回交产生的后代称之为 BIL2 [15]。
假定 BIL群体大小为 n, 观测值为 Y={y1, y2, …, yn},
则相应的统计遗传模型
yi = μ + gi + ei = μ + ci + pi + ei (1)
其中, 为群体平均值, gi为第 i家系的遗传效应, 可
分解为主基因遗传效应 ci和多基因遗传效应 pi, ei为
误差。
1.1.1 重组自交系群体的遗传模型及其混合分布
根据遗传假定, BIL群体表现为 k个正态分布的
混合分布
2
1
~ ( , )
k
i ij j
j
y w N μ σ
=
∑ (2)
根据(2)式的混合分布可构建似然函数
2
11
( | ) ( | , )
n k
ij i i
ji
L w f y μ σ
==
= ∑∏Y Θ
(3)
其中 n为 BIL群体的家系数; k为成分分布数, 不同
遗传模型 k的取值见表 2; ωij为第 i个家系分属于第
j个分布的后验概率; f (xi; μj, σ2)是均值为μj、方差为
σ2的正态分布密度函数。多基因不存在时, σ2为环境
误差方差, 即σ2 = σe2; 多基因存在时, σ2 为多基因
方差与环境误差方差的混合方差, 即σ2=σe2+σpg2。为
了能更好剖分出环境误差, 进一步构建了包含亲本和
BIL群体的 4对主基因加多基因联合世代分析方法。
1.1.2 P1、P2和 BIL 群体 4 对主基因加多基因联合
世代的遗传模型及其混合分布 根据基本假定 ,
P1和 P2群体表现为正态分布, BIL群体表现为 k个正
态分布的混合分布,
2 2 2
1 1 1 2 2 1 3
1
~ ( , ), ~ ( , ), ~ ( , )
k
i i i ij j j
j
y N y N y w Nμ σ μ σ μ σ
=
∑
(4)
由此构建的样本似然函数为
1 2
3
2 2
1 1 2 2
1 1
2
3 3 3
11
( | ) ( | , ) ( | , )
( | , )
n n
i i
i i
n k
ij i j j
ji
L f y y
w f y
μ σ μ σ
μ σ
= =
==
= + +∏ ∏
∑∏
Y θ
(5)
其中, n1为亲本 P1的观察值个数, n2为亲本 P2的观察
值个数, n3为 BIL群体的家系数, k为 BIL群体的成
分分布数, 不同遗传模型 k的取值见表 2, y1i为亲本
P1的第 i个观测值, y2i为亲本 P2的第 i个观测值, y3i
为 BIL 群体的第 i 个家系观测值的平均值, μ1和μ2
分别为亲本 P1和 P2的分布平均值, σ2为环境误差方
差, μ3j为 BIL群体第 j个成分分布的平均值, σ3j2为
第 j个成分分布的分布方差, 对BIL群体可以假定各
成分分布方差相等 , 即σ3j2=σ32 当多基因不存在时
σ32=σ2, 当多基因存在时σ32 为多基因方差与误差方
差的混合方差, 即σ32=σ2+σpg2。分布参数与遗传参数
间的关系因遗传模型的不同而不同。
1.2 4对主基因或主基因加多基因非连锁遗传模型
构建的遗传模型包括主基因加性上位性、主基
因加性、主基因加性上位性多基因加性上位性、主
基因加性多基因加性等遗传模型。根据主基因加性
效应、主基因位点之间的互作关系、多基因效应是
否存在、多基因之间是否存在互作等, 共构建了 11
个遗传模型。如主基因加性上位性加多基因加性上
位性遗传模型 I-0, 包括互不相等的主基因遗传效应
da、db、dc和 dd, 主基因相互之间相互作用的上位性
效应 iab、iac、iad、ibc、ibd和 icd (本研究中只考虑了
主基因位点之间的一阶互作效应), 多基因的加性效
表 1 BIL群体 4对主基因和主基因加多基因遗传模型代码及待估一阶遗传参数
Table 1 Designation of 4 major genes and major gene plus polygenes genetic model and corresponding first order genetic
parameters in BIL population
模型代号 Model code 一阶遗传参数 First order genetic parameter
无多基因
No polygene
有多基因
Polygene existing
主基因作用方式
Effect of major gene 主基因
Major gene
多基因
Polygene
I-0 加性-加性上位性 Additive-additive epistasis da, db, dc, dd, iab, iac, iad, ibc, ibd , icd [d], [i]
H-1 I-1 加性-加性上位性 Additive-additive epistasis da, db, dc, dd, iab, iac, iad, ibc, ibd, icd [d]
H-2 I-2 加性 Additive da, db, dc, dd [d], [i]
H-3 I-3 2对等加性 Two additive genes d1=da, d2=db, d=dc=dd [d], [i]
H-4 I-4 3对等加性 Three additive genes d1=da, d=db=dc=dd [d], [i]
H-5 I-5 等加性 Equal additive d=da=db=dc=dd [d], [i]
第 2期 王金社等: 回交自交系(BIL)群体 4对主基因加多基因混合遗传模型分离分析方法的建立 201
应[d]和上位性效应[i]。以 I-1 这种遗传模式分离的
性状, 在 BIL分离群体由 16个不同的正态分布组成
的混合分布。类似于 I-1模型, 根据主基因加性效应
是否相等构建了不同的遗传模型, 以类似于这些模
型的模式遗传的性状在 BIL 群体中表现为数目不等
的正态分布的混合分布。根据多基因效应是否存在,
新构建的遗传模型可分为 2 类, 即不存在主基因效应
的H遗传模型和存在主基因效应的 I遗传模型(表 1)。
如果数量性状受 4 对独立主基因控制,假定 P1
和 P2 基因型分别为 AABBCCDD 和 aabbccdd,则
BIL1和 BIL2群体的成分分布数 k和理论群体中各成
分分布比例见表 2。
1.3 成分分布参数的极大似然估计和最优最适
遗传模型的选择
采用 IECM算法[15]获得样本似然函数(5)中分布
参数的估计。IECM 算法包括 E 步骤和迭代 CM 步
骤, E步骤的完全对数似然函数的期望函数为
3
2
(0) 2
1 1
(0) 2
3 3 3
1 1
{ ( ) | , } ln ( ; , )
ln ( ; , )
jn
c ji j
j i
n k
it i t
i t
E L Y f y
w f y
μ σ
μ σ
= =
= =
= +∑∑
∑∑
Θ Θ
(6)
其中, ωit= πt ft (yi; Θ) / 1kt=∑ πt ft (yi; Θ)是给定初值后第
i个观测值归属于第 t个成分分布的后验概率, Lc(Θ)
是将样本每一观测值以一定概率分配到不同的成
分分布中的完全数据的似然函数。
迭代CM步骤是分步骤地进行 (0){ ( ) | , }cE L YΘ Θ
的极大化, 并取极大值点处的Θ值代替 (0)Θ 作为下一
步 CM步骤和下一轮循环的初始值。 (0){ ( ) | , }cE L YΘ Θ
的极大值点由下式确定
(0)
1 ( 1, 2, , )
n
iti
t
w
t k
n
π == = ⋅⋅ ⋅∑ (7)
1
ln ( ) ( )
0, ( 1,2,3)
k
c j j
j
L g
m
m
λ μ
=
⎡ ⎤Θ −⎢ ⎥⎢ ⎥⎣ ⎦∂ = =∂Θ
∑
(8)
其中, k为一阶参数平均数的约束条件个数, Θ = (θ1T,
θ2, θ3)T, θ1 = μ1, μ2, μ31, …, μ3k)T, θ2 = σpg2, θ3 = σ2。gj
(μ)为平均数间第 j个约束条件。
CM1 步为在固定多基因方差组分σpg2 和各成分
分布中的误差方差σ2 条件下, 求一阶分布参数平均
数的极大似然估计值。CM2步为在固定迭代 CM1步
中获得的一阶分布平均数和误差方差σ2 条件下, 求
多基因方差组分σpg2 的条件极大似然估计值。CM3
步为在固定迭代CM1和CM2步获得的一阶分布参数
和多基因方差组分σpg2 的条件下, 求误差方差σ2 的
条件极大似然估计值。重复进行 E步和迭代 CM步,
直到连续 2 次迭代间的对数极大似然函数值相差较
小为止。此时获得的参数估计值为分布参数的极大
似然估计值。
表 2 BIL理论群体中各成分分布比例
Table 2 Component proportions in theoretical BIL population
理论群体各成分分布比例 Component proportions of theoretical population 模型
Model
k
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
BIL1 群体 BIL1 population
I-0 16 81/256 27/256 27/256 9/256 27/256 9/256 9/256 3/256 27/256 9/256 9/256 3/256 9/256 3/256 3/256 1/256
H-1, I-1 16 81/256 27/256 27/256 9/256 27/256 9/256 9/256 3/256 27/256 9/256 9/256 3/256 9/256 3/256 3/256 1/256
H-2, I-2 16 81/256 27/256 27/256 9/256 27/256 9/256 9/256 3/256 27/256 9/256 9/256 3/256 9/256 3/256 3/256 1/256
H-3, I-3 12 81/256 27/256 27/256 9/256 54/256 18/256 18/256 6/256 9/256 3/256 3/256 1/256
H-4, I-4 8 81/256 27/256 81/256 27/256 27/256 9/256 3/256 1/256
H-5, I-5 5 81/256 108/256 54/256 12/256 1/256
BIL2 群体 BIL2 population
I-0 16 1/256 3/256 3/256 9/256 3/256 9/256 9/256 27/256 3/256 9/256 9/256 27/256 9/256 27/256 27/256 81/256
H-1, I-1 16 1/256 3/256 3/256 9/256 3/256 9/256 9/256 27/256 3/256 9/256 9/256 27/256 9/256 27/256 27/256 81/256
H-2, I-2 16 1/256 3/256 3/256 9/256 3/256 9/256 9/256 27/256 3/256 9/256 9/256 27/256 9/256 27/256 27/256 81/256
H-3, I-3 12 1/256 6/256 9/256 3/256 18/256 27/256 3/256 18/256 27/256 9/256 54/256 81/256
H-4, I-4 8 1/256 9/256 27/256 27/256 3/256 27/256 81/256 81/256
H-5, I-5 5 1/256 12/256 54/256 108/256 81/256
1~16分别表示各个成分分布。1–16 denote component, respectively.
202 作 物 学 报 第 39卷
1.4 遗传模型的选择和适合性检验
在得到各遗传模型下分布参数的极大似然估计
值后, 可以计算各模型的 AIC值。
AIC = –2In L(Y | Θ) + 2N(b) (9)
其中, N(b)为各模型中独立参数的个数。AIC值最小
的模型应该为最优的遗传模型。
为确保所选择的遗传模型准确, 对利用 AIC 准
则所选择的遗传模型做适合性测验, 如果对所选模
型进行适合性测验的结果比其他近似模型的结果好,
则通过 AIC准则选择的模型是符合目标性状的最优
最适遗传模型, 否则考虑用其他近似的模型对性状
进行分析。适合性检验采用均匀性检验(统计量为
U12、U22和 U32)、Smirnov检验(统计量为 nW2)和 Kol-
mogorov 检验(统计量为 Dn)以确定期望均方样本分
布间的适合性。
1.5 遗传参数的估计
在最优最适遗传模型下, 由分布平均数的估计
值利用最小二乘法可以得到一阶遗传参数的估计
值。此外如果利用联合世代进行分析, 还可以获得
多基因加性遗传效应[d]和上位性效应[i]的估计。
主基因遗传方差的计算可以用如下方法: (1)当
后验比例与先验的理论群体比例适合时由一阶遗传
参数推算得到, 其推算公式见表 3; (2)由分布平均数
和后验比例计算, 计算公式为
2
2 2
1 1
( ) ( )
k t
mg t t t t
i t
σ π μ π μ
= =
⎡ ⎤= − ⎢ ⎥⎣ ⎦∑ ∑ (10)
(3)由公式 σmg2 =σp2–σ2计算, 其中 σp2为 BIL 群体的
表型方差。进而可获得主基因遗传率 hmg2 = σmg2/σp2。
多基因遗传率的计算公式为 hpg2 = σpg2/σp2。
1.6 计算程序的编制
根据上述算法, 基于统计软件 R 编写了相应的
计算程序。程序包括了推导出的 BIL 群体的所有遗
传模型。计算结果包含算法中涉及的分布参数的估
计结果、极大似然估计值、AIC 值和各个遗传模型
适合性检验的结果等。同时, 该软件包可以估计最
优模型的一阶遗传参数。
2 遗传模型的模拟验证
为了对所构建的遗传模型进行验证, 考虑以最
复杂的遗传模型 I-0 为基础做模拟实验。根据模型
I-0 设定各种遗传参数和误差方差 , 利用 Monte
Carlo 模拟方法分别抽样得到亲本 P1、P2和 BIL 群
体的表型数据, 利用上述软件包进行计算分析, 将
计算结果与设定参数进行比较, 以确定新构建的遗
传模型的正确性和准确性。
模拟一随机区组试验, 试验材料包括 BIL 群体
家系及其亲本 P1、P2。BIL 家系数据依据模型(11)
产生。
yij = m+ci+pi+bj+eij (11)
其中, yij为第 i个家系在第 j个区组中的观察值; m为
双亲本平均值; ci为主基因效应值, 由主基因型决定;
pi为多基因效应值, 假定 pi ~ N(0, σpg2); bj为第 j个区
组的效应值; eij 为误差效应, 假定 eij ~ N(0, σe2)。
表 3 BIL理论群体主基因遗传方差
Table 3 Genetic variance of major gene in theoretical BIL populations
遗传模型
Genetic model
主基因遗传方差
Genetic variance of major gene
BIL1群体 BIL1 population
I-0 3/4(da2+db2+dc2+dd2)+15/16(iab2+iac2+iad2+ibc2+ibd2+icd2)+3/4(iab+iac+iad)da+3/4(iab+ibd+ibc)db+3/4(ibc+iac+icd)dc+3/4(ibd+iad+
icd)dd+3/8(iac+iad+ibc+ibd)iab+3/8(iad+ibc+icd)iac+3/8(icd+ibd)(iad+ibc)+3/8ibdicd
H-1, I-1 3/4(da
2+db2+dc2+dd2)+15/16(iab2+iac2+iad2+ibc2+ibd2+icd2)+3/4(iab+iac+iad)da+3/4(iab+ibd+ibc)db+3/4(ibc+iac+icd)dc+3/4(ibd+iad+
icd)dd+3/8(iac+iad+ibc+ibd)iab+3/8(iad+ibc+icd)iac+3/8(icd+ibd)(iad+ibc)+3/8ibdicd
H-2, I-2 3/4(da2+db2+dc2+dd2)
H-3, I-3 3/2d2+3/4d12+3/4d22
H-4, I-4 9/4d2+3/4d12
H-5, I-5 3d2
BIL2 群体 BIL2 population
I-0 3/4(da2+db2+dc2+dd2)+15/16(iab2+iac2+iad2+ibc2+ibd2+icd2)-3/4(iab+iac+iad)da-3/4(iab+ibd+ibc)db-3/4(ibc+iac+icd)dc-3/4(ibd+iad+icd)dd+
3/8(iac+iad+ibc+ibd)iab+3/8(iad+ibc+icd)iac+3/8(icd+ibd)(iad+ibc)+3/8ibdicd
H-1, I-1 3/4(da
2+db2+dc2+dd2)+15/16(iab2+iac2+iad2+ibc2+ibd2+icd2)-3/4(iab+iac+iad)da-3/4(iab+ibd+ibc)db-3/4(ibc+iac+icd)dc-3/4(ibd+iad+icd)
dd+3/8(iac+iad+ibc+ibd)iab+3/8(iad+ibc+icd)iac+3/8(icd+ibd)(iad+ibc)+3/8ibdicd
H-2, I-2 3/4(da2+db2+dc2+dd2)
H-3, I-3 3/2d2+3/4d12+3/4d22
H-4, I-4 9/4d2+3/4d12
H-5, I-5 3d2
第 2期 王金社等: 回交自交系(BIL)群体 4对主基因加多基因混合遗传模型分离分析方法的建立 203
亲本数据依据模型(12)产生。
yij = m+gi+bj+eij (12)
其中, yij为第 i个亲本在第 j个区组中的观察值; m为
双亲本平均值; gi为第 i 个亲本的遗传效应; bj和 eij
的意义同上。
试验设定, 模拟 BIL1群体, 家系数为 320, 该群
体的某一数量性状受 4 对主基因加性上位性加多基
因加性上位性控制; 设定的一阶遗传参数效应值见
表 4; 以单个观察为单位时, 主基因遗传率、多基因
遗传率和环境贡献遗传率分别为 0.53、0.33和 0.14。
模拟数据的分布图见图 1。模拟数据的方差分析见
表 5。
表 4 模型 I-0中各遗传参数设定值
Table 4 Given values of genetic parameters based on
genetic model I-0
遗传参数
Genetic parameters
设定值
Given value
m1 100.0
m2 135.0
平均值
Mean
m3 105.0
da 75.0
db 10.0
dc –8.0
dd –60.0
iab 25.0
iac 8.0
iad –45.0
ibc 8.0
ibd 30.0
主基因遗传效应
Genetic effect of major gene
icd 12.0
图 1 模拟实验家系平均数的次数分布和拟合混合分布及成分分布
Fig. 1 Frequency distribution for families mean of the simu-
lated experiment, fitted mixed distribution and its component
distributions
方差分析表明家系间差异显著, 故以家系平均
数对各遗传模型进行拟合, 根据 AIC 值和适合性测
验结果选择最佳模型。AIC 值和适合性测验结果见
表 6和表 7。
表 6的分析结果表明, AIC最小的模型为 I-0; 适
合性测验结果表明, 模型 I-0的各个检验参数均未达
到显著水平(P>0.05)(表 7)。由此说明模型 I-0为模拟
数据的最优最适遗传模型。该模型的拟合图见图 1。
模型 I-0下各个遗传参数的估计值见表 8。
该模拟试验为 3 个区组数据 1 次模拟的分析结
果, 相当于 1 次田间试验, 分析结果中所选的遗传
模型与原设定的遗传模型基本一致, 遗传参数的估
计结果与其设定值基本吻合, 这说明了模型的有效
性和正确性。
3 应用实例
实例数据来源于大豆对大豆胞囊线虫 1 号生理
小种的抗性研究。试验群体为 Essex×ZDD2315构建
的 BC1F4, 其中 ZDD2315 为轮回亲本。该群体可看
作 BIL 群体, 利用本研究提出的分析方法进行遗传
分析。试验设计、抗原收集及抗性鉴定方法参见卢
为国等[16]。卢为国等的分析结果, 家系间胞囊线虫
寄生指数差异显著, 且呈多峰分布, 经用何小红等[14]
的 3对主基因+多基因模型分离分析发现大豆对胞囊
线虫 1 号生理小种的抗性遗传属 3 对主基因模型
(G-4模型)。通过本研究所编写的软件重新分析发现,
大豆对胞囊线虫 1 号生理小种的抗性符合模型 I-3,
即 4 对主基因中 2 对等加性主基因加多基因遗传模
型(表 9)。I-3 模型的 AIC 值为 352.47, 适合性测验
的各个统计量均不显著。表 9 列出了按 G-4 模型和
I-3模型所获的结果。
由表 9可知, G-4模型估计的 3个主基因效应分
别为 0.285、0.285和 0.159, 主基因遗传率为 89.9%,
未获得多基因效应和遗传率的估计值; I-3 模型估计
的 4 个主基因效应分别为 0.212、0.212、0.152 和
–0.190, 主基因遗传率为 92.9%, 多基因遗传效应为
0.146, 多基因遗传率为 4.4%。两者相比, 本文扩展
的 I-3模型所估计的 3个主基因加性遗传效应与 G-4
模型的估计值接近, 但增加了 1 个负效应的主基因,
主基因遗传率提高了 3.0%, 并获得了多基因遗传效
应和多基因遗传率的估计值。这说明拓展的遗传模
型确实增加了遗传信息。
204 作 物 学 报 第 39卷
表 5 模拟随机区组试验的方差分析结果
Table 5 ANOVA of simulated random block experiment with 320 families
变异来源 Source of variation df SS MS F-value P>F
区组 Block 2 11017.18 5508.59 565.59 <0.0001
家系 Family 319 8140772.01 25519.66 2621.35 <0.0001
误差 Error 638 6211.13 9.74
总变异 Total variation 959 8158000.32
表 6 模拟实验中不同遗传模型的极大似然值和 AIC值
Table 6 Maximum likelihood values and AIC values of different genetic model in simulation experiment
模型
Model
似然值
ML
AIC值
AIC value
模型
Model
似然值
ML
AIC值
AIC value
模型
Model
似然值
ML
AIC值
AIC value
A-1 –1718.71 3445.41 E-1-0 –8842.74 17701.48 F-2 –26473.61 52959.23
B-1-1 –9360.23 18732.46 E-1-1 –3295.54 6605.08 F-3 –9983.07 19976.14
B-1-2 –3968.40 7946.80 E-1-2 –3537.00 7086.00 F-4 –10821.56 21651.13
B-1-3 –2924.14 5856.27 E-1-3 –7822.93 15657.86 G-0 –17539.96 35103.92
B-1-4 –7942.59 15895.17 E-1-4 –1686.93 3387.86 G-1 –8255.53 16533.07
B-1-5 –7942.59 15895.17 E-1-5 –2206.50 4427.01 G-2 –16890.41 33796.83
B-1-6 –7942.59 15895.17 E-1-6 –2450.60 4915.20 G-3 –9617.25 19248.50
B-1-7 –1718.71 3445.41 E-1-7 –954.46 1920.92 G-4 –14792.08 29596.15
B-1-8 –1718.71 3445.41 E-1-8 –1092.57 2197.14 H-0 –729.18 1488.36
B-1-9 –1718.71 3445.41 E-1-9 –1422.38 2856.76 H-1 –737.37 1500.73
B-2-1 –9394.99 18803.97 E-2-0 –8861.20 17738.41 H-2 –783.28 1592.55
B-2-2 –4451.19 8914.37 E-2-1 –3367.29 6748.58 H-3 –3683.20 7378.41
B-2-3 –2924.14 5858.27 E-2-2 –5166.44 10348.88 H-4 –2318.11 4646.22
B-2-4 –7942.59 15897.17 E-2-3 –1398.10 2810.21 H-5 –1579.87 3167.73
B-2-5 –7942.59 15897.17 E-2-4 –1595.39 3206.77 I-1 –5100.15 10228.30
B-2-6 –7942.59 15897.17 E-2-5 –2222.10 4460.21 I-2 –5418.45 10852.89
B-2-7 –1718.71 3447.41 E-2-6 –2284.04 4584.07 I-3 –2509.10 5030.21
B-2-8 –1718.71 3447.41 E-2-7 –1422.39 2858.78 I-4 –1432.96 2877.92
B-2-9 –1718.71 3447.41 E-2-8 –942.40 1898.80 I-5 –1423.22 2856.45
C-0 –2166.58 4339.17 E-2-9 –759.90 1533.81
表 7 模型 I-0的适合性测验结果
Table 7 Tests for goodness of fit of model I-0
世代 Generation U12 U22 U32 nW2 Dn
P1 0.0003 (>0.05) <0.0001 (>0.05) 0.0037 (>0.05) 0.0391 (>0.05) 0.1921 (>0.05)
P2 0.0003 (>0.05) <0.0001 (>0.05) 0.0037 (>0.05) 0.0391 (>0.05) 0.1921 (>0.05)
BIL 2.7355 (>0.05) 1.2460 (>0.05) 3.7667 (>0.05) 98.6104 (>0.05) 0.0759 (>0.05)
表 8 模拟数据参数估计结果
Table 8 Estimates of parameters of simulation experiment
一阶遗传参数 First order genetic parameters 二阶遗传参数 Second order genetic parameters
参数
Parameter
设定值
Given value
估计值
Estimate
参数
Parameter
设定值
Given value
估计值
Estimate
参数
Parameter
设定值
Given value
估计值
Estimate
m1 100.0 98.27 iab 25.0 25.66 σmg2 4000.00 4171.29
m2 135.0 130.79 iac 8.0 8.25 σpg2 2500.00 2621.38
m3 105.0 106.40 iad –45.0 –44.53 σe2 1000.00 861.30
da 75.0 78.81 ibc 8.0 8.38 hmg
2(%) 0.53 0.54
db 10.0 9.09 ibd 30.0 24.81 hpg
2(%) 0.33 0.34
dc –8.0 –8.22 icd 12.0 8.31
dd –60.0 –61.08
第 2期 王金社等: 回交自交系(BIL)群体 4对主基因加多基因混合遗传模型分离分析方法的建立 205
表 9 大豆对胞囊线虫 1号生理小种抗性的遗传参数估计
Table 9 Estimates of genetic parameter of resistance to race 1 of cyst nematode in soybean
一阶遗传参数 First order genetic parameter 二阶遗传参数 Second order genetic parameter 模型
Genetic model m da db dc dd [d] σp2 σmg2 σpg2 σe2 hmg2(%) hpg2(%)
G-4 1.123 0.285 0.285 0.159 0.803 0.722 – 0.081 89.9 –
I-3 1.402 0.212 0.212 0.152 –0.190 0.146 0.803 0.746 0.035 0.022 92.9 4.4
4 讨论
育种实践和 QTL定位结果表明, 植物的许多性
状受多个基因控制, 这些基因的效应和贡献率大小
不等。泛主基因加多基因理论[8]已成功的用于解释
这些现象。盖钧镒等[8]和何小红等[14]构建了相应的
分析模型并编写了分析软件。对比 QTL定位的结果
发现, 现有的遗传模型已不能充分的解释和分析某
些性状, 因此王金社等[13]拓展了 RIL 群体的遗传模
型。本研究在何小红等[14]构建的遗传模型基础上拓
展了 BIL群体的 4对主基因加多基因混合遗传模型,
并通过模拟研究和应用实例分析验证了新构建的遗
传模型。
本研究构建的 BIL 群体 4 对主基因加多基因遗
传模型拓展、完善了植物数量性状分离分析体系 ,
使之能更准确地用于分析和认识植物数量性状。然
而, 本研究的遗传模型只考虑了主基因间无连锁的
情况, 在此基础上有必要进一步改进算法, 构建主
基因间有连锁的遗传模型。由于受成分分布数和待
估参数的影响, 需研究找到更优的参数估计方法以
确保参数估计的准确性。相比于应用广泛的 QTL定
位方法, 主基因加多基因分离分析方法无法确定数
量性状位点在基因组的具体位置, 然而该方法不需
要分子标记, 适于育种工作者利用杂种分离世代的
数据对育种性状的遗传组成做出初步判断, 制订相
应的育种策略, 也可用以校验 QTL定位所揭示的性
状遗传组成。
5 结论
本研究构建了回交自交系群体主基因加多基因
混合遗传模型下 4 对主基因、主基因加多基因遗传
模型, 拓展了分离分析方法体系。新构建的遗传模
型包括 4 对主基因和 4 对主基因加多基因 2 类, 通
过基于 IECM 算法的极大似然估计估计遗传模型中
的各个参数, 以 AIC 值和一组适合性测验为最优遗
传模型的选择标准, 利用最小二乘法估计最优模型
的遗传参数。通过一个模拟的随机区组试验验证了
新构建的遗传模型的正确性。应用大豆对胞囊线虫
1 号生理小种的抗性遗传为实例, 比较了卢为国等
采用何小红等分析方法所获符合 3 对加性主基因遗
传模型(G-4 模型)和利用本研究所构建的分析方法
所获 4 对主基因+多基因遗传模型(I-3 模型)的结果,
后者提供了更丰富的遗传信息, 更适合于该组实验
数据, 从而证实了模型拓展的必要性。
References
[1] Mather K, Jinks J. Biometrical Genetics: the Study of Continuous
Variation. London: Chapman and Hall, 1982
[2] Elkind Y, Cahaner A. A mixed model for the effects of single
gene, polygenes and their interaction on quantitative traits. Theor
Appl Genet, 1986, 72: 377–383
[3] Elkind Y, Cahaner A, Kedar N. A mixed model for the effects of
single gene, polygenes and their interaction on quantitative traits:
2. The effects of the major genes and polygenes on tomato fruit
softness. Heredity, 1990, 64: 205–213
[4] Mo H-D(莫惠栋). Genetic analysis for qualitative-quantitative
traits: I. The genetic constitution of generation populations and
the identification of major gene genotypes. Acta Agron Sin (作物
学报), 1993, 19(1): 1–6 (in Chinese with English abstract)
[5] Mo H-D(莫惠栋). Genetic analysis for qualitative-quantitative
traits: II. Generation means and genetic variances. Acta Agron Sin
(作物学报), 1993, 19(3): 193–200 (in Chinese with English
abstract)
[6] Loisel P, Goffinet B, Monod H. Detecting a major gene in an F2
population. Biometrics, 1994, 50: 512–516
[7] Jiang C J, Peng X B, Gao M H. The use of mixture models to
detect effects of major genes on quantitative characters in a plant
breeding experiment. Genetics, 1994, 136: 383–394
[8] Gai J-Y(盖钧镒), Zhang Y-M(章元明), Wang J-K(王建康). The
Genetic System of Plant Quantitative Traits (植物数量性状遗传
体系). Beijing: Science Press, 2003. pp 30–150 (in Chinese)
[9] Zhang Y-M(章元明), Gai J-Y(盖钧镒). Identification of mixed
major genes and polygene inheritance model of quantitative traits
by using DH or RIL population. Acta Genet Sin (遗传学报),
2000, 27(7): 634–640 (in Chinese with English abstract)
[10] Zhang Y-M(章元明), Gai J-Y(盖钧镒), Wang Y-J(王永军). An
expansion of joint segregation analysis of quantitative trait for
using P1, P2 and DH or RIL populations. Hereditas (遗传), 2001,
206 作 物 学 报 第 39卷
23(5): 467–470 (in Chinese with English abstract)
[11] Hu Z-L(胡中立), Zhang Z-H(章志宏). Estimation of genetic
parameters for qualitative-quantitative traits: II. Using DH and
RIL population. J Wuhan Univ (Nat Sci Edn) (武汉大学学报·自
然科学版), 1998, 44(6): 784–788 (in Chinese with English
abstract)
[12] Hu Z-L(胡中立), Zhang Z-H(章志宏), Zhang Y-M(章元明). The
joint analysis of P1, P2, DH population about estimation of
genetic parameters for qualitative-quantitative traits. Acta Agron
Sin (作物学报), 2000, 26(5): 631–634 (in Chinese with English
abstract)
[13] Wang J-S(王金社), Li H-W(李海旺), Zhao T-J(赵团结), Gai
J-Y(盖钧镒). Establishment of segregation analysis of mixed
inheritance model with four major genes plus polygenes in
recombinant inbred lines population. Acta Agron Sin (作物学报),
2010, 36(2): 191–201 (in Chinese with English abstract)
[14] He X-H(何小红), Gai J-Y(盖钧镒). Segregation analysis of
quantitative traits in backcross inbred line population. Acta Agron
Sin (作物学报), 2006, 32(2): 210–216 (in Chinese with English
abstract)
[15] Zhang Y-M(章元明), Gai J-Y(盖钧镒). The IECM algoritm of
identification of polygenes for major genes and polygenes mixed
inheritance. J Biomath (生物数学学报), 1999, 14(4): 429–434
(in Chinese with English abstract)
[16] Lu W-G(卢为国 ), Gai J-Y(盖钧镒 ), Li W-D(李卫东 ).
Inheritance of resistance to race 1 and race 4 of cyst nematode
(Heterodera glycines Ichinohe) in soybeans. Acta Agron Sin (作
物学报), 2006, 32(5): 650–655 (in Chinese with English abstract)