全 文 :第 29 卷 第 1 期 作 物 学 报 V o l. 29, N o. 1
2003 年 1 月 133~ 137 页 A CTA A GRONOM ICA S IN ICA pp. 133~ 137 Jan. , 2003
极大似然法探测主基因的效能Ξ
黄蛟龙1 曹致琦2 马海燕1 张 泽1, 3, 3
(1西南农业大学农学系; 2 西南农业大学基础科技学院; 3西南农业大学数字农业与生物信息实验室, 重庆北碚 400716)
摘 要 采用M onte Carlo 模拟数据和极大似然法探测 F 2 群体主基因 (M G)。研究了遗传力、显性比和样本容量三因
素对探测 F 2 群体M G 的影响。结果表明: 1) 在主基因的被发现率上, 三因素的影响力为: 遗传力> 样本容量> 显性
比。当遗传力较小时, 如 0. 3, 即使样本容量高达 1000, 其发现能力也仅有 51. 63% ; 当遗传力大于 0. 5 时, 样本容量
大于 300, M G 的被发现率在 80% 以上。2) 一般来说, 一旦M G 被探测到, 参数 d 和 h 估计的准确度均较高。并且, 随
着遗传力 h2b 和样本容量 c 的增大, 参数 d 和 h 估计的精度也随之提高。
关键词 主基因探测; 极大似然; 遗传力; 样本容量; 显性比; M on te Carlo 模拟; 效能
中图分类号: O 212; Q 348 文献标识码: A
The Power of D etecting M a jor Gene by M ax im um L ikel ihood
HUAN G J iao2L ong1 CAO Zh i2Q i2 M A H ai2Yan1 ZHAN G Ze1, 3, 3
(1 D ep artm en t of A g ronomy ; 2 Colleg e of B asic S cience and T echnology ; 3L abora tory of D ig ita l A g ricu ltu re and B ioinf orm atics, S ou thw est A 2
g ricu ltu ra l U niversity , Chong qing 400716, Ch ina)
Abstract T he pow er of detect ing m ajo r genes in d ifferen t heritab ilit ies, sam p le sizes and dom inance ra t io
w as invest iga ted by the sim u la ted data of F 2 popu la t ion and m ax im um likelihood m ethod. T he resu lts ind i2
ca ted tha t there w ere d ifferences in the pow er of detect ing m ajo r gene am ong the th ree affect ing facto rs
(heritab ility, sam p le size and dom inance ra t io ). T he o rder of effects of th ree facto rs on the pow er of de2
tect ing m ajo r gene is heritab ility> sam p le size> dom inance ra t io. T he increase of bo th heritab ility and sam 2
p le size can sign if ican t ly enhance the pow er of detect ing m ajo r gene, w hereas the dom inance has a lit t le ef2
fect. U nder the heritab ility being m o re than 0. 5, the pow er of detect ing m ajo r gene fo r sam p le size of 300
is over 80%. W h ile heritab ility is 0. 3, the pow er of detect ing m ajo r gene fo r 1000 of sam p le size is on ly
abou t 51. 63%. Genera lly, once the m ajo r gene has been detected, the accu racy of est im ates of addit ive ef2
fect (d ) and dom inan t effect (h ) w as rela t ively h igh. Fu rtherm o re, as heritab ility and sam p le size in2
crease, the accu racy of est im ates of addit ive effect (d ) and dom inan t effect (h ) w ill increase.
Key words D etect ing m ajo r gene; M ax im um likelihood; H eritab ility; Sam p le size; Dom iance ra t io;
M on te Carlo sim u la t ion; Pow er
经典数量遗传学认为, 数量性状是由效应微
小、数目众多的微效多基因控制的。但广泛的研究
发现, 作物的许多经济性状, 如育性[ 1 ]、株高[ 2 ]、抗
性[ 3 ]、籽粒品质[ 4 ]等性状, 以及家畜、家禽和特种
经济动物的许多经济性状, 如奶牛的产奶量[ 5 ]、家
蚕的产卵量[ 6 ]等性状, 其遗传表现为主基因 (M ajo r
Gene, M G)和多基因混合遗传模式, 即控制数量性
状的多基因在效应大小上有很大差异, 遗传效应大
的表现出主基因特性, 效应小的表现出微效基因特
性。莫惠栋 (1993 a, b)曾称此类性状为质量2数量性
状[ 7, 8 ] , 并发展了分析其基因效应的方法。一般说
来主基因是指能对数量性状的表型值产生巨大效应
的单个基因或位点, 它是相对于数量性状的微效基
因而言的, 并且一般认为一个主基因的遗传效应应Ξ 基金项目: 教育部留学回国人员科研启动基金资助项目 (教外司留[ 2001 ]345 号)。
作者简介: 黄蛟龙, 男, 1974 年生, 四川邻水人。西南农业大学硕士生。 3 通讯作者。
Received on (收稿日期) : 2001210216, A ccep ted on (接受日期) : 2001211223
该大于 1 个表型标准差[ 9 ]。在主基因性状的分离世
代, 不同主基因基因型内均含有相同的微基因遗传
变异分量和环境变异分量, 只有平均数不同[ 7, 8 ]。
由此可以期望, 同一主基因基因型将呈现连续型的
正态分布, 不同主基因基因型则将是具有不同平均
数和相同方差的多个正态分布的混合[ 7, 8 ]。因此,
对具有主基因的数量性状的遗传分析, 可转换为基
于估计多个正态分布参数的分析。T an and Chang
( 1972) 以及 E lston and Stew art (1973) 是最早利用
极大似然法分析数量性状主基因的先驱[ 10, 11 ]。
J iang et a l. (1994) 利用极大似然法建立了分析多
个不同遗传结构群体的主基因分析方法, 并鉴定出
了两个控制水稻株高的隐性矮杆主基因[ 2 ]。后来,
王健康和盖钧镒 (1997, 1998)也提出了利用杂种 F 2
以及 P 1、P 2、F 1、F 2 和 F 2∶3分析数量性状主2多基因
混合遗传的方法[ 12, 13 ]。正是由于这些分析方法的
发展和应用, 越来越多的控制各种数量性状的主基
因正在逐渐地被探测出来[ 6, 9, 14, 15 ]。尽管如此, 利
用极大似然法探测主基因的效能仍然缺乏研究, 影
响有效探测主基因和有关遗传参数估计的因素及其
作用仍不清楚。本文将用M on te Carlo 模拟方法,
基于 F 2 分离世代主基因的遗传模型, 探索遗传力、
样本容量和显性比三个因素对极大似然法探测主基
因效能的影响。
1 原理与方法
1. 1 模拟实验参数组合
模拟实验群体为 F 2, 考虑 3 个因素, 即遗传力
( h 2b)、样本容量 (c) 和显性比 (höd )。遗传力设置 7
个水平, 分别是 0. 05、0. 1、0. 2、0. 3、0. 4、0. 5 和
0. 8; 样本容量设置8个水平, 分别是50、100、200、
300、400、600、800 和 1000; 显性比设置 4 个水平,
分别是 0. 3、0. 5、0. 7 和 1. 2。显性效应 h 依次为 3、
5、7 和 12, 并设其加性效应 d 均为 10。实验采用全
因子正交设计, 共有 8 × 7 × 4 = 224 个参数组合,
每个参数组合均重复模拟 200 次。考察的指标有:
M G 被发现率 (200 次重复中检测到M G 的次数,
以百分比来表示)、遗传参数的估计。
1. 2 F2 群体的产生
1. 2. 1 遗传模型 考虑一对主基因的加性和显
性遗传模型: g i = m + [x id + (1 - ûx iû ) h ], 其中
x i 为基因型符号, m 为中亲值, d 为加性效应, h 为
显性效应。当基因型分别AA、A a 和 aa 时, x i 分别
为 1、0 和- 1。
1. 2. 2 数量性状表型值的确定 第 i 个个体数
量性状表型值为: p i = g i + ei。其中g i 为遗传效应,
ei 为环境效应。假定 ei~ N (0, Ρ2e ) , 利用M on te
Carlo 模拟方法确定 ei。Ρ2e 为环境标准差, 其值由设
定 的 遗 传 力 和 遗 传 模 型 参 数 确 定。 Ρ2e =
1
h 2b - 1
1
2 d
2 +
1
4 h
2 。
1. 3 探测主基因的极大似然法
由上述的遗传模型可知, 当 d ≠ h 时 F 2 群体应
该为三个正态分布的混合。极大似然探测主基因及
参数估计的步骤为: (1) H 1: 假设无主基因分离,
F 2 群体将只有一个正态分布, 要估计的参数为 Η=
(Λ, Ρ2) , 其似然值记为 lnL 1; (2) H 2: 假设一个主
基因分离, 在等方差假定下要估计的参数为 Η=
(Λ1, Λ2, Λ3, Ρ2) , Λ1, Λ2, Λ3 分别为F 2 群体3种基因 型 aa、A a、AA 所对应的正态分布的均值, 采用极大似然法估计 F 2 群体 3 个混合正态分布的参数,并将其似然值记为 lnL 2。 (3) 利用 x 2 = 2 ( lnL 2 -lnL 1 ) 近似服从自由度为 2 的 x 2 分布测验 H 1 [ 16 ]及其修正值[ 17 ] , 测验显著表明存在主基因。具体算法参见姜长鉴和莫惠栋 (1995)的文章[ 18 ]。在探测到主基因的情况下, 遗传参数的估计为:dδ = Λ3 - Λ12 , hδ = 2Λ2 - Λ1 - Λ32 。模拟程序用C+ + 写成, 欢迎索取。2 结果与分析2. 1 不同因素对发现M G 的影响2. 1. 1 遗传力对发现M G 影响 由图 1 可以看出, 随着遗传力的增大, M G 的被发现率也随之增
431 作 物 学 报 29 卷
大, 当 h 2b 较小时, M G 的被发现率增加缓慢, 当 h 2b
在 0. 2 到 0. 5 之间时, M G 的被发现率与 h 2b 的增加
呈线性关系, 而当 h 2b 大于 0. 5 后, M G 的被发现率
的增加速度下降。当遗传力从 0. 2 增加到 0. 5 时,
M G 的被发现率从 8. 89% 增加到 90. 16% , 约净增
81%。说明遗传力对主基因探测效能的影响是相当
显著的。
2. 1. 2 样本容量对发现M G 的影响 由图 2 可
以看出, 样本容量与M G 的被发现率成正相关, 总
的趋势是随着样本容量的增大, M G 的被发现率也
不断增大。但在样本容量为 50 到 400 之间时变化
较大, 大于 400 以后M G 的被发现率的变化趋于平
缓。说明样本容量较大时, 再增加样本容量带来的
效益随之变小。
图 1 不同遗传力下M G 的被发现率
F ig. 1 T he p row er of detecting M G
in differen t heritab ilit ies
图 2 不同样本容量下M G 的被发现率
F ig. 2 T he pow er of detecting M G in
differen t samp le sizes
2. 1. 3 显性比对发现M G 的影响 由图 3 可
见, 显性比对M G 的被发现率影响较小。并且我们
还发现, 只要显性比相同, 无论 d 和 h 的大小, 其
探测M G 的效能不变 (结果没有列出)。换句话说,
探测M G 的效能只与显性比的大小有关, 而与其 d
和 h 的取值无关。
图 3 不同显性比下M G 的被发现率
F ig. 3 T he pow er of detecting M G in
differen t dom inance ratio
2. 1. 4 遗传力和样本容量对发现M G 的综合影响
图 4 给出了遗传力和样本容量两因素对发现
M G 的综合影响。当遗传力小于 0. 2 时, M G 的被
发现率很小, 且几乎与样本容量无关, 大致呈现一
水平直线; 当遗传力介于 0. 3 到 0. 4 之间时, 发现
率与样本容量以接近线性的速率增加。但可以看
出, 当遗传力较小时, 如 0. 3, 即使样本容量高达
1000, 其发现能力也仅有 51. 63% ; 而 h 2b 为 0. 5 时,
样本容量为 200, 其发现率有 67. 60% , 当样本容量
为 400 时, 其发现率可达 88. 25%。由此表明遗传
力对主基因探测效能的影响是非常显著的, 并且其
作用大于样本容量的作用。图 4 还表明, 当遗传力
大于 0. 5 时, 样本容量大于 300, M G 的被发现率
在 80% 以上。因此, 遗传力大小是极大似然法能否
探测到M G 的最重要的决定因素。
图 4 不同遗传力和样本容量下M G 的被发现率
F ig. 4 T he pow er of detecting M G in differen t
heritab ilit ies and samp le sizes
2. 2 三个因素不同水平下遗传参数 h、d 的估计
表 1 为 3 因素不同水平下M G 的遗传参数 h、
d 各自的离差平均值和标准差的估计值。从表中离
5311 期 黄蛟龙等: 极大似然法探测主基因的效能
差的平均值和标准差可以看出, 一般来说, 一旦
M G 被探测到, 参数 d 和 h 估计的准确度均较高。
并且, 随着遗传力 h 2b 和样本容量 c 的增大, 参数 d
和 h 估计的精度也随之提高, 这与探测M G 的效能
相一致。从表 1 还可以看出, d 估计值的标准差比
相应 h 估计值的标准差小, 即 d 的估计精度比相应
h 的估计精度高。
表 1 在 3 个因素 (h2b, c, höd)不同水平下对 h、d
离差的平均值 (x)和标准差 (s)估计
Table 1 M ean s and standard dev iation of h and d
dev iation s in differen t her itabil ities (h2b) ,
sample size (c) and dom inance ratio (höd)
Facto r L evel
Param eter
h d
x s x s
0. 05 1. 452 13. 186 5. 154 9. 011
0. 1 0. 286 9. 494 3. 279 6. 391
0. 2 - 0. 09 6. 029 0. 014 4. 156
h2b 0. 3 - 0. 289 3. 021 0. 531 2. 265
0. 4 - 0. 102 2. 191 0. 250 1. 602
0. 5 0. 007 1. 723 0. 112 1. 167
0. 8 0. 112 0. 746 - 0. 056 0. 435
höd 0. 3 0. 194 6. 472 1. 937 4. 4660. 5 - 0. 088 5. 410 1. 926 3. 770
0. 7 - 0. 290 4. 592 1. 711 3. 185
1. 2 0. 967 4. 330 0. 463 2. 881
50 0. 487 7. 202 1. 544 4. 886
100 0. 296 6. 328 1. 629 4. 329
200 0. 286 6. 105 1. 824 4. 152
c 300 - 0. 128 5. 121 1. 741 3. 507
400 0. 008 5. 469 1. 773 3. 755
600 0. 210 5. 736 1. 476 3. 769
800 0. 242 4. 785 1. 393 3. 387
1000 0. 280 4. 737 1. 371 3. 301
3 讨论
本文的模拟结果 (图 1, 2, 3) 清楚地表明, 影
响主基因探测效能的三因素其作用为: 遗传力> 样
本容量> 显性比。图 3 还表明, 不同的显性比对主
基因探测效能的作用微小。因此, 能否探测到主基
因的关键因素是遗传力和样本容量。
T ank sley (1993) 综述了Q TL 定位的有关问题
和进展, 并认为一个位点的遗传力≥0. 1 为主基因
(M G) [ 9 ]。但正如在引言中所述的也有依据其他标
准的定义。因此, 主基因的定义目前尚无一致的标
准。本文所讨论的是基于分离世代的表型数据和混
合分布的极大似然法探测主基因, 它与利用分子标
记分解数量性状遗传结构的Q TL 定位是有所区别
的, 因为后者利用了更多的关于数量性状遗传结构
的信息, 自然能够探测到遗传力相对较小的基因。
从本文的结果可以看出, 仅仅基于分离世代的表型
数据一般只能探测到遗传力较大的主基因
(h 2n≥0. 3)。因此, 从某种程度上说, 这样的分析是
一种探索性分析, 尽管如此, 它仍然能够为育种工
作者提供有用的信息, 并且一旦探测到有主基因存
在, 将进一步增强精细定位Q TL 基因的信心。
由于极大似然法估计是建立在极大似然原理基
础上的一种统计方法: 样本在获得一次试验中的观
察值的概率为极大, 即以L 或 lnL 极大为条件, 估
计的参数一般满足一致性 (con sistency) 和有效性
(eff iciency) , 以及不变性 (con stancy) , 但不满足无
偏性 (unb iasedness) [ 17 ]。因此, 在应用极大似然法
时, 为保证估计的精度, 一般要求较大的样本容
量。但本文的模拟结果表明, 当遗传力大于 0. 5 时,
样本容量达到 300 后, 增大样本容量对提高探测效
能的作用已不明显。而当遗传力较小 (0. 2< h 2b ≤
0. 5)时, 样本容量在 1000 范围内, 增加样本容量将
持续提高其主基因的探测效能。
关于遗传参数的估计, 表 1 显示 h 的方差大于
d 的 方 差, 从 理 论 上 看, h 的 方 差 D (h ) =
4D (Λ2) + D (Λ3) + D (Λ1)
4 , d 的 方 差 D (d ) =
D (Λ3) + D (Λ1)
4 , 显然D (Λ2) > 0, 故有 D (h ) >
D (d ) , 这也证明了模拟结果与理论的一致性。
References
[ 1 ] L i J2N (李加纳). A n O u tline of Q uan tita tive Genetics (数量遗
传 学 概 论 ). Chongqing: Southw est N o rm al U niversity
P ress, 1995. 57~ 64
[ 2 ] J iang C, Pan X, Gu M. T he use of m ix ture models to detect
effects of m ajo r genes on quantitat ive characters in a p lan t
breeding experim ent, 1994, Genetics, 136: 383~ 394
[ 3 ] Simmonds N W. P rincip les of crop imp rovem en t, N ew Yo rk:
L ongm an Inc. 1979, 67~ 70, 270~ 274
[ 4 ] Kum ar E S, Khush G S. Genetic analysis of w axy locus in
rice (O ry z a sa tiva L. ). T heor A pp l Genet, 1987, 73: 481~
488
[ 5 ] Zhang Q (张勤). 主效基因及其在家畜育种中的意义. Ch i2
nese J ou rna l of A n im al S cience (中国畜牧杂志) , 1993, 29
(1) : 57~ 59
[ 6 ] Zhang Z (张泽) , L u Z (鲁成) , L i F2D (李发德) et a l. D etect2
ing m ajo r gene of laying eggs of silkwo rm. H ered itas (B ei2
631 作 物 学 报 29 卷
j ing ) (遗传) , 1997, (增刊) : 80~ 81
[ 7 ] M o H 2D (莫惠栋). Genetic analysis fo r qualitat ive2quantita2
t ive traits I. A cta A g ro S in (作物学报) , 1993, 19 (1) : 1~ 6
[ 8 ] M o H 2D (莫惠栋). Genetic analysis fo r qualitat ive2quantita2
t ive traits Ê . A cta A g ro S in (作物学报) , 1993, 19 (3) : 193
~ 200
[ 9 ] T ank sley S. D. M app ing po lygenes. A nnu R ev Genet, 1993,
27: 205~ 223
[ 10 ] E lston, R C. Stew art J. T he analysis of quantitat ive traits
fo r simp le genetic models from paren tal, F1 and backcro ss da2
ta. Genetics, 1973, 73: 695~ 711
[ 11 ] T an, W Y. Chang W C. Convo lu tion app roach to the genetic
analysis of quantitat ive characters of self2fert ilized popula2
t ions. B iom etrics, 1972, 28: 1073~ 1090
[ 12 ] W ang J2K (王健康) , Gai J2Y (盖钧镒). Iden tification of m a2
jo r gene and po lygene m ixed inheritance model and estim ation
of genetic param eters of a quantitat ive trait from F2 p rogeny.
A cta Genetica S in ica (遗传学报) , 1997, 24 (5) : 432~ 440
[ 13 ] W ang J2K (王健康) , Gai J2Y (盖钧镒). Iden tification of m a2 jo r gene and po lygene m ixed inheritance model of quantitat ivetraits by using jo in t analysis of P1, F1, P2, F2 and F2∶3 gen2erations. A cta A g ro S in (作物学报) , 1998, 24 (6) : 651~ 659[ 14 ] D u X2M (杜雄明) , W ang R 2H (汪若海) , L iu G2Q (刘国强)et a l. Inheritance analysis of the character related w ith fiberby using m ixed m ajo r gene and po lygene model. A ctaGossyp ii S in ica (棉花学报) , 1999, 11 (2) : 73~ 78[ 15 ] Q i C2K (戚存扣) , Gai J2Y (盖钧镒) , Zhang Y2M (章元明).M ajo r gene p lus2po lygene inheritance of erucic acid contendsin B rassica nap us L. A cta Genetica S in ica (遗传学报) , 2001,28 (2) : 182~ 187[ 16 ] Kendall M , Stew art G A. T he A d vanced T heory of S ta tis2tics, 1963, 2nd edn, V o l. 1 Griffin, L ondon[ 17 ] L o isel P, Goffinet B , M onod H , et a l. D etecting a m ajo rgene in an F2 population. B iom etrics, 1994, 50 (2) : 512~ 516[ 18 ] J iang C2F (姜长鉴) , M o H 2D (莫惠栋). Genetic analysis fo rqualitat ive2quantitat ive traits Ì . A pp lication of the m axi2m um likelihood m ethod. A cta A g ro S in (作物学报) , 1995,21 (6) : 641~ 648 7311 期 黄蛟龙等: 极大似然法探测主基因的效能