全 文 :·综述与专论· 2012年第11期
生物技术通报
BIOTECHNOLOGY BULLETIN
1 基因的复制方式
1.1 全基因组复制
基因可以通过多种方式进行扩增,包括全基因
组复制、串联复制、片段复制及基因转座等。基因
扩增是指编码蛋白的序列随着 DNA 片段在基因组中
的复制而出现一个或多个拷贝,这种 DNA 片段可以
是基因组中的一小段基因组序列、整条染色体,甚
至是整个基因组。基因扩增是基因组进化最主要的
收稿日期 : 2012-03-20
基金项目 : 国家高技术研究发展计划(“863 计划”)(2012AA100201), 国家重点基础研究发展计划(“973 计划”)(2012CB113901,
2012CB113906)
作者简介 : 方璐 , 女 , 硕士研究生 , 研究方向 : 生物信息学 ; E-mail: fangshanshan198765@163.com
通讯作者 : 王晓武 , 男 , 博士 , 研究员 , 研究方向 : 分子遗传育种 ; E-mail: wangxw@mail.caas.net.cn
全基因组与串联复制后白菜基因的保留
方璐 程锋 武剑 王晓武
(中国农业科学院蔬菜花卉研究所,北京 100081)
摘 要 : 全基因组复制与串联复制是两种重要的基因扩增途径,在生物进化过程中普遍存在。这两种复制方式相互关系的
研究在拟南芥中已经取得很多成果。白菜(Brassica rapa)属于十字花科(Brassicaceae)芸薹属(Brassica),是一类重要的经济作
物,也是研究基因组多倍化和形态演化的模式植物。白菜基因组的测序与组装工作已经取得了重大成就,运用比较基因组学的方
法,通过比较白菜与模式植物拟南芥,可以清晰鉴定白菜基因组经历的全基因组三倍化事件。同时,白菜与拟南芥同属于十字花科,
有较近的起源关系和良好的基因组共线性关系。因此,拟南芥可以作为外群研究白菜全基因组三倍化以及串联重复之后基因的偏
向性保留。结果发现,在白菜中存在物种特有的偏向性保留基因,即与环境刺激相关的基因和与激素相关的基因。
关键词 : 白菜 全基因组复制 串联复制 基因偏向性保留 形态多样性
Gene Retention Following Whole Genome Duplication and Tandem
Duplication in Brassica rapa
Fang Lu Cheng Feng Wu Jian Wang Xiaowu
(The Institute of Vegetables and Flouers Chinese Acadermy of Agricultural Sciences, Beijing 100081)
Abstract: Whole genome and tandem duplications are both important modes for gene expanding. They are both common in the
evolution history of eukaryotic lineages. Brassica rapa,one of the most important oilseed rape,is the model plant for studying the genome
polyploidization and morphological evolution. B. rapa belongs to cruciferous Brassica. The genome assembling of B. rapa has completed and its
genome evolution analysis made significant achievements. Using the comparative genomics approach,the mesohexaploidy occurred in B. rapa
has been determined clearly by comparing to genome of Arabidopsis thaliana. B. rapa has close relationship to A. thaliana,and they belong to
cruciferous Brassica. Therefore,A. thaliana is a good out-group for studying gene retention post triplication and tandem duplication of Brassica
mesohexaploidy. The results show that genes responses to environmental factors and plant hormones are over-retained specifically in B. rapa.
Key words: Brassica rapa Whole genome duplication Tandem duplication Gene biased retention Morphological diversification
驱动力之一,是产生具有新功能的基因和进化出新
物种的主要原因之一。在上述各种复制方式中,全
基因组复制和串联复制对基因组的进化乃至生物物
种的进化都有重要的影响。
全基因组复制在真核生物尤其是植物中普遍存
在。在已测序的植物基因组中几乎都可以检测出全
基因组复制的痕迹。从前人的研究中可以看出,拟
南芥基因组经历了 3 次全基因组复制(α、β 和 γ 复
生物技术通报 Biotechnology Bulletin 2012年第11期10
制事件)[1-3],杨树基因组中存在两次全基因组复
制[4],在葡萄[5]和番木瓜[6]中都存在一次全基因
复制事件。
全基因组复制一次性增加了一个物种所有基因
的剂量,在物种进化过程中使得祖先种的原有一个
拷贝的基因经过全基因组复制后演变为具有多个拷
贝的基因。这些基因扩增后,要么保留下来行驶功能,
要么经过自然选择丢失,保留下来的基因由于拷贝
数增加,在进化的过程中会演化出新的功能,这样
的进化途径为植物发生变异,适应环境选择,并分
化出多种多样的物种提供了丰富的资源[7]。
通过前人研究得知,全基因组复制之后基因的
保留是有倾向性的,也就是说全基因组复制扩增的
基因是有选择性的。基因编码的产物之间具有紧密
相互作用的一类基因在全基因组复制之后通常会被
保留下来。如参与信号传导途径、调控网络的基因
和参与形成大分子复合物的基因。在一些报道中,
把这类基因称为剂量敏感基因。如转录因子基因家
族和核糖核蛋白基因家族[7,8]。这些基因如果在全
基因组复制之后丢失,会破坏生物体内代谢的稳定
性,给物种带来致命性伤害[9,10]。同时,一些剂量
不敏感的基因在全基因组复制之后会发生大量的丢
失,有恢复一个拷贝的倾向。
1.2 串联复制
串联复制易发生在染色体重组热点区域,形成
一簇序列相似、功能相近的以头尾相串联的方式排
列在染色体上的一类旁系同源基因(paralogs)。串
联复制与响应生物和非生物胁迫相关基因的扩增有
着密切的关系[11-19]。由于植物与动物不同,植物在
遇到环境改变或者外界生物侵害的时候,无法像动
物一样逃离,所以在植物体的生命活动中进化出了
一种应激反应来抵御环境和外界生物带来的伤害[7]。
由于串联复制只是扩增了一类基因,对于剂量敏感
型的基因来说,这种复制所产生的冗余基因会破坏
相关生物途径的平衡。所以,这种复制方式倾向于
扩增处于代谢途径顶端或者末端的基因以及剂量不
敏感的基因[7]。
在对已测序植物的串联复制的研究中发现,串
联复制倾向于扩增膜蛋白功能基因以及响应生物和
非生物胁迫有关的基因。一个特殊的例子是盐土植
物盐芥,它可以抵御寒冷、盐碱和水分不足等恶劣
环境,因为在盐芥的基因组中存在能够抵御极端环
境的基因。通过盐芥的基因组测序发现,与拟南芥
基因相比,盐芥基因拷贝数发生了很大变异,与生
物和非生物刺激反应相关的基因以及与植物生长过
程相关的基因含量丰富,产生这种变化的主要原因
是串联复制[20]。
2 全基因组复制与串联复制的关系
在全基因组复制之后,多拷贝基因发生有倾向
性的丢失(biased fractionation)[21]。目前已有诸如
基因亚功能化理论、基因新功能获得理论、基因功
能缓冲模型和基因平衡理论[22]等一些理论和模型
来解释基因偏向性保留的功能机制。这些理论中,
基因平衡理论是唯一可以解释全基因组复制后基因
的偏向性保留和串联复制之后基因的偏向性保留之
间的存在的负相关关系的理论。
基因平衡理论认为,在全基因组复制之后,基
因的保留是不均衡的,一些参与编码大分子复合物
中蛋白亚基或者是信号传导途径,转录调控网络中
的基因会被保留下来以维持这些生命活动的稳定进
行。相反,如果这些途径的基因通过串联复制的方
式增加剂量,将会使得扩增的基因与它的相互作用
基因处于不平衡状态,从而使生物功能发生紊乱。
以大分子复合物为例,一个蛋白质复合物中编码某
一个亚基的基因拷贝数增多,使得这个蛋白质复合
物中与之发生相互作用的亚基无法正常与之形成大
分子复合物,导致这种蛋白质复合物剂量减少。如
果该蛋白质复合物是催化剂,其产量的减少将导致
与之产生相反作用的抑制物的调控网络的失衡,从
而影响生物的生命活动。所以,全基因组复制方式
与串联复制方式在保留某些特定功能基因的保留过
程中存在着一定的负相关关系,即某些功能类型的
基因通过全基因组扩增后保留下来,但经过串联复
制之后会丢失。
除了上述所说的负相关关系外,这两种复制方
式在保留某些功能类群基因时也存在正相关关系。
在拟南芥与水稻的基因复制研究中发现,与生物压
力相关的基因通过两种复制方式发生扩增且保留下
2012年第11期 11方璐等 :全基因组与串联复制后白菜基因的保留
来,呈现正相关关系。在拟南芥中还发现与信号转
导活性相关的基因及与阳离子转运活性相关的基因
其两种扩增方式呈正相关关系[7]。
3 白菜基因与基因组的复制
3.1 白菜与拟南芥基因组的关系
白菜类作物(Brassica rapa ,AA,2n=20)是“U
三角”理论(U’triangle theory)中的一个重要的二
倍体基本种。作为芸薹属中非常重要的蔬菜和油用
经济作物,白菜原产于我国,是我国蔬菜栽培中分
布最广、种植面积最大的蔬菜作物之一。白菜主要
包括花茎和叶用类、油用类和根茎类等基本类型,
有着丰富的形态变异。同时,白菜基因组三倍化的
时间在 540-900 万年前[21],发生的时间在古多倍化
发生的时间之后,基因虽然发生了分化,但是仍然
可以在外群拟南芥基因组中找到其对应的同源基因,
因此白菜的 3 个亚基因组(LF、MF1 和 MF2)能够
很好的分辨[23]。所以,白菜可以作为研究多倍体进
化过程中基因保留的一种理想模式植物[24]。
本研究基于“国际白菜基因组测序计划”所得
的白菜全基因组序列,通过与拟南芥全基因组序列
进行比较,并进行系统深入的共线性分析[25],清
晰地鉴定了白菜的祖先物种从拟南芥(Arabidopsis
thaliana)基因组分化之后经历的全基因组三倍化
(Whole genome triplication)过程。通过对白菜基因
组与拟南芥基因组进行共线性分析[26],获得了拟南
芥基因在在白菜中对应的 1-3 个基因拷贝。白菜与
拟南芥具有共同的祖先,与其具有极其紧密的进化
关系。因此,拟南芥可以作为白菜基因组发生三倍
化之前的拟祖先物种来研究发生全基因组三倍化之
后的白菜基因的保留情况。
3.2 白菜全基因组复制后基因的保留
通过白菜基因组与拟南芥基因组的共线性分
析,鉴定了拟南芥基因组中的 9 293 个基因在白菜
基因组中对应 1 个同源基因,同时分别有 6 683 和
2 346 个拟南芥基因在白菜基因组中对应 2 个和 3 个
同源基因。这与白菜的 3 个亚基因组(LF、MF1 和
MF2[21])相对应,通过前人研究可知,2-3 个与拟
南芥 1 个基因存在同源关系的白菜基因被认为是白
菜全基因组复制后偏向性保留的基因。
利用白菜与拟南芥的共线性关系以及拟南芥基
因 GO(Gene ontology)功能注释信息,对白菜的基
因进行功能归类。利用 Fisher 检验对每一个 GO 功
能类别的白菜基因进行分析,检验白菜全基因组复
制之后倾向于保留的基因功能类别。研究结果与拟
南芥基因组的分析结果相似,转录因子基因家族,
核糖核蛋白基因家族在白菜全基因组三倍化之后被
过量保留。此外,与激酶活性相关的基因,细胞组
织结构相关的基因,花器官及其他组织器官发育相
关的基因,转运功能相关基因和 DNA、RNA 以及蛋
白锚定相关的基因在全基因组复制后都被过量保留
下来。同时,与环境刺激相关的基因(盐胁迫、寒冷、
渗透压胁迫、光、抵御病原体、镉和锌离子等)和
植物激素刺激及合成相关的基因(茉莉酸、生长素、
水杨酸、乙烯、油菜素内酯、细胞分裂素和脱落酸)
在白菜全基因组复制之后也被过量的保留下来,这
两个功能类别的基因的保留在前人的研究中均未发
现,是白菜基因组复制后特有的功能基因保留。
3.3 白菜基因串联复制后的基因保留
根据串联复制的特点,剂量敏感的基因经串联
复制后,会通过选择清除(Slection sweep)作用而
丢失,从而保证了生物体功能的正常运行。串联重
复倾向于扩增响应环境因素的基因,与膜蛋白相关
的基因等。在白菜中同样发现了这样的规律,经过
串联复制之后,与膜蛋白功能、新陈代谢、抵御寒冷、
抵御病原体(细菌、真菌和病毒)、锌离子、生物刺激、
高温适应以及植物激素(茉莉酸、乙烯、油菜素内
酯和脱落酸)等相关的基因都发生了扩增,这些基
因参与了植物的诱导防御反应机制。植物的这些诱
导防御反应,只在环境发生变化,病原体和害虫袭
击时才被激活,使基因的利用率提高。为了高效地
适应复杂的环境、应答病原的侵袭,植物体的基因
发展了这种精细的调控机制。同时,激素信号路径
间交互作用为植物提供了强有力的调控潜能,并促
使植物针对入侵定制最适合的防御反应。植物激素
的生物合成动力学和激素信号调控,在植物精细的
调节机制中起着重要作用[27]。
3.4 全基因组复制与串联复制在白菜基因组中的关系
3.4.1 全基因组复制与串联复制在白菜基因保留过
生物技术通报 Biotechnology Bulletin 2012年第11期12
程中的负相关关系 基因平衡理论可以很好的解释
全基因组复制与串联复制在保留基因过程中的负相
关关系。表 1 展示了在白菜基因组中两种复制方式
之间存在的有负相关关系的基因功能类型,包括全
基因组复制后过量保留的基因,这些基因在串联复
制后大量丢失,以及在串联复制后大量扩增的基因,
在全基因组复制后发生丢失。以转录因子家族为例,
白菜全基因组复制与串联复制之间的负相关关系,
表 1 基于 GO 功能注释的全基因组复制和串联复制后基因之间负相关关系
Molecular Function GO category GO Term Retention post-WGD Local(Tandem)duplication
transcription factor activity GO:0003700 over-retention under-retention
regulation of transcription GO:0045449 over-retention under-retention
regulation of transcription,DNA-dependent GO:0006355 over-retention under-retention
structural constituent of ribosome GO:0003735 over-retention under-retention
structural constituent of ribosome GO:0003735 over-retention under-retention
ribosome GO:0005840 over-retention under-retention
cytosolic ribosome GO:0022626 over-retention under-retention
cytosolic large ribosomal subunit GO:0022625 over-retention under-retention
ribosome biogenesis GO:0042254 over-retention under-retention
cytosolic small ribosomal subunit GO:0022627 over-retention under-retention
translational initiation GO:0006413 over-retention under-retention
nucleolus GO:0005730 over-retention under-retention
nucleus GO:0005634 over-retention under-retention
translation GO:0006412 over-retention under-retention
Golgi apparatus GO:0005794 over-retention under-retention
cytoplasm GO:0005737 over-retention under-retention
mitochondrion GO:0005739 over-retention under-retention
root development GO:0048364 over-retention under-retention
leaf development GO:0048366 over-retention under-retention
DNA binding GO:0003677 over-retention under-retention
photomorphogenesis GO:0009640 over-retention under-retention
endomembrane system GO:0012505 under-retention over-retention
metabolic process GO:0008152 under-retention over-retention
proteolysis GO:0006508 under-retention over-retention
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
ޘสഐ㓴༽ࡦਾสഐ؍⮉Ⲵ仁⦷
Ѣ㚄
༽ࡦ
ਾส
ഐ؍
⮉Ⲵ
仁⦷
y=-0.1083x+0.118
R2=0.1221 ABI3-VP1 62
PcG 44
bHLH 230
AS2 68 C2H2 238
MYB 286
C2C2-CO-like 61HB 181
WRKY 149
C2C2-Dof 71
GAEP-G2-like 82
MYB-related 93
bZIP 142
转录因子家族的数据来自 Database of Arabidopsis Transcription Factors(http://
datf.cbi.pku.edu.cn/),通过拟南芥基因组与白菜基因组的共线性关系,将白
菜的转录因子分配到各个家族中去,挑选基因数大于 30 的转录因子家族进
行相关分析。图中散点周围的标识为转录因子家族名称及基因数。
图 1 转录因子家族在全基因组和串联复制后
基因之间的负相关关系
如图 1 所示。
3.4.2 在全基因组复制和串联复制之间存在正相关
关系的基因类别 根据拟南芥相关研究报道[7],受
体类激酶家族,与阳离子转运活性、信号传导等相
关的基因在全基因组复制和串联复制后呈现正相关
关系。受体类激酶家族经过全基因组复制与串联复
制后都保留下来行使功能,而与阳离子转运活性和
信号传导相关的基因在经历了全基因组复制和串联
复制之后会发生丢失。在白菜的研究中发现,与激酶、
生物和非生物胁迫(包括与环境相关的基因和与植
物激素相关的基因)、细胞结构(细胞壁,非原质体)
等相关的基因在全基因组复制和串联复制之后保留
的情况呈现正相关关系,它们经过两种复制方式扩
增之后都会保留下来。而与 DNA 修复有关的基因和
与核算结合有关的基因经过全基因组和串联复制之
2012年第11期 13方璐等 :全基因组与串联复制后白菜基因的保留
后会丢失。
通过前人的研究和本试验发现,经过全基因
组复制与串联复制之后,与激酶类相关的基因的偏
向性保留在拟南芥和白菜中均呈现正相关关系。而
其他功能类型的基因的偏向性保留存在物种特异性
差异。
4 全基因组三倍化影响白菜形态多样性
全基因组复制加快了物种的形成和分化,并增
加了物种形态的多样性。而且,多倍体物种通常具
有显著的可塑性和更高的适应性,对于低光照和其
他环境因素改变的承受能力也大大提高。这些特征
使得这些多倍体物种在白垩纪物种灭绝的事件中可
以幸存下来[28]。在相关报道中,全基因组复制之后
调节基因的保留和基因丢失在促进物种形成,分化
和增加形态多样性方面有重要的作用。
观察系谱特异性的全基因组复制事件,可以发
现全基因组复制事件导致了物种的分化和类群的增
加,具有这种现象的被子植物有禾本科、十字花科、
茄科和豆科。全基因组复制与物种分化关系可以通
过比较经历全基因组复制和其未经全基因组复制的
姐妹系谱的种群数量差异来衡量。可以看到在十字
花科中大约有 3 700 多个物种,而在早期分化出的
缺乏拟南芥的 α 复制事件的岩芥菜属植物中只占有
57 个物种。
除了促进物种的分化外,全基因组复制对于物
种形态多样性也有重要影响。对于全基因组复制后
保留的调控网络的基因和转录因子家族来说,它们
在进化过程中会演化出新的调节功能。这种变化会
影响基因的表达,从而影响物种的形态。研究发现,
白菜在基因组发生三倍化复制之后,除了转录因子
家族的基因与调控网络的基因拷贝数增多外,与器
官形态变异有关的生长素相关基因也发生了显著扩
增,而生长素相关基因控制了植物的生长和形态发
展的过程。白菜基因组复制导致了许多与形态变异
有关的基因保留更多拷贝,这可能是白菜类蔬菜具
有丰富的根、茎、叶形态变异的根本原因。
参 考 文献
[1] The Arabidopsis genome initiative. Analysis of the genome sequence
of the flowering plant Arabidopsis thaliana. Nature, 2000, 408
(6814): 796-815.
[2] Bowers JE, Chapman BA, Rong J, et al. Unravelling angiosperm
genome evolution by phylogenetic analysis of chromosomal
duplication events. Nature, 2003, 422(6930): 433-438.
[3] Blanc G, Hokamp K, Wolfe KH. A recent polyploidy superimposed
on older large-scale duplications in the Arabidopsis genome. Genome
Res, 2003, 13(2): 137-144.
[4] Tuskan GA, Difazio S, Jansson S, et al. The genome of black
cottonwood, Populus trichocarpa(Torr & Gray). Science, 2006,
313(5793): 1596-1604.
[5] Jaillon O, Aury JM, Noel B, et al. The grapevine genome sequence
suggests ancestral hexaploidization in major angiosperm phyla.
Nature, 2007, 449(7161): 463-467.
[6] Ming R, Hou S, Feng Y, et al. The draft genome of the transgenic
tropical fruit tree papaya(Carica papaya Linnaeus). Nature, 2008,
452(7190): 991-996.
[7] Freeling M. Bias in plant gene content following different sorts of
duplication: tandem, whole-genome, segmental, or by transposition.
Annual Review of Plant Biology, 2009, 60: 433-453.
[8] Edger PP, Pires JC. Gene and genome duplications: the impact
of dosage-sensitivity on the fate of nuclear genes. Chromosome
Research, 2009, 17(5): 699-717.
[9] Birchler JA, Bhadra U, Bhadra MP, et al. Dosage-dependent gene
regulation in multicellular eukaryotes: implications for dosage
compensation, aneuploid syndromes, and quantitative traits. Dev
Biol, 2001, 234(2): 275-288.
[10] Papp B, Pal C, Hurst LD. Dosage sensitivity and the evolution of
gene families in yeast. Nature, 2003, 424(6945): 194-197.
[11] Parniske M, Hammond-Kosack KE, Golstein C, et al. Novel disease
resistance specificities result from sequence exchange between
tandemly repeated genes at the Cf-4/9 locus of tomato. Cell, 1997,
91(6): 821-832.
[12] Michelmore RW, Meyers BC. Clusters of resistance genes in
plants evolve by divergent selection and a birth-and-death process.
Genome Res, 1998, 8(11): 1113-1130.
[13] Lucht JM, Mauch-Mani B, Steiner HY, et al. Pathogen stress
increases somatic recombination frequency in Arabidopsi. Nat
Genet, 2002, 30(3): 311-314.
[14] Kovalchuk I, Kovalchuk O, Kalck V, et al. Pathogen-induced
生物技术通报 Biotechnology Bulletin 2012年第11期14
systemic plant signal triggers DNA rearrangements. Nature, 2003,
423(6941): 760-762.
[15] Leister D. Tandem and segmental gene duplication and recombina-
tion in the evolution of plant disease resistance gene. Trends Genet,
2004, 20(3): 116-122.
[16] Shiu SH, Karlowski WM, Pan R, et al. Comparative analysis of
the receptor-like kinase family in Arabidopsis and rice. Plant Cell,
2004, 16(5): 1220-1234.
[17] Maere S, De Bodt S, Raes J, et al. Modeling gene and genome
duplications in eukaryotes. Proc Natl Acad Sci USA, 2005, 102
(15): 5454-5459.
[18] Mondragon-Palomino M, Gaut BS. Gene conversion and the
evolution of three leucine-rich repeat gene families in Arabidopsis
thaliana. Mol Biol Evol, 2005, 22(12): 2444-2456.
[19] Rizzon C, Ponger L, Gaut BS. Striking similarities in the genomic
distribution of tandemly arrayed genes in Arabidopsis and rice.
PLoS Comput Biol, 2006, 2(9): e115.
[20] Dassanayake M, Oh DH, Haas JS, et al. The genome of the
extremophile crucifer Thellungiella parvula. Nat Genet, 2011, 43
(9): 913-918.
[21] Wang X, Wang H, Wang J, et al. The genome of the mesopolyploid
crop species Brassica rapa.. Nat Genet, 2011, 43(10): 1035-
1039.
[22] Semon M, Wolfe KH. Consequences of genome duplication. Curr
Opin Genet Dev, 2007, 17(6): 505-512.
[23] Cheng F, Wu J, Fang L, et al. Biased gene fractionation and
dominant gene expression among the subgenomes of Brassica rapa.
PLoS One, 2012, 7(5): e36442.
[24] Mun JH, Kwon SJ, Seol YJ, et al. Sequence and structure of
Brassica rapa chromosome A3. Genome Biol, 2010, 11(9): R94.
[25] Cheng F, Liu S, Wu J, et al. BRAD, the genetics and genomics
database for Brassica plants. BMC Plant Biol, 2011, 11(1): 136.
[26] 孙思龙 . 白菜、甘蓝与拟南芥比较基因组分析[D]. 北京 :
中国农业科学院 , 2011.
[27] 张增艳 , 陈洋 , 邵艳军 . 植物激素调控植物防御反应的研究进
展 . 作物杂志 , 2009(6): 13-17.
[28] Fawcett JA, Maere S, Van de Peer Y. Plants with double genomes
might have had a better chance to survive the Cretaceous-Tertiary
extinction event. Proc Natl Acad Sci USA, 2009, 106(14):
5737-5742.
(责任编辑 狄艳红)