免费文献传递   相关文献

非编码保守DNA序列形成与演化机制



全 文 :综述与专论
生物技术通报
BIOTECHNOLOGY BULLETIN 2010年第 1期
非编码保守 DNA序列形成与演化机制
朱红霞 1 胡利宗 2 黄建新1
( 1新乡学院,新乡 453003; 2中国科学院遗传发育研究所,北京 100101)
  摘  要:  作为一种系统进化足迹, 基因组非编码保守 DNA序列受到极大关注。由于非编码保守 DNA序列很可能与转
录因子或特异蛋白质相互作用,直接参与调控基因表达或稳定染色体结构等重要的生命活动。因此,它极有可能成为基因组
研究的下一个新浪潮。在总结对生物非编码保守 DNA序列的认识过程的基础上,详细阐述了非编码保守 DNA序列形成与演
化的模型及其分子生物学机制,进一步展望了非编码保守 DNA序列在生物学研究中的应用前景。
关键词:  生物 非编码保守 DNA序列 系统进化
Mechanism of the Formation and Evolution
of Conserved Noncoding Sequences
Zhu H ongx ia
1
Hu L izong
2
Huang J ianx in
1
(
1
X inxiang University, X inx iang 453003;
2
Institute of Genetics and D evelopmental B iology in CAS, Beij ing 100101)
  Abstrac:t  Conse rved noncoding sequences w ith in genom es, known as a phy log enetic foo tpr inting, have been extensive ly stud ied
and conce rned. It can regulate gene expression and stab le the spec ific chromosom e structure v ia a direct o r indirect inte raction o f tran
scription factors or spec ific pro teins. Consequently, conserved noncod ing sequencesw ou ld becom e a nex t and new hotspot o f genom e re
searches. The bas ic process of know ing conserved noncoding sequences w as summ ar ized and the m ode ls and mo lecu larm echanism of
the form ation and evo lution o f conserved noncod ing sequences w ere described in deta i.l F ina lly, the theo re tica l and app lied roles of con
serv ed noncod ing sequences in b io log ical researches w ere furthe r pro spected.
Key words:  B io logy C onse rved noncoding sequences Phy logene tic
收稿日期: 20090930
作者简介:朱红霞,女,在读硕士,研究方向:分子生物学; Em ai:l hu lizong2008@ 163. com
通讯作者:黄建新,男,副教授,研究方向:微生物生物技术; Em ai:l lgl0077@ 163. com
基因组中不编码蛋白质、也不编码 rRNA、tRNA
或 ncRNA[ 1]等的 DNA序列,即被称为垃圾 DNA [ 2 ] ,
长期受到冷落。随着功能基因学研究的逐渐深入,
生物学家已意识到基因组内 垃圾!DNA的重要性,
但垃圾 DNA研究进展缓慢, 其主要原因在于垃圾
DNA不仅容量高,而且保守性差。利用比较基因组
学方法成功地从哺乳动物基因组中挖掘到非编码保
守 DNA序列, 为垃圾 DNA研究提供了新的契机。
例如, 人与小鼠的基因组的比较发现,这两个基因组
大小相似,有 40%的基因可以进行比对 [ 3 ] ,在 5%受
到负选择的区域中, 仅 15%编码蛋白, 余下 35%
的序列不产生 RNA或蛋白水平上的功能性转录子,
却可以发挥重要功能 [ 4 - 6]。近年来, 基于比较基因
组学的植物非编码保守 DNA序列研究工作也逐渐
被展开, 成为功能基因组学研究的又一新亮点。
2007年, S ilv io等 [ 7]以 ZmRap27和 Rad51作为检
索序列, 同时利用 mV ISTA和 BL2SEQ对玉米、水
稻、高粱和拟南芥相应直系同源序列进行比较分析,
结果发现玉米、水稻和高粱 3种作物 V gt1相应的基
因组序列内含有 2个 CNS, 而在玉米和拟南芥比较
中没有发现 CNS存在。但是, Vgt1主效 QTL分子
机制知道甚少,进一步对 V gt1等位基因与下游基因
转录水平进行相关分析,结果表明 Vgt1作为一种远
距离的顺式调控元件对开花性状起作用。N aoyuk i
等 [ 8]比较 3种单子叶和 10种双子叶植物 STM基因
的 5∀端上游区段,鉴定出 2个非编码保守 DNA序列
2010年第 1期 朱红霞等:非编码保守 DNA序列形成与演化机制
即 Kbox和 RBbox, 它们对 STM 基因表达进行调
控,从而影响叶子发育。
非编码保守 DNA序列具有高度的保守性, 受选
择限制。尽管它不产生在 RNA或蛋白水平上的功
能性转录子,但很可能在基因调控中发挥重要功能。
鉴于非编码保守 DNA序列的重要性, 综述非编码保
守 DNA序列的相关研究,以达抛砖引玉之效。
1 非编码保守 DNA序列的认识过程
人类基因组测序结果显示,在基因组 30亿碱基
对的序列中,只有大约 15%的序列用以编码蛋白
质,而大约占 98%的基因组序列都属于 垃圾 !DNA
之列。作为基因组的主要组成部分, 垃圾 DNA包括
与基因表达有关的各种调控序列 (所占比例很小 )、
基因的内含子、基因间的大量非编码序列。大量研
究表明,非编码序列具有一定的生物学功能。目前
发现了其中的一些功能信息,例如,提供生物进化的
物质基础 [ 9] ; 作为一种 活跃分子!改变着基因组整
体 G+ C含量 [ 10] ; 为中期染色体带型提供了结构基
础,如 CpG岛、DNA环、G或 R带型为主的基质附着
位点,揭示了非编码 DNA是如何形成染色体结构的
基础 [ 11]。非编码序列数据量庞大、物种保守性低、
规律性差,这成为非编码序列研究的瓶颈,限制了人
们对它的进一步深入研究。
基因组中保守序列在生物的进化中具有特殊的
功能, 那么是否可以通过比较基因组学方法对非编
码区的保守序列进行鉴定和研究。通过人、小鼠和
大鼠基因组的比较分析, 在直系同源区域中发现
481个长度超过 200 bp、序列一致性达 100%的超保
守元件,这些保守元件广泛分布于基因组中,几乎在
哺乳动物、鸟类和鱼类中也都是保守的 [ 6]。 Inada
等 [ 12]于 2003年比较了玉米和水稻全基因组, 发现每
个基因平均含有 3个相应非编码保守 DNA序列, 但
在抽样基因中有 27%的基因没有检测到相应的 CNS。
近年来,大量研究表明,非编码保守 DNA序列是一种
隐藏在基因组非编码序列中的暗物质,很可能参与多
种生理生化过程并具有许多潜在的生物学功能。
2 非编码保守 DNA序列的经典基因重复
模型
基因重复是真核生物基因组尺寸和完整性主要
决定因素之一。通常基因重复是由多倍化的全基因
组重复事件引起的,而多倍化在真核生物进化过程
中扮演着十分重要的角色, 尤其在植物中。古代时
期拟南芥至少经历了 3次多倍化重复事件 [ 13- 15]。
水稻基因组包含重复的染色体区段, 主要来源于古
代部分片段重复 [ 16]或古生代多倍化事件 [ 17, 18]。玉
米遗传图暗示了基因组多次发生过大规模重复事
件 [ 19]。最近, B lanc等 [ 20]利用已知 EST 数据在 14
个植物物种中调查了重复基因数目和相对年龄。其
中 9个物种包括古代大规模重复事件,这些重复事
件暗示了在样品物种系统进化过程中,至少发生了
7次古生代多倍化事件。在较小样本的被子植物系
统进化历史中, 至少有 16次多倍化事件。毫无疑
问, 通过古代和近代多倍化事件发生,植物基因组结
构组织和功能进化已经形成雏形。
由 Ohno[ 21]提出的经典的基因重复模型认为,
单拷贝基因重复产生的功能冗余, 其中一个单拷贝
没有严格的选择压力,为其进一步序列和功能分化
提供了条件。这个拷贝一般有两个潜在的命运, 可
能通过突变获得更加适应环境的新功能,或是积累
有害突变淹没于基因组中, 最终形成一个没有功能
的假基因。M cEwen等 [ 22 ]在大约 2 300个哺乳动物 
河豚保守的非编码保守 DNA序列中,鉴定到 124个
包含重复的非编码保守 DNA序列成员的家族,每个
家族最多有 5个成员。重复非编码保守 DNA序列
具有以组织特异方式上调基因表达的能力, 每个家
族与一组旁系同源基因关联,共同参与转录、发育和
环境应答等生物学过程。尽管, 古老的基因组复制
能够解释一小部分非编码保守 DNA序列的形成机
制,但非编码保守 DNA序列的数量和基因家族数量
间的巨大差异进一步暗示:非编码保守 DNA序列应
该还有其它生物学机制。
3 非编码保守 DNA序列的重复 冗余 互补
模型
Force
[ 23]和同事提出了另外一个模型, 即重复 
冗余 互补模型, 该模型认为, 在调控元件内的互补
和有害突变使后代重复基因分割了祖先基因的功
能, 即产生两个分歧基因,分别分割了祖先基因部分
功能。正像大陆漂移假说一样, 祖先基因中的一整
块非编码保守序列被分割并分配到两个后代基因,
45
生物技术通报 B iotechnology  Bulletin 2010年第 1期
相应的基因功能和调控元件也被分割并分配到两个
不同的后代基因中。与哺乳动物相比, 禾本科植物
基因组重复次数较多, 所以, 更多后代基因产生,导
致每个祖先基因的非编码保守 DNA序列被分割到
较多的后代基因中,最终每个基因平均 CNS数量降
低。如果这种假设是正确的,那么在植物基因组和
每个基因家族将包含有更多的基因, 并且每个基因
将拥有较少的 CNS。反之, 哺乳动物基因组发生重
复事件较少,基因功能分化机会少,在几个测序基因
组中的基因家族的基因数目比较研究显示, 支持了
上述观点。拟南芥和水稻有庞大的基因家族, 每个
基因家族中的基因数量也最高。拟南芥仅仅有
35%基因是单拷贝, 包括 5个或更多成员的基因家
族占了至少 37% [ 24 ]。但是,在人类基因组中, 77%
基因是单拷贝的, 仅仅有 04%基因家族超过了 5
个成员 [ 25]。参考拟南芥、果蝇、酵母和线虫不同标
准 [ 24] ,分别定义了人类 [ 25]和水稻基因家族中的基
因比例。但是,已经有证据表明,植物比其它物种含
有更多的遗传重复现象 [ 26] ,这很可能是由于多倍体
化和串联重复引起的。
传统比较基因组学能够挖掘出直系同源基因之
间的非编码保守序列,但是,研究两个旁系同源物之
间的非编码保守序列模式也很重要。因此, Lang
ham
[ 27 ]和他的同事们开始在玉米旁系同源物间寻找
CNS功能演化的证据。他们创造了两个术语来描
述发现的 CNS演化过程。第一个是分隔或分离
( fractionation) ,它描述重复区通过突变功能 DNA序
列导致功能丢失, 这些 DNA序列区以 DDC模型中
的方式丢失。但是,分离不仅仅只限于单基因,也可
以是染色体片段、基因区和基因内 CNS。第二个术
语是固定,它不描述任何进化事件,但是一个重建的
推测祖先 DNA分子重复状态的智能过程。如果重
复事件后分支拷贝可以补偿丢失的保守序列, 那么
所有原始的保守 DNA应该在两个拷贝中找到。术
语 #固定 ∃将两个分离的部分保守序列功能固定下
来,在效应上与分离是相反的。一旦两个分支序列
被固定下来 (例如两个玉米重复序列 ) ,它们与没有
发生重复的亲属序列的共线性很明显 [ 28]。这种共
线性为利用比较基因组学方法鉴定基因和非编码保
守序列提供了方便。Langham和他的同事对第三条
染色体上, 包括 Lg2基因 (编码一个亮氨酸拉链蛋
白 )和它相关重复序列 Lrs1基因 (位于第 8条染色
体 )的两个玉米人工染色体进行了测序, 这两个人
工染色体的同源区总共包括 13个基因。这两个分
离的区段被固定后,它们与水稻同源区段具有较高
的共线性。除了成对同源区段 ( Lg2基因和 Lrs1基
因 ) ,在两个 BAC序列之间没有发现其它同源的基
因存在。从染色体和基因两个水平看,两个同源区
段已经完成分化。应该注意到, 基因这种类型的分
化是相对常见。例如, 拟南芥发生大规模重复事件
后,大约 23%重复基因能够被成对保留下来,剩余的
77%基因的两个拷贝都在后来进化中丢失了 [ 24]。
更重要的是, Langham 和同事们在 Lg2Lrs1基
因重复基因对中, 在非编码保守序列水平上考察了
分离模式。直到今天, Lg2基因是在所有已经鉴定
的禾本科基因中含有 CNS最多的基因, 拥有 0- 30
CNS。玉米旁系同源物 Lg2基因、Lrs1基因和水稻
相应的直系同源物比较分析显示, Lg2基因已经失
去了一个 CNS,而 Lrs1基因已经失去了 2个 CNSs。
自从 11近代多倍化事件的发生以来, 这 3个 CNS
已近发生分化现象 [ 29]。在 Lg2基因和 Lrs1基因之
间, 功能分化现在正在继续, 其它旁系同源物间的
CNS进化研究为深入认识重复基因的表达调控提
供了丰富的线索。
这些研究结论在一定程度上支持上述观点, 但
是也有一些矛盾存在,为了解释这些矛盾,新的非编
码保守 DNA序列的形成机制被提出。
4 非编码保守 DNA序列的转座子模型
与植物非编码保守 DNA序列相比, 人们对哺乳
动物非编码保守 DNA序列起源与演化问题知之甚
少。但有关非编码保守 DNA序列的起源和演化问
题已经有不同的形成机制被提出。目前,人们将注
意力转向另外一种观点, 即哺乳动物非编码保守
DNA序列家族在某些情况下可能是由转座元件产
生的。Doo little和 Sap ienza[ 30]将转座元件赋予了一
种新的基因组功能,他们猜测重复元件在基因组中
发挥分配调控序列的功能, 丰富甚至创造了整个通
路, 或者获得一种细胞功能, 这一过程被称为扩张
( expansion)。Be jerano[ 31 ]及其同事认为一类高度保
守非编码元件来源于四脚动物分支时的 SINE; 此
46
2010年第 1期 朱红霞等:非编码保守 DNA序列形成与演化机制
外,有关该转座元件产生的非编码保守元件家族也
有报道 [ 32]。对于 AmmSINE I家族的研究 [ 33] , 提供
了保守的非编码序列和古老的转座子密切相关的更
可靠的证据。来源于 AmmSINE I(Amnlota S INE s)的
非编码保守序列, 出现在哺乳动物 (如鸟及先于鸟
形成的一些类似鸟物种 )中,可以横跨 310百万年。
通过对人基因组中 1 000个可以识别的 AmmSINE I
拷贝序列位点与哺乳动物 (人类、黑猩猩、小鼠、大
鼠和狗 )同源物中的保守性进行比较,结果发现, 105
个拷贝的 AmnSINE I在哺乳动物直系同源物中是保
守的。推测 AmmS INE I发生于哺乳动物古老祖先
中,并处于纯净选择下,对宿主的生存能力具有很重
要的意义,可能涉及不同的功能, 与哺乳动物、羊膜
动物、四脚动物或者脊椎动物每一演化分支中的特
异形态发生相关。基于这些例子, 可以推测许多其
它非编码保守序列家族都可能是起源于多细胞动物
演化历史早期或者更早时期,并通过转座元件进行
分散, 对进化有利的插入被保持。因此,移动元件可
能驱动了整个基因组特别是非编码功能元件的形成
和演化。
5 结语与展望
据估计, 在人类基因组中有 6万个这样的非编
码保守 DNA序列, 但仅仅有 3- 4万个为蛋白质编
码的基因,两者几乎相差 2倍。这个数字震撼了许
多生物学研究者,也暗示了非编码保守序列可能具
有以前不为人所知的重要功能。
目前,大多数非编码保守 DNA序列都是通过生
物信息学和比较基因组学方法获得的, 所以现在只
能间接地推测非编码保守 DNA序列的潜在功能。
要想对非编码保守 DNA序列的功能进行正确全面
的注释,需要做大量的试验加以功能验证。由于基
因组非编码保守 DNA序列的丰富性、广阔性、保守
性和功能性等特点,使得它具有广泛用于遗传作图、
关联分析、基因图位、系统进化等领域潜力。但就目
前的研究手段而言, 从研究核酸序列一致性性和功
能性关系切入,可以了解更多的非编码序列的功能。
然而随着研究方法的发展和改进, 以及对非编码元
件认识的逐步深入, 必然会从调控网络的整体角度
来揭示包括非保守序列在内的各类非编码元件在生
命活动、发育以及疾病发生中的重要功能。从某个
角度上说,非编码序列可能比编码序列具有更加复
杂的生物学功能, 更加精密和准确的调控基因的时
空表达。
参 考 文 献
[ 1] 宋江华,曹家树.植物非编码 RNA的研究进展.生物技术通报,
2009( 5) : 58.
[ 2] 李明振,张铭,明镇寰. Junk DNA的功能途释.生物化学与生物
物理进展, 2004, 31: 479481.
[ 3] Derm itzakis ET, Reym ond A, An tonarak is SE. C onserved nongen ic
sequencesan unexpected feature ofm amm al ian genom es. Natu re Re
view Gen et ics, 2005, 6: 151157.
[ 4] S andelin A, B ailey P, B ruce S, et a.l A rrays of u ltracon served non
cod ing reg ion s span the loci ofk ey developm ental genes in verteb rate
genom es. BMC Gen om ics, 2004, 5: 99101.
[ 5] Thom as JW, Tou chm an JW, B lakesley RW, et a.l Com parative analy
ses of m ult ispecies sequences from targeted genom ic region s. Na
ture, 2003, 424: 788793.
[ 6] FrazerKA, Sheehan JB, S tokow sk iRP, et a.l Evo lut ion ary con served
sequences on human ch rom osom e 21. Genom e Research, 2001, 11:
16511659.
[ 7 ] S ilvio S, G iorg io S, M ichele M. Con served noncod ing gen om ic se
qu ences associated w ith a flow eringt ime quan titative trait locu s in
m aize. Proceed ings of the NationalAcademy of S ciencesUSA, 2007,
104: 1137611381.
[ 8] Naoyuk iU, B rad T, Kook HC, et a.l Regulation of SHOOT MERIS
TEMLESS genes via an upstreamconserved non cod ing sequ ence co
ord inates leaf developm en t. P roceed ings of th e Nat ional Academ y of
S cien ces USA, 2007, 104: 1595315958.
[ 9] Thom as B, D ietmar Q, M arcus K. M olecu lar evolu tion and phy loge
n et ic u tility of noncod ing DNA: appl icat ion s from species to d eep
level quest ion s. P lan t System at ic Evolut ion, 2009, 2: 108110.
[ 10] Zhang L, Kas if S, C antor CR, et a.l GC /ATcon tent sp ikes as ge
nom ic punctuation marks. Proceed ings of th e Nat ional Academ y of
SciencesUSA, 2004, 101: 1685516860.
[ 11] Glazko GV, Koonin EV, Rogozin IB, et a.l A sign ificant fract ion of
conserved noncod ing DNA in human andm ou se cons ists of pred ic
ted matrix attachm en t regions. Trend s in G enet ics, 2003, 19:
119124.
[ 12] Inada DC, Bash ir A, Lee C, et a.l Conserved noncod ing sequen ces
in the grasses. Genom e R esearch, 2003, 13: 20302041.
[ 13] V is ion T J, Brown DG, T anksley SD, et a.l The origin s of gen om ic
dupl icat ions in Arab idops is. Science, 2000, 290: 21142117.
[ 14] S im illion C, Vandepoele K, Van M ontaguMCE, et a.l The h idden
dupl icat ion past ofArabidopsis tha liana. P roceed ings of theN at ion al
Academ y of SciencesUSA, 2002, 99: 1362713632.
[ 15] Bow ers JE, C hapman BA, Rong J, et a.l Un ravelling ang iosperm ge
47
生物技术通报 B iotechnology  Bulletin 2010年第 1期
nom e evolu tion by phylogenet ic analys is of chrom osomal dup licat ion
even ts. Natu re, 2003, 422: 433438.
[ 16 ] Vand epoele K, S im i llion C, S aeys, Y, et a.l Evid ence that rice and
other cereals are ancien t aneup lo ids. P lan t C el,l 2003, 15:
21922202.
[ 17 ] Goff SA, R icke D, Lan TH, et a.l A d raft sequence of the rice ge
nom e(Oryza sativa L. ssp. japon ica) . Science, 2002, 296: 92100.
[ 18 ] Paterson AH, Bow ers JE, Chapm an BA, et a.l Ancien t po lyp loid iza
tion predating divergen ce of the cereals, and its consequences for
comparative genom ics. Proceed ings of the N at ional Academ y of S ci
en cesUSA, 2004, 101: 99039908.
[ 19 ] H amp son S, M cLysagh tA, G aut B, et a.l L ine Up: stat istical d etec
tion of ch rom osom al hom ology w ith app licat ion to p lan t com parative
genom ics. Genom e R esearch, 2003, 13: 9991010.
[ 20 ] B lan c G, W olfe KH. W idespread paleopolyp loidy in m odel p lan t
species in ferred from age d istribu tions of dup licate gen es. P lan t
Cel,l 2004, 16: 16671678.
[ 21 ] Ohno S. E volut ion by gene dupl icat ion. Berlin: Springer
V erlag, 1970.
[ 22 ] M cEw en GK, W oolfe A, Goode D, et a.l A ncien t dup licated con
served n oncoding elem en ts in vertebrates: a genom ic and functional
analysis. Genom e R esearch, 2006, 16: 451465.
[ 23] Force A, LynchM, P ickett FB, et a.l Preservat ion of dupl icate genes
by com p lem en tary d egen erat ive m u tat ions. Gen et ics, 1999, 151:
15311545.
[ 24 ] A rabid op sis Genom e In itiat ive. An alysis of th e genom e sequence of
th e flow ering p lan t Arabidopsis tha liana. Nature, 2000, 408:
796815.
[ 25] L iWH, Gu Z, Wang H, et a.l Evolu tion ary an alyses of the hum an
genom e. Nature, 2001, 409: 847849.
[ 26] S zathmary E, Jordhn F, Pa l C, et a.l M olecu lar b io logy and evolu
t ion. Can genes exp lain b iological com plexity? Science, 2001, 292:
13151316.
[ 27] Langham RJ, W alsh J, Dunn M, et a.l Genom ic dup lication, frac
t ionat ion and the orig in of regulatory novelty. Gen et ics, 2004, 166:
935945.
[ 28] Freeling M. Grasses as a s ingle gen et ic system: reassessm ent. Plant
Physiology, 2001, 125: 11911197.
[ 29] Gau t BS, Doebley JF. DNA sequ ence ev idence for the segm en tal al
lotetrap loid origin ofm aize. Proceed ings of the NationalAcademy of
SciencesUSA, 1997, 94: 68096814.
[ 30] Doolitt le WF, Sapienza C. Selfish genes, th e ph enotype parad igm
and genom e evolut ion. Natu re, 1980, 284: 601603.
[ 31] B ejerano G, Low e CB, Ah ituv N, et a.l A d ista l enhancer and an u l
tracon served exon are derived from a novel retroposon. Natu re,
2006, 441: 8790.
[ 32] X ie XH, M ichaelK, Lander ES. A fam ily of conserved noncoding
elem ents derived from an an cien t transposab le elem en t. Proceed ings
of th e National Academ y of S ciences U SA, 2006, 103:
1165911664.
[ 33] N ishihara H, Sm it AF, Okada N. Functional non cod ing sequen ces
derived from S INEs in th e m amm alian gen om e. G enom e Research,
2006, 16: 864874.
48