免费文献传递   相关文献

高等植物基因组测序回顾与展望



全 文 :综述与专论
生物技术通报
BIOTECHNOLOGY BULLETIN 2011年第 5期
高等植物基因组测序回顾与展望
刘蓉蓉
(中国农业科学院科技管理局,北京 100081)
  摘  要:  全基因组序列测定为揭示植物重要性状形成的分子和遗传机制提供了强大工具, 基因组学研究正开始指引着
农作物新品种培育向定向化和精确化转变。在新一代测序技术的带动下,植物全基因组测序的热潮已经到来。对迄今开展
的高等植物基因组测序工作进行简要回顾,并对未来的研究热点进行展望。
关键词:  植物 基因组 测序
Retrospect and Prospect of H igh P lantGenome Sequencing Projects
L iu Rongrong
(D epartm ent of Science and TechnologyM anagem ent, Chinese A cademy of Agricultural Sciences, B eijing 100081)
  Abstrac:t  P lan t genom e sequenc ing is a pow erful too l to study mo lecu la r and gene ticm echanism s behind agronom ic traits, and the
rap id developm ent in plant genom ics is gu iding crop breeding to am ore d irective and prec ise stag e. Due to the success o f the nex tgen
e ration sequencing techno logy, a boom o f plan t genom e sequenc ing has com e. P lant genom e pro jects carried out so far we re br ie fly re
v iew ed, and perspectives o f agr icultural genom ics w ere summ ar ized.
Key words:  P lant Genom e Sequenc ing
收稿日期: 20101130
作者简介:刘蓉蓉,女,博士,助理研究员,研究方向:农业科技管理; Em ai:l liurr@ caas. n et. cn
自 2000年全球首个高等植物拟南芥全基因组序
列得到解析以来,迄今为止,共有 10余种高等植物完
成了全基因组测序。随着新一代测序技术的发展和
应用,全基因组测序所需的时间与成本均大幅下降。
对任意物种进行全基因组图谱绘制即将实现,基因组
学与 后基因组学 的各种研究方法和技术随之涌
现,对高等植物生长发育过程各种生理生化机制的探
究将上升到基因组水平,从而对植物分子生物学、生
物技术和农作物品种改良带来深远影响。
1 全基因组测序对植物分子生物学研究的
影响
基因组学极大地拓宽了植物学研究的视野,开
辟了新兴研究领域,提供了全新的思路和方法,使解
决问题的能力有了飞跃式提升,加速了重大发现的
获得, 对植物分子生物学和生物技术发展的驱动作
用越来越显著。
11 使得同时解析全部遗传信息成为可能
传统的植物分子生物学通常针对一个或数个基
因进行 零敲碎打式的研究, 难以了解基因组的全
貌,研究结果往往带有一定的局限性。当全基因组
测序成为现实后,基因组学取得长足发展,并催生了
蛋白组学、转录组学、代谢组学和 RNA组学等一系列
新兴的 后基因组学 ,可同时对一个细胞、组织或植
株进行整体性研究。这些 组学与计算生物学相结
合形成了 系统生物学 , 旨在以生物体整个基因组
全部遗传信息为基础,破解表现型的遗传基础、形成
机制和调控网络。这些新兴研究手段使植物分子生
物学研究产生了革命性发展,呈现出全新的面貌。
12 大大促进了对重要农艺性状遗传基础的理解
获得全基因组序列后, 借助基于序列特征分析
的计算机软件进行全基因组搜索, 综合利用高密度
物理或遗传图谱、比较基因组学手段及基因芯片技
术等,能够开展功能基因预测,显著提高基因克隆效
率。事实上,植物基因组学或 后基因组学 的主要
任务之一,就是找到与生长、发育、产量、品质和抗性
等重要性状相关的候选基因 /QTL或紧密连锁的分
2011年第 5期 刘蓉蓉:高等植物基因组测序回顾与展望
子标记,为作物遗传改良奠定基础。由于重要农艺
性状通常是受多基因控制的数量性状, 要想对其形
成机制、基因互作和代谢网络进行整体、深入和全面
的了解,就必须借助基因组学研究手段。
13 显著增进了对染色体结构与分子进化过程的
认识
全基因组序列的解析使人们对于染色体结构特
征有了更为深刻的认识。例如,可以通过染色体不
同区域的 DNA序列特征分析,辨别出富含重复序列
而重组概率低的异染色质区与富含基因序列而重组
概率高的常染色质区,还可鉴别转座因子 ( transposa
b le elements)的种类与数量,以及参与调控染色体复
制和重组的序列,了解突变、转座、重排等变化的内容
与控制机理。另外,通过染色体同源性分析与比较基
因组学研究,能够确定在生物进化过程中发生基因组
加倍的事件及大致年代,推测染色体发生复制、断裂、
融合、丢失或重排的过程,为分子进化学提供十分有
效的研究手段,有助于深入理解进化发生的机制。
14 对基因表达调控的理解上升到基因组层面
基因表达受到不同水平的复杂调控, 植物生长
发育繁殖过程和应对外界各种环境的机制就是这些
调控综合作用的结果。对基因表达起调控作用的编
码或非编码序列构成基因组的重要内容,这些序列
如何在不同环节影响特定基因的表达,传统分子生
物学往往很难全面回答这一问题。当知道全基因组
序列后,借助计算机软件分析,可以推测转录、剪切
等调控元件的数量、结构和位置等信息,比较不同基
因或同一基因不同拷贝间在转录与转录后水平所
受调控的异同, 有利于从相对宏观的水平理解这
一复杂机制 [ 1]。小分子 RNA组学、表观基因组学
等为研究基因表达调控开辟了全新的重要研究
领域。
2 植物基因组计划
迄今为止,共有近 20种高等植物完成了全基因
组框架图或精细图的绘制 (表 1) ,涵盖了模式植物、
粮食作物、园艺作物和油料作物等 [ 2- 21]。从逐步克
隆 ( c lonebyc lone)策略, 到全基因组鸟枪法 ( whole
genome shotgun)策略, 再到采用新一代测序技术实
现从头 (d e novo)测序,植物基因组测序呈现效率不
断提高而成本显著下降的趋势。
表 1 已完成的植物基因组计划简况
物种 基因组大小 (Mb ) 推测基因数 (个 )     完成国家 完成年份* 完成程度
拟南芥 125 31 114  美国、日本、德国等 2000 精细图
水  稻 430 37 000- 56 000  日本、美国、法国等 2002 精细图
杨  树 485 > 45 000  美国、瑞典、加拿大等 2006 框架图
葡  萄 487 30 434  法国、意大利 2007 框架图
木  瓜 370 24 746  美国、中国 2008 框架图
高  粱 730 34 496  美国、德国、中国等 2009 框架图
黄  瓜 350 26 682  中国、丹麦、美国等 2009 框架图
棕  榈 1 800 /  马来西亚 2009 框架图
玉  米 2 500 > 32 000  美国、法国、印度 2009 框架图
白  菜 492 41 835  中国、澳大利亚、英国等 2009 精细图
马铃薯 840 > 35 000  中国、荷兰、英国等 2009 框架图
大  豆 1 100 46 430  美国、日本 2010 框架图
短柄草 272 25 532  美国、英国、波兰等 2010 框架图
蓖  麻 325 31 237  美国、尼日利亚、德国 2010 框架图
木  薯 416 47 164  美国 2010 框架图
苹  果 742 57 386  意大利、美国、法国等 2010 框架图
  * 以公开发表文章或公开宣布的年份代表
11
生物技术通报 B iotechnology  Bulletin 2011年第 5期
21 简要回顾
拟南芥和粳稻的全基因组测序采取逐步克隆策
略,分别历经 5年和 9年时间才完成,在取得开创性
成果的同时,也耗费了大量的人力物力。我国科研
人员独立绘制的籼稻基因组是世界首例以全基因组
鸟枪法构建的高等植物基因组图谱 [ 4, 5] , 随后, 以遗
传图谱和物理图谱为参照, 植物基因组测序普遍采
用这一更为便捷的策略。玉米基因组是迄今为止已
测序高等植物基因组中最大的,采用逐步克隆、每个
克隆用鸟枪法测序的策略完成 [ 6 ]。黄瓜基因组首
次利用新一代 So lexa系统测序技术, 结合传统 San
ger法,实现了从头测序 [ 7] , 而棕榈基因组则完全依
靠新一代罗氏 454测序技术独立完成了从头测
序 [ 8]。新一代测序技术大大提高了全基因组测定
效率, 例如白菜基因组框架图仅用半年时间即绘制
完成。
通过基因组全序列测定,发现了一大批与不同
生理生化特点相关的基因, 例如杨树与木质纤维素
合成、分生组织发育和代谢产物运输等过程相关的
基因 [ 9] , 合成赋予葡萄香味的萜类化合物和丹宁酸
的基因 [ 10] ;高粱与 C4光合作用和强耐旱性有关的
基因 [ 11] ; 玉米与突出的杂种优势特性相关的 DNA
片段等 [ 12]。商业化的转基因抗病毒木瓜是首例被
测序的转基因作物, 测序确认了 3个拷贝外源基因
的插入位点 [ 13]。禾本科稻亚科 (水稻 )、黍亚科 (高
粱、玉米 )和早熟禾亚科 (二穗短柄草 )均有物种完
成了全序列测定,为世界主要粮食作物的分子生物
学研究与品种改良提供了强大助力, 其中二穗短柄
草全序列测定为同属此亚科的小麦和大麦基因组学
研究提供了十分重要的借鉴。由于基因组规模巨大
(约是水稻的 38倍 )、结构复杂且序列重复度高,小
麦基因组计划正面临着前所未有的挑战。此外,还
通过种间染色体序列比对, 揭示了高等植物在进化
过程中发生的全基因组复制事件 [ 2, 10, 14, 15] , 为分子
进化学提供了可靠证据。新近宣布完成测序的油料
作物蓖麻基因组解析了蓖麻毒素与油脂代谢的基
因 [ 16] ,而木薯基因组框架图的构建, 将极大促进对
这一热带地区主要粮食作物的深入研究和改良 [ 17]。
22 即将迎来的大发展
以 Illum ina公司的 Solexa系统、罗氏公司的 454
系统以及 App lied B iosystems公司的 SOL iD系统为
代表的新一代测序技术系统渐渐成为大规模全基因
组测序的技术主导,从根本上改变了解析生物全基
因组的方式, 使得 DNA数据产出能力呈指数增长,
同时成本急剧降低,对任意物种进行全基因组测序
即将成为现实 [ 22]。2010年 1月, 深圳华大基因研究
院正式宣布启动一项规模庞大的 千种动植物基因
组计划, 计划在两年时间内对约 1 000种具有重要
科研或经济价值的动植物物种进行全基因组测序,
其中包括高等植物约 500种 [ 23]。目前, 一大批重要
农作物的全基因组测序工作正在进行中,包括小麦、
棉花、西瓜、兰花和番茄等。可以预计, 在不久的将
来, 这些基因组图谱便会新鲜出炉, 植物全基因组
俱乐部成员的数量将会呈现 井喷式增长。在此
背景下,一方面,科研大联合、大协作日益加深,另一
方面,世界范围内对物种全基因组测序、抢占知识产
权高地、提升国际学术地位和话语权的竞争将空前
加剧。
3 基因组学与 后基因组学 展望
基因组序列信息源源不断地从测序仪读出, 解
析这些序列所包含的全部遗传信息便成为基因组测
序后的首要任务, 可以说, 全基因组图谱构建完成
后,真正艰巨的工作才刚刚开始。以下对由新一代
测序技术带动的基因组学与 后基因组学 研究作
一展望。
31 转录组学 ( transcriptom ics)
转录组 ( transcriptome)指细胞中全部转录产物
的总和。通常用来研究转录组的方法主要有表达芯
片、定量 PCR和基因表达系列分析 ( SAGE )等,但这
些方法要么只能通过间接的方法测定基因表达水
平, 要么无法研究未知转录产物,或者步骤繁琐、费
用高昂。借助通量高、成本低、速度快的新一代测序
技术,可以通过对转录组 cDNA测序而直接读出所
有基因表达产物的丰度, 并能鉴别出以前未知的转
录产物 [ 24]。应用新一代测序技术, 已经建立了多种
模式生物的表达序列标签 ( EST )数据库, 对基因组
解析和基因克隆具有重要价值 [ 25]。通过对转录组
cDNA进行鸟枪法测序并拼接, 还获得了拟南芥、豌
豆和玉米等植物的转录组全貌。将新一代测序技术
与 SAGE法相结合, 利用测序反应获得的小片段序
12
2011年第 5期 刘蓉蓉:高等植物基因组测序回顾与展望
列为标签,能够方便的鉴定不同品种或不同环境条
件下基因表达的异同。
32 小分子 RNA组学 ( Rnom ics)
基因组转录产物中,编码蛋白的 mRNA只占很
小一部分, 大部分是不被翻译为蛋白的非编码
RNA,其中包括小分子调控型的 siRNA、m iRNA和
piRNA等。小分子非编码 RNA在基因表达的转录、
转录后和翻译水平都有着十分重要的调控功能,也
与 DNA甲基化和转座子沉默密切相关,是近年来分
子生物学研究的一个热点。新一代测序技术读长较
短,非常适合小分子 RNA测序, 大大促进了小 RNA
基因的发现,特别是表达丰度和同源性较低的分子。
此外, 对特定组织、特定发育阶段或特定诱导条件下
植物体内小 RNA转录组进行测序, 为揭示小 RNA
的功能提供了依据。研究者利用新一代测序技术测
定了拟南芥、水稻、小麦、大豆、玉米和番茄等物种的
小分子 RNA文库, 获得了 105 - 107个小分子 RNA
序列, 从中鉴定了大量新分子, 并通过表达特征分析
进行了功能研究 [ 26]。RNA组学的一个分支是计算
RNA组学,即通过开发各种算法, 从基因组水平对
小 RNA基因进行预测和分类鉴定,并寻找作用的靶
序列, 预测其功能与调控网络 [ 27]。
33 表观基因组学 ( epigenom ics)
表观基因组学是从基因组水平上研究表观遗传
学的学科。DNA甲基化是生物界普遍存在的表观
遗传修饰方式,已成为表观基因组学最重要的研究
内容。DNA甲基化后, 与转录因子等 DNA结合蛋
白的相互作用发生改变,或染色质结构发生改变,在
植物生长发育和应对环境胁迫过程的基因表达调控
中起着重要的作用 [ 28]。发生甲基化的胞嘧啶在亚
硫酸氢钠作用下可被转化为尿嘧啶, 从而通过测序
与非甲基化胞嘧啶区分开。应用新一代测序技术,
研究者获得了拟南芥野生型与 DNA甲基转移酶突
变体的全基因组甲基化图谱,再结合转录组学研究,
鉴别出了突变体中数百个表达发生改变的基因、转
座子和非编码 RNA [ 29]。下一步的工作还包括研究
不同发育阶段及不同环境条件下植物甲基化位点的
变化, 借助于全基因组表达分析,辨别出起调控作用
的甲基化位点及受到调节的基因, 并研究这些位点
的遗传模式及对基因表达的影响。对 DNA甲基化
更深入的理解将为农作物遗传改良指出新的方向。
34 基因组重测序 ( resequencing)
全基因组重测序是指在已知基因组序列的基础
上, 选择不同品种、品系或个体重新进行全基因组测
序,再与原始序列进行比对研究。利用重测序结果
可以对种质资源进行普查筛选, 对个体或群体进行
基因组序列和结构的差异性分析, 发现单核苷酸多
态性位点 ( SNPs)、拷贝数变异、插入、缺失、移位和
倒位等变异类型, 从而开展分子进化学研究及重要
功能基因预测。高粱基因组序列发表后,我国研究
者选择 3个代表性的甜高粱种质进行了全基因组重
测序,序列比对发现了 40多万个 SNPs、4万个以上
小的插入缺失多态性 ( InDe ls)和 6 000个以上的基
因组结构变异,这些结果为发展高密度分子标记和
功能基因挖掘打下了基础。新一代测序技术突破了
序列测定的瓶颈,华大基因日产数据量已达 60 Gb,
相当于将水稻基因组测 140遍的能力。但是, 如何
从数以万计的种质资源和大批现代育成品种、品系、
突变体等遗传材料中筛选出具有代表性的核心种质
作为重测序对象,仍然是一项极具挑战性的工作。
35 农业育种技术革命
目前农作物育种面临着几大难题, 首先是材料
遗传背景狭窄,据称,在现存于各国的 250万份以上
农作物及近缘野生种种质资源中, 仅有不到 5%的
材料在育种中得到了应用 [ 30] , 其次是改良复杂性状
难度大以及难以对表型进行精确评价与高效选择
等。全基因组测序大大促进了重要基因 /QTL和分
子标记的挖掘,而基于重测序的基因组学研究能够
找到大量遗传变异,再利用关联分析、比较研究和生
物信息学分析开发出高密度的分子标记,能显著促
进对种质资源的挖掘与利用效率, 缩短育种工作周
期 [ 31]。现代育种家们已将关注的目光投向了农艺
性状形成的分子机制研究, 将基因组学最新研究成
果应用到对培育品种目标性状的控制中去。利用快
速而精确的分子标记辅助选择 ( markerassistant se
lection, MAS) ,能够以植株发育早期或早代分离群
体中的选择部分代替温室或田间筛选,还能对一些
难以精确评价的表现型,如抗病性、耐旱性等进行筛
选, 将显著提高育种效率 [ 32]。据称, 全基因组解析
将使马铃薯育种选择效率提高 1 000倍,育种时间
13
生物技术通报 B iotechnology  Bulletin 2011年第 5期
从 10- 12年缩短到 5年左右 [ 20]。利用基因组学研
究精确确定的分子标记、关键基因位点及其调控网
络,可以在计算机平台上优化设计出聚合有利遗传
信息的育种方案,指导作物新品种培育,实现分子设
计育种。这些新策略、新方法和新技术将为农作物
品种遗传改良带来一场革命。
致谢: 作者衷心感谢中国农业科学院科技管理局戴小枫
副局长对本文所提出的指导性修改建议。
参 考 文 献
[ 1] 朱玉贤. 现代分子生物学 (第 3版 ) [ C ]. 北京:高等教育出版
社, 2007.
[ 2] In it iative AG. Analys is of the genom e sequen ce of the f low ering p lan t
Arabid op sis tha liana. Natu re, 2000, 408( 6814) : 796815.
[ 3] Internat ion al R ice G enom e S equencing Project. The m apbased se
quence of the rice genom e. Natu re, 2005, 436 ( 7052) : 793800.
[ 4] Yu J, Hu S, W ang J, et a.l A d raft sequen ce of the rice genom e(Ory
za sa tiva L. ssp. ind ica) . S cien ce, 2002, 296 ( 5565 ) : 7992.
[ 5] 中国科学院基因组生物信息学研究中心暨北京华大基因研究中
心.水稻 (籼稻 )基因组工作框架图与精细图的绘制. 中国科学
院院刊, 2003 ( 1) : 2931.
[ 6] Schnab le PS, W areD, Fulton RS, et a.l The B73m aize genom e: com
p lex ity, d ivers ity, and dynam ics. Scien ce, 2009, 326 ( 5956 ) :
11121115.
[ 7] H uang S, L iR, Zhang Z, et a.l The genom e of the cucum ber, Cucum is
sa tivus L. . N ature Genetics, 2009, 41: 12751281.
[ 8] h ttp: / /www. b ioequ ip. com /new s. asp? ID= 453061145.
[ 9] Tu skan GA, D ifazio S, Jansson S, et a.l The genom e of b lack cotton
w ood, P opu lu s trichocarpa ( Torr. & Gray ) . Scien ce, 2006, 313
( 5793 ): 15961604.
[ 10 ] The Fren chItal ian Pub lic Con sortium for Grapevin e Genom e C har
acterization. The grapevine gen om e sequen ce suggests ancestral
hexap loidizat ion in m ajor angiosperm phyla. Nature, 2007, 449:
463468.
[ 11 ] Paterson AH, Bow ers JE, B ruggmann R, et a.l The S orghum bicolor
genom e and the d ivers ificat ion of grasses. Natu re, 2009, 457:
551556.
[ 12 ] Feuil let C, Everso le K. So lving the maze. S cien ce, 2009, 326
( 5956) : 10711072.
[ 13 ] M ing R, H ou S, Feng Y, et a.l The draft genom e of the tran sgen ic
tropical fru it tree papaya(Ca rica papaya L innaeus) . Natu re, 2008,
452: 991997.
[ 14] S chm u tz J, C annon SB, S chlueter J, et a.l Genom e sequence of the
p alaeopolyp loid soybean. Natu re, 2010, 463: 178183.
[ 15] V elasco R, Zhark ikh A, A ffourtit J, et a.l The genom e of the dom es
ticated apple (M a lu s d om estica Borkh. ) . Natu re Gen et ics, 2010,
48: 833839.
[ 16] Chan AP, Crabtree J, Zhao Q, et a.l Draft genom e sequ ence of the
oilseed species R icinu s comm unis. Nature B iotechnology, 2010, 28
( 9) : 951959.
[ 17] h ttp: / /www. phytozom e. net /cassava. php.
[ 18] 杜永臣,王晓武,黄三文.我国蔬菜作物基因组研究与分子育
种.中国农业科技导报, 2010, 12( 2) : 2427.
[ 19] h ttp: / /www. gov. cn / jrzg /200910 /13 /con tent_1438031. h tm
[ 20] h ttp: / /www. caas. net. cn /caas /ShowArticle. asp? Id= 6874.
[ 21] V ogel JP, Garvin DF, Mock ler TC, et a.l Genom e sequ encing and a
na lysis of the model grassBrachypod ium distachyon. Natu re, 2010,
463: 763768.
[ 22] 周晓光,任鲁风,李运涛,等. 下一代测序技术:技术回顾与展
望.中国科学, 2010, 40 ( 1) : 2337.
[ 23] h ttp: / /www. genom ics. org. cn.
[ 24] M ard is ER. Nextgen erat ion DNA sequen cing m eth ods. Annu Rev
Genom H um an Genet, 2008, 9: 387402.
[ 25] Morozova O, H irstM, M arra MA. App lications of new sequen cing
technologies for transcriptom e analys is. Annu Rev Genom H um an
Genet, 2009, 10: 135151.
[ 26] 卫波,张荣志,李爱丽,等.利用高通量测序技术发现植物小分
子 RNA研究进展.中国农业科学, 2009, 42( 11) : 37553764.
[ 27] 郑凌伶,屈良鹄.计算 RNA组学:非编码 RNA结构识别与功能
预测.中国科学, 2010, 40 ( 4) : 294310.
[ 28] 赵云雷,叶武威,王俊娟,等. DNA甲基化与植物抗逆性研究进
展.西北植物学报, 2009, 29 ( 7) : 14791489.
[ 29] Lister R, O  M alley RC, Tont iFilipp in i J, et a.l H igh ly integrated
sing lebase reso lut ion m aps of the ep igenom e inA rabid op sis. C el,l
2008, 133 ( 3) : 523536.
[ 30] 李瑞国.国际农业生物技术发展趋势分析.中国农业科技导报,
2010, 12( 4 ): 611.
[ 31] 黄三文,戴小枫,王俊,等.新一代 DNA测序技术给农业育种带
来革命.生物产业技术, 2008 ( 2) : 2025.
[ 32] Edw ard sD, Batley J. P lan t genom e sequen cing: appl icat ions for crop
im provem ent. P lant B iotechn ology Jou rna,l 2010, 8 ( 1) : 29.
(责任编辑 马鑫 )
14