全 文 :中国科学: 生命科学 2012年 第 42卷 第 12期: 947 ~ 956
SCIENTIA SINICA Vitae www.scichina.com life.scichina.com
英文版见: Li X W, Gao H H, Wang Y T, et al. Complete chloroplast genome sequence of Magnolia grandiflora and comparative analysis with related species. Sci
China Life Sci, 2013, 56, in press
《中国科学》杂志社
SCIENCE CHINA PRESS
自然科学基金项目进展专栏
论 文
荷花玉兰叶绿体全基因组高通量测序及结构解析
李西文①②†, 高欢欢①③†, 王一涛②, 宋经元①, Henry Robert④, 吴和珍③,
胡志刚③, 姚辉①, 罗红梅①, 罗焜①, 潘宏林③, 陈士林①⑤*
① 中国医学科学院&北京协和医学院药用植物研究所, 北京 100193;
② 澳门大学中华医药研究院, 澳门 999078;
③ 湖北中医药大学药学院, 武汉 430065;
④ Queensland Alliance for Agriculture and Food Innovation, University of Queensland, Brisbane QLD 4072, Australia;
⑤ 中国中医科学院中药研究所, 北京 100700
† 同等贡献
* 联系人, E-mail: slchen@implad.ac.cn
收稿日期: 2012-09-04; 接受日期: 2012-10-21
国家自然科学基金(批准号: 30970307 和 81130069)资助项目
摘要 荷花玉兰是重要的药用、观赏及园林绿化植物. 应用 454 高通量测序技术对荷花
玉兰叶绿体全基因组进行测序, 解析了其基因组结构, 并与近缘物种基因组进行了比较分
析. 荷花玉兰叶绿体基因组全长为 159623 bp, 两个反向互补重复区(IRs)长 26563 bp, 被分
隔的大单拷贝区(LSC)和小单拷贝区(SSC)长度分别为 87757和 18740 bp. 成功注释 129 个
叶绿体基因, 其中 18 个基因含有内含子. 基因的种类、数目以及 GC 含量等与其他木兰科
物种相类似. 生物信息学分析获得 218 个 SSR 位点, 大多位点富含 A-T, 具有碱基偏好性.
木兰科物种的重复基序类型和丰度相对保守, 有利于开发叶绿体基因组载体. 木兰亚纲植
物叶绿体基因组的大小及 IR 区边界的变化与 ycf1 的长度密切相关. 采用 30 个物种叶绿体
基因组的 66个共有蛋白编码基因构建系统发育树, 对木兰属在被子植物中的进化位置进行
了探讨. 荷花玉兰叶绿体全基因组序列的获得和结构解析对优良品种培育、叶绿体基因组
工程、木兰科物种分子标记开发及系统发育关系的研究具有重要价值.
关键词
内含子
反向互补重复区
重复序列
系统进化
叶绿体是植物进行光合作用的重要器官, 属于
母系遗传, 是半自主性细胞器. 与核基因组相比, 叶
绿体基因组较小, 不足其大小的万分之一; 具有多拷
贝性, 可使目的基因高水平表达; 通过外源基因的定
点整合, 可避免位置效应和基因沉默现象[1]. 叶绿体
DNA (cpDNA)的核苷酸置换率适中; 编码区和非编
码区序列进化速率相差较大, 适用于不同分类阶元
的系统发育研究[2]. 从 1986 年首次获得烟草(Nicoti-
ana tabacum)[3]和地钱(Marchantia polymorpha)[4]叶绿
体基因组的完整序列以来, 叶绿体基因组在基因工
程、分子标记开发以及系统发育等方面应用广泛[5~7].
Kanevski 等人[8]将向日葵的 rbcL 基因转入烟草叶绿
体中, 大大提高了再生植株的光合作用. Craig 等人[9]
将野生马铃薯中的 Delta9 脱氢酶基因通过 PEG 处理
方法转到烟草中, 获得高抗寒性植株, 显示出叶绿体
基因工程在抗性育种方面的巨大应用潜力. Jansen 等
李西文等: 荷花玉兰叶绿体全基因组高通量测序及结构解析
948
人[10]使用 64个叶绿体基因组共有的 81个基因构建进
化树, 对主要被子植物的系统发育关系进行分析, 阐
释了早期分化被子植物与单子叶、双子叶植物各主要
分支之间的关系, 解决了分类学上关于被子植物基
部类群的争议.
荷花玉兰(Magnolia grandiflora Linn.)又名广玉
兰 、 洋 玉 兰 , 为 木 兰 科 (Magnoliaceae) 木 兰 属
(Magnolia)乔木树种, 原产于北美洲东南部. 荷花玉
兰经济价值高, 耐烟抗风, 对二氧化硫等有毒气体有
较强抗性, 花形美丽而芳香, 是重要的绿化和园林观
赏植物. 其叶入药具有降压作用, 树皮可作为厚朴的
代用品, 花蕾作为辛夷入药. 但是, 荷花玉兰幼苗生
长缓慢, 易发病虫害, 并且难以耐受零下 14℃以下
的低温, 移植成活率低, 导致其供不应求. 荷花玉兰
属于被子植物早期分化的木兰属植物, 该属与同科
其他属植物在内部结构和外部形态上存在较多重叠
现象, 从形态解剖、显微以及基因水平等[11~14]对木兰
科植物进行的系统进化研究由于受各方法分析能力的
限制, 至今尚未达成一致意见. 除鹅掌楸属外的各属
均曾被并入过木兰属, 木兰属的界限划分成为木兰科
分类系统争议的焦点之一[15]. 目前关于荷花玉兰的研
究主要集中在组织培养、化学成分和药理作用等方
面[16~18], 均未能解决荷花玉兰生产周期长、抗逆性低、
系统分类学模糊以及生物多样性保护冲突等问题.
基于叶绿体基因组全序列的基因组工程及系统
进化分析有望解决以上难题. 但荷花玉兰叶绿体基
因组序列的缺乏限制了叶绿体基因组工程及基因组
水平上的系统进化生物学研究. 本文首次报道了荷
花玉兰叶绿体全基因组结构信息, 有助于研究早期
被子植物进化模式, 为研究荷花玉兰光合作用机制,
培育抗寒、抗病虫害新品种提供了遗传背景信息, 有
助于进一步探究木兰属的进化位置, 同时为开展荷
花玉兰叶绿体基因工程研究奠定基础.
1 材料与方法
1.1 材料
荷花玉兰的新鲜幼嫩叶片采自南京(北纬 32.03°
东经 118.46°), 经中国医学科学院药用植物研究所林
余霖副研究员鉴定, 凭证标本保存于中国医学科学
院药用植物研究所.
1.2 方法
(1) 叶绿体 DNA(cpDNA)提取和测序. 取荷花
玉兰新鲜叶片 100 g, 采用李西文等人[19]改良的蔗糖
密度梯度离心分离法提取叶绿体基因组总 DNA. 利
用 NanoDrop2000 微量分光光度计检测 cpDNA 的浓
度, 并用琼脂糖凝胶电泳检测提取的 cpDNA 的质量,
纯化后采用新一代高通量测序平台 Roche 454 GS
FLX Titanium 进行测序.
(2) 序列拼接和注释. 获得荷花玉兰叶绿体基
因组原始测序数据结果后, 去掉低质量序列, 经 GS
De Novo Assembler(v2.5)软件进行 De Novo 拼接, 以
已发表在 NCBI 的木兰科北美鹅掌楸(Liridendron
tulipifera) (NC_008326)为参照序列, 对Contig进行定
位并确定方向. IR-LSC 和 IR-SSC 边界区域用 PCR 扩
增方法进行验证, 引物位置及其序列为, LSC-IRb 边
界: 上游引物5′-CCTTCTCTCTTTCTCTCGCC-3′, 下
游引物 5′-ATGAACCCTGTAGACCATCC-3′; IRb-
SSC 边界: 上游引物 5′-GCAGAATACCGTCGCCT-
AT-3′, 下游引物 5′-TACATTGCTCAAGTTGTGCC-
3′; SSC-IRa 边界: 上游引物 5′-CTGTGCCAAGGTT-
TCAGAC-3′, 下游引物 5′-AAACAGGAACAAGA-
GGCATC-3′; IRa-LSC边界: 上游引物 5′-CAATGGA-
GCCGTAGACAGT-3′, 下游引物 5′-CATCAATCGT-
GCTAACCTTG-3′. 采用在线注释软件 DOGMA
(http://dogma.ccbb.utexas.edu/)对荷花玉兰叶绿体全
基因组序列进行注释. 以北美鹅掌楸叶绿体基因序
列为参照, BLAST 方法比对确定荷花玉兰相应基因
位置, 根据起始和终止密码子进行手工调整.
(3) 叶绿体基因组物理图谱绘制. 将荷花玉兰
叶绿体全基因组序列在 Sequin 软件中以 GenBank 格
式输出 , 在线提交到 GenomeVx 网站 (http://wolfe.
gen.tcd.ie/GenomeVx/), 获得荷花玉兰叶绿体全基因
组物理图谱草图.
(4) 重复序列结构分析 . 利用 MISA 软件
(http://pgrc.ipk-gatersleben.de/misa/)搜索荷花玉兰叶
绿体全基因组 SSR位点. 其参数设置为, 单核苷酸单
元的重复数≥8, 二核苷酸单元的重复数≥4, 三核苷
酸单元重复数≥3, 四核苷酸和五核苷酸单元的重复
数≥3, 六核苷酸单元的重复数≥3. 本文中主要搜索
完全重复型 SSR 位点 , 循环排列或成反相互补的
SSR 被当作同一种, 例如 AAG 重复基序包括 AAG,
中国科学: 生命科学 2012 年 第 42 卷 第 12 期
949
AGA, GAA, CTT, TCT 和 TTC.
(5) 进化树的构建. 选取 30 条被子植物叶绿体
全基因组序列(网络版附表 1), 提取其 66 个共有蛋白
编码基因(网络版附表 2), 进行 ClustalW 比对. 以台
东苏铁(Cycas taitungensis)作为外类群, 利用 PAUP
4.0 构 建 Maximum Likelihood(ML) 和 Maximum
Parsimony (MP)系统发育树, 以 Modeltest3.7 软件进
行建树模型选择.
2 结果与讨论
2.1 荷花玉兰叶绿体基因组基本特征
荷花玉兰叶绿体全基因组全长为 159623 bp, IRs
大小为 26563 bp, 被 IRs 区分割的大、小单拷贝区长
度分别为 87757 和 18740 bp (图 1). 成功注释 129 个
基因, 包括 37 个 tRNA 基因, 8 个 rRNA 基因和 84 个
编码蛋白基因(表 1), 7 个 tRNA 和所有 rRNA 位于 IR
区. 蛋白编码区占整个基因组的 49%, rRNA 占 5.66%,
tRNA 占 1.74%, 基因间隔区和内含子占 43.6%. 荷花
玉兰叶绿体基因组全序列的 GC 含量为 39.3%, 其中
IR 区的 GC 含量为 43%, 高于 LSC 和 SSC 拷贝区(分
别为 38%和 34%). 通过与厚朴(Magnolia officinalis)、
广西木兰(Magnolia kwangsiensis)、北美鹅掌楸等进行
基因组比较, 发现荷花玉兰叶绿体基因组的大小、数
目以及GC含量等与其他木兰科物种相类似(表 2), 这
一结果体现了木兰科物种进化缓慢的特点[20].
内含子对基因的表达调控起重要作用. 研究发
现许多内含子能够增强外源基因在植物的特定部位、
特定时间高水平表达, 从而产生所期望的农艺性状,
使得内含子成为提高植物转化率的有用工具[21]. 荷
花玉兰的 18 个基因含有内含子, 其中 15 个基因含 1
个内含子, rps12, ycf3 和 clpP 3 个基因含 2 个内含
表 1 荷花玉兰叶绿体基因组注释基因列表 a)
基因功能分类 基因种类 基因名
自我复制有关的基因
核糖体 RNA 基因
转运 RNA 基因
rrn16b rrn23b rrn4.5b rrn5b
trnA-UGCa,b trnC-GCA trnD-GUC trnE-UUC
trnF-GAA trnfM-CAU trnG-GCC trnG-UCCa
trnH-GUG trnI-CAUb trnI-GAUa,b trnK-UUUa
trnL-CAAb trnL-UAAa trnL-UAG trnM-CAU
trnN-GUUb trnP-UGG trnQ-UUG trnR-ACGb
trnR-UCU trnS-GCU trnS-GGA trnS-UGA
trnT-GGU trnT-UGU trnV-GACb trnV-UACa
trnW-CCA trnY-GUA
与光合作用有关的基因
核糖体小亚基 rps2 rps3 rps4 rps7
b rps8 rps11 rps12a,b
rps14 rps15 rps16a rps18 rps19
核糖体大亚基 rpl2
a,b rpl14 rpl16a rpl20
rpl23b rpl32 rpl33 rpl36
依赖于 DNA 的 RNA
聚合酶基因 rpoA rpoB rpoC1
a rpoC2
翻译起始因子 infA
光合系统Ⅰ亚基
光合系统Ⅱ亚基
psaA psaB psaC psaI psaJ
psbA psbB psbC psbD psbE psbF psbH
psbI psbJ psbK psbL psbM psbN psbT
psbZ
细胞色素亚基 petA petBa petDa petG petL petN
ATP 合成酶亚基 atpA atpB atpE atpFa atpH atpI
ATP 依赖蛋白酶亚基 p 基因 clpPa
Rubisco 大亚基 rbcL
NADH 脱氢酶亚基 ndhA
a ndhBa,b ndhC ndhD ndhE
ndhF ndhG ndhH ndhI ndhJ ndhK
其他基因
成熟酶基因
囊膜蛋白基因
乙酰辅酶 A 羧化酶亚基
C 型细胞色素合成基因
matK
cemA
accD
ccsA
未知功能基因 保守的开放阅读框 ycf1 ycf2b ycf3a ycf4
a) a: 包含内含子的基因; b: 重复基因(基因位于 IR 区内)
李西文等: 荷花玉兰叶绿体全基因组高通量测序及结构解析
950
表 2 木兰科植物叶绿体基因组基本特征比较
物种 荷花玉兰 厚朴 广西木兰 北美鹅掌楸
全长(bp) 159623 160183 159667 159886
GC 含量(%) 39.30 39.22 39.26 39.16
LSC 长度(bp) 87757 88210 88030 88150
SSC 长度(bp) 18740 18843 18669 18964
IR 长度(bp) 26563 26565 26484 26386
基因总数 129 126 129 129
IR 区重复基因 17 17 17 17
编码蛋白基因 84 81 84 84
rRNA 基因 8 8 8 8
tRNA 基因 37 37 37 37
图 1 荷花玉兰叶绿体基因组物理图谱
内环粗线代表反向重复序列区(IRa 和 IRb), IR 区将整条序列分隔为大单拷贝区(LSC)和小单拷贝区(SSC). 外圈的基因按顺时针方向转录, 内
圈则按逆时针转录. 每一种颜色代表相同一类基因. 表示假基因
中国科学: 生命科学 2012 年 第 42 卷 第 12 期
951
子(表 3), 这为利用叶绿体基因组工程进行荷花玉兰
的抗逆性育种提供了有利条件. trnA-UGC, trnI-GAU,
rps12, rpl2 和 ndhB 5 个基因位于 IR 区, 其中 rps12
是一个特殊的反式剪切基因, 其 5′端外显子位于 LSC,
3′端外显子位于 IR 区 , 这与地钱 [22]、人参(Panax
ginseng)[23]等其他物种中的情况相似. 广西木兰、北
美鹅掌楸的 rpl16 和 petD 基因均没有内含子, 但本文
通过与夏腊梅(Calycanthus floridus var. glaucus)、林
仙属植物 (Drimys granadensis)、胡椒属植物 (Piper
cenocladum)及荷花玉兰中 rpl16 和 petD 基因的内含
子分别做比对, 发现在相应位置存在高度相似的序
列, 初步判断可能为注释失误导致内含子的缺失. 然
而, Kuang 等人[24]通过基因组比较认为, rpl16 较小的
外显子在广西木兰和北美鹅掌楸中丢失. 两种不同
结果需要进一步实验验证. 因外显子与内含子的缺
失对基因的结构和功能分化起到重要作 用[25], 同
时对研究同类物种的进化具有指导意义, 该发现提
示 rpl16 基因的序列差异对研究木兰亚纲物种的系统
进化和该基因对应的不同物种内的功能变化可能具
有重要意义.
2.2 SSR 分析
叶绿体简单重复序列(simple sequence repeats,
SSR)是一种高效的的分子标记, 不仅具有标记数量
丰富、共显性遗传、重复性高等优点, 同时兼顾叶绿
体基因组结构简单、相对保守、单亲遗传等特点, 广
泛应用于物种鉴定以及群体和个体水平的遗传差异
分析[26,27].
在荷花玉兰叶绿体全基因组中, 共搜索到 218个
符合条件的 SSR 位点. 其中包括 91 个单核苷酸重复
基序, 44 个二核苷酸重复基序, 72 个三核苷酸重复基
序, 9 个四核苷酸重复基序以及 2 个六核苷酸重复基
序, 未发现五核苷酸重复基序, 基序的丰度与重复基
序的长度成负相关. 在荷花玉兰所有 SSR中, 最多重
复基序是 A/T, 然后依次是 AG/CT, AAG/CTT,
AT/AT, AAT/ATT 和 AAC/GTT, 这些重复基序占总
数的 81.2%(表 4). 另外, 单核苷酸至三核苷酸重复基
序的碱基组成存在一定的碱基偏好性, 以富含 AT
的重复基序为主. 这与荷花玉兰叶绿体全基因组富
含AT(AT含量为 60.7%)一致, 这种偏好性可能与AT
比 GC 更易变动有关. 以同样参数搜索木兰科其他物
种的 SSR 位点并比较其重复基序类型及丰度百分比
(图 2), 结果显示, 木兰科物种间重复基序类型和丰
度比较保守, 这为进一步寻找木兰科种属间通用性
SSR 标记奠定了基础.
2.3 木兰亚纲物种 IR 区边界比较分析
叶绿体基因组大小的差异主要体现在 IR 区边界
表 3 荷花玉兰叶绿体基因组中含内含子的基因种类及其特点
基因 外显子Ⅰ 内含子Ⅰ 外显子Ⅱ 内含子Ⅱ 外显子Ⅲ
trnA-UGC* 38 798 35
trnG-UCC 24 767 48
trnI-GAU* 42 936 35
trnK-UUU 37 2491 35
trnL-UAA 35 490 50
trnV-UAC 37 584 39
rps12* 114 - 231 537 30
rps16 42 829 246
rpl2* 384 661 432
rpl16 9 960 411
atpF 144 706 411
petB 6 784 642
petD 8 653 525
ndhA 540 1078 552
ndhB* 755 703 775
ycf3 153 731 228 734 126
clpP 246 631 291 778 69
rpoC1 432 734 1614
*: 位于 IR 区内的基因
李西文等: 荷花玉兰叶绿体全基因组高通量测序及结构解析
952
表 4 荷花玉兰 SSR 类型及数量
SSR 重复基序 SSR 数量 重复基序的比例(%)
单核苷酸
A/T 88 96.7
C/G 3 3.3
二核苷酸
AC/GT 2 4.55
AG/CT 24 54.55
AT/AT 18 40.91
三核苷酸
AAC/GTT 11 15.28
AAG/CTT 20 27.78
AAT/ATT 16 22.22
ACC/GGT 4 5.56
ACT/AGT 2 2.78
AGC/CTG 8 11.11
AGG/CCT 5 6.94
ATC/ATG 6 8.33
四核苷酸
AAAT/ATTT 3 33.33
AACT/AGTT 1 11.11
AATC/ATTG 1 11.11
AATG/ATTC 2 22.22
AATT/AATT 1 11.11
ACAT/ATGT 1 11.11
六核苷酸
AATACT/AGTATT 2 100
的收缩与扩展[28]. 通过对木兰亚纲 5 个目 6 个物种的
叶绿体基因组 IR 区边界的比较(图 3), 发现 IR 区长
度与物种的叶绿体基因组全长成正相关(北美鹅掌楸
除外)(网络版附表 3), 长度从大到小依次为: 胡椒属
植物(P. cenocladum)、林仙属植物(D. granadensis)、
荷花玉兰、北美鹅掌楸、金粟兰 (Chloranthus.
spicatus)、夏腊梅. 相关性分析表明(网络版附表 4),
除夏腊梅ψycf1长度数值异常外(网络版附图 1), 木兰
亚纲物种叶绿体基因组 IR 区的长度与假基因 ψycf1
长度负相关(R2=0.81, P<0.05). 夏腊梅 IR 区最短, 同
时 ψycf1 也最短(收缩到只有 266 bp), 但分析发现与
其他物种的 ψycf1 长度数值呈非正态分布 , 在
Spearman 相关系数分析中属于极端异常值 . 除了
ψycf1 收缩, rps19 与 rpl2 基因间隔区扩展(达到 1553
bp), 也使得 IRb 长度减小. 木兰亚纲各物种 IR 区长
度及所对应的 ψycf1 长度见附表 3. 胡椒属植物 P.
cenocladum的ψycf1基因只有 927 bp但 IR区最长, 与
其他木兰亚纲物种相比, 其 ψycf1 与 ndhF 的间隔区
扩展达到 1106 bp, 使得 IR 区显著延伸. 另外, 在林
仙属植物 D. granadensis 和金粟兰中的 ψycf1 基因
和 ndhF 基因有重叠(overlap), 分别为 72 和 25 bp. 另
外, 林仙属植物 D. granadensis 的 IR 区的相对扩展,
产生一个重复基因 trnH, 金粟兰 IR 区包含了部分
trnH 基因. 本研究发现, 木兰亚纲物种 IR 区的伸缩
与 IR区和 rps19的基因间隔区长度也有一定关联, 同
时产生了一些假基因(ψtrnH)和重复基因(rpl2). IR 区
与 SSC 的边界变化主要体现在 ycf1 基因的变化上,
胡椒属植物 P. cenocladum 的 ycf1 基因长度最短, 全
部位于 IRa 内部, 而其 IR 区最长; 夏腊梅的 ycf1 基
因在 IRa的部分比例最低, 其 IR区最短. 但总体上看,
ycf1 基因的长短及位置的变化与 IR 区的长度变化没
有显著的相关性(P>0.05). IRa 与 LSC 边界上的 trnH
基因位置变化虽然显著, 但不呈现规律性.
图 2 荷花玉兰与其他木兰科物种叶绿体基因组 SSR 比较分析
图中重复基序类型分别为, Mono 单核苷酸、Di 二核苷酸、Tri 三核苷酸、Tetra 四核苷酸、Hexa 六核苷酸
中国科学: 生命科学 2012 年 第 42 卷 第 12 期
953
图 3 木兰亚纲 6 个物种叶绿体全基因组 IR 边界的比较示意图
本图由6个木兰亚纲物种的叶绿体基因组序列组成, 每个序列由LSC, IRb, SSC和 IRa 4部分组成, 由3种不同颜色表示, IR区的颜色相同. 图
中主要标注了 IR 区边界基因相对于边界的位置变化, 包括 rps19, ndhF, trnH 以及 ycf1 等, 各基因到 IR 区边界的距离用弯箭头所对应的数字
进行了标注. Overlap 表示 ndhF 与 ψycf1 的重叠部分
2.4 基于叶绿体基因组全序列的木兰属系统进化
位置探讨
本文基于 30个物种叶绿体全基因组的 66个共有
蛋白编码基因构建了ML(图 4)和MP(图 5)进化树, 分
析数据共包括 52896 个核苷酸位点, 去掉空位(gap)
后含 47786 个位点. Modeltest 分析显示最佳建树模
型为 GTR+I+G. ML 树 27 个节点的支持度(support
value)中≥90%的有 26个, 其中 19个为 100%, 而 MP
树 26 个节点中≥90%的有 23 个, ≥100%的有 16 个.
尽管本文中木兰亚纲叶绿体全基因数据较少, 尚不
能全面深入研究木兰亚纲物种间的亲缘关系, 但这是
迄今为止首次采用叶绿体基因组数据对木兰属植物
的系统进化位置进行探讨, ML 和 MP 进化分析结果
显示, 木兰属与北美鹅掌楸属是木兰科中的姐妹类
群, 也是整个早期被子植物中分化较晚的分支. 木兰
亚纲 4 个目间的 ML 分析显示, Magnoliales+Laurales
与Piperales+Canellales成姐妹分支, 这与 Jansen等人[10]
及 Cai 等人[20]研究中阐述的结果一致. 同时, 叶绿体
基因组数据构建的进化树以较高的自展值支持单子
叶植物(monocotyledoneae)和真双子叶植物(eudi-
cotyledonen)为姐妹群关系, 这一大的分支又与金粟
兰目植物(Chloranthales)和木兰类植物组成的基部被
李西文等: 荷花玉兰叶绿体全基因组高通量测序及结构解析
954
图 4 基于 30 个物种 66 个共有蛋白编码基因的 ML 系统进化树(lnL=353897.8125)
子植物(basal angiosperms)分支成姐妹群关系, 此结
果与 Michael 等人[29]及 Jansen 等人[10]的研究结果相
同 . 与 ML 树不同的是 , MP 进化树中 Laurales+
Piperales 与 Canellales 及 Magnoliales 分别成姐妹关系,
但 Laurales 与 Piperales 间的支持度较低, 仅有 52%.
尽管有较多针对木兰科的系统发育研究, 但均采用
单基因或者基因间区进行分析, 节点的支持度较低.
cpDNA 序列在木兰科中进化缓慢[30~33], 单基因或间
区序列的平行演化在木兰科几个属间发生频率非常
低, 只适用于木兰科高等级(属以上)的系统研究[34,35],
在低分类水平的研究仍需要借助叶绿体基因组序列
进行分析.
本文利用叶绿体基因组数据在前人对早期被子
植物进化分析的基础上, 增加并讨论了木兰属在基
部被子植物中的进化位置, 并分析了木兰亚纲 4 个目
之间的进化关系, 为基部被子植物内的物种进化关
系的深入研究提供了参考. 由于木兰亚纲物种的叶
绿体基因组全序列稀少, 不同分支间的进化关系确
定仍需要增加叶绿体基因组全序列后进一步分析 .
随着测序成本的降低以及序列组装技术的不断发展,
将有更多木兰科植物叶绿体全基因组被测序, 木兰
科内部复杂的进化关系的确定最终将通过基于叶绿
体基因组数据的系统分析解决.
3 结论
随着生物信息学及高通量测序技术的不断发展,
人们对叶绿体基因组的研究将日益深入, 研究叶绿
体基因组对于揭示叶绿体 DNA 的结构与起源、植物
分子标记、物种亲缘关系等具有重要意义. 更重要的
是, 叶绿体基因组研究还可以推动植物在分子育种、
遗传转化等叶绿体基因工程方面的研究进程. 荷花
玉兰作为一种在观赏、药用都极具价值的植物, 叶绿
体基因组全序列的公布及对基因组结构的分析, 将
中国科学: 生命科学 2012 年 第 42 卷 第 12 期
955
图 5 基于 30 个物种 66 个共有蛋白编码基因的 MP 系统进化树
为深入研究其在光合调控、植物抗性、物种鉴定及亲
缘关系等方面的应用提供基础遗传信息, 为解决其
繁殖周期长、易发病虫害以及系统发育关系等问题提
供新的解决方法.
参考文献
1 Verma D, Daniell H. Chloroplast vector systems for biotechnology applications. Plant Physiol, 2007, 145: 1129–1143
2 Clegg M T, Gaut B S, Learn G H, et al. Rates and patterns of chloroplast DNA evolution. Proc Natl Acad Sci USA, 1994, 91: 6795–6801
3 Shinozaki K, Ohme M, Tanaka M, et al. The complete nucleotide sequence of the tobacco chloroplast genome: its gene organization and
expression. EMBO J, 1986, 5: 2043–2049
4 Ohyama K, Fukuzawa H, Kohchi T, et al. Chloroplast gene organization deduced from complete sequence of Liverwort Marchantia
polymorpha chloroplast DNA. Nature, 1986, 322: 572–574
5 Terada R, Urawa H, Inagaki Y, et al. Efficient gene targeting by homologous recombination in rice. Nat Biotechnol.2002, 20: 1030―1034
6 Kane N, Sveinsson S, Dempewolf H, et al. Ultra-barcoding in cacao (Theobroma spp.; Malvaceae) using whole chloroplast genomes and
nuclear ribosomal DNA. Am J Bot, 2012, 99: 320–329
7 Zhang Y J, Ma P F, Li D Z. High-throughput sequencing of six bamboo chloroplast cenomes: phylogenetic implications for temperate
woody bamboos (Poaceae: Bambusoideae). PLoS One, 2011, 6: e20596
8 Kanevski I, Maliga P, Rhoades D F, et al. Plastome engineering of ribulose-1, 5-bisphosphate carboxylase/oxygenase in tobacco to form a
sunflower large subunit and tobacco small subunit hybrid. Plant Physiol, 1999, 119: 133–142
9 Craig W, Lenzi P, Scotti N, et al. Transplastomic tobacco plants expressing a fatty acid desaturase gene exhibit altered fatty acid profiles
and improved cold tolerance. Transgenic Res, 2008, 17: 769–782
10 Jansen K J, Zhengqiu C, Linda A R, et al. Analysis of 81 genes from 64 plastid genomes resolves relationships in angiosperms and identifies
Calycanthus floridus var. glauus
李西文等: 荷花玉兰叶绿体全基因组高通量测序及结构解析
956
genome-scale evolutionary patterns. Proc Natl Acad Sci USA, 2007, 104: 19369–19374
11 Xu F, Rudall P J. Comparative floral anatomy and ontogeny in Magnoliaceae. Plant Syst Evol, 2006, 258: 1–15
12 Yamada T, Imaichi R, Kato M. The outer integument and funicular outgrowth complex in the ovule of Magnolia grandiflora
(Magnoliaceae). J Plant Res, 2003, 116: 189–198
13 Kim S, Park C W, Kim Y D, et al, Phylogenetic relationships in family Magnoliaceae inferred from ndhF sequences. Am J Bot, 2001, 88:
717–728
14 Sauquet H, Doyle J A, Scharaschkin T, et al. Phylogenetic analysis of Magnoliales and Myristicaceae based on multiple data sets:
implications for character evolution. Bot J Linn Soc, 2003, 142: 125–186
15 傅大立. 玉兰属的研究. 武汉植物学研究, 2001, 19: 191–198
16 王琪, 王喆之, 李映丽. 荷花玉兰组织培养的研究. 西北药学杂志, 2001, 16: 11–13
17 Lee S, Chappell J. Biochemical and genomic characterization of terpene synthases in Magnolia grandiflora. Plant Physiol, 2008, 147:
1017–1033
18 汪正广, 吴常青, 汪春彦, 等. 广玉兰油对高脂血症大鼠调血脂作用及其机制的研究. 中成药, 2010, 32: 1679–1682
19 李西文, 胡志刚, 林小涵, 等. 基于 454FLX 高通量技术的厚朴叶绿体全基因组测序及应用研究. 药学学报, 2012, 47: 124–130
20 Cai Z Q, Penaflor C, Kuehl J V, et al. Complete plastid genome sequence of Drimys, Liriodendron, and Piper: implications for the
phylogenetic relationships of magnoliids. BMC Evol Biol, 2006, 6: 77
21 徐军望, 冯德江, 宋贵生, 等. 水稻 EPSP 合酶第一内含子增强外源基因的表达. 中国科学 C 辑: 生命科学, 2003, 33: 224–230
22 Fukuzawa H, Kohchi T, Shirai H, et al. Coding sequences for chloroplast ribosomal protein S12 from the liverwort Marchantia polymorpha,
are separated far apart on the different DNA Strand. FEBS Letters, 1986, 198: 11–15
23 Kim K J, Lee H L. Complete chloroplast genome sequences from Korean Ginseng. DNA Res, 2004, 11: 247–261
24 Kuang D Y, Wu H, Wang Y L, et al. Complete chloroplast genome sequence of Magnolia kwangsiensis (Magnoliaceae): implication for
DNA barcoding and population genetics. Genome, 2011, 54: 663–673
25 Xu G X, Guo C C, Shan H Y, et al. Divergence of duplicate genes in exon–intron structure. Proc Natl Acad Sci USA, 2012, 109: 1187–1192
26 Kaundun S S, Matsumoto S. Heterologous nuclear and chloroplast microsatellite amplification and variation in tea Camellia sinensis.
Genome, 2002, 45: 1041–1048
27 Jiao Y, Jia H M, Li X W, et al. Development of simple sequence repeat (SSR) markers from a genome survey of Chinese Bayberry (Myrica
rubra). BMC Genomics, 2012, 13: 201
28 Ravi V, Khurana J P, Tyagi A K, et al. An update on chloroplast genomes. Plant Syst Evol, 2008, 271: 101–122
29 Michael J M, Soltis P S, Bell C D, et al. Phylogenetic analysis of 83 plastid genes further resolves the early diversification of eudicots. Proc
Natl Acad Sci USA, 2010, 107: 4623–4628
30 Azuma H, Thien L B, Kawano S. Molecular phylogeny of Magnolia (Magnoliaceae) inferred from cpDNA sequences and evolutionary
divergence of the floral scents. J Plant Res, 1999, 112: 291–306
31 Azuma H, Thien L B, Kawano S. Molecular phylogeny of Magnolia based on chloroplast DNA sequence data (trnK intron, psbA-trnH and
atpB-rbcL intergenic spacer regions) and floral scent chemistry. In: Liu Y H, Fan H M, eds. Proceedings of the International Symposium on
the Family Magnoliaceae. Beijing: Science Press, 2000. 219–227
32 Azuma H, Garcia-Franco J G, Rico-Gray V, et al. Molecular phylogeny of the Magnoliaceae: the biogeography of tropical and temperate
disjunctions. American J Bot, 2001, 88: 2275–2285
33 Ueda K, Yamashita J, Tamura M N. Molecular phylogeny of the Magnoliaceae. In: Liu Y H, Fan H M, eds. Proceedings of the International
Symposium on the Family Magnoliaceae. Beijing: Science Press, 2000. 205–209
34 王亚玲, 张寿洲, 崔铁成. trnL 内含子及 trnL-trnF 间隔区序列在木兰科系统发育研究中的应用. 西北植物学报, 2003, 23: 247–252
35 王亚玲, 李勇, 张寿洲, 等. 用 matK 序列分析探讨木兰属植物的系统发育关系. 植物分类学报, 2006, 2: 135–147