免费文献传递   相关文献

Analysis of Molecular Evolution and Gene Structure of EPSPS Protein in Plant Shikimate Pathway

植物莽草酸途径EPSPS蛋白的分子进化和基因结构分析



全 文 :植物学报 Chinese Bulletin of Botany 2015, 50 (3): 295–309, www.chinbullbotany.com
doi: 10.3724/SP.J.1259.2015.00295
——————————————————
收稿日期: 2014-05-05; 接受日期: 2014-08-28
基金项目 : 国家自然科学基金 (No.31301682)、江苏省农业科技自主创新基金 (No.CX(12)3068)、国家转基因重大专项 (No.2011-
ZX08005-001)和国家科技支撑计划(No.2014BAD11B02)
* 通讯作者。E-mail: nwchao2002@aliyun.com
植物莽草酸途径EPSPS蛋白的分子进化和基因结构分析
巩元勇1, 郭书巧1, 束红梅1, 倪万潮1*, 帕尔哈提·买买提2, 沈新莲1
徐鹏1, 张香桂1, 郭琪1
1江苏省农业科学院经济作物研究所/农业部长江下游棉花和油菜重点实验室, 南京 210014
2国家棉花工程技术研究中心, 乌鲁木齐 830091
摘要 EPSPS既是植物、微生物和真菌等生物芳香族氨基酸生物合成途径——莽草酸途径中的关键酶, 也是除草剂草甘膦
的靶标酶。EPSPS的克隆能为草甘膦抗性转基因作物的研发提供候选基因。该研究运用比较基因组学方法, 通过对41种不
同植物的43条EPSPS蛋白序列进行进化分析, 取得主要结果如下: (1) 不同植物EPSPS蛋白的相似性很高, 且具有相同的
结构域、保守基序和保守位点, 但是其叶绿体转运肽序列差异显著; (2) 系统发育分析表明, EPSPS基因按照双子叶植物纲
和单子叶植物纲分为2个大的分支, 各个小的分支又按照植物的种属亲缘关系进行分支和聚类; (3) 基因结构分析表明, 植
物EPSPS基因基本都含有8个外显子和7个内含子, 且所对应外显子的长度相当, 而内含子的长度差异很大, 说明在植物基
因组进化过程中造成EPSPS基因结构差异的主要因素是内含子的改变。研究结果将为揭示植物EPSPS蛋白的结构功能提
供参考。
关键词 植物, EPSPS蛋白, 系统发育分析, 基因结构
巩元勇, 郭书巧, 束红梅, 倪万潮, 帕尔哈提·买买提, 沈新莲, 徐鹏, 张香桂, 郭琪 (2015). 植物莽草酸途径EPSPS蛋白
的分子进化和基因结构分析. 植物学报 50, 295–309.
莽草酸途径(shikimate pathway)是连接碳水化
合物代谢和芳香族化合物生物合成的重要生物代谢
途径, 该途径仅存在于细菌、真菌、藻类、顶配位寄
生虫和植物中(Herrmann and Weaver, 1999; Mach-
eroux et al., 1999; Keeling et al., 1999), 高等动物中
不存在。莽草酸途径起始于糖酵解中间产物磷酸烯醇
式丙酮酸(phosphoenolpyruvate, PEP)和五碳糖磷
酸途径中间产物赤藓糖-4-磷酸(erythrose 4-phos-
phate), 到合成分支酸(chorismate)结束, 整个过程
有7种酶参与。其中, 倒数第2个酶5-烯醇式丙酮酰莽
草酸 -3-磷酸合酶 (5-enolpyruvylshikimate 3-phos-
phate synthase, EPSPS, EC2.5.1.19)的作用是催化
PEP与莽草酸-3-磷酸(shikimate 3-phosphate, S3P)
合成5-烯醇式丙酮酰莽草酸-3-磷酸(5-enolpyruvyl-
shikimate 3-phosphate, EPSP)。EPSPS还是当今使
用量最大的广谱灭生性除草剂草甘膦(glyphosate)的
唯一靶标酶; 草甘膦在结构上是PEP的类似物, 它可
以竞争性抑制PEP与EPSPS的结合, 从而阻断EPSP
的合成, 造成分支酸合成受阻, 并最终导致芳香族
氨基酸和芳香族化合物的生物合成代谢失调, 致使
生物体死亡(Gruys et al., 1992; McDowell et al.,
2004)。
第 1个编码 EPSPS的 aroA基因是 1983年由
Rogers等(1983)从大肠杆菌(Escherichia coli)中克隆
获得; 第1个植物EPSPS基因是Klee等(1987)从拟南
芥(Arabidopsis thaliana)中分离得到。随后, 一批植
物 EPSPS基因陆续从烟草 (Nicotiana tabacum)
(Wang et al.,1991)、水稻(Oryza sativa) (Xu et al.,
2002)、喜树(Camptotheca acuminate) (Gong et al.,
2006)、陆地棉 (Gossypium hirsutum) (童旭宏等 ,
2009)、银杏(Ginkgo biloba) (程华等, 2010)和橡胶树
(Hevea brasiliensis) (李雅超等, 2013)等中被克隆。
早期的研究多侧重于EPSPS基因对草甘膦的抗性及
其在农业生产上的应用和通过生物工程手段获得草
·研究报告·
296 植物学报 50(3) 2015

甘膦抗性的转基因作物。
在EPSPS氨基酸序列中存在一段高度保守的序
列——LXLGNAGTAXRXL (X代表不保守氨基酸残
基), 这段序列涉及EPSPS与PEP(或草甘膦)的相互
作用, 该序列氨基酸残基的改变会导致EPSPS与草
甘膦的亲和性下降, 由此可引起生物体对草甘膦产生
抗性 (Padegtte et al., 1991; Schönbrunn et al.,
2001)。通过对经草甘膦诱导而具备草甘膦抗性的物
种拟南芥、番茄(Solanum lycopersicum)、大豆(Gly-
cine max)、油菜(Brassica campestris)和大肠杆菌的
EPSPS基因研究证实, 这些物种草甘膦抗性的获得
都是由于EPSPS保守序列的第2个甘氨酸被丙氨酸
取代所致(Duncan et al., 1984)。Stalker等(1985)对
具草甘膦抗性的鼠伤寒沙门氏菌的研究表明, 该保
守序列的倒数第2个氨基酸残基脯氨酸被丝氨酸替代
后也可产生草甘膦抗性。Baerson等(2002)在研究具
有草甘膦抗性的牛筋草(Eleusine indica)时也发现,
该保守序列的脯氨酸变为丝氨酸是其产生抗性的原
因。然而进一步的研究证实, 这些位点的突变虽然造
成了对草甘膦产生一定的抗性, 但同时也降低了EP-
SPS与PEP的相互作用, 因此不能在农业生产中应
用(Dill, 2005)。当今市场上销售的抗草甘膦作物, 如
抗草甘膦大豆、玉米(Zea mays)、棉花、苜蓿(Medi-
cago sativa)和油菜等主要是转化有CP4-EPSPS基
因, 该基因来源于农杆菌菌株CP4 (Agrobacterium
sp. CP4) (美国孟山都公司研发) (Green, 2009)。另
一个已经在农业生产上应用的基因是美国迪卡
(Dekalb)遗传公司研发的修饰过的玉米EPSPS基因,
该基因只存在于1998年上市的草甘膦抗性玉米品种
中(Green, 2009)。我国研究的草甘膦抗性EPSPS基
因很大部分来源于细菌, 这些基因在经过改造后转化
到作物中, 有些表现出很好的应用前景(巩元勇等,
2014)。
迄今为止, 已有几十种植物的EPSPS基因被克
隆, 对其研究的出发点多是基于为草甘膦抗性提供后
备基因资源。本研究采用比较基因组学方法, 通过对
NCBI非冗余蛋白质序列数据库提交的植物EPSPS蛋
白进行分子进化分析, 揭示植物EPSPS基因可能的
进化机制。随着越来越多的植物基因组测序的完成,
将为进一步探究和挖掘更多植物的EPSPS基因提供
理论基础。
1 材料与方法
1.1 数据库检索植物EPSPS基因蛋白质序列
以拟南芥(Arabidopsis thaliana L.) EPSPS基因的氨
基酸序列(NCBI登录号: AAM63771)为信息探针, 在
NCBI网站选择非冗余蛋白质序列(non-redundant pro-
tein sequences)数据库进行blastp操作, 分析搜索获
得的序列, 去除重复序列以及不完整氨基酸片段, 将
剩余的植物EPSPS蛋白质序列作为本研究的目标序
列。
1.2 植物EPSPS基因蛋白质序列的生物信息学分析
蛋白质的基本理化特性(包括氨基酸序列长度、等电
点(pI)和分子量(molecular weight)用ProtParam (http:
//web.expasy.org/protparam/)软件进行分析 ; 运用
DNAman6.0.40软件进行氨基酸序列的多重序列比
对(multiple sequence alignment), 强调的同源性水
平(highlight homology level)选择≥75%, 其它的参数
选择系统默认; 用CBS的ChloroP 1.1 Server (http:
//www.cbs.dtu.dk/services/ChloroP/)软件预测蛋白
质序列的叶绿体转运肽(chloroplast transit peptides,
CTP) (Emanuelsson et al., 1999); 用EBI网站的Inter-
Proscan 5 (http://www.ebi.ac.uk/Tools/pfa/ iprscan/)
分析EPSPS基因的蛋白质功能域(functional protein
domain)和保守位点(Jones et al., 2014); EPSPS蛋
白质序列保守基序(conserved motifs)用MEME (http:
//meme.sdsc.edu/meme/meme.html)鉴定分析(Bail-
ey et al., 2006); 系统发育分析, 先利用CLUSTALX
1.83软件(Thompson et al., 1997)对EPSPS蛋白质
进行多重序列比对, 生成原始矩阵, 然后用GeneDoc
v.2.6.002软件(Nicholas et al., 1997)手工调整, 最后
用aa2dna在线软件 (http://homes.bio.psu.edu/peo-
ple/faculty/nei/lab/software.ht)生成相应的DNA序列
矩阵; 用MEGA4软件(version 4.0; http://www.mega-
software.net) (Tamura et al., 2007)构建邻接(nei-
ghbor-joining, NJ)树, 邻接树的支持率以自展(boot-
strap)法获得 , 重复取样1 000次(Saitou and Nei,
1987)。
1.3 植物EPSPS基因的结构分析
用已获得的目标植物的EPSPS氨基酸序列为搜索信
巩元勇等: 植物莽草酸途径 EPSPS蛋白的分子进化和基因结构分析 297

息, 选择基因组已经测序完成的具有代表性的植物在
JGI (http://www.phytozome.org/index.php)网站上
Blast搜索获得相应基因的 Locus名称、基因组
(genomic)序列、CDS序列和转录(transcript)序列; 使
用DNAstar软件分析基因的外显子和内含子数目及长
度 , 用GSDS软件 (http://gsds.cbi.pku.edu.cn/chin-
ese.php)绘制基因结构图(郭安源等, 2007)。
2 结果与讨论
2.1 植物EPSPS基因的氨基酸序列的获得
为获得本研究所需的EPSPS基因的氨基酸序列, 以
模式植物拟南芥的EPSPS基因的氨基酸序列(NCBI
登录号: AAM63771)为信息探针, 在NCBI网站选择
非冗余蛋白质序列数据库进行blastp操作, 共搜索获
得100条序列, 去除重复序列以及不完整氨基酸片段
后, 将剩余的43条不同植物独立完整的蛋白质序列
作为本研究的目标序列。这43条序列的来源植物分别
是: 拟南芥(2条)、琴叶拟南芥(Arabidopsis lyrata) (2
条)、二年生白菜型油菜(Brassica rapa subsp. oleif-
era)、欧洲油菜 (Brassica napus)、诸葛菜 (Ory-
chophragmus violaceus)、盐芥 (Eutrema salsugi-
neum)、芥菜 (Capsella rubella)、菜豆 (Phaseolus
vulgaris)、大豆、鹰嘴豆(Cicer arietinum)、蒺藜苜蓿
(Medicago truncatula)、长芒苋(Amaranthus palm-
eri)、糙果苋(Amaranthus tuberculatus)、欧洲山毛榉
(Fagus sylvatica)、川桑(Morus notabilis)、野草莓
(Fragaria vesca)、巴旦木(Prunus persica)、黄瓜
(Cucumis sativus)、打碗花(Calystegia hederacea)、
田旋花 (Convolvulus arvensis)、狗肝菜 (Dicliptera
chinensis)、矮牵牛(Petunia hybrida)、烟草、马铃薯
(Solanum tuberosum)、番茄、可可 (Theobroma
cacao)、陆地棉、克莱门柚(Citrus clementina)、葡
萄(Vitis vinifera)、蓖麻(Ricinus communis)、毛果杨
(Populus trichocarpa)、喜树、小蓬草(Conyza can-
adensis)、刺儿菜(Cirsium setosum)、薤白(Allium
macrostemon)、小米(Setaria italica)、 高粱(Sorg-
hum bicolor)、水稻、 二穗短柄草(Brachypodium
distachyon)、小麦(Triticum aestivum)和无油樟(Am-
borella trichopoda) (表1)。
这43条EPSPS氨基酸序列中最长的为526 aa
(黄瓜 ), 最短的为506 aa (高粱 ), 长度平均值为
518.767 aa。其中, 长度为518 aa的氨基酸序列数量
最多, 有8条, 占总数的18.6%; 43条EPSPS氨基酸
序列的平均等电点(pI)为7.29, pI最大值为8.22 (烟
草), 最小值为6.01 (诸葛菜); 43条EPSPS氨基酸序
列的平均分子量(molecular weight, MW)是55.344
kDa, MW最大值为56.276 kDa (黄瓜), 最小值是
53.449 kDa (高粱) (表1)。
2.2 植物EPSPS基因的蛋白质多重序列比对
用DNAman软件对43条植物EPSPS蛋白质序列进行
多重序列比对, 发现序列一致性达到80%, 相似性达
到100%的氨基酸残基出现在EPSPS叶绿体转运肽
(CTP)序列之后。用CBS的ChloroP 1.1 Server软件预
测EPSPS叶绿体转运肽, 灰色边框标示氨基酸序列
的N端(图1), CTP区域不具有相似性。用InterPros-
can5软件分析EPSPS基因的蛋白质功能域和保
守位点(表2), 结果表明, 43条EPSPS氨基酸序列都
包含 3个功能蛋白域 (IPR006264、 IPR013792和
IPR001986)和1个保守位点(IPR023193) (每条氨基
酸序列都有两处分布) (图1)。3个功能蛋白域的存在,
决定了EPSPS基因具有的分子功能是催化活性、3-
磷酸莽草酸1-羧乙烯基转移酶活性和转运羟基及芳
香基(或甲基)集团的转移酶活性。用MEME搜寻工具
鉴定和分析植物EPSPS蛋白质序列的保守基序, 发
现在43条植物EPSPS蛋白质序列中都有3个保守基
序, 且这3个基序在所有氨基酸序列上的位置基本一
致(图2); 它们的序列标识见图3, 基序1的正规表达
式(regular expression)是DVNMNKMPDVAMTLAV-
AL [FY] ADGPT [AT] IRDVASWRVKETERMIAIC-
TELRK, 其保守性最高, 基序2的正规表达式是[TA]
[AE] IDTYDDHRMAMAFSLAAC [AG] DVPVTI [KN]
DPGCTRKTFPDYF [EDQ] VL [EQ] [RK] [FI] TKH,
其保守性次之, 基序3的正规表达式是DVEIEI [IV] D-
KLIS [VI] PYVEMTLKLMERFGVS [VA] EHSDSWD-
RF [FL] [VI] [RK] GGQKYKSP, 其保守性最差。
2.3 植物EPSPS基因的系统发育分析
多重序列比对结果表明, EPSPS蛋白质序列在不同
物种间变异不大, 所以基于蛋白质序列比对结果构建
系统发育树分辨率较低(很多支持率<50%)。因此, 本
298 植物学报 50(3) 2015

表1 不同植物品种EPSPS蛋白的基本信息
Table 1 Information of EPSPS proteins in various plant species
No. Species Accession number Protein length (aa) pI MW (kDa)
1 Arabidopsis thaliana AAM63771 521 6.38 55.802
2 A. lyrata XP_002894141 523 6.53 55.856
3 A. lyrata XP_002880170 516 6.53 55.319
4 A. thaliana CAA29828 520 6.52 55.739
5 Orychophragmus violaceus AAL65913 518 6.01 55.292
6 Brassica rapa subsp. oleifera AAS80163 514 7.20 55.112
7 Eutrema salsugineum XP_006397708 518 7.18 55.331
8 Brassica napus P17688 516 6.88 55.029
9 Capsella rubella XP_006294019 519 6.89 55.615
10 Phaseolus vulgaris ABG88197 522 5.38 56.091
11 Amaranthus palmeri ACV53022 518 7.57 55.175
12 A. tuberculatus ACV67278 518 7.27 55.373
13 Fagus sylvatica ABA54869 520 7.54 55.492
14 Citrus clementina XP_006445276 519 8.13 55.672
15 Theobroma cacao XP_007052087 521 7.97 55.325
16 Conyza canadensis AAT45244 523 6.75 55.811
17 Fragaria vesca XP_004306932 520 6.90 55.272
18 Vitis vinifera NP_001268176 521 7.63 55.486
19 Solanum tuberosum XP_006347878 519 7.86 55.730
20 S. lycopersicum XP_004229803 520 7.86 55.720
21 Ricinus communis XP_002511692 518 8.01 55.531
22 Petunia hybrida P11043 516 7.82 55.536
23 Nicotiana tabacum P23981 518 8.22 55.710
24 Gossypium hirsutum ABV24481 521 7.82 55.601
25 Populus trichocarpa XP_002301279 518 7.54 55.603
26 Camptotheca acuminata AAV64030 519 7.98 55.566
27 Brachypodium distachyon XP_003557242 510 7.62 53.853
28 Prunus persica XP_007219002 524 7.53 55.708
29 Cirsium setosum AFA26647 520 6.61 55.224
30 Morus notabilis EXB76227 525 7.53 55.565
31 Allium macrostemon ABE77393 522 7.25 55.763
32 Dicliptera chinensis AAL27698 516 7.86 54.996
33 Cicer arietinum XP_004506537 525 7.57 56.011
34 Calystegia hederacea ACB37380 520 7.27 55.482
35 Convolvulus arvensis ACD80082 520 7.31 55.498
36 Cucumis sativus XP_004133920 526 6.47 56.276
37 Triticum aestivum ACH72672 510 6.13 53.775
38 Medicago truncatula XP_003605139 522 6.96 55.744
39 Oryza sativa AAL07437 511 7.89 53.970
40 Setaria italica XP_004964446 511 8.06 53.668
41 Sorghum bicolor XP_002436424 506 7.64 53.449
42 Glycine max XP_003517039 525 8.06 55.857
43 Amborella trichopoda XP_006857822 518 7.22 55.182
巩元勇等: 植物莽草酸途径 EPSPS蛋白的分子进化和基因结构分析 299


图1
Figure 1
300 植物学报 50(3) 2015


图1
Figure 1
巩元勇等: 植物莽草酸途径 EPSPS蛋白的分子进化和基因结构分析 301


图1
Figure 1
302 植物学报 50(3) 2015



图1 不同植物品种EPSPS蛋白氨基酸多重序列比对
数字1–43对应表1中的物种编码; 序列前端的灰框部分表示的是叶绿体转运肽序列; 完全相同的氨基酸序列用黑色背景; 相似度
≥75%的氨基酸序列用灰色背景; 2个黑框标注的是分布于两处的保守位点(IPR023193)。

Figure 1 Multiple amino acid sequence alignment of EPSPS proteins in different plant species
Corresponding number of species 1–43 is shown in Table 1; chloroplast transit peptides are shown in gray border; amino acids
that are identical are shaded with black; Amino acids sequences with similarity of ≥ 75% are marked with gray background; two
conserved sites (IPR023193) are labelled with black box.


表2 植物EPSPS蛋白质序列中发现的InterPro结构域和保守
位点
Table 2 InterPro domains and conserved site found in plant
EPSPSs
InterPro ID Description
IPR006264 3-phosphoshikimate
1-carboxyvinyltransferase
IPR013792 RNA 3-terminal phosphate
cyclase/enolpyruvate transferase,
alpha/beta
IPR001986 Enolpyruvate transferase domain
IPR023193 3-phosphoshikimate
1-carboxyvinyltransferase, conserved site


研究利用aa2dna将蛋白质矩阵转换成相应的核苷酸
矩阵, 并在此基础上构建系统发育树(图4)。系统发育
树分析结果表明, 43个不同植物的EPSPS蛋白质序
列基本上按照植物的种属亲缘关系聚到一起, 36个双
子叶植物(dicotyledons)聚到1个大的分支, 6个单子
叶植物(monocotyledons)聚到一起, 无油樟因其独成
一目——无油樟目(Amborellales)而单独成为1个分
支。十字花科(Cruciferae) (9条)、豆科(Fabaceae) (4
条)、苋科(Amaranthaceae) (2条)、蔷薇科(Rosaceae)
(2条)、旋花科(Convolvulaceae) (2条)、茄科(Sol-
anaceae) (4条 )、锦葵目 (Malvales) (2条 )和菊科
(Compositae) (2条)的36个双子叶植物分别单独聚到
一起 , 5个禾本科(Gramineae)和1个百合科(Liliac-
eae)的6个单子叶植物聚到1个分支, 可见EPSPS基
因在植物中的进化具有相对独立性。
2.4 植物EPSPS基因的结构分析
根据植物的典型性及基因组的测序情况, 从搜寻获得
的43条不同EPSPS基因中选取10条(分别来源于8种
不同植物), 在JGI网站上Blast搜索获得相应基因的
巩元勇等: 植物莽草酸途径 EPSPS蛋白的分子进化和基因结构分析 303



图2 保守基序在各种植物EPSPS蛋白质序列中的分布
数字1–43对应表1中的物种编码。

Figure 2 Conserved motifs in various plant EPSPS protein sequences
Corresponding number of species 1–43 is shown in Table 1.


Locus名称、基因组序列、CDS序列和转录序列(表3)。
这10条基因组序列长度分布于2 693–8 030 bp之间,
平均长度为3 969.7 bp; CDS序列长度分布在1 521
–1 581 bp之间, 平均长度为1 560.9 bp; 转录序列长
度分布于1 807–2 350 bp之间, 平均长度为2 047.9
bp (表3)。基因结构图表明(图5), 这10条不同的基因,
除前2条包含9个外显子外, 其它8条都具有8个外显
子。但是, 前2条基因后7个外显子的相应长度与其余
8条基因的后7个外显子所对应的长度高度一致。前2
条基因CDS长度的差异出现在第1和第2个外显子,
后8条基因CDS长度的差异主要是第1个外显子(300–
357 bp), 前2条基因的前2个外显子相加的长度在后
8条基因的第1个外显子的长度范围内。这些基因内含
子的长度不一, 最短的外显子长度为75 bp, 而最长
的外显子长度却为2 256 bp (表4), 表明这些基因的
基因组长度差异主要是由外显子长度不同所致。从基
因结构图(图5)可以看出, 内含子相位(intron phase)
的分布也非常有规律, 后8个基因所对应的内含子相
位都一致; 前2个基因的内含子相位也一致, 前2个基
因, 排除第1个内含子相位, 剩下的内含子相位与后8
个基因所对应的内含子相位也完全吻合。
2.5 讨论
EPSPS是芳香族氨基酸生物合成莽草酸途径催化合
304 植物学报 50(3) 2015



图3 植物EPSPS蛋白质序列保守基序的序列标识

Figure 3 Plant EPSPS protein sequence logos of conserved motifs


成5-烯醇式丙酮酰莽草酸 -3-磷酸的关键酶 (Herr-
mann and Weaver, 1999), 在植物和微生物等较低
等的生物中发挥重要作用。本研究中搜集的43个植物
的EPSPS蛋白质序列均包含EPSPS蛋白家族的功能
结构域(IPR006264), 此外也都含有另外2个结构域,
即 IPR013792和 IPR001986, 这2个结构域包含在
EPSPS蛋白家族结构域中, 且与EPSPS蛋白的分子
生物学功能相关联。43个植物的EPSPS蛋白质序列
都包含有3个保守基序(图2), 第3个基序保守性较差
且在有些物种中存在多处, 第1和第2个基序在所有
植物中只存在1处。保守位点(IPR023193)在所有的
EPSPS蛋白质序列上都存在2处(图1), 第1处保守位
点(L [FY] LGNAGTAMRPLTA)包含一段涉及EPSPS
与PEP(或草甘膦)相互作用高度保守的序列——LXL-
GNAGTAXRXL (X代表不保守氨基酸残基) (Schön-
brunn et al., 2001); 第2处保守位点(VKETERMI-
AICTELRKLG)位于第1个基序内。另外不难发现, 在
基因结构上, 这些植物的EPSPS基因在进化上也高
度保守(表3, 表4; 图5), 但是氨基酸序列进化树的结
果表明(图4), 它们还是根据植物间种属亲缘关系的
远近进行了分类, 双子叶植物纲的聚到一起, 其中十
字花科、豆科、苋科苋属、蔷薇科和茄科等都各自聚
为一个分支; 单子叶植物纲的聚到一起, 其中禾本科
植物单独聚到一个分支; 无油樟因其独成一目而单独
成为一个分支(路安民和汤彦承, 2005)。
植物EPSPS基因是细胞核基因 , 但成熟的
EPSPS酶定位在叶绿体, 并参与其中的莽草酸代谢
途径。细胞质中翻译后的EPSPS酶前体在其N端叶绿
体转运肽的作用下进入叶绿体 , 在叶绿体基质中 ,
EPSPS酶前体的叶绿体转运肽被水解掉, 成为成熟
的EPSPS酶(Della-Cioppa et al., 1986; Smart and
Amrhein, 1987)。叶绿体转运肽对植物EPSPS酶的定
位是必需的, 所以在本研究中获取到的植物EPSPS
氨基酸序列的N端都有CTP存在。 尽管植物间的CTP
存在很大差异(即使相同植物的2个EPSPS间的CTP
也差异明显), 但是它们都具有叶绿体定位功能。细菌
的EPSPS基因(aroA)缺少生成CTP的核苷酸序列,
结果产生胞质型酶。在细胞质中表达细菌EPSPS基
因的转基因植物尽管也能表现出一定的草甘膦抗性,
但是存在明显的生长缺陷(Fillatti et al.,1987)。第1个
成功应用于商业化的草甘膦抗性大豆品种GTS40-
3-2是转化有融合矮牵牛的CTP的CP4 EPSPS基因,
巩元勇等: 植物莽草酸途径 EPSPS蛋白的分子进化和基因结构分析 305



图4 43个不同植物EPSPS基因的系统发育关系

Figure 4 Phylogenetic relationships of EPSPS genes from 43 various plants
306 植物学报 50(3) 2015

表3 8个物种10个不同EPSPS基因的基本信息
Table 3 Information of 10 different EPSPS genes in 8 plant species
No. Species Locus Exon Genomic (bp) CDS (bp) Transcript (bp)
1 Arabidopsis thaliana AT1G48860 9 2 760 1 566 1 886
2 A. lyrata 474025 9 2 757 1 572 1 807
3 A. lyrata 483663 8 2 693 1 551 1 831
4 A. thaliana AT2G45300 8 2 762 1 563 1 974
14 Citrus clementina Ciclev10019734m.g 8 3 825 1 560 2 280
15 Theobroma cacao Thecc1EG005531 8 4 494 1 566 2 629
36 Cucumis sativus Cucsa.257560 8 4 385 1 581 1 965
39 Oryza sativa LOC_Os06g04280 8 3 630 1 548 1 911
41 Sorghum bicolor Sb10g002230 8 4 088 1 521 1 846
42 Glycine max Glyma03g03190 8 8 303 1 581 2 350


表4 10个不同植物EPSPS基因间外显子和内含子的比较
Table 4 Comparison of exon and intron between 10 different plant EPSPS genes
物种编码对应表3中的物种编码。
Corresponding number of species (Species No.) is shown in Table 3.


之后上市的草甘膦抗性品种H7-1甜菜、J101与J163
苜蓿、MON1445棉花、NK603玉米和MON89788大
豆等都是转化有融合拟南芥EPSPS基因源的CTP2
编码序列的CP4 EPSPS基因(Green, 2009); 将高粱
的CTP序列融合CP4 EPSPS基因后转化玉米, 与没
有融合该序列的转基因玉米相比表现出草甘膦抗性,
说明高粱的CTP能够正确行使其生物学功能(赵海铭
等, 2013)。
在同一个植物基因组中EPSPS可能存在多个同
源基因, 本研究所搜集到的拟南芥和琴叶拟南芥中就
有2个EPSPS基因(表1), 其它植物中也有类似情况。
对陆地棉Y18的研究表明, 它可能存在2个EPSPS基
因; 在受到草甘膦处理时, 这2个EPSPS基因的表达
情况存在差异, 分析其原因可能是由于内含子的不同
造成(刘东军等, 2008)。我们从二倍体棉花雷蒙德氏
棉(Gossypium raimondii)基因组层面分析了EPSPS
基因的存在情况, 研究结果表明, 有2个高度同源的
EPSPS基因分别位于第8和第1条染色体上, 这2个基
因座名称分别是Gorai.008G113600和Gorai.001-
G174400, 它们编码区的长度分别为3 080和3 341
bp, 但这2个基因的CDS序列长度都为1 566 bp, 而
且具有相同个数的外显子(8个)和内含子(7个), 且每
个相应的外显子长度都一样, 可见它们的主要差别在
于内含子不同。今后可能会在更多的植物中发现多个
Exon (bp) Intron (bp) Species No.
1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8
1 139 203 245 154 215 118 211 62 219 86 96 84 227 82 148 76 75
2 136 212 245 154 215 118 211 62 219 191 73 87 216 83 146 76 78
3 327 245 154 215 118 211 62 219 87 88 242 83 139 82 87
4 339 245 154 215 118 211 62 219 87 85 234 81 139 75 87
14 336 245 154 215 118 211 62 219 203 396 306 76 209 270 85
15 342 245 154 215 118 211 62 219 82 240 747 87 293 316 96
36 354 248 154 215 118 211 62 219 778 149 882 80 205 221 105
39 324 245 154 215 118 211 62 219 704 81 277 93 216 237 111
41 300 242 154 215 118 211 62 219 906 94 263 518 229 115 117
42 357 245 154 215 118 211 62 219 861 358 634 79 2 256 1 681 84
巩元勇等: 植物莽草酸途径 EPSPS蛋白的分子进化和基因结构分析 307




图5 植物EPSPS基因外显子-内含子的结构
物种编码对应表3中的物种编码; 灰色方框代表外显子; 线条代表内含子; 黑色方框代表上下游非编码区。

Figure 5 Exon-intron structure of EPSPS genes in plants
Corresponding number of species (Species No.) is shown in Table 3; gray boxes stand for exons; black lines stand for introns;
black boxes stand for upstream and downstream region.


EPSPS基因存在的情况。
致谢 感谢江苏省现代作物协同创新中心资助。
参考文献
程华, 李琳玲, 王燕, 姜德志, 程水源 (2010). 银杏EPSPS基
因克隆及表达分析. 西北植物学报 30, 2365–2372.
巩元勇, 郭书巧, 束红梅, 何林池, 倪万潮 (2014). 1株抗草甘
膦棉花突变体草甘膦抗性的初步鉴定. 棉花学报 26, 18–
24.
郭安源, 朱其慧, 陈新, 罗静初 (2007). GSDS: 基因结构显
示系统. 遗传 29, 1023–1026.
李雅超, 安泽伟, 谢黎黎, 翟琪麟, 黄华孙 (2013). 橡胶树5-
烯醇式丙酮莽草酸-3-磷酸合成酶基因的克隆及其响应非生
物胁迫的表达分析. 热带作物学报 34, 807–814.
刘东军 , 张锐 , 郭三堆 , 孟志刚 , 孙国清 , 王成社 , 张宏纪
(2008). 棉花品系Y18在草甘膦胁迫下的EPSPS基因表达
分析研究. 中国生物工程杂志 28, 55–59.
路安民, 汤彦承 (2005). 被子植物起源研究中几种观点的思
考. 植物分类学报 43, 420–430.
童旭宏, 吴玉香, 祝水金 (2009). 陆地棉EPSPS基因的克隆
及其组织特异性表达分析. 棉花学报 21, 259–264.
赵海铭, 宋伟彬, 赖锦盛 (2013). 高粱5-烯醇式丙酮酰莽草酸-
3-磷酸合酶基因(EPSPS)叶绿体转运肽(CTP)的克隆及其在
转基因玉米中的功能验证. 农业生物技术学报 21, 1009–
1018.
Baerson SR, Rodriguez DJ, Tran M, Feng YM, Best NA,
Dill GM (2002). Glyphosate-resistant goosegrass: identi-
fication of a mutation in the target enzyme 5-enolpyru-
vylshikimate-3-phosphate synthase. Plant Physiol 129,
1265–1275.
Bailey TL, Williams N, Misleh C, Li WW (2006). MEME:
discovering and analyzing DNA and protein sequence
motifs. Nucleic Acids Res 34, W369–W373.
Della-Cioppa G, Bauer SC, Klein BK, Shah DM, Fraley
RT, Kishore GM (1986). Translocation of the precursor of
5-enolpyruvylshikimate-3-phosphate synthase into chloro-
308 植物学报 50(3) 2015

plasts of higher plants in vitro. Proc Natl Acad Sci USA 83,
6873–6877.
Dill GM (2005). Glyphosate-resistant crops: history, status
and future. Pest Manag Sci 61, 219–224.
Duncan K, Lewendon A, Coggins JR (1984). Mutant EPSP
synthase genes from tomato, Arabidopsis thaliana, Bras-
sica napus, Glycine max, E. coli K-12 confer tolerance to
glyphosate. FEBS Lett 170, 59–63.
Emanuelsson O, Nielsen H, Heijne GV (1999). ChloroP, a
neural network-based method for predicting chloroplast
transit peptides and their cleavage sites. Protein Sci 8,
978–984.
Fillatti JJ, Kiser J, Rose R, Comai L (1987). Efficient
transfer of a glyphosate tolerance gene into tomato using
a binary Agrobacterium tumefaciens vector. Biol Technol
5, 726–730.
Gong Y, Liao Z, Chen M, Guo B, Jin H, Sun X, Tang K
(2006). Characterization of 5-enolpyruvylshikimate 3-pho-
sphate synthase gene from Camptotheca acuminata.
Biologia Plantarum 50, 542–550.
Green JM (2009). Evolution of glyphosate-resistant crop
technology. Weed Sci 57, 108–117.
Gruys KJ, Walker MC, Sikorski JA (1992). Substrate syn-
ergism and the steady-state kinetic reaction mechanism
for EPSP synthase from Escherichia coli. Biochemistry
31, 5534–5544.
Herrmann KM, Weaver LM (1999). The shikimate pathway.
Annu Rev Plant Physiol Plant Mol BioI 50, 473–503.
Jones P, Binns D, Chang HY, Fraser M, Li WZ, McAnulla
C, McWilliam H, Maslen J, Mitchell A, Nuka G, Pesseat
S, Quinn AF, Sangrador-Vegas A, Scheremetjew M,
Yong SY, Lopez R, Hunter S (2014). InterProScan 5:
genome-scale protein function classification. Bioinfor-
matics 30, 1236–1240.
Keeling PJ, Palmer JD, Donal RGK, Roost DS, Waller RF,
McFadden GI (1999). Shikimate pathway in Apicomp-
lexan parasites. Nature 397, 219–220.
Klee HJ, Muskopf YM, Gasser CS (1987). Cloning of an
Arabidopsis thaliana gene encoding 5-enolpyruvylshi-
kimate-3-phosphate synthase: sequence analysis and
manipulation to obtain glyphosate-tolerant plants. Mol
Gen Genet 210, 437–442.
Macheroux P, Schmid J, Amrhein N, Schaller A (1999). A
unique reaction in a common pathway: mechanism and
function of chorismate synthase in the shikimate pathway.
Planta 207, 325–334.
McDowell LM, Poliks B, Studelska DR, O’Connor RD,
Beusen DD, Schaefer J (2004). Rotational-echo dou-
ble-resonance NMR-restrained model of the ternary com-
plex of 5-enolpyruvylshikimate-3-phosphate synthase. J
Biomol NMR 28, 11–29.
Nicholas KB, Nicholas HB Jr, Deerfield II (1997). Gene-
Doc: a tool for editing and annotating multiple sequence
alignments. Embnew News 4, 1–4.
Rogers SG, Brand LA, Holder SB, Sharps ES, Brackin
MJ (1983). Amplification of the aroA gene from Es-
cherichia coli results in tolerance to the herbicide gly-
phosate. Appl Environ Microbiol 46, 37–43.
Saitou N, Nei M (1987). The neighbor-joining method: a new
method for reconstructing phylogenetic trees. Mol Biol
Evol 4, 406–425.
Schönbrunn E, Eschenburg S, Shuttleworth WA, Schloss
JV, Amrhein N, Evans JNS, Kabsch W (2001). Interaction
of the herbicide glyphosate with its target enzyme 5-enol-
pyruvylshikimate-3-phosphate synthase in atomic detail.
Proc Natl Acad Sci USA 98, 1376–1380.
Smart CC, Amrhein N (1987). Ultrastructural localisation by
protein A-gold immunocytochemistry of 5-enolpyruvylshi-
kimic acid-3-phosphate synthase in a plant cell culture
which overproduces the enzyme. Planta 170, 1–6.
Stalker DM, Hiatt WR, Comai L (1985). A single amino acid
substitution in the enzyme 5-enolpyruvylshikimate-3-
phosphate synthase confers resistance to the herbicide
glyphosate. J Biol Chem 260, 4724–4728.
Tamura K, Dudley J, Nei M, Kumar S (2007). MEGA4:
molecular evolutionary genetics analysis (MEGA) soft-
ware version 4.0. Mol Biol Evol 24, 1596–1599.
Thompson JD, Gibson TJ, Plewniak F, Jeanmougin F,
Higgins DG (1997). The CLUSTAL_X windows interface:
flexible strategies for multiple sequence alignment aided
by quality analysis tools. Nucleic Acids Res 25, 4876–
4882.
Wang YX, Jones JD, Weller SC, Goldsbrough PB (1991).
Expression and stability of amplified genes encoding
5-enolpyruvylshikimate-3-phosphate synthase in glypho-
satetolerant tobacco cells. Plant Mol Biol 17, 1127–1138.
Xu JW, Wei XL, Li XG, Chen L, Feng DJ, Zhu Z (2002).
Isolation of rice EPSP synthase cDNA and its sequence
analysis and copy number determination. Acta Bot Sin 44,
188–192.
巩元勇等: 植物莽草酸途径 EPSPS蛋白的分子进化和基因结构分析 309

Analysis of Molecular Evolution and Gene Structure of EPSPS
Protein in Plant Shikimate Pathway
Yuanyong Gong1, Shuqiao Guo1, Hongmei Shu1, Wanchao Ni1*, Paerhati·Maimaiti2, Xinlian Shen1
Peng Xu1, Xianggui Zhang1, Qi Guo1
1Institute of Industrial Crops, Jiangsu Academy of Agricultural Sciences/Key Laboratory of Cotton and Rapeseed in the Lower
Reaches of Yangtze River, Ministry of Agriculture, Nanjing 210014, China; 2National Engineering Techanical
Research Center of Cotton, Urumqi 830091, China
Abstract 5-enolpyruvylshikimate-3-phosphate synthase (EPSPS), a key enzyme with a role in the shikimate pathway of
aromatic amino acid biosynthesis in nearly all plants, bacteria, and fungi, is a target enzyme of the herbicide glyphosate
[N-(phosphonomethyl) glycine]. The cloning of EPSPS genes can provide candidate gene for the development of gly-
phosate resistant transgenic crops. Comparative genomic analysis was used to investigate the evolutionary relationship
among 43 EPSPS genes in 41 different plant species. The main results are as follows. (1) Various plant EPSPS protein
sequences have the same functional domain, conserved motifs and conserved site. However, chloroplast transit peptide
sequences significantly differ. (2) Phylogenetic analyses suggested that EPSPS genes correspond to two main branches
according to dicotyledoneae and monocotyledoneae, and each small branch was classified based on species kinship of
plants. (3) Exon-intron structure analysis revealed that the gene structures of EPSPS basically contained 8 exons and 7
introns, with only a marginal difference in corresponding exons but marked differences in all introns. The change in intron
length was the main contributor to the structural diversity of plant EPSPS genes. This study provides valuable information
for research into EPSPS proteins in plants.
Key words plant, EPSPS protein, phylogenetic analysis, gene structure
Gong YY, Guo SQ, Shu HM, Ni WC, Maimaiti P, Shen XL, Xu P, Zhang XG, Guo Q (2015). Analysis of molecular
evolution and gene structure of EPSPS protein in plant shikimate pathway. Chin Bull Bot 50, 295–309.
———————————————
* Author for correspondence. E-mail: nwchao2002@aliyun.com
(责任编辑: 孙冬花)