萜类化合物具有重要的生理、生态作用和药用价值, 萜类合成酶(TPS)是合成萜类化合物的关键酶。通过整合中粒咖啡(Coffee canephora)的基因组和转录组数据, 利用生物信息学方法, 鉴定出43个萜类合成酶全长基因, 并对这些基因的分子进化、结构、复制、表达及功能分化的机理进行了探究。结果表明, 中粒咖啡萜类合成酶基因可以分为5个亚家族(a、b、c、e/f、g), 不同亚家族的基因结构差异很大; 串联复制是基因家族扩增的主要原因; 表达分析结果表明, 萜类合成酶基因在不同组织中的表达差异明显; 中粒咖啡萜类合成酶基因启动子区的顺式调控元件可能与基因的功能分化相关; 不同亚家族之间的功能差异主要由亚家族特异的氨基酸决定。
Terpenoids are catalyzed by terpenoid synthase and have important physiological, ecological and medicinal value. By integrating data for the Coffee canephora genome and transcriptome, terpenoid synthase genes from C. canephora were identified. Then, the molecular evolution, structure, duplication and expression pattern of the genes were analyzed. Finally, functional differentiation among the terpenoid synthase subfamilies was investigated. C. canephora contains 43 full-length terpenoid synthase genes, which can be divided into 5 subfamilies (a, b, c, e/f, g), with largely different gene structure. Amplification of the genes is mainly caused by tandem duplication. Also the expression pattern of C. canephora terpenoid synthases differs in different tissues. Functional differentiation between each terpenoid synthase subfamily may have several reasons; cis-regulatory elements in the gene promoter region may be strongly related to functional differentiation and the differentiation is mainly caused by the subfamily-specific amino acid.
全 文 :植物学报 Chinese Bulletin of Botany 2016, 51 (2): 235–250, www.chinbullbotany.com
doi: 10.11983/CBB15022
——————————————————
收稿日期: 2015-02-12; 接受日期: 2015-06-23
基金项目: 国家自然科学基金(No.31370329)和中央高校基本科研业务费(No.GK201403004)
* 通讯作者。E-mail: glli@snnu.edu.cn
中粒咖啡萜类合成酶基因家族的生物信息学分析
程甜, 魏强, 李广林*
陕西师范大学生命科学学院, 西安 710119
摘要 萜类化合物具有重要的生理、生态作用和药用价值, 萜类合成酶(TPS)是合成萜类化合物的关键酶。通过整合中粒咖
啡(Coffee canephora)的基因组和转录组数据, 利用生物信息学方法, 鉴定出43个萜类合成酶全长基因, 并对这些基因的
分子进化、结构、复制、表达及功能分化的机理进行了探究。结果表明, 中粒咖啡萜类合成酶基因可以分为5个亚家族(a、
b、c、e/f、g), 不同亚家族的基因结构差异很大; 串联复制是基因家族扩增的主要原因; 表达分析结果表明, 萜类合成酶基
因在不同组织中的表达差异明显; 中粒咖啡萜类合成酶基因启动子区的顺式调控元件可能与基因的功能分化相关; 不同亚
家族之间的功能差异主要由亚家族特异的氨基酸决定。
关键词 生物信息学, 中粒咖啡, 功能分化, 分子进化, 萜类合成酶
程甜, 魏强, 李广林 (2016). 中粒咖啡萜类合成酶基因家族的生物信息学分析. 植物学报 51, 235–250.
萜类化合物(terpenoid)是植物代谢产物中种类最
多、结构最为复杂的天然产物, 根据组成萜类化合物
的异戊二烯(isoprene, C5)单元数的不同, 萜类化合
物可分为单萜(monoterpene, C10)、倍半萜(sesqu-
iterpene, C15)及二萜(diterpene, C20)等。萜类化合
物具有重要的生理和生态作用。首先, 它们是合成植
物激素的前体, 参与植物生长发育的调节, 例如赤霉
素(gibberellins, GAs)、脱落酸(abscisic acid, ABA)和
独脚金内酯(strigolactones)等(Pichersky et al., 2006);
其次, 萜类化合物具有重要的生态作用, 它们能够吸
引授粉者以及抵御病原菌和植食性动物(Kessler and
Baldwin, 2001; Pichersky and Gershenzon, 2002)。
萜类合成酶(terpenoid synthase, TPS)是萜类化
合物合成的关键酶。在植物体内, 萜类化合物可通过2
条不同的途径合成, 即甲羟戊酸(mevalonate, MVA)
途径与甲基赤藓糖磷酸 (2-C-methyl-D-erythritol-4-
phosphate, MEP)途径。首先合成前体异戊烯基焦磷
酸(isopentenyl diphosphate, IPP)。然后, IPP在IPP
异构酶的作用下形成二甲基丙烯基焦磷酸 (dime-
thylallyl diphosphate, DMAPP), IPP和DMAPP在异
戊烯基转移酶(isoprenyltransferase)的作用下形成香
叶基焦磷酸(geranyl diphosphate, GPP)、法呢基焦磷
酸(farnesyl diphosphate, FPP)和香叶基香叶基焦磷
酸(geranylgeranyl diphosphate, GGPP)。最后这些非
环化的中间体在TPS的作用下形成各种萜类化合物
(Chen et al., 2011)。
鉴于TPS在萜类化合物合成中的关键作用, 人们
已在拟南芥(Arabidopsis thaliana) (Aubourg et al.,
2002)、葡萄(Vitis vinifera) (Martin et al., 2010)、杨
树(Populus trichocarpa) (Irmisch et al., 2014)、水稻
(Oryza sativa) (Chen et al., 2014)、番茄(Solanum
lycopersicum) (Falara et al., 2011)、棉花(Gossypium
hirsutum) (Yang et al., 2013)和大豆(Glycine max)
(Liu et al., 2014)等物种中对TPS基因家族进行了探
究。研究显示, 植物TPS基因家族中等大小, 除小立碗
藓(Physcomitrella patens)仅含有1个TPS基因外, 其
余物种中TPS基因的数量为20–150个。根据已有物种
的TPS基因家族分类情况 , 通常把TPS分为7类 :
TPS-a、TPS-b、TPS-c、TPS-d、TPS-e/f、TPS-g
和TPS-h。TPS-d是裸子植物特有的分支。目前只在
石松属的江南卷柏(Selaginella moellendorffii)中发现
TPS-h。TPS-a、TPS-b和TPS-g是被子植物特有的分
支, 其中TPS-a主要由倍半萜合成酶组成, TPS-b与
TPS-g主要由单萜合成酶组成。TPS-c和TPS-e/f存在
于被子植物与裸子植物中, 主要由二萜合成酶组成
(Chen et al., 2011)。
·研究报告·
236 植物学报 51(2) 2016
咖啡是世界上最重要的热带经济作物之一, 它作
为一种重要的提神饮料已有成百上千年的历史。咖啡
的香味和风味主要由其挥发性产物决定, 而萜类化合
物是咖啡挥发物的重要成分。目前, 在咖啡中报道的
萜类化合物多数为二萜, 例如咖啡豆醇(kahweol)、咖
啡油醇(cafestol)以及对映贝壳杉烯(ent-kaurene), 它
们具有抗氧化和抗癌等重要生理特性(Chartier et al.,
2013; Shu et al., 2014)。中粒咖啡(Coffee canephora)
的产量占世界咖啡总产量的30%, 是一个高度杂合的
二倍体, 其基因组测序的完成(Denoeud et al., 2014)
为利用生物信息学方法从基因组水平上探究中粒咖啡
的基因功能提供了可能。本研究通过整合中粒咖啡的
基因组和转录组数据, 利用生物信息学方法, 对中粒
咖啡的TPS基因家族进行了系统分析, 包括TPS基因
的鉴定、分类、分子进化和表达分析, 并对TPS基因
功能分化的原因进行了探究, 包括分析TPS基因的顺
式调控元件及不同亚家族之间的功能分歧, 以期为今
后深入研究TPS在中粒咖啡中的生物学功能和改良中
粒咖啡的风味提供理论依据。
1 材料与方法
1.1 中粒咖啡TPS基因家族成员的识别
在Pfam数据库(http://pfam.xfam.org/)中(Finn et al.,
2006)标号为PF01397与PF03936的结构域为植物
TPS蛋白的结构域。首先从中粒咖啡(Coffee cane-
phora L.)基因组数据库(http://coffee-genome.org/)
(Dereeper et al., 2015)中下载中粒咖啡全基因组序列,
然后利用HMMER 3.1b1程序(Eddy, 1998)搜索中粒
咖啡中含有TPS结构域的候选序列。对于只含1个结构
域的TPS序列, 用perl程序对其上下游分别延伸2 000
bp, 用fgenesh (http://linux1.softberry.com/berry.phtml
? topic=fgenesh&group=programs&subgroup=gfind)
(Solovyev et al., 2006)与Interproscan 5 (http://www.
ebi.ac.uk/interpro/scan.html) (Jones et al., 2014)对
这些序列进行重新注释并得到相应的蛋白序列, 将仍
然只有1个结构域的序列剔除, 最后得到含2个结构域
的全长TPS序列, 同时获取这些TPS的DNA、CDS以
及染色体位置信息。
用TargetP 1.1 (http://www.cbs.dtu.dk/services/
TargetP/)预测中粒咖啡TPS蛋白信号肽的定位以及长
度, 具体参数设置为Organism group: plant; Predict
scope: perform cleavage site predictions。其它参数
为默认值。
1.2 拟南芥和番茄TPS基因的序列
根据TPS基因在拟南芥(Arabidopsis thaliana L.)和番
茄(Solanum lycopersicum L.)中的相关文献报道
(Aubourg et al., 2002; Falara et al., 2011), 首先整理
出拟南芥与番茄TPS基因的序列编号, 然后分别从
TAIR10 (https://www.arabidopsis.org/)和SOL (http://
solgenomics.net/organism/Solanum_lycopersicum/
genome)数据库下载对应的TPS序列, 其中番茄的
TPS基因名与文献(Falara et al., 2011)保持一致。
1.3 多序列比对与系统进化树的构建
使用MAFFT软件(Katoh et al., 2002)中的L-INS-i方法
对中粒咖啡的TPS蛋白序列进行多序列比对。以多序
列比对的结果为基础, 用MEGA 6.0软件生成中粒咖
啡TPS的系统进化树。进化树生成采用邻接法(neigh-
bor-joining method)。具体参数设置为Test of phy-
logeny: bootstrap method; Replications: 1 000; Mod-
el: poisson model; Rates among sites: uniform rates;
Gaps: pairwise deletion。其它参数为默认值。
1.4 中粒咖啡TPS基因结构分析
根据中粒咖啡TPS基因家族的DNA及CDS序列, 用在
线工具GSDS (http://gsds.cbi.pku.edu.cn/) (郭安源等,
2007)分析其基因结构, 并绘制TPS基因的外显子和
内含子。
1.5 中粒咖啡TPS基因定位及基因复制
根据中粒咖啡各TPS基因在染色体中的位置信息, 用
MapInspect软件生成每个TPS基因在染色体上的位
置, 从而得到TPS基因在染色体上的分布状况。利用
中粒咖啡基因组的共线性数据库(http://coffee-geno-
me.org/syntenic_dotplot)信息, 对中粒咖啡TPS基因
进行共线性及基因复制分析, 并在染色体上标出。
1.6 中粒咖啡TPS基因在各组织中的表达分析
从中粒咖啡基因组网站上的Gene expression数据库
(http://coffee-genome.org/gene_expression)下载中
程甜等: 中粒咖啡萜类合成酶基因家族的生物信息学分析 237
粒咖啡TPS基因家族在胚乳(endosperm)、外胚乳
(perisperm)、叶(leaf)、雌蕊(pistil)、雄蕊(stamen)和
根(root)这6个组织中的表达数据, 用R语言进行TPS
基因表达的聚类分析, 并绘制其表达热图(heatmap)。
1.7 中粒咖啡TPS基因的启动子分析
运用Perl程序提取中粒咖啡TPS编码基因上游1 500
bp作为启动子区序列, 然后使用PlantCARE (http://
bioinformatics.psb.ugent.be/webtools/plantcare/html/)
(Lescot et al., 2002)与PLACE (http://www.dna.affrc.
go.jp/PLACE/signalscan.html) (Higo et al., 1999)两
个数据库对这些启动子区序列进行顺式调控元件分
析。
1.8 中粒咖啡TPS亚家族之间的功能分歧分析
利用DIVERGE V3.0B1 (Gu et al., 2013)软件结合构
建好的系统进化树, 计算中粒咖啡TPS各亚家族之间
的功能分歧(I型和II型)。I型功能分歧发生在基因复制
之后, 通常导致特定的氨基酸选择性改变, 即进化速
率改变, 其系数θI在0–1之间波动, 反映基因类别之间
的功能分歧由弱到强。II型功能分歧同样发生在基因
复制之后 , 但只导致氨基酸理化性质的改变 (Gu,
1999, 2006)。得到中粒咖啡TPS各亚家族之间的进化
速率分歧系数θI和氨基酸理化性质分歧系数θII以及相
应的后验概率(posterior probability, Qk)后, 如果Qk>
0.9, 则推断此处的氨基酸位点在TPS基因复制之后,
可能发生功能分歧。
利用I-Tasser (http://zhanglab.ccmb.med.umich.
edu/I-TASSER/) (Yang et al., 2015)预测TPS基因的
功能位点, 并整合上述DIVERGE得到的功能分歧位
点, 从而确定对TPS功能分歧起关键作用的位点。
2 结果与讨论
2.1 中粒咖啡TPS基因家族成员的识别
为了系统探索中粒咖啡TPS的家族成员, 本文分别以
TPS的隐马尔科夫模型的(Hidden Markov models,
HMM) PF01397 (代表TPS的N末端结构域)和PF0-
3936 (代表TPS的C末端结构域)为检索模型, 利用
HMMER软件搜索中粒咖啡蛋白质数据库, 结果共获
得53条具有统计学显著性的候选序列(E-value<10–5),
它们分布在中粒咖啡基因组的7条已知染色体和另外
1条未知的染色体片段上(暂定为0号染色体)。其中有
41条序列具有PF01397和PF03936这2个结构域。考
虑到中粒咖啡基因组注释的不完整性, 我们对TPS中
只有1个TPS结构域的序列进行延伸并重新注释(详见
1.1节)。结果表明, 重新注释后只有Cc05_g05490和
Cc05_g05500具有PF01397与PF03936这2个结构域,
其余的序列仍只含1个TPS结构域。因此下文用含有
PF01397与PF03936结构域的43条TPS序列进行分
析(表1)。
中粒咖啡TPS氨基酸序列的长度在426–822 aa
之间, 这与之前的报道是一致的(Bohlmann et al.,
1998); 等电点(PI)在4.92–9.03之间; 预测结果显示,
共有20个TPS能获得其信号肽的定位位置, 其中有13
个定位于叶绿体, 3个定位于线粒体, 4个定位于分泌
途径, 其余23个TPS可能定位在细胞质中; 并且预测
得到信号肽的长度在22–143 aa之间。
2.2 中粒咖啡TPS基因家族的系统进化与基因结构
为了探索中粒咖啡TPS基因的分子系统进化关系, 本
文基于43条中粒咖啡TPS的多序列比对结果 , 用
MEGA 6.0软件中的邻接法生成TPS基因家族的系统
进化树(图1A)。进化分析结果表明, 中粒咖啡TPS可
分为5个亚家族(a、b、c、e/f、g)。其中TPS-a包含17
个成员; TPS-b、TPS-c、TPS-e/f和TPS-g分别包含14、
5、4和3个成员。TPS-a与TPS-b这2个亚家族较大, 包
含了72.1%的TPS成员, TPS-c、TPS-e/f以及TPS-g
这3个亚家族较小, 所含基因数为3–5个。为了进一步
确认中粒咖啡TPS的进化分类, 本研究又用32条拟南
芥TPS (Aubourg et al., 2002)、29条番茄TPS (Falara
et al., 2011)和43条中粒咖啡TPS共104条蛋白序列构
建系统进化树(图2)。结果表明, 用拟南芥、番茄和中
粒咖啡TPS构建的进化树和仅用中粒咖啡TPS构建的
进化树, 对中粒咖啡TPS的分类结果是一致的。根据
已报道的且功能已知的拟南芥和番茄TPS序列, 结合
进化树, 可以推测部分咖啡TPS的功能。例如, TPS-c
亚家族的TPS40功能已知, 其基因编码产物为柯巴基
焦磷酸合酶(copalyl diphosphate) (Rebers et al.,
1999), Cc01_19400与此基因在同一分支且自展值为
99, 据此可推断Cc01_19400是一个二萜合成酶基
因, 并可能编码柯巴基焦磷酸合酶; TPS-e/f亚家
238 植物学报 51(2) 2016
表1 中粒咖啡TPS基因及其编码蛋白的特征
Table 1 The feature of TPS genes and their encoded proteins in Coffee canephora
ID Aa PI Conserved motifs Locb Tplenc Chr. Strand Begin End
RR(x)8W RXR DDXXD NSE/DTE
Cc01_g19400 822 5.69 Na Na Na Na C 54 1 – 36232113 36239469
Cc02_g11820 589 5.63 RR(x)8W RXR DDXXD NDXXTXXXE C 36 2 + 9762146 9765886
Cc02_g11830 587 5.63 RR(x)8W RXR DDXXD NDXXTXXXE C 34 2 + 9775928 9779555
Cc02_g11870 605 6.24 Na RXQ DDXXD DDXXSXXXE C 32 2 + 9817486 9821171
Cc02_g12790 843 5.71 Na RXK DDXXD NDXXSXXXE S 143 2 – 10962357 10968950
Cc02_g12800 721 5.93 Na RXK DDXXD NDXXSXXXE _ – 2 – 10974562 10979896
Cc02_g20930 510 5 Na RXR DDXXD DDXXTXXXE C 41 2 – 18646492 18649797
Cc02_g29500 487 5.83 RR(x)8W RXR DDXXD Na C – 2 + 30876701 30879109
Cc02_g29590 553 5.1 RP(x)8W RXR DDXXD NDXXSXXXE _ – 2 + 31081548 31090061
Cc02_g35640 599 5.32 RR(x)8W RXR DDXXD DDXXTXXXE C 48 2 + 49559875 49563902
Cc03_g14100 569 5.51 RL(x)8W RXR DGXXD NDXXSXXXE _ – 3 + 27992091 28002647
Cc04_g16380 567 5.66 RP(x)8W RXR DDXXD DDXXGXXXE _ – 4 + 26533839 26536938
Cc04_g16390 470 5.68 RP(x)8W RXR DDXXD DDXXGXXXE _ – 4 + 26575942 26580763
Cc04_g16400 568 5.62 RP(x)8W RXR DDXXD DDXXGXXXE _ – 4 + 26628007 26631524
Cc04_g16520 545 5.71 RP(x)8W RXR DDXXD DDXXGXXXG _ – 4 + 26837450 26841294
Cc04_g16530 571 5.07 RP(x)8W RXR DDXXD Na _ – 4 + 26861073 26866930
Cc05_g05380 612 5.99 Na RXR DDXXD NDXXSXXXE _ – 5 + 19945840 19951165
Cc05_g05400 614 5.49 RR(x)8W RXR DDXXD NDXXSXXXE C 42 5 + 19959720 19964609
Cc05_g05410 603 5.27 RR(x)8W RXR DDXXD NDXXSXXXE C 42 5 + 19970432 19976641
Cc05_g05490 624 6.27 RR(x)8W RXR DDXXD NEXXTXXXE M 35 5 + 20061653 20068755
Cc05_g05500 739 6.3 Na RXR DDXXD NEXXTXXXE _ – 5 + 20064933 20069377
Cc05_g13060 551 5.44 RR(x)8W RXR DDXXD DDXXGXXXE _ – 5 – 26746571 26750238
Cc05_g13070 550 5.76 RR(x)8W RXR DDXXD DDXXGXXXE _ – 5 – 26767977 26770620
Cc08_g06940 553 5.33 RP(x)8W RXR DDXXD NDXXGXXXD _ – 8 – 18458061 18462018
Cc08_g06960 553 5.37 RP(x)8W RXR DDXXD NDXXGXXXD _ – 8 – 18474336 18480348
Cc08_g07420 714 5.35 Na RXV DDXXD NDXXTXXXE _ – 8 – 19681648 19689451
Cc08_g07480 597 6.64 Na Na Na Na _ – 8 + 19801873 19809275
Cc08_g07530 735 6.47 Na Na Na Na S 22 8 + 20232648 20240540
Cc08_g07540 536 5.52 Na Na DDXXD NDXXTXXXE S 29 8 + 20247389 20255575
Cc10_g12310 565 5.3 RQ(x)8S RXM DDXXD NDXXTXXXE C 40 10 + 21701855 21705459
Cc10_g12320 598 5.35 RQ(x)8S RXM DDXXD NDXXTXXXE C 39 10 – 21708529 21712087
Cc10_g12360 544 5.25 KQ(x)8W RXI DDXXD NDXXTXXXE _ – 10 + 21847515 21853384
Cc00_g06380 552 5.2 RQ(x)8W RXR DDXXD NDXXSXXXE _ – 0 + 50283228 50288386
Cc00_g06390 581 5.57 RR(x)8W RXR DDXXD DDXXGXXXE M 83 0 – 50369458 50372316
Cc00_g06420 580 4.92 RR(x)8W RXR DDXXD DDXXGXXXE M 83 0 + 50428795 50431627
Cc00_g09030 553 5.18 RP(x)8W RXR DDXXD NDXXGXXXD _ – 0 + 78120342 78123629
Cc00_g13600 426 5.11 Na RXR DDXXD NDXXTXXXE S 23 0 – 101152670 101155134
Cc00_g16490 584 5.63 Na RXR DDXXD DDXXTXXXE C 44 0 + 112444838 112448504
Cc00_g16500 480 5.17 Na RXR DDXXD DDXXGXXXE _ – 0 + 112472815 112475864
Cc00_g17280 693 5.37 Na Na Na Na _ – 0 + 115693382 115700157
Cc00_g20580 555 5.02 RQ(x)8W RXR DDXXD NDXXSXXXE _ – 0 – 131112913 131117645
Cc00_g27830 609 5.25 RR(x)8W RXR DDXXD DDXXTXXXE C 40 0 – 174429457 174432386
Cc00_g31970 459 9.03 Na Na Na Na _ – 0 – 189453118 189455434
Aa: 预测的氨基酸序列长度; Na: 不存在此保守基序; Locb: 预测的信号肽位置(C: 叶绿体; S: 分泌途径; M: 线粒体; _: 其它位置);
Tplenc: 预测的信号肽长度(–: 预测不到信号肽); Strand: 基因方向(+: 基因在染色体上的方向为正; –: 基因在染色体上的方向为
负)。
Aa: Predicted amino acids length; Na: The conserved motif is absent; Locb: Location of predicted target peptide (C: Chloroplast;
S: Secretory pathway; M: Mitochondrion; _: Any other location); Tplenc: Length of predicted target peptide (–: Target peptide are
unpredictable); Strand: The direction of genes in the chromosome (+: The direction of the genes in the chromosome is positive; –:
The direction of the genes in the chromosome is negative).
程甜等: 中粒咖啡萜类合成酶基因家族的生物信息学分析 239
图1 中粒咖啡TPS家族的系统进化树(A)以及基因结构(B)
分支上的数字表示Bootstrap值。左下角是数值为0.2的比例尺, 代表氨基酸替换率。黑色部分代表外显子, 黑色线代表内含子, 灰色
部分代表非编码区(UTR)。
Figure 1 Phylogenetic analysis (A) and schematic diagram (B) of gene structure in Coffee canephora TPS gene family
Bootstrapping values are indicated along the branches. The scale bar corresponds to 0.2 estimated amino acid substitutions.
Black boxes represent the exons, black lines represent the introns, and grey boxes represent the UTR regions.
240 植物学报 51(2) 2016
图2 拟南芥、番茄和中粒咖啡TPS基因的系统进化分析
Figure 2 The phylogenetic analysis of the TPS genes in Arabidopsis thaliana, Solanum lycopersicum and Coffee canephora
族中AT1G61120.1的基因编码产物为(E, E)-香叶基芳
樟醇((E, E)-geranyllinalool) (Parker et al., 2014),
Cc02_12790和Cc02_12800与AT1G61120.1基因在
同一分支且自展值为100, 据此推断Cc02_12790和
Cc02_12800均为二萜合成酶基因, 并可能编码香叶
基芳樟醇合酶; TPS-g亚家族中, TPS37和TPS39的基
因编码产物均为芳樟醇(linalool)或橙花叔醇(nerolidol)
(Falara et al., 2011), Cc02_11870与这2个基因在同
一分支且自展值为97, 据此推断Cc02_11870为单萜
或倍半萜合成酶基因。
中粒咖啡基因组中含有43个TPS基因, 它们在各
亚家族间结构差异明显(图1B), 呈现一定规律。TPS-a
亚家族基因所含外显子数目除Cc02_g29500 (6个)和
Cc03_g14100 (13个)外, 其余基因所含外显子数目均
为7个或8个; TPS-b亚家族基因外显子数目除Cc00_
g13600 (5个)、Cc05_g05490 (6个)和Cc05_g05380
(9个)外, 其余基因所含外显子数目与TPS-a相同, 均
为7个或8个; TPS-c和TPS-e/f这2个亚家族所含外显
子较多 , 其均值都在11以上 , 其中TPS-c亚家族的
Cc01_g19400所含外显子数目在整个中粒咖啡TPS
程甜等: 中粒咖啡萜类合成酶基因家族的生物信息学分析 241
家族中最多, 为15个; TPS-g亚家族外显子数目为6–8
个。
2.3 中粒咖啡TPS基因的定位及基因复制
中粒咖啡基因组共11条染色体(Denoeud et al., 2014),
根据各个TPS基因家族成员的基因组位置信息, 将中
粒咖啡的43个TPS基因在染色体上标出(图3)。由于6、
7、9和11这4条染色体上不含TPS基因, 因此对这4条
染色体不予标示。由图3可以看出, 中粒咖啡TPS基因
在不同染色体上分布不均匀, 1号与3号染色体上均只
有1个TPS基因, 2、4、5、8和10号染色体上分别有9、
5、7、6和3个TPS基因, 0号染色体上TPS基因数最多,
为11个。
为了探究TPS基因在不同染色体上分布不均匀的
原因, 我们对中粒咖啡TPS进行了基因复制分析(表
2)。结果表明, 起源于大片段复制的TPS基因有1组;
起源于串联复制的基因有12组, 包含33个基因, 占
TPS总数的76.7%, 其中2号染色体上有3组, 4、5、8
和0号染色体上均有2组, 10号染色体上有1组。说明串
联复制是中粒咖啡TPS基因复制的主要方式, 并且是
导致TPS基因在不同染色体上分布不均匀的主要原因。
结合中粒咖啡TPS的分子进化关系(图1A), 可以
看出大片段复制的Cc02_g11870/Cc05_g13060在进
化上关系并不密切, Cc02_g11870位于TPS-g亚家族,
而Cc05_g13060则位于TPS-b亚家族。但对于这些串
联复制的中粒咖啡TPS, 复制后大多位于同一亚家族,
例如, 位于2号染色体上的串联复制基因Cc02_g12790/
Cc02_g12800均位于TPS-e/f亚家族。然而, 也有一些
串联复制的中粒咖啡TPS, 复制后分别位于不同亚家
族。例如, 位于8号染色体上的串联复制基因Cc08_
图3 中粒咖啡TPS基因在染色体上的分布及基因复制情况
连接线表示TPS基因在染色体上的复制。
Figure 3 Chromosomal distribution and duplication events of Coffee canephora TPS genes
The TPS genes duplicated on chromosomal are connected by lines.
242 植物学报 51(2) 2016
表2 中粒咖啡TPS基因在各染色体上的基因复制事件
Table 2 The gene duplication of TPS genes in each chromosome of Coffee canephora
Gene duplication Chromosome Total pairs Gene ID
Segmental duplication 2/5 1 Cc02_g11870/Cc05_g13060
Tandem duplication 2 3 Cc02_g11820/Cc02_g11830/Cc02_g11870
Cc02_g12790/Cc02_g12800
Cc02_g29500/Cc02_g29590
4 2 Cc04_g16380/Cc04_g16390/Cc04_g16400
Cc04_g16520/Cc04_g16530
5 2 Cc05_g05380/Cc05_g05400/Cc05_g05410/Cc05_g05490/Cc05_g05500
Cc05_g13060/Cc05_g13070
8 2 Cc08_g06940/Cc08_g06960
Cc08_g07420/Cc08_g07480/Cc08_g07530/Cc08_g07540
10 1 Cc10_g12310 /Cc10_g12320/Cc10_g12360
0 2 Cc00_g06380/Cc00_g06390/Cc00_g06420
Cc00_g16490/Cc00_g16500
07420/Cc08_g07480/Cc08_g07530/Cc08_g07540,
Cc08_g07480/Cc08_g07530位于TPS-c亚家族 , 而
Cc08_07420/Cc08_g07540则位于TPS-e/f亚家族。
这说明基因复制可以导致中粒咖啡TPS的进化分类及
相应功能的改变。
2.4 中粒咖啡TPS基因在各组织中的表达
为了分析中粒咖啡TPS基因的表达模式 , 我们对
TPS基因在根、雄蕊、雌蕊、叶、外胚乳和胚乳各组
织中的表达数据进行了聚类分析 , 并用热图(heat-
map)展示(图4)。结果表明, 中粒咖啡TPS基因在各
组织中的表达明显不同。14个基因在根中表达; 7个基
因在雄蕊中表达; 9个基因在雌蕊中表达; 6个基因在
叶中表达; 3个基因在外胚乳表达; 1个基因在胚乳表
达; 13个基因在各组织中均无表达; Cc10_g12310、
Cc10_g12320、 Cc00_g16490、 Cc00_g16500和
Cc02_g11870这5个基因在雄蕊与雌蕊中的表达量均
高于其它组织, 暗示这5个基因可能与中粒咖啡的生
殖有关。另外, 我们也发现了一些仅在某一特定组织
中表达的基因(表3), 它们的表达可能与组织器官的
功能特异性相关。
2.5 中粒咖啡TPS基因的启动子分析
TPS基因的表达水平与基因上游转录因子结合位点的
顺式调控元件有密切关系, 因此我们提取43条中粒咖
啡TPS基因上游1 500 bp序列, 并用PlantCARE与
PLACE数据库进行顺式调控元件分析。通过筛选在3
个以上基因中出现的顺式调控元件, 我们共得到130
个元件, 按照这些元件的功能分为7大类(图5): (1) 光
调节相关元件(light cycle-related element) (图5A),
此类包含37个顺式调控元件, 主要包括Sp1 (TPS-c与
TPS-g的平均值明显高于其它亚家族)、G-box (Men-
kens et al., 1995) (TPS-g的平均值明显高于其它亚家
族)、Box I (Argüello-Astorga and Herrera-Estrella,
1996)、Box 4 (Lois et al., 1989) (TPS-a、TPS-b和
TPS-e/f的平均值明显高于其它亚家族)、INRNTP-
SADB、TBOXATGAPB和–10PEHVPSBD等元件。其
中SORLIP1AT和SORLIP5AT在子叶与根中特异表
达。(2) 启动子相关元件(promoter related element)
(图5B), 包含5个顺式调控元件, 主要包括TATA-box
与CAAT-box两种元件, 其中TATA-box是启动子区的
核心元件, CAAT-box是启动子区与增强子区普遍存在
的顺式调控元件。(3) 环境胁迫相关元件(environ-
mental stress-related element) (图5C), 包含27个顺
式调控元件, MYCCONSENSUSAT和CURECOR-
ECR的分量较多, 它们分别与植物的水分胁迫和缺铜
胁迫的应答有关。SREATMSD在茎中具有表达特异性,
参与植物的糖应答。(4) 激素应答相关元件(hormonal
responses-related element) (图5F), 包含14个顺式
调控元件, 主要有TGACG-motif、CGTCA-motif (Ro-
uster et al., 1997) (TPS-c的平均值较其它亚家族明
显低)、TCA-element (Pastuglia et al., 1997) (TPS-g
的平均值明显高于其它亚家族)、GARE-motif (Gubler
and Jacobsen, 1992) (TPS-c和TPS-g的平均值明显
程甜等: 中粒咖啡萜类合成酶基因家族的生物信息学分析 243
图4 中粒咖啡TPS基因在各组织中的表达
Figure 4 Expression of TPS genes in different organs of Coffee canephora
244 植物学报 51(2) 2016
表3 中粒咖啡TPS基因在各组织中特异表达
Table 3 The specific expression of TPS genes in different tissues of Coffee canephora
Tissue Total number Gene ID
Root 10 Cc02_g35640/Cc05_g05400/Cc04_g16520/Cc04_g16530/Cc00_g06420/
Cc00_g06390/Cc08_g07420/Cc08_g07530/Cc00_g31790/Cc00_g17280
Stamen 1 Cc05_g05410
Pistil 2 Cc05_g05490/Cc05_g05500
Leaf 5 Cc08_g06960/Cc00_g20580/Cc00_g06380/Cc05_g13070/Cc02_g12800
Perisperm 2 Cc02_g29500/Cc05_g13060
Endosperm 0 –
高于其它亚家族)和ABRE (Simpson et al., 2003)
(TPS-a、TPS-e/f和TPS-g的平均值明显高于其它亚家
族)等元件。其中TGACG-motif和CGTCA-motif与茉
莉酸甲酯 (methyl jasmonates)的响应相关 , TCA-
element与水杨酸(salicylic acid)的响应相关, ABRE与
脱落酸的响应相关, GARE-motif与赤霉素的响应相
关。GADOWNAT在种子的萌发过程中特异表达, 功
能类似于ABRE。(5) 位点结合相关元件(site bind-
ing-related element) (图5D), 包含18个顺式调控元件,
主要有Unnamed-4、BIHD1OS和DOFCOREZM等元
件。其中, DOFCOREZM在胚乳中特异表达。(6) 生
长发育相关元件(development related element) (图
5G), 包含16个顺式调控元件, 主要有生物钟(Circa-
dian) (Pichersky et al., 1985)、Skn-1_motif (Takaiwa
et al., 1991)、RAV1AAT (TPS-g的平均值明显高于其
它亚家族)和EECCRC- AH1等元件。生物钟与植物昼
夜节律的调控相关, Skn-1_motif与其它元件共同作用
能提高基因在胚乳中的表达。L1BOXATPDF1与基因
茎端分生组织L1层特异表达有关。(7) 其它顺式调控
元件(other element) (图5E), 包含13个顺式调控元件,
TAAAGSTKST1在保卫细胞中特异表达, GTGANT-
G10在晚期花粉中特异表达, CACTFTPPCA1在叶肉
细胞中特异表达。综上所述, 中粒咖啡TPS基因启动
子区在不同亚家族中既具多样性, 又具一定的保守
性。TPS基因启动子区包含丰富的顺式调控元件, 这
暗示TPS基因的表达受到多种顺式元件的调控, 显示
了基因表达调控的精确性与多样性。
2.6 中粒咖啡TPS不同亚家族之间的功能分歧
为了探究中粒咖啡TPS不同亚家族之间功能分歧的原
因, 本研究利用DIVERGE 3.0B1软件, 用氨基酸序列
对中粒咖啡TPS进行功能分歧分析。由于DIVERGE
分析时每类不能少于4条序列, 而亚家族TPS-g只有3
条序列, 因此对其不予分析。I型功能分歧通常导致特
定的氨基酸选择性改变, 即进化速率改变。分析显示
(表4), TPS-e/f亚家族与其余3个亚家族之间均得不出
θI值, 可能是由于αML值小于0导致的。对能得到θI值
的组进行卡方检验(x2)发现, TPS-a与TPS-b、TPS-a
与TPS-c、TPS-b与TPS-c这3组的P值均小于0.05,
达到显著水平。为了避免假阳性的出现, 借鉴前人的
研究方法(Yin et al., 2013), 我们将后验概率Qk>0.9
的位点定为发生功能分歧的关键氨基酸位点。结果
________________________________________________________________________________________________
→
图5 TPS基因启动子区顺式调控元件
(A) 光调节相关元件; (B) 启动子相关元件; (C) 环境胁迫相关元件; (D) 位点结合相关元件; (E) 其它顺式调控元件; (F) 激素应答
相关元件; (G) 生长发育相关元件。横坐标代表顺式调控元件; 纵坐标代表TPS各亚家族顺式调控元件数目的平均值; 不同颜色代表
不同的亚家族。
Figure 5 Cis-acting regulatory elements identified in the promoter region of TPS genes
(A) Light cycle-related elements; (B) Promoter related elements; (C) Environmental stress-related elements; (D) Sites bind-
ing-related elements; (E) Other elements; (F) Hormonal responses-related elements; (G) Development related elements. Ab-
scissa represents the cis-acting regulatory elements; Ordinate represents the average values of cis-acting regulatory elements in
each TPS subfamilies; Different colors represent different subfamilies.
程甜等: 中粒咖啡萜类合成酶基因家族的生物信息学分析 245
246 植物学报 51(2) 2016
显示, TPS-a与TPS-b在氨基酸的第495位存在显著的
I型功能分歧, 而TPS-a与TPS-c在氨基酸的第13个位
点, TPS-b与TPS-c在第712位存在显著的I型功能分
歧。
II型功能分歧发生在基因复制之后, 仅导致氨基
酸理化性质的改变。分析结果显示(表5), 任意2个亚
家族之间的II型功能分歧系数都比较小, 有的甚至为
负(对于θII为负的组不作详细分析)。可以看出, 相对I
型功能分歧 , II型功能分歧检测到了更多的位点 ,
TPS-a与TPS-c检测到81个关键氨基酸位点, 其中第
490、495、581、744、748、749、786、789、798
和799这10个分歧位点(表5, 用*标出)在I型功能分歧
分析中也是关键位点, 暗示这10个位点可能与中粒咖
啡TPS的功能改变有极密切的关系, 具体机制需要进
一步的实验验证。TPS-b与TPS-c检测到83个关键氨
基酸位点。
通过进一步整合I-Tasser对TPS功能位点的预测
结果, 我们发现TPS-b与TPS-c亚家族的第501位和
第514位(表5)在两种类型的分析中都为关键性位点,
因此推测这2个位点可能与TPS的功能改变密切相关。
2.7 讨论
中粒咖啡的香味和风味主要由其挥发性产物决定, 萜
类化合物是其中重要的挥发性成分, 而萜类合成酶在
表4 I型功能分歧分析结果
Table 4 Analysis of type I function divergence
TPS subfamilies θI θSEa θLRTb Qk>0.9 P
TPS-a vs TPS-b 0.2336 0.0718 10.5762 495 P<0.05
TPS-a vs TPS-c 0.5456 0.1277 18.2501 490, 495, 581, 744, 748, 749, 780, 786, 789, 795, 798, 799, 823 P<0.05
TPS-a vs TPS-e/f – – – – –
TPS-b vs TPS-c 0.7888 0.1487 28.1539 712 P<0.05
TPS-b vs TPS-e/f – – – – –
TPS-c vs TPS-e/f – – – – –
a (上标): 标准差; b (上标): 似然比检验值。Superscript a: Standard error; Superscript b: Value of likelihood ratio test.
表5 II型功能分歧分析结果
Table 5 Analysis of type II function divergence
TPS subfamilies θII θSE Qk>0.9 No. of sites
TPS-a vs TPS-b –0.2809 0.3299 – –
TPS-a vs TPS-c 0.1136 0.2283 481, 485, 487, 488, 489, 490*, 494, 495*, 501, 503, 511, 514, 517, 518,
522, 523, 525, 531, 532, 533, 534, 536, 556, 557, 558, 560, 563, 570,
572, 578, 581*, 584, 626, 716, 717, 721, 723, 725, 744*, 747, 748*, 749*,
750, 752, 753, 754, 758, 760, 761, 766, 769, 770, 772, 777, 781, 782,
785, 786*, 789*, 797, 798*, 799*, 826, 827, 881, 882, 883, 935, 938, 970,
971, 972, 974, 977, 979, 981, 983, 985, 987, 990, 991
81
TPS-a vs TPS-e/f –50.0228 12.2240 – –
TPS-b vs TPS-c 0.1510 0.2615 481, 482, 484, 485, 486, 488, 489, 490, 494, 495, 500, 501, 503, 511,
513, 514, 516, 518, 522, 528, 529, 531, 532, 534, 556, 557, 558, 560,
563, 566, 570, 571, 578, 580, 583, 584, 708, 716, 717, 720, 721, 723,
724, 725, 742, 744, 747, 748, 749, 750, 752, 753, 754, 760, 761, 766,
767, 769, 770, 772, 777, 782, 785, 786, 789, 797, 798, 826, 827, 881,
882, 883, 935, 938, 939, 969, 970, 971, 974, 979, 983, 985, 987
83
TPS-b vs TPS-e/f –43.8071 13.1252 – –
TPS-c vs TPS-e/f –5.2707 1.8369 – –
* 表示I型与II型功能分歧中共有的关键氨基酸位点; 黑色加粗字体表示DIVERGE与I-Tasser两种类型分析中共有的氨基酸位点。
* Represents the key amino acid sites both in I and II type functional differences analysis; black font represents the key amino
acid sites both in DIVERGE and I-Tasser analysis.
程甜等: 中粒咖啡萜类合成酶基因家族的生物信息学分析 247
萜类化合物的合成过程中起关键作用。因此, 很有必
要开展中粒咖啡TPS的研究。通过整合中粒咖啡的基
因组和转录组数据, 本研究利用生物信息学方法, 对
中粒咖啡中的TPS基因进行了系统的鉴定和分类。结
果表明, 中粒咖啡基因组包含43个全长TPS, 它们可
以划分到5个亚家族。大多数在进化上属于同一亚家
族的TPS基因, 其编码的蛋白质在功能上具有很高的
相似性。中粒咖啡TPS基因在染色体上呈随机分布且
不均匀, 这与TPS基因在其它物种染色体上呈不均匀
分布相似。如蒺藜苜蓿(Medicago truncatula)中的23
个TPS基因(Parker et al., 2014)在8条染色体上的分
布是不均匀的, 其中TPS基因在蒺藜苜蓿第1、4和8
号染色体上的分布均为0。
基因家族扩增的方式包括串联复制、片段复制和
转座3种形式。串联复制是发生在同一条染色体上的
基因复制, 片段复制是发生在不同染色体之间或同一
染色体不同大片段之间的基因复制(Liu et al., 2011)。
根据TPS基因在染色体上的定位(图2)和系统进化分
析(图1A), 我们发现了1对片段复制基因和12对串联
复制单元(包含33个TPS基因), 这说明中粒咖啡TPS
基因拷贝数的变化主要是由串联复制造成的。
在启动子区顺式调控元件分析过程中, 我们发现
了一个有趣的现象, 即Skn-1_motif存在于39个TPS
基因的上游区域, 这一元件通常与其它元件(AACA_
motif、GCN4_motif和ACGT_motif) (Wu et al., 2000)
共同作用以提高TPS基因在胚乳中的表达量, 然而本
研究显示, 仅有3个TPS基因在胚乳中的表达量较高。
我们推测, 这种现象可能是由于与Skn-1_motif共同
作用的元件很少导致的。进一步分析发现, TPS基因在
胚乳中的表达量低于其它器官 , 这暗示在Skn-1_
motif缺乏共同作用的元件时, 基因的表达会受到严重
影响。
在中粒咖啡TPS功能位点分析结果中, 利用DI-
VERGE对TPS-a与TPS-c的分析, 我们检测到10个关
键的功能分歧位点: 490、495、581、744、748、749、
786、789、798和799, 它们在I型与II型功能分歧分析
中都被检测为重要的氨基酸位点, 整合DIVERGE与
I-Tasser对TPS-b与TPS-c亚家族的分析结果, 我们检
测到2个关键的功能决定性位点: 501和514。这些位点
可能是导致TPS功能分化的决定性位点, 但进一步的
确认还需要实验验证。
中粒咖啡是重要的经济作物, 已被作为一种提神
饮料利用了成百上千年。目前, 已有超过80种二萜化
合物从中粒咖啡中提取出来, 这些化合物有重要的生
物学特性, 如抗炎(Cardenas et al., 2011)、抗氧化
(Lee et al., 2007)以及增加谷胱甘肽S-转移酶的活性
(Lam et al., 1982)。研究这一基因家族中各成员对人
类健康具有重大意义。然而, 关于中粒咖啡TPS基因
家族的报道非常少, 本文对中粒咖啡TPS基因家族进
行了较系统的生物信息学分析, 并对其功能以及在各
组织中的表达进行了初步探索, 为后续相关研究奠定
了基础。
参考文献
郭安源, 朱其慧, 陈新, 罗静初 (2007). GSDS: 基因结构显
示系统. 遗传 29, 1023–1026.
Argüello-Astorga GR, Herrera-Estrella LR (1996). Ances-
tral multipartite units in light-responsive plant promoters
have structural features correlating with specific photo-
transduction pathways. Plant Physiol 112, 1151–1166.
Aubourg S, Lecharny A, Bohlmann J (2002). Genomic
analysis of the terpenoid synthase (AtTPS) gene family of
Arabidopsis thaliana. Mol Genet Genomics 267, 730–745.
Bohlmann J, Meyer-Gauen G, Croteau R (1998). Plant
terpenoid synthases: molecular biology and phylogenetic
analysis. Proc Natl Acad Sci USA 95, 4126–4133.
Cardenas C, Quesada AR, Medina MA (2011). Antiangio-
genic and anti-inflammatory properties of kahweol, a cof-
fee diterpene. PLoS One 6, e23407.
Chartier A, Beaumesnil M, de Oliveira AL, Elfakir C,
Bostyn S (2013). Optimization of the isolation and quan-
titation of kahweol and cafestol in green coffee oil. Talanta
117, 102–111.
Chen F, Tholl D, Bohlmann J, Pichersky E (2011). The
family of terpene synthases in plants: a mid-size family of
genes for specialized metabolism that is highly diversified
through out the kingdom. Plant J 66, 212–229.
Chen H, Li G, Köllner TG, Jia Q, Gershenzon J, Chen F
(2014). Positive Darwinian selection is a driving force for
the diversification of terpenoid biosynthesis in the genus
Oryza. BMC Plant Biol 14, 239.
Denoeud F, Carretero-Paulet L, Dereeper A, Droc G,
Guyot R, Pietrella M, Zheng C, Alberti A, Anthony F,
Aprea G, Aury JM, Bento P, Bernard M, Bocs S,
Campa C, Cenci A, Combes MC, Crouzillat D, Da Silva
C, Daddiego L, De Bellis F, Dussert S, Garsmeur O,
248 植物学报 51(2) 2016
Gayraud T, Guignon V, Jahn K, Jamilloux V, Joët T,
Labadie K, Lan T, Leclercq J, Lepelley M, Leroy T, Li
LT, Librado P, Lopez L, Muñoz A, Noel B, Pallavicini
A, Perrotta G, Poncet V, Pot D, Priyono RM, Rouard M,
Rozas J, Tranchant-Dubreuil C, VanBuren R, Zhang Q,
Andrade AC, Argout X, Bertrand B, de Kochko A,
Graziosi G, Henry RJ, Jayarama MR, Nagai C, Roun-
sley S, Sankoff D, Giuliano G, Albert VA, Wincker P,
Lashermes P (2014). The coffee genome provides in-
sight into the convergent evolution of caffeine biosynthe-
sis. Science 345, 1181–1184.
Dereeper A, Bocs S, Rouard M, Guignon V, Ravel S,
Tranchant-Dubreuil C, Poncet V, Garsmeur O, Lash-
ermes P, Droc G (2015). The coffee genome hub: a
resource for coffee genomes. Nucleic Acids Res 43,
D1028–D1035.
Eddy SR (1998). Profile hidden Markov models. Bioinfor-
matics 14, 755–763.
Falara V, Akhtar T, Nguyen TT, Spyropoulou EA, Bleeker
PM, Schauvinhold I, Matsuba Y, Bonini ME, Schilmil-
ler AL, Last RL, Schuurink RC, Pichersky E (2011).
The tomato terpene synthase gene family. Plant Physiol
157, 770–789.
Finn RD, Mistry J, Schuster-Bockler B, Griffiths-Jones S,
Hollich V, Lassmann T, Moxon S, Marshall M, Khanna
A, Durbin R, Eddy SR, Sonnhammer EL, Bateman A
(2006). Pfam: clans, web tools and services. Nucleic Ac-
ids Res 34, D247–D251.
Gu X (1999). Statistical methods for testing functional di-
vergence after gene duplication. Mol Biol Evol 16, 1664–
1674.
Gu X (2006). A simple statistical method for estimating
type-II (cluster-specific) functional divergence of protein
sequences. Mol Biol Evol 23, 1937–1945.
Gu X, Zou Y, Su Z, Huang W, Zhou Z, Arendsee Z, Zeng Y
(2013). An update of DIVERGE software for functional
divergence analysis of protein family. Mol Biol Evol 30,
1713–1719.
Gubler F, Jacobsen JV (1992). Gibberellin-responsive ele-
ments in the promoter of a barley high-pI alphaamylase
gene. Plant Cell 4, 1435–1441.
Higo K, Ugawa Y, Iwamoto M, Korenaga T (1999). Plant
cis-acting regulatory DNA elements (PLACE) database:
1999. Nucleic Acids Res 27, 297–300.
Irmisch S, Jiang Y, Chen F, Gershenzon J, Kollner TG
(2014). Terpene synthases and their contribution to her-
bivore-induced volatile emission in western balsam poplar
(Populus trichocarpa). BMC Plant Biol 14, 270.
Jones P, Binns D, Chang HY, Fraser M, Li W, McAnulla
C, McWilliam H, Maslen J, Mitchell A, Nuka G, Pesseat
S, Quinn AF, Sangrador-Vegas A, Scheremetjew M,
Yong SY, Lopez R, Hunter S (2014). InterProScan 5:
genome-scale protein function classification. Bioinforma-
tics 30, 1236–1240.
Katoh K, Misawa K, Kuma K, Miyata T (2002). MAFFT: a
novel method for rapid multiple sequence alignment
based on fast Fourier transform. Nucleic Acids Res 30,
3059–3066.
Kessler A, Baldwin IT (2001). Defensive function of herbi-
vore-induced plant volatile emissions in nature. Science
291, 2141–2144.
Lam LK, Sparnins VL, Wattenberg LW (1982). Isolation
and identification of kahweol palmitate and cafestol pa-
lmitate as active constituents of green coffee beans that
enhance glutathione S-transferase activity in the mouse.
Cancer Res 42, 1193–1198.
Lee KJ, Choi JH, Jeong HG (2007). Hepatoprotective and
antioxidant effects of the coffee diterpenes kahweol and
cafestol on carbon tetrachloride-induced liver damage in
mice. Food Chem Toxicol 45, 2118–2125.
Lescot M, Déhais P, Thijs G, Marchal K, Moreau Y, Van
de Peer Y, Rouzé P, Rombauts S (2002). PlantCARE, a
database of plant cis-acting regulatory elements and a
portal to tools for in silico analysis of promoter sequences.
Nucleic Acids Res 30, 325–327.
Liu J, Huang F, Wang X, Zhang M, Zheng R, Wang J, Yu
D (2014). Genome-wide analysis of terpene synthases in
soybean: functional characterization of GmTPS3. Gene
544, 83–92.
Liu Y, Jiang HY, Chen WJ, Qian YX, Ma Q, Cheng BJ, Zhu
SW (2011). Genome-wide analysis of the auxin response
factor (ARF) gene family in maize (Zea mays). Plant Gro-
wth Regul 63, 225–234.
Lois R, Dietrich A, Hahlbrock K, Schulz W (1989). A
phenylalanine ammonia-lyase gene from parsley: struc-
ture, regulation and identification of elicitor and light re-
sponsive cis-acting elements. EMBO J 8, 1641–1648.
Martin DM, Aubourg S, Schouwey MB, Daviet L, Schalk
M, Toub O, Lund ST, Bohlmann J (2010). Functional
annotation, genome organization and phylogeny of the
grapevine (Vitis vinifera) terpene synthase gene family
based on genome assembly, FLcDNA cloning, and en-
zyme assays. BMC Plant Biol 10, 226.
Menkens AE, Schindler U, Cashmore AR (1995). The
程甜等: 中粒咖啡萜类合成酶基因家族的生物信息学分析 249
G-box: a ubiquitous regulatory DNA element in plants
bound by the GBF family of bZIP proteins. Trends Bio-
chem Sci 20, 506–510.
Parker MT, Zhong Y, Dai X, Wang S, Zhao P (2014).
Comparative genomic and transcriptomic analysis of ter-
pene synthases in Arabidopsis and Medicago. IET Syst
Biol 8, 146–153.
Pastuglia M, Roby D, Dumas C, Cock JM (1997). Rapid
induction by wounding and bacterial infection of an S
gene family receptor-like kinase gene in Brassica ol-
eracea. Plant Cell 9, 49–60.
Pichersky E, Bernatzky R, Tanksley SD, Breidenbach
RB, Kausch AP, Cashmore AR (1985). Molecular char-
acterization and genetic mapping of two clusters of genes
encoding chlorophyll a/b-binding proteins in Lycopersicon
esculentum (tomato). Gene 40, 247–258.
Pichersky E, Gershenzon J (2002). The formation and
function of plant volatiles: perfumes for pollinator attrac-
tion and defense. Curr Opin Plant Biol 5, 237–243.
Pichersky E, Noel JP, Dudareva N (2006). Biosynthesis of
plant volatiles: nature’s diversity and ingenuity. Science
311, 808–811.
Rebers M, Kaneta T, Kawaide H, Yamaguchi S, Yang YY,
Imai R, Sekimoto H, Kamiya Y (1999). Regulation of
gibberellin biosynthesis genes during flower and early fruit
development of tomato. Plant J 17, 241–250.
Rouster J, Leah R, Mundy J, Cameron-Mills V (1997).
Identification of a methyl jasmonate-responsive region in
the promoter of a lipoxygenase 1 gene expressed in bar-
ley grain. Plant J 11, 513–523.
Shu Y, Liu JQ, Peng XR, Wan LS, Zhou L, Zhang T, Qiu
MH (2014). Characterization of diterpenoid glucosides in
roasted puer coffee beans. J Agric Food Chem 62, 2631–
2637.
Simpson SD, Nakashima K, Narusaka Y, Seki M, Shino-
zaki K, Yamaguchi-Shinozaki K (2003). Two different
novel cis-acting elements of erd1, a clpA homologous
Arabidopsis gene function in induction by dehydration
stress and dark-induced senescence. Plant J 33, 259–
270.
Solovyev V, Kosarev P, Seledsov I, Vorobyev D (2006).
Automatic annotation of eukaryotic genes, pseudogenes
and promoters. Genome Biol 7, 1–12.
Takaiwa F, Oono K, Wing D, Kato A (1991). Sequence of
three members and expression of a new major subfamily
of glutelin genes from rice. Plant Mol Biol 17, 875–885.
Wu C, Washida H, Onodera Y, Harada K, Takaiwa F
(2000). Quantitative nature of the Prolamin-box, ACGT
and AACA motifs in a rice glutelin gene promoter: minimal
cis-element requirements for endosperm-specific gene ex-
pression. Plant J 23, 415–421.
Yang CQ, Wu XM, Ruan JX, Hu WL, Mao YB, Chen XY,
Wang LJ (2013). Isolation and characterization of terpene
synthases in cotton (Gossypium hirsutum). Phytochemis-
try 96, 46–56.
Yang J, Yan R, Roy A, Xu D, Poisson J, Zhang Y (2015).
The I-TASSER Suite: protein structure and function pre-
diction. Nat Methods 12, 7–8.
Yin G, Xu H, Xiao S, Qin Y, Li Y, Yan Y, Hu Y (2013). The
large soybean (Glycine max) WRKY TF family expanded
by segmental duplication events and subsequent diver-
gent selection among subgroups. BMC Plant Biol 13, 148.
250 植物学报 51(2) 2016
Bioinformatics Analysis of the TPS Gene Family in
Coffee canephora
Tian Cheng, Qiang Wei, Guanglin Li*
College of Life and Sciences, Shaanxi Normal University, Xi’an 710119, China
Abstract Terpenoids are catalyzed by terpenoid synthase and have important physiological, ecological and medicinal
value. By integrating data for the Coffee canephora genome and transcriptome, terpenoid synthase genes from C. can-
ephora were identified. Then, the molecular evolution, structure, duplication and expression pattern of the genes were
analyzed. Finally, functional differentiation among the terpenoid synthase subfamilies was investigated. C. canephora
contains 43 full-length terpenoid synthase genes, which can be divided into 5 subfamilies (a, b, c, e/f, g), with largely
different gene structure. Amplification of the genes is mainly caused by tandem duplication. Also the expression pattern of
C. canephora terpenoid synthases differs in different tissues. Functional differentiation between each terpenoid synthase
subfamily may have several reasons; cis-regulatory elements in the gene promoter region may be strongly related to
functional differentiation and the differentiation is mainly caused by the subfamily-specific amino acid.
Key words bioinformatics, Coffee canephora, functional differentiation, molecular evolution, terpenoid synthase
Cheng T, Wei Q, Li GL (2016). Bioinformatics analysis of the TPS gene family in Coffee canephora. Chin Bull Bot 51,
235–250.
———————————————
* Author for correspondence. E-mail: glli@snnu.edu.cn
(责任编辑: 朱亚娜)