全 文 :植物学报 Chinese Bulletin of Botany 2015, 50 (1): 55–71, www.chinbullbotany.com
doi: 10.3724/SP.J.1259.2015.00055
——————————————————
收稿日期: 2013-11-04; 接受日期: 2014-02-23
基金项目: 山东自然科学基金(No.ZR2012CM024)和中国科学院系统与进化植物学国家重点实验室开放课题(No.LSEB201101)
* 通讯作者。E-mail: baoyingus@126.com
植物查尔酮合成酶超基因家族的分子进化
包颖1, 2*, 郭昌锋1, 陈少华1, 刘梅1
1曲阜师范大学生命科学学院, 曲阜 273165; 2中国科学院植物研究所系统与进化植物学国家重点实验室, 北京 100093
摘要 查尔酮合成酶(CHS)超基因家族又称为植物类型III聚酮合酶超基因家族, 其编码酶通过催化和合成一系列结构多样
及生理活性各异的次生代谢物, 在植物生长发育和适应环境的过程中扮演着重要角色。为全面了解CHS超基因家族在植物
中的进化规律, 重建其进化历史, 该研究利用14种具有全基因组数据的代表植物, 通过生物信息学手段, 深入挖掘和分析
了不同植物类群基因组中查尔酮合成酶超基因家族的成员构成, 推测了其可能的扩增机制和功能分歧, 并探讨了该超基因
家族在植物中的总体进化趋势。结果共识别144条具有表达信息的同源序列, 它们全部来自9种陆生植物的基因组, 藻类植
物基因组中没有发现相关序列。系统发育和进化分析表明, CHS超基因家族的起源古老, 它们可能为适应复杂的生态环境而
出现在早期的陆生植物中, 之后在长期的进化过程中不断发生谱系的特异扩张和拷贝丢失, 最后通过功能分歧的形式在不
同植物类群中被分别固定。此外, 进化检验也显示, 尽管CHS超基因家族内部发生了多样的遗传改变, 但整个超基因家族
仍处于强烈的纯化选择之下, 并且个体基因中也无任何单氨基酸位点受到正向选择的影响。
关键词 查尔酮合成酶, 超基因家族, 系统发育, 功能分化
包颖, 郭昌锋, 陈少华, 刘梅 (2015). 植物查尔酮合成酶超基因家族的分子进化. 植物学报 50, 55–71.
查尔酮合成酶(CHS, E.C.2.3.1.74)是类黄酮合
成途径中的第1个关键结构酶, 负责催化1分子的4-香
豆酰辅酶A与3分子的丙二酰辅酶A缩合形成查尔酮
(即柚苷配基查尔酮(naringenin chalcone)), 并进而
作为多种黄酮类化合物的前体, 参与下游次生代谢产
物的最终形成。查尔酮合成酶是CHS超基因家族的核
心酶, 该超基因家族还包括一系列通过基因复制和功
能分化衍生出的类CHS(CHS-like)蛋白。由于在进化
上源自共同的祖型, 查尔酮合成酶超基因家族成员之
间均享有高水平的序列同源性, 在结构和催化机制上
也具有极大的相似性。例如它们均是由40–45 kDa亚
基构成的同型二聚体, 并且在活化位点处均包括由3
个保守氨基酸Cys-His-Asn构成的三联体活性中心等
(Schröder, 2000; Austin and Noel, 2003)。目前, 在
植物和细菌中已经有20多个具有不同功能的查尔酮
超基因家族成员被陆续识别(Abe and Morita, 2010),
这些酶与CHS的功能分歧仅在于对不同起始底物的
偏好、丙二酰辅酶A缩合次数的变化以及合成产物环
化方式的不同等(Schröder, 2000; Austin and Noel,
2003)。从功能角度来看, 查尔酮合成酶超基因家族
的所有成员均属于生物聚酮合酶(polyketide syntha-
ses, PKS)中结构最简单的类型, 即III型聚酮合酶类,
因此该超基因家族也被称为III型聚酮合酶超基因家
族(Hopwood and Sherman, 1990; Schröder, 1997;
Austin and Noel, 2003; Zhan, 2009; Abe and
Morita, 2010)。该类型聚酮合酶主要在植物(Abe and
Morita, 2010)、少数真菌(Funa et al., 2006, 2007)和
细菌(Gross et al., 2006)中分布, 可以催化一系列结
构多样和生理活性各异的聚酮化合物的生物合成。这
些聚酮化合物不仅在植物器官着色、病虫害防护和紫
外辐射抵御等方面扮演着重要角色(Hopwood and
Sherman, 1990; Abe and Morita, 2010), 而且其本
身也具有抗菌、消炎、提升人体免疫力和抗癌等药理
功效, 对于医疗保健和疾病防治均具有积极的作用
(Jez et al., 2001)。因此, 对III型聚酮合酶, 特别是对
其整个超基因家族的深入研究无疑会为寻找新型药
物、提升植物本身营养构成和促进作物的遗传改良等
提供新的途径。
查尔酮合成酶是迄今研究最透彻的III型聚酮酶。
早期围绕该酶已进行了大量研究并在许多植物中识
·研究报告·
56 植物学报 50(1) 2015
别了chs和类chs基因。例如 , 在旋花科的番薯属
(Ipomoea)植物中, 先后有17个类chs基因(Durbin et
al., 1995; Fukada-Tanaka et al., 1997)被发现; 矮牵
牛 (Petunia hybrida)中也有12个 (8个完整 , 4个部
分)chs基因被分离和测序(Koes et al., 1989); 以小基
因组著称的拟南芥(Arabidopsis thaliana)及其近缘种
A. halleri中也陆续被证明有3个类chs基因分别分布
在第1、4和5号染色体上(Wang et al., 2007)。单子叶
植物中 , 虽然早期在玉米 (Zea mays)和大麦 (Hor-
deum vulgare)等植物中都仅发现2个查尔酮合成酶
编码基因(Franken et al., 1991), 但根据Southern杂
交分析 , 大麦基因组中可能有多达7个类chs基因
(Christensen et al., 1998)未被克隆。尽管以上的研究
为深入理解查尔酮合成酶超基因家族的进化规律积
累了大量资料, 但由于条件的限制和研究目标的差
异, 目前尚缺乏全基因组水平上对该超基因家族在植
物中进化趋势的整体把握。近几年, 随着全基因组测
序和生物信息学技术的飞速发展, 越来越多的研究可
以从基因组的角度重新定位, 这也为全面了解基因冗
余和超基因家族的进化规律提供了契机。本研究从植
物基因组的角度出发, 利用生物信息学手段, 深入挖
掘不同植物类群基因组中查尔酮超基因家族成员的
构成、序列差异以及功能分歧等特点, 重建该超基因
家族的进化历史并探讨其总体进化规律, 为进一步合
理开发、利用植物III型聚酮合酶化合物及提高作物遗
传品质奠定理论基础。
1 材料与方法
1.1 序列收集、染色体定位、共线性和复制类型
分析
以GenBank(http://www.ncbi.nlm.nih.gov/)数据库中
释放的水稻(Oryza sativa, A2ZEX7.1)和拟南芥(Ara-
bidopsis thaliana, NP_196897.1)chs基因为目标序
列 , 同时选取植物比较基因组网站 (http://bioinfor-
matics.psb.ugent.be/plaza/)链接的具有代表性的13
种植物基因组数据库, 利用BLASTP程序进行全面的
比对和筛查。这13种植物基因组数据库包括4种双子
叶植物: A. thaliana (TAIR10, The Arabidopsis In-
formation Resource)、Populus trichocarpa (JGI 2.0,
The Joint Genome Institute)、Medicago truncatula
(Mt3.5, Medicago truncatula Hapmap Project)和
Vitis vinifera (Genoscope_v1, Genoscope Pro-
ject); 2种单子叶植物: O. sativa (MSU RGAP 6.1,
The MSU Rice Genome Annotation Project)和Zea
mays (The Maize Genome Browser 5b.60); 1种苔藓
植物 : Physcomitrella patens (JGI1.2, The Joint
Genome Institute); 1种石松类植物: Selaginella mo-
ellendorffii (JGI 1.0, The Joint Genome Institute); 5
种藻类植物: Chlamydomonas reinhardtii (JGI 4.0)、
Micromonas sp. RCC299 (JGI 3.0)、Ostreococcus
lucimarinus (JGI 2.0)、Ostreococcus tauri (Ghent
University)和Volvox carteri (JGI 1.0)。BLASTP的阈
值设为1e-5。将获得的序列与不同植物相应的EST表
达序列及转录组中编码信息进行比对, 并结合CHS
的结构域进行同步筛查, 最后去除非全长的短片段以
及相同基因的冗余序列, 保留完整且具有表达信息的
基因序列用于下一步分析。
为了保证取样的全面性, 我们利用Pinus中已识
别的chs基因(X60754.1, U90341.1)作为目标序列对
裸子植物Pinus taeda V8.0 Contigs (Dendrome, A
Forest Genome Database)阵列进行BLASTN查询,
其中 , 2个搜索序列分别代表松属的典型chs (X-
60754.1)基因和花药特异表达的chs基因(U90341.1)。
数据筛选的阈值同样设为1e-5, 然后将匹配的重叠群
进行排列, 去除片段和冗余序列并对比2个搜寻序列,
将筛选出的完整基因编码区翻译成蛋白质。
为进一步明确这些筛选基因在不同植物基因组
中的分布情况, 我们利用PLAZA数据库(http://bioin-
formatics.psb.ugent.be/plaza/)中的WGMapping工
具对这些基因在相应物种不同染色体上的定位情况
进行了汇总。同时, 我们利用i-ADHoRe 3.0软件(Pro-
ost et al., 2012)比较染色体上同源基因及其排列顺
序, 对筛选基因所在基因组区域的共线性进行分析,
其结果用于定义如下两种复制事件: 片段复制(block
duplication)和串联复制(tandem duplication)。如果多
个染色体区域包含相同的基因内容和排列顺序就表
明这些区域拥有共同的起源, 那么相应的区域就应该
是来自染色体大片段的复制结果。若筛选基因正好出
现在这些片段之内, 则这个基因的复制类型将被归为
片段复制; 如果筛选基因及其同源基因只出现在相同
染色体的邻近位置, 那么这些同源基因的复制类型将
包颖等: 植物查尔酮合成酶超基因家族的分子进化 57
被归为串联复制。上述两种情况若同时发生, 则将其
归入串联和片段复制共同参与的复制。
1.2 系统发育关系和进化检验
所有氨基酸序列均采用Jalview2.8(Waterhouse et
al., 2009)软件内的Clustal W方法 (Larkin et al.,
2007)进行对位排列, 并使用ProtTest v3(Darriba et
al., 2011)软件计算构建系统发育树的最优模型。在此
基础上应用PhyML_3.0(Criscuolo, 2011)软件构建最
大似然性系统发育树, 3个细菌的类chs基因(AAB-
481061、AAS036861和BAE072161)被作为外类群,
系统发育树拓扑结构中各分支的置信度用100次重复
的自展检验来完成。
为进一步了解该基因家族各成员在不同氨基酸
位点上的选择差异 , 利用Pal2Nal(Suyama et al.,
2006)软件, 以排列好的氨基酸序列矩阵为模板完成
相应核苷酸编码序列的排列, 并在此基础上, 通过软
件PAML 4.5(Phylogenetic Analysis by Maximum
Likelihood)(Yang, 2007)开展Site Model检测。检测
采用的模型分别是代表接近中性选择的M1a和正选
择的M2a以及M7(β)和M8(β& ω)。其中, M7中的ω符
合β分布(p, q), 且ω值的范围在(0, 1), 无正选择位
点, 是零模型(null model); M8的p0位点符合β(p, q),
而p1=1–p0 (ω>1), 属正选择模型。
2 结果与讨论
2.1 序列特点、共线性分析和染色体定位
利用目标序列通过对14个代表植物基因组数据的全
面检索及后续与相关EST、转录组以及结构域等的比
对和筛选, 我们共找到144个完整的且具有表达信息
的CHS超基因家族的基因(表1, 表2)。为方便起见,
以下称为chs类基因。它们全部来自陆生植物, 在5种
藻类植物基因组中未发现任何匹配的序列。此结果与
前人的研究结论(Jiang et al., 2008)相吻合。进一步的
系统发育分析表明, 陆生植物类群的chs类基因分布
样式繁多。其中, 苔藓植物存在较多的chs类基因, 如
在小立碗藓(Physcomitrella patens)中有23个; 但石
松植物则与之明显不同, 其chs类基因的扩增不显著,
在江南卷柏(Selaginella moellendorffii)中仅发现4个
同源类型。此外, 被子植物中, chs类基因的分布也呈
现不均衡态势: 水稻(O. sativa)中搜寻到的chs类基
因最多, 为30个; 其次, 葡萄(Vitis vinifera)中发现22
个 ; 蒺藜苜蓿 (Medicago truncatula)21个 ; 毛果杨
(Populus trichocarpa)14个 ; 玉米13个 ; 拟南芥的
chs类基因最少, 仅有4个。裸子植物中, 通过对目前
释放的火炬松基因组序列(Pinus taeda V8.0 Con-
tigs)进行BLASTN搜索, 在1e-5阈值条件下, 共找到
51个能够匹配的重叠群(contigs), 其核苷酸长度介于
430–39 009 bp之间。通过与松属内已发表的chs基因
编码区比对, 去除其它基因和非编码部分并翻译成蛋
白质, 结果发现8条chs类基因在编码序列中出现提
前终止, 1条基因在编码区由于1个碱基的缺失造成了
移码突变, 推测这9条序列可能为假基因; 另外, 还
有30条序列包含的chs类基因不完整。最后经过核对,
在火炬松基因组中共获得13个完整的chs类基因, 其
中前12条为X60754.1搜索的产物 , 第13条为U90-
341.1搜索的产物(表2)。
染色体定位分析表明, chs类基因在陆生植物基
因组中的分布没有特定的规律, 它们多散布在多个染
色体上。如在拟南芥中, 尽管只有4个chs类基因, 但
这4个基因却分别无规律地分布在1、4和5号染色体
上; 水稻中的30个chs类基因也分别分布在1、4、5、
7、10、11和12号染色体上(表1)。另外, 进一步的共
线性分析显示, 在chs类基因扩增过程中, 串联复制
扮演了极为重要的角色。例如, 在葡萄基因组中, 已
发现的22个chs类基因中, 82%的同源拷贝是串联复
制的结果。类似的现象也见于其它植物基因组。例如,
蒺藜苜蓿76%的chs类基因, 水稻和小立碗藓基因组
中超过一半的chs类基因(分别为57%和52%)均为串
联复制的产物。与此相反, 片段复制方式对于chs类
基因而言更倾向个别植物。例如本研究中, 仅有毛果
杨、玉米和蒺藜苜蓿chs类基因的扩增涉及片段复制,
如在毛果杨中共找到14个chs类基因, 其中6个是片
段复制的产物, 还有5个是片段复制和串联复制的共
同产物; 玉米的13个chs类基因中, 有7个涉及片段复
制; 但是, 与前2种植物中片段复制占较大比例的情
况不同, 蒺藜苜蓿中的21个chs类基因中仅有3个来
自片段复制, 其中的2个还是片段复制和串联复制的
共同产物。这里姑且不论共同复制(片段复制和串联
复制)类型中, 哪一种复制更为原始, 单就类型来看,
在毛果杨和玉米中显然存在更多的片段复制。另外,
58 植物学报 50(1) 2015
表1 利用BLAST搜寻13种植物全基因组中识别的CHS超基因家族基因
Table 1 Genes in CHS superfamily identified from 13 plants genomes by BLAST searching
Species Locus No. Gene ID Strand Chromosome Duplication pattern
Arabidopsis thaliana 1 AT1G02050 – 1
2 AT4G00040 + 4
3 AT4G34850 + 4
4 AT5G13930 + 5
Medicago truncatula 1 MT1G097900 + 1 Tandem
2 MT1G097910 + 1 Tandem
3 MT1G098140 + 1 Tandem
4 MT1G098150 + 1 Tandem
5 MT2G058470 – 2
6 MT3G083910 – 3 Tandem and block
7 MT3G083920 – 3 Tandem and block
8 MT3G086260 + 3
9 MT4G078730 + 4
10 MT5G007720 + 5 Tandem
11 MT5G007730 + 5 Tandem
12 MT5G007740 + 5 Tandem
13 MT5G007760 + 5 Tandem
14 MT5G007770 + 5 Tandem
15 MT7G016700 + 7 Tandem
16 MT7G016720 – 7 Tandem
17 MT7G016780 + 7 Tandem
18 MT7G016800 + 7 Tandem
19 MT7G016820 + 7 Tandem
20 MT7G084300 – 7
21 MT8G085200 + 8 Block
Populus trichocarpa 1 PT00G02200 – Scaffold_955
2 PT01G06410 + Scaffold_1 Block
3 PT01G14120 + Scaffold_1 Tandem and block
4 PT01G14130 + Scaffold_1 Tandem and block
5 PT02G14050 – Scaffold_2 Block
6 PT03G16580 + Scaffold_3 Tandem and block
7 PT03G16590 + Scaffold_3 Tandem and block
8 PT03G16600 + Scaffold_3 Tandem and block
9 PT04G16510 + Scaffold_4 Block
10 PT05G15150 – Scaffold_5 Tandem
11 PT09G12950 + Scaffold_9 Block
12 PT12G12680 + Scaffold_12 Block
13 PT14G05350 – Scaffold_14 Block
14 PT14G14010 – Scaffold_14
Vitis vinifera 1 VV03G05390 + 3
2 VV05G00090 + 5
3 VV10G06850 + 10 Tandem
4 VV10G06860 + 10 Tandem
5 VV14G13530 + 14
6 VV15G00770 – 15
7 VV16G00180 – 16 Tandem
8 VV16G00200 – 16 Tandem
包颖等: 植物查尔酮合成酶超基因家族的分子进化 59
表1 (续) Table 1 (continued)
Species Locus No. Gene ID Strand Chromosome Duplication pattern
9 VV16G00220 – 16 Tandem
10 VV16G00240 – 16 Tandem
11 VV16G00260 – 16 Tandem
12 VV16G00280 + 16 Tandem
13 VV16G00290 – 16 Tandem
14 VV16G00310 – 16 Tandem
15 VV16G00320 – 16 Tandem
16 VV16G00330 – 16 Tandem
17 VV16G00340 – 16 Tandem
18 VV16G00350 – 16 Tandem
19 VV16G00360 – 16 Tandem
20 VV16G00370 – 16 Tandem
21 VV16G00380 + 16 Tandem
22 VV16G00390 + 16 Tandem
Oryza sativa 1 OS01G41834 – 1
2 OS04G01354 – 4
3 OS04G23940 – 4
4 OS05G12180 – 5 Tandem
5 OS05G12190 – 5 Tandem
6 OS05G12210 – 5 Tandem
7 OS05G12240 – 5 Tandem
8 OS05G41645 + 5
9 OS07G11440 – 7
10 OS07G17010 + 7
11 OS07G22850 – 7
12 OS07G31750 – 7 Tandem
13 OS07G31770 – 7 Tandem
14 OS07G34140 – 7 Tandem
15 OS07G34190 – 7 Tandem
16 OS07G34260 – 7 Tandem
17 OS10G07040 + 10
18 OS10G07616 + 10
19 OS10G08620 + 10 Tandem
20 OS10G08670 + 10 Tandem
21 OS10G08710 + 10 Tandem
22 OS10G09860 – 10
23 OS10G34360 + 10
24 OS11G32540 – 11 Tandem
25 OS11G32580 – 11 Tandem
26 OS11G32610 + 11 Tandem
27 OS11G32620 – 11 Tandem
28 OS11G32650 – 11 Tandem
29 OS11G35930 + 11
30 OS12G07690 – 12
Zea mays 1 ZM01G41780 – 1 Block
2 ZM02G42820 – 2 Tandem and block
3 ZM02G42850 – 2 Tandem and block
4 ZM02G45550 + 2
60 植物学报 50(1) 2015
表1 (续) Table 1 (continued)
Species Locus No. Gene ID Strand Chromosome Duplication pattern
5 ZM03G09860 + 3 Tandem
6 ZM03G09890 – 3 Tandem
7 ZM03G09930 – 3 Tandem
8 ZM04G30630 + 4 Tandem and block
9 ZM04G30650 + 4 Tandem and block
10 ZM04G32440 – 4
11 ZM05G09820 + 5 Block
12 ZM05G24850 + 5
13 ZM07G22450 – 7 Block
Physcomitrella patens 1 PP00001G00030 – Scaffold_1
2 PP00020G01360 – Scaffold_20
3 PP00022G00030 + Scaffold_22
4 PP00025G01920 + Scaffold_25 Tandem
5 PP00025G01930 – Scaffold_25 Tandem
6 PP00034G01040 + Scaffold_34
7 PP00038G00030 – Scaffold_38
8 PP00039G01610 – Scaffold_39
9 PP00061G00280 – Scaffold_61
10 PP00076G01020 + Scaffold_76
11 PP00228G00140 – Scaffold_228 Tandem
12 PP00292G00010 – Scaffold_292
13 PP00303G00060 – Scaffold_303 Tandem
14 PP00303G00070 + Scaffold_303 Tandem
15 PP00304G00340 – Scaffold_304
16 PP00365G00100 – Scaffold_365 Tandem
17 PP00365G00120 + Scaffold_365 Tandem
18 PP00425G00060 – Scaffold_425 Tandem
19 PP00426G00290 – Scaffold_426
20 PP00463G00060 – Scaffold_463 Tandem
21 PP00463G00070 + Scaffold_463 Tandem
22 PP00463G00100 – Scaffold_463 Tandem
23 PP00500G00030 – Scaffold_500
Selaginella moellendorffii 1 SM00001G06800 – Scaffold_1
2 SM00017G03910 – Scaffold_17
3 SM00007G01560 – Scaffold_7
4 SM00068G00810 – Scaffold_68
Ostreococcus lucimarinus – – – – –
O. tauri – – – – –
Micromonas sp. RCC299 – – – – –
Volvox carteri – – – – –
Chlamydomonas reinhardtii – – – – –
值得注意的是, 转座子复制也可能是chs类基因在植
物基因组中进行扩增的一种重要方式, 特别是对于那
些从基因排列上看不出彼此之间的关联性及既不能
归入串联复制也不能归入片段复制的位点(如拟南芥
的4个位点)。从植物基因组进化的特点推测这些位点
的扩增极有可能来自转座子介导的随机复制事件(图
1; 表1)。
2.2 系统发育关系分析和进化检验
为了进一步了解chs类基因在陆生植物类群中的进化
包颖等: 植物查尔酮合成酶超基因家族的分子进化 61
表2 火炬松基因组中含有CHS超家族基因的重叠群
Table 2 Contigs contained genes of CHS superfamily in Pinus taeda genome
No. Contig Length
(bp)
Score bits Strand Identities E-value Sequence
information
1 Ctg7180044571087 2 448 1 564 – 1 134/1 301 (87%) 0 Complete
2 Ctg7180044837494 4 493 1 535 – 1 119/1 301 (86%) 0 Complete
3 Ctg7180046059388 2 761 1 736 – 1 185/1 328 (89%) 0 Complete
4 Ctg7180055825794 3 986 1 000;
241
–
–
821/999 (82%);
180/211 (85%)
0
7e-60
Complete
5 Ctg7180056125030 4 720 1 476;
378
–
–
976/1 077 (91%);
226/237 (95%)
0
4e-101
Complete
6 Ctg7180057362889 39 003 1 893 – 1 265/1 402 (90%) 0 Complete
7 Jtg7180055651041f_7180057409216f 5 769 1 337;
309
–
–
891/991 (90%);
215/244 (88%)
0
2e-80
Complete
8 Jtg7180057127125f_7180046406791r 10 190 1 577 – 1 123/1 284 (87%) 0 Complete
9 Ctg7180057114010 6 665 1 342 + 1 077/1 298 (83%) 0 Complete
10 Ctg7180057423160 15 081 1 471 + 1 087/1 271 (86%) 0 Complete
11 Jtg7180046403543f_7180056907730f 6 806 2 006 + 1 288/1 401 (92%) 0 Complete
12 Jtg7180043014796r_7180045416866r 5 549 717;
149
+
+
762/1 001 (76%);
141/180 (78%)
0
3e-32
Complete
13 Ctg7180057238333 10 113 1 712;
342
–
–
966/977 (99%);
194/197 (98%)
0
2e-90
Complete
14 Ctg7180055304970 1 885 1 265 – 911/1 039 (88%) 0 Fragment
15 Ctg7180044078159 1 566 1 209 – 875/1 000 (88%) 0 Fragment
16 Ctg7180054149681 1 521 951 + 646/724 (89%) 0 Fragment
17 Ctg7180040742080 576 872 – 539/576 (94%) 0 Fragment
18 Ctg7180055755024 954 805 + 537/596 (90%) 0 Fragment
19 Ctg7180054149682 656 792 + 507/552 (92%) 0 Fragment
20 Ctg7180057090732 1 429 735 – 766/1 001 (77%) 0 Fragment
21 Ctg7180056804266 2 400 735 + 766/1 001 (77%) 0 Fragment
22 Ctg7180055304969 1 187 726 – 476/524 (91%) 0 Fragment
23 Deg7180050331267 530 704 + 474/530 (89%) 0 Fragment
24 Ctg7180047225082 2 089 704 + 756/998 (76%) 0 Fragment
25 Ctg7180057563133 1 376 675 + 753/1 002 (75%) 0 Fragment
26 Deg7180049910668 707 659 – 574/706 (81%) 0 Fragment
27 Ctg7180040473811 2 084 650 + 734/981 (75%) 0 Fragment
28 Deg7180050301638 1 145 623 + 510/616 (83%) 6e-175 Fragment
29 Ctg7180046407516 2 023 600 + 736/1 002 (73%) 6e-168 Fragment
30 Ctg7180056729621 1 548 583 + 654/871 (75%) 5e-163 Fragment
31 Ctg7180055812743 7 348 583 – 730/999 (73%) 5e-163 Fragment
32 Ctg7180056199763 7 255 574 + 722/987 (73%) 3e-160 Fragment
33 Ctg7180055845812 12 473 563 – 667/900 (74%) 5e-157 Fragment
34 Ctg7180053679462 1 148 554 – 659/891 (74%) 2e-154 Fragment
35 Ctg7180050291419 893 554 + 609/806 (76%) 2e-154 Fragment
36 Ctg7180040305101 946 553 + 623/833 (75%) 8e-154 Fragment
37 Ctg7180056889828 1 745 545 + 622/831 (75%) 1e-151 Fragment
38 Ctg7180040359262 801 544 + 536/691 (78%) 4e-151 Fragment
39 Ctg7180038459346 430 533 – 376/430 (87%) 8e-148 Fragment
40 Ctg7180038501054 559 522 – 453/555 (82%) 1e-144 Fragment
41 Ctg7180050814991 1 172 509 + 600/808 (74%) 9e-141 Fragment
42 Ctg7180057409908 1 097 508 + 343/384 (89%) 3e-140 Fragment
62 植物学报 50(1) 2015
表2 (续) Table 2 (continued)
No. Contig Length
(bp)
Score
bits
Strand Identities E-value Sequence
information
43 Ctg7180056950914 6 228 1 357 + 1 092/1 318 (83%) 0 Nonsense
mutation
44 Ctg7180056550739 18 693 1 342 – 1 076/1 293 (83%) 0 Nonsense
mutation
45 Jtg7180056551170f_7180056551171f 9 504 1 198 – 1 060/1 326 (80%) 0 Nonsense
mutation
46 Ctg7180039529527 1 759 677 + 754/1 001 (75%) 0 Nonsense
mutation
47 Jtg7180057668388f_7180057668389f 5 289 661 + 734/975 (75%) 0 Nonsense
mutation
48 Ctg7180044573223 1 796 650 – 747/1 001 (75%) 0 Nonsense
mutation
49 Ctg7180056441624 5 881 600 + 739/1 002 (74%) 6e-168 Nonsense
mutation
50 Jtg7180056265080f_7180046063071r 7 390 513 + 714/992 (72%) 7e-142 Nonsense
mutation
51 Jtg7180057409910f_7180057409911f 20 052 1 393 + 1 080/1 281 (84%) 0 Frame shift
历史, 我们利用获得的chs类基因构建了最大似然性
(maximum likelihood, ML)系统发育关系树, 并利用
ProtTest v3软件(Darriba et al., 2011)计算出构建此
ML树的最优氨基酸置换模型为LG+G+F(gamma
shape=1.126, –lnL=39 912.46)。以3个细菌基因
(AAB481061、AAS036861和BAE072161)为外类群,
9种陆生植物的chs类基因在ML树上被分为具高低不
同支持率(100%和55%)的两大分支 : 分支 I和分支
II(图2)。
分支I完全由小立碗藓的3条基因构成(图2E)。从
ML树的拓扑结构可以看出, 该分支平行于其它大多
数chs类基因组成的分支, 是比较早的基因复制产物,
因此可能代表chs类基因中最古老的类型。
分支 II由一系列具中等到高支持率 (自展值>
50%)的亚分支和一些没有明显支持率的 (自展值
<50%)平行分支组成(图2A)。
亚分支II-1(图2B)以绝对的支持率(100%)从其它
chs类基因中首先被分出。该分支包括所有9种陆生植
物, 表明这个亚分支内的chs类基因比较古老, 其起
源可能要追溯到早期陆生植物的祖先。而且, 在该亚
分支的被子植物谱系中, 双子叶和单子叶植物的chs
类基因并没有按照谱系差异截然分开, 而是相互混合
在一起并被平行划分为2个高支持率(95%和100%)的
小分支。这种拓扑结构暗示着处于该亚分支的chs类
基因可能经历了被子植物的全基因组加倍事件。
亚分支II-2(图2C)全部由单子叶植物的chs类基
因构成, 但来自玉米和水稻的基因并未按照物种的界
限聚类, 而是混合分布在一起, 并显示了多轮的复制
和基因丢失事件。例如, 水稻的位点10和玉米的位点
13以93%的支持率构成一个小分支, 这个小分支进
一步与另外一个支持率为100%的小分支组成平行的
拓扑结构。但奇怪的是, 后一个小分支中并未出现玉
米的位点, 而是完全由水稻的3个位点(14–16)构成,
说明该分支中玉米的相应位点可能在后续的进化过
程中发生了丢失。类似的事件也见于其它分支。上述
的综合分析表明, 亚分支II-2基因的起源应该在玉米
和水稻等谷物分开之前, 并有可能历经禾本科植物祖
先的多次全基因组加倍事件及其后各自独立进化过
程中的谱系筛选。
亚分支II-3和II-4(图2D)是另外2个具较高支持率
的分支(100%和82%), 它们都是由单一物种的chs类
基因构成。其中亚分支II-3的基因完全来自水稻; 而亚
分支II-4的基因全部隶属小立碗藓。此外, 亚分支II-4
的外围还并行1条来自石松的chs类基因(尽管无明显
的支持率)。
亚分支II-5是除亚分支II-1以外的又一个复杂分
支。按照ML树的拓扑结构, 这个亚分支还可以再分成
2个小分支, 即II-5-1和II-5-2(图2D)。其中, 小分支
包颖等: 植物查尔酮合成酶超基因家族的分子进化 63
图1 CHS超基因家族中基因的3种复制方式
(A) 葡萄、蒺藜苜蓿、水稻和小立碗藓基因组中的串联复制; (B)
毛果杨和葡萄基因组相应位置上的片段复制; (C) 毛果杨中的串
联复制和片段复制同时出现; (D) 拟南芥中可能的转座子复制。
箭头代表不同的基因及其在基因组上的排列方向, 同源基因采
用相同的颜色, 图中框格标注的为CHS超基因家族的目标基因
Figure 1 Three duplication patterns of genes occurred in
CHS superfamily
(A) Patterns of tandem duplication in Vitis vinifera, Medicago
truncatula, Oryza sativa and Physcomitrella patens; (B) Pat-
terns of block duplication between Populus trichocarpa and
V. vinifera; (C) Pattern of block and tandem duplication in P.
trichocarpa; (D) Pattern of possible transposition duplication
in Arabidopsis thaliana. Arrows represent genes with direc-
tion in genomes; Homologues shows in same colors; Target
genes in CHS superfamily are framed
II-5-1主要是以葡萄基因组中多条chs类序列构成的
聚类, 同时包括其外围来自毛果杨的3条序列。小分
支II-5-2包括的chs类基因则来自目前研究的所有7个
种子植物。其中, 来自火炬松的12个chs类基因全部
单独聚在一起, 并先与蒺藜苜蓿以及其它双子叶植物
的部分chs类基因以低的支持率聚合(57%和67%),
然后再以同样较低的支持率(56%)与单子叶植物中来
自水稻和玉米的3条序列构成姐妹群。该结果表明位
于小分支II-5-2内chs类基因的起源至少可以追溯到
裸子植物和被子植物分开之前, 即种子植物的祖先
时代。
为了解chs类基因的进化模式, 我们利用PAML
4.5软件(Yang, 2007)中的CODEML程序计算了目前
获取的chs类基因的非同义置换(dN)与同义置换(dS)
的比值(ω), 以此对所有位点进行选择压评估。理论
上, 不同的ω值代表着不同的选择意义, ω<1、=1或>1
分别代表位点承受着纯化选择、中性选择和正选择。
在假设所有位点具有相同ω比值的M0模式下, 我们
获得的ω值为0.122, 该值远小于1, 说明chs类基因
的进化与其它功能基因一样处于纯化选择的影响之
下。为进一步识别chs类基因中不同位点上是否存在
不同的分化选择, 我们计算了基于位点变异ω的5个
模型(M1a、M2a、M3、M7和M8)。通过对模型M3
和M0比较 , 发现其似然比率检测值 LRT(2∆ℓ=
1 650.586)远大于具有4个自由度的卡平方在1%水平
分布的临界值(13.277), 且统计检验P=0, 说明M0模
型被拒绝, chs类基因不同位点ω值并非固定不变。对
另外2对模型(M1a vs. M2a和M7 vs. M8)也进行了比
较以检测位点之间可能存在的正选择。M1a和M2a以
及M8和M7的LRT值 (2∆ℓ=0, P=1.000; 2∆ℓ=0.006,
P=0.997)均小于同样具有2个自由度的卡平方在1%
水平分布的临界值(9.210), 表明chs类基因的不同位
点之间未受到正选择的影响。同时, 利用2种贝叶斯
统计方法(naïve empirical bayes, NEB; bayes em-
pirical bayes, BEB)均未找到任何正选择位点。该结
果说明, 即使在CHS超基因家族内部已经发生了多
样的遗传改变, 但并没有固定的位点承受显著的正向
选择。
2.3 讨论
2.3.1 查尔酮合成酶超基因家族的起源和进化
以查尔酮合成酶开始的生化途径在植物防御和UV保
护等诸多方面承担着多种生理功能(Durbin et al.,
2000; Abe and Morita, 2010), 因此在植物进化和适
应过程中发挥重要作用。通过全基因组扫描, 我们在
陆生植物中获得了144个chs类基因, 但是, 在5种藻
类植物中, 却没有找到任何chs类基因的同源拷贝,
说明该超基因家族应该为陆生植物所特有。本研究系
统发育分析(图2)显示, 该超基因家族的进化历史可
能要追溯到陆地植物和藻类植物分开之后, 苔藓植物
起源之前。在小立碗藓中, 我们发现的23个chs类基
因并未单独聚类, 而是与其它陆生植物混置在不同分
支, 说明该超基因家族在进入苔藓植物之前就已经开
始了基因的复制和分化。但是, 也不难发现, 苔藓植
64 植物学报 50(1) 2015
图2
Figure 2
包颖等: 植物查尔酮合成酶超基因家族的分子进化 65
物中chs类基因数量的大规模扩增主要发生在后期的
谱系进化之中(图2D)。该结果与其他学者对苔藓植物
chs类基因的研究结果相吻合(Jiang et al., 2006;
Koduri et al., 2010)。由于现代陆地植物的祖先被认
为在距今约4 700–5 000万年前登陆 (Sanderson,
2003; Rubinstein et al., 2010), 因此CHS超基因家
族的起源可能伴随着早期陆生植物的出现。从适应的
角度来看, 对紫外线的防御和对陆地严酷环境的适应
是植物登陆面临的最大挑战, 而在由CHS启动的生
化途径中, 类黄酮合成途径是最重要的一条代谢途
径, 其代谢终产物类黄酮物质具有较强的抵御紫外线
和光氧化的功能, 因此这些功能被认为是早期陆生植
物中类黄酮物质所承担的最重要的功能(Ferrer et al.,
2008)。但也有研究者(Stafford, 1991)提出, 早期的类
黄酮物质更可能作为植物内在的生理调控子或化学
信使来发挥作用, 并在严酷环境的胁迫下在不同植物
居群中平行进化为承担不同生化功能的亚类; 之后,
类黄酮物质又演化出对外界有机体的有效应答, 比较
典型的例子就是成功发展出菌根和共生固氮、构建出
对其它微生物和害虫进行化学防御的完美体系以及
在被子植物中通过创造出缤纷色彩来引诱传粉者和
种子散布者等的新功能(Stafford, 1991; Durbin et al.,
2000; Abe and Morita, 2010)。但是, 在目前的系统
发育树中, 我们也发现有3个苔藓chs类基因位于其
它所有陆生植物chs类基因分支的外围。注释分析表
明, 这3条序列表现出烷基间苯二酚合成酶(alkyl res-
orcinol synthase)的活性, 似乎预示着这3个基因所
代表的酶可能为植物CHS超家族中最古老的酶类型。
如果确实如此, 那么目前植物中普遍存在的利用克莱
森缩合(Claisen condensation)反应的CHS类型酶可
能是伴随苯丙烷代谢进化而来的衍生类型(Baerson
et al., 2010)。
染色体定位和共线性分析表明, CHS类超基因家
族的扩增模式主要以串联复制为主, 片段复制为辅。
但在不同植物中, 可能转座子复制也扮演着重要角
色, 如拟南芥chs类基因的扩增可能全部为转座子复
制的结果(表1)。早期根据拟南芥和水稻基因组的研究
表明, 具有胁迫响应功能的蛋白更容易以串联阵列和
转座移位的方式在基因组中得以保留(Rizzon et al.,
2006; Hanada et al., 2008)。正如上面所述, CHS类
超基因家族作为类黄酮代谢途径中的关键上游酶, 其
产生和扩增很可能与植物适应多样的生境有关, 并进
而在后续进化中产生功能分歧的亚类 (Staf ford,
1991)。同时, 在CHS类超基因家族的复制过程中, 染
色体片段的复制和全基因组的加倍可能对特定chs类
基因在不同进化阶段的扩增产生重要影响。目前有更
多的证据表明, 在植物进化的历程中存在多次全基因
组加倍事件, 其中包括著名的发生在十字花科谱系的
2次比较近的α和β事件, 可能被所有真双子叶植物共
有的3倍化的γ事件, 以及发生在单子叶植物的谷物
与其它禾草类分化之前的ρ和σ事件等(Vision et al.,
2000; Bowers et al., 2003; Jaillon et al., 2007;
Lyons et al., 2008; Tang et al., 2010)。基于全基因
组的系统学比较, Jiao等(2011)提出在植物进化谱系
中, 距今约319和192百万年还存在着2次非常古老的
全基因组加倍事件, 一次发生在现存种子植物的祖先
中; 另一次发生在现存被子植物的祖先中。我们的系
统发育树分支II-1显示了这类chs-like基因在其进化
历史中可能经历的被子植物全基因组加倍事件。分支
II-2则展示了多次可能发生在禾本科植物内部的基因
组加倍事件(图2)。结合染色体定位和共线性分析等资
料(表1; 图1), 我们推测CHS类超基因家族中的很多
片段复制都可能源自植物进化不同阶段的全基因组
加倍事件。因此, CHS类超基因家族在植物谱系中是
_______________________________________________________________________________________________
←
图2 基于氨基酸置换模型LG+G+F构建的CHS超基因家族最大似然性系统发育树
(A) 完整树; (B)–(E) 各分支细节。分支旁边的数字代表大于50%的自展支持率。基因的详细信息见表1和表2。
Figure 2 Phylogram resulting of the CHS superfamily from maximum likelihood analysis with an amino acid substitution model
LG+G+F
(A) Whole tree; (B)–(E) Clades in detail. Numbers beside the branches refer to the bootstrap values (>50%) based on 100 rep-
lications. Gene information is shown in Table 1 and 2.
66 植物学报 50(1) 2015
一个比较古老的基因家族, 其家族成员历经了大范围
的全基因组加倍事件、染色体片段复制、原位串联复
制以及相当部分的转座复制等扩增方式后, 在不同植
物基因组中得以保留和延续, 并进而发展出不同的功
能亚型。
2.3.2 查尔酮合成酶超基因家族的功能分化
基因复制的多数结果是复制子在后续的进化过程中
丢失, 那些能够保留下来的复制基因无疑会提升整个
基因组的突变强度, 为新功能产生和物种进化提供更
多的物质条件 (Lynch and Conery, 2000; Lynch,
2002; Freeling, 2009)。CHS超基因家族作为一个古
老的基因家族, 频繁的复制和基因丢失必然伴随其整
个进化历程。尽管对大多数复制子而言, 在中性选择
的条件下能够产生功能分歧的比例非常低, 但由于
chs类基因编码的多是与胁迫适应相关的代谢途径中
的关键酶, 低比例的突变会由于特异环境的强化在不
同居群中被固定下来。这种功能趋异的情况从目前的
系统发育树(图2)上已得到体现。例如, 亚分支II-1以
100%支持率单独聚成一支, 这种独立分支的拓扑结
构与早期Jiang等(2008)基于GenBank中chs基因的
系统发育分析得到的结果一致。从功能角度来看, 该
亚分支内包含的chs类基因对于花药和小孢子的形成
具重要作用。例如, 作为唯一与松属花药特异的chs
基因(U90341.1)(Walden et al., 1999)匹配的序列,
重叠群ctg7180057238333中识别的基因就聚合在这
个分支(位点13)上。再如, 拟南芥chs类基因的位点1
和3分别对应于基因LAP6(Less Adhesive Pollen 6)
和LAP5(Less Adhesive Pollen 5), 这2个基因在小孢
子发育阶段的花药绒毡层细胞内特异表达, 任何一个
基因发生突变都将引起花粉外壁发育异常, 双突变则
将导致花粉外壁缺少和最终的雄性不育(Kim et al.,
2010)。另外, 来自水稻的位点23, 对应于基因YY2
(BAA23618)同样编码花药特异蛋白 , 与拟南芥的
LAP5和LAP6基因类似, 水稻的YY2基因也是在单核
小孢子发育阶段的花药绒毡层细胞内特异表达(Hi-
hara et al., 1996)。结合体外实验, Dobritsa等(2010)
认为, 作为花药特异的查尔酮合成酶, LAP6和LAP5
基因可能在花粉外壁脂肪酸和酚类的合成中发挥作
用, 并通过彼此以及与花药中其它脂肪酸羟化基因的
相互作用促进花粉外壁的沉积。Kim等(2010)提出由
LAP5和LAP6参与形成的聚酮类化合物有可能是孢
粉素合成的前体。如果的确如此, 那么该亚分支中还
包括2条分别来自苔藓和蕨类的chs类基因就比较容
易理解了。在这些没有花药的植物中, chs类基因可能
与小孢子外壁的孢粉素形成有关。
亚分支II-2包括的chs类基因全部来自禾本科植
物, 其中位点4、5、6、17和19被认为是编码烷基间
苯二酚合成酶(ARS)的基因(Austin and Noel, 2003;
Baerson et al., 2010; Cook et al., 2010)。作为III型聚
酮合酶的成员, ARS不仅可以利用与芪合酶(stilbene
synthase, STS)相同类型的环化机制, 以特定的脂酰
辅酶A为底物产生副产物吡喃酮, 而且可以使用中到
长链的脂酰辅酶A为底物, 通过与丙二酰辅酶A缩合
产生烷基间苯二酚(Funa et al., 2006)。该酶及其衍生
物具有特定的分布模式, 通常积累在谷物颖果的外层
或叶片和根系的表面, 加之它们具有明显的抗真菌活
性, 被认为是植物构成化学防护屏障的有效方式(Zar-
nowska et al., 2000; Miché et al., 2003; Ross et al.,
2003; Baerson et al., 2010)。由于以上位点所在分支
具有100%的支持率, 因此我们推测位于相同分支的
另外几个水稻位点(7、18、21、20和22)可能也与ARS
有关。在亚分支II-2中, 水稻还有一个位点10, 它不但
具有相应的注释信息, 而且经过了大肠杆菌体外蛋白
合成的验证, 该位点为编码姜黄素合酶(curcuminoid
synthase, CUS)的基因(Katsuyama et al., 2007; Abe
and Morita, 2010; Morita et al., 2010; Miyazono et
al., 2011)。与典型的查尔酮合酶相比, CUS具有不同
的晶体结构, 其独特的向下扩展的活性腔结构可以容
纳2个C6-C3香豆酰基单元和1个丙二酰基单元, 并且
在代谢过程中CUS只催化缩合反应不进行环化反应。
以上2个已注释功能基因的发现进一步表明, 作为仅
包括单子叶禾本科的特定组合, 亚分支II-2的独立分
出不但显示了chs类基因进化的谱系特异性, 而且说
明在谱系内部, chs类基因彼此之间累积的氨基酸突
变已引起了功能的趋异。但是, 相对较少的功能研究
限制了我们对剩余chs类基因的深入理解。亚分支II-4
全部由小立碗藓的序列构成, 该分支与小立碗藓已注
释的查尔酮合成酶chs基因 (ABB84527.1)具86%–
100%的同源性。
此外, 亚分支II-5特别值得关注, 它包括的chs类
基因遍布本研究的所有种子植物。其中, 小分支II-5-1
包颖等: 植物查尔酮合成酶超基因家族的分子进化 67
非常特别, 该分支内除3条毛果杨序列(位点2、10和
12)外, 全部由葡萄基因组的序列组成, 通过查询已
注释的葡萄功能基因, 发现该小分支内包括的序列与
已知的葡萄芪合酶(STS)基因序列更为相似, 如位点
21与GenBank中的A5C9M2.1(stilbene synthase 5)
完全相同, 位点16除5′端有64 aa的缺失外其余329
aa与A5AEM3.1(stilbene synthase 4)完全相同。此
外, 分布在该分支内的其它序列与GenBank中注释
的葡萄STS编码基因 (P28343.2、P51070.2、P-
51071.2、 A5AEM3.1、 A5C9M2.1、 A2ICC6.1、
ABC84859.1和CAA54221.1)相比, 尽管存在序列长
度多态性, 但对位排列后序列同源性高达85%–99%,
远高于葡萄chs基因(P51090.1)和以上sts基因(75%–
77%)。因此, 可以推测该小分支内的基因应为编码
STS的基因。之前也有学者发现在葡萄基因组中的确
存在较大数量的 sts基因 (Parage et al., 2012;
Vannozzi et al., 2012)。
小分支II-5-2则是典型查尔酮合成酶编码基因的
聚类集合, 那些与已注释的chs基因完全匹配的序列
全都分布在这个小分支上。例如, 拟南芥的位点4(对
应于GenBank No.AED91961.1); 蒺藜苜蓿的位点
20(对应于GenBank No.AES80742.1)、21(对应于
GenBank No.AET04138.1)和 6(对应于 GenBank
No.AES71898.1); 毛果杨的位点 14(对应于Gen-
Bank No.ABD24226.1)和 7(对应于GenBank No.
EEE78799.1); 水稻的位点28(chs1, 对应于Gen-
Bank No.A2ZEX7.1)和 9(chs2, 对应于 GenBank
No.Q8H4L3.1); 玉米的位点3(对应于GenBank No.
CAA42764.1)等。但是, 葡萄的情况稍有不同, 目前
在葡萄基因组内搜寻到的位点5与GenBank中葡萄
chs基因AAB72091.1相比, 在5′端和3′端分别具有48
aa和38 aa的缺失, 以及1个氨基酸的突变。而位点2
与基因BAB84111.1、AEP17003.1和AEP17004.1相
比, 除了5′端缺少19 aa外, 在119 aa处提前终止。这
里5′和3′端的缺失可能是不同预测方法产生的分歧,
但提前终止有可能是转录本的剪切差异, 因为进一步
EST分析发现位点2是可表达的位点。另外, 在这个小
分支内部, 我们还注意到火炬松的聚类位置在被子植
物内部的聚类方式非常特殊, 从进化的角度只能解释
为火炬松的chs类基因保留了种子植物祖先更多的特
征, 但其深层次的原因还有待进一步分析和拓展研
究。在火炬松的所有序列中, 除1条花药特异的chs基
因被置于亚分支II-1外, 其余12条chs类基因全部被
聚合在一起。通过进一步的同源比对(Fliegmann et
al., 1992; Schanz et al., 1992), 发现在这12个基因
中, 只有1个重叠群(jtg7180043014796r-718004541-
6866r, 位点12)中包含可能的STS编码基因 (对应
GenBank编号ABG91049.1), 其余均可能是chs基
因。尽管这个可能的sts基因与其它chs基因之间的序
列同源性和葡萄相同基因的比较结果相似 (70%–
77%), 但它们并没有像葡萄的sts和chs基因那样聚
成不同的分支。这种情况的出现一方面说明葡萄基因
组内sts和chs的分化时间比较早, 另一方面说明作为
谱系特异的进化, 火炬松自身sts和chs的复制应为相
对近期发生在谱系内部的扩增事件。在以往的系统发
育研究中, 植物chs基因与其超家族内非chs类基因
聚在一起的情况并不少见, 尤其是sts和chs基因聚为
同一分支的情况更为普遍(Jiang et al., 2008), 这种
情况充分说明在物种内两基因具有非常高的序列同
源性。以往的分析也认为STS在不同谱系中存在着从
CHS中多次起源的现象(Tropf et al., 1994; Jiang et
al., 2008)。在CHS超基因家族中, sts和chs基因编码
最为相似的两类酶, 它们不但具有高度的序列同源
性, 偏好相同的底物(Schröder and Schröder, 1990),
而且在缩合反应中, 仅需要1个单一的活性位点就能
完成反应过程(Tropf et al., 1995)。早期的体外表达实
验(Yamaguchi et al., 1999)也证明CHS和STS的表
达产物中有低比例的交叉, 说明两种酶活性位点的构
象具有一定的灵活性。Kodan等(2002)的研究表明,
作为参与碳流竞争的2条代谢途径中的关键酶, CHS
和STS在某些条件下具有截然相反的转录水平, 并通
过各种调节机制达到动态平衡。
此外, 目前的ML树上还有一些小的分支功能未
知, 如亚分支II-3全部由水稻的3条序列组成(图2D),
它们与典型的水稻chs基因(Q2R3A1.1)的同源性仅
为42%–48%。在分支II-3、II-4和II-5的最外围, 还有1
个由1条小立碗藓和1条石松序列构成的小分支(图
2D), 其中小立碗藓与其典型的chs基因(ABB8452-
7.1)之间的序列同源性仅为43%; 因此, 这部分有可
能是一些功能未知的其它chs类基因。
综上所述, 不难看出CHS超基因家族的进化非
常复杂, 它们伴随着陆生植物登陆后, 为适应多样的
68 植物学报 50(1) 2015
生态环境而起源, 并在长期的进化过程中历经全基因
组加倍、染色体片段复制、串联复制以及可能的转座
子复制等多种扩增模式, 同时伴随着特异的谱系扩张
和各种可能的拷贝丢失, 最后通过功能分歧的方式在
不同植物类群中被分别固定。并且, 也正是由于其功
能的复杂性和结构的多变性, 该基因家族的进化始终
处于动态变化之中。
参考文献
Abe I, Morita H (2010). Structure and function of the
chalcone synthase superfamily of plant type III poly-
ketide synthases. Nat Prod Rep 27, 809–838.
Austin MB, Noel JP (2003). The chalcone synthase
superfamily of type III polyketide synthases. Nat Prod Rep
20, 79–110.
Baerson SR, Schröder J, Cook D, Rimando AM, Pan ZQ,
Dayan FE, Noonan BP, Duke SO (2010). Alkylresorcinol
biosynthesis in plants: new insights from an ancient
enzyme family? Plant Signal Behav 5, 1286–1289.
Bowers JE, Chapman BA, Rong JK, Paterson AH (2003).
Unravelling angiosperm genome evolution by phylo-
genetic analysis of chromosomal duplication events.
Nature 422, 433–438.
Christensen AB, Gregersen PL, Schröder J, Collinge DB
(1998). A chalcone synthase with an unusual substrate
preference is expressed in barley leaves in response to
UV light and pathogen attack. Plant Mol Biol 37, 849–857.
Cook D, Rimando AM, Clemente TE, Schröder J, Dayan
FE, Nanayakkara NP, Pan ZQ, Noonan BP, Fishbein M,
Abe I, Duke SO, Baerson SR (2010). Alkylresorcinol
synthases expressed in Sorghum bicolor root hairs play
an essential role in the biosynthesis of the allelopathic
benzoquinone sorgoleone. Plant Cell 22, 867–887.
Criscuolo A (2011). MorePhyML: improving the phylo-
genetic tree space exploration with PhyML 3. Mol Phylo-
genet Evol 61, 944–948.
Darriba D, Taboada GL, Doallo R, Posada D (2011).
ProtTest 3: fast selection of best-fit models of protein
evolution. Bioinformatics 27, 1164–1165.
Dobritsa AA, Lei Z, Nishikawa S, Urbanczyk-Wochniak E,
Huhman DV, Preuss D, Sumner LW (2010). LAP5 and
LAP6 encode anther-specific proteins with similarity to
chalcone synthase essential for pollen exine development
in Arabidopsis. Plant Physiol 153, 937–955.
Durbin ML, Learn GH Jr, Huttley GA, Clegg MT (1995).
Evolution of the chalcone synthase gene family in the
genus Ipomoea. Proc Natl Acad Sci USA 92, 3338–3342.
Durbin ML, McCaig B, Clegg MT (2000). Molecular
evolution of the chalcone synthase multigene family in the
morning glory genome. Plant Mol Biol 42, 79–92.
Ferrer JL, Austin MB, Stewart C Jr, Noel JP (2008).
Structure and function of enzymes involved in the bio-
synthesis of phenylpropanoids. Plant Physiol Bioch 46,
356–370.
Fliegmann J, Schröder G, Schanz S, Britsch L, Schröder
J (1992). Molecular analysis of chalcone and dihydro-
pinosylvin synthase from Scots pine (Pinus sylvestris),
and differential regulation of these and related enzyme
activities in stressed plants. Plant Mol Biol 18, 489–503.
Franken P, Niesbach-Klösgen U, Weydemann U, Maré-
chal-Drouard L, Saedler H, Wienand U (1991). The
duplicated chalcone synthase genes C2 and Whp (white
pollen) of Zea mays are independently regulated; evid-
ence for translational control of Whp expression by the
anthocyanin intensifying gene in. EMBO J 10, 2605–2612.
Freeling M (2009). Bias in plant gene content following
different sorts of duplication: tandem, whole-genome,
segmental, or by transposition. Annu Rev Plant Biol 60,
433–453.
Fukada-Tanaka S, Hoshino A, Hisatomi Y, Habu Y,
Hasebe M, Iida S (1997). Identification of new chalcone
synthase genes for flower pigmentation in the Japanese
and common morning glories. Plant Cell Physiol 38, 754–
758.
Funa N, Awakawa T, Horinouchi S (2007). Pentaketide
resorcylic acid synthesis by type III polyketide synthase
from Neurospora crassa. J Biol Chem 282, 14476–14481.
Funa N, Ozawa H, Hirata A, Horinouchi S (2006). Phenolic
lipid synthesis by type III polyketide synthases is essential
for cyst formation in Azotobacter vinelandii. Proc Natl
Acad Sci USA 103, 6356–6361.
Gross F, Luniak N, Perlova O, Gaitatzis N, Jenke-
Kodama H, Gerth K, Gottschalk D, Dittmann E, Muller
R (2006). Bacterial type III polyketide synthases: phy-
logenetic analysis and potential for the production of novel
secondary metabolites by heterologous expression in
pseudomonads. Arch Microbiol 185, 28–38.
Hanada K, Zou C, Lehti-Shiu MD, Shinozaki K, Shiu SH
(2008). Importance of lineage-specific expansion of plant
tandem duplicates in the adaptive response to environ-
mental stimuli. Plant Physiol 148, 993–1003.
Hihara Y, Hara C, Uchimiya H (1996). Isolation and
characterization of two cDNA clones for mRNAs that are
包颖等: 植物查尔酮合成酶超基因家族的分子进化 69
abundantly expressed in immature anthers of rice (Oryza
sativa L.). Plant Mol Biol 30, 1181–1193.
Hopwood DA, Sherman DH (1990). Molecular genetics of
polyketides and its comparison to fatty acid biosynthesis.
Annu Rev Genet 24, 37–66.
Jaillon O, Aury JM, Noel B, Policriti A, Clepet C,
Casagrande A, Choisne N, Aubourg S, Vitulo N, Jubin
C, Vezzi A, Legeai F, Hugueney P, Dasilva C, Horner
D, Mica E, Jublot D, Poulain J, Bruyère C, Billault A,
Segurens B, Gouyvenoux M, Ugarte E, Cattonaro F,
Anthouard V, Vico V, Del Fabbro C, Alaux M, Di
Gaspero G, Dumas V, Felice N, Paillard S, Juman I,
Moroldo M, Scalabrin S, Canaguier A, Le Clainche I,
Malacrida G, Durand E, Pesole G, Laucou V, Chatelet
P, Merdinoglu D, Delledonne M, Pezzotti M, Lecharny
A, Scarpelli C, Artiguenave F, Pè ME, Valle G, Mor-
gante M, Caboche M, Adam-Blondon AF, Weissenbach
J, Quétier F, Wincker P (2007). The grapevine genome
sequence suggests ancestral hexaploidization in major
angiosperm phyla. Nature 449, 463–467.
Jez JM, Ferrer JL, Bowman ME, Austin MB, Schröder J,
Dixon RA, Noel JP (2001). Structure and mechanism of
chalcone synthase-like polyketide synthases. J Ind Mi-
crobiol Biot 27, 393–398.
Jiang C, Kim SY, Suh DY (2008). Divergent evolution of the
thiolase superfamily and chalcone synthase family. Mol
Phylogenet Evol 49, 691–701.
Jiang CG, Schommer CK, Kim SY, Suh DY (2006).
Cloning and characterization of chalcone synthase from
the moss, Physcomitrella patens. Phytochemistry 67,
2531–2540.
Jiao YN, Wickett NJ, Ayyampalayam S, Chanderbali AS,
Landherr L, Ralph PE, Tomsho LP, Hu Y, Liang HY,
Soltis PS, Soltis DE, Clifton SW, Schlarbaum SE,
Schuster SC, Ma H, Leebens-Mack J, de Pamphilis
CW (2011). Ancestral polyploidy in seed plants and angio-
sperms. Nature 473, 97–100.
Katsuyama Y, Matsuzawa M, Funa N, Horinouchi S
(2007). In vitro synthesis of curcuminoids by type III
polyketide synthase from Oryza sativa. J Biol Chem 282,
37702–37709.
Kim SS, Grienenberger E, Lallemand B, Colpitts CC, Kim
SY, Souza Cde A, Geoffroy P, Heintz D, Krahn D,
Kaiser M, Kombrink E, Heitz T, Suh DY, Legrand M,
Douglas CJ (2010). LAP6/POLYKETIDE SYNTHASE A
and LAP5/POLYKETIDE SYNTHASE B encode hydro-
xyalkyl α-pyrone synthases required for pollen develop-
ment and sporopollenin biosynthesis in Arabidopsis tha-
liana. Plant Cell 22, 4045–4066.
Kodan A, Kuroda H, Sakai F (2002). A stilbene synthase
from Japanese red pine (Pinus densiflora): implications
for phytoalexin accumulation and down-regulation of
flavonoid biosynthesis. Proc Natl Acad Sci USA 99,
3335–3339.
Koduri PK, Gordon GS, Barker EI, Colpitts CC, Ashton
NW, Suh DY (2010). Genome-wide analysis of the chal-
cone synthase superfamily genes of Physcomitrella
patens. Plant Mol Biol 72, 247–263.
Koes RE, Spelt CE, van den Elzen PJ, Mol JNM (1989).
Cloning and molecular characterization of the chalcone
synthase multigene family of Petunia hybrida. Gene 81,
245–257.
Larkin MA, Blackshields G, Brown NP, Chenna R,
McGettigan PA, McWilliam H, Valentin F, Wallace IM,
Wilm A, Lopez R, Thompson JD, Gibson TJ, Higgins
DG (2007). Clustal W and Clustal X version 2.0. Bio-
informatics 23, 2947–2948.
Lynch M (2002). Genomics. Gene duplication and evolution.
Science 297, 945–947.
Lynch M, Conery JS (2000). The evolutionary fate and
consequences of duplicate genes. Science 290, 1151–
1155.
Lyons E, Pedersen B, Kane J, Alam M, Ming R, Tang H,
Wang X, Bowers J, Paterson A, Lisch D, Freeling M
(2008). Finding and comparing syntenic regions among
Arabidopsis and the outgroups papaya, poplar, and
grape: CoGe with rosids. Plant Physiol 148, 1772–1781.
Miché L, Belkin S, Rozen R, Balandreau J (2003). Rice
seedling whole exudates and extracted alkylresorcinols
induce stress-response in Escherichia coli biosensors.
Environ Microbiol 5, 403–411.
Miyazono K, Um J, Imai FL, Katsuyama Y, Ohnishi Y,
Horinouchi S, Tanokura M (2011). Crystal structure of
curcuminoid synthase CUS from Oryza sativa. Proteins
79, 669–673.
Morita H, Wanibuchi K, Nii H, Kato R, Sugio S, Abe I
(2010). Structural basis for the one-pot formation of the
diarylheptanoid scaffold by curcuminoid synthase from
Oryza sativa. Proc Natl Acad Sci USA 107, 19778–19783.
Parage C, Tavares R, Réty S, Baltenweck-Guyot R,
Poutaraud A, Renault L, Heintz D, Lugan R, Marais
GA, Aubourg S, Hugueney P (2012). Structural, func-
tional, and evolutionary analysis of the unusually large
stilbene synthase gene family in grapevine. Plant Physiol
70 植物学报 50(1) 2015
160, 1407–1419.
Proost S, Fostier J, De Witte D, Dhoedt B, Demeester P,
Van de Peer Y, Vandepoele K (2012). i-ADHoRe 3.0-fast
and sensitive detection of genomic homology in extremely
large data sets. Nucleic Acids Res 40, e11.
Rizzon C, Ponger L, Gaut BS (2006). Striking similarities in
the genomic distribution of tandemly arrayed genes in
Arabidopsis and rice. PLoS Comput Biol 2, e115.
Ross AB, Shepherd MJ, Schüpphaus M, Sinclair V,
Alfaro B, Kamal-Eldin A, Aman P (2003). Alkylre-
sorcinols in cereals and cereal products. J Agr Food
Chem 51, 4111–4118.
Rubinstein CV, Gerrienne P, de la Puente GS, Astini RA,
Steemans P (2010). Early Middle Ordovician evidence for
land plants in Argentina (eastern Gondwana). New Phytol
188, 365–369.
Sanderson MJ (2003). Molecular data from 27 proteins do
not support a Precambrian origin of land plants. Am J Bot
90, 954–956.
Schanz S, Schröder G, Schröder J (1992). Stilbene
synthase from Scots pine (Pinus sylvestris). FEBS Lett
313, 71–74.
Schröder J (2000). The family of chalcone synthase-related
proteins functional diversity and evolution. Recent Adv
Phytochem 34, 55–89.
Schröder J (1997). A family of plant-specific polyketide
synthases: facts and predictions. Trends Plant Sci 2,
373–378.
Schröder J, Schröder G (1990). Stilbene and chalcone
synthases: related enzymes with key functions in plant-
specific pathways. Z Naturforsch C 45, 1–8.
Stafford HA (1991). Flavonoid evolution: an enzymic ap-
proach. Plant Physiol 96, 680–685.
Suyama M, Torrents D, Bork P (2006). PAL2NAL: robust
conversion of protein sequence alignments into the
corresponding codon alignments. Nucleic Acids Res 34,
W609–W612.
Tang H, Bowers JE, Wang X, Paterson AH (2010).
Angiosperm genome comparisons reveal early polyploidy
in the monocot lineage. Proc Natl Acad Sci USA 107,
472–477.
Tropf S, Karcher B, Schröder G, Schröder J (1995).
Reaction mechanisms of homodimeric plant polyketide
synthases (stilbene and chalcone synthase). A single
active site for the condensing reaction is sufficient for
synthesis of stilbenes, chalcones, and 6-deoxychalcon-
es. J Biol Chem 270, 7922–7928.
Tropf S, Lanz T, Rensing SA, Schröder J, Schröder G
(1994). Evidence that stilbene synthases have developed
from chalcone synthases several times in the course of
evolution. J Mol Evol 38, 610–618.
Vannozzi A, Dry IB, Fasoli M, Zenoni S, Lucchin M
(2012). Genome-wide analysis of the grapevine stilbene
synthase multigenic family: genomic organization and
expression profiles upon biotic and abiotic stresses. BMC
Plant Biol 12, 130.
Vision TJ, Brown DG, Tanksley SD (2000). The origins of
genomic duplications in Arabidopsis. Science 290, 2114–
2117.
Walden AR, Walter C, Gardner RC (1999). Genes
expressed in Pinus radiata male cones include homologs
to anther-specific and pathogenesis response genes.
Plant Physiol 121, 1103–1116.
Wang WK, Schaal BA, Chiou YM, Murakami N, Ge XJ,
Huang CC, Chiang TY (2007). Diverse selective modes
among orthologs/paralogs of the chalcone synthase (Chs)
gene family of Arabidopsis thaliana and its relative A.
halleri ssp. gemmifera. Mol Phylogenet Evol 44, 503–520.
Waterhouse AM, Procter JB, Martin DMA, Clamp M,
Barton GJ (2009). Jalview Version 2―a multiple sequ-
ence alignment editor and analysis workbench. Bioinfor-
matics 25, 1189–1191.
Yamaguchi T, Kurosaki F, Suh DY, Sankawa U, Nishioka
M, Akiyama T, Shibuya M, Ebizuka Y (1999). Cross-
reaction of chalcone synthase and stilbene synthase
overexpressed in Escherichia coli. FEBS Lett 460, 457–
461.
Yang ZH (2007). PAML 4: phylogenetic analysis by
maximum likelihood. Mol Biol Evol 24, 1586–1591.
Zarnowska ED, Zarnowski R, Kozubek A (2000). Alkyl-
resorcinols in fruit pulp and leaves of Ginkgo biloba L. Z
Naturforsch C 55, 881–885.
Zhan J (2009). Biosynthesis of bacterial aromatic poly-
ketides. Curr Top Med Chem 9, 1958–1610.
包颖等: 植物查尔酮合成酶超基因家族的分子进化 71
Molecular Evolution of Chalcone Synthase Gene Superfamily in Plants
Ying Bao1, 2*, Changfeng Guo1, Shaohua Chen1, Mei Liu1
1School of Life of Sciences, Qufu Normal University, Qufu 273165, China; 2State Key Laboratory of Systematic and Evolu-
tionary Botany, Institute of Botany, Chinese Academy of Sciences, Beijing 100093, China
Abstract The chalcone synthase (CHS) gene superfamily, also known as plant-specific type III polyketide synthase
gene superfamily, encodes many important enzymes that can catalyze and synthesize various plant secondary metabo-
lites with diverse structures and different biological activities. These metabolites play key roles in plant growth, reproduc-
tion, and plant adaptation to the environment. To fully understand the basic evolutionary rules of the CHS gene super-
family in plants and reconstruct its evolutionary history, we performed bioinformatics analysis of CHS genes in 14 plant
species with whole-genome data. We performed a BLAST search to identify the gene members of the CHS superfamily.
The possible expansion mechanisms and functional divergences of the members were characterized, and the evolution-
ary trend of the superfamily was explored. We identified 144 genes with expression information; all are expressed in 9
land plants but not 5 algae. Phylogenetic analysis revealed that the CHS gene superfamily had an ancient origin and
complicated evolutionary history. It probably appeared in early terrestrial plants to adapt to the complex environment, then
experienced lineage-specific expansions or gene loss during evolution, and finally was fixed in different plant taxa through
functional divergences. In addition, evolutionary testing showed that despite diverse genetic differentiation within the CHS
superfamily, the whole superfamily was still filtered by strong purifying selection and no single amino acid site within an
individual gene was affected by positive selection.
Key words chalcone synthase, gene superfamily, phylogeny, functional divergence
Bao Y, Guo CF, Chen SH, Liu M (2015). Molecular evolution of chalcone synthase gene superfamily in plants. Chin Bull
Bot 50, 55–71.
———————————————
* Author for correspondence. E-mail: baoyingus@126.com
(责任编辑: 孙冬花)