免费文献传递   相关文献

羽叶三七的转录组测序与三萜皂苷生物合成的关键酶基因的识别



全 文 :1

研究报告
Research Report
羽叶三七的转录组测序与三萜皂苷生物合成的关键酶基因的识别
黄勋 金健 余洁 韩喆 闫祺 陈平 *
武汉轻工大学生物与制药工程学院, 武汉, 430023
*通讯作者, 1711522675@qq.com
摘 要 羽叶三七是五加科人参属的名贵药材,三萜皂苷为羽叶三七最主要的活性成分。为了探索
羽叶三七根茎中皂苷物质生物合成的分子基础,采用 Illumina HiSeq 2000 高通量测序获得羽叶三七
根茎的转录组数据;使用 Trinity 和 TGICL 软件实现 UniGene 的 de novo 拼接;基于 BLAST 完成
UniGene 的蛋白功能注释、KOG 功能注释、GO 分类和 KEGG 代谢通路分析。最终通过 de novo 拼
接注释得到 UniGene 62 240 个。研究发现,羽叶三七根茎部表达的 26 个 UniGene 与三萜碳环骨架
合成相关;三萜合成通路中的关键酶 FPS、SS、SE 等,分别有 111 14 个 UniGene。该研究发现的三
萜皂苷合成相关候选基因对于阐明羽叶三七三萜皂苷合成方式研究提供了理论基础。
关键词 羽叶三七, 转录组测序, 三萜合成关键酶
Transcriptome Profiling and Analysis of Panax pseudo-ginseng
and Identifying the Key Enzymes Gene of Triterpenoids Saponin
Biosynthesis
Huang Xun, Jin Jian, Yu Jie, Han Zhe, Yan Qi, Chen Ping
*
School of Biology and Pharmaceutical Engineering, Wuhan Polytechnic University, Wuhan, 430023
* Corresponding author: 1711522675@qq.com
Abstract Panax pseudo-ginseng is a valuable Chinese herbal medicine, belonging to Araliaceae family.
Triterpene saponins have important therapeutic effects as its main active ingredients. In order to explore the
molecule pathway of triterpenoid saponins biosynthesis in this species, the rhizome of Panax
pseudo-ginseng have been sequencing with Illumina HiSeq 2000 transcriptome sequencing and de novo
splicing by Trinity and TGICL. Based on the BLAST, we have completed the protein function annotation,
KOG functional annotation, GO classification and metabolism of KEGG metabolic pathway analysis. 62
240 UniGenes were finally obtained by de novo splicing and annotation. After annotation,we discovered
26 UniGenes involved in ginsenoside backbone biosynthesis. Additionally, there are 111 14 UniGenes of
the key enzymes about triterpene saponins synthesis pathway FPS, SS, SE respectively. The candidate
genes related to triterpenoid saponin synthesis will provides an important basis and analysis to explore the
pathway of triterpenoid saponin synthesis for Panax pseudo-ginseng.
Keywords Panax pseudo-ginseng, Transcriptome sequencing, The key enzymes of triterpenoid saponin

羽 叶 三 七 (Panax japonicas var.
bipinnatifidus)又名羽叶竹节参(李燕等, 2010),
属五加科人参属的名贵药材。羽叶三七为竹节参
的变种(王答祺等, 1988),主要药用部位为根和
茎。羽叶三七性甘、微苦,具有化瘀止血,消肿
定痛(李巧云等, 1993)增强免疫力、抗肿瘤等多
种药用价值,主要产于云南(赵毅等, 2012),是
当地人民传统的中药(赵仁等, 2008),具有一定
开发利用的前景。通过系统发育进化研究发现,
羽叶三七与三七、西洋参、人参、竹节参等的亲
缘关系最近,其主要成分以三萜皂苷为主。羽叶
三七根茎的皂苷成分与竹节参的各变种是很相
似的,均以含齐墩果烷型的五环三萜皂苷为主,
并含有微量的达玛烷型四环三萜皂苷。因此,羽
网络出版时间:2016-10-13 11:12:21
网络出版地址:http://www.cnki.net/kcms/detail/45.1369.Q.20161013.1112.026.html
2

叶三七是竹节参的一个更适应环境生长的有利
变种。在三萜皂苷合成通路上,羽叶三七的基因
信息相当缺乏,限制了对羽叶三七三萜合成通路
关键酶的研究。因此转录组测序是全面了解羽叶
三七基因信息的一个很好途径。
转录组测序(Transcriptome sequencing)可全
面地揭示生物个体在特定时期和特定组织的全
局基因的表达情况,尤其对于基因组序列信息有
限的生物,更可以用于研究基因结构和基因功能
预测等。(廉洁等, 2015;马赛箭等, 2016)。研究羽
叶三七根茎的转录组学可通过比对到该基因
reads 数(Ansorge et al., 2009)获得其基因组信息,
在分子水平上探索注释到的功能基因基因和功
能表达之间的关系。近年来,转录组学不仅在蔬
菜栽培上有所应用,并且在中医药研究领域中也
逐渐发挥重要作用(陈士林等, 2012)。转录组学
测序在一些重要的药材,如人参、西洋参、三七、
甘草等的转录组测序和分析已经完成(杨旭等,
2011),发现了大量与药用次生代谢产物合成调
控相关的基因(Chen et al., 2011; Sun et al., 2010;
Luo et al., 2011; Li et al., 2010; 郝大程等, 2012)。
但在大多数比较名贵的药材中,它们的基因组信
息相对缺乏,限制了功能基因的分子研究,导致
珍稀植物有效活性成分的研究一直没有很大的
突破。本研究首次利用 Illumina HiSeq 2000 技术
对羽叶三七的根茎等部位进行了转录组测序,丰
富了三萜合成通路的关键酶基因的信息,更有利
于今后研究功能位点与合成调控相关的基因之
间的关系。
1 结果与分析
1.1 转录组序列的统计
通过测序,本研究由共获得了 416 799 414
条有效的短读序,平均读序长度为 95 bp,经过
de novo 拼接后,得到的≥200 bp 的转录本共有
603 468 个,总长度约为 682 Mb;最终获得的
UniGene 数目为 242 485 个(≥200 bp),总长度约
为158 Mb (表1)。总UniGene结果显示,有80 478
个 UniGene 的长度>500 bp,而 N50 片段的长
度也达到了 262 bp。同时,我们做了 GC 含量测
定,从 GC 含量图中可以看出,GC 的含量比例
约为 35.60% (图 2),符合转录组测序的要求。再
者,我们对所有 UniGene 的长度分布做了总结
和分析(图 1),横坐标表示序列的长度区间,纵
坐标表示长度在该区间内的转录本序列的数目。
一般随着长度的增加,序列的数目会减少。在所
有 UniGene 中,片段为 200~400 bp 的 UniGene
所占的比例最大,共有 108 465 条,约占总数的
57.17%。而 1 kb~2 kb 的 UniGene 各片段的含量
呈不断减少趋势,共有 22 295 条,约占 9.19%。
而大于2 kb的UniGene有14 799条,约占5.34%。
从 UniGene 的整体分布来看,各长度的分布相
对均匀。
表 1 羽叶三七 de novo 的拼接
Table1 The de novo splicing for Panax pseudo-ginseng

所有>=200bp

总长度 最大长度 最小长度 平均长度

All (>=200bp) >=500 bp >=1000 bp N50 N90 Total Length Max Length Min Length Average Length
重叠群 603 468 362 279 237 173 1 917 465 682 335 767 28 359 201 1 130
Contig
单基因 242 485 80 478 37 129 1 017 262 158 021 495 28 359 201 651
UniGene
注: N50: 累计的碱基数达到转录本的总碱基数 50%时转录本的长度
Note: N50: The length of the transcript when the cumulative numbers of bases reach to the 50% of the total base numbers for
the transcription
3


图 1 所有 UniGene 的长度分布
Figure 1 Length distribution of all UniGene

图 2 GC 含量的频率分布
Figure 2 GC cotent frequence distribution
1.2 转录组功能注释
利用基因的相似性原则主要在 NR 数据库、
Swissport 数据库、KOG 数据库、GO 数据库以
及 KEGG 数据库进行 Blast 比对。比对结果发现
(表 2),80 224 个 UniGene 中,在 NR 数据库中
有 17 811 个 UniGene 获得同源匹配信息,约占
22.20%,而在 Swissport 数据库、KOG 数据库、
GO 数据库、KEGG 数据库中分别有 22 171 个、
13 448 个、30 926 个、26 162 个。因此,在我们
的转录组数据中,大部分的 UniGene 是得到同
源性信息的匹配和功能的注释,有小部分没有比
对出来,可能是一些功能未知的基因,或许这些
未被注释的基因在往后的探索中能有很大的功
能。
表 2 UniGene 的功能注释
Table 2 Function annotation of UniGene
数据库 注释数 注释比例
Annotation in
Database
UniGene No. Percentage (%)
NR 17 811 22.20%
Swissprot 22 171 27.64%
KOG 13 448 16.76%
GO 30 926 38.55%
KEGG 26 162 32.61%
所有数据库 80 224 100%
In all database
1.3 GO、KOG 数据库的功能注释和分类
细胞组分、分子功能和生物学过程是 GO 功
能注释中主要的三大类(图 3) (张绍鹏等, 2015)。
结果显示,30 926 个 UniGene 有 626 090 个 GO
的注释,由于 1 个 UniGene 可能注释到多个 GO
term,在测序结果中,每个 UniGene 对应的每个
GO 信息作为一行,故有 626 090 行,并非有 626
090 个基因。在这 626 090 个注释中有 112 986
个是为细胞组分;337 452 注释为分子功能;175
981 注释为生物学过程,从转录组学中的 GO 注
释中可见分子功能在生物过程中的重要性。在总
UniGene 中,最主要的匹配功能组分是代谢过程
(metabolic process)、细胞过程(cellular process)、
结合功能(binding)和细胞组成。根据注释结果,
将得到的 13 448个UniGene进行KOG功能分类
预测,在 KOG 注释中(图 4),得到了 25 个分类,
其中翻译后修饰、蛋白质转换、伴侣蛋白信号(15)
所占的 UniGene 最多(2661),其次是信号转导机
制(20),为 2 164;再者是一般功能预测(18)为 2
164,细胞内运输、分泌和囊泡转运(21)为 1 382;
真核生物细胞外结构(23)和细胞运动(14)所占
UniGene 最少,分别是只有 31 和 7。因此,从
这些注释中,我们可以更好地探究与功能相关的
基因,从而为研究羽叶三七三萜皂苷含量提供重
要的线索。
4


图 3 UniGene 的 GO 注释和分类
Figure 3 GO annotation and classification of UniGene

图 4 UniGene 的 KOG 注释和分类
注: 1: RNA 加工和修饰; 2: 染色质结构和动力学; 3: 能
量产生和转换; 4: 细胞周期调控, 细胞分裂, 染色体分
配; 5: 氨基酸转运和代谢; 6: 核苷酸转运和代谢; 7: 糖
的转运和代谢; 8: 辅酶转运和代谢; 9: 脂类转运和代谢;
10: 翻译、核糖体结构和生源; 11: 转录; 12: DNA 复制,
重组和损伤修复; 13: 细胞壁/膜/被膜生源; 14: 细胞运
动; 15: 翻译后修饰, 蛋白质转换, 伴侣蛋白; 16: 无机
离子转运和代谢; 17: 次级代谢物生物合成, 转运和分
解代谢; 18: 一般功能预测; 19: 功能未知; 20: 信号转导
机制; 21: 细胞内运输, 分泌和囊泡转运; 22: 防御机制;
23: 真核生物细胞外结构; 24: 核结构; 25: 细胞骨架
Figure 4 KOG annotation and classification of UniGene
Note: 1: RNA processing and modification; 2: The
chromatin structure and dynamics; 3: Energy production
and conversion; 4: Cell cycle regulation, cell division and
chromosome distribution; 5: Amino acid transport and
metabolism; 6: Nucleotide transport and metabolism; 7:
Carbohydrate transport and metabolism; 8: Coenzyme
transport and metabolism; 9: Lipid transport and
metabolism; 10: Translation, the structure of the ribosome
and resource; 11: Transcription; 12: DNA replication,
recombination and injury repair; 13: The cell walls of
resource /membrane/capsule; 14: Cell movement; 15:
Post-translational modification, translation, protein
conversion, bridesmaid protein; 16: Inorganic ion transport
and metabolism; 17: The biosynthesis of secondary
metabolites, transshipment and catabolism; 18: General
function prediction; 19: The function is unknown; 20:
Signal transduction mechanism; 21: Intracellular transport,
secretion and vesicle transport; 22: Defense mechanism; 23:
The eukaryotic cells structure; 24: Nuclear structure; 25:
Cytoskeleton
1.4 KEGG 通路的注释和分类
KEGG Pathway 数据库主要与代谢通路相关
序列的注释中有 5 200 个 UniGene 注释。其中获
得注释最多的是与能自身能量相关途径的糖酵
解 /糖异生(glycolysis/gluconeogenesis)共有 450
个,约占 1.7%;而与三羧酸循环有关的注释,
共有 259 个,约占 0.99%,注释数量为第二位显
然,能量代谢途径是三大营养素(糖类, 脂类, 氨
基酸)的最终代谢通路,又是糖类、脂类、氨基
酸代谢联系的枢纽,因此 UniGene 相对较高。
丝氨酸和苏氨酸代谢途径有 233 个,占 0.89%,
磷酸戊糖途径共有 199 个,占 0.76%;与催化功
能相关的有 95 个,约占 0.35%。
5

1.5 三萜皂苷合成相关基因
三萜皂苷是通过异戊二烯途径 (isoprenoid
pathway)合成的 (图 5)。法尼基焦磷酸合酶
(Farnesyl Pyrophosphate Synthase, FPS),鲨烯合
酶(Squalene Synthase, SS),鲨烯环氧酶(Squalene
Epoxidase, SE)是植物三萜生物合成通路中的关
键酶(卢虹玉等, 2007),其活性决定三萜皂苷下
游的产物的含量。特别是鲨烯合酶,能催化两分
子的法尼基焦磷酸(Farnesyl Pyrophosphate, FPP)
缩合生成鲨烯(Squalene, SQ),在鲨烯环氧酶的
催化下,形成2,3-环氧角鲨烯(2,3-epoxysqualene),
是三萜、甾醇等萜烯类重要物质生物合成的共同
前体,形成三萜类活性物质的基本骨架(Jennings
et al., 1991)。三萜皂苷其特殊的生物活性和药理
作用备受人们的重视,所以羽叶三七的转录组信
息可以全面地获取这几个关键酶基因的注释,对
研究三萜皂苷生物合成有现实意义的突破。本次
测序中,发现与三萜皂苷骨架合成有关的基因有
26 个,其中与 FPS 有关的 UniGene 有 11 个,与
SS 有关的有 1 个,与 SE 有关的有 14 个,并对
这三个关键酶基因进行表达量的统计(表 3)。表
达量结果显示,相对于羽叶三七的根茎,FPS 在
根尖的表达量相对较高,但是 SS 和 SE 却在根
茎的表达量稍高。在差异表达分析中(表 4),羽
叶三七的根茎相对根尖上调的转录本所富集得
到的GO/KEGG类别的个数分别是 35和 13 (Q);
而下调的个数分别是 59 和 12 (Q)。

图 5 三萜合成通路的关键酶
Figure 5 The key enzymes in triterpenoid saponin synthesis
pathway
表 3 皂苷骨架合成和关键酶相关 UniGene
Table 3 UniGene related to saponin skeleton synthesis and key enzymes
名称 基因识别号 酶的代码 记数 根表达量 茎表达量
Name UniGene ID EC number Account number Root RPKM Stem RPKM
法尼基焦磷酸酶
Farnesyl Diphosphate
Synthase (FPS)
comp172721_c0_seq1_yuy 2.5.1.10 12 0.89 0.0033
comp148711_c0_seq3_yuy

13.14 9.94
comp143915_c0_seq5_yuy

5.90 3.96
comp155156_c0_seq35_yuy

12.57 10.82
comp158207_c0_seq9_yuy

18.34 16.41
comp161742_c1_seq2_yuy

20.30 22.70
comp113254_c0_seq1_yuy

0.76 2.67
comp96761_c0_seq1_yuy

0.76 2.69
comp168053_c1_seq2_yuy

6.05 45.75
comp177662_c0_seq1_yuy

0.82 0
comp174945_c0_seq1_yuy

0.93 0
comp168053_c1_seq2_yuy

6.05 45.75
鲨烯合酶
Squalene Synthase (SS)
comp147611_c1_seq10_yuy EC:2.5.1.21 1 20.11 23.61
鲨烯环氧酶
Squalene Epoxidase (SE)
comp149567_c0_seq5_yuy EC:1.14.13.132 14 0.76 2.69
comp162529_c1_seq3_yuy

2.31 4.00
comp153984_c0_seq7_yuy

2.47 1.82
comp158217_c0_seq4_yuy

3.99 5.25
comp81556_c0_seq1_yuy

0.17 0.22
comp104392_c0_seq1_yuy

0.23 0.20
comp195863_c0_seq1_yuy

0.26 0.19
6

comp7401_c0_seq1_yuy

0.14 0.42
comp158217_c0_seq4_yuy

3.99 5.25
comp104392_c0_seq1_yuy

0.23 0.20
comp195863_c0_seq1_yuy

0.26 0.19
comp148261_c0_seq2_yuy

3.74 3.2
comp151220_c0_seq3_yuy

3.97 3.39
comp156418_c0_seq6_yuy

2.06 3.91
表 4 羽叶三七根茎 UniGene 的差异表达
Table 4 UniGene differentially expressed in Rhizomes of Panax pseudo-ginseng
类型 名字 测试项目
Type Name Tested term P<0.05 P<0.01 Q<0.05 Q<0.01
GO 根 vs 茎上调 (Root vs Stem up) 503 265 189 44 35
根 vs 茎下调 (Root vs Stem up) 674 393 274 72 59
KEGG 根 vs 茎上调 (Root vs Stem up) 138 31 23 14 13
根 vs 茎下调 (Root vs Stem up) 203 47 32 14 12
注: P 指 P value, Q 指 Q value. P 表示对 P 值和矫正后的 P 值(即 Q 值)进行统计
Note: P: P value, Q: Q value. P means Carries on the statistics after the correction of P values and P values (Q)
2 讨论
羽叶三七,竹节参的适应变种,其主要成分
以含齐墩果烷型的五环三萜皂苷为主,与人参、
西洋参等名贵药材的有效成分相似。本研究首次
提供了羽叶三七植物的转录组数据,获得了三萜
皂苷生物合成相关的关键酶基因的注释,为研究
羽叶三七的有效开发和利用提供了重要的理论
基础。在这项研究中,我们获得了羽叶三七根茎
的转录组学信息,显示出较高的技术效率,分析
了单基因表达及注释,完成了 UniGene 的蛋白
功能注释、KOG 功能注释、GO 分类和 KEGG
代谢通路分析等,通过 denovo 拼接注释得到
UniGene 62 240 个。研究发现,羽叶三七根茎部
表达的 26个 UniGene 与三萜碳环骨架合成相关。
在 GO 注释和分类中,分子功能注释最多,最主
要的匹配功能组分是代谢过程;在 KOG 注释和
分类中,翻译后修饰、蛋白质转换、伴娘蛋白信
号、信号转导机制、一般功能预测等的分类在整
个注释中所占大部分的比例。因此,从这两个分
类注释中我们获得的注释填补了羽叶三七在化
合物代谢,相关代谢通路中的分子基础的信息空
白。根据 KEGG 数据库对 Unigege 进行代谢途
径分析,涉及多个具体的代谢途径分支,参与到
羽叶三七碳水化合物代谢、脂类代谢、次生物质
代谢等过程中,为进一步提供与生长发育及次生
代谢过程中的重要表达基因以及为后期开展羽
叶三七三萜合成通路中关键酶 FPS、SS、SE 的
基因克隆、适应性进化(钱洁颖等, 2016)、定点
突变研究及功能验证等研究提供了基础数据。
目前,对植物细胞工程技术的研究有较多报
道,期望改善三萜皂苷基因表达的调控(Kim et
al., 2011)。例如人参鲨烯合酶 (Panax ginseng
squalene synthase, PGSS)的过表达可诱导合成途
径下游合酶的表达,如 SE 和其他基因的表达增
加,从而通过增强 PgSS 酶活性可显著增加植物
甾醇以及人参皂苷含量(Lee et al., 2004);而抑制
人参鲨烯合酶的表达则可降低其三萜皂苷的生
成量。上述研究证明 SS 是三萜皂苷合成途径的
关键酶,推测增加 SS 酶活性可能对提高三萜皂
苷的产量有重要的意义。因此,本研究转录组学
提供的信息,对 SS 基因的有关注释相对少,表
达量在羽叶三七中相对低,可能影响了下游产物
的含量,从而导致其有效成分含量低下.因此,
我们后期可否对羽叶三七的 SS 基因进行克隆、
诱导突变、功能验证,从而提高羽叶三七中三萜
皂苷的含量呢?
3 材料与方法
3.1 样品采集和准备
用于测序的羽叶三七种植于湖北恩施华中
药用植物园。在 2015 年 7 月,我们对收获的羽
叶三七进行标识。根尖和茎分别收集和清洗,除
去尘土等杂质,每个组织的生物学重复为三次。
7

最后,将样品保存在冷冻管并在浸没立即液氮中。
用于 RNA 的提取。利用 Takara 公司的 RANiso
Plus 试剂盒提取根茎的总 RNA,构建测序文库,
使用 Illumina HiSeq TM 2000 进行测序。
3.2 Illumina 测序
转录组测序采用第二代测序(NGS)基于测
序的测序平台技术 Illumina HiSeq TM 2000。首
先,mRNA 的裂解成后的小片段与化学试剂和
高温处理。接着,使用的一段来构建一个由配对
末端测序的 cDNA 文库(PE)的读取。测序数据包
含一些带接头、低质量的 reads,这些序列会对
后续的信息分析造成很大的干扰,为了保证后续
信息分析质量,需要对测序数据进行进一步过滤。
3.3 转录本拼装
使用针对转录组拼接的 Trinity (版本
r20140717, k-mer 25 bp)软件对高质量序列进行
拼接(Haas et al., 2013),基于 DBG (De Bruijn
Graph)拼接原理。首先利用高质量序列构建
k-mer 长度的短序列库,然后通过短序列间
k-mer-1 长度的 overlap 将短序列进行延伸,得到
初步拼接的 Contig 序列。通过 Contig 序列间的
overlap 将其聚类,对每一个聚类构建 De Bruijn
Graph,再根据 De Bruijn Graph 每一个分支的
reads支持情况,还原出 transcript (转录本)序列。
拼接完成后,可获得 Contig 和 UniGene 两个以
FASTA 格式存储的序列文件。Contig 序列文件
为 Trinity 初步拼接结果,UniGene 序列文件为
最终生成的转录本序列。
3.4 UniGene 聚类
将 Trinity 拼接得到的每一条 transcript 与参
考蛋白质数据库(NR 库)进行 BLAST (version
2.2.30+)比对(Altschul et al., 1990),保留最优比
对结果。将比对至相同 gi 号的 transcript 归为同
一 UniGene,挑选最长一条序列作为 UniGene
的代表序列,对得到的 UniGene 进行统计。
3.5 UniGene 功能注释
对聚类得到的 UniGene 进行基因功能注释,
基因功能注所用到的数据库包括 NR (NCBI
non-redundant proteinsequences) 、 GO (Gene
Ontology)、KOG (Clusters of Orthologous Groups
of proteins, 真核生物的一般称为 KOG 数据库)、
KEGG (Kyoto Encyclopedia of Genes and
Genome)、Swiss-Prot。NR 是 NCBI 收集的非冗
余蛋白质序列数据库,包含 GenBank CDS 翻译
的蛋白质、RefSeq、PDB、Swiss-Prot、PIR、PRF
中的所有序列。GO 的产生主要是为了解决同一
基因在不同数据库定义的混乱性以及不同物种
的同一基因在功能定义上的混乱性。主要描述的
是分子功能细胞位置、生物学过程三大类。KOG
数据为真核生物同源蛋白簇,能分析其保守位点
进而分析蛋白之间的进化关系。KEGG 是基因组
破译方面的数据库。其中 KO (KEGG Ortholog)
注释,即将分子网络的相关信息进行跨物种注
KEGG Pathway 注释,即代谢通路注释,获得物
种内分子间相互作用和反应的网络。
3.6 UniGene 表达量计算
采用 bowtie2 (2.2.4, 默认参数)将高质量序
列比对到 UniGene 上(Langmead et al., 2009),得
到每个样品比对到每个UniGene的 read count值。
为了使样品内以及样品间基因的表达量能够相
互比较,必须对 UniGene 的 read count 进行标准
化(normalization)。RPKM (Reads Per Kilo bases
per Million reads)是研究某个基因在某个部位表
达量的标准化的统计方法。
作者贡献
黄勋是本研究的实验设计和实验研究的执
行人和论文的撰写人;金健参与样本采集,数据
分析及处理;余洁和韩喆负责生物信息学数据库
的分析;闫祺负责软件的辅助分析;陈平是项目
负责人,指导实验设计和数据分析及论文写作与
修改。
致谢
本研究由国家自然科学基金(No.81274023)
资助。
参考文献
Ansorge W.J., 2009, Next-generation DNA sequencing
techniques, N Biotechnol, 25(4): 195-203
Altschul S.F., Gish W., Miller W., and Myers E.W., Lipman
D.J., 1990, Basic local alignment search tool, Journal
of molecular biology, 215(3): 403-410
Chen S.L., Lo H. M., Li Y., 2011, 454 EST analysis detects
genes putatively involved in ginsenoside biosynthesis
8

in Panax ginseng, Plant Cell Rep, 30(9): 1593-601
Chen S.L., Zhu X.X., and Li C.F., 2012, Genomics and
synthetic biology of traditional Chinese medicine,
Acta Pharmaceutica Sinica, 47(8): 1070 (陈士林, 朱
孝轩,李春芳, 2012,中药基因组学与合成生物学,
药学学报, 47(8): 1070)
Haas B.J., Papanicolaou A., Yassour M., Grabherr M.,
Blood P.D., Bowden J., Couger M.B., Eccles D., Li
B., and Lieber M., 2013, De novo transcript sequence
reconstruction from RNA-seq using the Trinity
platform for reference generation and analysis,
Nature protocols, 8(8): 1494-1512
Jennings S.M., Tsay Y.H., Fisch T.M., and Robinson G.W.,
1991, Molecular cloning and characterization of the
yeast gene for squalene synthetase, Proc Natl Acad
Sci USA, 88(14): 6038-6042
Kim T.D., Han J.Y., Huh G.H., and Choi Y.E., 2011,
Expression and functional characterization of three
squalene synthase genes associated with saponin
biosynthesis in Panax ginseng, Plant Cell Physiol,
52(1): 125-137
Li H., Handsaker B., Wysoker A., Fennell T., Ruan J.,
Homer N., Marth G., Abecasis G., Durbin R., 2009,
The Sequence Alignment/Map format and SAMtools,
Bioinformatics, 25(16): 2078-2079
Li Y., Luo H. M., and Sun C., 2010, EST analysis reveals
putative genes involved in glycyrrhizin biosynthesis,
BMC Genomics, 11: 268
Luo H M, Sun C, and Song J Y, 2011, Analysis of the
transcriptome of Panax notoginseng root uncovers
putative triterpene saponin-biosynthetic genes and
genetic markers, BMC Genomics, 12(Suppl 5): S5
Lee M.H., Jeong J.H., Seo J.W., Shin C.G., Kim Y.S., In
J.G., Yang D.C., Yi J.S., and Choi Y.E., 2004,
Enhanced triterpene and phytosterol biosynthesis in
Panax ginseng overexpressing squalene synthase
gene, Plant Cell Physiol, 45(8): 976-984
Li Y., Zhao Y.Y., and Yu H.P., 2010, The Chinese
pharmacopoeia, Medical technology publisher, China,
Beijing, pp. 254 (李燕, 赵燕宜, 于海平, 2010, 中
国药典, 医药科技版社, 中国, 北京, pp. 254)
Li Q.Y., Zhao H., and Yue S.J., 1993, Analgesic and
sedative effects of Dayezhuzishen, West China
Journal of Pharmaceutical Sciences, 8(2): 90-92 (李
巧云, 赵恒, 岳松健, 1993, 大叶珠子参总皂苷的
镇痛镇静作用研究, 华西药学杂志, 8(2): 90-92)
Lian J., Zhang X.C., and Gu J.T., 2015, Advance in
Transcriptomics and Its Application in Olericulture
Research, Chinese Agricultural Science Bulletin,
31(8): 118-122 (廉洁, 张喜春, 谷建田, 2015, 转录
组学及其在蔬菜学上应用研究进展, 中国农学通
报, 31(8): 118-122)
Lu H.Y., Liu J.M., Yang W.L., and Gao S.L., 2007,
Isolation of Squalene Synthase Genes of Glycyrrhiza
Uralensis and Construction of Plant Expression
Vector, Pharm aceutical Biotechnology, 14(4):
255-258 (卢虹玉, 刘敬梅, 阳文龙, 高山林, 2007,
甘草鲨烯合成酶基因的分离及植物表达载体的构
建, 药物生物技术, 14(4): 255-258)
Martin M., 2011, Cutadapt removes adapter sequences
from high-throughput sequencing reads, EMBnet,
17(1): 10-12
Ma S.J., An C., Xue W.J., and Shangguan Y.Q., 2016, Deep
Sequencing-based Transcriptome Analysis of
Aureobasidium pullulans, Genomics and Applied
Biology, 4(35): 931-941 (马赛箭, 安超, 薛文娇,
上官亦卿, 2016, 基于高通量测序的出芽短梗霉转
录组学研究 , 基因组学与应用生物学 , 4(35):
931-941)
Qian J.Y., Ma C.T., Chao N.X., Chen Q.C., Lan X.W., Sun
J., and Wu S.Y., 2016, Cloning and Positive Selection
Analysis of Squalene Synthase Gene ORF in Green
Momordica charantia, Genomics and Applied
Biology, 8(36): 1-11 (钱洁颖, 马成通, 晁耐霞, 陈
奇聪, 蓝秀万, 孙健, 吴耀生, 2016, 青皮苦瓜鲨烯
合酶基因 ORF 序列的克隆和正选择分析, 基因组
学与应用生物学, 8(36): 1-11)
Sun C., Li Y., and Wu Q., 2010, De novo sequencing and
analysis of the American ginseng root transcriptome
using a GSFLX Titanium platform to discover
putative genes involved in ginsenoside biosynthesis,
BMC Genomics, 11: 262
Wang D.Q., 1988, Saponins of the rhizome of Panax
Japonicus var. bipinnatifidus and its significant of
chemotaxonmy, Acta Botallica Yunnanica, 10(1):
120-204 (王答祺, 1988, 羽叶三七根茎的三萜皂苷
成分及其化学分类学意义, 云南植物研究, 10 (1):
120-204)
Yang X., Jiao R., Yang L., Wu L.P., Li Y.R., and Wang J.,
2011, New-generation high-throughput technologies
9

based ‘omics’ research strategy in human disease,
HEREDITAS, 33(8): 829-846 (杨旭, 焦睿, 杨琳,
吴莉萍, 李英睿, 王俊, 2011, 基于新一代高通量
技术的人类疾病组学研究策略 , 遗传 , 33(8):
829-846)
Zhao Y., Zhao R., Shan X.X., Yang J.W., Xu S.Z., and Wen
G.Z., 2012, Analysis of Botanical Characters and
Growth Dynamic in Panax Japonicus, Journal of
Yunnan University of Traditional Chinese Medicine,
2(35):24-27 (赵毅, 赵仁, 山学祥, 杨杰武, 徐绍忠,
文国松, 2012, 羽叶三七植物性状及生长动态分析,
云南中医学院学报, 2(35): 24-27)
Zhao R., Zhao Y., and Li D.M., 2008, The research
progress of Panaxa Ponicus C. A. Mey.varmajor
(Burk.) C.Y. Wuet K. M. Feng, Modem Chinees
Medie, 10(10):3-6 (赵仁, 赵毅, 李东明, 2008, 珠
子参研究进展, 中国现代中药, 10(10): 3-6)
Zhang S.P., Jin J., Hu B.X., Wu Y.Y., Yan Q., Zeng W.Y.,
Zheng Y.L., Zhang X.F., and Chen P., 2015,
Transcriptome profiling and analysis of Panax
japonicus var. major, China Journal of Chinese
Materia Medica, 11(40): 2084-2089 (张绍鹏, 金健,
胡炳雄, 吴亚运, 闫祺, 曾万勇, 郑用琏, 张西峰,
陈平, 2015, 珍稀药用植物珠子参的转录组测序及
分析, 中国中药杂志, 11(40): 2084-2089)
Zhang Z.Q., Shan X.X., Li D. M., Wang J., Zhao Y., and
Zhao R., 2011, The research of standardized
cultivation biology for Panax japonicus C.A.M eyer.
var major (Burk.) C.Y.Wu et K.M.F rng and P anax
japonicus Meyer.var.bi pinnati fidus (Seem.) C.Y.Wu
et K. M. Feng, Yunnan Journal of Traditional Chinese
Medicine and Materia Medica, 9(32): 34-36 (张志清,
山学祥, 李东明, 王俊, 赵毅, 赵仁, 2011, 珠子参、
羽叶三七规范化栽培生物学研究, 云南中医中药
杂志, 9(32): 34-36)