免费文献传递   相关文献

东亚特有珍稀蕨类植物岩穴蕨(碗蕨科)高通量转录组测序及分析



全 文 :生物多样性 2016, 24 (12): 1325–1334 doi: 10.17520/biods.2016231
Biodiversity Science http: //www.biodiversity-science.net

——————————————————
收稿日期: 2016-08-23; 接受日期: 2016-11-09
基金项目: 上海市绿化和市容管理局科学技术项目(G142433)和中国科学院战略生物资源科技支撑体系运行专项(ZSZY-001)
 通讯作者 Author for correspondence. E-mail: shenhui@sibs.ac.cn
东亚特有珍稀蕨类植物岩穴蕨(碗蕨科)高通量
转录组测序及分析
刘 莉1,3 舒江平1,3 韦宏金1 张 锐1 沈 慧1* 严岳鸿1,2
1 (上海辰山植物园, 中国科学院上海辰山植物科学研究中心, 上海 201602)
2 (华东野生濒危资源植物保育中心, 上海 201602)
3 (上海师范大学生命与环境科学学院, 上海 200234)
摘要: 岩穴蕨(Monachosorum maximowiczii)隶属于碗蕨科稀子蕨属, 是东亚中高海拔地区所特有的珍稀濒危植物。
为了在分子水平对该物种有进一步的认识, 本文首次利用二代高通量测序技术(RNA-seq)对岩穴蕨进行了转录组
测序分析。通过Illumina Hiseq 2500测序平台, 共计获得4.95 Gb原始数据(raw data), 经过滤后得到4.83 Gb有效数据
(clean reads), 并进行从头组装得到了101,448条unigene。其中, 54,106条unigene预测到完整的开放阅读框。我们利
用目前已知的51个植物基因组数据, 对岩穴蕨的unigene进行了详尽的功能注释, 并通过GO、COG、KEGG注释进
一步了解了这些编码基因的作用方式、特征以及所参与的代谢通路。同时, 转录因子分析结果也为岩穴蕨的环境
适应机制研究提供了初步线索。
关键词: 蕨类植物; 转录组学; 高通量测序; 生物多样性; 适应性
De novo transcriptome analysis of the rare fern Monachosorum maxi-
mowiczii (Dennstaedtiaceae) endemic to East Asia
Li Liu1,3, Jiangping Shu1,3, Hongjin Wei1, Rui Zhang1, Hui Shen1*, Yuehong Yan1,2
1 Shanghai Chenshan Botanical Garden, Shanghai Chenshan Plant Science Research Center, Chinese Academy of Sci-
ences, Shanghai 201602
2 National Conservation Center for Endangered Useful Plants in East China, Shanghai 201602
3 College of Life and Environmental Sciences, Shanghai Normal University, Shanghai 200234
Abstract: Monachosorum maximowiczii, which belongs to the family Dennstaedtiaceae, is a unique fern
rarely distributed in the middle-high altitudinal areas in East Asia. In order to identify the molecular basis of
this species at the transcriptome level, a second generation sequencing technology (RNA-seq) was employed
here for the first time. Using Illumina Hiseq 2500 platform, a total of 4.95 Gb raw data were obtained. After
filtration, 4.83 Gb clean reads were kept and 101,448 unigene were generated using de novo assembly.
Among them, 54,106 unigene were predicted to have a complete open reading frame. The functional annota-
tion of the unigene obtained here was carried out using the Phytozome v11.0 databases. The gene function pat-
tern and participated pathway were further explored based on GO, COG and KEGG annotation. Meanwhile,
transcription factors prediction and analysis will provide preliminary insights into mechanisms of Monacho-
sorum maximowiczii for environmental adaptation.
Key words: ferns; transcriptomics; high-throughput sequencing; biodiversity; adaptation
蕨类植物是一类不开花的、借助孢子繁殖的维
管植物。全球现存蕨类植物约一万余种, 多分布于
中低海拔的热带亚热带地区(Christenhusz & Byng,
2016)。岩穴蕨(Monachosorum maximowiczii)原属稀
子蕨科岩穴蕨属(Ptilopteris) (秦仁昌, 1978), 后被
归入碗蕨科稀子蕨属(Monachosorum) (Wu et al,
·数据论文·
1326 生 物 多 样 性 Biodiversity Science 第 24卷
2013)。该种数量稀少, 仅分布于中国东部至日本一
带, 是东亚特有种(附录1) (Wu et al, 2013; Li et al,
2015)。与大部分喜好温暖湿润环境的蕨类植物不
同 , 岩穴蕨多生长在气候寒冷的中高海拔
(800–2,500 m)地区(Wu et al, 2013), 该区域年平均
气温最低可达–15℃ (祁承经等, 1994), 生长环境十
分独特。因此, 对蕨类植物低温环境的适应性机制
研究而言, 岩穴蕨是难得的理想材料。
近年来, 随着高通量测序技术的不断发展, 转
录组测序技术(RNA-seq)已成为对非模式植物进行
分子生物学研究的有效手段(魏利斌等, 2012; 杨楠
等, 2012; 朱帅旗等, 2015)。该技术通过对某物种的
特定组织在某一时空状态下的转录本进行大规模
测序, 并利用生物信息学手段进行拼接组装, 能够
快速地获得该物种特定组织在该时空条件下几乎
所有的转录本序列, 具有成本低、数据量大、效率
高、准确性高等优点(Wang et al, 2009; Costa et al,
2010)。利用这些序列信息可以对重要的功能基因进
行挖掘, 从代谢通路、分子机制等方面对植物的生
物学特性进行深入的研究(Franssen et al, 2011; Wu
et al, 2014; Yang et al, 2015; Zhou et al, 2016)。
对于缺乏基因组信息的蕨类植物而言, 转录组
测序技术的发展为我们进一步研究蕨类植物提供
了新机遇。目前, 已发表转录组数据的蕨类植物主
要有: 欧洲蕨(Pteridium aquilinum)、水蕨(Cerato-
pteris richardii)、鸟巢蕨(Asplenium nidus)、海金沙
(Lygodium japonicum)、巨木贼 (Equisetum gigan-
teum)等(表1) (Der et al, 2011; Bushart et al, 2013; 贾
新平等, 2014; Aya et al, 2015; Vanneste et al, 2015)。
2011年, Der等利用Roche 454平台对欧洲蕨的配子
体进行转录组测序, 这是人们首次利用二代测序技
术对蕨类植物进行研究(Der et al, 2011)。但是到目
前为止, 利用二代测序技术对蕨类植物的环境适应
机制研究还未见报道。
本研究利用RNA-seq技术对岩穴蕨的转录组进
行测序分析, 拼接组装获得了大量的转录本序列信
息。通过进一步的功能注释、功能分类、代谢途径
注释等生物信息学分析, 对这些基因的功能、特性、
作用方式进行了研究, 并针对岩穴蕨的环境适应性
进行了重点分析。希望可为从分子水平开展蕨类植
物生物多样性研究提供数据支持, 并为蕨类植物的
环境适应研究奠定基础。
1 材料与方法
1.1 转录组测序
转录组测序样品取自湖南省张家界市八大公
山(29°4124 N, 109°4912 E)岩穴蕨植株的营养叶
和孢子叶, 取样后迅速将样品放到液氮中冷冻。利
用TRIzol® Reagent试剂 (Invitrogen, 上海 )提取总
RNA, 然后利用Plant RNA Purification Reagent试剂
(Invitrogen, 上海)对提取的总RNA进行纯化, 之后
用Agilent 2100检测RNA提取质量。利用带有Oligo
dT的磁力架(Invitrogen, 上海)与ployA进行A-T碱基
配对, 从总RNA中分离出mRNA。利用金属离子将
获得的mRNA随机断裂成200 bp左右的小片段。以
这些小片段mRNA为模板, 用随机引物合成第一条
cDNA链, 然后加入缓冲液、dNTPs、RNase H和DNA
polymerase I合成第二条cDNA链。对双链cDNA进
行加工修饰 , 末端加poly(A)并连接上测序接头
adaptor, 得到完整的cDNA。利用PCR进行cDNA扩
增 , 构建测序文库 , 用 Illumina HiSeq 2500进行
测序。
1.2 序列组装
利用Illumina双末端测序(paired-end, PE)方法


表1 已发表的5个蕨类植物转录组测序及组装信息
Table 1 Sequencing and assembly information of five published ferns transcriptomes
物种名
Species
测序部位
Description
测序平台
Platform
数据总量
Total size
(Mb)
单基因簇或转录本
数目 No. of unigene
or transcript
文献
References
欧洲蕨 Pteridium aquilinum 配子体 Gametophyte Roche 454 254 56,256 Der et al, 2011
水蕨 Ceratopteris richardii 孢子 Spore Roche 454 266 15,730 Bushart et al, 2013
鸟巢蕨 Asplenium nidus 叶片 Leaf Illumina HiSeq 2000 5,910 42,907 贾新平等, 2014
海金沙 Lygodium japonicum 原叶体、营养叶、孢子体、根状茎 Pro-
thalli, trophophylls, sporophylls, rhizomes
Roche 454
Illumina HiSeq 2000
28
268
18,999
381,814
Aya et al, 2015
巨木贼 Equisetum giganteum 茎、叶、孢子囊 Stem, leaf, strobili Illumina RNA-Seq 8,800 34,282 Vanneste et al, 2015

第 12期 刘莉等: 东亚特有珍稀蕨类植物岩穴蕨(碗蕨科)高通量转录组测序及分析 1327
进行高通量测序, 得到的原始图像数据经过Base
Calling转化为序列数据, 即原始序列读取片段(raw
reads), 以FASTQ格式储存。对原始序列进行质量评
估和可信度分析, 并去除制备文库时产生的接头序
列、两端低质量序列(Q < 20 bp)、含N > 10%的序列
以及修剪后长度< 20 bp的序列 , 得到有效数据
(clean data)。利用Trinity (http://trinityrnaseq.source-
forge.net/, 版本号 trinityrnaseq-r2013-02-25)对所有
有效数据进行从头组装。由于Trinity组装结果中含
有大量的冗余序列, 利用Cd-hit去除重复序列, 得
到unigene序列。
1.3 ORF预测
利用Trinity中的transcoder工具对unigene进行
开放阅读框架(open reading frame, ORF)预测, 得到
序列中最佳的ORF区域 , 使用pfam (http://pfam.
xfam.org/)数据库对预测结果进行校正, 将比对结
果保留到pfam数据库的蛋白序列中。
1.4 功能注释、分类及代谢途径分析
采用序列比对方法对unigene进行序列相似性
分析。我们首先利用blast 2.2.24+将所有unigene比对
到Nr数据库(E value ≤ 1e–5)进行功能注释; 同时从
Phytozome v11.0 (https://phytozome.jgi.doe.gov/pz/
portal.html/)下载了51个植物基因组数据(物种信息
见附录2), 将其作为本地blast数据库, 利用blastx (E
value ≤ 1e–5)将所有unigene比对到该数据库, 获得
unigene的详细注释信息。GO (gene ontology)是一个
标准化的国际基因功能分类数据库, 可以全面描述
不同生物体中基因的生物学特征(张贤等, 2015)。使
用blast2go (http://www.blast2go.com/ b2ghome)软件
和WEGO软件将比对到本地数据库中的unigene分
别进行GO功能注释及分类统计。然后根据注释信
息进行COG (clusters of orthologous groups of pro-
teins)功能分类。运用blast算法(blastx/blastp 2.2.24+)
将unigene与KEGG (Kyoto Encyclopedia of Genes
and Genomes)的基因数据库(GENES) (http://www.
genome.jp/kegg/genes.html/)进行比对, 根据比对得
到的KO编号去查找具体的生物学通路, 进行代谢
途径分析。
1.5 转录因子预测
将预测得到ORF的蛋白序列比对到PlantTFDB
v3.0中拟南芥(Arabidopsis thaliana)的转录因子库中
(http://planttfdb.cbi.pku.edu.cn/prediction.php/), 进行
转录因子的预测。
2 结果
2.1 转录组数据的组装
采用Illumina HiSeq 2500高通量测序平台对岩
穴蕨进行转录组测序, 得到4.95 Gb原始数据(raw
data), 包含49,027,722条原始序列读取片段。原始数
据已上传至NCBI的SRA数据库(SAMN03575883)。
Q20、Q30分别达到96.54%和91.54%, GC含量为
47.82%。为了保证后续生物信息分析的准确性, 对
原始数据进行过滤去杂, 获得了4.83 Gb有效数据,
包含48,497,004条待分析的序列读取片段 (clean
reads)。Q20、Q30分别达到98.61%和93.58%, GC含
量为47.71% (表2)。
对有效数据进行de novo拼接组装 , 共得到
107,197个转录本。转录本总长度达到102,393,559
bp, 平均长度955 bp。其中长度大于400 bp的转录本
有56,806条, 占所有转录本的47.61%; 大于1 kb的
转录本有32,534条, 占30.35%。去除冗余序列后得
到101,448条unigene, 总长度达到91,256,432 bp, 其
长度分布见图1。最长为14,804 bp, 最短为201 bp,
平均长度900 bp, N50为1,817 bp (表3)。其中, 长度
大于400 bp的unigene有51,563条, 占所有unigene的
50.83%; 大于1 kb的有28,463条, 占28.06%。
2.2 ORF预测
在 101,448条 unigene中 , 共预测到 54,106条
ORF, 占总unigene的53.33%。其平均长度为787.9
bp, 最短为150 bp, 最长为14,016 bp (附录3)。其中,
有47,342条unigene未预测到ORF, 占总unigene的
46.67%。
2.3 功能注释、分类及代谢途径分析
为了预测岩穴蕨编码基因的生物学功能, 我们
将unigene分别比对到Nr和本地化数据库进行功能

表2 岩穴蕨转录组测序及质控结果统计
Table 2 The results and qualities of sequencing for Mona-
chosorum maximowiczii transcriptome
原始数据
Raw data
有效数据
Clean data
序列数目 Number of sequences 49,027,722 48,497,004
全长 Total length (Gb) 4.95 4.83
Q20值 Q20% 96.54% 98.61%
Q30值 Q30% 91.54% 93.58%
GC值 GC% 47.82% 47.71%
1328 生 物 多 样 性 Biodiversity Science 第 24卷

图1 unigene的长度分布图
Fig. 1 Length distribution of the unigene

表3 岩穴蕨转录组de novo组装结果统计
Table 3 Summary of de novo assembly analysis for Mona-
chosorum maximowiczii transcriptome
转录本 Transcript
单基因簇
Unigene
序列数目 Sequence number 107,197 101,448
平均长度 Mean length (bp) 955 900
最大长度 Max. length (bp) 14,804 14,804
最小长度 Min. length (bp) 201 201
N50值 N50 1,907 1,817
GC含量 GC content 0.44 0.44

注释, 并将比对到本地数据库的unigene分别进行
GO、COG、KEGG功能分类。
对101,448条unigene比对结果进行统计 , 有
30,607条比对到Nr数据库 ; 38,007条比对到本地
blast数据库。对38,007条unigene注释结果进行统计,
有18,600条注释到GO数据库; 有12,113条注释到
COG数据库; 有11,368条注释到KEGG数据库。
2.3.1 GO分类
利用GO数据库对岩穴蕨的unigene进行功能注
释并分类, 18,600条unigene被分成细胞组分、分子功
能、生物学过程3个功能大类。平均每条unigene获
得3.51个GO注释(表4)。有31,428条unigene被归入
“生物学过程”功能大类: 其中参与代谢过程(9,458
个, 50.85%)和细胞过程(8,525个, 45.83%)的unigene
最多, 均在45%以上; 而生物粘附和细胞杀伤所占
比例最少 , 分别为0.01%和0.005%。有13,183条
unigene被归入“细胞组分”功能大类: 细胞和细胞部
分所占比例最高, 均为13.97% (2,598个), 其次为膜
结构(2,329个), 所占比例为12.52%, 而胞外基质、
胞外基质部分、病毒体及病毒体部分所涉及的
unigene极少。有20,644条unigene归入“分子功能”功
能大类: 其中, 结合活性和催化活性所占比例最高,
分别为51.97%和46.89%, 其余所占比例均在6%以
下(表4)。
2.3.2 COG分类
将unigene比对到COG数据库, 进行COG分类
统计及分析(表5)。结果表明, 共有12,113条unigene
根据其功能大致可分成25类。其中, 信号转导机制
类基因数量最多(1,933个, 15.96%), 其次是一般功
能预测类(1,380个, 11.39%), 翻译后修饰、蛋白质折
叠和分子伴侣类(1,209个, 9.98%); 而参与细胞运动
(2个, 0.02%)的基因数目最少。
2.3.3 KEGG分类
利用KEGG数据库中的通路数据库 (Pathway
databases)对unigene的功能进行分类和分析, 结果
见表6。共有11,368条unigene能够注释到128个
KEGG标准通路。根据功能可将这些通路分成代谢
途径、遗传信息加工过程、环境信息处理、生物系
统、细胞过程和人类疾病6大类。其中, 参与代谢途
径的unigene最多 (10,379条 , 占所有注释基因的
73.41%), 其次是遗传信息加工过程(2,551条, 所占
比例为18.04%)。
对通路的数据分析表明, 与代谢途径有关的通
路最多, 有96条, 占所有通路的75%。在该类别中参
与代谢通路的unigene最多(2,618条), 其次是碳水化
合物(1,511条)、氨基酸代谢(831条)和脂类物质代谢
(813条); 而与碳水化合物代谢、脂类物质代谢及氨
基酸代谢相关的通路数量最多, 分别是15条、14条、
14条(表6)。在128个KEGG标准通路中, 其中参与代
谢通路的unigene数量最多(2,618条), 其余依次为次
生代谢产物的生物合成(1,418条)、碳代谢(406条)、
氨基酸生物合成(330条)、剪接体(297条)等途径
(表7)。
2.4 转录因子预测
将预测到ORF的unigene进行转录因子预测, 共
预测到1,130个转录因子, 可分为55个转录因子大
家族。其中 , 最大的家族是bHLH (basic He-
l ix-Loop-Helix, 碱性-螺旋-环-螺旋) (151个 ,
13.36%), 其次是C3H (82个, 7.26%)、AP2/ERF (74
第 12期 刘莉等: 东亚特有珍稀蕨类植物岩穴蕨(碗蕨科)高通量转录组测序及分析 1329
表4 岩穴蕨unigene的GO功能类别
Table 4 GO-slim functional categories of the assembled unigene for Monachosorum maximowiczii
三大类 Three categories GO条目 GO term Unigene 数目 No. of unigene
生物过程调控 Regulation of biological process 1,368
细胞组织部分或生物合成 Cellular component organization or biogenesis 561
定位活性 Establishment of localization 1,559
免疫系统进程 Immune system process 9
单一的生物过程 Single-organism process 5,268
定位 Localization 1,576
细胞活动 Locomotion 8
生物粘附 Biological adhesion 2
刺激反应 Response to stimulus 994
细胞杀伤 Cell killing 1
繁殖进程 Reproductive process 24
生物调节 Biological regulation 1,448
代谢进程 Metabolic process 9,458
信号传导 Signaling 393
生长 Growth 16
细胞进程 Cellular process 8,525
发育进程 Developmental process 37
有机体进程 Multi-organism process 32
繁殖 Reproduction 12
生物过程的负调控 Negative regulation of biological process 48
多细胞进程 Multicellular organismal process 54
生物学过程
Biological process







生物过程的正调控 Positive regulation of biological process 35

细胞器部分 Organelle part 864
细胞 Cell 2,598
高分子复合物 Macromolecular complex 1,399
膜结构 Membrane 2,329
胞外区域 Extracellular region 21
膜部分 Membrane part 1,361
病毒体 Virion 1
膜关闭内腔 Membrane-enclosed lumen 150
细胞部分 Cell part 2,598
细胞器 Organelle 1,859
胞外基质部分 Extracellular region part 1
胞外基质 Extracellular matrix 1
细胞组分
Cellular component









病毒体部分 Virion part 1

结合蛋白转录活性 Protein binding transcription factor activity 60
鸟嘌呤核苷酸交换因子活性 Guanyl-nucleotide exchange factor activity 33
抗氧化活性 Antioxidant activity 114
受体活性 Receptor activity 105
结构分子活性 Structural molecule activity 294
分子转导活性 Molecular transducer activity 116
酶调节活性 Enzyme regulator activity 118
营养库活性 Nutrient reservoir activity 7
金属伴侣蛋白活性 Metallochaperone activity 4
催化活性 Catalytic activity 8,722
转运活性 Transporter activity 936
结合活性 Binding 9,666
电子载体活性 Electron carrier activity 119
分子功能
Molecular function







核苷酸结合转录因子活性 Nucleic acid binding transcription factor activity 350
1330 生 物 多 样 性 Biodiversity Science 第 24卷
表5 岩穴蕨unigene的COG分类
Table 5 Classification of the clusters of orthologous groups (COG) for Monachosorum maximowiczii
COG功能分类 COG function classifications Unigene数目
No. of unigene
百分比
Percentage (%)
RNA加工与修饰 RNA processing and modification 576 4.76
染色质结构和活力 Chromatin structure and dynamics 168 1.39
能量生成与转换 Energy production and conversion 475 3.92
细胞周期控制、细胞分裂、染色体分区 Cell cycle control, cell division, chromosome partitioning 288 2.38
氨基酸转运与代谢 Amino acid transport and metabolism 318 2.63
核苷酸转运与代谢 Nucleotide transport and metabolism 181 1.49
碳水化合物转运与代谢 Carbohydrate transport and metabolism 546 4.51
辅酶转运与代谢 Coenzyme transport and metabolism 154 1.27
脂类转运与代谢 Lipid transport and metabolism 424 3.50
翻译、核糖体结构和生物发生 Translation, ribosomal structure and biogenesis 562 4.64
转录 Transcription 669 5.52
复制、重组和修复 Replication, recombination and repair 403 3.33
细胞壁膜生物合成 Cell wall membrane biogenesis 66 0.54
细胞运动 Cell motility 2 0.02
翻译后修饰、蛋白质折叠、分子伴侣 Posttranslational modification, protein turnover, chaperones 1,209 9.98
无机离子转运与代谢 Inorganic ion transport and metabolism 315 2.60
次生代谢物合成、转运与代谢 Secondary metabolites biosynthesis, transport and catabolism 441 3.64
一般功能预测 General function prediction only 1,380 11.39
未知功能 Function unknown 932 7.69
信号转导机制 Signal transduction mechanisms 1,933 15.96
细胞内转运、分泌和小泡运输 Intracellular trafficking, secretion, and vesicular transport 610 5.04
防卫机制 Defense mechanisms 114 0.94
胞外结构 Extracellular structures 56 0.46
核结构 Nuclear structure 32 0.26
细胞骨架 Cytoskeleton 259 2.14


个, 6.55%)、bZIP (64个, 5.66%) (图2)。根据已有报
道, bHLH、AP2/ERF、WRKY、MYB、NAC等转录
因子可能与抗寒有关, 统计表明这些转录因子大约
有388个, 占整体转录因子的34.34%。
3 讨论
随着高通量测序技术的发展, 转录组测序技术
作为后基因组时代发展的产物, 已经广泛应用到各
个物种的生物学研究(贾昌路等, 2015)。本研究利用
Illumina高通量测序技术对岩穴蕨的叶片(营养叶和
孢子叶)进行转录组测序, 共获得原始数据4.95 Gb,
有效数据4.83 Gb, clean reads的Q20、Q30值都在
93%以上(表2)。通过de nove拼接组装及去冗余处理
后, 最终得到101,448条unigene, N50为1,817 bp (表
3)。以上结果表明此次转录组测序数据量和质量都
比较高, 为后续分析提供很好的基础。
在ORF预测中, 共有54,106 (53.33%)条unigene
预测到了ORF, 还有47,342 (46.67%)条unigene未预
测到ORF, 可见未预测到ORF的unigene所占的比例
较高。在本研究中, 我们首次利用陆生植物(包括藻
类植物)的基因组信息作为数据库, 对蕨类植物的
基因进行功能注释。与Nr数据库注释结果相比
(30,607条unigene), 陆生植物的基因组数据库注释
结果 (38,007条 unigene)较好 , 但仍有 62.54%的
unigene未得到注释信息。造成以上结果的原因可能
有: 目前蕨类植物还没有全基因组信息, 转录组方
面的研究也刚刚起步(Der et al, 2011; Bushart et al,
2013; Aya et al, 2015; Vanneste et al, 2015), 这就使
生物信息数据库中基因功能注释信息不全, 会导致
一些序列暂时无法获得对应的功能注释信息; 蕨类
植物作为陆地植物中比较原始的一个类群, 在其进
化过程中必定含有一些特有基因, 这也可能是导致
岩穴蕨同源序列较难发现的原因之一。随着研究的
深入, 可进一步将岩穴蕨的unigene与其他蕨类、苔
第 12期 刘莉等: 东亚特有珍稀蕨类植物岩穴蕨(碗蕨科)高通量转录组测序及分析 1331
表6 岩穴蕨unigene的KEGG注释结果及分类
Table 6 The KEGG classification and metabolism pathways for the annotated unigene for Monachosorum maximowiczii


表7 KEGG分类中unigene数量最多的10个代谢通路
Table 7 Top ten metabolism pathways involving unigene in KEGG
编码 ID 代谢通路名称 Pathway unigene数目 No. of unigene 百分比 Percentage (%)
ko01100 代谢通路 Metabolic pathways 2,618 23.03
ko01110 次生代谢产物的生物合成 Biosynthesis of secondary metabolites 1,418 12.47
ko01200 碳代谢 Carbon metabolism 406 3.57
ko01230 氨基酸生物合成 Biosynthesis of amino acids 330 2.90
ko03040 剪接体 Spliceosome 297 2.61
ko03010 核糖体 Ribosome 292 2.57
ko00500 淀粉与蔗糖代谢 Starch and sucrose metabolism 263 2.31
ko04075 植物激素信号转导 Plant hormone signal transduction 255 2.24
ko00230 嘌呤代谢 Purine metabolism 243 2.14
ko04141 内质网中的蛋白质加工 Protein processing in endoplasmic reticulum 230 2.02


藓、裸子植物、被子植物进行比较分析, 这将为植
物的系统进化研究提供重要的信息。
GO和COG的功能分类对初步了解基因功能有
重要作用, 而KEGG数据库中的参考通路不仅可以
推测基因功能, 而且可以研究基因在不同代谢通路
中的位置及作用。本研究通过GO功能分类的结果
可知, 参与代谢进程和结合活性的unigene数目最
多, 分别是9,458条和9,666条。通过KEGG数据库及
通路分析发现, 与代谢途径有关的unigene (10,379
条)和通路数量均最多(96条)。GO分类和KEGG分析
类别 Categories 通路
Pathways
Unigene数目
No. of unigene
通路数
No. of pathways
碳水化合物代谢 Carbohydrate metabolism 1,511 15
脂类物质代谢 Lipid metabolism 813 14
辅助因子和维生素代谢 Metabolism of cofactors and vita-
mins
371 11
能量代谢 Energy metabolism 477 6
核苷酸代谢 Nucleotide metabolism 446 2
氨基酸代谢 Amino acid metabolism 831 14
多酮类和萜类化合物的代谢 Metabolism of terpenoids and
polyketides
224 8
其他次生代谢产物的生物合成 Biosynthesis of other sec-
ondary metabolites
314 8

其他氨基酸代谢 Metabolism of other amino acids 270 5
多糖生物合成与代谢 Glycan biosynthesis and metabolism 166 7
代谢途径 Metabolism etabolism
全球与总体图 Global and overview maps
小计 Sub-total
4,956
10,379 (73.41%)
6
96 (75%)
折叠、分类和降解 Folding, sorting and degradation 769 7
翻译 Translation 876 5
转录 Transcription 413 3
遗传信息加工 Genetic information processing

复制与修复 Replication and repair
小计 Sub-total
493
2,551 (18.04%)
6
21 (16.41%)
环境信息处理 Environmental information
processing
信号转导 Signal transduction
膜运输 Membrane transport
小计 Sub-total
350
36
386 (2.73%)
2
1
3 (2.34%)
细胞过程 Cellular processes 运输与代谢 Transport and catabolism
小计 Sub-total
506
506 (3.58%)
4
4 (3.13%)
生物系统 Organismal systems 环境适应性 Environmental adaptation
小计 Sub-total
252
252 (1.78%)
2
2 (1.56%)
耐药性: 抗菌 Drug resistance: Antimicrobial 7 1 人类疾病 Human diseases
内分泌与代谢性疾病 Endocrine and metabolic diseases
小计 Sub-total
57
64 (0.45%)
1
2 (1.56%)
1332 生 物 多 样 性 Biodiversity Science 第 24卷


图2 岩穴蕨unigene的转录因子预测。将54,106个预测到ORF的unigene比对到拟南芥(Arabidopsis thaliana)的转录因子数据
库, 预测到1,130个转录因子。
Fig. 2 Number of Monachosorum maximowiczii unigene that were predicted as transcription factors. The 54,106 unigene which had
been predicted ORF were aligned to Arabidopsis thaliana in PlantTFDB v3.0, and 1,130 unigene were predicted as transcription
factors.


结果一致, 进一步说明岩穴蕨在生长过程中代谢活
动非常旺盛。通过COG功能分类可知, 参与信号转
导机制和一般功能预测的unigene最多 , 分别是
1,933条和1,380条。这可能与岩穴蕨的中高海拔分
布有关, 因为岩穴蕨受到低温胁迫后, 会诱导一些
与抗冷相关的基因表达, 从而提高其抗冷性。
转录因子是重要的上游调控蛋白, 在植物的生
物和非生物胁迫应答中发挥着重要作用(Li et al,
2015)。本研究对岩穴蕨进行转录因子预测的结果显
示, 岩穴蕨中bHLH类转录因子最多, 其次是C3H、
AP2/ERF、bZIP等转录因子。其中bHLH是一类参
与植物抗逆反应的转录因子, 在低温、干旱、盐等
非生物胁迫下发挥着极其重要的调节作用(Zhou et
al, 2009; Seo et al, 2011; Wang et al, 2011)。另外,
AP2/ERF、MYB、WRKY、NAC等转录因子在植物
的抗寒胁迫中均有重要作用 (Chinnusamy et al,
2003; 张丽丽等, 2008; 刘辉等, 2014)。对这些转录
因子进行统计, 大约有388个(34.34%)可能与抗冷
相关。这些转录因子很可能参与了岩穴蕨在低温环
境下诱导抗寒基因表达的关键信号途径, 这为进一
步开展岩穴蕨的环境适应性分子机制研究提供了
重要线索。
随着全球气候变暖、旅游开发等因素的影响,
一些特殊生境的珍稀物种的生存受到了严重威胁,
对此类物种进行研究具有重要生物学意义。本研究
选取东亚中高海拔地区所特有的珍稀物种——岩
穴蕨作为研究材料, 利用Illumina (HiSeq 2500)高通
量测序技术构建其转录组数据库, 获得了大量的转
录本序列信息, 并对其进行功能注释和分类、代谢
途径和转录因子等分析, 揭示了岩穴蕨在生长发育
过程中转录组的整体表达特征。这为深入研究岩穴
蕨的环境适应性机制、繁殖机制及基因工程育种等
第 12期 刘莉等: 东亚特有珍稀蕨类植物岩穴蕨(碗蕨科)高通量转录组测序及分析 1333
提供了分子基础和依据, 也可为珍稀濒危物种多样
性研究与保护提供更丰富的数据资源。同时, 该转
录组数据可作为蕨类植物基因组的参考序列, 促进
蕨类植物分子生物学发展。
参考文献
Aya K, Kobayashi M, Tanaka J, Ohyanagi H, Suzuki T, Yano
K, Takano T, Yano K, Matsuoka M (2015) De novo tran-
scriptome assembly of a fern, Lygodium japonicum, and a
web resource database, Ljtrans DB. Plant and Cell Physiol-
ogy, 56, e5.
Bushart TJ, Cannon AE, ul Haque A, San MP, Mostajeran K,
Clark GB, Porterfield DM, Roux SJ (2013) RNA-seq analy-
sis identifies potential modulators of gravity response in
spores of Ceratopteris (Parkeriaceae): evidence for modula-
tion by calcium pumps and apyrase activity. American
Journal of Botany, 100, 161–174.
Chinnusamy V, Ohta M, Kanrar S, Lee BH, Hong X, Agarwal
M, Zhu JK (2003) ICE1: a regulator of cold-induced tran-
scriptome and freezing tolerance in Arabidopsis. Genes De-
velopment, 17, 1043–1054.
Ching RC (1978) The Chinese fern families and genera: sys-
tematic arrangement and historical origin (cont.). Acta Phy-
totaxonomica Sinica, 16(4), 16–37. (in Chinese) [秦仁昌
(1978) 中国蕨类植物科属的系统排列和历史来源(续).
植物分类学报, 16(4), 16–37.]
Christenhusz MJM, Byng JW (2016) The number of known
plants species in the world and its annual increase. Phyto-
taxa, 261, 201–217.
Costa V, Angelini C, de Feis I, Ciccodicola A (2010) Uncov-
ering the complexity of transcriptomes with RNA-Seq. Bi-
oMed Research International, 2010, 853916.
Der JP, Barker MS, Wickett NJ, dePamphilis CW, Wolf PG
(2011) De novo characterization of the gametophyte tran-
scriptome in bracken fern, Pteridium aquilinum. BioMed
Central Genomics, 12, doi: 10.1186/1471-2164-12-99.
Franssen SU, Shrestha RP, Brautigam A, Bornberg BE, Weber
AP (2011) Comprehensive transcriptome analysis of the
highly complex Pisum sativum genome using next genera-
tion sequencing. BioMed Central Genomics, 12, doi:
10.1186/1471-2164-12-227.
Jia CL, Zhang Y, Zhu L, Zhang R (2015) Application progress
of transcriptome sequencing technology in biological se-
quencing. Molecular Plant Breeding, 13, 2388–2394. (in
Chinese with English abstract) [贾昌路, 张瑶, 朱玲, 张锐
(2015) 转录组测序技术在生物测序中的应用研究进展.
分子植物育种, 13, 2388–2394.]
Jia XP, Sun XB, Deng YM, Liang LJ, Ye XQ (2014) Sequenc-
ing and analysis of the transcriptome of Asplenium nidus.
Acta Horticulturae Sinica, 41, 2329–2341. (in Chinese with
English abstract) [贾新平, 孙晓波, 邓衍明, 梁丽建, 叶晓
青 (2014) 鸟巢蕨转录组高通量测序及分析. 园艺学报,
41, 2329–2341.]
Li H, Yao WJ, Fu Y, Li S, Guo QQ (2015) De novo assembly
and discovery of genes that are involved in drought toler-
ance in Tibetan Sophora moorcroftiana. PLoS ONE, 10,
e111054.
Liu H, Li DJ, Deng Z (2014) Advances in research of tran-
scriptional regulatory network in response to cold stress in
plants. Scientia Agricultura Sinica, 47, 3523–3533. (in Chi-
nese with English abstract) [刘辉, 李德军, 邓治 (2014)
植物应答低温胁迫的转录调控网络研究进展. 中国农业
科学, 47, 3523–3533.]
Qi CJ, Yu XL, Cao TR, Zhou JR (1994) Flora of Hunan
Badagongshan Mountains and its phytogeographical sig-
nificance. Acta Botanica Yunnanica, 16, 321–332. (in Chi-
nese with English abstract) [祁承经, 喻勋林, 曹铁如, 周
建仁 (1994) 湖南八大公山的植物区系及其在植物地理
学上的意义. 云南植物研究, 16, 321–332.]
Seo JS, Joo J, Kim MJ, Kim YK, Nahm BH, Song SI, Cheong
JJ, Lee JS, Kim JK, Choi YD (2011) OsbHLH148, a basic
helix-loop-helix protein, interacts with OsJAZ proteins in a
jasmonate signaling pathway leading to drought tolerance in
rice. The Plant Journal, 65, 907–921.
Vannesta K, Sterck L, Mybury AA, Peer YV, Mizrachi E
(2015) Horsetails are ancient polyploids: evidence from Eq-
uisetum giganteum. The Plant Cell, 27, 1567–1568.
Wang Y, Jiang CJ, Li YY, Wei CL, Deng WW (2011) CsICE1
and CsCBF1: two transcription factors involved in cold re-
sponses in Camellia sinensis. Plant Cell Reports, 31, 27–34.
Wang Z, Gerstein M, Snyder M (2009) RNA-Seq: a revolu-
tionary tool for transcriptomics. Nature Reviews Genetics,
10, 57–63.
Wei LB, Miao HM, Zhang HY (2012) Transcriptomic analysis
of sesame development. Scientia Agricultura Sinica, 45,
1246–1256. (in Chinese with English abstract) [魏利斌, 苗
红梅, 张海洋 (2012) 芝麻发育转录组分析. 中国农业科
学, 45, 1246–1256.]
Wu Y, Wei W, Pang XY, Wang XF, Zhang HL, Dong B, Xing
YP, Li XG, Wang MY (2014) Comparative transcriptome
profiling of a desert evergreen shrub, Ammopiptanthus
mongolicus, in response to drought and cold stresses. Bio-
Med Central Genomics, 15, 1–16.
Wu ZY, Raven P, Hong DY (2013) Flora of China. Vol. 2
(Dennstaedtiaceae). Science Press, Beijing; Missouri Bo-
tanical Garden Press, St. Louis.
Yang N, Zhao KG, Chen LQ (2012) Deep sequencing-based
transcriptome profiling analysis of Chimonanthus praecox
reveals insights into secondary metabolites biosynthesis.
Journal of Beijing Forestry University, 34(1), 104–107. (in
Chinese with English abstract) [杨楠, 赵凯歌, 陈龙清
(2012) 蜡梅花转录组数据分析及次生代谢产物合成途径
研究. 北京林业大学学报, 34(1), 104–107.]
Yang Y, Li X, Kong X, Ma L, Hu X, Yang Y (2015) Tran-
scriptome analysis reveals diversified adaptation of Stipa
purpurea along a drought gradient on the Tibetan Pla-
teau. Functional & Integrative Genomics, 15, 295–307.
1334 生 物 多 样 性 Biodiversity Science 第 24卷
Zhang LL, Li JF, Wang AX (2008) The role of the transcription
factor CBF genes in cold-responsive molecular mechanism.
Acta Horticulturae Sinica, 35, 765–771. (in Chinese with
English abstract) [张丽丽, 李景富, 王傲雪 (2008) 转录
激活因子CBF基因在植物抗冷分子机制中的作用. 园艺
学报, 35, 765–771.]
Zhang X, Wang JH, Yu M, Cao K, Zhuang L, Xu CX, Cao WD
(2015) Transcriptome analysis of bioenergy plant Miscan-
thus sinensis Anderss by RNA-Seq. Chinese Journal of Bio-
technology, 31, 1437–1448. (in Chinese with English ab-
stract) [张贤 , 王建红 , 喻曼 , 庄俐 , 徐昌旭 , 曹卫东
(2015) 基于RNA-Seq的能源植物芒转录组分析. 生物工
程学报, 31, 1437–1448.]
Zhou D, Gao S, Wang H, Lei T, Shen J, Gao J, Chen S (2016)
De novo sequencing transcriptome of endemic Gentiana
straminea (Gentianaceae) to identify genes involved in the
biosynthesis of active ingredients. Gene, 575, 160–170.
Zhou J, Li F, Wang JL, Ma Y, Chong K, Xu YY (2009) Basic
helix-loop-helix transcription factor from wild rice
(OrbHLH2) improves tolerance to salt- and osmotic stress in
Arabidopsis. Journal of Plant Physiology, 166, 1296–1306.
Zhu SQ, Gong YF, Hang YQ, Liu H, Wang HY (2015) Tran-
scriptome analysis of Dunaliella viridis. Hereditas, 37,
828–836. (in Chinese with English abstract) [朱帅旗, 龚一
富, 杭雨晴, 刘浩, 王何瑜 (2015) 绿色杜氏藻转录组分
析. 遗传, 37, 828–836.]

(责任编委: 袁耀武 责任编辑: 黄祥忠)

附录 Supplementary Material

附录1 岩穴蕨及其分布图。(a)岩穴蕨(韦宏金摄); (b)通过全球生物多样性信息网络(http://www.gbif.org/)、中国数字植物标
本馆(http://www.cvh.org.cn/)、台湾植物资讯整合查询系统(http://tai2.ntu.edu.tw/index.php/)以及我们采集的标本信息, 对岩
穴蕨进行整理分析, 得到本分布图。
Appendix 1 The picture of Monachosorum maximowiczii and its distribution. (a) Monachosorum maximowiczii (photoed by Hong-
jin Wei); (b) The distribution of Monachosorum maximowiczii with distributive information from Global Biodiversity Information
Facility (http://www.gbif.org/), Chinese Virtual Herbarium (http://www.cvh.org.cn/), Plants of Taiwan (http://tai2.ntu.edu.
tw/index.php/), and the specimens we collected.
http:// www.biodiversity-science.net/fileup/PDF/2016231-1.pdf

附录2 从Phytozome v11.0下载51个植物基因组形成blast本地数据库
Appendix 2 The blast local database was constituted by 51 plant genomes, which were downloaded from Phytozome v11.0
http:// www.biodiversity-science.net/fileup/PDF/2016231-2.pdf

附录3 预测的开放阅读框架(ORF)长度分布图
Appendix 3 Length distribution of the predicted open reading frame (ORF)
http:// www.biodiversity-science.net/fileup/PDF/2016231-3.pdf