全 文 :园 艺 学 报 , ( ): – 2014 41 11 2329 2341 http: // www. ahs. ac. cn
Acta Horticulturae Sinica E-mail: yuanyixuebao@126.com
收稿日期:2014–07–21;修回日期:2014–09–15
基金项目:江苏省农业科技自主创新基金项目[CX(13)5057]
鸟巢蕨转录组高通量测序及分析
贾新平,孙晓波,邓衍明,梁丽建,叶晓青*
(江苏省农业科学院农业生物技术研究所,江苏省农业生物学重点实验室,南京 210014)
摘 要:采用新一代高通量测序技术 Illumina HiSeq 2000 对鸟巢蕨转录组(Asplenium nidus)进行测
序,共获得 29 254 595 个序列读取片段(reads),包含了 5 908 586 517 个碱基序列(bp)信息。对 reads
进行序列组装,共获得 42 907 个单基因簇(Unigene),平均长度 936 bp,序列信息达到了 40.16 Mb。数
据库中的序列同源性比较表明,24 993 个 Unigene 与其他物种的已知基因具有不同程度的同源性。鸟巢蕨
转录组中的 Unigene 根据 GO 功能大致可分为细胞组分、分子功能和生物学过程 3 大类 51 个分支,其中
有大量的 Unigene 与代谢进程、结合活性、催化活性和细胞进程相关。将 Unigene 与 COG 数据库进行比
对,根据其功能大致可分为 24 类。KEGG 数据库作为参考,依据代谢途径可将 Unigene 定位到 116 个代
谢途径分支。SSR 位点查找发现,从 42 907 个 Unigene 中共找到 6 067 个 SSR 位点。SSR 不同重复基序
类型中,出现频率最高的为 AG/CT,其次是 AC/GT、A/T 和 AGG/CCT。针对这些序列,设计了 20 对引
物进行了扩增效率和多态性检测,其中 7 对引物在不同蕨类材料中表现出多态性。
关键词:鸟巢蕨;转录组;生物信息学;功能注释;SSR
中图分类号:S 68 文献标志码:A 文章编号:0513-353X(2014)11-2329-13
Sequencing and Analysis of the Transcriptome of Asplenium nidus
JIA Xin-ping,SUN Xiao-bo,DENG Yan-ming,LIANG Li-jian,and YE Xiao-qing*
(Provincial Key Laboratory of Agro Biology,Institute of Agro-biotechnology,Jiangsu Academy of Agricultural Sciences,
Nanjing 210014,China)
Abstract:The transcriptome of Asplenium nidus was sequenced by Illumina HiSeq 2000 platform
that is a new generation of high-throughput sequencing technology to study the expression profiling and
predict the functional genes. The target sample sequencing,a total of 29 254 595 reads fragment contains
5 908 586 517 bp in sequence information were generated. A total of 42 907 unigenes contains 40.16 Mb in
sequence information were formed by initial sequence splicing,with an average read length of 936 bp.
24 993 unigenes were annotated using BLASTX searches against the Nr and SwissProt databases. In this
study,all assembled unigenes can be broadly divided into biological processes,cellular components and
molecular function categories of 51 branches by gene ontology,including metabolic process,binding,
catalytic activity and cellular process. Unigenes were further annotated based on COG category,which
could be grouped into 24 functional categories. KEGG pathway analysis showed that unigenes can be
broadly divided into 116 classes according to the function. There were 6 067 SSR in 42 907 unigenes were
* 通信作者 Author for correspondence(E-mail:yexiaoqing65@163.com)
2330 园 艺 学 报 41 卷
found. The types of SSR were analyzed that AG/CT was the highest repeat,following by AC/GT,A/T and
AGG/CCT. Based on flank sequence of detected SSR,20 primer pairs were designed and tested for the
amplification efficiency and polymorphism. The results showed that 7 primer pairs showed polymorphism
among different fern varieties.
Key words:Asplenium nidus;transcriptome;bioinformatics;gene annotation;simple sequence repeat
蕨类植物(Fern)又称羊齿植物,在形态结构和环境的适应能力方面,介于苔藓植物和种子植
物之间,在植物进化系统中占有重要地位(秦仁昌,1959)。鸟巢蕨(Asplenium nidus L.)属真蕨目
(Eufilicales)铁角蕨科(Aspleniaceae)巢蕨属(Neottopteris),不仅是居室观叶植物的重要组成
部分和作为地被植物被用于构建多样化的园林景观(陆树刚,2007),而且还具有食用和药用价值(刘
媛 等,2006;徐诗涛 等,2012)。目前蕨类植物的研究主要集中于资源搜集与评价、组织培养、
遗传多样性分析等(Huang et al.,2011;李杨 等,2012;贾新平 等,2013),其基因组和转录组信
息还很缺乏,造成分子标记开发、基因克隆及抗逆机理研究等相对滞后。
近年来,转录组学技术在揭示细胞生理活动规律和代谢机理的研究中广泛应用(Lockhart &
Winzeler,2008)。转录组测序(RNA sequencing)是指利用第二代高通量测序技术进行 cDNA 测序,
能全面快速地获取研究材料特定组织在某一状态下的全部转录本信息。转录组测序可用于研究基因
功能、可变剪接、新转录本预测和结构性变异(Alagna et al.,2009;Barakat et al.,2009;Dassanayake
et al.,2010;Li et al.,2010)。相对于传统的芯片杂交平台,转录组测序可对任意物种的整体转录
活动进行检测,提供更精确的数字化信号,更高的检测通量及更广泛的检测范围。因此,对于缺乏
基因组信息的物种而言,采用转录组测序技术可获得大量的转录本信息,从中发掘重要功能基因,
是揭示植物优良特性的重要研究手段(Franssen et al.,2011;杨楠 等,2012;Li et al.,2013)。
本研究中将 Illumina HiSeq 2000 高通量测序技术应用到鸟巢蕨转录组研究,将测序得到的大量
数据进行拼接与组装,结合生物信息学方法对所获得的 Unigene 进行基因功能注释、功能分类、代
谢途径分析等,从功能基因组水平上研究鸟巢蕨生长发育过程中重要基因的表达,为进一步的分子
标记开发和功能基因挖掘奠定基础,同时也为蕨类植物基因工程育种提供重要的理论依据。
1 材料与方法
1.1 试验材料
采集健康的鸟巢蕨植株叶片,经液氮速冻后于–70 ℃贮存备用于 RNA 提取。8份蕨类材料为
鸟巢蕨、狼尾蕨、铁线蕨、凤尾蕨、富贵蕨、扇蕨、波士顿蕨和肾蕨,利用改良 CTAB法提取嫩叶
基因组 DNA。
1.2 转录组测序
按试剂盒说明书的方法材料鸟巢蕨叶片总 RNA,用微量紫外分光光度计检测其浓度和纯度,用
带有 Oligo(dT)的磁珠富集 mRNA。首先加入破碎缓冲液将 mRNA随机打断成片段,以这些 RNA片
段为模板,用随机引物合成第 1条 cDNA 链,然后加入缓冲液、dNTPs、RNase H和DNA polymeraseⅠ
合成第 2条 cDNA链。cDNA经过试剂盒纯化并加 EB缓冲液洗脱之后做末端修复、加 poly(A)并连
接测序接头,然后用琼脂糖凝胶电泳检测文库插入片段大小,最后进行 PCR扩增,制备好的文库用
Illumina HiSeq™ 2000进行测序。采用 Illumina双末端测序(Paired-end,PE)方法进行高通量测序,
11 期 贾新平等:鸟巢蕨转录组高通量测序及分析 2331
原始测序结果去除制备文库时产生的接头序列、两端低质量序列和低度复杂序列。利用 Trinity软件
对样品数据进行组装,通过序列之间的 overlap 信息组装得到重叠群(Contig),然后在局部进行组
装得到转录本(Transcripts),最后从局部中挑选最主要的转录本作为单基因簇(Unigene)(Manfred
et al.,2011)。
1.3 功能注释、分类和代谢途径分析
采用序列比对的方法对 Unigene进行序列相似性分析,使用 BLAST程序将拼接得到的 Unigene
与 NCBI 蛋白质数据库进行比对(E 值 ≤ 1E-5),选取最佳的功能注释。蛋白质数据库包括 NCBI
的非冗余核酸数据库(Non-redundant protein database,Nr)和 SwissProt(SwissProt protein database)
蛋白质序列数据库。根据 NCBI数据库的功能注释信息,使用 Blast2GO软件得到 Unigene的 GO条
目,然后用WEGO软件对所有的 Unigene进行 GO功能分类统计(Conesa et al.,2005;Ye et al.,
2006)。然后对 Unigene分别进行蛋白质直系同源数据库(Cluster of orthologous groups,COG)功能
分类和东京基因与基金组百科全书(Kyoto encyclopedia of genes and genomes,KEGG)代谢途径分
析(Roman et al.,2003;Minoru et al.,2004)。
1.4 SSR位点搜索和分析
利用MISA软件对鸟巢蕨转录组中筛选得到的 1 kb以上的 Unigene进行简单重复序列(Simple
sequence repeats,SSR)位点分析,搜索标准为:单、二、三、四、五、六核苷酸基序(motif)至
少重复次数分别为 10、8、5、4、3、3,对查找的 SSR类型进行特征分析。
1.5 SSR引物设计和筛选
利用 Primer 3.0 引物批量设计程序对含有 SSR 位点的两端序列设计引物,设定标准为:引物长
度在 18 ~ 23 bp 之间,GC 含量在 40% ~ 60%之间,退火温度(Tm)在 55 ~ 65 ℃之间,上、下游引
物 Tm值相差不超过 5 ℃,产物大小在 150 ~ 500 bp,尽量避免发卡结构(Hairpin)、二聚体(Dimer)、
错配(False Priming)、引物二聚体(Cross Dimer)等出现。
随机合成 20 对 SSR 引物进行 PCR 扩增引物,最佳退火温度的筛选于 Eppendorf 公司生产的
Mastercycler pro 梯度 PCR 仪上进行。PCR 反应总体积为 10 μL,含有 10 × PCR 缓冲液 1.0 μL,Mg2+
(25 mmol · L-1)0.8 μL,dNTPs(2.5 mmol · L-1)0.7 μL,SSR 引物(10 mol · L-1)1.0 μL,基因组
DNA 30 ng,Taq DNA 聚合酶(2.5 U · μL-1)0.1 μL,ddH2O 5.4 μL。PCR 扩增程序为:94 ℃预变
性 3 min;94 ℃变性 30 s,53 ~ 58 ℃退火 45 s,72 ℃延伸 1 min,32 个循环;72 ℃延伸 10 min;
4 ℃保存。PCR 反应产物利用 8%聚丙烯酰胺凝胶在 DYY-6C 型垂直板电泳仪及 DYC-30 型电泳槽
中进行分离。先将扩增产物中加入 2.0 μL 加样缓冲液,离心后振荡混匀,每孔加样 3.0 μL,电泳缓
冲液为 1 × TBE,恒定电压 160 V,电泳 1 h 左右,参照快速银染法对 PCR 产物进行银染检测。
2 结果与分析
2.1 鸟巢蕨转录组数据的组装
采用 Illumina HiSeq 2000 高通量测序技术对鸟巢蕨叶片转录组进行测序,共获得 29 254 595 个
reads 片段,包含了 5 908 586 517 bp(5.91 Gb)的序列信息,GC%含量平均值为 51.54%。在测序
质量值统计评估方面,碱基 Q30 为 83.93%。由此可以看出,转录组测序数据量和质量都比较高,
可为后续的数据组装提供很好的原始数据。对所获得的 reads 片段聚类进行组装,通过序列之间的
2332 园 艺 学 报 41 卷
overlap 信息组装得到 2 750 385 个 Contig 片段。其中,长度在 200 ~ 300 bp 的 Contig 序列有 2 713 035
个,占总体的 98.64%(表 1)。由此可见,Contig 序列主要以长度为 200 ~ 300 bp 为主,符合 Illumina
测序的预期结果,为后续的数据组装提供很好的原始数据。
对 Contig 片段进行组装获得 65 553 个 Transcript,序列信息达到 72 917 072 bp(72.92 Mb),平
均长度为 1 112 bp,N50 为 1 872 bp。其中,长度在 200 ~ 500 bp 的 Transcript 有 26 293 个,占总体
的 40.11%;500 ~ 1 000 bp 的 Transcript 有 13 263 个,占总体的 20.23%;≥ 1 000 bp 的 Transcript 有
25 997 个,占总体的 39.66%(表 1)。在 Transcripts 数据基础上,进一步对序列进行组装,共获得
42 907 个 Unigene,序列信息达到 40 163 259 bp(40.16 Mb),序列大小从 201 ~ 14 469 bp,平均长
度为 936 bp,N50 为 1 698 bp。其中,长度在 200 ~ 500 bp 的 Unigene 有 21 544 个,占总体的 50.21%;
500 ~ 1 000 bp 的 Unigene 有 8 056 个,占总体的 18.78%;≥1 000 bp 的 Unigene 有 13 307 个,占总
体的 31.01%(表 1)。
表 1 鸟巢蕨转录组 Contig,Transcript 和 Unigene 数据组装质量统计
Table 1 Data assembly for Contig,Transcript and Unigene in the transcriptome of Asplenium nidus
Contig Transcript Unigene
长度范围/bp
Length range 数量
Number
百分比/%
Percentage
数量
Number
百分比/%
Percentage
数量
Number
百分比/%
Percentage
200 ~ 300 2 713 035 98.64 14 174 21.62 12 184 28.40
300 ~ 500 12 865 0.47 12 119 18.49 9 360 21.81
500 ~ 1 000 10 460 0.38 13 263 20.23 8 056 18.78
1 000 ~ 2 000 8 486 0.31 14 939 22.79 7 776 18.12
≥ 2 000 5 539 0.20 11 058 16.87 5 531 12.89
将测序得到的 reads 与 Unigene 库进行比对,用 RPKM方法计算 Unigene的表达水平,可消除
基因长度差异和测序深度的影响(Mortazavi et al.,2008)。鸟巢蕨全部 Unigene的 RPKM平均值为
23.31,最大值为 22 265.3(Unigene 21 674)。195个 Unigene的 RPKM值大于 500,其中许多基因
参与到鸟巢蕨的各种生理活动和代谢过程中。179个Unigene的RPKM值低于0.2,说明 Illumina HiSeq
2000能够检测到极低水平的基因表达。
2.2 Unigene的功能注释、分类和代谢途径分析
2.2.1 Unigene的序列相似性分析
使用 BLAST 程序将组装得到的 Unigene 与 Nr 和 SwissProt 数据库进行比对,进行 Unigene 的序
列相似性分析。结果表明,24 993 个 Unigene 在 Nr 数据库中可找到相似序列,E 值小于 1E-150 的
Unigene 有 6 568 个(占总体的 26.28%),E 值介于 1E-50 到 1E-150 之间的 Unigene 有 8 893 个
(35.58%) ,E 值低于 1E-5 到 1E-50 之间的 Unigene 有 9 532 个(38.14%);匹配序列相似度达到
80%以上的 Unigene 有 1 890 个(7.56%),相似度介于 40%到 80%之间的 Unigene 有 17 375 个
(69.52%),相似度低于 40%的 Unigene 有 5 728 个(22.92%);功能注释匹配的物种中,高粱所占
比例最高(45.76%),随后依次是玉米(38.68%)、水稻(8.91%)、短柄草(5.60%)和其它物种(1.55%)。
17 569 个 Unigene 在 SwissProt 数据库中可找到相似序列,E 值小于 1E-150 的 Unigene 有 4 503 个(占
总体的 25.63%),E 值介于 1E-50 到 1E-150 之间的 Unigene 有 4 913 个(27.96%),E 值低于 1E-5
到 1E-50 之间的 Unigene 有 8 153 个(46.41%);匹配序列相似度达到 80%以上的 Unigene 有 1 112
个(6.33%),相似度介于 40%到 80%之间的 Unigene 有 10 180 个(57.94%),相似度低于 40%的
Unigene 有 6 277 个(35.73%);功能注释匹配的物种中,拟南芥所占比例最高(46.03%),随后依
11 期 贾新平等:鸟巢蕨转录组高通量测序及分析 2333
次是水稻(20.10%)、小麦(11.89%)、玉米(8.31%)和其它物种(13.67%)。由于缺乏鸟巢蕨的基
因组和转录组信息,部分 Unigene 在数据库中无法匹配到已知基因。
2.2.2 Unigene的 GO分类
基因本体论数据库(Gene ontology,GO)是一个国际标准化的基因功能分类数据库,用于全面
描述不同生物中基因的生物学特征。结合 GO 数据库对鸟巢蕨的 Unigene进行功能分类,从宏观上
认识鸟巢蕨表达基因的功能分布特征。GO 数据库包括 3 个相对独立的本体,分别描述所处的细胞
组分(Cellular component)、分子功能(Molecular function)和参与的生物学过程(Biological process)。
研究结果表明,可将 15 680个 Unigene 划分为 51 个功能组,并对每一个功能组涉及的 Unigene 进
行了统计分析。从图 1中可以看出,40 176 个 GO条目归属于细胞组分,16 757 个 GO条目归属于
分子功能,44 984 个 GO条目归属于生物学过程,这一分类结果显示了鸟巢蕨生长发育过程中基因
图 1 鸟巢蕨 Unigene 的 GO 分类
Fig. 1 GO functional categories of Asplenium nidus unigenes
2334 园 艺 学 报 41 卷
表达谱的总体情况。其中,细胞部分(10 025个)、代谢进程(10 197个)、细胞(9 767个)、细胞
进程(9 599个)、细胞器(8 474个)、催化活性(7 671个)和结合活性(6 740个)功能组中涉及
的 Unigene较多,而金属伴侣蛋白活性(4个)、病毒体部分(4个)、胞外基质部分(3个)和胞外
基质(2个)功能组中涉及的 Unigene较少。
2.2.3 Unigene的 COG功能分类
蛋白质直系同源数据库(Cluster of orthologous groups,COG)是对基因产物进行直系同源分类
的数据库。将鸟巢蕨 Unigene 与 COG 数据库进行比对,预测 Unigene 的功能并进行分类统计。研
究结果表明,鸟巢蕨的 7 929个 Unigene根据其功能大致可分为 24类,并对每一类的 Unigene进行
了统计分析。从图 2中可以看出,Unigene涉及到的 COG功能类别比较全面,涉及了大多数的生命
活动。其中,一般功能预测类基因最多(2 170个),其次是复制、重组和修复类基因(1 121个)、
转录类基因(1 008个)、信号传导机制类基因(899个)和翻译后修饰,蛋白质折叠和分子伴侣类
基因(730个);而核结构类基因(2个)和细胞运动类基因较少(9个);其他类别的基因表达丰度
都各不相同。
图 2 鸟巢蕨 Unigene 的 COG 功能分类
Fig. 2 COG function classification of Asplenium nidus unigenes
2.2.4 Unigene的 KEGG分析
KEGG是系统分析基因产物在细胞中的代谢途径以及基因产物功能的数据库。根据 KEGG数据
库的注释信息能进一步得到 Unigene 的 pathway 注释。结合 KEGG 数据库,对鸟巢蕨的 5 994 个
Unigene可能参与或涉及的代谢途径进行了统计分析。研究结果表明,可将鸟巢蕨 Unigene归属于 5
大类的代谢途径,主要包括碳水化合物代谢、能量代谢、脂类物质代谢、氨基酸代谢、蛋白折叠,
分类和降解、转录与翻译、信号转导等 19类代谢途径(图 3)。
11 期 贾新平等:鸟巢蕨转录组高通量测序及分析 2335
图 3 鸟巢蕨 Unigene 的 KEGG 分类
Fig. 3 KEGG classification of Asplenium nidus unigenes
将 KEGG pathway数据库作为参考,可将 Unigene定位到 116个具体的代谢途径分支。其中,
涉及核糖体代谢途径的基因有 216 个,占总体的 3.84%;激素信号转导途径的基因有 149 个,占总
体的 2.65%;糖异生和糖酵解途径的基因有 140 个,占总体的 2.49%;植物与病原物互作的基因有
104 个,占总体的 1.85%;氨基糖和核苷酸糖代谢途径的基因有 101 个,占总体的 1.79%;光合作用
途径的基因有 91 个,占总体的 1.62%(表 2)。
表 2 鸟巢蕨 Unigene 的代谢途径分析
Table 2 Analysis of metabolic pathways of Asplenium nidus unigenes
编号
No.
代谢途径
Pathway
基因数量
Number
编码
ID
1 核糖体 Ribosome 216 ko03010
2 RNA 转运 RNA transport 185 ko03013
3 蛋白加工 Protein processing 178 ko04141
4 剪接体 Spliceosome 177 ko03040
5 嘌呤代谢 Purine metabolism 160 ko00230
6 激素信号转导 Plant hormone signal transduction 149 ko04075
7 氧化磷酸化 Oxidative phosphorylation 141 ko00190
8 糖降解/糖异生 Glycolysis/Gluconeogenesis 129 ko00010
9 嘧啶代谢 Pyrimidine metabolism 126 ko00240
10 淀粉和蔗糖代谢 Starch and sucrose metabolism 122 ko00500
2336 园 艺 学 报 41 卷
续表 2
编号
No.
代谢途径
Pathway
基因数量
Number
编码
ID
11 泛素介导的蛋白水解 Ubiquitin mediated proteolysis 118 ko04120
12 内吞作用 Endocytosis 116 ko04144
13 mRNA 监视途径 mRNA surveillance pathway 115 ko03015
14 过氧物酶体 Peroxisome 108 ko04146
15 光合作用碳固定 Carbon fixation in photosynthetic organisms 105 ko00710
16 植物与病原物互作 Plant-pathogen interaction 104 ko04626
17 丙酮酸代谢 Pyruvate metabolism 103 ko00620
18 氨基糖和核苷酸糖代谢 Amino sugar and nucleotide sugar metabolism 101 ko00520
19 核糖体合成 Ribosome biogenesis in eukaryotes 101 ko03008
20 RNA 降解 RNA degradation 100 ko03018
21 光合作用 Photosynthesis 91 ko00195
22 吞噬体 Phagosome 90 ko04145
23 谷胱甘肽代谢 Glutathione metabolism 87 ko00480
24 半胱氨酸和蛋氨酸代谢 Cysteine and methionine metabolism 81 ko00270
25 精氨酸和脯氨酸代谢 Arginine and proline metabolism 81 ko00330
26 苯丙素生物合成 Phenylpropanoid biosynthesis 80 ko00940
27 甘油磷脂代谢 Glycerophospholipid metabolism 71 ko00564
28 苯丙氨酸代谢 Phenylalanine metabolism 69 ko00360
29 戊糖磷酸途径 Pentose phosphate pathway 65 ko00030
30 丙氨酸、天门冬氨酸和谷氨酸代谢 Alanine,aspartate and glutamate metabolism 64 ko00250
31 柠檬酸循环 Citrate cycle(TCA cycle) 64 ko00020
32 甘氨酸、丝氨酸和苏氨酸代谢 Glycine,serine and threonine metabolism 61 ko00260
33 卟啉和叶绿素代谢 Porphyrin and chlorophyll metabolism 61 ko00860
34 磷酸肌醇代谢 Inositol phosphate metabolism 60 ko00562
35 磷脂酰肌醇信号系统 Phosphatidylinositol signaling system 59 ko04070
36 核苷酸切除修复 Nucleotide excision repair 59 ko03420
37 萜类骨架生物合成 Terpenoid backbone biosynthesis 58 ko00900
38 脂肪酸代谢 Fatty acid metabolism 56 ko00071
39 氨酰–tRNA 合成酶 Aminoacyl-tRNA biosynthesis 56 ko00970
40 DNA 复制 DNA replication 54 ko03030
41 蛋白质输出 Protein export 52 ko03060
42 果糖和甘露糖代谢 Fructose and mannose metabolism 51 ko00051
43 脂肪酸合成 Biosynthesis of unsaturated fatty acids 51 ko01040
44 缬氨酸,亮氨酸和异亮氨酸降解 Valine,leucine and isoleucine degradation 50 ko00290
45 蛋白酶体 Proteasome 49 ko03050
46 氮素代谢 Nitrogen metabolism 49 ko00910
47 缬氨酸、亮氨酸和异亮氨酸生物合成 Valine,leucine and isoleucine biosynthesis 49 ko00290
48 同源重组 Homologous recombination 48 ko03440
49 光合作用—天线蛋白 Photosynthesis–antenna proteins 46 ko00196
50 苯丙氨酸、酪氨酸和色氨酸生物合成 Phenylalanine,tyrosine and tryptophan biosynthesis 46 ko00400
51 戊糖和糖醛酸转换 Pentose and glucuronate interconversions 44 ko00040
52 脂肪酸生物合成 Fatty acid biosynthesis 43 ko00061
53 抗坏血酸代谢 Ascorbate and aldarate metabolism 43 ko00053
54 甘油脂代谢 Glycerolipid metabolism 43 ko00561
55 丁酸乙酯代谢 Butanoate metabolism 42 ko00650
56 乙醛酸和二羧酸代谢 Glyoxylate and dicarboxylate metabolism 41 ko00630
57 半乳糖代谢 Galactose metabolism 41 ko00052
58 碱基切除修复 Base excision repair 41 ko03410
59 黄酮类化合物合成 Flavonoid biosynthesis 40 ko00941
60 错配修复 Mismatch repair 40 ko03430
61 转录因子 Basal transcription factors 40 ko03022
62 RNA 聚合酶 RNA polymerase 39 ko03020
11 期 贾新平等:鸟巢蕨转录组高通量测序及分析 2337
续表 2
编号
No.
代谢途径
Pathway
基因数量
Number
编码
ID
63 丙酸乙酯代谢 Propanoate metabolism 39 ko00640
64 β–丙氨酸代 beta-alanine metabolism 38 ko00410
65 泛醌和其它萜醌生物合成 Ubiquinone and other terpenoid-quinone biosynthesis 37 ko00130
66 N–多糖生物合成 N-Glycan biosynthesis 36 ko00510
67 酪氨酸代谢 Tyrosine metabolism 33 ko00350
68 类胡萝卜素生物合成 Carotenoid biosynthesis 33 ko00906
69 色氨酸代谢 Tryptophan metabolism 31 ko00380
70 醚脂质代谢 Ether lipid metabolism 30 ko00565
71 芪类、二苯基庚酮和姜酚生物合成 Stilbenoid,diarylheptanoid and gingerol biosynthesis 30 ko00945
72 泛酸酯和 CoA 生物合成 Pantothenate and CoA biosynthesis 29 ko00770
73 类固醇生物合成 Steroid biosynthesis 29 ko00100
74 氰基乙酸代谢 Cyanoamino acid metabolism 27 ko00460
75 植物昼夜节律 Circadian rhythm-plant 27 ko04712
76 囊泡运输中 SNARE 相互作用 SNARE interactions in vesicular transport 27 ko04130
77 硫化物代谢 Sulfur metabolism 27 ko00920
78 α–亚麻酸代谢 alpha-linolenic acid metabolism 26 ko00592
79 赖氨酸生物合成 Lysine biosynthesis 26 ko00300
80 硒化合物代谢 Selenocompound metabolism 26 ko00450
81 组氨酸代谢 Histidine metabolism 24 ko00340
82 磷脂酰肌醇生物合成 phosphatidylinositol(GPI)-anchor biosynthesis 23 ko00563
83 鞘脂类代谢 Sphingolipid metabolism 22 ko00600
84 叶酸碳库 One carbon pool by folate 22 ko00670
85 赖氨酸降解 Lysine degradation 22 ko00310
86 花生四烯酸代谢 Arachidonic acid metabolism 20 ko00590
87 非同源末端连接 Non-homologous end-joining 19 ko03450
88 自然杀伤细胞介导细胞毒性 Natural killer cell mediated cytotoxicity 17 ko04650
89 吞噬调节 Regulation of autophagy 15 ko04140
90 角质、木栓质和蜡质生物合成 Cutin,suberine and wax biosynthesis 15 ko00073
91 牛磺酸和亚牛磺酸代谢 Taurine and hypotaurine metabolism 15 ko00430
92 烟酰胺代谢 Nicotinamide metabolism 14 ko00760
93 莨菪烷、哌啶和吡啶生物碱生物合成 Tropane,piperidine and pyridine alkaloid biosynthesis 14 ko00960
94 二萜类化合物合成 Diterpenoid biosynthesis 13 ko00904
95 硫中继系统 Sulfur relay system 13 ko04122
96 异喹啉生物碱生物合成 Isoquinoline alkaloid biosynthesis 12 ko00950
97 维生素 B6 代谢 Vitamin B6 metabolism 12 ko00750
98 支链二元酸代谢 C5-branched dibasic acid metabolism 12 ko00660
99 酮体合成和降解 Synthesis and degradation of ketone bodies 11 ko00072
100 柠檬烯和蒎烯降解 Limonene and pinene degradation 11 ko00903
101 ABC 转运蛋白 ABC transporters 10 ko02010
102 其他聚糖降解 Other glycan degradation 10 ko00511
103 核黄素代谢 Riboflavin metabolism 10 ko00740
104 叶酸生物合成 Folate biosynthesis 9 ko00790
105 硫胺代谢 Thiamine metabolism 8 ko00730
106 生物素代谢 Biotin metabolism 8 ko00780
107 玉米素生物合成 Zeatin biosynthesis 7 ko00908
108 脂肪酸延伸 Fatty acid elongation 7 ko00062
109 鞘糖脂生物合成 Glycosphingolipid biosynthesis-globo series 6 ko00603
110 多糖降解 Glycosaminoglycan degradation 6 ko00531
111 油菜素内酯生物合成 Brassinosteroid biosynthesis 6 ko00905
112 硫辛酸的代谢 Lipoic acid metabolism 5 ko00785
113 黄酮化合物合成 Flavone and flavonol biosynthesis 5 ko00944
114 鞘糖脂生物合成 Glycosphingolipid biosynthesis-ganglio series 4 ko00604
115 聚糖生物合成 Other types of O-glycan biosynthesis 2 ko00514
116 咖啡碱代谢 Caffeine metabolism 2 ko00232
2338 园 艺 学 报 41 卷
2.3 SSR分析
对鸟巢蕨的 42 907个Unigene进行 SSR位
点搜索,共检测到 6 067 个 SSR 位点。SSR 的
类型丰富,单核苷酸至六核苷酸重复类型均存
在,所占比例变化较大(表 3)。其中,二核苷
酸重复所占比例最高,达到了 47.35%;比例最
低的是六核苷酸重复,仅为 2.56%;单核苷酸
重复和三核苷酸重复所占比例基本相同,分别
为 16.02%和 18.25%。在检测到的 SSR中,出
现频率最高的 5类基序为:AG/CT(1 371个)、
AC/GT(1 066个)、A/T(628个)、AGG/CCT
(475个)、G/C(344个)。上述 SSR特征分析,
有助于开展鸟巢蕨及其同属物种的基因组差异
分析、通用性标记开发和遗传图谱构建的研究。
表 3 鸟巢蕨 SSR 不同重复基序分布及优势碱基组成
Table 3 Distribution and compositions of the dominant repeat of
the different repeat motifs for SSR
重复基元长度
Length of repeat
motif
数量
Number
百分比/%
Percentage
优势重复基序
Advantage repeat
motif
单核苷酸
Mononucleotide
972 16.02 A/T;G/C
二核苷酸
Dinucleotide
2 873 47.35 AG/CT;AC/GT
三核苷酸
Trinucleotide
1 107 18.25 AGC/CTG
四核苷酸
Tetranucleotide
537 8.85 AGGG/CCCT
五核苷酸
Pentanucleotide
423 6.97 AGGGG/CCCCT
六核苷酸
Hexanucleotide
155 2.56 AGGCGG/CCGCCT
2.4 EST-SSR有效性和多态性分析
随机选择并合成 20 对 EST-SSR 引物,包括二核苷酸、三核苷酸、四核苷酸和五核苷酸重复基
序类型的 SSR位点,以 8份蕨类材料基因组 DNA为模板进行 PCR扩增,对新合成的引物进行有效
性和多态性分析。结果表明,6对引物无扩增产物,其余 14对引物均有扩增产物。在有扩增产物的
引物中,3对引物扩增出非特异性条带,其余 11对引物扩增产物与预期片段大小基本吻合,其中 7
对引物的 PCR扩增产物具有多态性,占有效引物的 54.55%。说明利用鸟巢蕨 EST序列开发 EST-SSR
标记是可行的。多态性引物信息见表 4,图 4所示为多态性引物 EST-SSR3、EST-SSR7和 EST-SSR16
扩增产物的电泳图。
表 4 多态性引物信息表
Table 4 Information of polymorphism primers developed from EST
引物名称 Name of primer 来源 Source 上游引物 Forward primer 下游引物 Reverse primer
EST-SSR2 unigene12363 AGCCACCATCAGCAACAATT ACATGAGCAGTTTGGCAC
EST-SSR3 unigene21562 ATTCGGTCGGTTGGCTAAG TTGTGGTGGGTGGATTGC
EST-SSR7 unigene5698 ACTCTCCCCCTCGTTGCTAT ATTTAAGGGAGACATCGGGC
EST-SSR11 unigene7088 GAATTTTTGGTGGCCTGTGT ATCACTGCACCGACTTTTGG
EST-SSR14 unigene25744 CTCGACGAGGAGGCATGATG CTCGTTGTGCCGCTTCAATATC
EST-SSR16 unigene26810 CGCTTCTGCCCGTTCCAG CAGCAGCTTTCTTGCCATAGC
EST-SSR19 unigene13378 AGCTTCCTCTGCTGCAATGAC CTTCCAAACTGCACGTCAACAC
图 4 多态性引物对 8 份蕨类材料扩增的聚丙烯酰胺凝胶电泳图
1:鸟巢蕨;2:狼尾蕨;3:铁线蕨;4:凤尾蕨;5:富贵蕨;6:扇蕨;7:波士顿蕨;8:肾蕨。
Fig. 4 Electrophoregram displaying the marker landing patterns of 8 fern varieties with polymorphism primer
1:Asplenium nidus;2:Davallia bullata;3:Adiantum capillus-veneris;4:Pteris cretica;5:Blechnum orientale;6:Neocheiropteris palmatopedata;
7:Nephralepis exaltata;8:Nephrolepis auriculata.
11 期 贾新平等:鸟巢蕨转录组高通量测序及分析 2339
3 讨论
随着新一代高通量测序技术的广泛应用,植物基因组研究得到快速发展,但蕨类植物基因组研
究还很少。Illumina 高通量测序的数据量大、速度快、成本低、效率高,适合于没有参考基因组信
息的鸟巢蕨展开转录组研究。本研究中应用 Illumina高通量测序技术对鸟巢蕨叶片转录组进行测序,
研究其基因表达谱和挖掘生长发育过程中的重要表达基因。在测序文库构建中,采用 RNA 随机片
段化后再进行反转处理的方法,充分利用 RNA 对二价阳离子的敏感性及稳定性、减少 RNA 二级结
构等的优点,可获得更均匀的覆盖率和更全面的转录本信息(Mortazavi et al.,2008;Wei et al.,2011)。
采用 PE 测序方法进行高通量测序,不但增加测序的深度,而且可提高序列拼接的效率和准确性
(Fullwood et al.,2009)。对鸟巢蕨叶片转录组进行测序,然后对 reads 片段进行拼接和组装,共得
到了 42 907个 Unigene,平均长度为 936 bp。其中,N50 值为 1 698 bp(N50 指从组装最长的 Unigene
依次向下求长度的总加和,当累加长度达到组装长度的一半时,对应的 Unigene 的长度就是 N50 的
长度),N50 值越大说明组装得到的长片段就越多,组装效果就越好;碱基 Q30为 83.93%(Q30是
指质量值大于或等于 30的碱基所占的百分比),当 Q30值在 80%以上就认为测序质量非常可靠。以
上研究结果表明,此次测序数据组装的质量和长度满足转录组分析的基本要求,且新一代高通量测
序技术是高通量发现鸟巢蕨功能基因的有效手段,进一步说明 Illumina HiSeq 2000 是高通量转录组
测序的可靠平台。
本研究中利用 Nr和 SwissProt 蛋白数据库对所获得的 42 907 个 Unigene 进行 BLASTX 比对分
析,结果显示 17 765 个 Unigene 与其它物种蛋白序列无匹配,占总体的 41.40%。此部分 Unigene
主要包括以下 3 种类型:(a)Unigene 序列片段长度过短,不能获得同源性比对结果。在 17 765个
无匹配序列中,长度在 201 ~ 500 bp 的 Unigene 有 17 248 个,占该长度范围总体的 97.08%。随着
Unigene 序列长度增加,无匹配结果的 Unigene 比例明显降低,长度在 501 ~ 1 000 bp 的 Unigene 仅
有 486个(2.74%)。由此可以认为,转录组序列获得的注释信息与被检测序列的长度紧密关联。转
录组中 Unigene 的序列越短,获得注释信息的可能性就越低。因此,高质量的测序结果及较长拼接
序列的数据信息是获得可靠性功能注释的前提和保证。(b)基因注释信息的暂时缺乏。蕨类植物基
因组学及转录组学研究刚刚起步,生物信息数据库仍在不断更新和完善中,基因功能注释信息不全
会造成部分序列暂时无法获得对应的功能注释信息。(c)蕨类植物特有的新基因。蕨类植物分子生
物学研究相对落后,供参考的基因组信息十分有限。本研究获得的鸟巢蕨 Unigene 与 NCBI 数据库
进行比对分析,发现大部分 Unigene 功能与种子植物的相似度较高。在鸟巢蕨转录组序列中,可能
存在一些蕨类植物特有的新基因,这或许也是导致其同源序列较难发现的原因之一。随着今后研究
的深入,进一步将鸟巢蕨 Unigene 与其它蕨类、苔藓、种子植物进行比较分析,为研究植物的进化
提供更为重要的信息。
利用 GO 数据库对获得的 Unigene 序列进行功能分类,本研究中有 15 765个 Unigene 获得具体
的功能分类信息。虽然 GO 是个标准化的生物信息本体数据库,被广泛地用于基因功能分类,然而
由于 GO 结构设计上的缺陷以及基因的许多特征还未被发现,使得这种基因注释信息尚不完全。因
此,本研究中的鸟巢蕨 Unigene 基于 GO 数据库进行的相关功能分类信息还不完善,还有部分的
Unigene没有赋予可能的 GO 条目,有待通过其它生物信息学方法对 Unigene 功能分类进一步补充。
利用 COG数据库对鸟巢蕨 Unigene进行基因功能分类,可从基因组水平上找寻直系同源体,预测未
知 ORF 的生物学功能,可以大大提高基因功能注释的准确性。根据 KEGG 数据库对上述 Unigene
进行代谢途径分析,涉及到 116个具体的代谢途径分支,参与到鸟巢蕨体内的碳水化合物代谢、能
2340 园 艺 学 报 41 卷
量代谢、转录与翻译、信号转导等代谢途径中,为进一步大量挖掘鸟巢蕨生长发育过程中的重要表
达基因,开展鸟巢蕨的基因克隆及功能分析等研究提供了基础数据。
SSR分子标记具有操作简便、重复性好、多态性丰富、遗传信息量大、共显性遗传等优点,已
被广泛应用于植物的遗传多样性分析、品种鉴定、遗传图谱构建、分子标记辅助育种等研究(Yi et al.
2006;刘峰 等,2012;麻丽颖 等,2012;董海燕 等,2014)。采取实验室手段开发 SSR引物费时,
耗力,成本高,试验复杂,基于转录组数据库信息进行 SSR分子标记开发将是一种既经济又有效的
方法。目前,鸟巢蕨可利用的分子标记数量非常有限,转录组测序产生的序列数据为 SSR分子标记
开发提供更为丰富的资源。本研究中通过查找发现了 6 067个 SSR位点,SSR不但出现频率高,而
且类型丰富。随机选择并合成的 20对引物中,有 11对引物可以实现有效扩增,较高的扩增效率得
益于 EST数据量大和拼接质量较高。其中,有 7对引物对 8份不同蕨类材料进行 PCR扩增存在多
态性,占有效引物的 54.55%,这说明鸟巢蕨 EST序列中的 SSR位点多,EST-SSR扩增率和多态性
较高。需要进一步对这些 SSR 引物进行 PCR 检测,筛选出扩增产物稳定、条带清晰、多态性好的
引物,为进一步开发新的 SSR 标记奠定基础。鸟巢蕨 SSR 分子标记的开发还可用于蕨类植物功能
基因的挖掘、遗传多样性分析、重要性状辅助选择等研究,有助于促进蕨类植物分子生物学的发展。
本研究中首次在国内外采用 Illumina HiSeq 2000高通量测序技术建立了鸟巢蕨转录组数据库,
获得了大量的转录本信息,并对表达基因进行了序列组装、功能注释及分类、代谢途径、SSR位点
等分析,揭示了鸟巢蕨生长发育转录组的整体表达特征。为深入研究鸟巢蕨的基因克隆、抗逆机理
以及分子标记开发提供了极大的方便,而且该转录组数据还可作为蕨类植物基因组的参考序列,为
蕨类植物的分子生物学研究提供了丰富的数据资源。
References
Alagna F D,Agostino N,Torchia L,Servili M,Rao R,Pietrella M,Giuliano G,Chiusano M L,Baldoni L,Perrotta G. 2009. Comparative 454
pyrosequencing of transcripts from two olive genotypes during fruit development. BMC Genomics,10:399.
Barakat A,DiLoreto D S,Zhang Y,Chris S,Kathleen B,Nicholas W,Ron S,John E C. 2009. Comparison of the transcriptomes of American
chestnut(Castanea dentata)and Chinese chestnut(Castanea mollissima)in response to the chestnut blight infection. BMC Plant Biol,9:
51.
Conesa A,Götz S,García-Gómez J M,Manuel T,Montserrat R. 2005. Blast2GO:A universal tool for annotation,visualization and analysis in
functional genomics research. Bioinformatics,21:3674–3676.
Dassanayake M,Haas J S,Bohnert H J,Cheeseman J M. 2010. Shedding light on an extremophile life style through transcriptomics. New Phytol,
183:764–775.
Dong Hai-yan,Ji Kong-shu,Hou Bo-xin,Zhao Hong-bo. 2014. Genetic relatives analysis of 41 Loropetalum chinense var. rubrum cultivars by ISSR
markers. Acta Horticulturae Sinica,41 (2):365–374. (in Chinese)
董海燕,季孔庶,侯伯鑫,赵宏波. 2014. 基于 ISSR 标记的红花檵木品种亲缘关系分析. 园艺学报,41 (2):365–374.
Franssen S U,Shrestha R P,Brautigam A,Bornberg B E,Weber A P. 2011. Comprehensive transcriptome analysis of the highly complex Pisum
sativum genome using next generation sequencing. BMC Genomics,12:227.
Fullwood M J,Wei C L,Liu E T,Ruan Y. 2009. Next-generation DNA sequencing of paired-end tags(PET)for transcriptome and genome analyses.
Genome Research,19:521–532.
Huang D,Wu L,Chen J R,Dong L. 2011. Morphological plasticity,photosynthesis and chlorophyll fluorescence of Athyrium pachyphlebium at
different shade levels. Photosynthetica,49:611–618.
Jia Xin-ping,Ye Xiao-qing,Liang Li-jian,Sun Xiao-bo,She Jian-ming. 2013. Analysis of genetic relationship of 12 pteridophyte cultivars by using
SSR markers. Acta Agriculturae Jiangxi,25 (11):1–5. (in Chinese)
贾新平,叶晓青,梁丽建,孙晓波,佘建明. 2013. 12份蕨类材料亲缘关系的SSR分析. 江西农业学报,25 (11):1–5.
11 期 贾新平等:鸟巢蕨转录组高通量测序及分析 2341
Li C Q,Wang Y,Huang X M,Li J,Wang H C,Li J G. 2013. De novo assembly and characterization of fruit transcriptome in Litchi chinensis Sonn
and analysis of differentially regulated genes in fruit in response to shading. BMC Genomics,14:552.
Li R,Fan W,Tian G,Zhu H,He L,Cai J,Huang Q,Cai Q,Li B,Bai Y. 2010. The sequence and de novo assembly of the giant panda genome.
Nature,463:311–317.
Li Yang,Yu Rong-pei,Li Hui,Li Dong,Shi Lei. 2012. A review of the development in tissue culture of ornamental ferns. Acta Horticulturae Sinica,
39 (9):1839–1848. (in Chinese)
李 杨,余蓉培,李 慧,李 东,石 雷. 2012. 观赏蕨类植物组织培养研究进展. 园艺学报,39 (9):1839–1848.
Liu Feng,Wang Yun-sheng,Tian Xue-liang,Mao Zhen-chuan,Zou Xue-xiao,Xie Bing-yan. 2012. SSR mining in pepper(Capsicum annuum L.)
transcriptome and the polymorphism analysis. Acta Horticulturae Sinica,39 (1):168–174. (in Chinese)
刘 峰,王运生,田雪亮,茆振川,邹学校,谢丙炎. 2012. 辣椒转录组 SSR 挖掘及其多态性分析. 园艺学报,39 (1):168–174.
Liu Yuan,Cheng Zhi-ying,Long Chun-lin,Meng Bo. 2006. Comprehensive utilization value of pteridophyte(fern). Southwest Horticulture,
34 (6):39–41. (in Chinese)
刘 媛,程治英,龙春林,孟 博. 2006. 蕨类植物的综合利用价值. 西南园艺,34 (6):39–41.
Lockhart D J,Winzeler E A. 2008. Genomics,gene express and DNA arrays. Nature,405 (6788):827–836.
Lu Shu-gang. 2007. Pteridology. Beijing:Higher Education Press. (in Chinese)
陆树刚. 2007. 蕨类植物学. 北京:高等教育出版社.
Ma Li-ying,Kong De-cang,Liu Hua-bo,Wang Si-qi,Li Ying-yue,Pang Xiao-ming. 2012. Construction of SSR fingerprint on 36 Chinese jujube
cultivars. Acta Horticulturae Sinica,39 (4):647–654. (in Chinese)
麻丽颖,孔德仓,刘华波,王斯琪,李颖岳,庞晓明. 2012. 36份枣品种SSR指纹图谱的构建. 园艺学报,39 (4):647–654.
Manfred G G,Brian J H,Moran Y. 2011. Full-length transcriptome assembly from RNA-Seq data without a reference genome. Nature
Biotechnology,29:644–652.
Minoru K,Susumu G,Shuichi K,Okuno Y,Hattori M. 2004. The KEGG resource for deciphering the genome. Nucleic Acids Res,32:277–
280.
Mortazavi A,Williams B A,McCue K,Schaeffer L,Wold B. 2008. Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nat Methods,
5:621–628.
Qin Ren-chang. 1959. Flora of China. Vol. 2. Beijing:Science Press. (in Chinese)
秦仁昌. 1959. 中国植物志. 2卷. 北京:科学出版社.
Roman L T,Michael Y G,Darren A N,Eugene V K. 2003. The COG database:A tool for genome-scale analysis of protein functions and evolution.
Nucleic Acids Res,28 (1):33–36.
Wei W L,Qi X Q,Wang L H,Zhang Y X,Hua W,Li D H,Lü H X,Zhang X R. 2011. Characterizationof the sesame(Sesamum indicum L.)
global transcriptome using Illumina paired-end sequencing and development of EST-SSR markers. BMC Genomics,12:451.
Xu Shi-tao,Zhong Yun-fang,Song Xi-qiang,Yu Xu-dong,Yang Guang-sui,Yin Jun-mei,Chen Qiu-bo. 2012. Role and function of bird’s nest
fern,Asplenium nidus complex(Aspleniacceae)in tropical rainforest. Chinese Journal of Tropical Crops,33 (4):767–770. (in Chinese)
徐诗涛,钟云芳,宋希强,于旭东,杨光穗,尹俊梅,陈秋波. 2012. 巢蕨属植物在热带雨林生态系统中的功能与作用. 热带作物学报,
33 (4):767–770.
Yang Nan,Zhao Kai-ge,Chen Long-qing. 2012. Deep sequencing-based transcriptome profiling analysis of Chimonanthus praecox reveals insights
into secondary metabolites biosynthesis. Journal of Beijing Forestry University,34 (1):104–107. (in Chinese)
杨 楠,赵凯歌,陈龙清. 2012. 蜡梅花转录组数据分析及次生代谢产物合成途径研究. 北京林业大学学报,34 (1):104–107.
Ye J,Fang L,Zheng H,Chen J,Zhang Z,Wang J,Li S,Li R,Bolund L,Wang J. 2006. WEGO:A web tool for plotting GO annotations. Nucleic
Acids Res,34:293–297.
Yi G,Lee J M,Lee S,Choi D,Kim B D. 2006. Exploitation of pepper EST-SSRs and an SSR-based linkage map. Theoretical and Applied Genetics,
114:113–130.