全 文 :中草药 Chinese Traditional and Herbal Drugs 第 46 卷 第 23 期 2015 年 12 月
• 3558 •
茯苓转录组 SSR 序列特征及其基因功能分析
何 海 1,郭继云 1,马毅平 2,周梦春 1,王 沫 1,舒少华 1*
1. 华中农业大学植物科学技术学院,湖北 武汉 430070
2. 湖北省果品办公室,湖北 武汉 430070
摘 要:目的 分析茯苓转录组中简单重复序列(SSR)信息,以及含 SSR 的基因功能,为开发茯苓新型分子标记奠定基础。方
法 利用 MISA 软件搜索转录组 Unigene 及基因组 scaffold 中 SSR,对含 SSR 的 Unigene 使用 BlastX 比对 nr 及 KEGG 数据库,
注释其功能,并聚类分析。结果 在转录组序列中发现 4.57%的 Unigene 序列含有 2 075 个 SSR,平均 17 010 条 Unigene 出现 1
个 SSR,SSR 的平均长度 19.59 bp;而基因组中 SSR 的平均密度 54.00 个/Mb,平均长度 20.74 bp。在转录组中发现的 241 种碱基
重复模式中,以 (CG/CG)n比例最高(10.97%);以六核苷酸类重复数量最多(35.64%),以 (ACCACG/CGTGGT)14最长(84 bp)。
在 1 887 条含 SSR 的 Unigene 中,115 条能被基因本体(GO)分类注释到细胞代谢进程、核酸结合等;1 223 条 Unigene 能被注释
到 219 个 KEGG 通路图中,其中 314 条注释到新陈代谢,297 条注释到遗传信息处理。结论 茯苓转录组 SSR 的类型丰富、多态
性潜能较高,关联功能相关基因的 SSR 开发对茯苓目的性状的分子标记辅助育种具有巨大潜力。
关键词:茯苓;SSR;转录组;生物信息;功能关联
中图分类号:R282.12 文献标志码:A 文章编号:0253 - 2670(2015)23 - 3558 - 06
DOI: 10.7501/j.issn.0253-2670.2015.023.019
Characterization and gene function analysis of SSR sequences in Poria cocos
transcriptome
HE Hai1, GUO Ji-yun1, MA Yi-ping2, ZHOU Meng-chun1, WANG Mo1, SHU Shao-hua1
1. College of Plant Science and Technology, Huazhong Agricultural University, Wuhan 430070, China
2. The office for development and management of fruit industrialization in Hubei Province, Wuhan 430070, China
Abstract: Objective To develop new molecular markers for Poria cocos, and to characterize the SSR in P. cocos transcriptome.
Methods The transcriptome Ungenes and genomic scaffolds were examined by the tool of MISA. The gene annotation and gene
function cluster were obtained by blasting the Unigenes which contained SSR to the nr and KEGG databases with BlastX. Results A
total of 2 075 SSRs were identified in 4.57% Unigene sequences, the density of distribution was average one SSR per 17.01 kb, and the
average length of SSR was 19.59 bp. Meanwhile, those were 54.00 SSRs per Mb, and 20.74 bp in genomic sequences. Among all 241
SSR motifs found in transcriptome, (CG/CG)n which accounted for 10.97% was the most frequent repeat motif. And hexa-nucleotide
repeats which accounted for 35.64% was the most group among mono- to hexa-nucleotide repeats. (ACCACG/CGTGGT)14 with the
length of 84 bp was the longest SSR. Only 115 Unigenes of 1 887 Unigenes containing SSR were annotated to cellular metabolic
process or nucleotide binding, etc, with GO classification. On the other hand, 1 223 Unigenes containing SSR annotated into 219
KEGG pathway maps. 314 and 297 Unigenes of them were annotated into metabolism pathways and genetic information processing
pathways, respectively. Conclusion The SSR in the transcriptome of P. cocos is rich in type, and has a high potential of
polymorhpism. Associating gene function, SSR might be applied in marker-assisted breeding with the aim of specific traits.
Key words: Poria cocos (Schw.) Wolf; SSR; transcriptome; bioinformation; function association
简单重复序列(simple sequence repeat,SSR)
又称微卫星(microsatellite)、串联短重复序列(short
tandem repeats,STR)、简单序列长度多态性(simple
sequence length polymorphism,SSLP),是一种由 1~
6 个核苷酸组成的串联重复单元,广泛分布在真核
和原核生物基因组中[1]。基于 PCR 的 SSR 标记有重
复性好、可靠性高、操作容易、共显性等特点,成
为构建连锁遗传图谱、研究群体遗传学、进行分子
收稿日期:2015-06-19
基金项目:国家“十二五”科技支撑计划项目(2011BAI06B03)
作者简介:何 海(1990—),男,在读硕士研究生,研究方向为中药资源学。E-mail: he-hai@outlook.com
*通信作者 舒少华,男,博士,讲师,研究方向为中药资源学。E-mail: shushaohua@mail.hzau.edu.cn
中草药 Chinese Traditional and Herbal Drugs 第 46 卷 第 23 期 2015 年 12 月
• 3559 •
标记辅助育种、系谱分析、品种指纹图谱绘制等
的理想工具 [1-2]。传统的 SSR(基因组 SSR,
genomic-SSR)标记开发周期长、成本高。而以
EST-SSR 为代表的 genic-SSR 能直接反映基因编
码蛋白信息,可与基因功能直接关联,从而直接
鉴定某些重要性状;此外,由于引物来自保守度
较高的基因编码区,使其在不同种属间也具有通
用性,在亲缘物种之间矫正连锁图谱和比较作图
方面具有较强的优势[1-2]。随着第 2 代测序技术的
发展应用,转录组测序为 genic-SSR 的开发提供
了较 EST 数据大很多的数据基础,从而加速 SSR
标记,特别是与重要性状关联或比较作图方面的
SSR 标记的开发。
茯苓 Poria cocos (Schw.) Wolf 是一种隶属于担
子菌门 Basidiomycetes,多孔菌科 Polyporaceae,的
高等真菌,其菌核是一种传统的中药,《中国药典》
2015 年版收录有茯苓与茯苓皮两味药材[3]。茯苓是
一种药食两用、大宗的常用中药材,约 10%的中成
药(约 300 种)原料配方中含有茯苓[4-5]。茯苓的主
要化学成分为多糖及三萜类化合物,具有抗肿瘤、
抗氧化、抗惊厥等多种生物活性[6]。茯苓主要分布
于我国中部及西南各省,具有悠久的人工栽培历史,
但由于很难获得其有性态担孢子,生产上育种处于
长期无性繁殖,导致菌种退化;且由于菌种管理不
规范,菌种名称较为混乱[7-8]。
茯苓的 SSR 分子标记研究尚未见文献报道,本
研究通过对已获得的茯苓转录组序列进行 SSR 搜
索,并对找出的 SSR 序列进行分析,同时注释其所
在序列的基因功能来了解茯苓转录组序列所含 SSR
的序列特征及组成情况,推测其可能相关联的性状。
此外,本研究还利用公开的茯苓基因组数据进行比
较研究,得到转录组 SSR 与基因组 SSR 的分布与
序列特征的异同。本研究可为茯苓的遗传多样性、
良种选育、SSR 分子标记,特别是与性状连锁基因
的分子标记的开发等提供研究基础。
1 数据来源
样品于 2012 年采自湖北省英山县石头咀镇
的栽培地,由湖北省中医药研究院王克勤研究员
鉴定为茯苓 Poria cocos (Schw.) Wolf 菌核。根据
Shu 等[9]报道,将菌核接种到 PDA 培养基上,进一
步分离纯化得到纯茯苓菌种。分别提取茯苓菌核、
菌丝 RNA,利用 Illumina HiSeq 2000 进行转录组测
序,测序结果使用 Trinity 软件进行从头组装,得到
共含 35 299 182 核苷酸的 Unigene 41 327 条[9]。从
JGI 网站(http://genome.jgi-psf.org/Wolco1/ Wolco1.
home.html)[10]下载茯苓的基因组数据作为对比参考
数据,数据含 348 个 scaffold,共 50 483 556 核苷酸。
该基因组测序使用的是 1956 年分离自美国佛罗里达
州阿拉楚瓦郡的茯苓单孢培养菌株 MD-104 SS10。
2 方法
2.1 简单重复序列 SSR 搜索分析
在 Ubuntu 14.04 LTS(32 位)操作系统中使用
MISA 软件(MIcro-SAtellite identification tool,MISA,
http://pgrc.ipk-gatersleben.de/misa/misa.html)对转录组
Unigene 及基因组 scaffold 序列进行 SSR 位点搜索。
设置单核苷酸、二核苷酸、三核苷酸、四核苷酸、五
核苷酸和六核苷酸最少重复次数分别为 15、6、5、4、
3、3。复合 SSR 2 个位点间最大间隔碱基数为 100。
将生成的文本文件导入到 Excel(Microsoft Office
Excel 2013)中,对 SSR 的基本信息进行统计分析。
2.2 茯苓转录组数据中含 SSR 的 Unigene 的 GO
分类
对茯苓转录组数据中 1 887 条含有 SSR 的
Unigene 序列使用 BlastX 比对到蛋白质数据库 nr
(GenBank non-redundant),比对参数 e 值<10−5。
根据 nr 蛋白注释信息,使用 Blast2GO 软件[11]分析
得到转录组数据中含 SSR 的 Unigene 的基因本体
(gene ontology,GO)注释信息。得到每个 Unigene
的 GO 注释后,利用 WEGO 在线软件(http://wego.
genomics.org.cn/cgi-bin/wego/index.pl)[12]对注释的
Unigene 做 GO 功能分类统计,分析含 SSR 的
Unigene 的功能分布特征。
2.3 茯苓转录组数据中含 SSR 的 Unigene 的
KEGG 代谢通路分析
通过 BlastX,将含 SSR 的 Unigene 序列比对到
京都基因与基因组百科全书(kyoto encyclopedia of
genes and genomes,KEGG)数据库中,比对参数 e
值<10−5。比对得到 Unigene 在 KEGG 数据库的注
释信息,及其在 KEGG orthology(KO)系统中的
相应 K 编号。根据 K 编号将 Unigene 注释到相应的
代谢通路上,并进行代谢通路分析。
2.4 数据统计分析
使用 SPSS 19.0.0 软件对数据进行 χ2检验。
3 结果与分析
3.1 茯苓转录组及基因组 SSR 的分布
本研究利用 Perl 脚本 MISA(MIcro-SAtellite
中草药 Chinese Traditional and Herbal Drugs 第 46 卷 第 23 期 2015 年 12 月
• 3560 •
identification tool,MISA,http://pgrc.ipk-gatersleb
en.de/misa/misa.html)搜索茯苓转录组及其基因组
序列的 SSR,设置的 SSR 最小长度均不小于 12
bp。从总长度约为 35.30 Mb 的 41 327 条转录组
Unigene 序列中搜索到 2 197 个 SSR,分布于 1 887
条 Unigene 上;其中含多个 SSR 的 Unigene 占
14.47%,共 273 条。从对比的总长度 50.38 Mb 的
348条基因组 scaffold序列中搜索到 SSR 2 877个,
多于从转录组数据搜索到的。然而,转录组与基
因组中搜索到的 SSR 平均密度分别为 58.78 个/Mb、
54.00 个/Mb,转录组 SSR 密度略高于基因组。经
统计计算,转录组 SSR 与基因组 SSR 的平均长度
无显著差异,平均长度分别为 19.59、20.74 bp。
见表 1。
表 1 茯苓转录组和基因组序列中 SSR 统计
Table 1 Description of SSR in transcriptome and genome
sequences of P. cocos
项目 转录组 基因组
序列总数 41 327 348
总核苷酸数/bp 35 299 182 50 483 556
GC 量/% 55.72 52.17
总 SSR 数 2 075 2 726
复合 SSR 数量* 112 135
复合 SSR 的比例/%* 5.40 4.95
含 SSR 的序列数 1 887 86
含 SSR 序列的比例/% 4.57 24.71
含多个 SSR 的序列数 273 40
含多个 SSR 序列的比例/% 14.47 46.51
SSR 密度/(个·Mb−1) 58.78 54.00
SSR 平均长度/bp* 19.59 20.74
*表示所在项目转录组与基因组间无显著差异
*indicates there is no difference in significant between transcriptome
and genome sequences
3.2 茯苓转录组及基因组 SSR 的序列特征
在转录组与基因组序列中搜索到的 SSR 中,分别
含有 5.40%和 4.95%的复合 SSR,SPSS χ2检验显示无
差异(表 1),说明搜索到的转录组与基因组 SSR 具
有一定的一致性。此外,SSR 重复基元(考虑序列互
补,且包含复合 SSR 的重复基元)按核苷酸数分类后,
各类型 SSR 重复基元的基元种类数在茯苓转录组和
基因组中亦无显著性差异;但各类型含有的 SSR 数量
及频率却有显著差异(表 2)。在转录组 SSR 中,核
苷酸重复的基元共有 241 种,少于从基因组数据得到
的 292 种,而且,在转录组 SSR 中六核苷酸重复基元
最多,占 35.64%,其次是三核苷酸,占 31.04%;而
在基因组 SSR 中则分别是五核苷酸重复基元
(32.15%)、六核苷酸基元(25.72%)。转录组 SSR 及
基因组 SSR 中单核苷酸及四核苷酸重复基元均相对
较少,且四核苷酸重复基元的频率无差异(P>0.05);
单核苷酸重复在基因组 SSR 只有 C/G 型,重复长度
(21 bp)小于转录组 SSR(24 bp)(表 3)。但是,按
单一重复基元的数量上看,转录组及基因组 SSR 均为
二核苷酸重复最多,分别为 (CG/CG)n和 (AG/CT)n。
转录组 SSR 2~6 核苷酸类型重复基元的最高重复数
均小于基因组 SSR。转录组 SSR 以单核苷酸 C/G 重
复次数最多,为 24 次;但以重复 14 次的
ACCACG/CGTGGT 六核苷酸的 SSR 最长,为 84 bp。
而基因组 SSR 以 AC/GT 二核苷酸重复 44 次为最多,
以六核苷酸重复 ACCTGC/AGGTGC 重复 26 次,达
156 bp 最长。转录组 SSR 与基因组 SSR 比较,各类
型重复基元中数量最多的重复基元只有单核苷酸、三
核苷酸及四核苷酸相同,分别为 C/G、CCG/CGG、
ACGC/CGTG;二核苷酸、五核苷酸及六核苷酸的最
多重复基元均不同。此外,在转录组 SSR 与基因组
SSR 中,除单核苷酸外,2~6 核苷酸的最多重复基元
均不是最长的重复基元(表 3)。
表 2 茯苓 SSR 重复基元出现频率
Table 2 Occurrence frequency of different SSR motifs of P. cocos
转录组 SSR 基因组 SSR 重复基元类型 基元种类数 数量 频率/% 基元种类数 数量 频率/%
单核苷酸 2 49 2.23 1 8 0.28
二核苷酸 4 357 16.25 4 576 20.02
三核苷酸 10 682 31.04 10 516 17.94
四核苷酸 15 70 3.19 26 112 3.89
五核苷酸 60 256 11.65 81 925 32.15
六核苷酸 150 783 35.64 170 740 25.72
中草药 Chinese Traditional and Herbal Drugs 第 46 卷 第 23 期 2015 年 12 月
• 3561 •
表 3 茯苓 SSR 重复基元序列特征
Table 3 Sequence features of different SSR motifs of P. cocos
转录组 SSR 基因组 SSR
重复基元 平均长
度/bp
最长重复
长度/bp
数量最多的重复基元
(数量,百分比)
平均长
度/bp
最长重复
长度/bp
数量最多的重复基元
(数量,百分比)
单核苷酸 19.76 24 C/G (24, 57.14%) 17.63 21 C/G (8, 100%)
二核苷酸 13.15 34 CG/CG (241, 67.51%) 15.22 88 AG/CT (346, 60.07%)
三核苷酸 17.27 54 CCG/CGG (200, 29.33%) 19.65 90 CCG/CGG (112, 21.71%)
四核苷酸 17.83 28 ACGC/CGTG (18, 25.71%) 18.96 68 ACGC/CGTG (15, 13.39%)
五核苷酸 15.39 25 CCCCG/CGGGG (36, 14.06%) 15.68 35 AATCT/AGATT (274, 29.62%)
六核苷酸 19.21 84 ACGAGT/ACTCGT (60, 7.66%) 22.26 156 ACCAGG/CCTGGT (63, 8.51%)
3.3 茯苓转录组中含 SSR 的 Unigene 的 GO 分类
通过 MISA 搜索,在茯苓转录组序列中确定出
1 887 条 Unigene 含有 SSR,为了解茯苓中含 SSR
基因的功能,本研究对含 SSR 的 Unigene 进行了
GO 分类注释。GO 将基因功能共分为 3 个本体,即
分子功能(molecular function)、细胞组分(cellular
component)、生物进程(biological process),其下
又分为了很多亚类,各类间互相关联,从不同角度
对基因的功能进行分类注释。通过对含 SSR 的茯苓
Unigene 进行 GO 注释,可以全面描述茯苓中含 SSR
基因和基因产物的属性。
将搜索到含有 SSR 的 Unigene 序列使用 BlastX
比对到 nr 蛋白数据库,取比对最高的为序列的注释
信息。其中 1 561 条 Unigene 注释得到了注释信息,
326 条无注释结果。再使用 Blast2GO 软件,进行含
SSR 的 Unigene 的 GO 注释,取得其 GO 分类号,
1 887 条 Unigene 中只有 115 个 Unigene 得到了相应
的 GO 分类号,为 6.09%,其他 1 772 个不能成功
注释。将含有 SSR 序列的 1 887 条 Unigene 编号及
其对应的 GO 号使用在线工具 WEGO(http://wego.
genomics.org.cn/cgi-bin/wego/index.pl)进行分类,
得到其基因功能分布(图 1)。
结果表明,在有 GO 注释的 115 个 Unigene 中,
有 107 条(93.04%)被注释到分子功能类中,而生
物进程及细胞组分类分别有 74 条(64.35%)和 30
条(26.09%)。在 107 条被注释到分子功能类的
Unigene 中,分别有 74 条、68 条被注释为催化活性
(catalytic activity)和结合活性(binding),为有 GO
注释 Unigene 的 64.35%、59.13%,其中多被注释
为转移酶活性(transferase activity)、水解酶活性
( hydrolase activity)、核苷酸结合( nucleotide
binding )。而在生物进程类中,以代谢进程
(metabolicprocess)及细胞进程(cellular process)
1-细胞 2-细胞成分 3-细胞被膜 4-大分子复合物 5-细胞器 6-细胞
器组分 7-抗氧化 8-结合活性 9-催化活性 10-分子信息传递
11-结构分子 12-翻译调节 13-转运 14-生物调节 15-细胞进程
16-建立定位 17-定位 18-代谢进程 19-色素沉积 20-对刺激的响应
1~6-细胞组分 7~13-分子功能 14~20-生物进程
1-cell 2-cell part 3-envelope 4-macromolecular complex 5-organelle
6-binding 7-anti-oxidant 8-catalytic 9-hydrolase 10-molecular
transducer 11-nucleotide binding 12-structural molecule 13-transferase
14-translation regulator 15-transporter 16-biological regulation
17-cellular metabolic process 18-cellular process 19-localization
20-macromolecule metabolic process 1—6-cell part 7—13-molecular
function 14—20-biological process
图 1 茯苓转录组中含 SSR 的 Unigene 的 GO 分类
Fig. 1 GO classification of Unigenes containing SSR in
transcriptome of P. cocos
下的细胞代谢进程(cellular metabolic process)为主,
有 43 条 Unigene,占注释为该类的 58.11%。同时,
细胞组分类中几乎全注释(28/30,93.33%)为细胞组
分(cell part)。综合可知,已被注释出的含有 SSR 的
Unigene 主要的功能是与细胞的基础代谢相关的。
3.4 茯苓转录组数据中含 SSR 的 Unigene 的
KEGG 代谢通路分析
由于 Unigene 的 GO 注释只有较少比例被注释
出来,为了更加全面地了解茯苓转录组序列含有
SSR 的 Unigene 的功能,将其注释到 KEGG 数据库
中,分析得到其在茯苓代谢中的通路富集情况。注
释 KEGG 代谢通路时,会给每一个功能的基因给定
一个 K 编号(K numbers),并注释到具有相应归类
的代谢通路(pathway)中。
100
10
1
0.1
0.0
U
ni
ge
ne
百
分
数
/%
1 887
188
18
1
0
U
ni
ge
ne
数
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
中草药 Chinese Traditional and Herbal Drugs 第 46 卷 第 23 期 2015 年 12 月
• 3562 •
在对茯苓转录组 1 887 条含 SSR 的 Unigene 进
行 KEGG 代谢通路分析时,有 1 223 条(64.81%)
Unigene 有注释结果,另外的 664 条(35.19%)未得到
注释。统计被注释的Unigene 发现,只得到了 412 个K
编号,即说明 Unigene 中有许多相互间功能相同,平
均达每 2.97 个Unigene 具有相同的功能。当将有K 编
号注释的 Unigene 注释到 KEGG 代谢通路图中时,只
有 752 个 Unigene,对应 245 个 K 编号被注释到 219
个通路图(map)中;有 471 个Unigene,167 个K 编
号未被注释到通路图中。最终,相当于只有 39.85%含
SSR 的Unigene 被注释到KEGG 代谢通路中。
在对注释到的 219 个通路图进行分析时,利用
KEGG 数据库的分类,将其归类到全部 7 大类代谢
通路中,其中被注释到新陈代谢(metabolism)及
遗传信息处理(genetic information processing)类的
Unigene 最多,分别为 314、297 个,占全部含 SSR
的 Unigene 的 16.64%及 15.94%,占能注释到通路
的 Unigene 的 41.76%、39.49%(图 2)。
图 2 茯苓转录组中含SSR的Unigene 的KEGG 代谢通路分类
Fig. 2 KEGG pathway classification of Unigenes containing
SSR in transcriptome of P. cocos
对注释到新陈代谢通路类的 Unigene 作进一步
的分类分析,其能注释到 13 个亚类中的除化学结构
转化图(chemical structure transformation maps)类
外的其他 12 个亚类(图 3)。且除总览图(global and
overview maps)类外,注释到碳水化合物代谢
(carbohydrate metabolism)类通路的 Unigene 最多,
有 176 个 Unigene,占注释到新陈代谢类的 56.05%;
其次是注释到氨基酸代谢(amino acid metabolism)
类、脂类代谢(lipid metabolism)类,这与 GO 注
释得出的基础代谢的结果相一致。
4 讨论
4.1 茯苓转录组 SSR 分子标记的可行性评价
基于转录组的 SSR 分子标记既可避免基因组
图 3 茯苓转录组中注释到新陈代谢通路的含 SSR 的
Unigene 的通路分析
Fig. 3 Analysis on Unigenes containing SSR in transcriptome
of P. cocos annotated into metabolism pathway
SSR(genomic-SSR)周期长、成本高,以及 EST-SSR
的数据量少的问题,又具有 genic-SSR 的优点;同
时,这种技术也充分利用了转录组测序的结果。虽
然相较于基因组 SSR 和 EST-SSR 分子标记,转录
组 SSR 开发晚,目前利用转录组的 SSR 研究还比
较少;但是,从已经开展的研究发现基于转录组 SSR
开发的分子标记多态性和扩增效果较好,说明转录
组 SSR 适宜用来进行分子标记的开发[13]。但由于真
核生物会对转录本 RNA 进行切去内含子等加工,
使用基于转录组序列设计的引物有可能会出现目的
片段长度的变化,引物位点正好被内含子打断从而
不能结合模板等问题,前者的变化是稳定的,后者
则需要对引物进行筛选。
此外,虽然茯苓生产中的不规范操作造成了种
质资源混乱等现象,亟需开发分子标记等技术以利
于对茯苓进行谱系分析、分子标记辅助育种等工作,
但是茯苓的分子标记开发研究报道仍较少,只有极
少量的 RAPD[3,14]、SRAP[3,6]、ISSR[15]的报道,未
查阅到茯苓 SSR 的研究报道,因此,本研究能为茯
苓 SSR 标记的开发奠定基础。
4.2 茯苓转录组 SSR 的分布及序列特征
本研究对茯苓菌核、菌丝两个样本高通量测序
组装后的 Unigene 序列进行 SSR 分布及序列特征分
析,从 41 327 条 Unigene 中找到 2 197 个 SSR,分
布在 1 887 条 Unigene 中,包含 SSR 的序列出现频
率为 4.57%;比报道的多孔菌目 EST-SSR 的 9.80%
出现频率低,但比同时报道的多孔菌科 EST-SSR
1.14%频率高。另外,茯苓转录组 SSR 密度为 58.78
个/Mb,即平均相隔 17.01 kb 出现 1 个 SSR 序列,
比从基因组中找出 SSR 的密度略高;比报道多孔菌
新陈代谢
遗传信息处理
环境信息处理
细胞过程
有机体系统
人类疾病
药物研发
0 25 50 75 100 300 350
总览图
碳水化合物代谢
能量代谢
脂类代谢
核苷酸代谢
氨基酸代谢
其他氨基酸代谢
聚糖生物合成及代谢
辅因子及维生素代谢
萜类及聚酮代谢
其他次生产物代谢
异质物降解及代谢
0 25 50 200 250
Unigene 数
注释到 K 编号数
Unigene 数
注释到 K 编号数
中草药 Chinese Traditional and Herbal Drugs 第 46 卷 第 23 期 2015 年 12 月
• 3563 •
目的 149.81 个/Mb 少,比多孔菌科平均 34.81 个/kb
多[13]。这种差异,一方面与物种本身 SSR 数量差异
有关,还与原始序列数量、长度,以及搜索 SSR 时
长度设定最低标准不同有关。本研究与陈媛媛[16]报
道的 EST-SSR 同时在这 3 个方面都不同。
同时,由于上述因素的影响,也形成了 SSR 的
序列特征的差异。本研究发现茯苓转录组 SSR 数量
最丰富的是六核苷酸重复基元,其次是三核苷酸基
元;这与一般认为的二核苷酸为最、三核苷酸次之
有所不同。在茯苓基因组 SSR 中也同样出现五核苷
酸、六核苷酸重复基元较丰富的情况,由于参数设
定不同,这与基因组报道的不同[10]。此外,茯苓单
核苷酸、三核苷酸、四核苷酸重复基元数量最多的
C/G、CCG/CGG、ACGC/CGTG 重复基元与从基因
组搜索到的最多的基元相同。从单一重复基元计,
转录组、基因组中重复基元数量最多的均为二核苷
酸,分别为 (CG/CG)n、(AG/CT)n,占总 SSR 数的
10.97%及 12.03%。
4.3 茯苓转录组 SSR 的功能关联
通过对茯苓转录组中含 SSR 的 Unigene 进行
GO 分类发现其主要归类于生物进程类下的细胞代
谢进程、分子功能类下的核苷酸结合及细胞组分类
下的细胞组分类。另外,通过 KEGG 代谢通路注释,
Unigene 多为新陈代谢及遗传信息处理功能,且在
新陈代谢类通路中主要分布于碳水化合物代谢、氨
基酸代谢等通路中。综合 GO 分类及 KEGG 代谢通
路注释结果可推知,茯苓转录组中含 SSR 的
Unigene 主要为生物体的基础代谢相关的功能。但
在注释 GO 分类及 KEGG 代谢通路时出现了多个
Unigene 共同注释到相同功能上,这种情况的出现
除了正常的基因家族等多个基因行使相同功能外,
也可能与转录本在加工时的可变剪接、软件拼接错
误等有关。因此,对转录组 SSR 的应用还需要进行
相应的引物筛选等工作,同时,可有针对性地选择
与一定功能相关的基因作为 SSR 标记位点,从而利
于目标性状的筛选。
参考文献
[1] Kalia R K, Rai M K, Kalia S, et al. Microsatellite
markers: an overview of the recent progress in plants [J].
Euphytica, 2011, 177(3): 309-334.
[2] 常 玮, 赵 雪, 李 侠, 等. 大豆 EST-SSR 标记开发
及与 Genomic-SSR 的比较研究 [J]. 中国油料作物学
报, 2009, 31(2): 149-156.
[3] 中国药典 [S]. 一部. 2015.
[4] Wang W, Dong H, Yan R, et al. Comparative study of
lanostane-type triterpene acids in different parts of Poria
cocos (Schw.) Wolf by UHPLC-Fourier transform MS
and UHPLC-triple quadruple MS [J]. J Pharm Biomed
Anal, 2015, 102: 203-214.
[5] Xu Z Y, Tang W R, Xiong B, et al. Effect of revulsive
cultivation on the yield and quality of newly formed
sclerotia in medicinal Wolfiporia cocos [J]. J Nat Med,
2014, 68(3): 576-585.
[6] Wang Y Z, Zhang J, Zhao Y L, et al. Mycology,
cultivation, traditional uses, phytochemistry and
pharmacology of Wolfiporia cocos (Schwein.) Ryvarden
et Gilb.: A review [J]. J Ethnopharmacol, 2013, 147(2):
265-276.
[7] 熊 杰, 林芳灿, 王克勤, 等. 茯苓基本生物学特性研
究 [J]. 菌物学报, 2006, 25(3): 446-453.
[8] 蔡志欣, 蔡丹凤, 陈美元, 等. 32 个茯苓菌株的 SRAP
分析 [J]. 食药用菌, 2013, 21(2): 96-98.
[9] Shu S H, Chen B, Zhou M C, et al. De novo sequencing
and transcriptome analysis of Wolfiporia cocos to reveal
genes related to biosynthesis of triterpenoids [J]. PLoS
One, 2013, 8(8): e71350.
[10] Floudas D, Binder M, Riley R, et al. The Paleozoic origin of
enzymatic lignin decomposition reconstructed from 31
fungal genomes [J]. Science, 2012, 336(6089): 1715-1719.
[11] Conesa A, Gotz S, Garcia-Gomez J M, et al. Blast2GO: a
universal tool for annotation, visualization and analysis in
functional genomics research [J]. Bioinformatics, 2005,
21(18): 3674-3676.
[12] Ye J, Fang L, Zheng H, et al. WEGO: a web tool for
plotting GO annotations [J]. Nucleic Acids Res, 2006, 34
(Web Server issue): W293-297.
[13] 李小白, 向 林, 罗 洁, 等. 转录组测序 (RNA-seq)
策略及其数据在分子标记开发上的应用 [J]. 中国细胞
生物学学报, 2013, 35(5): 720-726.
[14] 蔡丹凤, 陈美元, 郭仲杰, 等. 茯苓栽培菌株的 RAPD
分析 [J]. 中国农学通报, 2010, 26(20): 57-60.
[15] 谢贤安, 汪思迪, 曾晓丽, 等. 茯苓菌属遗传多样性的
ISSR 分析 [J]. 湖北农业科学, 2008, 40(10): 1111-1113.
[16] 陈媛媛. 猪苓 EST-SSR 标记的开发及遗传多样性研究
[D]. 杨凌: 西北农林科技大学, 2014.