全 文 : 菌物学报
jwxt@im.ac.cn 15 March 2014, 33(2): 289‐296
Http://journals.im.ac.cn Mycosystema ISSN1672‐6472 CN11‐5180/Q © 2014 IMCAS, all rights reserved.
研究论文 Research paper DOI: 10.13346/j.mycosystema.130284
基金项目:国家重点基础研究发展计划(No. 2014CB138303);国家科技支撑计划课题:食用菌新品种培育及制种
关键技术研究(No. 2013BAD16B02)
*Corresponding author. E‐mail: huangchenyang@caas.cn
收稿日期: 2013‐12‐23, 接受日期: 2014‐01‐03
糙皮侧耳不同单核体基因序列的保守性分析
曲积彬 张金霞 陈强 黄晨阳*
中国农业科学院农业资源与农业区划研究所 北京 100081
摘 要:从已公布的糙皮侧耳基因组信息入手,用全局比对法计算两个不同单核之间基因序列的相似性,这种相
似性与基因序列的保守性有关。通过对保守和不保守的基因集合进行功能富集分析研究,分析与序列保守性相关
的 Gene Ontology 功能。保守基因集合中显著富集的主要是一些代谢过程、催化酶活性、输送等功能。不保守基因
集合中显著富集的多为激酶活性、绑定、调控等功能。
关键词:基因组,全局比对,基因本体论,功能富集分析
The conservation for the genes of Pleurotus ostreatus between
different monokaryons
QU Ji‐Bin ZHANG Jin‐Xia CHEN Qiang HUANG Chen‐Yang*
Institute of Agricultural Resources and Regional Planning, Chinese Academy of Agricultural Sciences, Beijing 100081,
China
Abstract: This research was based on the public genome of Pleurotus ostreatus. We applied the global alignment algo‐
rithm to calculate the similarities of genes between different monokaryons, which associating with the conservation of
sequence. The relationships between the conservation and gene ontology were analyzed by functional enrichment
analyses for gene sets with different conservation. The significant enriched functions of conserved gene set were related
to metabolic process, catalytic activities and transport, while those of non‐conserved gene set were mostly kinase activi‐
ties, binding and regulation.
Key words: genome, global alignment, gene ontology, functional enrichment analysis
糙皮侧耳 Pleurotus ostreatus (Jacq.) P.
Kumm.,俗称平菇,是一种重要的食药用真菌
(戴玉成和杨祝良 2008;戴玉成等 2010),该
菌近年来一直是我国产量最高的食用菌。在世
ISSN1672‐6472 CN11‐5180/Q Mycosystema March 15, 2014 Vol. 33 No. 2
http://journals.im.ac.cn/jwxtcn
290
界食用菌市场占有量为第二(Sánchez 2010)。
和多数食用菌一样,糙皮侧耳需要两个可交配
的单核体结合形成双核体菌丝后才能进行生长
发育并产生孢子。异核体是糙皮侧耳生长过程
中一个很重要的阶段,有关生长发育,有性繁
殖等重要的活动大多发生在异核体阶段
(Castanera et al. 2013)。
2009 年 6 月,美国国家能源部联合基因组
研究院(DOE‐JGI)公布了糙皮侧耳的基因组
(Grigoriev et al. 2012)。基因组的公布有利于
从分子层面解释糙皮侧耳的生理特性,为糙皮
侧耳遗传育种与生物技术的发展奠定基础。大
量相关的研究随之而来,比如与相近物种之间
的系统发育和进化分析、基因功能预测、转录
表达分析等(Castanera et al. 2013,2012;
Ruiz‐Dueñas et al. 2011)。但是,与基因组序列
有关的基础分析还比较少。尤其是在异核体阶
段,两套基因组在细胞中共存,它们之间有何
异同?在研究这一阶段的基因表达、转录调控、
遗传进化等问题时,首先弄清两套基因组序列
的差异显得尤为重要。
本文中我们首先研究糙皮侧耳两个单核体
之间基因序列的相似性,这种相似性与基因保
守性有关。然后分析序列保守性与基因功能之
间的关系。
1 材料与方法
1.1 菌株与基因组信息
已经公布基因组的糙皮侧耳菌株编号为
N001,是北美地区常用的商业品种,基因组大
小为 34.3Mbp(mega base pairs)。两个单核称
为 PC9 和 PC15,基因数目分别是 11 603 和
12 330 个。其中 PC15 的拼接质量很高,能够
真实的还原染色体的结构。在 2010 年 6 月更
新的 2.0版数据中,PC15基因组由 12个 scaffold
组成,其中 8 个可以代表完整的染色体,3 个
代表部分染色体,剩下一个是序列片段
(Grigoriev et al. 2012)。因此,在本研究中,
我们以 PC15 的单核体为目标基因组,来研究
糙皮侧耳的基因在不同单核之间的保守性。
1.2 序列比对方法
序列比对大致可以分为两种:全局比对和局
部比对。全局比对是对两条完整的序列进行比
对,其中每一个字符都要参与打分;局部比对则
是找出最大相似的子序列,并非所有字符都参与
打分。由于计算速度快,目前大多数基于数据库
的比对方法[FastA(Pearson & Lipman 1988)、
BLAST(Altschul et al. 1990)]都属于局部比对。
在本研究中,我们基于一个合理的假设:
糙皮侧耳两个单核的相似程度很高,PC15 中的
绝大部分基因在 PC9中都应该找到相应基因与
之序列全长高度相似。因此,我们采用比对两
条完整序列的全局比对算法。对 PC15 中的每
一个基因,在 PC9 中找与之全局相似性最高的
基因,并记录一致性得分,以此作为评价糙皮
侧耳基因在不同单核间的序列保守性。全局比
对算法选取经典的 Needleman‐Wunsch 算法
(Needleman & Wunsch 1970),相似性矩阵选
取 NUC44 矩阵。
2 结果与分析
2.1 基因序列的保守性
在糙皮侧耳单核 PC15的 12 330个基因中,
有 7 567 个(61.4%)能在 PC9 中找到一致性很
高的基因(identity>90%),这些基因序列在两
个单核之间的保守性很高。有 9 617 个基因
(78%)能在 PC9 中找到一致性比较高基因
(identity>70%)。按照一般的理解,两条序列
相似性达到 70%可以认为他们有可能具有同源
的关系,说明这些基因在另一个核中具有潜在
曲积彬 等 /糙皮侧耳不同单核体基因序列的保守性分析
菌物学报
291
的同源基因。有 2 099 个基因(17%)在另一个
核中找到的基因一致性较低(identity<60%),
他们的序列在单核间的保守性较低(图 1)。
图 1 糙皮侧耳 PC15 单核体中的基因与 PC9 中基因的
相似性分布
Fig. 1 The distribution of identities between the mono‐
karyons of Pleurotus ostreatus PC15 and PC9.
2.2 保守与不保守的基因集合富集的功能
与序列保守性相比,人们更加关注基因的
功能。目前比较流行的描述基因产物功能的数
据库是Gene Ontology(GO)(Harris et al. 2008)。
在已经公布的基因组信息里,很多基因(5 850
个,47.4%)有相应的 GO 功能注释。
为了研究序列相似性与基因功能之间的联
系,我们使用功能富集分析来寻找糙皮侧耳保
守/不保守的基因集合中显著富集或缺失的 GO
功能(Blüthgen et al. 2005)。这里我们使用
Blast2GO 软件来实现功能富集分析(Conesa et
al. 2005)。保守基因集合选取序列一致性大于
90%的 7 567 个基因;不保守基因集合选取序列
一致性小于 60%的 2 099 个基因。它们相对于
全部基因集合显著富集的 GO功能见表 1、表 2。
我们用校正后的多重检验显著性指标 false
discovery rate( FDR)来代替传统的 P 值
(Benjamini & Yekutieli 2001)。显著性阈值为
FDR<0.05。
总的来说,保守基因集合和不保守基因集
合富集/缺失的功能各有其偏好。保守基因集合
中催化酶活性功能富集,而不保守集合中此功
能缺失,取而代之富集的是与绑定有关的分子
功能。保守基因集合中富集很多代谢过程(有
机酸代谢、碳水化合物代谢、有机氮代谢等)
和运输过程,而不保守基因集合中富集的是合
成过程和代谢调控的功能。与细胞质有关的功
能在保守基因集合中富集,但在不保守基因集
合中缺失;同时细胞核和细胞膜相关的功能在
不保守基因集合中富集。
通过对照表 1 和表 2,可以发现二者有互
补的信息。即保守基因集合富集的功能,很多
在不保守基因集合中缺失;同时不保守基因集
合富集的功能多在保守基因集合缺失。比如碳
水化合物代谢过程在保守基因集合中富集而在
不保守基因集合中缺失,这说明执行此功能的
基因在序列上往往很保守。再如与分子修饰、
磷酸化作用有关的一系列功能在不保守基因集
合中富集而在保守基因集合中缺失,说明与此
类功能相关的基因序列不太保守。
催化酶活性的功能在两个基因集合中的富
集情况也呈现出完全不同的趋势(图 2)。在保
守基因集合中,催化酶活性功能富集;催化酶
活性的子功能出现较多,但都是缺失。而不保
守基因集合中催化酶活性功能缺失,但蛋白质
激酶活性功能富集。这说明执行催化酶活性功
能的大部分基因序列是保守的。催化酶活性的
子功能中,大部分都会保留少数序列保守的基
因,这些基因对于维持生命体的稳定性具有重
ISSN1672‐6472 CN11‐5180/Q Mycosystema March 15, 2014 Vol. 33 No. 2
http://journals.im.ac.cn/jwxtcn
292
表 1 保守基因集合中显著富集(FDR<0.05)的 GO 功能
Table 1 The significant enriched GO terms for conserved gene set
Go‐id Term Over/Under P‐value Category Fdr
Go:0006468 Protein phosphorylation Under 3.50e‐09 P 7.48e‐06
Go:0004672 Protein kinase activity Under 4.32e‐09 F 7.48e‐06
Go:0016310 Phosphorylation Under 7.44e‐08 P 8.59e‐05
Go:0004713 Protein tyrosine kinase activity Under 1.14e‐06 F 9.89e‐04
Go:0004190 Aspartic‐type endopeptidase activity Under 1.84e‐06 F 0.001065
Go:0070001 Aspartic‐type peptidase activity Under 1.84e‐06 F 0.001065
Go:0016773 Phosphotransferase activity, alcohol group as acceptor Under 2.29e‐06 F 0.001132
Go:0006464 Cellular protein modification process Under 3.07e‐06 P 0.001183
Go:0036211 Protein modification process Under 3.07e‐06 P 0.001183
Go:0043412 Macromolecule modification Under 5.02e‐06 P 0.00174
Go:0005975 Carbohydrate metabolic process Over 7.02e‐06 P 0.002211
Go:0016301 Kinase activity Under 1.26e‐05 F 0.003634
Go:0006793 Phosphorus metabolic process Under 5.13e‐05 P 0.013593
Go:0006796 Phosphate‐containing compound metabolic process Under 6.16e‐05 P 0.013593
Go:0006520 Cellular amino acid metabolic process Over 6.46e‐05 P 0.013593
Go:0019752 Carboxylic acid metabolic process Over 6.67e‐05 P 0.013593
Go:0043436 Oxoacid metabolic process Over 6.67e‐05 P 0.013593
Go:0003824 Catalytic activity Over 9.90e‐05 F 0.018644
Go:0006082 Organic acid metabolic process Over 1.02e‐04 P 0.018644
Go:0006811 Ion transport Over 1.15e‐04 P 0.019308
Go:0004674 Protein serine/threonine kinase activity Under 1.17e‐04 F 0.019308
Go:1901564 Organonitrogen compound metabolic process Over 1.30e‐04 P 0.020529
Go:0004523 Ribonuclease H activity Under 1.95e‐04 F 0.029384
Go:0005737 Cytoplasm Over 2.27e‐04 C 0.032854
Go:0006820 Anion transport Over 2.89e‐04 P 0.040125
Go:0071705 Nitrogen compound transport Over 3.04e‐04 P 0.040485
Go:0019538 Protein metabolic process Under 3.53e‐04 P 0.045316
注:Term 表示 GO 数据库中对基因功能的命名词条;over/under 表示此功能在基因集合中是富集还是缺失;P value
指显著性概率;FDR 即错误发现率,是修正后的显著性概率;Category 表示 GO 数据库将所有功能划分为 3 大类:
P 表示 biological process(生物过程);F 表示 molecular function(分子功能);C 表示 cellular component(细胞
元件). 下表同.
Note: Term: The term for representing gene product properties in the gene ontology database; Over/Under: The corre‐
sponding function is enriched or lacked in the gene set; P value: Significance probability; FDR: False discovery rate;
Category: The ontology covers three domains; P means biological process; F means molecular function; C means cellular
component. The same applies to the following table.
曲积彬 等 /糙皮侧耳不同单核体基因序列的保守性分析
菌物学报
293
表 2 不保守基因集合中显著富集(FDR<0.05)的 GO 功能
Table 2 The significant enriched GO terms for non‐conserved gene set
GO‐ID Term Over/Under P‐Value Category FDR
GO:0031323 Regulation of cellular metabolic process Over 6.75E‐07 P 6.64E‐04
GO:0051171 Regulation of nitrogen compound metabolic
process
Over 7.11E‐07 P 6.64E‐04
GO:0019219 Regulation of nucleobase‐containing compound
metabolic process
Over 7.11E‐07 P 6.64E‐04
GO:0003676 Nucleic acid binding Over 7.66E‐07 F 6.64E‐04
GO:0080090 Regulation of primary metabolic process Over 1.50E‐06 P 0.001037
GO:1901363 Heterocyclic compound binding Over 3.06E‐06 F 0.0014
GO:0097159 Organic cyclic compound binding Over 3.06E‐06 F 0.0014
GO:0006351 Transcription, DNA‐dependent Over 3.23E‐06 P 0.0014
GO:0032774 RNA biosynthetic process Over 3.72E‐06 P 0.001431
GO:0009889 Regulation of biosynthetic process Over 1.21E‐05 P 0.0028
GO:0031326 Regulation of cellular biosynthetic process Over 1.21E‐05 P 0.0028
GO:2000112 Regulation of cellular macromolecule biosyn‐
thetic process
Over 1.21E‐05 P 0.0028
GO:0010556 Regulation of macromolecule biosynthetic proc‐
ess
Over 1.21E‐05 P 0.0028
GO:2001141 Regulation of RNA biosynthetic process Over 1.29E‐05 P 0.0028
GO:0051252 Regulation of RNA metabolic process Over 1.29E‐05 P 0.0028
GO:0006355 Regulation of transcription, DNA‐dependent Over 1.29E‐05 P 0.0028
GO:0046914 Transition metal ion binding Over 1.37E‐05 F 0.002801
GO:0010468 Regulation of gene expression Over 1.61E‐05 P 0.003007
GO:0008270 Zinc ion binding Over 1.75E‐05 F 0.003007
GO:0003824 Catalytic activity Under 1.79E‐05 F 0.003007
GO:0001071 Nucleic acid binding transcription factor activity Over 1.97E‐05 F 0.003007
GO:0003700 Sequence‐specific DNA binding transcription
factor activity
Over 1.97E‐05 F 0.003007
GO:0004672 Protein kinase activity Over 2.00E‐05 F 0.003007
GO:0060255 Regulation of macromolecule metabolic process Over 2.32E‐05 P 0.003351
GO:0006468 Protein phosphorylation Over 3.48E‐05 P 0.004826
GO:1901566 Organonitrogen compound biosynthetic process Under 4.24E‐05 P 0.005658
GO:0044710 Single‐organism metabolic process Under 6.27E‐05 P 0.008045
GO:0019222 Regulation of metabolic process Over 6.59E‐05 P 0.008162
GO:0005634 Nucleus Over 8.83E‐05 C 0.010554
ISSN1672‐6472 CN11‐5180/Q Mycosystema March 15, 2014 Vol. 33 No. 2
http://journals.im.ac.cn/jwxtcn
294
续表 2
GO:0016614 Oxidoreductase activity, acting on CH‐OH group
of donors
Under 9.54E‐05 F 0.011019
GO:0043167 Ion binding Over 1.14E‐04 F 0.012723
GO:0016310 Phosphorylation Over 1.24E‐04 P 0.013469
GO:0046872 Metal ion binding Over 1.31E‐04 F 0.01379
GO:0043169 Cation binding Over 1.39E‐04 F 0.014167
GO:0016616 Oxidoreductase activity, acting on the CH‐OH
group of donors, NAD or NADP as acceptor
Under 1.79E‐04 F 0.017503
GO:0016020 Membrane Under 1.83E‐04 C 0.017503
GO:0016773 Phosphotransferase activity, alcohol group as
acceptor
Over 1.87E‐04 F 0.017503
GO:0005488 Binding Over 2.02E‐04 F 0.018434
GO:0048037 Cofactor binding Under 2.16E‐04 F 0.018863
GO:0044281 Small molecule metabolic process Under 2.18E‐04 P 0.018863
GO:0043565 Sequence‐specific DNA binding Over 3.03E‐04 F 0.025598
GO:0051234 Establishment of localization Under 3.24E‐04 P 0.026132
GO:0006810 Transport Under 3.24E‐04 P 0.026132
GO:0005975 Carbohydrate metabolic process Under 3.77E‐04 P 0.029679
GO:0034654 Nucleobase‐containing compound biosynthetic
process
Over 4.05E‐04 P 0.030539
GO:0004674 Protein serine/threonine kinase activity Over 4.05E‐04 F 0.030539
GO:0051179 Localization Under 4.64E‐04 P 0.034212
GO:0044765 Single‐organism transport Under 5.33E‐04 P 0.03852
GO:0005737 Cytoplasm Under 6.44E‐04 C 0.045539
GO:0050794 Regulation of cellular process Over 6.84E‐04 P 0.047403
GO:0016491 Oxidoreductase activity Under 7.15E‐04 F 0.048565
要的作用。执行蛋白质激酶活性功能的基因大
部分不保守。
3 讨论
已公布的糙皮侧耳基因组信息是对两个单
核的基因分别命名。由于两个单核的亲缘关系
非常近,他们之间的基因势必具有紧密的联系。
本研究有助于将相同的基因(或等位基因、同
源基因)对应起来,为后续的深入研究做准备。
异核体阶段是以糙皮侧耳为代表的食用真
菌所具有的一种细胞形态,大部分与发育、遗
传有关的生命活动都发生在这一阶段。由于两
套基因组共存于单个细胞中,对此阶段的研究
更加复杂。比如说在转录过程中,某转录本来
源于哪套基因组;再如两个功能上具有差异的
等位基因哪个起主要作用等等。这些工作都要
基于序列差异。
曲积彬 等 /糙皮侧耳不同单核体基因序列的保守性分析
菌物学报
295
图 2 保守基因集合(A)和不保守基因集合(B)中富集的有关催化酶活性的功能网络 红色越深表示此功能富
集的显著性越高,绿色越深表示此功能缺失的显著性越高.
Fig. 2 The significant enriched functions in conserved (A) and non‐conserved (B) gene sets. The intensity of red means
the significance of over‐enrichment; the intensity of green means the significance of under‐enrichment.
由于计算速度的限制,人们在序列相似性分
析工作中更多的选用局部比对算法。以本研究为
例,一共需要计算超过 1.43亿(12 330×11 603)
次两两比对。选用全局比对算法虽然能够从整体
上对序列相似性进行评价,但要花费大量的计算
时间。因此我们使用的研究方法更适用于比较规
模比较小且亲缘关系很近的基因组。
事实上,在糙皮侧耳中确实有大部分基因
在两个单核之间具有高度的序列相似性,说明
这些基因序列在种内很保守。同时也存在一部
ISSN1672‐6472 CN11‐5180/Q Mycosystema March 15, 2014 Vol. 33 No. 2
http://journals.im.ac.cn/jwxtcn
296
分基因的序列在单核之间的相似性不高,说明
这些基因序列在种内不太保守。
通过分析基因集合的功能,我们将这种序
列保守性与 GO 功能联系起来。保守基因集合
和不保守基因集合中富集的功能具有完全不同
的性质。一些与生命活动密切相关的功能往往
在保守基因集合中富集,如:一些重要的代谢
过程,催化酶活性,运输过程等。而一些对维
系正常生命过程不太重要的功能,如:分子修
饰,分子合成,则在不保守基因集合中富集。
绑定和代谢调控等功能也在不保守基因集合中
富集,说明糙皮侧耳中的调控功能可能受到比
序列保守性更复杂因素的影响。
[REFERENCES]
Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ, 1990.
Basic local alignment search tool. Journal of
Molecular Biology, 215: 403‐410
Benjamini Y, Yekutieli D, 2001. The control of the false
discovery rate in multiple testing under dependency.
Annals of Statistics, 29(4): 1165‐1188
Blüthgen N, Brand K, Čajavec B, Swat M, Herzel H, Beule
D, 2005. Biological profiling of gene groups utilizing
gene ontology. Genome Informatics, 16(1): 106‐115
Castanera R, Omarini A, Santoyo F, Pérez G, Pisabarro AG,
Ramírez L, 2013. Non‐additive transcriptional
profiles underlie dikaryotic superiority in Pleurotus
ostreatus laccase activity. PLoS One, 8(9): e73282
Castanera R, Pérez G, Omarini A, Alfaro M, Pisabarro AG,
Faraco V, Amore A, Ramírez L, 2012. Transcriptional
and enzymatic profiling of Pleurotus ostreatus
laccase genes in submerged and solid‐state
fermentation cultures. Applied and Environmental
Microbiology, 78: 4037‐4045
Conesa A, Götz S, García‐Gómez JM, Terol J, Talón M,
Robles M, 2005. Blast2GO: a universal tool for
annotation, visualization and analysis in functional
genomics research. Bioinformatics, 21: 3674‐3676
Dai YC, Yang ZL, 2008. A revised checklist of medicinal
fungi in China. Mycosystema, 27: 801‐824 (in
Chinese)
Dai YC, Zhou LW, Yang ZL, Wen HA, Bau T, Li TH, 2010. A
revised checklist of edible fungi in China.
Mycosystema, 29: 1‐21 (in Chinese)
Grigoriev IV, Nordberg H, Shabalov I, Aerts A, Cantor M,
Goodstein D, Kuo A, Minovitsky S, Nikitin R, Ohm RA,
2012. The genome portal of the department of
energy joint genome institute. Nucleic Acids
Research, 40(D1): D26‐D32
Harris M, Deegan J, Lomax J, Ashburner M, Tweedie S,
Carbon S, Lewis S, Mungall C, Day‐Richter J, Eilbeck
K, 2008. The gene ontology project in 2008. Nucleic
Acids Research, 36: D440‐D444
Needleman SB, Wunsch CD, 1970. A general method
applicable to the search for similarities in the amino
acid sequence of two proteins. Journal of Molecular
Biology, 48: 443‐453
Pearson WR, Lipman DJ, 1988. Improved tools for
biological sequence comparison. Proceedings of the
National Academy of Sciences, 85: 2444‐2448
Ruiz‐Dueñas FJ, Fernández E, Martínez MJ, Martínez AT,
2011. Pleurotus ostreatus heme peroxidases: an in
silico analysis from the genome sequence to the
enzyme molecular structure. Comptes Rendus
Biologies, 334(11): 795‐805
Sánchez C, 2010. Cultivation of Pleurotus ostreatus and
other edible mushrooms. Applied Microbiology and
Biotechnology, 85: 1321‐1337
[附中文参考文献]
戴玉成,杨祝良,2008. 中国药用真菌名录及部分名称
的修订. 菌物学报,27: 801‐824
戴玉成,周丽伟,杨祝良,文华安,图力古尔,李泰辉,
2010. 中国食用菌名录. 菌物学报,29: 1‐21