全 文 :文章编号:1001-4829(2008)01-0084-03
收稿日期:2007-05-22
作者简介:黄 婉(1982-),女 ,广西柳州人 ,硕士研究生, 主要
从事木霉遗传多样性研究 , E-mail;eventualy@sohu.com, *为通
讯作者 , heyueqiu@tom.com。
玉米黑粉菌基因组编码蛋白作用位点的计算机预测
黄 婉 1 ,范成明 1 ,吴毅歆 1, 2 ,何月秋1, 3*
(1.云南农业大学农业生物多样性与病虫害控制教育部重点实验室 ,云南昆明 650201;2.云南省农业科学院经济作物研究所 ,云
南 昆明 650205;3.云南农业大学农业与生物技术学院 ,云南 昆明 650201)
摘 要:利用已公布的玉米黑粉病菌基因组全序列数据及信号肽预测软件 SignalPv3.0、亚细胞器中蛋白定位分布预测软件 Tar-
getPv1.01、跨膜螺旋结构预测软件 TMHMMv2.0和膜锚定位点预测软件 Big-PIPredictor预测分析了玉米黑粉病菌基因组编码蛋
白的作用位点。结果表明 ,在 6522个 ORF中 ,具有分泌功能的有 543个 ,占全基因组基因总数的 8.3%;作用位点在线粒体的有
1552个 ,占全基因组基因总数的 23.4%;具有跨膜结构的有 1269个 ,占全基因组基因总数的 19.5%;锚定在膜上的有 56个 ,占全
基因组基因总数的 0.9%。
关键词:玉米黑粉病菌;基因组;亚细胞作用位点;计算机预测
中图分类号:S513.032 文献标识码:A
Computationalpredictiononsubcelularlocationofproteins
encodedinUstilagomaydisgenome
HUANGWan1 , FANCheng-ming1 , WUYi-xin1, 2 , HEYue-qiu1, 3*
(1.KeyLaboratoryofAgriculturalBiodiversityandPestsControl, MinistryofEducation, YunnanAgriculturalUniversity, YunnanKunming
650201, China;2.CashCropResearchInstitute, YunnanAcademyofAgricultutalSciences, YunnanKumning650205, China;3.Facultyof
AgronomyandBiotechnology, YunnanAgriculturalUniversity, YunnanKunming650201, China)
Abstract:Thebiosoftware, signalsequencespredictionalgorithmSignalPv3.0, subcelularproteinlocationpredictionalgorithmTargetPv1.
01, transmembranedomainspredictionalgorithmTMHMMv2.0andpotentialGPI-anchorsitespredictionalgorithmBig-PIPredictorwereem-
ployedtopredictthesubcelularlocationofproteinsencodedinUstilagomaydisgenome.Theresultsshowedthatamong6522 ORFs, 543
ORFs, 8.3%ofthetotalgenes, hadsecretedcharacteristic.Meanwhile, 1552 ORFswithmitochondrialtargetingpeptide, 1269ORFswith
transmembranestructureand56ORFswithGPI-anchoredstructureaccountedfor23.4%, 19.5% and0.9%ofthetotalgenes, respectively.
Keywords:Ustilagomaydis;genome;subcelularlocation;computationalprediction
玉米黑粉病在中国报道已有 60多年的历史 ,由
于病害的猖獗发生和品种抗性的下降 ,该病已成为
玉米生产中的重要病害之一。为了更全面地了解玉
米黑粉病菌(Ustilagomaydis)的遗传信息及致病机
制 ,人们已对玉米黑粉病菌基因组进行了测序 ,其基
因组信息于 2004年在 htp://www.broad.mit.edu/
annotation/genome/ustilago-maydis/Info.html公布 。
到目前为止 ,虽然已有 358种生物体的基因组完成
了测序 (htp://supfam.mrc-lmb.cam.ac.uk/SU-
PERFAMILY/cgi-bin/gen-list.cgi),但基因功能分析
和新基因功能的验证工作却远远滞后。随着生物信
息学的迅速发展 ,大量预测未知基因功能的生物软
件应运而生 ,已成为后基因组学研究的重要工具。
为了了解玉米黑粉病菌基因组中 ORF的亚细胞作
用位点 ,本文利用准确性高 [ 1]的由 htp://www.cbs.
dtu.dk/services提供的 SignalPv3.0、TargetPv1.01、
TMHMMv2.0生物软件和 htp://mendel.imp.ac.
at/sat/gpi/gpi-server.html提供的 Big-PIPredictor生
物软件对玉米黑粉病菌基因组中 ORF的亚细胞作
用位点进行预测 ,旨在为该病菌后基因组学的深入
研究提供更广泛的科学依据 。
1 材料与方法
玉米黑粉病菌的基因组数据来源于 ftp://ftp.
84
西 南 农 业 学 报
SouthwestChinaJournalofAgriculturalSciences
2008年 21卷 1期
Vol.21 No.1
DOI :10.16213/j.cnki.scjas.2008.01.004
broad.mit.edu/pub/annotation/fungi/ustilago-maydis/
assembly1 /release2 /ustilago-maydis-1-proteins.fasta.
gz。根据蛋白 C端和 N端的序列特点 ,利用 SignalP
v3.0、TargetPv1.01、TMHMMv2.0和 Big-PIPredic-
tor等 4种蛋白分析软件预测玉米黑粉病菌基因组
的蛋白作用位点 。具体预测方法参照范成明等 [ 2]
的预测方法 。并采用 Blast2sequences和 Clustal1.
83对具有相同信号肽的分泌蛋白的成熟蛋白进行
比对 ,分析其成熟蛋白的相似性 。
2 结果与分析
2.1 分泌型蛋白
在整个玉米黑粉病菌基因组中 ,具有分泌功能
的蛋白有 543个 ,占全基因组基因总数的 8.3 %。
分泌型蛋白的信号肽长度在 14 ~ 59aa(图 1),平均
长度为 23.7aa。在 543条分泌蛋白中 ,仅有 4对多
肽链的信号肽是相同的 。即 UM01239和 UM01240
的信号肽相同 ,其序列为 MRLILLAAALFGLALSHA,
UM03313和 UM03314 的信号肽序列同为 MC-
CLLLLPVLYLAFHVAQA, UM03745和 UM03750的
信 号 肽 序 列 同 为 MIVVQLTVLLMLLPLALA,
UM05622 和 UM03634 的序列 同为 MTASVRG-
FITLLPFLLLLLAASQA。具有相同信号肽的成熟蛋
白之间的相似性很高 ,在 90%以上。这可能是这几
条多肽链的真实反映 ,其成熟蛋白具有很高的同源
性 ,表明它们在功能上是相似的 ,可能有相同的分泌
途径。在细胞中数以千计的蛋白质合成后 ,必须精
确定向地运送到特定的细胞亚结构 ,才能保证细胞
活动的正常运行 [ 3] 。信号肽的这种高度特异性可
能是其成熟蛋白被精准引导 ,从而行使自身功能的
基本保证。
信号肽在 20种氨基酸残基的利用频率上存在
明显的差异(图 2)。 20种氨基酸残基的利用频率
在 0.5% ~ 20.1%,其中 L的利用频率最高 ,为 20.1
%,其次是 A,为 16.5 %;而两种带负电的氨基酸
图 1 信号肽的长度分布
Fig.1 Lengthdistributionofthesignalpeptides
图 2 氨基酸残基在信号肽中的使用频率
Fig.2 Ratioofthe20aminoacidresiduesinthesignalpeptides
残基 D和 E的利用频率最低 ,均为 0.5 %。在 20
种氨基酸残基中 , 不带电荷的氨基酸的利用率为
92.2 %;非极性氨基酸(A、F、G、I、L、M、P、V、W和
Y)的利用频率为 69.8 %;疏水性氨基酸(A、C、F、
G、H、I、L、M、T、V、W和 Y)的利用率为 77.3 %;分
子量较小的氨基酸(A、C、D、G、N、P、S、T和 V)的利
用率为 52.9 %。信号肽在氨基酸使用上的这种偏
好性 ,可能与信号肽易穿过内质网膜和质膜 ,行使信
号传导功能有关。
2.2 编码蛋白的作用位点为线粒体的 ORF
在玉米黑粉病菌 6522个编码蛋白的 ORF序列
中 ,预测为编码蛋白的作用位点在线粒体的序列共
有 1552个 ,占序列总数的 23.4%。
2.3 编码蛋白具跨膜结构的 ORF
玉米黑粉病菌基因组中编码具有跨膜结构的蛋
白的 ORF有 1269个 ,占总 ORF数的 19.5%。蛋白
中的跨膜螺旋结构数在 0 ~ 19个 ,其中无跨膜螺旋
结构的蛋白最多为 5253,占 ORF总数的 80.5 %。
其次是具有 1个跨膜结构螺旋的蛋白有 464条。在
跨膜螺旋结构中跨膜的肽链长度在 17 ~ 32aa。
2.4 编码蛋白具膜锚定结构的 ORF
锚定蛋白在整个基因组中有 56个 ,占基因组编
码蛋白数量的 0.9 %。锚定位点距 C端的长度在
17 ~ 44aa,平均为 25.8 aa(图 3)。从膜锚定蛋白的
锚定位点来看 ,锚定氨基酸残基多为 S和 P,其中以 S
图 3 膜锚定蛋白的锚定长度
Fig.3 LengthofthesignalpeptidesinGPI-anchoredproteins
851期 黄 婉等:玉米黑粉菌基因组编码蛋白作用位点的计算机预测
为位点的有 23个 ORF,以 P为位点的有 33个。
3 讨 论
2004年公布的玉米黑粉病菌基因组中有 6522
个 ORF,其中仅有 63个 ORF的功能是已知的 ,约占
全基因组基因总数的 1.0 %。在 6459个未知功能
的 ORF中 ,仅有 84个 ORF具有推测功能 ,也仅占
全基因组基因总数的 1.3 %,可见基因功能研究的
滞后。生物信息学为加快基因功能的研究提供了一
条很好的思路。可以通过该方法预先了解未知基因
的一些基本的信息 ,为功能的验证提供重要的参考 。
通过计算分析 ,在玉米黑粉病菌 6522个 ORF编码
的蛋白中 ,确定了 543条分泌蛋白 , 1552条作用位
点在线粒体的蛋白 , 1269条具有跨膜结构的蛋白 ,
56个锚定在细胞膜上蛋白。通过生物信息学的方
法明确作用位点的蛋白占全基因组基因总数的 52.4
%,这在一定程度上对功能基因组的验证起着积极
的推动作用 。
不同的生物体基因组中 ,分泌型蛋白所占的比
例在 8.0%左右 。如原核生物革兰氏阳性细菌枯草
芽孢杆菌(Bacilussubtilis)和革兰氏阴性细菌根癌
农杆菌(Agrobacteriumtumefaciens)中的分泌蛋白分
别占整个基因组基因总数的 7 %[ 4]和 8.2 %[ 2] ;真
核生物水稻稻瘟病菌(Magnaporthegrisea)和秀丽小
杆线虫(Caenortheditiselegansws123)中的分泌蛋白
分别占基因总数的 9.0 %[ 5]和 10.0 %[ 6] ;人类的
基因组中分泌蛋白所占的比例为 11.5 %[ 7] 。从这
些结果来看 ,随着生物的不断进化 ,分泌蛋白的数量
有逐渐增多的趋势 ,似乎与物种的进化相关 [ 10] 。但
是从已预测的结果来看 ,在某些生物中分泌蛋白所
占的比例小于 8.0 %,如在一种古硫细菌中分泌蛋
白所占的比例为 4.2%[ 8] ;白色念珠菌(Candidaal-
bicans)和酿酒酵母(Saccharomycescerevisiae)基因组
中分泌蛋白的数量分别约占全基因组基因总数的
4.6 %[ 1]和 2.4 %[ 9] 。也就是说 ,分泌蛋白的数量
和物种的进化程度间是否有必然联系 ,还需要做进
一步的研究 。
从分泌蛋白的信号肽长度来看 ,在原核生物的
枯草芽孢杆菌中的信号肽平均长度为 28aa[ 4] ,而根
癌农杆菌的为 25.4aa[ 2] ;真核生物水稻稻瘟病菌 [ 5]
和粗糙脉孢霉(Neurosporacrasa)的信号肽的平均
长度均为 21aa[ 10] ,秀丽小杆线虫的平均长度为 19.
0aa[ 6] 。可见不同物种的信号肽的平均长度间存在
差异 。但由于目前对不同生物中信号肽长度的分析
研究甚少 ,还难以分析物种进化与信号肽长度变化
之间的相关性 。
如今已有大量的生物软件可以对蛋白质的某些
性质进行预测分析 ,这些工具软件提供的数据结果
可以令我们更好更快地进行后期的研究工作 。但是
功能相同的不同软件之间的分析结果差异很大 ,且
单个软件的准确性通常不尽如人意 ,所以我们在运
用生物软件进行分析时 ,应尽量采用多个有相同功
能的不同软件 ,以尽量避免由于软件自身不足而产
生的错误结果的出现。同时我们在利用这些数据
时 ,应把它们作为我们今后实验的参考 ,而不能过度
依赖 。因此 ,尽管本文对 Ustilagomaydis基因组编
码蛋白作用位点进行了预测 ,但各基因位点的真正
功能还有待更多的生物学实验的证实。
参考文献:
[ 1] SamuelALee, StevenW, SophienK, etal.AnanalysisoftheCandi-
daalbicansgenomedatabaseforsolublesecretedproteinsusingcom-
puter-basedpredictionalgorithms[ J] .Yeast, 2003, 20:595-610.
[ 2]范成明 ,李成云 ,赵明富 ,等.根癌土壤杆菌 C58Cereon中分泌蛋
白信号肽分析 [ J] .微生物学报 , 2005, 45(4):561-566.
[ 3]王静岩 ,朱圣庚 ,徐长法 ,等.生物化学(第三版)[ M] .北京:高等
教育出版社 , 2002.
[ 4] TjalsmaH, BolhuisA, JongbloedJD, etal.Signalpeptide-dependent
proteintransportinBacilussubtilus;agenome-basedsurveyofthese-
cretome[ J] .MicrobiolMolBiolRev, 2000, 64:515-517.
[ 5]苏 源 ,李成云 ,赵之伟 ,等.稻瘟菌基因组规模分泌蛋白的预测分
析 [ J] .云南农业大学学报 , 2006, 21(3):271-275.
[ 6]吴红芝 ,李成云 ,朱有勇 ,等.秀丽小杆线虫分泌蛋白组的计算机
分析 [ J] .遗传 , 2006, 28(4):470-478.
[ 7] ChenYunjia, YuPeng, LuoJingchu, etal.Secretedproteinprediction
systemcombingCJ-SPHMM, TMHMMandPSORT[ J] .Mammalian
Genome, 2003, 14:859-865.
[ 8] SonjaV, ArnoldJM.DriessenSignalpeptidesofsecretedproteinsof
thearchaeonSulfolobussolfataricus:agenomicsurvey[ J] .ArchMi-
crobiol, 2002, 177:209-216.
[ 9]杨 静 ,李成云 ,朱有勇 ,等.酿酒酵母分泌蛋白组的计算机分析
[ J] .中国农业科学 2005, 38(3):516-522.
[ 10]周晓罡 ,李成云 ,赵之伟 , 等.粗糙脉孢菌基因组分泌蛋白的初
步分析 [ J] .遗传 , 2006, 28(2):200-207.
(责任编辑 谢晓慧)
86 西 南 农 业 学 报 21卷