全 文 :食用菌学报2016.23(1):13~17
收稿日期:2016-01-01原稿;2016-02-08修改稿
基金项目:上海市农委项目[沪农青字(2016)第1-16号]、[沪农科攻字(2015)第5-6号]和[沪农科攻字(2015)第(6-
1-5)号]资助
作者简介:吕贝贝(1985-),女,2012年毕业于南京农业大学生命科学学院,博士,助理研究员,主要从事真菌分子
生物学与生物信息学研究。
*本文通讯作者 E-mail:xueming70@foxmail
DOI:10.16488/j.cnki.1005-9873.2016.01.003
普通羊肚菌密码子偏好性分析
吕贝贝1,2,吴 潇1,2,蒋 玮1,2,于海龙3,金剑锋4,陈 雷5,谭 琦3,唐雪明1,2!
(1上海市农业科学院生物技术研究所,上海201106;2上海市农业遗传育种重点实验室,上海201106;
3上海市农业科学院食用菌研究所,农业部南方食用菌资源利用重点实验室,国家食用菌工程技术研究中心,
国家食用菌加工技术研发分中心,上海市农业遗传育种重点开放实验室,上海201403;
4上海市农业科学院农业科技信息技术研究所,上海201106;5南京野生植物综合利用研究院,南京210000)
摘 要:采用CodonW1.4.2软件和CUSP程序,以普通羊肚菌(Morchela conica)全基因组蛋白质编码序列
(coding sequence,CDS)为对象,解析了该菌的有效密码子数(effective number of codon,ENC)、密码子3个位
点的GC含量、相对同义密码子使用度(relative synonymous codon usage,RSCU)和高表达优越密码子。结果
表明:普通羊肚菌全基因组密码子第2位密码子的GC含量明显低于第1位和第3位,第3位密码子与第1位
含量差异不大,分别为57.8%和56.8%,RSCU值大于等于1的密码子总共35个,其中以 G或C结尾的25
个,占71.4%,确定了25个高表达优越密码子。
关键词:普通羊肚菌;编码序列;密码子偏好性;优越密码子
生物界中大部分物种均采用标准的遗传编码系统进行蛋白质翻译,密码子是生物体内信息传递的
基本单元,3个碱基组成的密码子为基本的氨基酸翻译单位,ATCG 4种碱基共形成了64种不同的密
码子,在长期的物种进化过程中,形成了较为固定的起始密码子 ATG 和3种终止密码子TAA、TAG
和TGA,除去3种终止密码子后实际编码氨基酸的密码子共有61种,但是最终编码的氨基酸只有20
种,由此存在了密码子冗余的现象,即一种氨基酸可由多种密码子编码,这些编码相同氨基酸的密码子
称之为同义密码子。不同的物种编码同种氨基酸所利用的密码子种类不同,使用频率也不同,这种现
象称为密码子偏好性。最早关于密码子偏好性的研究是1989年 BONEKAMP发现大肠杆菌
(Escherichia coli)全基因组偏好性[1]。普通羊肚菌(Morchella conica)是著名的珍稀食药用菌,味道鲜
美,营养丰富,具有提神醒脑、补肾壮阳和抗肿瘤的功效[2-4],笔者以普通羊肚菌全基因组蛋白质编码序
列(coding sequence,CDS)为对象,通过CodonW 软件和CUSP程序分析该菌的密码子使用特征,为羊
肚菌基因选择合适的表达系统,优化密码子和提高基因表达量等奠定研究基础。
1 材料与方法
1.1标本
普通羊肚菌(M.conica)于2015年5月采自云南省昆明市禄劝县轿子山,标本经上海市农业科学
院转基因环境安全评价实验室提取基因组DNA,交由上海派森诺生物公司测序,并将ITS序列提交到
NCBI网站进行BLAST比对后鉴定为普通羊肚菌。
1.2CDS获得
将样品的基因组DNA构建400bp、700bp Paired End文库和3000bp、10000bp Mate pair文库,
运用读长为2*250bp的 Miseq技术组装文库,SOAPdenovo软件评价组装结果。采用C语言编写程
食 用 菌 学 报 第23卷
序剔除序列长度小于300bp(氨基酸数量小于100)CDS作为分析样本[5]。
1.3密码子偏性分析
采用Codon W 1.4.2软件分析CDS,获得有效密码子数(effective number of codon,ENC),第1
位、第2位和第3位碱基中 GC含量以及相对同义密码子使用度(relative synonymous codon usage,
RSCU)。根据ENC值对基因由大到小排序,抽取前后10%的基因分别作为样本的高表达样本组和低
表达样本组,分别计算各个密码子的RSCU值,卡方检验确定高表达基因的优越密码子。
2 结果与分析
2.1有效密码子数与GC含量
获得9676个CDS作为分析样本,经CodonW1.4.2软件分析获得全基因组共计9981条基因的
4497467个密码子,密码子中不同位置GC含量不同,其中第2位的GC含量较低,为42%,第1位和第
3位的GC含量差异较小,分别为57.8%和56.8%,GC平均含量为52.2%。
2.2ENC-plot曲线
ENC值是一个基因的密码子使用频率与同义密码子平均使用频率偏差的量化值。高表达基因的
密码子趋向于使用一种或几种同义密码子,偏爱程度越大,ENC值越小;反之,低表达基因含有的稀有
密码子种类多,偏好程度小,ENC值越大[6-7]。ENC-plot曲线是以ENC值为纵坐标,密码子第3位
GC含量(GC3s)为横坐标,描述ENC与GC3s之间函数关系的曲线,能有效分析密码子的偏好性,无
图1 普通羊肚菌ENC-plot曲线
Fig.1 Relationship between the effective number
of codons(ENCs)and the GC content of the
third codon position(GC3)in M.conica
选择压力下,表示ENC值的点应落
在曲线上。如果密码子偏好主要受
碱基组成的影响,ENC值则位于曲线
附近;如果密码子受选择压力的影
响,偏好性显著,相应的点则位于曲
线下方。曲线上方对应的基因偏向
于随机使用密码子[8]。在普通羊肚
菌的全基因组中较少的基因位点分
布在ENC-plot曲线上,大部分基因
都不同程度的偏离曲线(图1),表明
少数基因的密码子偏好性受基因的
碱基组成影响,大部分基因在进化过
程中受环境选择压力等其他因素的
影响从而使密码子的偏好性发生
差异。
2.3相对同义密码子使用度
RSCU值反映的是密码子在编码同义氨基酸间的相对概率,当同义密码子对应氨基酸的使用频率
相同,则相对密码子使用度就是1。当密码子的使用频率相对较高时则相对密码子使用度大于1(高频
密码子),反之当密码子的使用频率相对较低时则相对密码子使用度小于1[9]。普通羊肚菌中 RSCU
值大于等于1的密码子总共35个,其中以G或C结尾的25个,占71.4%;以A或T结尾的10个,占
28.6%(表1)。
2.4优越密码子
经分析确定了TTC、CTC和ATC等25个密码子为普通羊肚菌的优越密码子,这些优越密码子将
为外源基因在羊肚菌中的表达提供了编码基因序列优化的参考,也将显著提高外源基因的表达水平和
翻译准确率。
41
第1期 吕贝贝,等:普通羊肚菌密码子偏好性分析
表1 普通羊肚菌蛋白质编码基因的密码子
Table1 Usage of M.conicacoding sequences
氨基酸
Amino acid
密码子
Codon
相对密码子使用度
Relative synonymous
codon usage
氨基酸
Amino acid
密码子
Codon
相对密码子使用度
Relative synonymous
codon usage
Phe TTT 0.90(45%) GAG 1.25(62%)
TTC 1.10(55%) Ser TCT 1.01(17%)
Leu TTA 0.43(9%) TCC 1.13(19%)
TTG 0.96(20%) TCA 0.99(16%)
CTT 1.11(23%) TCG 0.94(16%)
CTC 1.67(35%) AGT 0.79(13%)
CTA 0.60(13%) AGC 1.14(19%)
CTG 1.22(29%) Pro CCT 0.86(22%)
Ile ATT 1.04(25%) CCC 1.12(28%)
ATC 1.44(34%) CCA 1.07(27%)
ATA 0.52(12%) CCG 0.95(23%)
Met ATG 1.00(100%) Thr ACT 0.86(22%)
Val GTT 1.05(26%) ACC 1.29(32%)
GTC 1.20(30%) ACA 1.03(26%)
GTA 0.57(14%) ACG 0.81(20%)
GTG 1.18(30%) Ala GCT 0.85(21%)
Tyr TAT 0.89(44%) GCC 1.20(30%)
TAC 1.11(56%) GCA 0.95(24%)
TER* TAA 0.90(30%) GCG 1.00(25%)
TAG 1.28(43%) Cys TGT 0.82(41%)
TGA 0.82(27%) TGC 1.18(59%)
His CAT 0.88(44%) Trp TGG 1.00(100%)
CAC 1.12(56%) Arg AGA 1.07(18%)
Gln CAA 0.80(40%) AGG 1.33(22%)
CAG 1.20(60%) CGT 0.81(13%)
Asn AAT 0.88(44%) CGC 1.42(24%)
AAC 1.12(56%) CGA 0.60(10%)
Lys AAA 0.73(36%) CGG 0.77(13%)
AAG 1.27(64%) Gly GGT 0.90(22%)
Asp GAT 1.03(52%) GGC 1.23(31%)
GAC 0.97(48%) GGA 0.91(23%)
Glu GAA 0.75(38%) GGG 0.95(24%)
*终止密码子;下划线表示高频密码子
*Termination codon;High-frequency codons are underlined
3 讨论
GC含量在同义密码子使用偏好性的过程中具有重要的作用,密码子偏好性强的基因使用G或C
结尾密码子的概率要大,第3位密码子的变异往往是密码子偏好性发生变化的决定性因素[10]。在物种
长期进化过程中,环境和选择压力差异造成了不同的进化历程,所以任何物种为适应其特定的环境和
基因组条件,都要形成自己特定的符合其基因组的密码子使用法则。密码子偏好性受多个因素的影
响,如基因表达水平[11]、mRNA二级结构[12]、翻译效率[13]、基因的碱基组分[14]、基因长度[15-16]、二核苷
酸的出现频率[17]、RNA丰度[18]、编码蛋白质的结构和功能[19]及密码子-反密码子间结合能的大小[20]。
在不存在自然选择压力的条件下,一定方向的突变压力会造成基因编码序列的碱基组成差异,同样,这
51
食 用 菌 学 报 第23卷
种突变压力也会影响密码子的第3位碱基种类[21]。在进化过程中,若A(T)到G(C)的突变压力大,那
么密码子的第3位碱基是G(C)的概率就要高[22]。对于普通羊肚菌而言,密码子的碱基组成中第3位
碱基上GC含量为57.8%,高于A(T)的含量,说明与普通羊肚菌密码子偏好性一致的物种在进化过程
中A(T)到G(C)的突变压力高于G(C)到A(T)的突变压力。普通羊肚菌的优越密码子的确定对于今
后羊肚菌转基因过程中对构建合适的转基因表达系统具有重要的指导意义,针对普通羊肚菌所偏好的
密码子进行优化改造目的基因,从而提高目的蛋白质的表达量,同时为普通羊肚菌基因外源表达选择
适合的宿主提供重要基础,为食药用真菌的密码子优化建立参考模本。
参考文献
[1]BONEKAMP F,DALBOGE H,CHRISTENSEN T,et al.Translation rates of individual codons are not
correlated with tRNA abundances or with frequencies of utilization in Escherichia coli[J].J Bacteriol,1989,171
(11):5812-5816.
[2]LIN SY,CHEN YK,YU HT et al.Comparative study of contents of several bioactive components in fruiting
bodies and mycelia of culinary-medicinal mushrooms[J].Int J Med Mushrooms,2013,15(3):315-323.
[3]SU CA,XU XY,LIU DY,et al.Isolation and characterization of exopolysaccharide with immunomodulatory activity
from fermentation broth of Morchela conica[J].DARU J Pharm Sci,2013,21(1):5.
[4]HUANG M,ZHANG S,ZHANG M,et al.Effects of polysaccharides from Morchela conica on nitric oxide
production in lipopolysaccharide-treated macrophages[J].Appl Microbiol Biotechnol,2012,94(3):763-771.
[5]蒋玮,吕贝贝,何建华,等.草菇密码子偏好性分析[J].生物工程学报,2014,30(9):1424-1435.
[6]XU Y,JIA R,ZHANG Z,et al.Analysis of synonymous codon usage pattern in duck circovirus[J].Gene,2015,
557(2):138-145.
[7]ZHANG Z,DAI W,WANG Y,et al.Analysis of synonymous codon usage patterns in torque tenosus virus1
(TTSuV1)[J].Arch Virol,2013,158(1):145-154.
[8]LIU H,HE R,ZHANG H,et al.Analysis of synonymous codon usage in Zea mays[J].Mol Biol Reports,2010,37
(2):677-684.
[9]ZHOU Y,CHEN X,USHIJIMA H,et al.Analysis of base and codon usage by rubela virus[J].Arch Virol,
2012,157(5):889-899.
[10]CARLINI DB,CHEN Y,STEPHAN W.The relationship between third-codon position nucleotide content,codon
bias,mRNA secondary structure and gene expression in the drosophilid alcohol dehydrogenase genes Adh and
Adhr[J].Genet,2001,159(2):623-633.
[11]DAS S,ROYMONDAL U,SAHOO S.Analyzing gene expression from relative codon usage bias in yeast genome:
a statistical significance and biological relevance[J].Gene,2009,443:121-131.
[12]ZAM M.Codon usage and secondary structure of mRNA[J].Nucleic Acid Symp,1990,22:93-94.
[13]STENSTROM CM,JIN HN,MAJOR LL.Codon bias at the 3’-side of the initiation codon is correlated with
translation initiation efficiency in Escherichia coli[J].Gene,2001,263(1-2):273-284.
[14]TSAI CT,LIN CH,CHANG CY.Analysis of codon usage bias and base compositional constraints in iridovirus
genomes[J].Virus Res,2007,126:196-206.
[15]DURET L,MOUEHIREUD D.Expression pattern and surprisingly,gene length shape codon usage in
Caenorhabditis,Drosophila and Arabidopsis[J].Proc Nat Acad Sci,USA,1999,96(8):4482-4487.
[16]MORIYAMA EN,POWELL JR.Gene length and codon usage bias in Drosophila melanogaster,Saecharomyces
cerevisiae and Eseherichia coli[J].Nucleic Acid Res,1998,26(13):3188-3193.
[17]IKEMURA T.Codon usage and tRNA content in unicelular and multicelular organism[J].Mol Biol Evol,1985,
2(1):13-34.
[18]MORIYAMA EN,POWELL JR.Codon usage bias and tRNA abundance in Drosophila[J].J Mol Evol,1997,45
(5):514-523.
[19]GUPTA SK,BHATTACHARYA TK.Studies on the relationships between the synonymous codon usage and
61
第1期 吕贝贝,等:普通羊肚菌密码子偏好性分析
protein secondary structural units[J].Biochem Biophys Res Commun,2000,269:692-696.
[20]刘次全,谢君,柳树群,等.人类基因中同义密码子的偏好与密码子—反密码子间的结合强度密切相关吗?[J].科
学通报,2000,45(23):2520-2525.
[21]时慧,王玉,杨路成,等.茶树抗寒调控转录因子ICE1密码子偏性分析[J].园艺学报,2012,39(7):1341-1352.
[22]NOVEMBER JA.Accounting for background nucleotide composition when measuring codon usage bias[J].Mol
Biol Evol,2002,19(8):1390-1394.
Analysis of Codon Bias in Morchella conica
LV Beibei 1,2,WU Xiao1,2,JIANG Wei 1,2,YU Hailong3,JIN Jianfeng4,
CHEN Lei 5,TAN Qi 3,TANG Xueming1,2*
[1 Biotechnology Research Institute,Shanghai Academy of Agricultural Sciences,Shanghai 201106,China;
2Shanghai Key Laboratory of Agricultural Genetics and Breeding,Shanghai 201106,China;3Institute of
Edible Fungi,Shanghai Academy of Agricultural Sciences,Key Laboratory of Edible Fungi Resources and
Utilization(South),Ministry of Agriculture,P.R.China;National Engineering Research Center of Edible
Fungi,National R&D Center for Edible Fungi Processing,Key Laboratory of Agricultural Genetics and
Breeding of Shanghai,Shanghai 201403,China;4Information Research Institute of Science and Technology,
Shanghai Academy of Agricultural Sciences,Shanghai 201106,China;5 Nanjing Institute for Comprehensive
Utilization for Wild Plants,Nanjing,210000]
Abstract:Codon bias in the genome coding sequence of Morchela conica was investigated using bioinformatics
codon W1.4.2software and the CUSP program,and the effective number of codons(ENCs),the GC
content of the third codon position (GC3s),relative synonymous codon usage and optimal codons were
determined.Analysis of the base composition at each position of every codon in the entire M.conica genome
revealed GC distribution to be 57.8%,42.0% and 56.8% at the 1st,2nd and 3rd positions,respectively.
ENC-GC3splots for coding sequence genes revealed that a smal number of genes fel on the standard curve
while the majority of points lay below,indicating that most of the observed codon bias of the major genes
could be attributed to a product of GC mutation bias.Relative synonymous codon usage(RSCU)of 64codons
revealed 35high frequency codons(RSCU value≥1)including 25codons with G/C in the third position
which can be used to study molecular evolution and genetic transformation in M.conica.
Key words:Morchela conica;coding sequence;codon usage bias;optimal code
[本文编辑] 马丹丹
71