全 文 :书犇犗犐:10.11686/犮狔狓犫2015016 犺狋狋狆://犮狔狓犫.犾狕狌.犲犱狌.犮狀
杨国锋,苏昆龙,赵怡然,宋智斌,孙娟.蒺藜苜蓿叶绿体密码子偏好性分析.草业学报,2015,24(12):171179.
YANGGuoFeng,SUKunLong,ZHAOYiRan,SONGZhiBin,SUNJuan.Analysisofcodonusageinthechloroplastgenomeof犕犲犱犻犮犪犵狅狋狉狌狀
犮犪狋狌犾犪.ActaPrataculturaeSinica,2015,24(12):171179.
蒺藜苜蓿叶绿体密码子偏好性分析
杨国锋1,2,苏昆龙1,2,赵怡然1,宋智斌1,2,孙娟1
(1.青岛农业大学经济草本植物应用研究所,山东 青岛266109;2.青岛农业大学生命科学学院,
山东省高校植物生物技术重点实验室,山东 青岛266109)
摘要:本文对蒺藜苜蓿叶绿体基因组全序列密码子进行分析,筛选出50条CDS(codingDNAsequence)利用Codo
nW软件进行分析其密码子使用模式。结果显示,蒺藜苜蓿叶绿体基因组密码子第3位碱基GC含量为26.9%,即
第3位密码子富含A和U,ENC值在37.11~51.91之间密码子偏好性较弱。相对同义密码子使用度分析显示
RSCU值大于1的密码子有23个,其中以 A和 U为结尾20个。中性绘图分析显示GC12与 GC3 的相关系数为
0.341,相关性不显著,回归系数为0.4843;单基因ENC比值多分布在-0.05~0.05,即大部分基因ENC值离ENC
期望值较近;对应性分析,第一轴显示了12.50%的差异为主要影响因素,第一轴与ENC和GC3 的相关系数分别
为0.091和-0.092,均相关不显著。综合这几项分析发现蒺藜苜蓿叶绿体基因组密码子偏好性主要受到突变的
影响,但是并不是唯一的影响因素,其他因素对密码子偏好性也可能有一定的影响。最终通过高表达优越密码子
方法确定得出UUA、UUG、CCU等23个密码子为最优密码子,为之后对外源基因进行改造,提高其在叶绿体中的
表达效率奠定了基础。
关键词:蒺藜苜蓿;叶绿体;密码子偏好性;最优密码子
犃狀犪犾狔狊犻狊狅犳犮狅犱狅狀狌狊犪犵犲犻狀狋犺犲犮犺犾狅狉狅狆犾犪狊狋犵犲狀狅犿犲狅犳犕犲犱犻犮犪犵狅狋狉狌狀犮犪狋狌犾犪
YANGGuoFeng1,2,SUKunLong1,2,ZHAOYiRan1,SONGZhiBin1,2,SUNJuan1
1.犐狀狊狋犻狋狌狋犲狅犳犈犮狅狀狅犿犻犮犎犲狉犫犘犾犪狀狋狊,犙犻狀犵犱犪狅犃犵狉犻犮狌犾狋狌狉犪犾犝狀犻狏犲狉狊犻狋狔,犙犻狀犵犱犪狅266109,犆犺犻狀犪;2.犆狅犾犾犲犵犲狅犳犔犻犳犲犛犮犻犲狀犮犲狊,
犙犻狀犵犱犪狅犃犵狉犻犮狌犾狋狌狉犪犾犝狀犻狏犲狉狊犻狋狔,犓犲狔犔犪犫狅犳犘犾犪狀狋犅犻狅狋犲犮犺狀狅犾狅犵狔犻狀犝狀犻狏犲狉狊犻狋犻犲狊狅犳犛犺犪狀犱狅狀犵犘狉狅狏犻狀犮犲,犙犻狀犵犱犪狅266109,
犆犺犻狀犪
犃犫狊狋狉犪犮狋:Thecompletenucleotidesequenceofthechloroplastgenomeof犕犲犱犻犮犪犵狅狋狉狌狀犮犪狋狌犾犪wasinvestiga
ted.FiftyCDS(codingDNAsequences)selectedfromthechloroplastgenomesequenceof犕.狋狉狌狀犮犪狋狌犾犪,
wereanalyzedusingCodonWsoftware.TheresultsshowthatthethirdcodonpositionwasrichinAandU.
ENCrangedfrom37.1to51.9meaningthatthecodonbiaswasweak.Therewere23codonswithrelativesyn
onymouscodonusagegreaterthan1and20codonsendingwithAandT.ENCplotanalysisshowedthatGC3
wasnotcorrelatedwithGC12;ENCratio’sofmostgenesrangedfrom -0.05to0.05.Inthecorrespondence
analysisofthefirstgroupoffouraxes,thefirstaxisshowed10.3%variation.Thecorrelationcoefficientsfor
axis1betweenENCandGC3were0.091and-0.092respectively(notsignificant).Synonymouscodonusage
biaswasfound,mainlyduetotheeffectofmutationpressure,buttherewereotherfactors.Inaddition,analy
第24卷 第12期
Vol.24,No.12
草 业 学 报
ACTAPRATACULTURAESINICA
2015年12月
Dec,2015
收稿日期:20150112;改回日期:20150312
基金项目:现代农业产业技术体系(CARS35),公益性行业项目(200903060)和国家自然科学基金青年科学基金项目(31200906)资助。
作者简介:杨国锋(1977),男,山东青岛人,在读博士。
通信作者Correspondingauthor.Email:yanggf@qau.edu.cn
sisofthehighexpressioncodonsenabled23tobeaffirmedasthe“optimalcodons”asUAA,UUG,CCU.The
resultsprovideevidenceformolecularmodificationofexogenousgenestoincreasetheexpressionefficiencyin
犕.狋狉狌狀犮犪狋狌犾犪chloroplasts.
犓犲狔狑狅狉犱狊:犕犲犱犻犮犪犵狅狋狉狌狀犮犪狋狌犾犪;chloroplast;codonusagebias;codonusagebias
遗传信息的传递是生物进行生命活动最主要环节,在这一活动中密码子扮演着重要的角色,编码不同氨基酸
密码子的准确识别是保证遗传信息正确表达的关键。密码子具有兼并性,即同一氨基酸能由一个或多个密码子
所对应,这样的密码子称为同义密码子(synonymouscodon)。研究发现,密码子的使用存在不均等的现象,即有
的密码子使用频率高于其他同义密码子的使用,这一现象称为密码子偏好性(codonusagebias)。密码子偏好性
是在生物长期进化过程中所形成的,不同的物种间密码子使用的偏好性不同。由于密码子偏好性的存在常导致
外源基因在宿主中表达量降低[1]。研究密码子的使用模式对探究物种的进化模式和提高外源基因的表达具有重
要意义。
关于密码子偏好性形成的机制,最早Grantham等[2]提出的“多基因假说”认为在长期的系统发育进化过程
中,不同的基因组存在不同的密码子使用模式,暗示环境的影响(突变压力)是密码子偏好性形成的主要影响因
素。Ikemura[3]发现高表达基因更倾向于使用一些特定的密码子,这与tRNA的丰富度相对应,并提出选择压力
通过优化翻译效率和精确度来影响同义密码子的使用频率。近年来的研究发现,不同物种间密码子偏好性的差
异并非由单一因素决定。Sharp和Li[4]发现密码子的使用情况与同义替换率有关,Olejniczak和Uhlenbeck[5]通
过对单细胞组织进行研究发现密码子的使用情况与tRNA的丰富度有关系。同时密码子亲水性、DNA复制起
止位点[6]、基因长度[7]、翻译准确性选择[810]和表达水平[11]等因素对密码子偏好性也产生影响。
与核基因组相比叶绿体基因组密码子使用模式的研究相对落后些,目前数据库中完整的叶绿体基因序列数
据相对有限,仅有玉米(犣犲犪犿犪狔狊)、水稻(犗狉狔狕犪狊犪狋犻狏犪)、文心兰(犗狀犮犻犱犻狌犿)、银白杨(犘狅狆狌犾狌狊犪犾犫犪)等植物的完
整叶绿体基因组数据。苜蓿(犕犲犱犻犮犪犵狅)为一年生或多年生草本植物,是重要的豆科牧草。随着基因测序技术的
发展,蒺藜苜蓿(犕犲犱犻犮犪犵狅狋狉狌狀犮犪狋狌犾犪)为研究豆科植物的尤其是苜蓿属的模式植物[12],其叶绿体基因组的测序
已经完成,但是关于苜蓿叶绿体密码子使用模式的研究还未见报道。本研究通过对蒺藜苜蓿叶绿体基因组密码
子使用模式以及影响密码子使用模式的主要因素进行分析,为以后苜蓿叶绿体的研究和应用奠定基础。
1 材料与方法
1.1 材料
2014年10月从GenBank下载完整的蒺藜苜蓿叶绿体基因组(登录编号:NC_003119.6)。共下载到不含重
复的76条CDS(codingDNAsequence),由于短序列不能正确地计算有效密码子数[13],研究需去除其中长度小
于300bp的CDS。本研究去除26条长度小于300bp的CDS,剩余50条CDS用于后面的数据分析。
1.2 方法
在分析时去除不编码任何氨基酸的终止密码子UAA、UGA和 UAG,还有色氨酸的唯一密码子UGG和蛋
氨酸的唯一密码子AUG,这些密码子不存在偏好性。使用DNAMAN将50条DNA序列编码成可在CodonW
软件中运行的.dat格式文件,运行CodonW 软件对基因序列进行分析得到相应数据。对所得到的数据进行整
理,使用SPSS及Excel进行下文所述的相关作图及分析。对序列进行3次重复分析,每次分析均得到相同的实
验结果。
1.2.1 相对同义密码子使用度分析 相对同义密码子使用度(relativesynonymouscodonusage,RSCU)表
示该密码子的实际使用值与理论使用值之间的比值[14]。当RSCU<1时,表示该密码子的使用频率低于其他同
义密码子;RSCU>1时,则表示该密码子的使用频率高于同义密码子;RSCU=1表示该密码子没有偏好性。
1.2.2 中性绘图分析 统计密码子3个位置的GC含量,第1,2,3位的GC含量分别表示为GC1、GC2、GC3,
271 草 业 学 报 第24卷
GC12表示GC1 和GC2 的平均值。中性绘图分析以GC12为纵坐标,以GC3 为横坐标作图。通过分析密码子的第
1,2位和第3位碱基组成的相关性,研究密码子的偏好性影响因素。当GC12与GC3 之间显著相关,说明3个位
置上的碱基组成无差异,密码子的使用受突变的影响。当GC12与GC3 相关性不显著,回归系数接近0,说明第1,
2位和第3位碱基组成不同,基因组GC含量高度保守,密码子的使用更多地受选择影响[15]。
1.2.3 ENCplot绘图分析 有效密码子数(effectivenumberofcodon,ENC)反映的是密码子偏离随机选择
的程度[16],是反映同义密码子非均衡使用偏好程度的重要指标,通常高表达基因其密码子偏好程度较大,因此
ENC取值较小;低表达基因含有较多种类的稀有密码子偏好性较弱,ENC值也较大。ENCplot绘图分析以
ENC为纵坐标,GC3 为横坐标作图。该分析主要检测碱基组成对密码子偏好性的影响,绘图中的标准曲线表示
密码子偏好性仅由碱基组成决定基因位置,标准曲线计算方法如下:
犈犖犆=2+GC3+ 29GC32+(1-GC3)2
基因沿标准曲线分布或落在标准曲线附近表示该基因密码子偏好性仅受突变影响,基因落在标准曲线下方
较远的位置表示该基因密码子偏好性受到选择的影响。
1.2.4 PR2plot绘图分析 PR2偏倚分析(PR2biasplotanalysis)是为了避免密码子第3位碱基A与T和
C与G之间突变不平衡,根据偏倚规则(parityrule2,PR2),如果两条互补链间不存在任何突变或选择效应上的
偏倚,那么碱基含量上应该有A=T和C=G。对由4个同义密码子编码的氨基酸的各个密码子第3位A、T、C、
G的情况进行分析,计算每个基因A3/(A3+T3)和G3/(G3+C3),分别作纵坐标和横坐标作图,图中中心点表示
A=T且C=G,其余的点由中心点向该点发出的矢量表示了该基因的偏倚程度和方向[17]。
1.2.5 对应性分析 对应性分析(correspondenceanalysis)是一种多元相依的变量统计分析技术,通过分析
由定性变量构成的交互汇总表来揭示变量间的联系,可以揭示同一变量的各个类别之间的差异,以及不同变量各
个类别之间的对应关系。为探究不同基因在密码子用法上的变异趋势,基于RSCU值进行对应性分析,CodonW
软件会将样本中所有基因分布到一个58维(58个同义密码子)的向量空间中,其中每个点就代表一个同义密码
子。密码子的用法特点通过图中每个点之间的位置体现出来。通过探究基因向量及基因间的值的变异情况,推
测出密码子偏好性的主要影响因素。第一轴表现最大差异的密码子使用变化,随后的副轴变化量逐渐降低。
McInerney[18]指出,两个主轴间基因的分散代表了主要的密码子变化趋势。将表现差异最大的第一轴和第二轴
分别作为横纵坐标作图,图中点代表不同基因,根据图中点的分布情况判断基因密码子的使用模式。
1.2.6 最优密码子的确定 最优密码子(themostpreferredcodon)的选择,以ENC为偏好性标准,两极各选
10%的基因,分别建成高低偏性库,取两库ΔRSCU>0.08的密码子[19]。
本研究所使用的软件包括DNAMAN6.0、CodonW1.4.2、SPSS19和Excel2013。
2 结果与分析
2.1 密码子组成分析
使用CodonW软件对各基因编码序列进行分析(表1)。原则上ENC的取值范围为20~61,ENC值大小反
映的密码子偏性的强弱,当ENC为20时,表示同义密码子完全偏倚;为61时,表示同义密码子没有偏倚;按照惯
例以35作为偏性强弱的区分标准[18],表中ENC取值范围在37.11~51.91之间,并且大部分大于45,所以蒺藜
苜蓿叶绿体基因密码子偏性较弱。密码子第3位GC的平均含量为26.9%,明显低于前两位45.5%和36.8%的
GC含量,说明密码子第3位碱基组成多为A和U。
GC1、GC2、GC3、GCal、ENC和密码子数目N之间的关联分析见表2。GCal与GC1、GC2、GC3 之间的相关性
均达到了极显著水平,GC1 与GC2 显著相关,GC3 与GC1、GC2 均未达到显著水平,说明密码子的第1位与第2
位的碱基组成比较相似,但是与第3位不同。ENC与密码子第1、第2位置GC含量相关但是相关性不显著,与
密码子第3位的GC含量显著相关。ENC与密码子数目N之间未达到显著水平,说明密码子数目对ENC的影
响很弱,即排除了基因序列过短对密码子偏好性的影响。
371第12期 杨国锋 等:蒺藜苜蓿叶绿体密码子偏好性分析
表1 蒺藜苜蓿叶绿体基因组不同位置的犌犆含量
犜犪犫犾犲1 犌犆犮狅狀狋犲狀狋狅犳犱犻犳犳犲狉犲狀狋狆狅狊犻狋犻狅狀狊狅犳犮狅犱狅狀犻狀犮犺犾狅狉狅狆犾犪狊狋狅犳犕.狋狉狌狀犮犪狋狌犾犪
位置Codon CG1(%) CG2(%) GC3s(%) GCal(%) ENC 位置Codon CG1(%) CG2(%) GC3s(%) GCal(%) ENC
ndhF 37.9 36.3 17.9 30.8 43.09 petA 53.5 36.9 23.9 38.0 48.42
cosA 33.4 38.1 20.2 31.8 46.10 cemA 37.2 30.3 26.6 31.3 46.39
ndhD 40.4 39.4 24.9 34.7 48.21 accD 49.9 32.8 24.2 35.6 40.18
ndhE 41.2 35.1 22.7 34.0 50.60 atpA 55.7 40.3 22.4 39.3 45.50
ndhG 42.9 34.7 19.4 32.4 44.60 atpF 46.3 34.6 28.2 36.1 50.25
ndhI 44.5 36.8 19.4 33.5 43.85 atpI 48.9 38.0 22.4 35.6 44.06
ndhA 42.5 38.8 17.9 33.1 43.02 rpoC2 44.7 35.4 22.7 34.4 46.94
ndhH 54.9 38.0 17.8 36.6 47.29 rpoC1 50.7 38.4 20.2 36.3 45.96
ycf1 37.4 28.6 24.2 30.2 48.10 rpoB 51.0 38.9 24.3 37.9 48.56
rps12 54.8 48.4 26.2 43.0 44.03 psbD 56.2 46.2 27.5 42.7 45.37
rps7 50.7 47.3 22.0 39.7 46.98 psbC 56.0 48.9 25.0 42.7 44.14
ndhB 43.4 38.7 25.0 35.6 47.31 rps14 46.9 54.2 28.1 41.0 47.84
ycf2 42.6 33.6 30.9 35.6 50.54 psaB 52.0 43.9 25.3 40.6 48.57
rpl2 53.1 49.2 25.4 42.2 50.88 psaA 48.8 45.5 25.6 41.6 49.41
rps3 46.9 36.4 20.6 34.6 48.23 ycf3 47.4 39.7 27.6 38.0 50.52
rpl16 53.8 52.3 24.6 43.2 44.42 rps4 52.3 38.1 21.3 37.1 43.69
rpl14 46.7 39.2 20.0 35.8 47.48 ndhJ 54.4 38.3 23.5 38.4 44.38
rps8 41.9 38.8 22.5 34.3 39.43 ndhK 44.1 42.7 23.8 36.7 51.50
rps11 54.1 56.3 20.0 43.2 46.07 ndhC 48.6 34.2 19.8 34.2 41.75
rpoA 44.8 30.4 20.2 31.8 43.48 atpE 48.9 46.6 25.2 37.7 51.94
petD 53.9 39.6 26.0 39.5 46.49 atpB 58.3 43.0 24.9 41.8 46.37
petB 51.7 44.8 26.4 40.4 45.81 rbcL 60.1 45.2 23.0 42.5 43.64
psbB 58.2 48.6 23.5 42.8 45.63 matK 37.1 25.4 22.9 30.3 47.80
clpP 61.3 37.6 23.8 40.4 51.19 psbA 53.2 45.9 28.7 42.0 42.11
rp120 35.7 38.3 26.1 33.3 47.69 平均值Average 45.5 36.8 26.9 36.4
rps18 31.4 35.2 18.1 28.3 37.11
各种氨基酸的RSCU值分析见表3。从表中可以
看出,RSCU值大于1的主要是以U和A为结尾的密
码子,密码子以U和A为结尾的出现频率比较高,说
明这些为基因组偏爱密码子。相反以C和G为结尾
的密码子出现频率比较低,这些是基因组的非偏爱密
码子。
2.2 中性绘图分析
苜蓿叶绿体基因组各基因中性绘图分析见图1,
可以看出GC12的取值范围在0.178~0.309之间,GC3
取值范围在0.321~0.552之间。图中各基因未落在
对角线上或沿对角线分布,都在对角线上方分布。
GC12与GC3的相关系数为0.341,相关性不显著,回
表2 各基因相关性分析
犜犪犫犾犲2 犆狅狉狉犲犾犪狋犻狅狀犪狀犪犾狔狊犻狊狅犳犲犪犮犺犵犲狀犲狊
狉犲犾犪狋犲犱狆犪狉犪犿犲狋犲狉狊
项目Item GC1 GC2 GC3 GCal ENC
GC2 0.599
GC3 0.200 0.241
GCal 0.866 0.838 0.451
ENC 0.075 0.070 0.419 0.181
犖 -0.130 -0.302 0.186 -0.156 0.164
在0.01水平上显著相关; 在0.05水平上显著相关。
Significantcorrelationat犘<0.01;Significantcorrelationat
犘<0.05.
归系数(即图中斜率)为0.4843,说明第一、二位和第三位碱基组成无差异,蒺藜苜蓿叶绿体基因组密码子的使用
更多地受突变的影响。
471 草 业 学 报 第24卷
表3 蒺藜苜蓿各氨基酸相对同义密码子使用度
犜犪犫犾犲3 犚犛犆犝犪狀犪犾狔狊犻狊狅犳狆狉狅狋犲犻狀犮狅犱犻狀犵狉犲犵犻狅狀犻狀犕.狋狉狌狀犮犪狋狌犾犪
氨基酸
Aminoacid
密码子
Codon
数目
Number
RSCU 氨基酸
Aminoacid
密码子
Codon
数目
Number
RSCU 氨基酸
Aminoacid
密码子
Codon
数目
Number
RSCU
Phe UUU 1483 1.14 Ser UCU 1094 1.47 Tyr UAU 1000 1.12
UUC 1117 0.86 UCC 773 1.04 UAC 789 0.88
CUC 364 0.42 UCA 882 1.19 His CAU 677 1.15
CUA 671 0.77 UCG 487 0.66 CAC 499 0.85
CUG 604 0.69 Pro CCU 747 1.27 Gln CAA 1388 1.35
Ile AUU 1612 1.35 CCC 415 0.71 CAG 668 0.65
AUC 1018 0.85 CCA 911 1.55 Asn AAU 1778 1.17
AUA 943 0.79 CCG 281 0.48 AAC 1262 0.83
Val GUU 1184 1.49 Thr ACU 1052 1.38 AAG 1645 0.87
GUC 674 0.85 ACC 660 0.87 Asp GAU 1905 1.25
GUA 622 0.78 ACA 883 1.16 GAC 1145 0.75
GUG 690 0.87 ACG 444 0.58 Glu GAA 2371 1.41
Arg CGU 328 0.86 Ala GCU 1055 1.40 GAG 995 0.59
CGC 171 0.45 GCC 765 1.01 Cys UGU 434 1.18
CGA 151 0.39 GCA 836 1.11 UGC 303 0.82
CGG 103 0.27 GCG 368 0.49 Gly GGU 1284 1.87
AGA 1038 2.71 Ser AGU 717 0.97 GGC 552 0.80
AGG 504 1.32 AGC 500 0.67 GGA 557 0.81
GGG 355 0.52
2.3 ENCplot绘图分析
ENC与GC3 的关联分析见图2,由图可以看出部分基因位点沿着标准曲线分布或者落在标准曲线附近,这
些基因的实际ENC值与预期ENC值接近,部分基因位点落在期望值的下方。为了更直接地显示实际ENC值
和预期ENC值之间的差异,计算了ENC比值即(预期ENC值-实际ENC值)/预期ENC值,统计ENC比值频
数,从而显示出有多少基因距离期望值更近。从表4中可以看出大多数的ENC比值分布在-0.05~0.05之间,
这一范围内实际ENC值与预期ENC值相差较小,因此蒺藜苜蓿叶绿体基因组密码子偏好性与GC3 的差异相
关。所以蒺藜苜蓿叶绿体基因组密码子偏好性更多地受突变的影响,受选择地影响相对较弱一些。
图1 中性绘图分析
犉犻犵.1 犖犲狌狋狉犪犾犻狋狔狆犾狅狋犪狀犪犾狔狊犻狊
图2 犈犖犆狆犾狅狋绘图分析
犉犻犵.2 犃狀犪犾狔狊犻狊狅犳犈犖犆犪狀犱犌犆3狉犲犾犪狋犻狅狀狊犺犻狆
571第12期 杨国锋 等:蒺藜苜蓿叶绿体密码子偏好性分析
2.4 PR2plot绘图分析
通过PR2plot绘图分析了各基因部分氨基酸的
嘌呤(A和G)嘧啶(T和C)的关系。由图3可以看出
大部分基因分布在平面图的右下方,说明T的使用频
率高于A,G的使用频率高于C。若完全受到突变的
影响,A和T以及G和C的使用频率应当相等,因此
蒺藜苜蓿叶绿体基因组密码子使用模式不仅是受到突
变的影响,还受其他因素的影响。
2.5 对应性分析
基于RSCU的对应性分析中第1向量轴显示了
表4 犈犖犆比值频数分布
犜犪犫犾犲4 犇犻狊狋狉犻犫狌狋犻狅狀狅犳犈犖犆狉犪狋犻狅狀
组限
Classlimits
组中值
Classmidvalue
组数
Frequencynumber
组频
Frequency
-0.15~-0.05 -0.1 7 0.14
-0.05~0.05 0 27 0.54
0.05~0.15 0.1 13 0.26
0.15~0.25 0.2 3 0.06
合计Total 50 1
12.50%的差异,另外3个轴分别显示了9.01%,8.89%,8.23% 的差异,前4轴的累积差异38.63%,说明第1轴
是影响密码子叶绿体基因组密码子偏好性的主要因素。第1轴与ENC和 GC3 的相关系数分别为0.091和
-0.092,均相关不显著,说明GC3 并不是造成蒺藜苜蓿叶绿体基因组密码子偏好性的主要因素,暗示影响密码
子使用模式的因素并不单一。以第1轴为横坐标,第2轴为纵坐标,按照基因功能将基因分布于平面上(图4)。
编码核糖体蛋白基因和遗传系统基因分布相对比较集中,说明这些基因的密码子使用模式相近;而其他基因则分
布比较分散,说明这些密码子的使用模式存在差异。
图3 犘犚2狆犾狅狋绘图分析
犉犻犵.3 犃狀犪犾狔狊犻狊狅犳犘犚2犫犻犪狊狆犾狅狋
图4 基于犚犛犆犝的对应性分析
犉犻犵.4 犆狅狉狉犲狊狆狅狀犱犻狀犵犪狀犪犾狔狊犻狊犫犪狊犲犱狅狀犚犛犆犝
2.6 最优密码子分析
按ENC值的大小对各基因进行排序,两极各选取5个基因构建高表达基因库和低表达基因库,并对两个库
中密码子分别计算RSCU值,计算ΔRSCU值(表5),表中带星号的为最优密码子,其中可以看出ΔRSCU>0.5
的均为以A和U为结尾的密码子。
3 讨论
密码子偏好性是由多个因素共同作用的结果,其中中性选择影响和方向突变影响是两个主要因素,哪一个因
素为主导因素是目前的关注热点。密码子的碱基组成是由核苷酸突变和回复突变的结果,是对密码子使用最普
遍的影响[1921],尤其是密码子第3位的改变通常不会引起编码氨基酸的改变,第3位上的碱基突变受到的选择压
力比较小,因此研究第3位碱基的碱基组成对研究密码子偏好性有重要意义。通过对第3位密码子的GC含量
计算发现,第3位密码子富含A和T。本研究通过对蒺藜苜蓿叶绿体基因组中的基因部分氨基酸的密码子进行
PR2plot绘图分析发现,密码子第3位碱基 T的使用频率高于 A,G的使用频率高于C。尚明照等[22]以及
Zhang等[23]分别对陆地棉(犌狅狊狊狔狆犻狌犿犺犻狉狊狌狋狌犿)和小麦(犜狉犻狋犻犮狌犿犪犲狊狋犻狏狌犿)叶绿体基因组进行研究,发现密码
子第3位碱基T的使用频率高于A,C的使用频率略高于G;张月荣[24]对23种禾本科植物叶绿体密码子进行分
671 草 业 学 报 第24卷
析发现密码子第3位碱基C和G使用频率相当,T的使用频率高于A。这表明不同植物的叶绿体基因组的碱基
组成存在一定的差异,暗示影响密码子偏好性的因素也不相同。
表5 蒺藜苜蓿叶绿体基因组最优密码子确定
犜犪犫犾犲5 犘狉犲犳犲狉狉犲犱犮狅犱狅狀狊犻狀犮犺犾狅狉狅狆犾犪狊狋犵犲狀狅犿犲狅犳犕.狋狉狌狀犮犪狋狌犾犪
氨基酸
AA
密码子
Codon
高表达基因
Highexpressiongene
数目Number RSCU
低表达基因
Lowexpressiongene
数目Number RSCU
ΔRSCU 氨基酸
AA
密码子
Codon
高表达基因
Highexpressiongene
数目Number RSCU
低表达基因
Lowexpressiongene
数目Number RSCU
ΔRSCU
Phe UUU 49 1.36 23 1.70 -0.34 Tyr UAU 37 1.37 25 1.67 -0.30
UUC 23 0.64 4 0.30 0.34 UAC 17 0.63 5 0.33 0.30
Leu UUA 48 2.34 27 1.82 0.52 His CAU 14 1.47 14 1.40 0.07
UUG 30 1.46 16 1.08 0.38 CAC 5 0.53 6 0.60 -0.07
CUU 20 0.98 22 1.48 -0.50 Gln CAA 33 1.89 25 1.79 0.10
CUC 4 0.20 6 0.40 -0.20 CAG 2 0.11 3 0.21 -0.10
CUA 18 0.88 10 0.67 0.21 Asn AAU 65 1.46 41 1.52 -0.06
CUG 3 0.15 8 0.54 -0.39 AAC 24 0.54 13 0.48 0.06
Lys AAA 46 1.46 46 1.67 -0.21 Asp GAU 75 1.43 24 1.45 -0.02
AAG 17 0.54 9 0.33 0.21 GAC 30 0.57 9 0.55 0.02
Val GUU 30 1.64 22 1.54 0.10 Glu GAA 100 1.56 33 1.29 0.27
GUC 8 0.44 5 0.35 0.09 GAG 28 0.44 18 0.71 -0.27
GUA 28 1.53 26 1.82 -0.29 Cys UGU 10 1.82 10 1.54 0.28
GUG 7 0.38 4 0.28 0.10 UGC 1 0.18 3 0.46 -0.28
Ser UCU 35 1.68 16 1.68 0 Arg CGU 14 1.31 15 1.41 -0.10
UCC 10 0.48 4 0.42 0.06 CGC 6 0.56 5 0.47 0.09
UCA 8 0.38 15 1.58 -1.20 CGA 11 1.03 15 1.41 -0.38
UCG 9 0.43 5 0.53 -0.10 CGG 3 0.28 3 0.28 0
Pro CCU 41 2.52 17 1.74 0.78 AGA 22 2.06 21 1.97 0.09
CCC 3 0.18 7 0.72 -0.54 AGG 8 0.75 5 0.47 0.28
CCA 11 0.68 10 1.03 -0.35 Ser AGU 52 2.50 15 1.58 0.92
CCG 10 0.62 5 0.51 0.11 AGC 11 0.53 2 0.21 0.32
Thr ACU 34 2.27 18 1.36 0.91 Gly GGU 52 2.34 20 1.10 1.24
ACC 11 0.73 12 0.91 -0.18 GGC 8 0.36 10 0.55 -0.19
ACA 10 0.67 18 1.36 -0.69 GGA 22 0.99 32 1.75 -0.76
ACG 5 0.33 5 0.38 -0.05 GGG 7 0.31 11 0.60 -0.29
Ala GCU 44 2.59 29 1.68 0.91 Ile AUU 59 1.45 39 1.46 -0.01
GCC 3 0.18 13 0.75 -0.57 AUC 33 0.81 14 0.52 0.29
GCA 15 0.88 20 1.16 -0.28 AUA 30 0.74 27 1.01 -0.27
GCG 6 0.35 7 0.41 -0.06
表示ΔRSCU>0.08,表示ΔRSCU>0.3,表示ΔRSCU>0.5。
meanΔRSCU>0.08, meanΔRSCU>0.3, meanΔRSCU>0.5.
结合中性绘图分析、ENCplot绘图分析以及对应性分析,发现蒺藜苜蓿叶绿体基因组密码子偏好性主要受
到突变的影响,但是并不是唯一的影响因素,其他因素也对密码子偏好性造成影响。Zhou等[25]在对拟南芥(犃狉
犪犫犻犱狅狆狊犻狊狋犺犪犾犻犪狀犪)、杨树等植物的研究中指出,叶绿体基因组密码子偏好性主要受到突变影响,其他因素也对其
771第12期 杨国锋 等:蒺藜苜蓿叶绿体密码子偏好性分析
产生影响,本研究结果与之相同。但是续晨等[26]对蝴蝶兰(犘犺犪犾犪犲狀狅狆狊犻狊犪狆犺狉狅犱犻狋犲)叶绿体密码子偏好性进行研
究,发现其密码子偏好性主要受到碱基差异和自然选择的影响。因此可以看出不同植物密码子偏好性的影响因
素不同,但是影响植物密码子偏好性的因素都不是单一的,是多因素综合的结果。
本研究采用高表达优越密码子方法确定最优密码子,选出了23个最优密码子,确定的最优密码子中第3位
碱基为A、U、C、G的分别5,7,6,5个,但是ΔRSCU>0.5的均以 A和 U为结尾。这与前人对水稻[27]、银白
杨[28]等植物的研究结果中叶绿体基因组中密码子偏好NNA、NNU型相符合。
4 结论
蒺藜苜蓿叶绿体基因组密码子偏好性受突变的影响比较大,但与此同时也受到其他因素的影响,密码子偏好
性是多因素影响的结果。确定了23个最优密码子,为以后通过外源基因密码子改造后转入苜蓿叶绿体中提高其
表达量[29]。
犚犲犳犲狉犲狀犮犲狊:
[1] WuXM,WuSF,RenDM,犲狋犪犾.Theanalysismethodandprogressinthestudyofcodonbias.Hereditas,2007,29(4):
420426.
[2] GranthamR,GautierC,GouyM.Codonfrequenciesin119individualgenesconfirmconsistentchoicesofdegeneratebasesac
cordingtogenometype.NucleicAcidsResearch,1980,8(9):18931912.
[3] IkemuraT.CodonusageandtRNAcontentinunicelularandmulticelularorganisms.MolecularBiologyandEvolution,
1985,2(1):1334.
[4] SharpPM,LiW H.Therateofsynonymoussubstitutioninenterobacterialgenesisinverselyrelatedtocodonusagebias.
MolecularBiologyandEvolution,1987,4(3):222230.
[5] OlejniczakM,UhlenbeckOC.tRNAresiduesthathavecoevolvedwiththeiranticodontoensureuniformandaccuratecodon
recognition.Biochimie,2006,88(8):943950.
[6] DeschavanneP,FilipskiJ.CorrelationofGCcontentwithreplicationtimingandrepairmechanismsinweaklyexpressed犈.
犮狅犾犻genes.NucleicAcidsResearch,1995,23(8):13501353.
[7] SunZ,MaL,MurphyR,犲狋犪犾.Analysisofcodonusageon犠狅犾犫犪犮犺犻犪狆犻狆犻犲狀狋犻狊wMelgenome.ScienceinChinaSeriesC:
LifeSciences,2009,39(10):948953.
[8] XiaXH.MutationandselectionontheanticodonoftRNAgenesinvertebratemitochondrialgenomes.Gene,2005,345(1):
1320.
[9] ZaluckiYM,PowerPM,JenningsMP.Selectionforefficienttranslationinitiationbiasescodonusageatsecondaminoacid
positioninsecretoryproteins.NucleicAcidsResearch,2007,35(17):57485754.
[10] HuangY,KooninEV,LipmanDJ,犲狋犪犾.Selectionforminimizationoftranslationalframeshiftingerrorsasafactorinthe
evolutionofcodonusage.NucleicAcidsResearch,2009,37(20):67996810.
[11] HiraokaY,KawamataK,HaraguchiT,犲狋犪犾.Codonusagebiasiscorrelatedwithgeneexpressionlevelsinthefissionyeast
犛犮犺犻狕狅狊犪犮犮犺犪狉狅犿狔犮犲狊狆狅犿犫犲.GenestoCels,2009,14(4):499509.
[12] ZhangJ,SongLL,GuoDL,犲狋犪犾.GenomewideidentificationandinvestigationoftheMADSboxgenefamilyin犕犲犱犻犮犪犵狅
狋狉狌狀犮犪狋狌犾犪.ActaPrataculturaeSinica,2014,23(6):233241.
[13] RosenbergMS,SubramanianS,KumarS.Patternsoftransitionalmutationbiaseswithinandamongmammaliangenomes.
MolecularBiologyandEvolution,2003,20(6):988993.
[14] SharpPM,LiWH.Thecodonadaptationindexameasureofdirectionalsynonymouscodonusagebias,anditspotentialap
plications.NucleicAcidsResearch,1987,15(3):12811295.
[15] SueokaN.Directionalmutationpressureandneutralmolecularevolution.ProceedingsoftheNationalAcademyofSciencesof
theUnitedStatesofAmerica,1988,85(8):26532657.
[16] WrightF.The“effectivenumberofcodons”usedinagene.Gene,1990,87(1):2329.
[17] SueokaN.NearhomogeneityofPR2Biasfingerprintsinthehumangenomeandtheirimplicationsinphylogeneticanalyses.
JournalofMolecularEvolution,2001,53(45):469476.
[18] McInerneyJO.Replicationalandtranscriptionalselectiononcodonusagein犅狅狉狉犲犾犻犪犫狌狉犵犱狅狉犳犲狉犻.ProceedingsoftheNation
alAcademyofSciencesoftheUnitedStatesofAmerica,1998,95(18):1069810703.
[19] YangHJ,LiuGS,ZhangST,犲狋犪犾.Codonusagebiasstudiesandclusteranalysisonchloroplasticgeneintobacco.Acta
871 草 业 学 报 第24卷
TabacariaSinica,2012,18(2):3743.
[20] JiangY,DengF,WangHL.Anextensiveanalysisontheglobalcodonusagepatternofbaculoviruses.ArchivesofVirolo
gy,2008,153(12):22732282.
[21] SueokaN,KawanishiY.DNAG+Ccontentofthethirdcodonpositionandcodonusagebiasesofhumangenes.Gene,
2000,261(1):5362.
[22] ShangMZ,LiuF,HuaJP,犲狋犪犾.Analysisoncodonusageofchloroplastgenomeof犌狅狊狊狔狆犻狌犿犺犻狉狊狌狋狌犿.ScientiaAgricul
turaSinica,2011,(2):245253.
[23] ZhangWJ,ZhouJ,LiZF,犲狋犪犾.Comparativeanalysisofcodonusagepatternsamongmitochondrion,chloroplastandnu
cleargenesin犜狉犻狋犻犮狌犿犪犲狊狋犻狏狌犿L.JournalofIntegrativePlantBiology,2007,49(2):246254.
[24] ZhangYR.AnalysisofCodonUsagePatternsoftheChloroplastGenomesinthePoaceaeFamilyandRNAEditingSitesin
theChloroplastTranscriptsof犃犵狉犲犪狉狋犻狀犪犪犱犲狀狅狆犺狅狉狌犿[D].Yangling:NorthwestA&FUniversity,2013.
[25] ZhouM,LongW,LiX.Patternsofsynonymouscodonusagebiasinchloroplastgenomesofseedplants.ForestStudyof
China,2008,11(4):235242.
[26] XuC,BenAL,CaiXN.Analysisofsynonymouscodonusageinchloroplastgenomeof犘犺犪犾犪犲狀狅狆狊犻狊犪狆犺狉狅犱犻狋犲subsp.For
mosana.MolecularPlantBreeding,2011,8(5):945950.
[27] LiuQP,XueQZ.Codonusageinthechloroplastgenomeofrice(犗狉狔狕犪狊犪狋犻狏犪L.ssp.犼犪狆狅狀犻犮犪).ActaAgronomicaSini
ca,2004,30(12):12201224.
[28] ZhouM,LongW,LiX.Analysisofsynonymouscodonusageinchloroplastgenomeof犘狅狆狌犾狌狊犪犾犫犪.JournalofForestry
Research,2008,19(4):293297.
[29] ZhangXM,XinW,WangSF,犲狋犪犾.OptimizingthecodonusageofHIV1gaggeneaccordingtothecodonbiasofvaccinia
virusimprovesthegaggeneexpression.ChineseJournalofVirology,2005,21(3):210216.
参考文献:
[1] 吴宪明,吴松锋,任大明.等.密码子偏性的分析方法及相关研究进展.遗传,2007,29(4):420426.
[7] 孙铮,马亮,MurphyR,等.WolbachiapipientiswMel基因组水平上的密码子使用分析.中国科学C辑:生命科学,2009,
39(10):948953.
[12] 张军,宋丽莉,郭东林,等.MADSbox基因家族在蒺藜苜蓿的全基因组分析.草业学报,2014,23(6):233241.
[19] 杨惠娟,刘国顺,张松涛,等.烟草叶绿体密码子的偏好性及聚类分析.中国烟草学报,2012,18(2):3743.
[22] 尚明照,刘方,华金平,等.陆地棉叶绿体基因组密码子使用偏性的分析.中国农业科学,2011,(2):245253.
[24] 张月荣.禾本科叶绿体基因组密码子使用模式及紫茎泽兰叶绿体RNA编辑分析[D].杨凌:西北农林科技大学,2013.
[26] 续晨,贲爱玲,蔡晓宁.蝴蝶兰叶绿体基因组密码子使用的相关分析.分子植物育种,2010,8(5):945950.
[27] 刘庆坡,薛庆中.粳稻叶绿体基因组的密码子用法.作物学报,2004,30(12):12201224.
[29] 张相民,辛伟,王世峰,等.按痘苗病毒优势密码子改造 HIV1gag基因提高表达水平的研究.病毒学报,2005,21(3):
210216.
971第12期 杨国锋 等:蒺藜苜蓿叶绿体密码子偏好性分析