免费文献传递   相关文献

Analysis of Codon Usage Bias in the Genome of Azorhizobium Caulinodans ORS571

茎瘤固氮根瘤菌Azorhizobium caulinodans ORS571基因组密码子使用偏好性分析



全 文 :核 农 学 报  2013ꎬ27(6):0768 ~ 0774
Journal of Nuclear Agricultural Sciences
收稿日期:2012 ̄08 ̄29  接受日期:2013 ̄01 ̄16
基金项目:中国海洋石油总公司科技项目(CNOOC ̄KJ 125 ZDXM 00 000 00 NFCY 2011 ̄04)
作者简介:王新新(1983 ̄)ꎬ男ꎬ山东德州人ꎬ博士ꎬ主要从事农业微生物学研究ꎮ E ̄mail: wangxx200899@ 163. com
文章编号:1000 ̄8551(2013)6 ̄0768 ̄07
茎瘤固氮根瘤菌 Azorhizobium caulinodans
ORS571 基因组密码子使用偏好性分析
王新新1ꎬ2   吴 亮2   朱生凤3   赵 林1   安 伟2   陈 宇1ꎬ2
( 1 天津大学环境科学与工程学院ꎬ天津  300072ꎻ2 中海石油环保服务有限公司ꎬ
天津  300452ꎻ3 中国海洋石油总公司ꎬ北京  100010)
摘  要:目前对于自生固氮菌和共生固氮菌的密码子使用特征已有较深入的了解ꎬ然而对于既可以进行
自生固氮又可以共生固氮的固氮菌的认识仍十分有限ꎮ 本研究采用对应分析、相关分析和卡方检验等
方法对具有这一特征的茎瘤固氮根瘤菌 ORS571 基因组密码子进行分析ꎬ以期深入了解该类固氮菌密
码子使用特征ꎮ 以有效密码子数量(ENC)和密码子第 3 位 GC含量(GC3s)分别为 x、y轴绘制 ENC ̄plot
图谱ꎬ同时绘制描述仅受基因组碱基组成影响条件下的 ENC和 GC3s关系的期望曲线ꎮ 结果发现ꎬ部分
基因位于期望曲线上ꎬ说明该菌密码子偏好性受到了基因组碱基组成影响ꎮ 对应分析和相关分析表明ꎬ
包括固氮相关基因在内的全部基因在对应分析第 1 向量轴上的坐标值均与密码子适应指数和 GC3s 呈
显著负相关(P < 0􀆰 05)ꎬ说明该菌码子偏好性还受基因表达水平和 GC3s 的影响ꎮ 22 个密码子的使用
频率在高表达基因中显著增多ꎬ确定为最优密码子ꎮ 其中 21 个密码子以 G / C 结尾ꎬ说明最优密码子有
强烈的 GC3s偏好ꎮ
关键词:对应分析ꎻ 相关分析ꎻ 卡方检验ꎻ 固氮ꎻ 最优密码子
    大多数物种并不是均衡地使用每个密码子来编码
氨基酸ꎬ而是常常倾向于选择其中的一种或多种ꎬ表现
出密码子偏好性ꎮ 对于这一现象ꎬ目前“选择 -突变
平衡”假说给予了较好的解释[1]ꎮ 由于进化过程中选
择压力的存在ꎬ导致物种倾向于使用某些密码子ꎮ 然
而由于自然突变ꎬ基因组中也存在各种非最优密码子ꎮ
物种最终表现出的密码子使用特征就是这两种因素综
合作用的结果ꎮ 因此ꎬ密码子偏好性的研究有助于理
解物种的进化压力和自然突变的关系ꎬ从而揭示其在
特定生存环境下的进化特征[2 - 6]ꎮ 除此之外ꎬ对密码
子偏好性的深入分析还可获得最优密码子ꎬ可用于指
导外源基因的优化表达[7 - 8]ꎮ 因此ꎬ密码子偏好性分
析具有重要的理论意义和实践意义ꎬ目前已成为基因
组学的研究热点之一ꎮ
固氮菌通过固氮作用将空气中的氮气转化为植物
可吸收的氮素营养ꎬ对维持氮元素的生物地化循环和
生态系统稳定具有重要作用ꎬ一直是各国研究人员关
注的焦点ꎮ 对于棕色固氮菌(Azotobacter vinelandii)等
自生固氮菌以及弗兰克氏菌(Frankia)、苜蓿中华根瘤
菌 ( Sinorhizobium meliloti ) 和 大 豆 慢 生 根 瘤 菌
(Bradyrhizobium japonicum)等共生固氮菌的密码子使
用特征已有较深入的了解[9 - 12]ꎮ 然而对于既可以进
行自生固氮又可以共生固氮的固氮菌的认识仍十分有
限ꎮ 近些年来ꎬ具有这一特征的茎瘤固氮根瘤菌
(Azorhizobium caulinodans)ORS571 菌株已经完成基因
组测序ꎬ为了解其密码子使用特征提供了基础[13 - 14]ꎮ
本研究采用多元统计分析、相关性分析和卡方检验等
方法对茎瘤固氮根瘤菌 ORS571 的密码子偏好性进行
分析ꎬ以期为该类固氮菌密码子使用特征的深入了解
提供理论基础和数据参考ꎮ
1  材料与方法
1􀆰 1  数据
茎瘤固氮根瘤菌 ORS571 的基因组序列来源于
NCBI 数 据 库 ( ftp: / / ftp. ncbi. nih. gov / genomes /
867
  6 期 茎瘤固氮根瘤菌 Azorhizobium caulinodans ORS571 基因组密码子使用偏好性分析
Bacteria / Azorhizobium _ caulinodans _ ORS _ 571 _
uid58905)ꎬGenbank登录号为 NC_009937ꎮ 为了减少
长度较短的基因变异带来的误差ꎬ删除长度在 300 bp
以下的基因序列[15 - 16]ꎬ剩余 4452 个基因用于分析密
码子使用特征ꎮ
1􀆰 2  同义密码子偏好性检测
基因的 T3s、C3s、A3s、G3s 和 GC3s 是密码子第 3
位为 T、C、A、G 和 GC 的比例ꎮ 最优密码子使用频率
(Frequency of optimal codonsꎬFOP)是所使用的最优密
码子占总密码子数的比例ꎮ 有效密码子数量
(Effective number of codonsꎬENC)用于反映密码子使
用偏离随机使用的程度ꎬ取值范围在 20 ~ 61 之间ꎬ取
值越低偏离程度越大ꎮ 采用 CodonW 1􀆰 4􀆰 2 软件计算
以上各参数(http: / / codonw. sourceforge. net)ꎮ 密码子
适应指数(Codon adaption indexꎬCAI)参照大肠杆菌
(E. coli)中已知高表达基因编写 Perl 程序进行计算ꎬ
用于衡量基因表达水平的高低ꎮ 首先从 Genbank中获
得 E. coli的 27 个极端高表达基因序列[17]ꎮ 采用 Blast
2􀆰 2􀆰 27 软件将其与茎瘤固氮根瘤菌 ORS571 基因组进
行进行本地 Blast比对ꎬ以 10 - 6的 E值为阈值编写 Perl
程序获得该菌株中的高表达基因序列ꎬ以此为参考数
据集采用 DAMBE 5􀆰 3􀆰 2 软件计算各基因的 CAI
值[18]ꎮ 同义密码子相对使用度(Relative synonymous
codon usageꎬRSCU)是同义密码子实际观测值与平均
使用期望值的比值ꎬ采用 DAMBE 5􀆰 3􀆰 2 软件进行计
算[19]ꎮ
1􀆰 3  ENC ̄plot绘图
以 GC3s 为横坐标 ENC 为纵坐标ꎬ绘制 ENC ̄plot
以检测密码子使用特征受基因组碱基组成影响的程
度ꎮ ENC 的期望曲线按照公式 ENC = 2 + GC3s +
29 / (GC3s2 + (1 - GC3s) 2)进行计算[20 - 21]ꎮ 如果密
码子使用偏好性受基因组碱基组成影响较大ꎬ那么基
因分布在期望曲线上或其附近ꎬ否则离期望曲线较远ꎮ
1􀆰 4  对应分析和相关分析
采用 CodonW 1􀆰 4􀆰 2 软件对各基因的 RSCU 值进
行对应分析(Correspondence analysisꎬCOA)ꎬ获得各基
因在 59 维向量空间的分布情况ꎮ 采用 SPSS 13􀆰 0 软
件对各基因在对应分析结果第 1 轴上的坐标值与
ENC、CAI、GC3s、GC含量和基因长度进行 spearman 相
关分析ꎮ
1􀆰 5  最优密码子分析
按照 CAI 值对基因进行排序ꎬ选取两端各 5%的
基因分别建立高低表达基因数据库ꎮ 采用 SPSS 13􀆰 0
软件对其密码子使用的差异显著性进行卡方检验以获
得最优密码子[22]ꎮ
2  结果与分析
对茎瘤固氮根瘤菌 ORS571 基因组中 4452 条长
度大于等于 300 bp 的基因进行分析ꎬ结果发现其 GC
含量变化范围为 40􀆰 3% ~ 77􀆰 3% ꎬ平均 67􀆰 7% ꎻ基因
长度变化范围为 300 ~ 16758 bpꎬ平均 1071􀆰 1 bpꎮ 进
一步对其密码子使用特征进行分析ꎬ结果发现其 T3s
变化范围为 2􀆰 0% ~ 36􀆰 9% ꎬ平均 11􀆰 1% ꎻC3s 变化范
围为 21􀆰 7% ~ 81􀆰 5% ꎬ平均 57􀆰 3% ꎻA3s 变化范围为
0% ~50􀆰 9% ꎬ平均 5􀆰 4% ꎻG3s 变化范围为 16􀆰 4% ~
70􀆰 2% ꎬ平均 44􀆰 9% ꎻ GC3s 变化范围为 33􀆰 5% ~
96􀆰 3% ꎬ平均 85􀆰 7% ꎻ FOP 变化范围为 35􀆰 6% ~
71􀆰 3% ꎬ平均 54􀆰 6% ꎻENC变化范围为 24􀆰 8 ~ 61􀆰 0ꎬ平
均 35􀆰 2ꎻCAI变化范围为 0􀆰 18 ~ 0􀆰 90ꎬ平均 0􀆰 66ꎮ
注:白色方框指示固氮相关基因ꎮ
Note:White square indicates nitrogen fixation ̄related genes.
图 1  茎瘤固氮根瘤菌 ORS571 基因组
密码子的 ENC值散点图
Fig. 1  ENC ̄plot of the codon usage of
Azorhizobium caulinodans ORS571genome
以各基因的 GC3s 为横坐标 ENC 为纵坐标ꎬ绘制
ENC ̄plotꎬ结果如图 1 所示ꎮ 仅有一部分基因分布在
期望曲线附近ꎬ说明这些基因密码子使用特征受基因
组碱基组成影响较大ꎮ ptsN、 nifX、 nifN、 nifE、 nifK、
nifD、nifH、nifA、glnA、glnB、ntrB / ntrY、 rpoF、ntrX、ntrY、
ntrC、ntrB、nifR3、nifS、nifB、nifH、nifQ、nifW、 fixA、 fixB、
fixC、 rpoN、 cytN / fixN、 cytO / fixO、 cytP / fixP、 fixG、 fixH、
fixK、fixL和 fixJ等 34 个固氮相关基因以及其他大部
分基因均分布在期望曲线右下侧ꎬ偏离了期望曲线ꎮ
对各基因同义密码子的 RSCU 值进行对应分析ꎬ
967
核  农  学  报 27 卷
获得各基因在 59 维向量空间的分布情况ꎮ 各基因在
前 2 个向量轴上的分布如图 2 所示ꎮ 前 2 个向量轴解
释变量总方差的 20􀆰 5% ꎬ其中第 1 向量轴解释
15􀆰 3% ꎬ第 2 向量轴解释 5􀆰 3% ꎮ 即使综合前 4 个向量
轴也仅解释变量总方差的 24􀆰 5% ꎬ说明影响该基因组
密码子偏好性的因素较多ꎮ 对各基因在第 1 向量轴上
的坐标值与 ENC、CAI、GC3s、GC和基因长度进行相关
分析ꎬ结果如表 1 所示ꎮ 全部基因在第 1 向量轴上的
坐标值与 ENC(R = 0􀆰 890)、CAI(R = - 0􀆰 871)、GC3s
(R = - 0􀆰 807)和基因长度(R = - 0􀆰 148)均呈显著负
相关(P < 0􀆰 05)ꎮ 固氮相关基因在第 1 向量轴上的坐
标值与 ENC(R = 0􀆰 869)、CAI(R = - 0􀆰 862)、GC3s(R
= - 0􀆰 741)和基因 GC 含量(R = 0􀆰 488)均显著相关
(P < 0􀆰 05)ꎮ
对高低表达基因密码子使用的差异显著性进行卡
方检验ꎬ结果如表 2 所示ꎮ 22 个密码子的使用频率在
高表达基因中显著增多(P < 0􀆰 05)ꎮ 对最优密码子第
3 位碱基分析发现ꎬ以 C 结尾的密码子有 14 个ꎬ占全
部最优密码子的 63􀆰 6% ꎻ以 G 结尾的密码子有 7 个ꎬ
占全部最优密码子的 31􀆰 8% ꎻ以 A结尾的密码子仅有
1 个ꎬ占全部最优密码子的 4􀆰 5% ꎻ未发现以 U 结尾的
密码子ꎮ
注:白色方框指示固氮相关基因
Note:White square indicates nitrogenfixation ̄related genes
图 2  茎瘤固氮根瘤菌 ORS571 基因在
RSCU对应分析前 2 个轴上的分布
Fig. 2  Distribution of Azorhizobium caulinodans ORS571 genes
on the first two axes of the RSCU correspondence analysis
表 1  茎瘤固氮根瘤菌 ORS571 基因组密码子使用各参数之间的 Spearman相关系数
Table 1  Spearman correlation coefficients of the codon usage parameters in the genome of Azorhizobium caulinodans ORS571
有效密码子数量
ENC
密码子适应指数
CAI
密码子第 3 位 GC含量
GC3s
GC含量
GC content
基因长度
Gene length
全部基因在第 1 向量轴上的坐标值
The loading of all genes on the axis 1 of COA
0􀆰 890∗ - 0􀆰 871∗ - 0􀆰 807∗ - 0􀆰 017 - 0􀆰 148∗
固氮相关基因在第 1 向量轴上的坐标值
The loading of nitrogenfixation ̄related genes
on the axis 1 of COA
0􀆰 869∗ - 0􀆰 862∗ - 0􀆰 741∗ 0􀆰 488∗ - 0􀆰 054
    注:∗表示显著相关(P < 0􀆰 05)ꎮ
Note: ∗ Denote significant correlation (P < 0􀆰 05) .
3  讨论
以各基因的 GC3s 和 ENC 分别为 x、 y 轴绘制
ENC ̄plotꎬ是一种研究密码子偏好性的有效手段[20]ꎮ
当密码子偏好性不受选择压力ꎬ仅受基因组碱基组成
压力的时候ꎬ各基因 ENC和 GC3s的关系可用 ENC =2
+ GC3s + 29 / (GC3s2 + (1 - GC3s) 2)的公式来描
述ꎬ即 ENC ̄plot中的“期望曲线”ꎮ 也就是说ꎬ当基因
位于期望曲线上的时候ꎬ该基因密码子偏好性主要受
基因组碱基组成压力ꎻ而当基因偏离期望曲线的时候ꎬ
该基因密码子偏好性主要受其他因素的影响ꎮ 通过绘
制茎瘤固氮根瘤菌 ORS571 基因组的 ENC ̄plotꎬ结果
发现:一部分基因位于期望曲线上ꎮ 这说明这些基因
密码子偏好性主要受基因组碱基组成影响ꎬ进一步说
明该菌密码子偏好性受到了基因组碱基组成的影响ꎮ
此外ꎬ还有相当一部分基因位于期望曲线下方ꎬ偏离了
期望曲线ꎬ说明还有其他因素影响了该菌的密码子偏
好性ꎮ 这与前人的研究结果相类似[10ꎬ 23]ꎮ 然而ꎬ该菌
大部分基因均位于期望曲线右下侧ꎬ这与其他物种的
基因分布并不一致ꎮ 侯卓成等[23]发现肺炎链球菌
(Streptococcus pneumoniae)的大部分基因位于期望曲
线左下侧ꎮ Nayak等[15]发现清酒乳杆菌(Lactobacillus
sakei)等 14 种乳杆菌的大部分基因位于期望曲线的左
侧或 中 部ꎮ Mondal 等[24] 发 现 5 种 沙 门 氏 菌
(Salmonella)的大部分基因均位于期望曲线的中下部ꎮ
077
  6 期 茎瘤固氮根瘤菌 Azorhizobium caulinodans ORS571 基因组密码子使用偏好性分析
          表 2  茎瘤固氮根瘤菌 ORS571 高表达和低表达基因的密码子使用特征比较
Table 2  Codon usage of highly and lowly expressed genes in the genome of Azorhizobium caulinodans ORS571
氨基酸
Amino acid
密码子
Codon
高表达基因
Highly expressed genes
低表达基因
Lowly expressed genes
同义密码子
相对使用度
RSCU
数量
Number
同义密码子
相对使用度
RSCU
数量
Number
氨基酸
Amino
acid
密码子
Codon
高表达基因
Highly expressed genes
低表达基因
Lowly expressed genes
同义密码子
相对使用度
RSCU
数量
Number
同义密码子
相对使用度
RSCU
数量
Number
Ala GCU 0. 132 332 0. 477 955 Leu CUA 0. 009 19 0. 206 280
GCG 1. 263 3179 1. 444 2893 CUC∗ 1. 883 3831 1. 411 1922
GCC∗ 2. 564 6455 1. 546 3098 CUG∗ 1. 963 3993 1. 672 2278
GCA 0. 042 105 0. 533 1069 CUU 0. 144 293 0. 712 970
Arg AGA 0. 651 14 0. 773 248 UUA 0. 017 1 0. 389 157
AGG 1. 349 29 1. 227 394 UUG 1. 983 118 1. 611 650
CGA 0. 026 33 0. 401 498 Lys AAA 0. 034 74 0. 675 564
CGC∗ 3. 200 4008 1. 802 2236 AAG∗ 1. 966 4287 1. 325 1107
CGG 0. 370 464 1. 228 1523 Met AUG 1. 000 2340 1. 000 1391
CGU 0. 403 505 0. 568 705 Phe UUU 0. 041 71 0. 621 670
Asn AAC∗ 1. 617 2245 1. 062 745 UUC∗ 1. 959 3387 1. 379 1489
AAU 0. 383 531 0. 938 658 Pro CCA 0. 030 31 0. 509 481
Asp GAU 0. 367 924 0. 948 1648 CCC∗ 1. 630 1690 1. 201 1135
GAC∗ 1. 633 4114 1. 052 1828 CCU 0. 072 75 0. 575 543
Cys UGU 0. 063 21 0. 492 175 CCG∗ 2. 268 2351 1. 715 1620
UGC∗ 1. 937 644 1. 508 537 Ser AGC 1. 945 961 1. 555 953
Gln CAA 0. 043 61 0. 462 444 AGU 0. 055 27 0. 445 273
CAG∗ 1. 957 2797 1. 538 1479 UCA 0. 027 24 0. 576 355
Glu GAG∗ 1. 496 4211 1. 160 1997 UCC∗ 2. 285 2058 1. 424 878
GAA 0. 504 1419 0. 840 1446 UCG∗ 1. 611 1451 1. 406 867
Gly GGU 0. 251 495 0. 627 836 UCU 0. 078 70 0. 595 367
GGG 0. 132 260 0. 885 1180 Thr ACC∗ 2. 848 3685 1. 532 1109
GGC∗ 3. 581 7060 1. 823 2432 ACA 0. 019 25 0. 560 405
GGA 0. 037 72 0. 665 887 ACG 1. 089 1409 1. 561 1130
His CAC∗ 1. 494 1178 1. 050 791 ACU 0. 043 56 0. 347 251
CAU 0. 506 399 0. 950 715 Trp UGG 1. 000 905 1. 000 861
Ile AUU 0. 114 199 0. 749 728 Tyr UAC∗ 1. 070 1152 0. 867 540
AUA 0. 004 7 0. 412 400 UAU 0. 930 1001 1. 133 706
AUC∗ 2. 882 5011 1. 840 1788 Val GUU 0. 127 240 0. 674 705
TER UGA∗ 2. 785 207 2. 112 157 GUG∗ 2. 496 4715 1. 553 1625
UAG 0. 108 8 0. 404 30 GUC 1. 362 2573 1. 468 1536
UAA 0. 108 8 0. 484 36 GUA 0. 015 28 0. 305 319
    注:∗指示最优密码子ꎮ
Note: The preferred codons were marked with ∗.
177
核  农  学  报 27 卷
而聚球蓝细菌(Synechococcus)、弗兰克氏菌(Frankia)、
大豆慢生根瘤菌(Bradyrhizobium japonicum)和棕色固
氮菌(Azotobacter vinelandii)的大部分基因均位于期望
曲线的右侧[9 - 11ꎬ25]ꎮ 仅类鼻疽伯克氏菌(Burkholderia
pseudomallei)的大部分基因位于期望曲线的右下
侧[16]ꎮ 由此可见ꎬ不同物种的基因在 ENC ̄plot上的分
布位置并不一致ꎮ 这暗示他们的密码子使用特征受基
因组碱基组成的影响并不相同ꎬ这也进一步暗示了影
响密码子使用特征因素的复杂性ꎮ
有效密码子数量可以很好地反映密码子使用的偏
好程度ꎬ取值范围在 20 ~ 61 之间ꎮ 有效密码子数量越
低偏好性越强ꎬ反之有效密码子数量越高偏好性越弱ꎮ
相关分析发现ꎬ包括固氮基因在内的全部基因在对应
分析第 1 向量轴上的坐标值与有效密码子数量呈显著
正相关(R = 0􀆰 890ꎬP < 0􀆰 05ꎬ表 1)ꎮ 这说明第 1 向量
轴上的坐标值可以有效地反映密码子使用的偏好程
度ꎬ坐标值越低偏性越强ꎮ 第 1 向量轴上的坐标值与
CAI呈显著负相关ꎮ 由于 CAI常用于衡量基因表达水
平的高低ꎬ因此该菌密码子偏好性受基因表达水平的
影响较大ꎮ 第 1 向量轴上的坐标值还与 GC3s 呈显著
负相关ꎬ说明该菌密码子偏好性还受 GC3s 的影响ꎮ
此外ꎬ第 1 向量轴上的坐标值还与基因长度呈显著相
关ꎬ然而相关系数仅有 - 0􀆰 148ꎬ因此基因长度对该菌
密码子偏好性的影响较小ꎮ 固氮相关基因同样表现出
类似的特征ꎬ即该类基因同样受基因表达水平和 GC3s
的影响ꎮ 固氮相关基因在第 1 向量轴上的坐标值还与
基因 GC含量呈显著正相关ꎬ因此固氮相关基因还受
GC含量的影响ꎮ 然而从整体水平来看ꎬ包括固氮基因
在内的全部基因受基因表达水平和 GC3s 的影响较
大ꎮ 这与大豆慢生根瘤菌的密码子使用特征相类
似[10]ꎮ
通过对密码子使用差异性进行卡方检验ꎬ结果发
现 22 个密码子的使用频率在高表达基因中显著增多ꎬ
确定为最优密码子(表 2)ꎬ这一数量与前人的文献报
道相类似[16]ꎮ 然而ꎬ这 22 个最优密码子与同样具有
固氮功能的苜蓿中华根瘤菌的最优密码子并不一
致[12]ꎮ 例如ꎬ编码 Glu 的 GAG 最优密码子、编码 Pro
的 CCC、编码 Val 的 GUG 和终止密码子 UGA 并不是
苜蓿中华根瘤菌的最优密码子ꎮ 这可能是由于两者较
远的遗传距离所致ꎮ 尽管两者均属于 Rhizobiales 目ꎬ
但是茎瘤固氮根瘤菌属于 Xanthobacteraceae 科ꎬ而苜
蓿中华根瘤菌属于 Rhizobiaceae 科ꎮ 较远的遗传距离
导致了代谢的差异ꎬ从而进一步导致基因表达使用的
最优密码子的差异ꎮ 22 个最优密码子中有 21 个以
G / C结尾ꎬ说明最优密码子有强烈的 GC3s 偏好ꎮ 这
与 GC3s明显影响该菌密码子使用特征的结论相一
致ꎮ 最优密码子对指导外源基因表达具有重要意义ꎮ
根据最优密码子对外源基因进行密码子优化ꎬ使之符
合宿主菌的密码子使用特征ꎬ可以提高异源基因的表
达水平ꎮ Wiedemann等[7]对酵母菌 L -阿拉伯糖 -乙
醇代谢途径中的 4 个酶进行了密码子优化ꎬ获得了高
效转化 L -阿拉伯糖的酵母菌ꎬ使该菌产乙醇速率提
高了 2􀆰 5 倍ꎮ Lorimer 等[8]更是开发了一套数据库软
件通过优化密码子提高蛋白表达效率ꎮ 此外ꎬ通过比
较近缘物种的最优密码子可以深入了解他们的进化机
制[26]ꎮ 因此ꎬ茎瘤固氮根瘤菌 ORS571 的 21 个最优密
码子将对该菌的基因工程改造研究和进化机制研究提
供理论基础ꎮ
4  结论
ENC ̄plot显示茎瘤固氮根瘤菌 ORS571 密码子偏
好性受基因组碱基组成影响ꎮ 相关分析表明该菌码子
偏好性还受基因表达水平和 GC3s的影响ꎮ 22 个密码
子被确定为最优密码子ꎬ它们有强烈的 GC3s偏好ꎮ
参考文献:
[ 1 ]   Bulmer M. The selection ̄mutation ̄drift theory of synonymous codon
usage [J] . Geneticsꎬ 1991ꎬ 129(3): 897 - 907
[ 2 ]  Botzman Mꎬ Margalit H. Variation in global codon usage bias among
prokaryotic organisms is associated with their lifestyles [J] . Genome
Biologyꎬ 2011ꎬ 12(10): R109
[ 3 ]  Hartung J Sꎬ Shao Jꎬ Kuykendall L D. Comparison of the Ca.
Liberibacter asiaticus genome adapted for an intracellular lifestyle
with other members of the Rhizobiales [ J] . PloS Oneꎬ 2011ꎬ 6
(8): e23289
[ 4 ]   刘汉梅ꎬ 赵耀ꎬ 顾勇ꎬ 张怀渝ꎬ 黄玉碧. 几种植物 waxy 基因的
密码子用法特性分析 [J] . 核农学报ꎬ 2010ꎬ 24(3): 476 - 481
[ 5 ]  晁岳恩ꎬ 吴政卿ꎬ 杨会民ꎬ 何宁ꎬ 杨攀. 11 种植物 psbA基因的
密码子偏好性及聚类分析 [J] . 核农学报ꎬ 2011ꎬ 25(5): 927 -
932
[ 6 ]  刘汉梅ꎬ 何瑞ꎬ 赵耀ꎬ 张怀渝ꎬ 黄玉碧. 玉米密码子用法分析
[J] . 核农学报ꎬ 2008ꎬ 22(2): 141 - 147
[ 7 ]  Wiedemann Bꎬ Boles E. Codon ̄optimized bacterial genes improve L ̄
arabinose fermentation in recombinant Saccharomyces cerevisiae [J] .
Applied and Environmental Microbiologyꎬ 2008ꎬ 74 (7): 2043 -
2050
[ 8 ]  Lorimer Dꎬ Raymond Aꎬ Walchli Jꎬ Mixon Mꎬ Barrow Aꎬ Wallace
Eꎬ Grice Rꎬ Burgin Aꎬ Stewart L. Gene composer: database
software for protein construct designꎬ codon engineeringꎬ and gene
synthesis [J] . BMC Biotechnologyꎬ 2009ꎬ 9:36
[ 9 ]   Sur Sꎬ Bhattacharya Mꎬ Bothra A Kꎬ Tisa L Sꎬ Sen A.
277
  6 期 茎瘤固氮根瘤菌 Azorhizobium caulinodans ORS571 基因组密码子使用偏好性分析
Bioinformatic analysis of codon usage patterns in a free ̄living
diazotrophꎬ Azotobacter vinelandii [ J ] . Biotechnologyꎬ 2008ꎬ 7
(2): 242 - 249
[10]  Das Sꎬ Pan Aꎬ Paul Sꎬ Dutta C. Comparative analyses of codon and
amino acid usage in symbiotic island and core genome in nitrogen ̄
fixing symbiotic bacterium Bradyrhizobium japonicum [J] . Journal of
Biomolecular Structure & Dynamicsꎬ 2005ꎬ 23(2): 221
[11]  Sen Aꎬ Sur Sꎬ Bothra A Kꎬ Benson D Rꎬ Normand Pꎬ Tisa L S.
The implication of life style on codon usage patterns and predicted
highly expressed genes for three Frankia genomes [J] . Antonie Van
Leeuwenhoekꎬ 2008ꎬ 93(4): 335 - 346
[12]  Peixoto Lꎬ Zavala Aꎬ Romero Hꎬ Musto H. The strength of
translational selection for codon usage varies in the three replicons of
Sinorhizobium meliloti [J] . Geneꎬ 2003ꎬ 320: 109 - 116
[13]  Lee K Bꎬ Backer P Dꎬ Aono Tꎬ Liu C Tꎬ Suzuki Sꎬ Suzuki Tꎬ
Kaneko Tꎬ Yamada Mꎬ Tabata Sꎬ Kupfer D. The genome of the
versatile nitrogen fixer Azorhizobium caulinodans ORS571 [J] . BMC
Genomicsꎬ 2008ꎬ 9: 271
[14]  Tsukada Sꎬ Aono Tꎬ Akiba Nꎬ Lee K Bꎬ Liu C Tꎬ Toyazaki Hꎬ
Oyaizu H. Comparative genome ̄wide transcriptional profiling of
Azorhizobium caulinodans ORS571 grown under free ̄living and
symbiotic conditions [J] . Applied and Environmental Microbiologyꎬ
2009ꎬ 75(15): 5037 - 5046
[15]  Nayak K C. Comparative study on factors influencing the codon and
amino acid usage in Lactobacillus sakei 23K and 13 other lactobacilli
[J] . Molecular Biology Reportsꎬ 2012ꎬ 39(1): 535 - 545
[16]  Zhao Sꎬ Zhang Qꎬ Chen Zꎬ Zhong J. The factors dictating the codon
usage variation among the genes in the genome of Burkholderia
pseudomallei [J] . World Journal of Microbiology and Biotechnologyꎬ
2008ꎬ 24(8): 1585 - 1592
[17]   Sharp P Mꎬ Li W H. Codon usage in regulatory genes in Escherichia
coli does not reflect selection for rare codons [ J] . Nucleic Acids
Researchꎬ 1986ꎬ 14(19): 7737 - 7749
[18]   Willenbrock Hꎬ Friis Cꎬ Juncker A Sꎬ Ussery D W. An
environmental signature for 323 microbial genomes based on codon
adaptation indices [J] . Genome Biologyꎬ 2006ꎬ 7(12): R114
[19]  Xia Xꎬ Xie Z. DAMBE: software package for data analysis in
molecular biology and evolution [J] . Journal of Heredityꎬ 2001ꎬ 92
(4): 371 - 373
[20]  Wright F. The ‘effective number of codons’ used in a gene [ J] .
Geneꎬ 1990ꎬ 87(1): 23 - 29
[21]  Novembre J A. Accounting for background nucleotide composition
when measuring codon usage bias [ J ] . Molecular Biology and
Evolutionꎬ 2002ꎬ 19(8): 1390 - 1394
[22]   Sablok Gꎬ Nayak K Cꎬ Vazquez Fꎬ Tatarinova T V. Synonymous
codon usageꎬ GC3ꎬ and evolutionary patterns across plastomes of
three pooid model species: emerging grass genome models for
monocots [J] . Molecular Biotechnologyꎬ 2011ꎬ 49(2): 116 - 128
[23]  侯卓成ꎬ 杨宁. 影响链球菌属肺炎球菌基因组密码子使用的因
素分析 [J] . 遗传学报ꎬ 2002ꎬ 29(8): 747 - 752
[24]  Mondal U Kꎬ Sur Sꎬ Bothra A Kꎬ Sen A. Comparative analysis of
codon usage patterns and identification of predicted highly expressed
genes in five Salmonella genomes [ J] . Indian Journal of Medical
Microbiologyꎬ 2008ꎬ 26(4): 313 - 321
[25]  Yu Tꎬ Li Jꎬ Yang Yꎬ Qi Lꎬ Chen Bꎬ Zhao Fꎬ Bao Qꎬ Wu J. Codon
usage patterns and adaptive evolution of marine unicellular
cyanobacteria Synechococcus and Prochlorococcus [ J] . Molecular
Phylogenetics and Evolutionꎬ 2012ꎬ 62(1): 206 - 213
[26]  Fu M. Codon usage bias in herpesvirus [ J] . Archives of Virologyꎬ
2010ꎬ 155(3): 391 - 396
377
Journal of Nuclear Agricultural Sciences
2013ꎬ27(6):0768 ~ 0774
Analysis of Codon Usage Bias in the Genome of Azorhizobium
Caulinodans ORS571
WANG Xin ̄xin1ꎬ2   WU Liang2   ZHU Sheng ̄feng3   ZHAO Lin1   AN Wei2   CHEN Yu1ꎬ2
( 1School of Environmental Science and Engineeringꎬ Tianjin Universityꎬ Tianjin  300072ꎻ
2China Offshore Environmental Service Co. Ltd. ꎬ Tianjin  300452ꎻ 3China National Offshore Oil Corporationꎬ Beijing  100010)
Abstract: The codon usage of the free ̄living and symbiotic nitrogen ̄fixing bacteria has been extensively studied.
Howeverꎬ there was little information about the nitrogen ̄fixing bacteria that had dual capacity for both free ̄living and
symbiotic nitrogen fixation. The codon usage of Azorhizobium caulinodans ORS571 as typical bacterium was investigated
by correspondence analysisꎬ correlation analysis and chi square test to gain a better understanding of the codon usage of
such bacteria. The ENC ̄plot was obtained with the effective number of codons (ENC) and GC content at the third
position of the codons (GC3s) as x and y axis respectively. In additionꎬ the expected curve was also drawn to reveal the
relationship of ENC and GC3s when the codon usage was only subjected to the nucleotide composition constraint. A few
genes lied on the expected curve in ENC ̄plotꎬ indicating nucleotide composition constraint played a role in the codon
usage pattern. Correspondence analysis and correlation analysis showed the loading of all genes on the first axis of
correspondence analysis correlated negatively and significantly ( P < 0􀆰 05 ) with codon adaption index and GC3s.
Thereforeꎬ codon usage pattern was also influenced by gene expression and GC3s. Moreoverꎬ 22 codons were identified
to be preferred codons with high frequency in highly expressed genes. Among themꎬ 21 codons were ended with G / Cꎬ
indicating high GC3s bias in preferred codons.
Key words:Correspondence analysisꎻ Correlation analysisꎻ Chi square testsꎻ Nitrogen fixationꎻ Preferred codon
477