全 文 :Vol131 , No15
pp1 596 - 602 May , 2005作 物 学 报ACTA A GRONOM ICA SIN ICA第 31 卷 第 5 期2005 年 5 月 596~602 页
水稻和拟南芥 NBS2L RR基因家族同义密码子使用偏好的比较
张晓峰1 ,2 薛庆中1 ,2 , 3 Ξ
(1 浙江大学农业与生物技术学院农学系 ,浙江杭州 310029 ;2 浙江大学沃森基因组科学研究院 ,浙江杭州 310008)
摘 要 : 应用软件 CodonW ,对全基因组进行分析 ,鉴定出水稻和拟南芥 NBS2LRR 基因家族的最优密码子分别为 25 和 16
种。NBS2LRR基因家族与其全基因组的最优密码子一致 ,但两个物种间彼此完全不一致 ,密码子使用上发生偏向的程度也
不尽相同 ,说明 NBS2LRR基因家族的密码子使用偏好受物种自身的影响很大。同时 ,同一物种内基因家族对密码子的使
用也存在一定变异性。水稻以 G或 C结尾的密码子发生强烈偏向使用 ,而拟南芥中则是以 A 或 T结尾的密码子。密码子
中位于第一、三位的 G+ C含量明显高于第二位的 G+ C的含量。最适密码子使用频率 Fop (frequency of optimum codons )与
基因的 G+ C含量、第三位密码子的 G+ C百分含量 GC3S以及物种特定的密码子适合性因子 CAI均极显著相关。
关键词 : 水稻 ;拟南芥 ;NBS2L RR 基因 ;密码子用法
中图分类号 : S511
Synonymous Codon Bias of NBS2L RR Gene Family in Rice and Arabidopsis
ZHAN G Xiao2Feng1 ,2 , XU E Qing2Zhong1 ,2 , 3
(1 Depart ment of A gronomy , College of A gricult ure and Biotechnology , Zhejiang U niversity , Hangzhou 310029 , Zhejiang ; 2 James D . W atson
Instit ute of Genome Sciences , Zhejiang U niversity , Hangzhou 310008 , Zhejiang , China)
Abstract : The variation in codon usage of NBS2L RR gene in completely sequenced genomes of rice and A rabidopsis
families both within and between genomes was investigated using a universal multivariate analysis program —
CodonW1 In 59 synonymous codons detected , 25 optimal codons of rice and 16 optimal codons of A rabidopsis were
identified1 NBS2L RR genes of rice had a specific codon usage bias differed from that of A rabidopsis1 The patterns of
synonymous codon usage of two NBS2L RR families were consistent with their whole genome , which reflected their
specific behavior within the genome1 The each member of two NBS2L RR gene families had different bias in codon
usage and also presented differences within each NBS2L RR genes1 The most strongly biased codons like in rice NBS2
L RR genes were mainly G2ending or C2ending codons other than A2ending or T2ending codons of A rabidopsis1 The
percentages of G + C at the first and third position were significantly higher than that of the second position1 The
frequency of optimal codon ( Fop) was great correlated with G + C content of genes , G + C content at the third
position of synonymous codons ( GC3S) and codon adaptation index (CAI) of species , respectively1
Key words :Rice ; A rabidopsis ; NBS2L RR gene ; Codon usage
遗传密码共有 64 种 ,代表 20 种不同的氨基酸
和翻译终止信号 ,每个密码子被细胞质中的转运
RNA(tRNA) 所识别 ,而完成蛋白质的翻译过程。除
了 3 个终止密码子外 ,构成生物体蛋白质的 20 种氨
基酸 ,由 61 种不同的密码子所编码 ,暗示同一种氨基
酸由几种不同密码子编码 ,通常将这些编码同一种氨
基酸的密码子互称为同义密码子 ( synonymous
codon) 。某一物种或基因对特定的同义密码子有使
用偏好 ,或称为密码子偏性 (codon bias) ,被优先使用
的某些密码子称为最优密码子 (optimalcodon) 。同
义密码子的使用不是随机的 ,而是自然选择的结果 ,
Hartmann(1963) 提出同义密码子的选择使用对基
因的表达起着重要的调节作用[ 1 ] ,有利于翻译的准
确性和效率[ 2 ] 。密码子的使用受很多因素的选择
压 ,通常认为是物种间发生分离 ,进而产生新物种的
重要原因之一[ 3 ,4 ] 。
近年来 ,很多物种全基因组测序的完成 ,有助于
在全基因组水平上对密码子的使用有更新的了解。
研究表明 ,不同的密码子的使用模式和基因的 GC
含量 ,尤其是第三位密码子的含量GC3 有密切的关Ξ基金项目 : 国家自然科学基金 (39870421) 、浙江重点课题 (2003C22007)和浙江省 04206 水稻品种改良攻关项目资助。
作者简介 : 张晓峰 (1973 - ) ,女 ,黑龙江人 ,在读博士研究生 ,研究方向 :植物基因组学。 3 通讯作者 :薛庆中 ,教授 ,博士生导师 ,研究方
向 :作物遗传育种和植物基因组学。E2mail : qzhxue @hotmail1com
Received(收稿日期) :2004204201 , Accepted(接受日期) :20042082281
系[ 5~8 ] 。在一些细菌中 ,基因密码子的使用偏性常
和基因的表达有关 ,通常高效表达的基因较低表达
的基因在密码子使用上具有更强的偏向性。基因组
内 ,高表达的基因相对于其他低或中等表达的基因
有更强烈的密码子使用上的偏好[ 9 ,10 ] 。在很多情况
下 ,密码子的使用情况是 t RNA 丰度分布的反应 ,也
就是说被偏爱的密码子所对应的反义密码子通常在
细胞质中也是含量较多的种类 ,这种对应关系似乎
也表明 t RNA 丰度可能为同义密码子使用的主要选
择压力[ 11 ,12 ] 。
NBS2L RR 类型的基因是植物最重要的抗性基
因家族 ,该类基因编码的 R 蛋白的典型特点是蛋白
序列中都包含核苷酸结合位点 (NBS) 和下游富亮氨
酸重复 (L RRs) 。在序列的 N 末端一般具有卷曲螺
旋结构 ( coiled2coil) 和白介素受体蛋白类似序列
( TIR 区域) 。植物中 NBS2L RR 基因普遍存在 ,例
如 ,拟南芥基因组中 ,大约有 150 个 NBS2LRR 基因 ,
占全基因组基因总数的 015 %[13 ] ;水稻 NBS2LRR 基
因为 258 个 ,占全基因组基因的 016 %。本文对这两
个模式生物的 NBS2LRR 基因家族的全部成员 ,在密
码子使用上的特性进行了比较分析和探讨 ,试图为该
抗性基因家族的分子进化提供一些佐证。
1 材料和方法
111 数据
水稻的全基因组数据库来自华大基因精细图数
据库 ,水稻 NBS2L RR 抗性基因家族为在该数据库
中鉴定的 258 个 NBS2L RR 基因 ;拟南芥的 NBS2
L RR 抗性基因家族共 140 个基因 (包括 92 个 TIR2
NBS2L RR 基因家族和 48 个 CC2NBS2L RR 基因) 以
及全基因组数据库均来自 NCB I 数据库。
112 方法
11211 因子相应性分析 采用 CodonW 软件包
来进行多变量的因子相应性分析 ( Peden J , http :ΠΠ
www1molbiol1ox1ac1ukΠcuΠ) 。因 子 相 应 性 分 析
(factorial correspondence analysis) 是一种多变量分
析方法 ,可以鉴别序列间密码子使用上的差异和所
涉及密码子的使用情况。多维空间中位置相近的序
列在密码子使用上 ,具有相似的特点。
11212 密码子相对使用度的估算 本研究通过
相对密码子使用度 (relative synonymous codon usage ,简
称 RSCU)的统计估算 ,对 59 种同义密码子 (不包括 3
种终止密码子 TAG、TGG、TGA 和一个起始密码子
ATG以及仅有 1 个密码子的色氨酸 TGG)的使用偏向
性进行评估。相对密码子使用度即某一密码子所使用
的频率与其在无偏使用时预期频率之间的比值。
11213 最优密码子的确定 估算密码子使用偏
性强和弱的两组基因之间相应密码子使用度之差 ,
作统计学上显著测验 ,确定“最优密码子”(optimal
codon) 。具体方法是通过计算基因中所使用的有效
密码子的数量 ( ENc) ,确定所分析基因群体中基因
表达的强弱。有效密码子的数量是密码子使用偏好
的一个度量 ,有效密码子数越小说明基因对密码子
的使用偏性越大 ,而密码子使用偏性越大的基因通
常被认为是越高效表达的基因[ 14 ] 。其值介于 20 到
61 之间 ,即如果每种氨基酸只使用一种密码子则有
效密码子数为 20 ,如果各种同义密码子的使用机会
完全均等 ,则有效密码子数为 61。Codon W 程序默
认条件下是各取候选基因总数的 5 %高、低表达两
组基因进行最优密码子的确定。
2 结果与分析
211 NBS2L RR基因家族的碱基组成
表 1 给出了水稻和拟南芥两个 NBS2L RR 基因
家族所有基因的位于密码子中第一位、第二、三位碱
基 GC 的百分率。由表 1 可以看出 ,位于密码子中 3
个位置的 GC 含量并非平均分布 ,分布的趋势是密
码子第二位上的 GC 含量均低于第一和第三位上密
码子 ,而位于一、三位密码子 GC 含量差异不明显。
不同物种之间 GC 含量差异很大 ,水稻基因组全部
基因密码子的 GC 含量 (5314 %) 明显高于拟南芥
(4017 %) 。前者偏好 GC ,而后者强烈偏好 A T。基
因组 GC 含量高的 NBS2L RR 基因家族基因的平均
GC 含量也高 ,但若以 NBS2L RR 基因家族间 GC 含
量比较 ,水稻 (01456)虽仍高于拟南芥 (01420) ,但两
者差异并不显著 ,暗示作为抗性相关的 NBS2L RR
基因家族 ,不论是单子叶植物水稻或双子叶植物拟
南芥均对 A T 强烈偏好。
表 1 水稻和拟南芥 NBS2L RR基因家族以及全基因组密码子中 3 个位置的 GC含量
Table 1 GC content of different positions of codons in NBS2L RR genes of rice and Arabidopsis
种类
Species
基因
Gene
数量
Number
第一位置
First position
第二位置
Second position
第三位置
Third position
三位置平均
Total average
Rice NBS2L RR 258 01517 01370 01480 01456
All genes 47 077 01570 01442 01591 01534
A rabi dopsis NBS2L RR 140 01425 01397 01437 01420
All genes 29 392 01419 01395 01407 01407
795 第 5 期 张晓峰等 :水稻和拟南芥 NBS2L RR 基因家族同义密码子使用偏好的比较
表 2 59 种同义密码子在水稻和拟南芥 NBS2L RR基因家族的高表达和低表达基因中平均使用频率
Table 2 Average relative frequency of 59 synonymous codons in highly expressed and weakly expressed genes of
NBS2L RR families of rice and Arabidopsis
氨基酸
Amino
acid
密码子
Codon
水稻 Rice
All genes NBS2L RR genes
High
681255
Weak
1142335
High
12990
Weak
10399
拟南芥 A rabi dopsis
All genes NBS2L RR genes
High
1091044
Weak
632695
High
9152
Weak
6708
Phe TTT 01020 01660 01180 01640 01695 3 01681 01640 3 01485
TTC 01980 3 01340 01820 3 01360 01305 01311 01360 01515
Leu TTA 01002 01163 01030 01153 01245 3 01135 01183 3 01112
TTG 01030 01263 01115 01220 01242 3 01213 01252 01215
CTT 01018 01238 01102 01243 01203 3 01197 01195 01230
CTC 01587 3 01088 01340 3 01100 01110 01208 01110 01167
CTA 01010 01127 01070 01165 01112 01115 01187 3 01115
CTG 01353 3 01120 01343 3 01118 01088 01132 01072 01162
Ile ATT 01040 01493 01180 01487 01440 3 01357 01370 01303
ATC 01920 3 01223 01660 3 01187 01220 01420 01267 01387
ATA 01043 01283 01160 01327 01340 3 01220 01360 01307
Val GTT 01020 01433 01128 01360 01410 3 01335 01395 01393
GTC 01455 3 01140 01423 3 01168 01150 01228 01143 01133
GTA 01008 01183 01060 01213 01238 3 01155 01223 @ 01165
GTG 01518 3 01245 01390 3 01260 01200 01283 01238 01308
Tyr TAT 01020 01685 01200 01665 01715 3 01475 01685 3 01465
TAC 01980 3 01315 01800 3 01335 01285 01525 01315 01535
His CAT 01070 01720 01410 01735 01685 3 01530 0171 @ 01600
CAC 01930 3 01280 01590 3 01265 01315 01470 01290 01400
Gln CAA 01055 01620 01255 01590 01675 3 01570 01790 3 01500
CAG 01945 3 01380 01745 3 01410 01325 01430 01210 01500
Asn AAT 01055 01675 01355 01635 01655 3 01460 01625 3 01475
AAC 01945 3 01325 01645 3 01365 01345 01540 01375 01525
Lys AAA 01035 01510 01230 01515 01660 3 01455 01545 3 01450
AAG 01965 3 01490 01770 3 01485 01340 01545 01455 01550
Asp GAT 01055 01755 01295 01740 01720 01600 01745 3 01555
GAC 01945 3 01245 01705 3 01260 01280 01400 01255 01445
Glu GAA 01045 01580 01225 01620 01640 3 01475 01590 @ 01525
GAG 01955 3 01420 01775 3 01380 01360 01525 01410 01475
Ser TCT 01018 01280 01105 01238 01303 01202 01297 3 01203
TCC 01337 3 01100 01217 3 01132 01113 01155 01077 01097
TCA 01018 01245 01087 01257 01228 3 01183 01198 01173
TCG 01343 3 01053 01155 3 01020 01080 01160 01073 01110
AGT 01008 01198 01070 01183 01173 3 01150 01220 01210
AGC 01275 3 01122 01365 3 01168 01102 01152 01132 01208
Pro CCT 01038 01400 01195 01368 01343 3 01268 01388 01365
CCC 01265 3 01113 01233 3 01098 01148 01150 01070 01083
CCA 01043 01410 01255 01483 01378 3 01320 01463 3 01323
CCG 01655 3 01078 01318 3 01055 01133 01263 01078 01230
Thr ACT 01015 01388 01150 01365 01348 3 01245 01325 01335
ACC 01448 3 01160 01340 3 01165 01168 01258 01173 01200
ACA 01023 01388 01160 01420 01370 3 01258 0138 @ 01293
ACG 01515 3 01065 01353 01048 01115 01240 01123 01173
Ala GCT 01023 01440 01118 01413 01398 01323 01443 3 01308
GCC 01460 3 01135 01410 3 01110 01158 01215 01145 01238
GCA 01018 01365 01125 01430 01348 3 01240 01320 01250
GCG 01500 3 01060 01348 3 01050 01100 01220 01093 01205
Cys TGT 01030 01580 01215 01580 01690 3 01530 01680 @ 01540
TGC 01970 3 01420 01785 3 01420 01310 01470 01320 01460
Arg CGT 01023 01125 01067 01137 01123 01123 01155 01140
CGC 01453 3 01063 01242 3 01052 01055 01092 01033 01057
CGA 01020 01105 01062 01117 01128 01175 01110 01107
CGG 01303 3 01073 01238 3 01067 01077 01132 01057 01117
AGA 01013 01377 01120 01380 01405 3 01275 01400 01370
AGG 01187 01257 01272 01248 01210 @ 01203 01247 01210
Gly GGT 01030 01338 01128 01300 01368 3 01273 01298 01278
GGC 01685 3 01158 01573 3 01173 01150 01183 01108 01160
GGA 01038 01333 01115 01338 01328 01368 01428 01375
GGG 01248 3 01170 01185 01190 01155 01178 01170 01188
注 :图中标记 3 和 @分别为卡方测验中达到 0101 ( P < 0101)和 0105 (0101 < P < 0105)显著水平的密码子。
Notes : Codons usage was compared using Chi squared contingency test to identify optimal codons1 That occur significantly more often ( P < 0101)
are indicated with a 3 ; codons with 0101 < P < 0105 are indicated with @1
895 作 物 学 报 第 31 卷
212 NBS2L RR基因家族密码子使用选择性
21211 最优密码子的确定和比较 表 2 列出了
水稻和拟南芥 NBS2L RR 基因家族以及基因组中全
部基因的高表达和低表达基因的 59 种同义密码子 ,
及其平均使用频率同整个基因组的对比情况。由表
2 可以看出 ,水稻 NBS2L RR 基因家族对密码子的使
用均存在偏好性 ,而拟南芥有个别同义密码子在使
用上不存在偏向性。水稻 NBS2L RR 基因家族中
TTC、CTC、CTG等 25 个密码子为最优密码子 ,同
时 NBS2L RR 基因家族与全部水稻基因的密码子使
用呈现高度的一致性 ,表明其密码子的使用主要取
决于物种本身。水稻 NBS2L RR 基因家族中最优密
码子使用的均以 C 或 G结尾 ,暗示与密码子中第三
位碱基组成尤为密切相关。拟南芥 NBS2LRR 基因
家族中确定的最优密码子数为 16 个 ,异亮氨酸等 3 种
氨基酸在密码子使用上没有明显的偏向性。与水稻不
同 ,拟南芥 NBS2LRR基因家族中所确定的最优密码 子均以 A 或 T 结尾。拟南芥的 NBS2L RR 基因家族的密码子有 12 种与全基因组基因的密码子使用偏性一致 ,仅 4 种不一致。而拟南芥和水稻的 NBS2L RR 基因所使用的最优密码子差异很大 ,两者的密码子使用完全不一致。21212 密码子使用偏性 水稻和拟南芥全部NBS2L RR 基因的密码子多重因子分析中 ,前两个因子确定的坐标轴平面分布趋势示于图 1。水稻全部基因相应性分析中 ,前两个因子的向量值分别占总变异量的 32129 %和 4158 %(图 12A) ,而水稻 NBS2L RR 基因前两个向量占总变异量的 40159 %和6193 %(图 12B) 。比较这两个图可见 ,向量值在第 1轴分布范围的变异明显高于第 2 轴。水稻 NBS2LRR基因分布相对较为集中 ,说明这些基因在密码子使用上具有相似的特点 ,在水平坐标轴上发生的变异较大。图 12C是拟南芥全部基因在前两个主要向量中的分布 ,分别代表总变异量的8193 %和6153 %。
图 1 水稻和拟南芥基因在相应性分析中前两个向量轴上的分布
Fig11 Projection of rice and Arabidopsis NBS2L RR genes and all genes on the f irst t wo principle axes of correspondence analysis
A :水稻全部基因 ;B :水稻 NBS2L RR 基因 ;C :拟南芥全部基因 ;D :拟南芥 NBS2L RR 基因。
A :All rice genes ; B :Rice NBS2L RR genes ; C :All A rabi dopsis genes ; D : A rabi dopsis NBS2L RR genes1
995 第 5 期 张晓峰等 :水稻和拟南芥 NBS2L RR 基因家族同义密码子使用偏好的比较
图 12D 为拟南芥 NBS2L RR 基因在前两个坐标轴上
的分布 ,2 个坐标轴分别代表总变异量的 2216 %和
1113 %。综合图 1 中的 4 个基因分布图可以看出 ,
水稻和拟南芥的 NBS2L RR 基因家族分布的范围相
对集中 ,说明该基因家族在密码子使用上具有相似
的特点。而在 NBS2L RR 基因家族内部中存在一定
差异 ,水稻的 NBS2L RR 基因之间对密码子在第一
向量轴上的分布范围较拟南芥广 ,说明水稻的 NBS2
L RR 基因在密码子使用上发生的变异较大。在水
稻 NBS2L RR 基因家族中 ,一小部分基因在密码子
使用上存在较大的偏性 ,例如位于图 B 中水平坐标
轴靠近左侧的部分基因。
将 2 个物种 NBS2L RR 基因和全部基因 ,分别
绘制以 A、C、G和 T 4 种碱基结尾的同义密码子在
前两个向量轴上的分布 (图 2) 。由图 2 可以看出 ,
水稻全部基因所使用的密码子 ,以 A 和 T 结尾的聚
集在垂直坐标轴的左侧 ,而以 G和 C 结尾的聚集在
垂直坐标轴的右侧 ,仅 2 个以 G结尾的例外 (图 22
A) 。而在水稻 NBS2L RR 基因中 ,以 A 和 T 结尾的
密码子聚集在垂直坐标轴的左侧 ,而 G和 C 结尾的
密码子聚集在右侧 ,也只有 1 个 G结尾的密码子例
外 (图 22B) 。因此 ,在水稻基因中 ,可用目标向量的
第一个坐标轴来区分这两类结尾的密码子 ,而且 ,水
稻 NBS2L RR 基因和其他基因之间 ,4 种碱基结尾的
密码子在前两个向量分布中具有明显的差异。拟南
芥的基因中以 4 种碱基结尾的密码子在前两轴上的
分布也不尽相同 ,在全部基因中 ,以 G和 C 结尾的
密码子大部分集中在坐标平面的左侧 ,也有少数几
个例外。而以 A 和 T 结尾的密码子在坐标平面中
的分布没有明显趋势 (图 22C) 。拟南芥 NBS2L RR
基因中 ,以 G和 C 结尾的密码子主要集中在水平坐
标轴的上部 ,少数几个例外。而以 T 结尾的密码子
全部分布在水平坐标轴的下面 ,以 A 结尾的密码子
分布没有明显的规律 (图 22D) 。
图 2 水稻和拟南芥基因所使用的 59 种同义密码子在相应性分析中的分布
Fig12 Projection of 59 degenerated codons on the f irst t wo axes of correspondence analysis
A :水稻全部基因 ;B :水稻 NBS2L RR 基因 ;C :拟南芥全部基因 ;D :拟南芥 NBS2L RR 基因。
A :All rice genes ; B :Rice NBS2L RR genes ; C :All A rabi dopsis genes ; D : A rabi dopsis NBS2L RR genes1
006 作 物 学 报 第 31 卷
213 影响最优密码子使用的因素
水稻和拟南芥全部基因所使用的有效密码子数
分别介于 20~61 和 2517~61 之间。NBS2L RR 基
因的有效密码子使用数 ENc 的分布范围均比全部
基因的小 ,尤其在拟南芥中非常明显。比较两个
NBS2L RR 基因家族所使用的 ENc ,水稻 NBS2L RR
基因 ENc 的变异 ( 31122~ 59147) 相对较拟南芥
(45141~5911) 大。GC3S的分布范围也有类似变异
趋势。再以全部基因作比较 ,水稻变异幅度 (1219 %
~100 %) 高于拟南芥 ( 14135 %~ 72 %) 。同样在
NBS2L RR 基因中水稻 (3116 %~9515 %)也高于拟南
芥 ( 2917 %~ 5113 %) 。拟南芥 NBS2L RR 基因的 ENc 和 GC3S 之间呈现极显著的正相关关系 ( r =019498) ,ENc 也随 GC3S含量的增加而增加 ,说明在拟南芥 NBS2L RR 基因中 ,密码子 GC3S含量越小发生偏向使用的程度越强烈 (图 32C) 。而水稻 NBS2L RR 基因中 ENc 和 GC3S之间的关系并非明显的正相关 ,如图 32B 所示 ,在一定 GC3S范围内 ,一部分基因的 ENc 随 GC3S的增加而增加 ,而另一部分基因相反 ,ENc 随着 GC3S的增加而降低。说明 GC3S对水稻NBS2L RR 基因 ENc 的影响具有双重性 ,但发生最强烈偏性使用的基因具有最高的 GC3S含量 (位于图B 中最右侧的部分基因) 。
图 3 GC3S相关的 ENc 分布
Fig13 ENc plotted against GC3S in correspondences analysis
A :水稻全部基因 ;B :水稻 NBS2L RR 基因 ;C :拟南芥全部基因 ;D :拟南芥 NBS2L RR 基因。
A :All rice genes ; B :Rice NBS2L RR genes ; C :All A rabi dopsis genes ; D : A rabi dopsis NBS2L RR genes1
对最佳密码子使用频率 Fop (frequency of
optimum codons)与基因的 GC 含量、第三位密码子
GC3S含量 ,以及与密码子适应性指数 CAI (codon
adaptation index) 等因素之间的相关系数估算的结
果表明 ,水稻 NBS2L RR 基因家族的 Fop 与 GC 含
量、GC3S含量、CAI 之间均显著相关 ,相关系数分别
为 r = 01830 6、01831 4 和 01775 2。而拟南芥相应
的相关系数明显较低 ,分别为 - 01491 8、01443 1 和
- 01726 9。说明不同物种本身在长期进化过程中
形成的特性对密码子的选择性使用发生重要变化 ,
基因的碱基组成和第三位密码子的碱基组成对最优
密码子使用具有重要的影响。
3 讨论
影响密码子使用的因素很多 ,对密码子的选择
性使用并非是这些基因的进化压力的惟一结果。它
和其他进化压力 ,诸如突变和遗传漂移之间存在某
种平衡关系[ 15 ] 。本研究通过对水稻和拟南芥 NBS2
L RR 基因家族以及全基因组编码序列的密码子使
用特性分析和比较 ,发现该抗性基因家族在密码子
使用上很大程度受到物种自身的制约 ,同时又具有
基因家族自身的特点。不同物种的 NBS2LRR 基因家
族之间在密码子使用上存在明显的差异 ,同一 NBS2
LRR基因家族内也存在着一定的变异。
不同的物种对密码子的使用具有很强的特异
106 第 5 期 张晓峰等 :水稻和拟南芥 NBS2L RR 基因家族同义密码子使用偏好的比较
性 ,进化过程中相近的物种具有相似的密码子使用
模式 ,说明物种的密码子使用特点在进化过程中具
有保守性 , 这种变化直接反应在核苷酸的组成
上[ 16 ] 。本研究的两种模式生物中 ,虽然水稻和拟南
芥 NBS2L RR 抗性基因家族蛋白序列存在高度的相
似性 ,而对密码子的使用却存在明显差异 ,尤其体现
在对最优密码子的使用上。最优密码子使用的趋势
基本上与各自基因组一致 ,只是偏向的程度不如全
基因组强烈 ,似乎暗示最优密码子的使用可能与物
种基因组本身所特有的某些类型的 t RNA 种类有
关。这与 Kanaya 等 (1999)的研究结论一致 ,他认为
密码子的偏好性使用与细胞质中可利用的 t RNA 密
切相关 (发生偏好性使用的密码子直接对应于含量
最丰富的 t RNA) ,使基因翻译成蛋白质时达到最佳
的翻译效率[ 17 ] 。虽然 t RNA 的丰度可对密码子的
使用产生较为直接的影响 ,但在长期的进化过程中 ,
选择压力改变了 t RNA 的丰度 ,从而使基因组的密
码子使用模式和核苷酸的频率相应发生了变
化[ 8 ,18 ] 。
Samson2Himmelstjerna 等 (2003) 对线虫和大肠
杆菌基因组的密码子使用研究表明 ,密码子的使用
模式与基因的表达水平呈现强烈的正相关关系[ 10 ] 。
Grocock 等 (2002)分析了假单胞杆菌全基因组密码
子的使用 ,表明偏好使用最优密码子的基因通常具
有较高的表达水平[ 19 ] 。David 等 (2002) 在对 40 个
细菌的基因组分析中 ,也证明了 ,密码子的使用特性
与基因组的核酸组成密切相关[16 ] 。其中 ,最主要是
GC含量、GC3S含量 (第三位密码子的 GC 含量) 的影
响。本研究表明 ,水稻 NBS2LRR 基因的 GC 和 GC3S
的含量与最优密码子的平均使用频率之间存在显著
的正相关关系 ,而与氨基酸的特性关系不明显。
在一些细菌中 ,基因密码子的使用偏性常和基
因的表达有密切联系 ,通常高效表达的基因较低表
达的基因在密码子使用上具有更强的偏向性。基因
组内 ,高表达的基因相对于其他低或中等表达的基
因具有更为强烈的密码子使用上的偏好[ 9 ,10 ] 。本研
究表明 ,NBS2L RR 基因对密码子使用上的偏向性还
受 GC3S的影响 ,在拟南芥中 ,两者呈显著的负相关 ,
即 GC3S含量越小 ,密码子发生偏向使用的趋势越明
显 ,而水稻中 GC3S对最优密码子的使用影响具有二
重性 ,最强烈偏向使用的密码子具有最大的 GC3S含
量。此外 ,在一些物种中 ,基因对所使用的密码子的
偏向性还受基因长度的影响[ 20 ,21 ] 。
References
[1 ] Carlini D B , Stephan W1 In vivo introduction of unpreferred
synonymous codons into the Drosophila A dh gene results in reduced
levels of ADH protein1 Genetics , 2003 ,163 (1) : 239 - 243
[2 ] Sharp P M , Matassi G1 Codon usage and genome evolution1 Curr
Opin Genet Dev , 1994 , 4 (6) : 851 - 860
[ 3 ] Goldman N , Yang Z1 A codon2based model of nucleotide substitution
for protein2coding DNA sequences1 Molecular Biology and
Evolution , 1994 , 11 (5) : 725 - 736
[ 4 ] Schmidt W1 Phylogeny reconstruction for protein sequences based on
amino acid properties1 J Mol Evol , 1995 ,41 (4) : 522 - 530
[5 ] Ghosh T C , Gupta S K , Majumdar S1 Studies on codon usage in
Entamoeba histolytica1 Int J Parasitol , 2000 ,30 (6) : 715 - 722
[6] Musto H , Cruveiller S1 Translational selection on codon usage in Xenopus
laevis1 Molecular Biology and Evolution , 2001 ,18 (9) : 1 703 - 1 707
[7 ] Romero H , Zavala A1 The influence of translational selection on
codon usage in fishes from the family Cyprinidae1 Gene , 2003 , 317
(1 - 2) : 141 - 147
[ 8 ] Adams M J , Antoniw J F1 Codon usage bias amongst plant viruses1
A rch V irol , 2004 , 149 (1) : 113 - 135
[ 9 ] Epstein R J , Lin K , Tan T W1 A functional significance for codon
third bases1 Gene , 2000 , 245 (2) : 291 - 298
[10] Samson2Himmelstjerna G, Harder A1 Analysis of codon usage in beta2
tubulin sequences of helminths1 Parasitol Res , 2003 , 90 (4) : 294 - 300
[ 11 ] Ikemura T1 Correlation between the abundance of Escherichia coli
transfer RNAs and the occurrence of the respective codons in its
protein genes : a proposal for a synonymous codon choice that is
optimal for the E1 coli translational system1 J Mol Biol , 1981 ,
151 (3) : 389 - 409
[ 12 ] Ikemura T1 Correlation between the abundance of yeast transfer
RNAs and the occurrence of the respective codons in protein genes1
Differences in synonymous codon choice patterns of yeast and
Escherichia coli with reference to the abundance of isoaccepting
transfer RNAs1 J Mol Biol , 1982 , 158 (4) : 573 - 597
[13 ] Meyers B C , Kozik A1 Genome2wide analysis of NBS2LRR2encoding
genes in Arabidopsis1 The Plant Cell , 2003 ,15(4) : 809 - 834
[ 14 ] Wright F1 The effective number of codons’used in a gene1 Gene ,
1990 , 87 (1) : 23 - 29
[ 15 ] Sharp P M , Stenico M1 Codon usage : mutational bias ,
translational selection , or both biochem1 Soc Trans , 1993 , 21
(4) :835 - 841
[16 ] Lynn D J , Singer G A , Hickey D A1 Synonymous codon usage is
subject to selection in Thermophilic bacteria1 N ucleic Acids Res ,
2002 , 30 (19) :4 272 - 4 277
[17 ] Kanaya S , Yamada Y1 Studies of codon usage and tRNA genes of 18
unicellular organisms and quantification of Bacillus subtilis tRNAs : gene
expression level and species2specific diversity of codon usage based on
multivariate analysis1 Gene , 1999 , 238 (1) :143 - 155
[ 18 ] Bulmer M1 The selection2mutation2drift theory of synonymous
codon usage1 Genetics , 1991 , 129 (3) :897 - 907
[19 ] Grocock R J , Sharp P M1 Synonymous codon usage in Pseudomonas
aeruginosa PA011 Gene , 2002 , 289 (1 - 2) :131 - 139
[20 ] Duret L , Mouchiroud D1 Expression pattern and , surprisingly , gene
length shape codon usage in Caenorhabditis , Drosophila , and
A rabidopsis1 Proc Natl Acad Sci USA , 1999 , 96 (8) :4 482 - 4 487
[ 21 ] Liu Q2P(刘庆坡) , Tan J (谭军) ,Xue Q2Z(薛庆中) 1 Synonymous
codon usage bias in the rice cultivar 93211 ( Oryza sativa L1 ssp1
indica) . Acta Genetica Sinica (遗传学报) ,2003 ,30 (4) : 335 -
340 (in Chinese with English abstract)
206 作 物 学 报 第 31 卷