全 文 :园 艺 学 报 2012,39(7):1341–1352 http: // www. ahs. ac. cn
Acta Horticulturae Sinica E-mail: yuanyixuebao@126.com
收稿日期:2012–03–21;修回日期:2012–06–15
基金项目:山东省科技发展计划项目(2011GNC11010);青岛市科技发展计划项目(10-3-3-17-nsh);山东省自然科学基金项目
(ZR2010CL021,2009ZRB01654);国家科技支撑计划项目(2011BAD01B01)
* 通信作者 Author for correspondence(E-mail:dzttea@163.com)
茶树抗寒调控转录因子 ICE1 密码子偏性分析
时 慧,王 玉,杨路成,丁兆堂*
(青岛农业大学茶叶研究所,山东青岛 266109)
摘 要:运用 CHIPS、CUSP 和 CodonW 软件程序分析自主克隆的茶树(Camellia sinensis)ICE1
(GenBank 登录号 JX029153)的密码子的偏性,并与茶树基因组及萝卜等 7 种植物的 ICE1 密码子偏性
进行比较。结果表明,茶树 ICE1 偏好于以 A/T 结尾的密码子;与茶树基因组密码子偏性相比,发现只有
6 种氨基酸密码子偏性完全一致。进一步研究发现 ICE1 的碱基组成在单子叶植株大麦与 7 种双子叶植物
分化后发生了较大的变化。在聚类分析中,基于基因 CDS 序列的聚类不能正确反映物种间的进化关系,
而基于密码子偏性参数相对密码子使用度(RSCU)的聚类更适合作为系统发育分析的参考。与 3 种外源
受体密码子使用频率比较发现,与大肠杆菌基因组密码子使用频率差值较大的有 25 个,与酵母基因组差
值较大的有 15 个,与拟南芥基因组差值较大的有 10 个,这预示着 ICE1 在拟南芥中的表达效率最高,若
要在其他外源受体中进行高效表达,尚需对其密码子进行优化。
关键词:茶树;ICE1;密码子用法;密码子偏性;聚类分析;抗寒
中图分类号:S 571.1 文献标识码:A 文章编号:0513-353X(2012)07-1341-12
Analysis of Codon Bias of the Cold Regulated Transcription Factor ICE1 in
Tea Plant
SHI Hui,WANG Yu,YANG Lu-cheng,and DING Zhao-tang*
(Institute of Tea Science,Qingdao Agricultural University,Qingdao,Shandong 266109,China)
Abstract: In this study the coding sequence of the ICE1(GenBank Accession No. JX029153)in tea
plant(Camellia sinensis)were analyzed with CodonW,CHIPS(Condon heterozygosity in a protein
coding sequence)and CUSP(Create a codon usage table)programs,while compared with the genome of
tea plant and ICE1 from 7 plant species. The results showed that ICE1 of tea plant was bias toward the
synonymous codons with A and T. Compared with the codon usages of tea genome,the consequence
indicated that only six kinds of amino acid codon bias was exactly the same. Further studies found that the
ICE1 bases composition had greatly changed after monocotyledonous and dicotyledonous plants
differentiating. The cluster tree based on the relative synonymous codon usage(RSCU)could not reveal the
evolutional relations among the 8 plant species,whereas that based on the relative synonymous codon
usage(RSCU)could reveal their evolutional relationship much better. There are 25 codons showing
distinct usage differences between ICE1 of tea plant and genome of Escherichia coli,15 between ICE1 of
1342 园 艺 学 报 39 卷
tea plant and genome of yeast,10 between ICE1 of tea plant and genome of Arabidopsis thaliana.
Therefore,the Arabidopsis thaliana expression system may be more suitable for the expression of ICE1 of
tea plant.
Key words:tea plant;Camellia sinensis;ICE1;codon usage;codon usage bias;cluster analysis;
cold resistance
密码子是联系基因的核苷酸序列与蛋白质的氨基酸序列的途径。编码同一种氨基酸的密码子称
为同义密码子(synonymous codon),不同物种或同一物种的不同基因对同义密码子的使用并不完全
均衡,经过长期进化,这些基因都会形成对特定同义密码子的使用偏爱,称为密码子偏性(codon
bias)。
在转基因研究中,由于外源基因的密码子和受体基因组密码子使用偏性不同,易引起甲基化,
从而引发转基因沉默或转基因表达量降低(张乐 等,2011)。密码子偏性现象广泛存在于生物界中,
起初主要分析原核和低等真核生物中密码子偏性与基因表达的关系(Gustafsson et al.,2004),后来
人们开始关注哺乳动物、人和高等植物的密码子偏性,着手描述进化规律、阐释分化机理。目前在
籼稻、柑橘、杨树、玉米等高等植物中,密码子用法分析已有报道(刘庆坡 等,2003;胡桂兵 等,
2006;周猛 等,2007;刘汉梅 等,2008)。但近两年来更倾向于同类基因家族或单个功能基因的研
究工作(刘汉梅 等,2010;李平 等,2011),目前茶树中还没有通过研究单个功能基因密码子使用
偏性,从而指导后续研究的报道。
ICE1 是个重要的抗寒调控转录因子,它所编码的 TF 能特异性地结合到 CBF3 的启动子序列上
(Chinnusamy et al.,2003),并诱导 CBF/DREB1 调控的下游基因的转录表达,从而大大提高植物的
抗寒性(Michael et al.,2001)。
本研究中通过 CodonW 和 EMBOSS(The European Molecular Biology Open Software Suite)在线
程序,分析了该基因的密码子偏性,并与茶树的基因组及其他作物上的 ICE1 密码子偏性进行比较,
以期为该基因在作物遗传改良中选择合适的受体植物提供依据,通过与大肠杆菌、酵母、拟南芥基
因组密码子偏性进行比较,一方面为进一步研究 ICE1 蛋白质的结构和功能奠定基础;另一方面为
未来深入开展 ICE1 的转基因功能验证提供基础数据。
1 材料与方法
1.1 茶树 CDS 序列来源
在 GenBank 中检索茶树(Camellia sinensis)mRNA 序列,从中筛选用于密码子分析的蛋白质
编码基因序列(CDS)73 条,作为茶树基因组密码子分析的样本。筛选 CDS 的原则(Paul et al.,
1991)是:(1)编码蛋白质的完整序列,以 ATG 为起始密码子,以 TAA、TAG 或 TGA 为终止密码
子;(2)编码序列长度大于 300 bp;(3)只在细胞质中翻译的基因;(4)对极其相似的基因家族成
员仍包括在内。
1.2 其他物种序列来源和分析软件
萝卜、毛白杨、拟南芥、小盐芥、莴苣、荠菜、大麦的 ICE1 的序列来源 GenBank,序列登录
号分别为 HQ891287.1、EF405966.1、AY195621.1、HM044323.1、HQ848932.1、AY506804.1、
EU887261.1。大肠杆菌、酵母基因组的密码子偏性数据来源于 Codon Usage Database(http://www.
7 期 时 慧等:茶树抗寒调控转录因子 ICE1 密码子偏性分析 1343
kazusa. or. jp/codon)。密码子使用频率分别采用 EMBOSS 在线程序(http://vmbioinfo. toulouse. inra.
fr/emboss)中的 CHIPS(Codon heterozygosity in a protein coding sequence)和 CUSP(Create a codon
usage table)以及 CodonW 软件进行分析。对基因密码子使用偏性的聚类采用 SPSS 18.0 系统多元分
析软件。
1.3 同义密码子使用偏性分析
运用软件 CHIPS 对各基因的全长编码区计算以下衡量同义密码子使用偏性的参数。
(1)有效密码字数(ENc,effective number of codons),该值被认为是评价基因整体密码子偏
性用法中最具参考价值的参数之一。该值的范围在 20(每个氨基酸只使用一个密码子的极端情况)
到 61(各个密码子均被平均使用)之间,越靠近 20 偏性越强(李平 等,2011)。
(2)全长基因的 GC 含量和 GC3s 含量,GC3s 则表示密码子的第 3 位碱基中 G + C 的含量在
第 3 位碱基总量中所占的比率。
(3)同义密码子的相对使用度(RSCU,relative synonymous codon usage),能直观地反映出密
码子使用偏性程度,该值的计算方法为某一密码子所使用的频率与其在无偏使用时预期频率之间的
比值,若某一密码子的 RSCU 值等于 1,则表明该密码子的使用没有偏爱;RSCU 值大于 l,表明该
密码子的使用频率相对较高,RSCU 值小于 l,表明该密码子的使用频率相对较低(Sharp et al.,1986)。
(4)Fraction 表示各个密码子在编码该氨基酸的密码子中所占的比例(各个比例相加总和等于
1);Frequency 值代表某一特定密码子在编码基因总密码子中出现的频率(%)。
1.4 基于密码子使用偏性和 CDS 序列的聚类
利用 SPSS 18.0 软件对 8 条 ICE1 基于密码子使用偏性进行聚类。在对基因密码子使用概率分析
时,将每一条基因作为一个对象,RSCU 作为变量采用 59 个同义密码子[去除编码蛋氨酸(M)的
密码子 AUG 和编码色氨酸(W)的密码子 UGG 以及 3 个终止密码子]的 RSCU 值对其密码子使用
偏性进行分析,基因间的距离规定为 RSCU 的欧氏平方距离(Das et al.,2006)。对于类与类间的距
离,采用离差平方和法(Ward 法),以便使同类样品之间的离差平方和最小,而类与类之间的离差
平方和最大(顾万军 等,2002)。而后在 DNAstar 的 MegAlign 模块中,利用 Jotun Hein 方法构建
系统进化树。
2 结果与分析
2.1 ICE1 有效密码子数(ENc)和 GC 含量分析
应用 CHIPS 和 CodonW 在线程序计算茶树 ICE1 的 ENc 值、GC 含量和 GC3s 值分别为 54.13、
0.451 和 0.440,可见 ENc 值偏大,表明茶树 ICE1 各密码子在编码氨基酸时出现的频率比较一致;
ICE1 编码区 GC 含量较低,而 GC3s 值则更低,ICE1 偏好使用以 A/T 结尾的密码子,且在整个编
码区序列中 A + T 含量大于 G + C。
2.2 茶树 ICE1 密码子偏性分析
用 Codon W 计算各基因的 RSCU 值和 EMBOSS 在线程序计算的密码子使用频率结果表明,在
茶树 ICE1 的密码子中,有 26 个密码子的 RSCU 值大于 l,其中 17 个密码子是以 A/T 碱基结尾的,
且 Fraction 值也较大,为 ICE1 的偏好密码子(表 1)。
1344 园 艺 学 报 39 卷
表 1 CUSP 和 CodonW 程序分析茶树 ICE1 的密码子偏性
Table 1 Codon bias of ICE1 analyzed by CUSP and CodonW program
密码子
Codon
氨基酸
Amino
acid
比例
Fraction
频率/%
Frequency
个数
Number
相对密
码子使
用度
RSCU
密码子
Codon
氨基酸
Amino
acid
比例
Fraction
频率/%
Frequency
个数
Number
相对密
码子使
用度
RSCU
GCA A 0.227 0.9634 5 0.91 CCA P 0.519 2.6975 14 2.07
GCC A 0.136 0.5780 3 0.55 CCC P 0.111 0.5780 3 0.44
GCG A 0.136 0.5780 3 0.55 CCG P 0.000 0.0000 0 0.00
GCT A 0.500 2.1195 11 2.00 CCT P 0.370 1.9268 10 1.48
TGC C 0.625 0.9634 5 1.25 CAA Q 0.700 2.6975 14 1.40
TGT C 0.375 0.5780 3 0.75 CAG Q 0.300 1.1561 6 0.60
GAC D 0.370 1.9268 10 0.74 AGA R 0.240 1.1561 6 1.44
GAT D 0.630 3.2755 17 1.26 AGG R 0.400 1.9268 10 2.40
GAA E 0.667 4.2389 22 1.33 CGA R 0.080 0.3854 2 0.48
GAG E 0.333 2.1195 11 0.67 CGC R 0.120 0.5780 3 0.72
TTC F 0.455 1.9268 10 0.91 CGG R 0.160 0.7707 4 0.96
TTT F 0.545 2.3121 12 1.09 CGT R 0.000 0.0000 0 0.00
GGA G 0.163 1.3487 7 0.65 AGC S 0.164 1.9268 10 0.98
GGC G 0.140 1.1561 6 0.56 AGT S 0.098 1.1561 6 0.59
GGG G 0.372 3.0829 16 1.49 TCA S 0.279 3.2755 17 1.67
GGT G 0.326 2.6975 13 1.30 TCC S 0.115 1.3487 7 0.69
CAC H 0.500 0.7707 4 1.00 TCG S 0.131 1.5414 8 0.79
CAT H 0.500 0.7707 4 1.00 TCT S 0.213 2.5048 13 1.28
ATA I 0.056 0.1927 1 0.17 ACA T 0.179 0.9634 5 0.71
ATC I 0.444 1.5415 8 1.33 ACC T 0.357 1.9268 10 1.43
ATT I 0.500 1.7341 9 1.50 ACG T 0.071 0.3854 2 0.29
AAA K 0.393 2.1195 11 0.79 ACT T 0.393 2.1195 11 1.57
AAG K 0.607 3.2755 17 1.21 GTA V 0.273 1.1561 7 1.09
CTA L 0.051 0.5780 3 0.31 GTC V 0.136 0.5780 3 0.55
CTC L 0.169 1.9268 10 1.02 GTG V 0.227 0.9634 5 0.91
CTG L 0.186 2.1195 11 1.12 GTT V 0.364 1.5414 8 1.45
CTT L 0.186 2.1195 11 1.12 TGG W 1.000 0.3854 2 1.00
TTA L 0.102 1.1561 6 0.61 TAC Y 0.500 0.7707 4 1.00
TTG L 0.305 3.4682 18 1.83 TAT Y 0.500 0.7707 4 1.00
ATG M 1.000 2.6975 14 1.00 TAA * 0.000 0.0000 0 *
AAC N 0.372 3.0829 16 0.74 TAG * 1.000 0.1927 1 *
AAT N 0.628 5.0023 27 1.26 TGA * 0.000 0.0000 0 *
注:RSCU > 1 表示该密码子使用频率高。
Note:RSCU > 1 means codon usage with high frequency.
2.3 茶树 ICE1 与茶树基因组密码子偏性的比较
运用 CodonW 软件分析了 73 条茶树蛋白质基因的密码子(共计 28 931 个)同义密码子相对使
用度(RSCU)。结果(表 2)表明茶树基因组共有 28 个密码子的 RSCU 值大于 l。其中 20 个密码子
是以 A/T 碱基结尾的。这与茶树 ICEI 密码子的偏性相一致。但是比较二者的 RSCU 值发现在具体
单个密码子偏性上还存在较大差异。其中有 CTG、GTA、CCG、ACA、GGA、GGG、GCA、TAT、
CAT、CAA、CAG、CAA、CAG、GAA、TGT、TGC 和 CGT,共 17 个密码子使用偏性上存在显著
差异;二者密码子偏性完全一致的氨基酸只有 6 种,分别是 S(Ser)、N(Asn)、K(Lys)、D(Asp)、
W(Trp)及 F(Phe),而 Q(Gln)、E(Glu)、C(Cys)这 3 种氨基酸的密码子的偏性完全不同。
7 期 时 慧等:茶树抗寒调控转录因子 ICE1 密码子偏性分析 1345
此外研究还发现整个茶树基因组的终止密码子最偏好于 TGA(RSCU = 1.54),RSCU 最小的为 TAG
(RSCU = 0.67),而 ICE1 则是以 TAG 为终止密码子。
表 2 茶树基因组蛋白编码序列同义密码子及 ICE1 密码子的相对使用度
Table 2 The relative synonymous codon usage of coding sequences of proteins in tea genome and ICE1
氨基酸
Amino acid
密码子
Codon
茶树基因组
C. sinensis genome
ICE1 氨基酸
Amino acid
密码子
Codon
茶树基因
C. sinensis genome
ICE1
L(Leu) TTA 0.61 0.61 A(Ala) GCT 1.61 2.00
TTG 1.51 1.83 GCC 0.84 0.55
CTT 1.55 1.12 GCA 1.17 0.91
CTC 1.03 1.02 GCG 0.38 0.55
CTA 0.54 0.31 TER TAA 0.79 0.00
CTG 0.76 1.12 TAG 0.67 3.00
I(Ile) ATT 1.45 1.5 TGA 1.54 0.00
ATC 0.90 1.33 Y(Tyr) TAT 1.04 1.00
ATA 0.66 0.17 TAC 0.96 1.00
M(Met) ATG 1.00 1.00 H(His) CAT 1.15 1.00
V(Val) GTT 1.54 1.45 CAC 0.85 1.00
GTC 0.72 0.55 Q(Gln) CAA 0.99 1.40
GTA 0.51 1.09 CAG 1.01 0.60
GTG 1.24 0.91 N(Asn) AAT 1.11 1.26
TCT 1.64 1.28 AAC 0.89 0.74
TCC 0.85 0.69 K(Lys) AAA 0.89 0.79
S(Ser) TCA 1.22 1.67 AAG 1.11 1.21
TCG 0.55 0.79 D(Asp) GAT 1.29 1.26
AGT 0.94 0.59 GAC 0.71 0.74
AGC 0.80 0.98 E(Glu) GAA 0.94 1.33
P(Pro) CCT 1.48 1.48 GAG 1.06 0.67
CCC 0.71 0.44 C(Cys) TGT 1.09 0.75
CCA 1.31 2.07 TGC 0.91 1.25
CCG 0.50 0.00 W(Trp) TGG 1.00 1.00
T(Thr) ACT 1.39 1.57 R(Arg) CGT 0.85 0.00
ACC 1.05 1.43 CGC 0.55 0.72
ACA 1.21 0.71 CGA 0.77 0.48
ACG 0.35 0.29 CGG 0.63 0.96
G(Gly) GGT 1.25 1.30 AGA 1.69 1.44
GGC 0.70 0.56 AGG 1.51 2.40
GGA 1.22 0.65 F(Phe) TTT 1.06 1.09
GGG 0.83 1.49 TTC 0.94 0.91
注:RSCU > 1 的表示该密码子使用频率高,密码子使用偏性差异显著的用“□”标记。
Note:RSCU > 1 means codon usage with high frequency. Codon usage preference significantly different marked with“□”.
2.4 茶树 ICE1 与其它植物 ICE1 密码子偏性的比较
2.4.1 ENc、RSCU及 GC含量分析
各物种 ICE1 的 ENc 值、GC 和 GC3s 含量计算结果见表 3。结果显示双子叶植物萝卜、毛白杨、
拟南芥、小盐芥、莴苣、荠菜在密码子使用上与茶树相似,其 ENc 值均小于 55,而单子叶植物大
麦的 ENc 值为 55.13,大于 55。一般来说,ENc 值越小表明该基因的表达水平越高,ENc 值小于 30
和大于 55 的基因则可分别被预测为高表达和低表达基因(Sharp et al.,1986)。从数据看,7 个双子
1346 园 艺 学 报 39 卷
叶植物的 ICE1 表达水平一般,而单子叶植物大麦表达水平偏低。7 种双子叶植物 ICE1 的 GC 和 GC3s
含量均低于 0.5,而单子叶植物大麦 ICE1 的 GC 和 GC3s 含量分别为 0.539 和 0.585 均大于 0.5,这
预示 7 种双子叶植物的 ICE1 均对 A/T 有一定的偏好,而单子叶植物大麦对 G/C 的偏性更强。
表 3 8 个物种 ICE1 的 ENc、GC 和 GC3s
Table 3 The ENc values and contents of GC and GC3s for ICE1 in eight species
物种 Species ENc GC GC3s
茶树 Cameallia sinensis 54.13 0.451 0.440
萝卜 Raphanus sativus 51.35 0.471 0.436
毛白杨 Populus trichocarpa 47.65 0.429 0.385
拟南芥 Arabidopsis thaliana 43.81 0.439 0.331
小盐芥 Thellungiella halophila 53.42 0.492 0.458
莴苣 Lactuca sativa 54.68 0.488 0.454
荠菜 Capsella bursa-pastoris 45.58 0.456 0.364
大麦 Hordeum vulgare 55.13 0.539 0.585
表 4 列出了 59 个密码子[去除编码蛋氨酸(M)的起始密码子 ATG、编码色氨酸(W)的密码
子 TGG 以及 3 个终止密码子]的相对使用度。从表 4 可知,其他 6 种双子叶植物的 ICE1 与茶树 ICE1
都存在类似的密码子使用情况,其中以 A/T 碱基结尾 RSCU 值大于 1 的密码子占多数;而单子叶植
物大麦以 G/C 碱基结尾 RSCU 值大于 l 的密码子中占多数。这与 GC 和 GC3s 计算结果一致。
表 4 各物种 ICE1 相对同义密码子使用度(RSCU)
Table 4 Relatively synonymous codon usage(RSCU)of ICE1
密码子
Codon
氨基酸
Amino acid
茶树
C. sinensis
萝卜
R. sativus
毛白杨
P. trichocarpa
拟南芥
A. thaliana
小盐芥
T. halophila
莴苣
L. sativa
荠菜
C. bursa-pastoris
大麦
H. vulgare
GCA A 0.95 1.42 1.82 1.24 0.80 0.76 1.33 1.20
GCC A 0.55 0.52 0.18 0.14 0.60 0.65 0.53 1.20
GCG A 0.55 0.13 0.36 0.41 1.00 0.76 0.27 0.60
GCT A 2.00 1.94 1.64 2.21 1.60 1.84 1.87 1.00
TGC C 1.25 0.67 0.57 0.25 0.50 1.50 0.22 1.60
TGT C 0.75 1.33 1.43 1.75 1.50 0.50 1.78 0.40
GAC D 0.74 0.56 0.34 0.15 0.50 1.09 0.30 1.43
GAT D 1.26 1.44 1.66 1.85 1.50 0.91 1.70 0.57
GAA E 1.33 0.48 1.10 0.84 0.70 1.36 0.97 0.67
GAG E 0.67 1.52 0.90 1.16 1.30 0.64 1.03 1.33
TTC F 0.91 1.27 0.60 0.72 1.24 1.10 1.04 1.60
TTT F 1.09 0.73 1.40 1.28 0.76 0.90 0.96 0.40
GGA G 0.65 1.09 0.61 1.28 1.19 1.33 1.15 0.43
GGC G 0.56 0.55 0.52 0.15 0.77 0.72 0.31 1.08
GGG G 1.49 0.64 1.39 0.60 0.68 0.82 1.00 1.84
GGT G 1.30 1.73 1.48 1.96 1.36 1.13 1.54 0.65
CAC H 1.00 0.89 0.94 0.67 0.67 1.00 0.75 1.00
CAT H 1.00 1.11 1.06 1.33 1.33 1.00 1.25 1.00
ATA I 0.17 0.60 0.00 0.60 0.00 0.60 0.64 0.90
ATC I 1.33 1.20 0.71 1.20 1.13 1.35 1.07 1.50
ATT I 1.50 1.20 2.29 1.20 1.88 1.05 1.29 0.60
AAA K 0.79 0.86 0.90 0.86 0.94 1.05 0.86 1.00
AAG K 1.21 1.14 1.10 1.14 1.06 0.95 1.14 1.00
CTA L 0.31 0.13 0.18 0.12 0.49 0.61 0.11 0.19
7 期 时 慧等:茶树抗寒调控转录因子 ICE1 密码子偏性分析 1347
续表 4
密码子
Codon
氨基酸
Amino acid
茶树
C. sinensis
萝卜
R. sativus
毛白杨
P. trichocarpa
拟南芥
A. thaliana
小盐芥
T. halophila
莴苣
L. sativa
荠菜
C. bursa-pastoris
大麦
H. vulgare
CTC L 1.02 0.77 0.74 0.23 1.30 0.98 0.11 2.32
CTG L 1.12 0.77 0.37 0.69 1.30 0.86 0.68 0.97
CTT L 1.12 1.91 1.75 2.42 1.14 1.71 2.60 0.97
TTA L 0.61 0.89 0.65 0.69 1.14 1.10 1.13 0.00
TTG L 1.83 1.53 2.31 1.85 0.65 0.73 1.36 1.55
ATG M 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00
AAC N 0.74 1.38 0.77 1.03 1.00 0.80 1.07 1.33
AAT N 1.26 0.62 1.23 0.97 1.00 1.20 0.93 0.67
CCA P 2.07 0.76 1.47 0.65 0.55 0.49 1.16 1.20
CCC P 0.44 0.38 0.40 0.26 0.36 1.07 0.39 0.80
CCG P 0.00 0.76 0.40 0.65 0.91 0.98 0.26 0.80
CCT P 1.48 2.10 1.73 2.45 2.18 1.46 2.19 1.20
CAA Q 1.40 1.06 1.36 1.14 0.94 1.29 0.86 2.00
CAG Q 0.60 0.94 0.64 0.86 1.06 0.71 1.14 0.00
AGA R 1.44 2.45 1.78 2.08 1.00 3.14 2.22 2.00
AGG R 2.40 2.18 2.89 2.54 2.67 0.86 2.22 0.00
CGA R 0.48 0.00 0.22 0.00 0.00 0.57 0.00 0.00
CGC R 0.72 0.27 0.44 0.23 0.33 0.00 0.22 0.00
CGG R 0.96 0.27 0.44 0.23 1.00 1.14 0.44 1.50
CGT R 0.00 0.82 0.22 0.92 1.00 0.29 0.89 2.50
AGC S 0.98 1.20 0.99 0.79 0.89 0.79 1.20 1.69
AGT S 0.59 0.51 1.34 1.02 0.51 0.68 0.65 0.38
TCA S 1.67 1.37 1.61 0.91 0.38 1.70 0.76 0.94
TCC S 0.69 0.69 0.36 0.00 0.51 0.68 0.11 1.13
TCG S 0.79 0.34 0.36 0.45 1.53 0.79 0.76 0.38
TCT S 1.28 1.89 1.34 2.83 2.17 1.36 2.51 1.50
ACA T 0.71 0.73 0.96 1.85 1.14 0.80 1.33 0.24
ACC T 1.43 0.73 1.12 0.31 0.00 2.30 0.33 1.41
ACG T 0.29 0.73 0.00 0.00 0.57 0.50 0.33 0.47
ACT T 1.57 1.82 1.92 1.85 2.29 0.40 2.00 1.88
GTA V 1.09 0.21 0.35 0.00 0.67 0.71 0.00 1.78
GTC V 0.55 0.63 0.35 0.44 0.67 0.94 0.40 1.04
GTG V 0.91 0.84 1.39 0.89 0.33 0.94 1.00 0.59
GTT V 1.45 2.32 1.91 2.67 2.33 1.41 2.60 0.59
TGG W 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00
TAC Y 1.00 0.40 1.43 0.40 0.50 1.11 0.00 1.33
TAT Y 1.00 1.60 0.57 1.60 1.50 0.89 2.00 0.67
注:RSCU > 1 的表示该密码子使用频率高。
Note:RSCU > 1 means codon usage with high frequency.
2.4.2 密码子使用偏性和 CDS序列的聚类分析
根据表 4 中各密码子的 RSCU,计算各物种之间的欧氏距离系数见表 5。结果,茶树和毛白杨
距离最近,距离系数为 3.007,与单子叶植物大麦的距离最大,距离系数为 5.388,而其它双子叶植
物与大麦之间的距离系数也都是最大,密码子使用偏性与植物传统分类相一致。
亲缘关系较近的物种常表现出相似的密码子使用频率(Sharp et al.,1986)。因此,基于密码子
使用频率的聚类树状图常可用于推测不同物种、不同基因,以及物种和基因之间在密码子使用方面
的相似度或亲缘性,也可推测不同物种之间的进化关系。从基于距离系数的聚类结果(图 1,A)可
1348 园 艺 学 报 39 卷
以看出,拟南芥、荠菜、萝卜和小盐芥 4 种十字花科植物聚为 1 类,茶树与毛白杨、莴苣聚为 1 类,
大麦单独聚为 1 类。这一聚类结果与基于 ICE1 的 CDS 构成的进化树(图 1,B)不一致,基于 CDS
的系统进化树不能正确反映物种间的进化关系,错把双子叶的莴苣和单子叶大麦聚为1类。但也有
研究发现,基于基因组的系统发生进化树在一定程度上优于密码子使用频率的聚类树状图(晁岳恩
等,2011)。
表 5 各物种 ICE1 密码子使用偏性的欧氏平方距离系数
Table 5 Coefficient of abosolute squared euclidean distance of codon usage bias among the samples of ICE1
物种
Species
茶树
C. sinensis
萝卜
R. sativus
毛白杨
P. trichocarpa
拟南芥
A. thaliana
小盐芥
T. halophila
莴苣
L. sativa
荠菜
C. bursa-pastoris
大麦
H. vulgare
茶树 C. sinensis -
萝卜 R. sativus 3.923 -
毛白杨 P. trichocarpa 3.007 3.669 -
拟南芥 A. thaliana 4.932 2.795 3.922 -
小盐芥 T. halophila 4.410 3.468 4.644 3.889 -
莴苣 L .sativa 4.043 4.358 5.107 5.687 5.478 -
荠菜 C. bursa-pastoris 4.615 2.400 4.037 1.893 3.588 5.377 -
大麦 H. vulgare 5.388 5.873 6.640 7.506 6.395 5.168 7.080 -
图 1 基于 ICE1 相对同义密码子使用度(A)和 CDS 序列(B)的聚类树状图
Fig. 1 Cluster analysis dendrogram of RSCU values(A)and CDS sequences(B)of ICE1
2.5 与大肠杆菌、酵母、拟南芥基因组密码子偏性比较
密码子使用频率的比值是衡量物种间密码子使用偏性差异的指标之一。比值在 0.5 ~ 2.0 之间,
7 期 时 慧等:茶树抗寒调控转录因子 ICE1 密码子偏性分析 1349
表示二者的密码子偏性较为接近,比值小于或等于 0.5 大于或等于 2.0,表示偏性差异较大。
表 6 列出了茶树 ICE1 与大肠杆菌、酵母、拟南芥基因组中不同密码子出现的频率以及它们的
比值。结果表明,茶树 ICE1 与大肠杆菌的基因组密码子使用频率差值较大有 25 个,与酵母基因组
密码子使用频率差值较大的有 15 个,表明酵母表达系统优于大肠杆菌表达系统。在与模式作物拟南
芥比较发现茶树 ICE1 与拟南芥基因组密码子使用频率差值只有 10 个。
表 6 茶树 ICE1 与代表生物密码子使用偏性比较
Table 6 Comparison of codon usage perference between ICE1 and other repersentative organisms
密码子
Codon
氨基酸
Amino acid
ICE1 E. coli
genome (E)
Yeast
genome (Y)
拟南芥
Arabidopsis (A)
ICE1/E. ICE1/Y ICE1/A
GCA A 9.634 20.6 16.1 17.47 0.47 0.60 0.55
GCC A 5.780 25.5 12.5 10.34 0.23 0.46 0.56
GCG A 5.780 31.7 6.1 9.03 0.18 0.95 0.64
GCT A 19.268 15.6 21.1 28.32 1.24 0.91 0.68
TGC C 9.634 6.9 4.7 7.16 1.40 2.05 1.35
TGT C 5.780 5.5 8.0 10.54 1.05 0.72 0.55
GAC D 19.268 18.6 20.2 17.22 1.04 0.95 1.12
GAT D 32.755 32.1 37.8 36.65 1.02 0.87 0.89
GAA E 42.389 38.2 48.5 34.34 1.11 0.87 1.23
GAG E 21.195 17.7 19.1 32.24 1.20 1.11 0.66
TTC F 19.268 16.9 18.2 20.66 1.14 1.06 0.93
TTT F 23.121 23.2 26.1 21.81 1.00 0.89 1.06
GGA G 13.487 9.0 10.9 24.16 1.50 1.24 0.56
GGC G 11.561 27.9 9.7 9.15 0.41 1.19 1.26
GGG G 30.829 11.3 6.0 10.18 2.73 5.14 3.03
GGT G 25.048 24.4 24.0 22.18 1.03 1.04 1.13
CAC H 7.707 9.8 7.7 8.72 0.79 1.00 0.88
CAT H 7.707 13.6 13.7 13.79 0.57 0.56 0.56
ATA I 1.927 5.4 17.8 12.60 0.36 0.11 0.15
ATC I 15.414 24.2 17.0 18.53 0.64 0.91 0.83
ATT I 17.341 29.8 30.4 21.49 0.58 0.57 0.81
AAA K 21.195 33.2 42.2 30.79 0.64 0.50 0.69
AAG K 32.755 10.7 30.7 32.68 3.06 1.07 1.00
CTA L 5.780 4.0 13.3 9.87 1.45 0.43 0.59
CTC L 19.268 11.0 5.4 16.09 1.75 3.57 1.20
CTG L 21.195 50.9 10.4 9.83 0.42 2.04 2.16
CTT L 21.195 11.7 12.1 24.12 1.81 1.75 0.88
TTA L 11.561 13.9 26.7 12.70 0.83 0.43 0.91
TTG L 34.682 14.0 27.0 20.87 2.48 1.28 1.66
ATG M 26.975 27.0 20.9 24.53 1.00 1.29 1.10
AAC N 30.829 21.4 24.9 20.93 1.44 1.24 1.47
AAT N 50.096 18.6 36.3 22.30 2.69 1.38 2.25
CCA P 26.975 8.5 18.2 16.15 3.17 1.48 1.67
CCC P 5.780 5.8 6.8 5.31 1.00 0.85 1.09
CCG P 0 21.8 5.3 8.62 0.00 0.00 0.00
CCT P 19.268 7.3 13.6 18.68 2.64 1.42 1.03
CAA Q 26.975 15.0 27.5 19.45 1.80 0.98 1.39
CAG Q 11.561 29.5 12.1 15.24 0.39 0.96 0.76
AGA R 13.487 2.9 21.3 18.97 4.65 0.63 0.71
AGG R 17.341 1.9 9.2 10.96 9.13 1.88 1.58
1350 园 艺 学 报 39 卷
续表 6
密码子
Codon
氨基酸
Amino acid
ICE1 E. coli
genome (E)
Yeast
genome (Y)
拟南芥
Arabidopsis (A)
ICE1/E. ICE1/Y ICE1/A
CGA R 3.854 3.9 3.0 6.29 0.99 1.28 0.61
CGC R 5.780 21.0 2.6 3.78 0.28 2.22 1.53
CGG R 7.707 6.3 1.7 4.87 1.22 4.53 1.58
CGT R 1.927 20.3 6.5 9.02 0.09 0.30 0.21
AGC S 19.268 16.0 9.7 11.34 1.20 1.99 1.70
AGT S 13.487 9.5 14.2 14.01 1.42 0.95 0.96
TCA S 32.755 7.8 18.8 18.28 4.20 1.74 1.79
TCC S 13.487 8.9 14.2 11.20 1.52 0.95 1.20
TCG S 15.414 8.7 8.5 9.33 1.77 1.81 1.65
TCT S 25.048 8.7 23.5 25.17 2.88 1.07 1.00
ACA T 11.561 8.2 17.8 15.67 1.41 0.65 0.74
ACC T 19.268 22.8 12.6 10.34 0.85 1.53 1.86
ACG T 1.927 14.8 7.9 7.74 0.13 0.24 0.25
ACT T 23.121 9.1 20.3 17.52 2.54 1.14 1.32
GTA V 13.487 11.1 11.8 9.92 1.22 1.14 1.36
GTC V 5.780 15.1 11.6 12.77 0.38 0.50 0.45
GTG V 7.707 25.5 10.6 17.36 0.30 0.73 0.44
GTT V 15.414 18.5 22.0 27.24 0.83 0.70 0.57
TGG W 3.854 15.2 10.3 12.48 0.25 0.37 0.31
TAC Y 9.634 12.1 14.6 13.73 0.80 0.66 0.70
TAT Y 5.780 16.5 18.9 14.63 0.35 0.31 0.40
TAA * 0 2.0 1.0 0.95 0.00 0.00 0.00
TAG * 1.927 0.3 0.5 0.53 6.42 3.85 3.64
TGA * 0 1.1 0.7 1.17 0.00 0.00 0.00
注:* :终止密码子;下划线:表示两个物种密码子比较具有明显偏差(≤ 0.5,≥ 2)的分值。
Note:*:Terminate codons. Data with underline:There are obvious differences of values(≤ 0.5,≥ 2)between the codons of two species.
3 讨论
任一物种经长期进化都会形成一套适应基因组的特定密码子用法,密码子偏性是在复杂因子作
用下形成的,它不仅是基因突变和选择的结果(Wong et al.,2002;周晓明 等,2005),同时还与
基因编码结构和功能及基因表达有密切的联系(Hélène et al.,1998),受进化过程中多种因素的影
响。
本研究中通过分析茶树 ICE1 的密码子偏性,发现该基因主要偏好以 A/T 结尾的密码子。进一
步研究发现 ICE1 的碱基组成在单、双子叶植物分化后发生了较大的变化,单子叶植物的 GC 含量和
GC3s 值要大得多。已有研究表明,双子叶植物的 GC3s 值通常小于 50%,而单子叶植物往往具有较
高的 GC3s 值(Murray et al.,1989)。
近年来大量试验发现在不存在自然选择压力的条件下,一定方向的突变压力会影响序列本身的
碱基组成,而这一效应同时会反映在同义密码子的第 3 位碱基上,如果 GC 到 AT 突变压力高,那
么就会导致密码子的第 3 位不是 A 就是 T;反之亦然(Novembre,2002)。由此可推断与茶树 ICE1
的密码子偏性一致的物种在由单子叶向双子叶进化过程中 GC 到 AT 突变压力要比 AT 到 GC 突变压
力高。
基于基因密码子用法的聚类分析与基于 CDS 的进化分析结果可能存在一定差异,本研究表明基
于基因密码子的聚类分析更接近这 8 种植物的真实系统分类,不仅将十字花科的 4 种植物优先聚在
7 期 时 慧等:茶树抗寒调控转录因子 ICE1 密码子偏性分析 1351
一起,而且将单、双子叶区分开来。
在新基因的开发研究中,基因编码蛋白的原核表达和真核表达分析具有重要的价值。大肠杆菌
作为原核表达系统,酵母作为真核表达系统,广泛应用于基因表达研究中。 本研究表明,茶树 ICE1
的密码子偏性与大肠杆菌和酵母的基因组密码子偏性有较大差异,似乎预示该基因在以上宿主中的
高效表达,尚需对部分密码子进行改造。拟南芥经常被用作新基因转基因功能验证的模式作物。但
转基因研究中经常要进行基因的异源表达,而其在翻译过程中,受体物种对外源基因密码子的翻译
效率对表达有非常大的制约,因此利用相应的生物信息学数据库及软件对目标序列进行受体物种的
密码子偏性分析,把需转化的基因进行修饰,以利于转化基因的高效表达,具有重要的意义(晁岳
恩 等,2011)。
本研究结果表明茶树 ICE1 在拟南芥受体中具有较高的表达效率。以上分析结果对进一步开展
后续研究工作特别是转基因功能验证模式作物的筛选有重要的指导作用。但同时也不可否认外源基
因的高效表达会受到多种因素的影响,如转录后加工,mRNA 的稳定性,培养基及抗生素的选择等,
是否满足密码子偏性只是影响因素之一,而不能高估密码子偏性分析的结果,因此实现外源基因高
效表达的任务依然很艰巨。
References
Chao Yue-en,Wu Zheng-qing,Yang Hui-min,He Ning,Yang Pan. 2011. Cluster analysis and codon usage bias studies on pabA genes form 11 plant
species. Journal of Nuclear Agricultural Sciences,25 (5):927–932. (in Chinese)
晁岳恩,吴政卿,杨会民,何 宁,杨 攀. 2011. 11 种植物 psbA 基因密码子偏好性及聚类分析. 核农学报,25 (5):927–932.
Chinnusamy Viswanathan,Ohta Masaru,Kanrar Siddhartha,Lee Byeong-ha,Hong Xuhui,Agarwal Manu,Zhu Jian-kang. 2003. A regulator of
cold-induced transcription and freezing tolerance in Arabidopsis. Genes & Development,17:1043–1054.
Das S,Paul S,Dutta C. 2006. Synonymous codon usage in adenoviruses influence of mutation,selection and protein hydropathy. Virus Res,117 (2):
227–236.
Gustafsson C,Govindarajan S,Minshull J. 2004. Codon bias and heterologous protein expression. Trends Biotechnol,22 (7):346–353.
Gu Wan-jun,Ma Jian-min,Zhou Tong,Sun Xiao,Lu Zu-hong. 2002. Codon usage in genes coding for proteins with different tertiary structures. Acta
Biophys Sin,18 (1):81–86. (in Chinese)
顾万军,马建民,周 童,孙 啸,陆祖宏. 2002. 不同结构的蛋白编码基因的密码子偏性研究. 生物物理学报,18 (1):81–86.
Hu Gui-bing,Zhang Shang-long,Xu Chang-jie,Lin Shun-quan. 2006. Analysis of codon usage in citrus. Journal of Fruit Science,23 (3):479–
485. (in Chinese)
胡桂兵,张上隆,徐昌杰,林顺权. 2006. 柑橘密码子用法分析. 果树学报,23 (3):479–485.
Hélène C,Frédérique L,Michel C,Alain H. 1998. Codon usage and gene function are related in sequences of Arabidopsis thaliana. Gene,20 (9):
GC1–GC38.
Liu Han-mei,He Rui,Zhao Yao,Zhang Huai-yu,Huang Yu-bi. 2008. Analysis of codon usage in maize. Journal of Nuclear Agricultural Sciences,
22 (2):141–147. (in Chinese)
刘汉梅,何 瑞,赵 耀,张怀渝,黄玉碧. 2008. 玉米密码子用法分析. 核农学报,22 (2):141–147.
Liu Han-mei,Zhao Yao,Gu Yong,Zhang Huai-yu,Huang Yu-bi. 2010. Characterization of codon usage of waxy genes in several plants. Journal of
Nuclear Agricultural Sciences,24 (3):476–478. (in Chinese)
刘汉梅,赵 耀,顾 勇,张怀渝,黄玉碧. 2010. 几种植物 waxy 基因的密码子用法特性分析. 核农学报,24 (3):476–478.
Liu Qing-po,Tan Jun,Xue Qing-zhong. 2003. Synonymous codon usage bias in the rice cultivar 93-11(Oryza sativa L. ssp. indica). Acta Genetica
Sinica,30 (4):335–340. (in Chinese)
刘庆坡,谭 军,薛庆忠. 2003. 籼稻品种 93-11 同义密码子的使用偏性. 遗传学报,30 (4):335–340.
Li Ping,Bai Yun-feng,Feng Rui-yun,Wang Yuan-yuan,Zhang Wei-feng. 2011. Analysis of codon bias of NAD-ME gene in Amaranthus
hypochondriacus. Chinese Journal of Applied and Environmental Biology,17 (1):12–17. (in Chinese)
1352 园 艺 学 报 39 卷
征 订
李 平,白云凤,冯瑞云,王原媛,张维锋. 2011. 籽粒苋苹果酸酶(NAD-ME)基因密码子偏好性分析. 应用与环境生物学报,17 (1):
12–17.
Michael F Thomashow,Sarah J Gilmour,Eric J Stockinger. 2001. Role of the Arabidopsis CBF transcriptional activators in cold acclimation. Physiol
Plant,112:171–175.
Murray E E,Lotzer J,Eberle M. 1989. Codon usage in plant genes. Nucl Acids Res,17 (2):477–498.
November J A. 2002. Aecounting for background nucleotide composition when measuring codon usage bias.Mol Biol Evol,19 (8):1390–
1394.
Paul M S,Elizabeth C. 1991. Synonymous codon usage in Saccharomyces cerevisiae. Yeast,21 (7):657–678.
Sharp P M,Li W H. 1986. An evolutionary perspective on synonymous codon usage in unicellular organisms. J Mol Evol,24:28–38.
Sharp P M,Cowe E,Higgins D G,Shields D C,Wolfe K H,Wright F. 1988. Codon usage patterns in Escherichia coli,Bacillus subtilis,
Saccharomyces cerevisiae,Schizosaccharomyces pombe,Drosophila melanogaster and Homo sapiens;a review of the considerable within
species diversity. Nucl Acids Res,16 (17):8207–8211.
Wong G K S,Wang J,Tao L,Tan J,Zhang J G,Douglas A P,Yu J. 2002. Compositional gradients in gramineae genes. Genome Res,12:851–
856.
Zhang Le,Jin Long-guo,Luo Ling,Wang Yue-ping,Dong Zhi-min,Sun Shou-hong,Yue Li-juan. 2011. Analysis of nuclear gene codon bias on
soybean genome and transcriptome. Acta Agronomica Sinice,37 (6):965–974. (in Chinese)
张 乐,金龙国,罗 玲,王跃平,董志敏,孙守红,岳丽娟. 2011. 大豆基因组和转录组的核基因密码子使用偏好性分析. 作物学报,
37 (6):965–974.
Zhou Meng,Tong Chun-fa,Shi Ji-sen. 2007. A preliminary analysis of synonymous codon usage in poplar species. Journal of Plant Physiology and
Molecular Biology,33 (4):285–293. (in Chinese)
周 猛,童春发,施季森. 2007. 杨树同义密码子用法的初步分析. 植物生理与分子生物学学报,33 (4):285–293.
Zhou Xiao-ming,Zhao Hui-fang,Lu Jia-liang,Pan Hao,Xu Mei,Zhao Gen-ming,Jiang Qing-wu,Wang Hua,Yu Shun-zhang. 2005. Correlation
analysis of type A influenza virus genetic variation characteristic with survival selective pressure. Chinese Journal Infectious Diseases,23 (4):
221–223. (in Chinese)
周晓明,赵慧芳,陆嘉良,潘 浩,徐 眉,赵根明,姜庆五,汪 华,俞顺章. 2005. 甲型流感病毒基因变异与生存选择压力相关性
分析. 中华传染病杂志,23 (4):221–223.
《中国蔬菜品种志》
本书由中国农业科学院蔬菜花卉研究所主编,已于 2002 年 9 月出版发行。全书分上、下卷,1 ~ 6 章为上卷,
包括根菜类、白菜类、芥菜类、甘蓝类、绿叶菜类及葱蒜类,计 2 263 个品种,1 347 页;7 ~ 12 章为下卷,包括瓜
类、茄果类、豆类、薯芋类、水生蔬菜类和多年生蔬菜类,计 2 550 个品种,1 177 页。入志的品种中,地方品种占
90%以上,少量在全国栽培时间较长、种植面积较大的一代杂种也选入其中。本书较全面系统而又有重点地反映了
中国丰富的蔬菜品种资源概貌、研究成果及育种水平,可供蔬菜科研、教学、生产及种子公司、农业行政单位的人
员参考。本书出版后受到读者普遍好评,现尚有少量存书,特以优惠价格 490 元(上、下卷)提供给读者(原价 980
元)。
购书者请通过邮局汇款至北京中关村南大街 12 号中国农科院蔬菜花卉所《园艺学报》编辑部,邮编 100081。