利用生物信息学手段,对GenBank中18种不同植物CBF1的氨基酸序列进行比对及系统发育树的构建,并对其氨基酸的组成、等电点、亲水/疏水性、蛋白质的二级结构和三级结构及功能域进行分析预测。结果表明:18种不同植物CBF1的N端存在富含精氨酸和赖氨酸残基的核定位信号(NLS)、与DNA结合的AP2核心结构域以及C端的酸性氨基酸。构建CBF1进化树,并对其分子进化进行探讨。CBF1的氨基酸主要是脂肪族类,都含有非极性氨基酸Ala,其蛋白等电点多数为酸性,且为不稳定亲水性蛋白。α-螺旋和无规则卷曲是18种不同植物CBF1最大量的结构元件,而β-转角和延伸链则散布于整个蛋白质中。不同植物CBF1蛋白的亚细胞定位存在一定的差异。三维结构检测表明此模型的结构符合立体化学规则。
Multiple alignment of amino acid sequences of CRT-binding factor1(CBF1) from 18 different plants was conducted and a phylogenetic tree with these proteins was built.In addition,the characters of the amino acid constitutions,isoelectric point,hydrophilic/hydrophobic properties,secondary structures,tertiary structures and functional domains of these proteins were analyzed with the tools of bioinformatics software.The results showed that nuclear localization signals(NLS) were rich in Argnine(Arg) and Lysine(Lys) residues at N-terminal of CBF1 in 18 different plants,while containing AP2 core domains which bind to DNA and acidic amino acids were located in C-terminal.Molecular evolution was analyzed by cladogram construction of CBF1.Amino acids of CBF1 mainly belonged to aliphatic series.All CBF1s in 18 different plants contained non-polar amino acid Ala,and most of the isoelectric points were acid,the proteins of CBF1 were unstable and hydrophilic.Constructions of α-helixs and random coils in CBF1 were dominant elements from 18 different plants,β-turns and extended strains interspersed over the whole proteins.Subcellular localizations of CBF1 protein were different.A three-dimensional structure test validated that the modeling accorded with the stereochemistry.This study provides basic information for the research of gene structure and biological function,and also provides evidence for the analysis of the function of interaction in different signal pathway and regulating mechanism.
全 文 :第 !" 卷 第 " 期
# $ % $ 年 " 月
林 业 科 学
&’()*+(, &(-.,) &(*(’,)
./01!"!*/1"
2345!# $ % $
植物 ’Bg% 转录因子的生物信息学分析!
蒋6瑶6 陈其兵
"四川农业大学林学院6雅安 "#<$%!$
摘6要!6利用生物信息学手段!对IM4BE4‘中 %9 种不同植物’Bg% 的氨基酸序列进行比对及系统发育树的构建!
并对其氨基酸的组成’等电点’亲水e疏水性’蛋白质的二级结构和三级结构及功能域进行分析预测% 结果表明& %9
种不同植物’Bg% 的*端存在富含精氨酸和赖氨酸残基的核定位信号"*-&$’与C*,结合的,d# 核心结构域以及
’端的酸性氨基酸% 构建’Bg% 进化树!并对其分子进化进行探讨% ’Bg% 的氨基酸主要是脂肪族类!都含有非极
性氨基酸,0E!其蛋白等电点多数为酸性!且为不稳定亲水性蛋白% ’A螺旋和无规则卷曲是 %9 种不同植物 ’Bg%
最大量的结构元件!而(A转角和延伸链则散布于整个蛋白质中% 不同植物 ’Bg% 蛋白的亚细胞定位存在一定的
差异% 三维结构检测表明此模型的结构符合立体化学规则%
关键词&6’Bg%# 生物信息学# 分子进化
中图分类号! &8%91!"666文献标识码!,666文章编号!%$$% A8!99"#$%$#$" A$$!= A$9
收稿日期& #$$7 A$< A%9%
基金项目& 国家科技支撑计划项目"#$$9B,C’#B$#$# 四川省)十一五*重点攻关项目"#$$"GfIIA%$ A$8$%
!陈其兵为通讯作者%
8,(,$)(1J#*,0=$#-/’,’()!86% 91#$’01,2*,($6#0*(1’)1(J*"&.-#$*’
2HE4FGE/6’LM4 JH^H4F
"1/’$%,’57/3$4$! >-().&+ 84’-(.3,.’&3J+-<$’%-,56c&g&+ "#<$%!$
=>’*1#0*&6Q30WH\0ME0HF4OM4W/TEOH4/EYHV KMR3M4YMK/T’N+]^H4VH4FTEYW/U% "’Bg%$ TU/O%9 VHTMUM4W\0E4WKZEK
Y/4V3YWMV E4V E\LX0/FM4MWHYWUMMZHWL WLMKM\U/WMH4KZEK^3H0W5(4 EVVHWH/4! WLMYLEUEYWMUK/TWLMEOH4/EYHV
Y/4KWHW3WH/4K! HK/M0MYWUHY\/H4W! LXVU/\LH0HYeLXVU/\L/^HY \U/\MUWHMK! KMY/4VEUXKWU3YW3UMK! WMUWHEUXKWU3YW3UMKE4V
T34YWH/4E0V/OEH4K/TWLMKM\U/WMH4KZMUME4E0XaMV ZHWL WLMW//0K/T^ H/H4T/UOEWHYKK/TWZEUM5+LMUMK30WKKL/ZMV WLEW
43Y0MEU0/YE0HaEWH/4 KHF4E0K"*-&$ ZMUMUHYL H4 ,UF4H4M",UF$ E4V -XKH4M"-XK$ UMKHV3MKEW*]WMUOH4E0/T’Bg% H4 %9
VHTMUM4W\0E4WK! ZLH0MY/4WEH4H4F,d# Y/UMV/OEH4KZLHYL ^H4V W/C*,E4V EYHVHYEOH4/EYHVKZMUM0/YEWMV H4 ’]
WMUOH4E05Q/0MY30EUM[/03WH/4 ZEKE4E0XaMV ^XY0EV/FUEOY/4KWU3YWH/4 /T’Bg%5,OH4/EYHVK/T’Bg% OEH40X^ M0/4FMV W/
E0H\LEWHYKMUHMK5,0’Bg%KH4 %9 VHTMUM4W\0E4WKY/4WEH4MV 4/4]\/0EUEOH4/EYHV ,0E! E4V O/KW/TWLMHK/M0MYWUHY\/H4WK
ZMUMEYHV! WLM\U/WMH4K/T’Bg% ZMUM34KWE^0ME4V LXVU/\LH0HY5’/4KWU3YWH/4K/T’]LM0H_KE4V UE4V/OY/H0KH4 ’Bg% ZMUM
V/OH4E4WM0MOM4WKTU/O%9 VHTMUM4W\0E4WK! (]W3U4KE4V M_WM4VMV KWUEH4KH4WMUK\MUKMV /[MUWLMZL/0M\U/WMH4K5&3^YM030EU
0/YE0HaEWH/4K/T’Bg% \U/WMH4 ZMUMVHTMUM4W5,WLUMM]VHOM4KH/4E0KWU3YW3UMWMKW[E0HVEWMV WLEWWLMO/VM0H4FEYY/UVMV ZHWL
WLMKWMUM/YLMOHKWUX5+LHKKW3VX\U/[HVMK^EKHYH4T/UOEWH/4 T/UWLMUMKMEUYL /TFM4MKWU3YW3UME4V ^H/0/FHYE0T34YWH/4! E4V
E0K/\U/[HVMKM[HVM4YMT/UWLME4E0XKHK/TWLMT34YWH/4 /TH4WMUEYWH/4 H4 VHTMUM4WKHF4E0\EWLZEXE4V UMF30EWH4FOMYLE4HKO5
?&/ @(14’&6’N+]^H4VH4FTEYW/U# ^H/H4T/UOEWHYK# O/0MY30EUM[/03WH/4
66’Bg"’N+]^H4VH4FTEYW/U$转录激活因子是一类
受低温特异诱导的反式作用因子!可以调控多个抗
寒基因启动子区上的顺式作用元件0’N+eCN)"’]
UM\MEWeVMLXVUEWH/4 UMK\/4KH[MM0MOM4W$1!促进启动
子中含有这一调控元件的多个冷诱导和脱水诱导基
因的表达!从而激活植物体内的多种耐逆机制%
’Bg能感受上游传递的低温信号并将信号向下游
传递!对于增强植物适应和抵御低温的能力具有重
要作用"曹云飞等!#$$8$% (’)% "H4V3YMU/T’Bg
M_\UMKKH/4 %$需要经过冷诱导的构型变化"可能是
磷酸化和去磷酸化作用$ 调节活性!从而激活下游
基因的表达"’LH443KEOX$,&35!#$$=$% 近来有研究
表明!% 个N#N= 类型的拟南芥"8’&;-6/E%-%,)&3-+&!
,W$,WQGB%< 转录因子与(’)% 相互作用!在冷胁迫
条件下!负调控 7?1基因的表达 ",FEUZE0$,&35!
#$$<$% ’LH443KEOX等 "#$$8$认为在冷驯化状态
林 业 科 学 !" 卷6
下!通过泛素相关的蛋白水解对 ’Bg% 的诱导物
(’)% 负调控!而小泛素相关修饰物 )= 酶通过催化
正调控(’)%% 林茂等"#$$9$综述了植物 ’Bg转录
因子及其在基因工程中的应用!认为 ’Bg转录因子
的典型特征是&*端有核定位信号"43Y0MEU0/YEWH/4
KHF4E0!*-&$区!’端有酸性激活区!中间有与 C*,
结合的,d#",d)+,-,#$结构域% 钟克亚等"#$$"$
认为 ’Bg% 转录因子作用途径为 ’Bg转录因子)
’N+eCN)基序)7L#基因 "Y/0V]UMF30EWMV FM4M$表
达)植物抗寒性增加!并研究其抗寒的作用机制!为
提高植物的抗寒性’培育抗寒作物品种提供新方向%
张丽丽等"#$$9$认为 7L#基因编码的多肽具有两
亲性’A螺旋结构域!在低温诱导下使得磷脂双分
子层向内弯曲!来抵抗低温引起细胞脱水造成的膜
损 伤% 水 稻 " L’5N& %&,-<&! oK$ L%D#2?V?
"VMLXVUEWH/4 UMK\/4KH[MM0MOM4W^ H4VH4FTEYW/U$在烟
草"A-(/,-&+& ,&;&(.=! *W$中过表达能够提高转基
因植株的抗氧化性和抗冻性!组成型 L%D#2?V?可
诱导病原体相关的转基因植株表达"I3WLE$,&3"!
#$$9$%
已经从拟南芥"*/[H0/$,&35!#$$8$’玉米"M$&
=&5! fO$ "*F3XM4 $,&35! #$$7 $’油菜 "?’&%-(&
+&E.%!B4$"庄静等!#$$9$’小麦"I’-,-(.=&$%,-<.=!
+E$ "BEVEZH$,&35!#$$9$和水稻"(W/$,&35!#$$"$等
多种 植 物 中 分 离 得 到 相 关 的 7?1V! 其 中
&LELU/‘LE^EVH等"#$$9$利用 ’oC)Pod软件设计
相关引物!已鉴定出低温胁迫相关的小麦同源
D#2?基因!发现 CN)调控基因表达!能增强小麦
的抗冻性% fL3 等"#$$8$综述了在植物低温驯化
下!冷应答基因调控’代谢及 N*,剪切和二级结构
等方面的相互作用% 但目前对不同植物 ’Bg% 的生
物信息学分析未见报道!因此!利用一系列的生物信
息学软件分析了不同植物 ’Bg% 蛋白的性质!并对
其蛋白作对比!以期为进一步开展 ’Bg% 的基因功
能和蛋白质的特性研究提供一定的理论基础!也为
后期深入研究基因的结构与生物学功能提供参考!
为分析其在不同信号途径相互作用中的功能和调控
机制提供有力证据%
%6材料与方法
CBCD材D料
通过美国国立生物技术信息中心 "*EWH/4E0
’M4WMUT/UBH/WMYL4/0/FX(4T/UOEWH/4!*’B(& LW\&$
ZZZ54Y^H540O54HL5F/[e$的核酸和蛋白质数据库寻
找相应的数据资料!对已经克隆得到的 7?1基因完
整的YC*,"Y/O\0MOM4WE0C*,$序列和编码氨基酸
序列进行数据搜索% 收集得到的 7?1基因完整
YC*,和编码氨基酸序列各 %9 条!其中双子叶植物
%= 条!单子叶植物 < 条!单子叶植物全部为禾本科
植物"表 %$%
CBAD方D法
%1#1%67?1V 基因编码氨基酸序列的分析6采用
)_dE&X的 dU/KHWM数据库 "LW\&$ZZZ5M_\EKX5/UFe
\U/KHWMe$’ *’B(的 ’/4KMU[MV C/OEH4K数 据 库
"LW\&$ZZZ54Y^H540O54HL5F/[e&WU3YW3UMeYVVe
ZU\K^5YFH$"QEUYL0MU]BE3MU$,&35!#$$!$ 和 QMFE=5%
"D3OEU$,&35!#$$!$软件!对7?1V 基因编码氨基酸
序列进行氨基酸保守位点’可变位点’简约信息位点
和单一多态位点分析% 利用欧洲生物信息学研究所
")3U/\ME4 BH/H4T/UOEWHYK(4KWHW3WM! )B($ 在 线 的
’03KWE0S# "-EU‘H4 $,&35!#$$8$程序!进行氨基酸序
列的多重比对!寻找氨基酸保守区!并用 B/_KLEVM
对其保守区域进行标记%
%1#1#67?1V 基因系统发生树的构建6采用
QMFE=5% 软件内置的’03KWE0S程序进行蛋白序列多
重比对"比对采用程序默认的(mB记分矩阵$!采用
QMFE=5% 对’03KWE0S产生的多重比对结果构建系统
发生树% 参数设置&采取最大简约法 "OE_HO3O
\EUKHO/4X!Qd$构建系统树!采用随机逐步比较的方
式搜索最佳系统树!对生成的系统发生树进行
B//WKWUE\校正!最终生成系统发生树%
%1#1=6’Bg% 蛋白一级结构理化特性分析6利用
)_dE&X提供的 dU/W]dEUEO软件和 dU/W&YE0M软件分
别进行氨基酸残基组成’蛋白质分子质量和亲e疏水
性的在线分析# 最后利用 E4WLM\U/W软件" LW\&$
E4WLM\U/W]\^H05H^Y\5TUe$ "BEUE^EKH$,&35!#$$=$分析
理论等电点%
%1#1!6’Bg% 蛋白二级结构分析6利用 )_dE&X的
工具中的 &odQ,软件在线预测分析 ’A螺旋"’]
LM0H_!P$’(A转角"(]W3U4!+$’无规则卷曲"UE4V/O
Y/H0!’$以及延伸链"M_WM4VMV KWUE4V!)$!然后利用
网站)_dE&X工具中的d&oN+软件预测蛋白亚细胞
定位%
%1#1<6’Bg% 蛋白三级结构的分析6三级结构的预
测是蛋白质结构预测的重点!主要有以下几种方法&
同源模建’折叠识别和从头预测法 "BH/YEUWE!
#$$=$% 利用 )_dE&X工具中的 &ZHKK]Q/VM0程序进
行同源模建 "IUH0$,&35!%779# m\H4VMU$,&35!%777$%
它运用结构仿真模拟"dU/Q/V+程序$和能量最小
化分析 "INoQo&7" 程序$ 构建目标序列的结构%
!!
6第 " 期 蒋6瑶等& 植物’Bg% 转录因子的生物信息学分析
表 CD在不同植物中已克隆的!86C 转录因子家族成员
9#>ICD9"&0-($&4!86C )#J,-/ J&J>&1’,$*"&4,)&1&$*2-#$*’
植物种
d0E4WK\MYHMK
基因名称
*EOM/TFM4M
基因编码蛋白序列
)4Y/VMV \U/WMH4K
基因序列
IM4MKMR3M4YMK
拟南芥8’&;-6/E%-%,)&3-&+&",W$ 8,7?1V *ds<"88#% *Qs%%9"9%
芸苔?’&%-(& @.+($&"Bh$ ?@D#2?V; ,B@$$"=7 )m%="8=%
油菜?’&%-(& +&E.%"B4$ ?+D#2?V; ,,C!<"#= ,g$9!%9<
蓝桉2.(&35E,.%43/;.3.%")F$ 247?1V ,Bg8$#$8 CJ<#=9#7
草莓1’&4&’-&j&+&+&%&"gE$ 1&7?1V ,B."<7$8 )m%%8#%!
大豆K35(-+$=&G"IO$ K=7?1V ,’2=7#$9 g2=7=##$
巴西橡胶树H$<$& ;’&%-3-$+%-%"P^ $ H;7?1V ,,G!=#%= ,G7"$#%#
沙棘H-EE/E)&$’)&=+/-6$%"PU$ H’7?1V ,B&=$!#" )g<$#$!!
马蔺*’-%3&(,$& [EU"()-+$+%-%"(0$ *37?1V ,,f<8!=! CJ%=%!78
烟草A-(/,-&+& ,&;&(.="*W$ A,D#2?V; ,’)8="7= )m8#8%<<
无苞芥L3-=&’&;-6/E%-%E.=-3&"o\$ LE7?1V ,’28$%=! g2!7%#!!
甜樱桃!’.+.%&<-.="dE$ !&7?1V B,C#8%#= ,B%#%"8!
土豆 >/3&+.=,.;$’/%.="&W$ >,7?1V ,B(8!"8% CJ998<%<
大麦H/’6$.=<.34&’$"P[$ H<7?1V ,,-%9!%8$ ,g!%9#$!
黑麦草 :/3-.=E$’$++$"-\$ :E7?1 B,g="9!" ,B#<9!$%
水稻L’5N& %&,-<&"oK$ L%D#2?V; ,,@#97<9 ,G89<97!
小麦I’-,-(.=&$%,-<.="+E$ I&7?1V ,,-=87!! ,g=8"%="
玉米M$& =&5"fO$ M=D#2?V; *ds$$%%!9#"= *Qs$$%%#6结果与分析
ABCD!86C 编码氨基酸的序列比对
利用)B(在线的 ’03KWE0S# 进行氨基酸序列多
重比对!结果如图 % 所示% 根据比对结果发现!这
%9 个 ’Bg% 转录因子在蛋白质氨基酸序列 *端保
守性较强!具有典型的’Bg% 转录因子结构特征!包
含有dDDeNd,IN@Dg@)+NPd和 g,C&,S特征序
列!可能起激活作用!而且推测这 # 个序列可能参与
’Bg蛋白的转运!前一个特征序列位于蛋白质 *
端!富含精氨酸"EUFH4H4M!N$和赖氨酸"0XKH4M!D$的
碱性结构!而后一个特征序列位于 ,d# 核心结合
域!属于N,GC基元的保守结构域% 因此!这 # 个特
征序列可能参与对 ’N+eCN)调控元件的识别!调
控下游基因表达%
保守结构域是蛋白质中能够折叠成特定三维结
构的一段区域!其结构亚单位称为基序"O/WHT$!组
成这些基序的氨基酸区段行使特异的功能!并蕴含
各自的遗传进化信息% ’Bg% 转录因子 *端含有高
度保守的,d# 结构域!从而构成了植物特异性转录
因子大家族% 在 )_dE&X的 &YE4dU/KHWM软件获得不
同植物保守结构域!但其 ,d# 核心结构域的位置存
在差异!以,W’Bg% 保守结构域"图 #$为例%
ABAD!86C 转录因子系统发育树的构建
利用QMFE=5% 软件构建’Bg% 转录因子的系统
发生树"图 =$% 由图 = 可知!系统发生树中的’Bg%
转录因子主要聚为 # 类&第 % 类包括 +E’Bg%!
-\’Bg!oK’Bg%!fOCN)B%^和P[’Bg% 单子叶植物
的 ’Bg% 转录因子!用*标记# 第 # 类 ,W’Bg%!
*WCN)B%^! &W’Bg% 和 IO’Bg% 等双子叶植物的
’Bg% 转录因子!用+标记% 由此可以看出!这与植
物中单子叶’双子叶植物的分类大体一致!表明基因
和植物的进化过程密切相关%
第 # 类又可分为 # 大类&第*大类由 IO’Bg%!
gE’Bg%!dE’Bg% 和 P^’Bg% 组成# 第+大类分为 !
个 小 类& B4CN)B%^! BhCN)B%^! PU’Bg% 和
*WCN)B%^为,类!,W’Bg%!o\’Bg% 和(0’Bg% 为B
类!)F’Bg% 为’类!&W’Bg% 为C类%
’Bg% 在植物中的进化优先于单’双子叶的分
化时间!这种分类上的冲突是在植物中普遍存在的%
有研究表明!基因的倍增和重组’水平的基因转移等
都是这种差异存在的原因%
ABED0<=> 基因编码氨基酸组成特性
通过’03KWE0S# 在线软件对 ’Bg% 基因编码氨
基酸序列多重比较!然后利用QMFE=1% 软件得到 %9
个7?1V 基因编码氨基酸的保守位点参数!其中保
守位点 !8 个!可变位点 #=< 个!简约信息位点 %个!单一多态位点 89 个% 所含氨基酸的种类主要是
脂肪族类!中性氨基酸占大部分!而可变区与保守区
的中性氨基酸的变化不具有方向性%
用dU/W\EUEO预测 ’Bg% 编码蛋白的理化性质!
图 # 为不同植物’Bg% 氨基酸的组成及理化特性的
比较!由此可以看出!不同植物 ’Bg% 的氨基酸分子
质量较为一致!其氨基酸序列中主要氨基酸均含有
林 业 科 学 !" 卷6
图 %6%9 种植物’Bg% 类转录因子氨基酸序列比对的结果
gHF5%6Q30WH\0ME0HF4OM4WUMK30W/T’Bg% WUE4KYUH\WH/4 TEYW/UKH4 %9 VHTMUM4W\0E4WK
相同和保守的氨基酸残基用黑色和灰色分别表示!,d#和*-&用上划线表示!,d#区中GNI和N,GC#个保守区分别用方框表示% ’端保守域用
最后=个方框表示% (VM4WHYE0E4V Y/4KMU[MV EOH4/EYHV UMKHV3MKEUMH4VHYEWMV H4 ^0EY‘ E4V FUEX!UMK\MYWH[M0X#WLM,d# V/OEH4 E4V *-& EUME0K/H4VHYEWMV5
+Z/^ /_MKKL/ZWLM0/YEWH/4 /TWLMGNIE4V N,GCM0MOM4WKH4 WLM,d# V/OEH4!UMK\MYWH[M0X5+LM0EKWWLUMM^/_MKEUMWLMY/4KMU[MV V/OEH4 H4 ’WMUOH4E05
"!
6第 " 期 蒋6瑶等& 植物’Bg% 转录因子的生物信息学分析
图 #6,W’Bg% 保守域
gHF5#6,W’Bg% Y/4KMU[MV V/OEH4 H4 8’&;-6/E%-%,)&3-&+&
图 =6%9 种植物’Bg% 类转录因子的系统发生树
gHF5=6dLX0/FM4MWHYWUMM/T’Bg% WUE4KYUH\WH/4
TEYW/UKH4 %9 VHTMUM4W\0E4WK
非极性氨基酸+++丙氨酸"E0E4H4M!,0E$!且含量较
高% 酸性e碱性氨基酸比例也有所不同!双子叶植物
中)F!gE和 IO酸性e碱性氨基酸比例小于 %!说明
这=种植物的碱性氨基酸占主导地位!其余双子叶
植物则是酸性氨基酸占主导地位!其比值大于 %# 单
子叶植物唯有大麦碱性氨基酸比例较高!比值小于
%!其他单子叶植物氨基酸则是酸性氨基酸较高% 通
过dU/W\EUEO软件分析不同植物蛋白!发现其蛋白均
属于不稳定类蛋白%
ABOD!86C 蛋白等电点的预测及对比
利用分析软件 E4WLM\U/!由氨基酸序列预测不
同植物’Bg% 蛋白的等电点% 大部分植物 ’Bg% 蛋
白都属于酸性等电点!其中酸性最强的是 &W!最弱的
是fO% 唯有-\是中性等电点!而 +E和 gE是碱性
等电点%
ABPD!86C 蛋白的亲水]疏水性分析
氨基酸序列决定蛋白质的功能!组成蛋白质的
#$ 种氨基酸各具特殊的侧链!当它们按照不同的序
列关系组合时!就可形成多种多样的空间结构!使其
具有不同生物学活性% 疏水性是 #$ 种氨基酸都固
有的特性!是影响蛋白质构象的重要因素!因此蛋白
质疏水性e亲水性的预测和分析!对预测蛋白质生物
学功能具有重要意义% 用 dU/W&YE0M的 DXWME4V
C//0HW0M算法对不同植物 ’Bg% 氨基酸序列的疏水
性e亲水性进行预测"图 ! 为 ,W’Bg% 的预测结果$!
并对特征基序采用 E4WLM\U/软件表示亲水e疏水性
"图 <为,W’Bg%特征基序的预测结果$!正值越大表
示越疏水!负值越大表示越亲水!介于l$1< ;A$1<
表 AD不同植物0<=> 基因的氨基酸序列的组成成分及理化性质!
9#>IAD!(J2#1,’($()0(J2(’,*,($#$42"/’,0#-#$40"&J,0#-0"#1#0*&1’()#J,$( #0,4’&S7&$0&
()0<=> #J($% *"&4,)&1&$*2-#$*’
基因名称
*EOM/TFM4M
分子质量
Q/0MY30EU
ZMHFLWe3
主要氨基酸含量
’/4WM4W/TOEh/UEOH4/EYHVK
酸性e碱性
氨基酸
,YHVHYeE0‘E0H4M
EOH4/EYHVK
蛋白质不
稳定指数
(4KWE^H0HWXH4VM_
8,7?1V #= 9#75" ,0E"%$59:$6I03"95<:$6+LU"85<:$6I0X"85$:$ %!5"e%#5# !75$$ (
?@D#2?V; #= 9=<5$ ,0E"%%58:$6I03"759:$6-M3"857:$6&MU"85$:$ %!5
1&7?1V #= !#85< ,0E"%$5!:$6,UF"%$5$:$6I03"95%:$6I0X"95%:$ %<58e%85% K=7?1V #" #!95< ,0E"%=58:$6I03"75$:$6,UF"95<:$6.E0"858:$ %!5"e%<5! "$5!! (
H;7?1V #< <$%58 ,0E"%#5":$6&MU"%$5!:$6I03"75%:$6-M3"859:$ %!5=e%=57 "<5"= (
H’7?1V #= "7!5$ ,0E"%%59:$6I03"75$:$6,UF"85":$6dU/"85":$ %!5#e%"5" <=5!% (
*37?1V #= 9%95$ ,0E"%$59:$6I03"95<:$6+LU"85<:$6I0X"85$:$ %!5%e%#5# !95<8 (
A,D#2?V; #= 7"#57 ,0E"%#5%:$6I03"%$5#:$6&MU"85$:$6,UF""5$:$ %"5#e%=5! !75=7 (
LE7?1V #= 9#75" ,0E"%$59:$6I03"95<:$6+LU"85<:$6I0X"85$:$ %!5"e%#5# !75$$ (
!&7?1V #" 98"5! &MU"%$59:$6,0E"75#:$6,UF"75#:$6-M3"857:$ %!5#e%"5= >,7?1V #< %##5$ &MU"%=5=:$6,0E"%%5%:$6I03"%%5%:$6,UF""5#:$ %<5%e%%5% "75<% (
H<7?1V #= %=859 ,0E"%!58:$6I0X"%$5%:$6dU/"959:$6,UF"95=:$ %#57e%#5$ "$5$% (
:E7?1 ## <="5< ,0E"%<58:$6.E0"95":$6,UF"95%:$6&MU"95%:$ %$5$e%=5= !8577 (
L%D#2?V; #= #=857 ,0E"#$5":$6,UF"%$5%:$6I0X"%$5%:$6I03"859:$ %=59e%#5! <75=% (
I&7?1V #= =="5$ ,0E"%#58:$6,UF"%$5!:$6&MU"75!:$6-M3"95$:$ %%59e%!58 !85#! (
M=D#2?V; #8 7"!5$ ,0E"%<58:$6dU/"%%5#:$6I0X"%$57:$6,UF"758:$ %%5"e%=5% 8%577 (
66! ,0E& 丙氨酸 ,0E4H4M# I03& 谷氨酸 I03WEOHYEYHV# +LU& 苏氨酸 +LUM/4H4M# I0X& 甘氨酸 I0XYH4M# -M3& 亮氨酸 -M3YH4M# &MU& 丝氨酸
&MUH4M# .E0& 缬氨酸 .E0H4M# ,UF& 精氨酸 ,UFH4H4M# dU/& 脯氨酸 dU/0H4M5(& 不稳定 (4KWE^H0HWX5
8!
林 业 科 学 !" 卷6
之间的主要为两性氨基酸% 结果表明!不同植物
’Bg% 蛋白的氨基酸序列中亲水性’疏水性氨基酸都
均匀分布在整个肽链中!亲水性氨基酸多于疏水性
氨基酸!并且没有明显的疏水区域!因此可认为这些
蛋白是亲水性蛋白% 结果提示!大约在 ,W中 "8 A
"9 区域具有很强的亲水性!7% 区域具有较强的疏水
性"图 !$!并预测其他植物可知!不同植物的 ’Bg
蛋白亲水e疏水性有一定差异!是由于植物行使生理
功能存在差异%
亲水性 PXVU/\LH0HYHWX66 疏水性 PXVU/\L/^HYHWX66 其他 oWLMU
图 <6,W’Bg% 特征基序的亲水e疏水性图谱
gHF5<6dUMVHYWMV LXVU/\LH0HYHWXeLXVU/\L/^HYHWXFUE\L T/UK\MYHTHYO/WHTK/T’Bg% H4 8’&;-6/E%-%,)&3-&+&
图 !6,W’Bg% 全序列亲水e疏水性图谱
gHF5!6dUMVHYWMV LXVU/\LH0HYHWXeLXVU/\L/^HYHWXFUE\L
T/U’Bg% H4 8’&;-6/E%-%,)&3-&+&
ABUD0<=> 基因编码氨基酸的二级结构及亚细胞
定位分析
蛋白质的二级结构是多肽链中相邻多个氨基酸
残基形成的局部肽链空间结构!由 P"’]LM0H_$’+
"(]W3U4$’)"M_WM4VMV KWUE4V$和无规则 ’"UE4V/O
Y/H0$等几种二级结构元件组成!具有特定的生物学
活性% 当H>!<:!2?<:时为E0]E0\LE型# 当H?
<:!2>!<:时为E0]^MWE型# 当H>=$:!2>#$:
时为E0\LE]^MWE型% 用 &odQ,预测不同植物 ’Bg%
氨基酸序列的二级结构!其中显示 ’A螺旋和无规
则卷曲是不同植物 ’Bg% 最大量的结构元件!而
(A转角和延伸链则散布于整个蛋白质中% 统计表
明!,W’Bg% 由 #=1$$:的 ’A螺旋’%<1!7:的延伸
链’#1=<:的 (A转角和 <71%<:的无规则卷曲组
成!而oKCN)B%^由 =<189:的’A螺旋’%#19!:的
延伸链’#18<:的(A转角和 !91"#:的无规则卷曲
组成% 由此可以看出!不同植物间的二级结构在空
间上发生了一定的变异%
用d&oN+分析不同植物 ’Bg% 编码蛋白的亚
细胞定位% 由图 8 可知!,W’Bg% 蛋白最终定位于细
胞质的可能性为 !<1$:!定位于微体"过氧化物酶
体$的可能性为 =<1=:!从而推断该蛋白可能定位
于细胞质内% 通过d&oN+预测可知!大多数植物的
蛋白亚细胞定位于细胞核中!少数植物的蛋白亚细
胞定位于细胞质中!唯有少数蛋白定位于微体中!如
oKCN)B%^ 蛋白% 由此可以看出!不同植物蛋白的
亚细胞定位存在差异!是由于植物合成部位及行使
生理功能所需的反应环境存在差异!也是由于其蛋
白的结构’理化性质和功能不同所造成的差异!为
此!探讨这些植物蛋白的亚细胞定位具有重大的
意义%
ABVD0<=> 基因编码氨基酸的三维结构分析
蛋白质的三维结构!除了共价的肽键和二硫键!
还靠大量的极其复杂的弱次级键共同作用!实际上
折叠过程是一个正确途径和错误途径相互竞争的过
程% 利用 &ZHKK]O/VM0建模服务器进行’Bg% 结构的
三维建模!预测不同植物 ’Bg% 蛋白的三维结构%
图 9 为,W’Bg% 的三级结构预测结果!可看到’A螺
旋’(A转角和(A折叠片!由此可看到其蛋白折叠
空间结构构象的变化%
=6结论与讨论
利用生物信息学方法指导试验工作的设计!可
9!
6第 " 期 蒋6瑶等& 植物’Bg% 转录因子的生物信息学分析
6’A螺旋 ’]LM0H_6 6延伸链 )_WM4VMV KWUE4V6 6(A转角 (]W3U46 6不规则卷曲 NE4V/OY/H0
图 "6,W’Bg%"E$和oKCN)B%^"^$二级结构的预测结果
gHF5"6dUMVHYWMV KMY/4VEUXKWU3YW3UMT/U’Bg% H4 8’&;-6/E%-%,)&3-&+& "E$ E4V oKCN)B%^ H4 L’5N& %&,-<& "^$
图 86拟南芥’Bg% 的亚细胞定位结果
gHF586&3^YM030EU0/YE0HaEWH/4 \UMVHYWH/4 /T’Bg% \U/WMH4 H4 8’&;-6/E%-%,)&3-&+&
图 96拟南芥’Bg% 的三维结构
gHF596+MUWHEUXKWU3YW3UM/T’Bg%
H4 8’&;-6/E%-%,)&3-&+&
避免试验的盲目性和不必要的重复% 在基因研究的
相关文献报道中!利用生物信息学进行前期或后续
分析越来越普遍%
’Bg% 转录因子是属于 ,d# 转录因子家族!是
植物中广泛存在的一类转录因子!这类转录因子主
要参与植物的细胞周期’生长发育以及生物和非生
物胁迫相关基因的表达调控!它们都含有非常保守
的C*,结合区% ’Bg转录因子能够识别’N+eCN)
元件!调控多个与同类性状有关的基因表达!在提高
植物对环境胁迫耐性的分子育种中!改良或增强一
个关键转录因子的调控能力!可使植物的耐逆性得
到较为综合的改良"张晗等! #$$"$% 本研究对 %9
种不同植物 ’Bg% 的生物信息学分析预测可得!
’Bg% 转录因子主要由 C*,结合域’*-&’转录调控
结构域 = 个功能域组成!在植物体内起着激活或抑
制基因表达的功能!符合 ’Bg% 的基本结构特征%
’Bg% 结构域有 GNI和 N,GC# 个保守的结构域%
在’端存在 % 个可能起激活作用的酸性结构域!在
*端有 % 个可能作为 *-& 的富含 N和 D的碱性结
构域!提高植物对非生物胁迫的抵抗能力%
唐宁等"#$$9$利用一系列生物信息学软件分
析盐芥"I)$3.+4-$3& %&3%.4-+$&!+L$+LPD+% 的一级
和二级结构!并与拟南芥 I)H9IV 基因序列进行比
对!从而对该基因的理化性质’结构特征和功能等进
行预测和分析!研究结果表明!其基因编码蛋白分子
式为&’#"=%P!$"!*"="o8$8%!属于稳定蛋白# 二级结构
主要是以无规则卷曲为主% 本研究结果表明!%9 种
不同植物 ’Bg% 蛋白为不稳定蛋白!其中 ’A螺旋
和无规则卷曲成为最大量的结构元件!而 (A转角
和延伸链则散布于整个蛋白质中%
结构决定功能!仅通过对基因和氨基酸序列的
了解并不能充分反映蛋白质的功能!故蛋白质空间
结构的研究越来越得到重视" &MUFHX$,&35!#$$!$%
本研究分析得知!,W’Bg% 三维空间结构的构象具有
一定的特点!其中该区有 % 个 ’A螺旋’= 个反向平
行的(A折叠和 # 个 (A转角% ’Bg% 的氨基酸主
要是脂肪族类!都含有非极性氨基酸 ,0E!其蛋白等
电点多数为酸性% 因此!应用生物信息学方法对已
知序列进行比对’分析!推断和预测其结构和功能!
为选择合适的试验方法提供理论参考!为这些基因
的功能研究提供更全面的理论依据%
参 考 文 献
曹云飞! 张海娜! 肖6凯5#$$85’Bg转录因子介导的植物低温信
号转导研究进展5棉花学报! %7"!$& =$! A=%%5
7!
林 业 科 学 !" 卷6
林6茂!闫海霞!眭顺照!等5#$$95植物’Bg转录因子及其在基因
工程中的应用5广西农业科学! =7"%$& #% A#<5
唐6宁! 杨6平5#$$95盐芥I)H9IV 基因的生物信息学分析5药物
生物技术! %<""$& !!7 A!<#5
张6晗! 信月芝! 郭惠明! 等5#$$"5’Bg转录因子及其在植物抗冷
反应中的作用5核农学报! #$"<$& !$" A!$75
张丽丽! 李景富! 王傲雪5#$$95转录激活因子 ’Bg基因在植物抗
冷分子机制中的作用5园艺学报! =< "<$& 8"< A88%5
钟克亚!叶妙水!胡新文!等5#$$"5转录因子’Bg在植物抗寒中的
重要作用5遗传! #9"#$& #!7 A#<"5
庄6静! 周熙荣! 孙超才! 等5#$$95油菜沪油 %< 中,d#e)NgAB=
亚族转录因子的克隆和生物信息学分析5分子细胞生物学报!
!%"=$& %7# A#$"5
,FEUZE0Q! PE/G! DE\//U,! $,&35#$$<5, N#N= WX\MQGB
WUE4KYUH\WH/4 TEYW/UHKH4[/0[MV H4 WLMY/0V UMF30EWH/4 /T’BgFM4M
E4V H4 EYR3HUMV TUMMaH4FW/0MUE4YM5’3UM4Wo\H4H/4 H4 d0E4W
BH/0/FX! %$& #7$ A#7<5
BEVEZHC! NMVVXG.! ,FLEU^^ E/3Hf! $,&35#$$95&WU3YW3UME4V
T34YWH/4E0E4E0XKHK/TZLMEW(’) "H4V3YMU/T’BgM_\UMKKH/4 $
FM4MK5d0E4W’M0dLXKH/0/FX! !7"9$& %#=8 A%#!75
BEUE^EKH,-! B/4E^ME3 )5#$$=5&YE0M]TUMM4MWZ/U‘5&YH,O! <& <$5
BH/YEUWE5#$$=5’LEUWH4F\EWLZEXK/T0HTM0)Beo-150#$$= A%# A%#15
LW\& $ZZZ5^H/YEUWE5Y/OeFM4Me’M0&HF4E0H4F5EK\5
’LH443KEOX.! oLWEQ! DE4UEU&! $,&35#$$= 5(’)%& EUMF30EW/U/T
Y/0V]H4V3YMV WUE4KYUH\W/OME4V TUMMaH4FW/0MUE4YMH4 8’&;-6/E%-%5
IM4MKCM[! %8 "9$& %$!= A%$’LH443KEOX.! fL3 2P! fL3 2D5#$$85’/0V KWUMKKUMF30EWH/4 /TFM4M
M_\MUMKKH/4 H4 \0E4WK5+UM4VKH4 d0E4W&YHM4YM! %# "%$ $& %="$
A%=9<5
IUH0)! PHOOM0^EYL ,5%7795,B, KHF4E0WUE4KV3YWH/45’3UM4W
o\H4H/4 H4 d0E4WBH/0/FX! !%#"%$& !%95
I3WLE-N! NMVVX,N5#$$95NHYMCN)B%B\U/O/WMUKL/ZKVHKWH4YW
KWUMKK]K\MYHTHYUMK\/4KMK!E4V WLM/[MUM_\UMKKH/4 /TYC*,H4 W/^EYY/
Y/4TMUKHO\U/[MV E^H/WHYE4V ^H/WHYKWUMKKW/0MUE4YM5d0E4WQ/0MY30EU
BH/0/FX! "9& <== A<<<5
(W/G! DEWK3UED! QEU3XEOED!$,&35#$$"5g34YWH/4E0E4E0XKHK/TUHYM
CN)B%e’Bg]WX\MWUE4KYUH\WH/4 TEYW/UKH4[/0[MV H4 Y/0V]UMK\/4KH[M
FM4MM_\UMKKH/4 H4 WUE4KFM4HYUHYM5d0E4WE4V ’M0dLXKH/0/FX! !8
"%$& %!% A%<=5
D3OEU&! +EO3UED! *MHQ5#$$!5Q)I,=& (4WMFUEWMV K/TWZEUMT/U
O/0MY30EUM[/03WH/4EUXFM4MWHYKE4E0XKHKE4V KMR3M4YME0HF4OM4W5
BUHMTH4FKH4 BH/H4T/UOEWHYK! <& %<$ A%"=5
-EU‘H4 Q,! B0EY‘KLHM0VKI! BU/Z4 *d! $,&35#$$85’03KWE0S E4V
’03KWE0@[MUKH/4 #5BH/H4T/UOEWHYK! #="#%$& #7!8 A#7!95
QEUYL0MU]BE3MU,! BUXE4W& P5#$$!5’C]&MEUYL& \U/WMH4 V/OEH4
E44/WEWH/4K/4 WLMT0X5*3Y0MHY,YHVKNMK! =#"SM^ &MU[MU(KK3M$&
=#8 A==%5
*F3XM4 P+!-MH\4MU2! &WEO\ d!$,&35#$$75-/ZWMO\MUEW3UMKWUMKKH4
OEHaM"M$& =&5%-5$ H4V3YMKFM4MKH4[/0[MV H4 \L/W/KX4WLMKHKE4V
KHF4E0 WUE4KV3YWH/4 EK KW3VHMV ^X K3\\UMKKH/4 K3^WUEYWH[M
LX^UHVHaEWH/45d0E4WdLXKH/0/FXE4V BH/YLMOHKWUX! !8 " % $& %%"
A%##5
*/[H0/g! QMVH4E2! &E0H4EK25#$$858’&;-6/E%-%’Bg% E4V ’Bg= LE[M
EVHTMUM4WT34YWH/4 WLE4 ’Bg# H4 Y/0V EYY0HOEWH/4 E4V VMTH4M
VHTMUM4WFM4MY0EKKMKH4 WLM’BgUMF30/45d*,&! %$!"<#$& #%$$#
A#%$$85
&MUFHXoI! QHYLEH0G-! o_E4E.I5#$$!5+/^MT/0VMV /UW/^M
34T/0VMV25dU/WMH4 &YH! %=& #98% A#9885
&LELU/‘LE^EVHD!,TKLEUHN+!,0HaEVMP!$,&35#$$95(VM4WHTHYEWH/4 /T
CN)BL/O/0/F/3KFM4MKH4 ^UMEV ZLMEW[HE’oC)Podd’N\UHOMU
VMKHF45dE‘HKWE4 2/3U4E0/TBH/0/FHYE0&YHM4YM! %% " %" $& %787
A%79"5
m\H4VMU&! B^E0Em &! (XM4FEUN5%7775)OMUFM4W\U/\MUWHMK/T
4MWZ/U‘K/T^H/0/FHYE0KHF4E0H4F\EWLZEXK5 &YHM4YM! #9=& =9%
A=985
fL3 2P! C/4F’P! fL3 2D5#$$85(4WMU\0EX^ MWZMM4 Y/0V]UMK\/4KH[M
FM4MUMF30EWH/4! OMWE^/0HKOE4V N*,\U/YMKKH4FV3UH4F\0E4WY/0V
EYY0HOEWH/45’3UM4Wo\H4H/4 H4 d0E4WBH/0/FX! %$& #7$ A#7<5
!责任编辑6徐6红"
$<