免费文献传递   相关文献

Studies of sequence-structure relations of symmetric proteins

对称蛋白质序列与结构关系研究



全 文 :生命科学
Chinese Bulletin of Life Sciences
第22卷 第11期
2010年11月
Vol. 22, No. 11
Nov., 2010
文章编号 :1004-0374(2010)12-1129-09
收稿日期:2010-07-22;修回日期:2010-10-28
基金项目:国家自然科学基金项目(30525037,30870678)
*通讯作者:E-mail: yxiao@mail.hust.edu.cn
对称蛋白质序列与结构关系研究
肖 奕 *,冯建辉,黄延昭
(华中科技大学物理学院生物分子物理与模拟研究组,武汉 430074)
摘 要:进化的观点认为,蛋白质结构的对称性是基因复制和融合的结果,但是由于在长期进化过程
中的氨基酸突变,绝大多数现有的蛋白质序列都失去了这种直观的重复性特征。该文简要地回顾了国际
上发展的寻找蛋白质序列中重复片段的方法,重点介绍了作者自己提出的分析蛋白质序列和结构对称性
的方法以及在蛋白质对称结构形成机理方面的初步工作,并系统分析了各类对称折叠子的序列与结构关
系,发现它们的序列都具有隐含的与结构相同的对称性,或者说序列的对称性决定结构的对称性。
关键词:结构对称性;序列对称性;相似矩阵;基因复制;进化
中图分类号:Q51 文献标识码:A
Studies of sequence-structure relations of symmetric proteins
XIAO Yi*, FENG Jian-hui, HUANG Yan-zhao
(Biomolecular Physics and Modeling Group, Department of Physics, Huazhong University of Science and Technology,
Wuhan 430074, China)
Abstract: From the view of evolution, the symmetry of protein structure is the result of gene duplication and fusion.
However, due to the mutation in evolution, most of proteins have lost their repetitive signals in sequences. In
this paper we will briefly review the methods of detecting repeats in protein sequences. In particular, we shall
introduce our methods of detecting sequence and structure symmetries of proteins as well as our studies in the
mechanism of the formation of symmetric structures of proteins. We investigated the sequence-structure of
different types of folds and found their hidden sequence symmetries as the structures or sequence symmetry
encodes structural symmetry.
Key words: protein; structural symmetry; sequence symmetry; similarity matrix; gene duplication; evolution
许多蛋白质分子的三级结构呈现出明显对称性
(严格讲是准对称性),例如,在前十类常见的蛋白
质折叠子(Fold)中有六类具有对称性[1]。因此,我
们自然会问:蛋白质形成这种对称性的生物学和物
理意义是什么;它们是如何进化而来的。图1 是最
常见的一种蛋白质折叠子(β/α)-barrel。除个别例
外,这个家族的所有成员都是酶[2],其活性位点位
于连接中心八条链C端的loop围成的区域[3]。关于
这些(β/α)8-barrel酶是如何进化而来的已有大量研
究,有些研究倾向于它们是通过趋同进化演变成一
个稳定的折叠子,而另外一些则认为它们是由同一
个祖先趋异进化的结果[2]。一般认为(β/α)8-barrel是
典型的单结构域蛋白[1],但是实验证明,把它拆成
片段后,这些片段仍能自动聚集形成稳定有活性的
酶,这表明它可能由几个亚结构单元组成[4,5]。来
自海栖热袍菌(Thermotoga maritime)的咪唑甘油磷酸
合成酶(imidazoleglycerol phosphate synthase)是组氨
酸合成中的双酶复合物。在原核生物中,它由HisF
1130 生命科学 第22卷
(合成酶亚单元)和HisH(谷氨酸酶亚单元)按1:1构成[6]。
X射线晶体结构显示海栖热袍菌的HisF的结构(PDB
ID: 1thf)是(β/α)8-barrel[7]。如果把催化关键残基
(Asp 11 和Asp 130)在序列上对齐,发现HisF由两
个可以重合的亚结构组成(HisF-N 和 HisF-C)[6]。
HisF-N由N端的四个(β/α)单元组成,而HisF-C由
C端的四个(β/α)单元组成,也就是HisF的结构显示
两重对称性。 因此,人们假定HisF是由(β/α)4半桶
结构通过基因复制和融合而来的,也就是说,HisF
的三级结构是一个具有二重对称性的(β/α)8-barrel折
叠子。在组氨酸合成中HisF前面的一个酶,N-((5-
phosphoribosyl)-formimino)-5-aminoimidazol-4-
carboxamid ribonucleotide (ProFAR) isomerase
( H i s A ),也有同样的特性。为了验证这个假设,
Lang等[7]和Höcker等[8]把HisF-N和HisF-C在大肠杆
菌中单独纯化和表征,发现它们都可以独立折叠成
HisF 中的天然构象,但是没有催化活性,也就是
说单独的HisF-N或HisF-C都没有HisF的功能。但
是,如果在体内共表达或在体外共折叠,它们可以
聚集成一个有催化活性的HisF-NC 复合物,因此完
整的HisF具有了HisF-N和HisF-C都没有的新功能。
这说明(β/α)8-barrel可能是由半桶形状的祖先通过复
制和融合进化而来的。实际上,很多证据显示现有
的具有复杂结构的蛋白质分子可能是通过基因复制
(重复)和融合进化而来的[9]。
关于蛋白质结构对称性(重复性)是同型多聚体
通过基因复制和融合进化的假设要追回到20世纪70
年代McLachlan 的研究工作。他在十年间发表了一
系列文章研究了从纤维蛋白、单结构域蛋白到多结
构域蛋白基于基因复制的进化问题[10-18]。他和后来
许多研究者[19]都认为基因复制不仅是多结构域蛋白
进化的重要机制,也是单个结构域本身进化的重要
途径。由于长期进化过程中大量的氨基酸突变,对
称蛋白质分子中由这种基因复制产生的直观重复特
征在序列上大多丢失,现在只能在结构水平直接看
到。前面提到的前十种常见的蛋白质折叠子中六种
具有内部结构对称性[1],它们分别是 four-helix
bundle、ferredoxin、β-trefoil、(β/α)8-barrel、jelly-
roll 和immunoglobulin (Ig) 折叠子。其他典型的对
称折叠子还有β-propeller和β-sandwich等。具有up-
and-down拓扑的Four-helix bundle类折叠子现在仍然
有以同型四聚体和二聚体的形式出现,提供了通过
基因复制进化的直接证据。 然而,大部分的对称折
叠子没有发现同型多聚体,而且在ferredoxin、β-trefoil
和(β/α)8-barrel折叠子中也只是极少数成员的氨基酸
序列中可以看到明显的重复子序列,Ig fold和Jelly-
roll 折叠子用传统的方法则没有发现任何序列具有内
部重复性[20]。
另一方面,Anfinsen著名的核糖核酸酶变性和复
性实验研究表明[10],每个蛋白质的形状是由它的氨
基酸序列决定的。氨基酸序列中包含的这种形状信
息称为第二遗传密码。如果蛋白质的三级结构由一级
结构决定,那么对称蛋白质的氨基酸序列应该编码
三级结构的这种对称性,但这些蛋白质序列的氨基
酸排列表面看似近似随机,这是一个矛盾。进一
步,不同的氨基酸序列又是如何编码相同的对称性结
构。因此,要证明对称折叠子是通过基因复制和融
合而来的,首先需要揭示它们的氨基酸序列所隐含的
重复性或对称性(关于序列对称性的定义见下节)。
1 蛋白质序列对称性分析方法
人们提出了不同的方法探测蛋白质序列中的重
复片段[21-31],最早的方法是Gibbs和Mcintyre[21]在
1970年提出的Dotplot以及后来Junier和Pagni[22]在
2000年提供的在线服务软件Dotlet。这两种方法基
本原理一致,是用二维的点图来显示蛋白质序列内
部的重复片断:横轴和纵轴放上同一条蛋白质序
列,在残基相同的位置处打上一个点,对角线表示
自身对齐,而平行于对角线的点线就表示蛋白质序
列中的重复片段。由于该方法原理简单,算法容易
实现,在很多大型蛋白质分析软件中都集成了该算
法或改进的版本,如Antheprot[23]。更完善的方法
是基于序列比对的方法,其中有Heger和Holm[24]提
出的RADAR(Rapid Automatic Detection and Align-
图1 海栖热袍菌的HisF(PDB ID: 1thf)的三级结构是
(β/α)8-barrel
1131第11期 肖 奕,等:对称蛋白质序列与结构关系研究
ment of Repeats)算法、George和Heringa[25]提出的
REPRO(REPeat PROtein)和Szklarczyk和Heringa[26]提
出的TRUST(Tracking Repeats Using Significance and
Transitivity)算法、Gruber 等[27]提出的REPPER
(REPeats and their PERiodicities)方法[27]和Soding等[28]
提出的HHREP(de novo protein REPpeat detection
by HMM-HMM comparison)方法。另外一类方法
是基于 Eckmann 等[29]1987 年提出的重现图方法
(Recurrence Plots)。经过了二十多年的发展,重现
图方法及其衍生方法在生物序列重复性分析方面也
得到广泛应用[30]。2005 年在德国、2007 年在意大
利已成功举办了两次 RP 方法国际学术研讨会。另
外,还有基于傅立叶变换的方法,如Turutina等[31]
提出的准周期算法。特别是,Rackovsky[19]用傅立
叶变换方法分析了表征蛋白质构型的序列信号,发
现TIM barrel和Ig折叠子的氨基酸序列存在表征不
同折叠子的特征。
然而,以上方法大多是从同源的角度,而不
是从编码结构的方面来确定蛋白质序列中的重复片
段,因此一般给出的重复片段比较短,也就是重复
片段长度总和远小于序列的总长。而与蛋白质结构
对称性对应的重复片段其长度总和应覆盖整个序
列。为了区别起见,我们把这种与结构对称性对应
的序列重复性称为序列对称性。为了寻找蛋白质序
列的对称性,我们基于两个蛋白质,如果它们序列
的氨基酸一致性超过25%,它们的结构就相似的事
实[32],提出了一种分析蛋白质序列隐含对称性的方
法[33]。我们假定,蛋白质分子中的两条子序列,如
果它们序列上氨基酸一致性在25%以上就认为它们
相似。换句话说,如果两条子序列的氨基酸一致性
超过25%,就认为它们具有相似的三级结构。这种
方式定义的“相似性”看起来和日常观念不符合,
但是从蛋白质序列决定结构的角度来说则是合理
的,因为两个蛋白质结构相同并不需要它们的序列
完全一样。具体地,对一条长度为 N 的蛋白质序
列,考虑其中任意一条长度为 d 的子序列 X i =
xixi+1…xi+d-1(1≤i≤N-d+1),并在剩余的(N-d)条
长度相同的子序列中找出有多少和它相似,也就是
有多少和它的氨基酸一致性超过25%。我们把该数
目用S(d, i)表示。对不同的d进行这种统计,就得
到相似矩阵S。相似矩阵S 能够直观显示序列的对
称性(图2 左图)。为了利用所有局部序列相似信息
来确定序列的对称性,我们进一步引进了相似矩阵
S的Pearson关联分析,也就是比较相似矩阵S中各
个子列矩阵之间的关联强度。例如,如果蛋白质序
列的前半段和后半段为重复片段,子列矩阵S1和S2
间的关联系数会远远大于其他子列矩阵间的关联系
数,其中子列矩阵S1是 S的 1到N/2列,S2 是N/2+1
到N列。 图2右图就是左图相似矩阵S的Pearson关
联系数图。Pearson 关联图能够精确确定对称片段
的位置和对称度,并且由于子列矩阵包含不同长度
和不同起点氨基酸的信息,因此能够显著提高分析
的灵敏度(图2 右图)。这使得我们成功地应用于一
些序列相似度很低或很复杂的蛋白质序列的对称性
分析,例如Ig fold。
图2给出了前面实验研究的具有(β/α)8-barrel折
图2 HisF序列的相似矩阵S和它的Pearson关联系数图
左图纵坐标d为序列片段长度。关联系数大小由彩条颜色表示,该图显示片段1~126和 122~247之间有很强的关联,Pearson
关联系数r 达到0.7476,可以认为它们相似
1132 生命科学 第22卷
叠子的HisF序列的相似矩阵S和它的各种可能子列
矩阵之间的关联系数图[34]。可以看出子序列1~126
和子序列122~247 具有很强的关联,因此可以认为
它们是重复片段:
这和基于结构的序列比对给出的结果几乎完全
一致[7,8]。图2显示序列有明显的2重对称性。而别
的方法(如Radar和Trust)只能给出比较短的重复片
段。例如,Rada r 只找到下面的重复片段:
这表明我们的方法能够探测与结构相关的氨基
酸序列隐含的对称性。为了证明这种隐含对称性的
普遍性,我们对SCOP 数据库中各种类型的蛋白质
对称结构进行了系统的分析,典型的有 α-helix
boundle类、β-Trefoil类、β-Propeller类、β-barrel
类、β-Prism类、β sandwich、Ig fold、Jelly roll
等[32-40]。这些结构类的序列都存在对称性,而且与
结构的对称性一致。图3是其中一类对称蛋白质的
序列对称性分析结果。
特别是我们揭示了Ig 和Jelly roll折叠子序列的
对称性,它们是目前空间结构对称而用传统方法没
有找到任何序列对称性的两种主要对称结构类。例
如,对具有Ig折叠子结构的Fab NC10的Ig的kappa
L链(1al4L)[34],图4中的相似矩阵显示它的序列具
有二重对称性,Pearson 关联分析则更清楚地显示
出子序列1~47 和子序列55~101 间有很强的关联,
Pearson r为0.7382:
但Radar和Trust方法都没有发现这些重复子序
列。原因可能是这些方法基于序列同源性,所以只
能探测很相似的子序列。我们的方法只要求序列相
似性不小于25%,因为我们是要找那些与结构有关
的重复子序列。更重要的是,我们方法中的
Pearson关联分析考虑了不同长度相似片段的信息,
因此是一种profile-profile的比较,能够探测到低相
似性的重复片段。
我们的工作一方面说明了蛋白质的序列对称性
编码其结构对称性的普遍性,特别是成功地确定了
Ig fold和Jelly-roll fold序列的对称性。另一方面也
说明了具有同一种对称结构的蛋白质,虽然它们序
列不同(相似性小于30%),但都具有相同的序列对
称性。这在对称性的层面上解释了为什么不同蛋白
质序列具有相同的三级结构。
由于我们提出的序列对称性判断方法原理的一
般性,我们把它推广到了蛋白质结构对称性的定量
判定[41]。目前判定分子结构的对称性大多还仅依赖
于眼睛,不仅人为性强,而且对复杂的分子无法判
断。基于序列对称性分析中的相似矩阵和Pearson
关联分析方法的思想,我们只要用子结构相似性分
析替代子序列相似性分析,就能够定量地判断蛋白
质结构对称性。子结构相似性用 α 碳原子坐标间的
均方偏差来度量。因此,我们的方法的一个优点是
1133第11期 肖 奕,等:对称蛋白质序列与结构关系研究
图3 Propeller类典型蛋白质的结构(上)和Pearson关联系数图(下)
注:各图坐标表示的量同图 2
图4 Ig fold蛋白质序列结构与序列对称性
左图为一典型结构(PDB ID: 1al4),中图为其序列的相似矩阵(纵坐标d为序列片段长度),右图为Pearson 关联系数图。利
用Pearson 关联图很容易确定对称片段的位置和相似程度。关联系数大小由彩条颜色表示。该图显示片段1~47 和55~101 之
间有很强的关联,Pearson 关联系数r达到0.7382。
可以用相同的方法来分析序列和结构的对称性。
2 蛋白质结构对称性的形成机制
序列对称性与结构对称性之间存在普遍的对应
关系只是“是什么”和“怎么样”的问题,更
重要的是要弄清楚“为什么”,这才能真正理解序
列对称性如何决定结构的对称性,也就是其物理机
1134 生命科学 第22卷
制。只有这样我们也才能完全解决序列编码结构问
题和结构预测问题,并用于指导新蛋白质的设计。
上述研究表明,如果定义两条蛋白质序列氨基酸一
致性超过25%,它们就相似,就可以显示大多数蛋
白质序列隐含的对称性。因此,我们可以假定蛋白
质对称结构的形成是序列上对称分布的少数氨基残
基起关键作用。我们提出了一种直接从能量角度来
定义残基间相互作用的方法来确定这些关键氨基酸[42],
并研究了典型的具有7重对称的propeller结构域。它
的7个对称子结构的序列长度都约为40个氨基酸(称
为WD repeats),它们有约15% (5~6个) 的氨基酸
残基相同且呈对称分布。计算结果显示这些氨基酸
都具有很强的平均相互作用能,确实表明它们在蛋
白质结构稳定中起重要作用。对β-Trefoil类结构域
的分析也表明存在对称分布的关键氨基酸,它们与
其他氨基酸有很强的相互作用,在对称结构的稳定
中起关键作用(图5)。另一方面,为了研究非关键
氨基酸的作用,我们也研究对称蛋白质的序列对称
图5 Ricin Toxin B (PDB ID: 2aaib)二个β-Trefoil结构
域的关键氨基酸在序列和结构中对称性分布示意图
三个trfoil单元顺时针排列。箭头表示beta链的方向。
图6 Four-blade beta-propeller蛋白质(PDB ID: 1pexA)
(a),结构卡通图;(b),结构相似矩阵的Pearson关联系数图;(c),序列dotplot;(d),序列相似矩阵的Pearson关联系数
图;(e),内部残基相互作用图;(f),内部残基相互作用相似矩阵的Pearson关联系数图。(b)-(f)图的横坐标和纵坐标都是氨
基酸序号。
性和内部残基相互作用对称性与结构对称性的关联
性(图6)。结果发现,内部残基相互作用对称性与
结构对称性关联性相对更强。这意味着非关键氨基
酸(子序列中不一致的氨基酸)对形成对称结构也有贡
献。 因此,氨基酸序列在对称结构形成中的作用还
有待进一步的研究。
1135第11期 肖 奕,等:对称蛋白质序列与结构关系研究
我们更进一步的研究发现[43],蛋白质结构的对
称性不仅仅是由其本身的序列决定的,还和其他蛋
白质分子或结构域的相互作用有关,蛋白质与外界
的相互作用会影响其序列的对称性。虽然蛋白序列
是决定结构的主要因素,环境效应同样重要,这符
合Anfinsen的蛋白质天然结构是热力学自由能最小
假设的原义。系统分析β-Trefoil结构域序列的对称
性表明,虽然所有序列都显示三重对称性,但不是
所有序列的对称程度都一样。我们认为这和每个结
构域是否与其他结构域或蛋白质相互作用有关。通
过分析这些结构域是否和其他结构域或蛋白质相互
作用及其强度,发现序列的不对称程度是和蛋白质
分子与外界相互作用的数目成正比。因此,我们认
为,序列和与外界的相互作用两者的共同作用可能
使蛋白质结构对称性在进化中保持不变。这些结果
的一个重要启示是在分析蛋白质序列与结构关系
中,氨基酸残基间相互作用的模式和分布是联系序
列与结构的关键因素,也就是说序列与结构需要通
过相互作用来建立真正的联系,这可能是序列与结
构关系的本质。
对称蛋白的每个对称单元如果原来就是一个基
因,那么它们有可能是古老蛋白质分子,有可能独
立地折叠。因此,在通过序列对称性分析得到序列
的对称单元后,要证明其是由基因复制进化而来,
需要研究这些片段的可折叠性。除实验验证外,分
子模拟也是很好的补充,也可以给出有意义的结
果。一般来讲,对称蛋白质分子及其对称子结构都
比较大,全原子分子动力学方法模拟其折叠过程还
十分困难。因此我们利用粗粒化的联合残基模型研
究了一个由120个氨基酸组成的6螺旋蛋白质(Ku86
的 C端结构域,PDB ID: 1q2z) 的折叠[44]。序列对
称性分析表明,这个蛋白质可以看成是由两个三螺
旋组成的二重对称性的蛋白。模拟过程显示该蛋白
质的折叠分成三个步骤:首先,局部螺旋的形成;
其次,链两端的螺旋分别聚集形成比较紧凑结构;
再次,这两端聚集的结构再装配成天然的整体结构
(图7)。这意味着该蛋白质的两个半段可以独立折
叠。 通过单独模拟两个半段的折叠,发现它们确实
可以分别折叠,而且折叠过程和整体折叠时相同。
这表明该蛋白质有可能是三螺旋束通过基因复制和
融合进化而来的。
3 蛋白质形成对称结构的意义
不仅许多蛋白质分子本身形成对称结构,而且
大多数蛋白质分子具有生物活性时是处于具有某种
对称性的多聚态[45]。为什么要形成对称的结构,目
前有以下基本假说。(1)对称态的能量可能最低,因
此蛋白质分子更稳定[46,47] ;对称结构单元间有最大
的接触面可以使对称蛋白质能量比非对称的更低。
蛋白质分子对接研究也显示,复合物最低能量态是
对称态[48]。(2)对称结构折叠过程势垒较少,折叠的
自由能面比较光滑[47] ;E. Coli蛋白质平均的聚集度
是4,很少以单体的方式存在。蛋白质最常见的复
合体是相同单体形成的有一个旋转对称轴的二聚
体,另外还有三聚体、四聚体和六聚体以及极少的
很长的多聚体[49]。(3)重复是构建和设计新功能蛋白
质或形成结合新配体位点的最简单的方法。实际
上,在蛋白质工程中人们也越来越对重复和对称蛋
白(例如ankyrin repeat和leucine-rich repeat)感兴趣[50]。
简单来说,对称蛋白质分子的优点是基因编码简
单,折叠或装配容易,稳定性高。因此,认识自
然界构建对称蛋白质分子结构的策略,能够帮助我
们有效地设计具有新功能的蛋白质分子。
图7 六螺旋蛋白1q2z(上)、它的前半段(中)和后半
段(下)的折叠过程
1136 生命科学 第22卷
对蛋白质对称结构形成机制的研究目前只能说
刚刚开始,我们也只做了初步的工作。比如我们还
不清楚对称蛋白折叠(自组装)的机制:对称单元是
先后折叠还是同时折叠;对称结构的形成是由少数
几个关键氨基酸决定还是由所有氨基酸共同决定;
对称蛋白质的动力学的细节以及与功能的关系、进
化的过程、对称单元的可折叠性等,还有待进一步
研究。因此,要认识对称蛋白质的生物意义和物理
意义以及进化过程还需要更深入、全面的研究。
ÖÂл£º¸Ðл²Î¼Ó¸ÃÎÄÑо¿¹¤×÷µÄÀîÃ÷·æ¡¢ºÎÒã¡¢³Â
³¤¾ü¡¢ÖÜ¢ÐíÈðÕä¡¢ÍõÏþ´º¡¢¼ÍÏþ·å¡¢ÁõÐ㻪¡¢Ñî
°¬ºì¡¢³Âº®ÁÖ¡¢ÉòС¾êºÍÅí¶«º£µÈ¡£
[参 考 文 献]
[1] Salem GM, Hutchinson EG, Orengo CA, et al. Correlation
of observed fold frequency with the occurrence of local
structural motifs. J Mol Biol, 1999, 287: 969-81
[2] Pujadas G, Palau J. TIM barrel fold: structural, functional
and evolutionary characteristics in natural and designed
molecules. Biol Bratislava, 1999, 54: 231-54
[3] Higgins W, Fairwell T, Miles EW. An active proteolytic
derivative of the a subunit of tryptophan synthase: identifi-
cation of the site of cleavage and characterization of the
fragments. Biochemistry, 1979, 18: 4827-35
[4] Eder J, Kirschner K. Stable substructures of eightfold
β/α-barrel proteins: fragment complementation of
phosphoribosylanthranilate isomerase. Biochemistry, 1992,
31: 3617-25
[5] Bertolaet BL, Knowles JR. Complementation of fragments
of triosephosphate isomerase defined by exon boundaries.
Biochemistry, 1995, 34: 5736-43
[6] Thoma R, Schwander M, Liebl W, et al. A histidine gene
cluster of the hyperthermophile Thermotoga maritima: se-
quence analysis and evolutionary significance. Extremophiles,
1998, 2: 379-89
[7] Lang D, Thoma R, Henn-Sax M, et al. Structural evidence
for evolution of the β/α barrel scaffold by gene duplication
and fusion. Science, 2000, 289: 1546-50
[8] Höcker B, Beismann-Driemeyer S, Hettwer S, et al. Dissec-
tion of a (β/α)8-barrel enzyme into two folded halves. Nat
Struct Biol, 2001, 8: 32-6
[9] Söding J, Lupas AN. More than the sum of their parts: on the
evolution of proteins from peptides. Bioessays, 2003, 25:
837-46
[10] McLachlan AD. Repeating sequences and gene duplication in
proteins. J Mol Biol, 1972, 64: 417-37
[11] McLachlan AD. Gene duplication and the origin of repetitive
protein structures. Cold Spring Harb Symp Quant Biol,
1987, 17: 411-20
[12] McLachlan AD. Evidence for gene duplication in collagen. J
Mol Biol, 1976, 107: 159-74
[13] McLachlan AD, Stewart M, Smillie LB. Sequence repeats in
α atropomyosin. J Mol Biol, 1975, 98: 281-91
[14] McLachlan AD. Repeated helical pattern in apolipoprotein-
A-I. Nature, 1977, 267: 465-66
[15] McLachlan AD. Analysis of gene duplication repeats in the
myosin rod. J Mol Biol, 1983, 169: 15-30
[16] McLachlan AD. Three-fold structural pattern in the soy-
bean trypsin inhibitor (Kunitz). J Mol Biol, 1979, 133: 557-
63
[17] McLachlan AD. Repeated folding pattern in copper-zinc
superoxide dismutase. Nature, 1980, 285: 267-68
[18] McLachlan AD, Bloomer AC, Butler PJ. Structural repeats
and evolution of obacco mosaic virus coat protein and RNA.
J Mol Biol, 1980, 136: 203-24
[19] Rackovsky S. “Hidden” sequence periodicities and protein
architecture. Proc Natl Acad Sci USA, 1998, 95: 8580-4
[20] Anfinsen CB. Principles that govern the folding of protein
chains. Science, 1973, 181: 223-30
[21] Gibbs AJ, Mcintyre GA. The diagram, a method for com-
paring sequences its use with amino scid and nucleotide
sequences. Eur J Biochem, 1970, 16: 1-11
[22] Junier T, Pagni M. Dotlet: diagonal plots in a Web browser.
Bioinformatics, 2000, 16: 178-79
[23] Deleage G, Combet C, Blanchet C, et al. ANTHEPROT: An
integrated protein sequence analysis software with client/
server capabili. Comput Biol Med, 2001, 31: 259-67
[24] Heger A, Holm L. Rapid automatic detection and alignment
of repeats in protein sequences. Proteins, 2000, 41: 224-37
[25] George RA, Heringa J. The REPRO server: finding protein
internal sequence repeats through the web. Trends Biochem
Sci, 2000, 25: 515-7
[26] Szklarczyk R, Heringa J. Tracking repeats using significance
and transitivity. Bioinformatics, 2004, 20: 311-7
[27] Gruber M, Söding J, Lupas AN. REPPER- repeats and their
periodicities in fibrous proteins. Nucleic Acids Res, 2005,
33: W239-43
[28] Soding J, Remmert M, Biegert A. HHrep: de novo protein
repeat detection and the origin of TIM barrels. Nucleic Ac-
ids Res, 2006, 34: W137-42
[29] Eckmann JP, Oliffson Kamphorst S, Rull D. Recurrence
plots of dynamical systems. Europhys Lett, 1987, 5: 973-7
[30] Giuliani A, Benigni R, Zbilut JP, et al. Nonlinear signal analy-
sis methods in the elucidation of protein sequence-structure
relationships. Chem Rev, 2002, 102: 1471-91
[31] Turutina VP, Laskin AA, Kudryashov NA, et al. Identifica-
tion of amino acid latent periodicity within 94 protein families.
J Comput Biol, 2006, 13: 946-64
[32] Sweet RM, Eisenberg D. Correlation of sequence hydro-
phobicities measures similarity in three-dimensional protein
structure. J Mol Biol, 1983, 171: 479-88
[33] Xu R, Xiao Y. A common sequence-associated physico-
chemical feature for proteins of β-trefoil family. Comput Biol
Chem, 2005, 29: 79-82
[34] Huang YZ, Xiao Y. Detection of gene duplication signals of
Ig folds from their amino acid sequences. Proteins, 2007, 68:
267-72
[35] Wang XC, Huang YZ, Xiao Y. Structural-symmetry-related
1137第11期 肖 奕,等:对称蛋白质序列与结构关系研究
sequence patterns of the proteins of β-propeller family. J
Mol Graph Model, 2008, 26: 829-33
[36] Ji XF, Chen HL, Xiao Y. Hidden symmetries in the primary
sequences of β-barrel family. Comput Biol Chem, 2007, 31:
61-3
[37] Huang YZ, Li MF, Xiao Y. Nonlinear analysis of sequence
repeats of multi-domain proteins. Chaos Solitons Fractals,
2007, 34: 782-6
[38] Li MF, Huang YZ, Xiao Y. Nonlinear correlations of pro-
tein sequences and symmetries of their structures. Chinses
Phys Lett, 2005, 22: 1006-9
[39] Li MF, Huang YZ, Xu RZ, et al. Nonlinear analysis of
sequence symmetry of β-trefoil family proteins. Chaos Soli-
tons Fractals, 2005, 25: 491-7
[40] Xu RZ, Li MF, Chen HL, et al. A symmetry-related se-
quence-structure relation of proteins. Chn Sci Bull, 2005,
50: 536-8
[41] Chen HL, Huang YZ, Xiao Y. A simple method of identify-
ing symmetric substructures of proteins. Comput Biol Chem,
2009, 33: 100-7
[42] Chen CJ, Li L, Xiao Y. Identification of key residues in
proteins by using their physical characters. Phys Rev E,
2006, 73: 041926-1-7
[43] Li M F, Huang YZ, Xiao Y. Effects of external interactions
on protein sequence-structure relations of β-trefoil fold.
Proteins, 2008, 72: 1161-70
[44] He Y, Zhou R, Huang Y, et al. Foldable subunits of helix
protein. Comput Biol Chem, 2009, 33: 325-8
[45] Goodsell DS, Olson AJ. Structural symmetry and protein
function. Annu Rev Biophys Biomol Struct, 2000, 29: 105-
53
[46] Blundell TL, Srinivasan N. Symmetry, stability, and dy-
namics of multidomain and multi- component protein systems.
Proc Natl Acad Sci USA, 1996, 93: 14243-8
[47] Wolynes PG. Symmetry and the energy landscapes of
biomolecules. Proc Natl Acad Sci USA, 1996, 93: 14249-55
[48] Andre I, Strauss CE, Kaplan DB, et al. Emergence of sym-
metry in homo- oligomeric biological assemblies. Proc Natl
Acad Sci USA, 2008, 105: 16148-52
[49] Levy ED, Boeri Erba E, Robinson CV, et al. Assembly re-
flects evolution of protein complexes. Nature, 2008, 453:
1262-5
[50] Forrer P, Binz HK, Stumpp MT, et al. Consensus design of
repeat proteins. Chem Biol Chem, 2004, 5: 183-9