免费文献传递   相关文献

Realization and application of an entropy calculation tool for amino acid sequences

氨基酸序列集熵值计算工具实现及应用



全 文 :生命科学
Chinese Bulletin of Life Sciences
第 20卷 第 3期
2008年 6月
Vol. 20, No. 3
Jun., 2008
氨基酸序列集熵值计算工具实现及应用
徐 进,冯宝龙,王清艳,梁 瑾,王靖飞*
(中国农业科学院哈尔滨兽医研究所,哈尔滨 150001)
摘 要:氨基酸序列保守区和可变区分析是蛋白质结构和功能分析预测的关键环节。本研究根据该需
求,编写了 Entropy软件,实现了氨基酸序列集熵值计算、统计分析和优势序列模型自动生成等功能,
并利用其对A型流感病毒血凝素氨基酸序列的特征进行了分析。该软件为氨基酸序列集保守性分析提供
了可靠工具。
关键词:熵值;多序列连配;流感病毒;血凝素;生物信息学
中图分类号:TP391; Q517  文献标识码:A
Realization and application of an entropy calculation tool
for amino acid sequences
XU Jin, FENG Bao-long, WANG Qing-yan, LIANG Jin, WANG Jing-fei*
(Haerbin Veterinary Research Institute, CAAS, Haerbin 150001, China)
Abstract: Identification of conservative and variable regions of an amino acid sequence of a protein is important
for predicting its structure and functions. Based on the purposes, an entropy computation software named
Entropy, with functions of frequencies calculation of single amino acid residue and generation of conservative
sequence, was designed and realized, and which was applied to analyze the features of amino acid sequence of
hemagglutinin protein of influenza A virus. The software described in this study provides a useful tool for
amino acid sequence analysis.
Key words: entropy; multiply alignment; influenza virus; hemagglutinin; bioinformatics
文章编号 :1004-0374(2008)03-0415-06
收稿日期:2007-11-30;修回日期:2008-02-19
基金项目:哈尔滨兽医研究所所长基金(2006-A-01)
*通讯作者:E-mail: jingfei_wang@hotmail.com
定义氨基酸残基保守性是氨基酸序列分析和蛋
白质结构与功能分析、预测的关键。通常保守性利
用统计学原理确定,如使用百分率或替换概率表
示。本文首次引入熵值概念,以流感病毒血凝素
(hemagglutinin, HA)氨基酸残基保守性描述为例,阐
述熵值计算过程,使分析结果更加科学、准确[1,2],
并得出HA序列特征结果。同时编写了 Entropy软
件,实现熵值计算的自动化,与人工计算相比大大
提高了计算速度和准确性。
HA是流感病毒粒子表面的重要Ⅰ型糖蛋白,
具有高突变率的特点,尤其是HA抗原表位更易发
生点突变[3,4]。氨基酸序列中关键位点的突变对其抗
原性、毒力、受体结合特性等有显著影响。研究
这些关键位点的突变规律对流感病毒疫苗研制、致
病机理、跨宿主传播等意义重大[5 ]。
1 问题描述及背景知识
1.1 熵值概念产生
“熵”( e n t r o p y )是德国物理学家克劳修斯
(Rudolf Clausius,1822- 1888年)在 1850年创造的一
个术语,他用熵来表示任何一种能量在空间中分布
的均匀程度。能量分布得越均匀,熵就越大。对
于我们所考虑的系统来说,如果能量完全均匀地分
布,这个系统的熵就达到最大值[2 ]。
1.2 熵值的内涵
熵的含义很广,不仅自然科学领域使用熵的概
416 生命科学 第20卷
念,社会科学领域也在使用熵的概念。
熵是一个数学上颇为抽象的概念,其计算非常
复杂。直到 1 9 4 8 年,香农提出了“信息熵”的
概念,才解决了对信息的量化问题。信息熵是信息
论中用于度量信息量的一个概念[1]。一个系统越是
有序,信息熵就越低;反之,一个系统越混乱,
信息熵就越高。所以,信息熵也可以说是系统有序
化程度的一个度量。信息熵与热力学熵紧密相关,
信息量与所有可能情况的对数函数 log有关。熵值
计算公式为:
2.1 软件相关功能介绍
2.1.1 氨基酸序列集读取 读取各氨基酸序列集,
显示每个序列集的详细信息。
2.1.2 熵值计算 利用熵值计算公式,计算每个序
列集各位点的熵值。
2.1.3 优势序列 优势序列定义:每个位点出现次
数最多的氨基酸的值,并针对可能出现的情况对每
个位点的显示形式加以区别:( 1 )大写字母,如
(A),表示该位点仅有该氨基酸出现;(2)小写字母
+I,如(aI),表示该位点有多种氨基酸出现,但该
氨基酸数量最多;(3)小写字母 +II,如(aII),表示
该位点有多种氨基酸出现,并且有与该氨基酸数量
相同的氨基酸;(4)小写字母 +III,如(aIII),表示
该位点出现的所有氨基酸数量相等。
以上情况当某位点有多种氨基酸数量最多且相
等时,按字母顺序显示第一个。
详细信息以塔式显示,单个序列集各位点氨基
酸的信息,按数量及字母顺序向上排列。
2.1.4 数量统计 以数量的形式显示每个序列集,
各个位点该氨基酸的数量。
2.1.5 百分数统计 以百分比的形式显示每个序列
集,各个位点该氨基酸占总氨基酸总数的百分比。
2.1.6 聚类查找 聚类查找模块,可利用熵值和聚
类分析结果,查找当前序列集中符合聚类特征的序
列并输出。
2.2 实现方法
2.2.1 数据读取 通过StreamReader读取分析.fasta
文件,发现其数据格式的规则性:每条序列,序
列名以字符“>”开始,自己单独一行,然后是
序列具体内容分为多行,每行数据以字符“\r \n”
结束。这样就可以得到序列集每条序列的名字和具
体内容,为数据的计算统计提供保证。
香 农 指 出 , 它 的 准 确 信 息 量 应 该 是
= -(p1×logp1+p2×l log p2+ p3×l logp3.. . . . . ),
其中,p1,p2,p3.. . . .. 表示事件的概率。香农
把它称为“信息熵”,用符号 H 表示,当对数的
底数为 2 时,熵的单位是比特。
熵的阈值:根据熵值公式计算得出,氨基酸
序列比对时,熵值的范围在 0- 4.392之间(只有一
个氨基酸残基出现在当前位点时熵值为 0;所有 20
个氨基酸残基,包含氨基酸残基缺失或插入产生的
空位,均匀地出现在当前位点时熵值为 4.392)。通
常认为熵值≥ 2.000时该位点是可变异的,当熵值
< 2.000时认为该位点是保守的,当熵值≤ 1.000时
该位点是高度保守的。关于熵值的保守性可以结合
比对对象特征定义[5 ]。
在此,我们定义熵值的范围为 0- 4.392。缺
省值设置是 1.000,位点的熵值≤ 1.000认为是保守
的,位点熵值≤ 0.400认为极保守。
2 “Entropy ”的实现
根据熵值的概念和计算公式,结合生物信息学
领域的计算和分析要求以及该研究实际情况设计编
写了 Entropy软件。
Entropy软件参考智能化算法[6],采用Microsoft
Visual Studio.NET 2003环境下的 C# 语言编写,综
合运用文件流及 A D O . N E T 技术和 D a t a G r i d、
OpenFileDialog等控件完成。主要功能读取 FASTA
格式氨基酸序列文件,对序列集的数据进行熵值计
算及相关信息的统计和聚类查找。该软件可进行单
序列集计算,亦可实现多序列集比对计算。当前版
本号为 2.5(图 1)。
图1 Entropy2.5界面
417徐 进,等:氨基酸序列集熵值计算工具实现及应用第 3期
主要功能代码:
//读取文件字符串
StreamReader mysr=new StreamReader(fnin);
//fnin序列集.fasta文件文件名包括路径
string st0=mysr.ReadToEnd();
mysr.Close();
//得到每个序列名,和每个序列具体内容数组
mysr=new StreamReader(fnin);
for(i=0;i<=numline;i++)
{
⋯ ⋯
{ //记录序列具体内容数组
starrystr[j]=starrystr[j]+stline1;}
}
2.2.2 数据计算及数量统计 无论是熵值计算还是
优势序列生成,以及数量统计和百分数统计,得到
每个序列集各个位点各种氨基酸的数量是关键。对
于数量的统计及各步计算结果的保存除使用一维数
组、多维数组外,还使用了交错数组。交错数组
是元素为数组的数组。交错数组元素的维度和大小
可以不同。下面以二维数组为例对比多维数组与交
错数组的区别:
多维数组
A[0,0] A[0,1] A[0,2]
A[1,0] A[1,1] A[1,2]
A[2,0] A[2,1] A[2,2]
交错数组
A[0,0] A[0,1] A[0,2] A[0,3]
A[1,0] A[1,1]
A[2,0] A[2,1] A[2,2]
只要有了每个序列集各个位点各氨基酸的数
量,熵值计算等一系列统计结果便可根据此数据计
算得到,每个序列集各位点各氨基酸的数量统计主
要功能代码如下:
for(i=0;i // this.dtsourse.Length序列集数
{
for(j=0;jdtsourse[i].Rows.Count每个序列集对应序列 //数
{ for(k=0;kToString().Length;k++)
// this.dtsourse[0].Rows[0][2].ToString().Length
//每个序列长度
⋯ ⋯
}
}
//result1[i][0][k]记录的是第 i个序列集,第 k个
位点 / / 空位(“-”)的数量。
2.2.3 显示结果 显示结果需要将结果数组数据显
示在DataGrid控件上,在这里需要用到ADO.NET
组件相关技术。ADO.NET组件的主要作用是从数
据操作中分解出数据访问。ADO.NET两个核心组件
是: .NET Framework数据提供程序和DataSet。.NET
Framework数据提供程序是一组包括 Connection、
Command、DataReader 和 DataAdapter 对象在内的
组件。DataSet实现独立于任何数据源的数据访问,
它包含一个或多个 DataTable 对象的集合,这些对
象由数据行和数据列以及主键、外键、约束和有关
DataTable 对象中数据的关系信息组成。DataTable
是 ADO.NET 库中的核心对象。DataTable表示内存
中数据的一个表,它完全是在内存中的一个独立存
在,包含了这张表的全部信息。DataTable可以是
从通过连接数据库中读取出来形成的一个表,一旦
将内容读到DataTable中,此DataTable可以跟数据
源断开而独立存在;也可以是完全由程序自己通过
代码来建立的一个表。
(1)单独表:以熵值结果为例。通过代码建立
一个DataTable,然后将序列集名称和相应位点的熵
值存入此表中,最后将此表与DataGrid控件绑定,
显示最终结果。主要功能代码如下:
//创建DataTable
DataTable dtr0=new DataTable(“数据”);
//创建列
dtr0.Columns.Add(“文件名”);
for(i=0;iLength;i++)
{j=i+1;dtr0.Columns.Add(“位点”+j);}
for(i=0;i{ //创建行
⋯ ⋯
(2 )父子表:以序列集显示为例,打开多序
列集后,用户会看到每个序列集的名字,点击“详
418 生命科学 第20卷
细”后要显示对应序列集的详细序列信息,这就需
要两个DataTable,一个用来储存序列集的名字,另
一个用来储存序列集的名字和每个序列集内各序列
的详细内容。然后,将两个DataTable加入DataSet,
并以序列集的名字建立关系,最后,将父表与
DataGrid绑定显示最终结果。主要功能代码如下:
//创建 dataset
DataSet myDataSet = new DataSet();
//两个需要关联的表加入 dataset
⋯ ⋯
3 HA序列集熵值计算过程
3.1 A 型流感病毒HA研究进展概述
现有研究成果表明,H1、H2和 H3亚型流感
病毒常常感染人[7],而H5、H7和H9亚型流感病毒
常常感染禽鸟[8,9]。因此,我们以最具代表性的 H3
和H5亚型为例,演示HA氨基酸序列集熵值计算过
程。
通常,HA单体由560-570个氨基酸残基组成[10]。
从N端开始,首先是 16个残基构成的信号肽;紧
接着是由 328个残基组成的HA1部分;随后 1个精
氨酸残基构成切割位点,最后为 HA2部分,约由
221个氨基酸残基构成[11,12]。每个HA1单体的头部
具有 1个受体结合位点和不少于 5个的抗原表位(目
前已经确定的有表位 A、B、C、D、E,还有未
确定的表位)[13,14]。HA2的N端存在由 7个氨基酸残
基组成的膜融合序列,膜融合序列氨基酸组成不同
可影响病毒吞饮泡的膜融合效率[15]。HA2的 C端具
有跨膜区和输水区。HA1和HA2之间(内)可形成多
个二硫键[16]。HA还有其他修饰结构如糖基化等。
受体结合位点和抗原表位氨基酸残基定位及熵值分
析见图 2。
3.2 分析步骤
3.2.1 确定研究序列集 利用National Center for Bio-
technology Information(NCBI)中的流感病毒资源数据
库(http://www.ncbi.nlm.nih.gov/genomes/FLU/FLU.
html)采集流感病毒HA蛋白氨基酸序列。参数设置
为:A 型流感病毒、任意宿主、任意地区、H A
片段;H3/H5亚型、仅选择全长序列、移除同一
序列,其余条件系统默认。符合条件的序列集有 832
和 932条序列(截至 2007年 7月 16日),分别命名为
SetH5和 SetH3。取得的序列统一制成 FASTA格式
保存。
3.2.2 多序列比对 采用Feng和Doolittle的渐进算
法进行多序列比对,算法的实现利用流行的
Clustalx1.83软件[17,18]。对比对的结果进行初步分
析,对于影响比对结果的个别及特殊序列进行编辑
或删除。比对后的序列利用 BioEdit软件进行编辑,
将N端或C端部分冗长序列切除,或删除个别序列
个别位点的氨基酸插入[17],对于比对产生的空位则
保留。编辑后有利于氨基酸残基序列位数一致和统
计结果的准确性。编辑后再次利用 Clustalx1.83进
行比对,再次编辑,直到全部对齐。
3.2.3 熵值计算 利用本研究室编写的“Entropy
2.5”软件进行序列集的熵值计算。同时进行位点
氨基酸数量统计、位点氨基酸百分率统计优势序列
分析。
3.2.4 分析结果 计算结果表明,H3和H5亚型HA
蛋白氨基酸序列的熵值差异显著,所以氨基酸残基
位点保守性相差悬殊,尤其是功能区和功能位点差
异最为突出。如图 2 所示,黑色柱表示高突变位
点,灰色柱表示易突变位点,白色柱表示保守位
点。 (1) H3和 H5的受体结合位点熵值均较小,氨
基酸残基保守性相对较高,表明A型流感病毒各亚
型受体具有相对专一的宿主特异性。 (2) 在抗原表位
区,H3的熵值普遍高于H5,所以H3亚型较H5亚
型更易发生抗原漂移。这种变化主要来自宿主免疫
系统的选择压力,进一步说明人体免疫系统对流感
病毒的选择压力高于禽类。 (3) H3亚型137和226位
点熵值分别为 1.691和 1.865,具有较高的突变率。
而 226位点位于受体结合位点“Pocket”(袋状蛋白)
的底部,在和唾液酸受体结合过程中作用重要,这
一位点氨基酸残基易于突变,表明H3亚型流感病
毒在和宿主细胞表面的受体作用时具有不同的结合
常数,即同一亚型病毒与相同受体结合时,结合力
稳定性不同,因此可以表现出不同的致病力。 (4)同
一亚型病毒不同抗原表位的熵值也不同。经验表
明,突变率高的抗原表位通常为病毒的主要抗原表
位,如H3亚型表位 A和表位 B为主要抗原表位;
H5亚型仅有表位 B为主要表位。 (5)应用 Entropy软
件可以方便地进行氨基酸序列保守位点和保守区分
析,同时也可以对多个数据集的分析结果进行比较
分析,发现数据集的聚类特征。
4 讨论
除此之外,我们进行了多方位的验证。Entropy
软件适用于所有的蛋白质氨基酸序列集保守性定
义。它能够快速、准确地实现氨基酸序列集熵值计
419徐 进,等:氨基酸序列集熵值计算工具实现及应用第 3期
图2 受体结合位点及抗原表位定位及熵值分析
420 生命科学 第20卷
算、统计分析、优势序列生成、序列聚类查找等
功能。为氨基酸序列集比对过程中定义保守性提供
准确的数据依据。
[参 考 文 献]
[1] 皮埃尔·巴尔迪, 索思·布鲁纳克. 生物信息学——机
器学习方法[M]. 张东辉, 等译. 2版. 北京: 中信出版社,
2003: 313-8
[2] Shannon CE. A mathematical theory of communication. Bell
Syst Tech J, 1948, 27: 379-423, 623-56
[3] Webster RG, Guan Y, Peiris M, et al. Characterization of
H5N1 influenza viruses that continue to circulate in Geese
in Southeastern China. J Virol, 2002, 76(1): 118-26
[4] Taubenberger JK, Reid AH, Lourens RM, et al. Character-
ization of the 1918 influenza virus polymerase genes. Nature,
2005, 437(7060): 889-93
[5] Gambaryan AS, Tuzikov AB, Pazynina GV, et al. H5N1
chicken influenza viruses display a high binding affinity for
Neu5Aca2-3Galh1-4(6-HSO3) GlcNAc-containing
receptors.Virology, 2004, 326(2): 310-6
[6] 王翼飞, 史定华主编. 生物信息学——智能化算法及共应
用[M]. 北京: 化学工业出版社, 2006: 50-5
[7] Chen GW, Chang SC, Mok CK, et al. Genomic signatures of
human versus avian influenza A viruse. Emerg Infect Dis,
2006, 12(9): 1353-60
[8] Stevens J, Blixt O, Tumpey TM, et al. Structure and recep-
tor specificity of the hemagglutinin from an H5N1 influenza
virus. Science, 2006, 312(5772): 404-10
[9] Li ZJ, Chen HA, Jiao PR, et al. Molecular basis of replica-
tion of duck H5N1 influenza viruses in a mammalian mouse
model. J Virol, 2005, 79(18): 12058-64
[10] Matrosovich MN, Gambaryan AS, Teneberg S, et al. Avian
influenza A viruses differ from human viruses by recognition
of sialyloligosaccharides and gangliosides and by a higher
conservation of the HA receptor-binding site. Virology, 1997,
233(1): 224-34
[11] LAL SK, Chow VTK. Avian influenza H5N1 virus: An
emerging global pandemic. Infect Dis Basel, 2007, 4: 59-77
[12] Karasin AI, West K, Carman S, et al. Characterization of
avian H3N3 and H1N1 Influenza A viruses isolated from
pigs in Canada. J Clin Microbiol, 2004, 42(9): 4349-54
[13] Shinya K, Ebina M, Yamada S, et al. Avian flu: influenza
virus receptors in the human airway. Nature, 2006, 440
(7083): 435-6
[14] Chenna R, Sugawara H, Koike T, et al. Multiple sequence
alignment with the clustal series of programs. Nucleic Acids
Res, 2003, 31(13): 3497-500
[15] Reid AH, Janczewski TA, Lourens RM, et al. 1918 influ-
enza pandemic caused by highly conserved viruses with
two receptor-binding variants. Emerg Infect Dis, 2003, 9
(10): 1249-53
[16] Shih AC, Hsiao TC, Ho MS, et al.Simultaneous amino acid
substitutions at antigenic sites drive influenza A hemaggluti-
nin evolution. Proc Natl Acad Sci USA, 2007, 104(15): 
6283-8
[17] 乔纳森·佩夫斯纳. 生物信息学与基因功能组学[M]. 北
京: 化学工业出版社, 2006: 305-8
[18] Baxevanis AD (Editor-in-Chief). Current protocols in
bioinformatics[M]. Bethesda: National Institats of Health,
2002
抗肿瘤活性成份陵水醇制备方法和用途获得国家发明专利
由上海药物研究所完成的发明“抗肿瘤活性成份陵水醇、制备方法和用途”获得国家发明专利授权
(专利号 ZL200410017592.4)。
本发明涉及医药技术领域,具体是一类从海洋甲藻中提取、分离获得的新型的长链多羟基多烯类化合
物,经过多次体外抗肿瘤活性实验表明,该类化合物具有明显的抑制肿瘤细胞活性作用,可望在制备抗
癌症药物中得到应用。本发明可为研制新的治疗各种常见多发癌症药物提供先导化合物,对开发利用中国
的海洋生物资源具有重要意义。
甲藻是植物分类系统中的一个门,甲藻门藻类全世界约有 4000种,我国已查明的有 251种,广泛分
布于我国东海和南海海域。其中前沟藻属于环沟藻科,是一种寄生性微藻,目前对其化学成份的研究主
要集中在大环内酯类和长链多羟基多烯类化合物,这两类化合物都具有显著生物活性。陵水醇A、B、C
代表了一类新型长链多羟基多烯类化合物,目前对此类化合物生物活性的报道仅限于抗真菌、抗菌及其溶
血作用等方面,对其抗肿瘤活性的研究尚属空白。
摘自 http://www.sibs.ac.cn
·简 讯 ·