全 文 :生命科学
Chinese Bulletin of Life Sciences
第 20卷 第 3期
2008年 6月
Vol. 20, No. 3
Jun., 2008
评估蛋白质相互作用可信度的生物信息学方法
欧阳玉梅1,2,方若森2,马志强1*
(1东北师范大学计算机学院,长春 130117;2伊犁师范学院,奎屯 833200)
摘 要:随着基因组规模的高通量实验鉴定技术和计算预测方法的发展,出现了大量蛋白质相互作用
数据,但大规模蛋白质相互作用数据中的较高比例的假阳性影响了相互作用数据的质量。生物信息学
方法能够从已有的数据和知识出发,通过计算方法系统评估大规模蛋白质相互作用的可信度。本文从
过程模型设计、数据集构建、特征选择与综合属性抽取、一些算法使用、实例概述等方面介绍了生
物信息学方法评估蛋白质相互作用可信度的研究特点与进展。
关键词:蛋白质相互作用; PPI可信度; 生物信息学
中图分类号:TQ937; TP391 文献标识码:A
Bioinformatics methods for assessment of the reliability of protein
interactions
OUYANG Yu-mei1,2, FANG Ruo-sen2, MA Zhi-qiang1*
(1 College of Computer, Northeast Normal University, Changchun 130117, China; 2 Department of Computer, Yili
Normal College, Kuitun 833200, China)
Abstract: Large amounts of protein-protein interaction data have been produced with the development of various
genome-scale high throughput experimental screening techniques and computational prediction approaches.
As high throughput datasets are prone to higher false positive rates, it affects the expense of data quality.
Bioinformatics methods assess the reliability of protein interactions from known data and knowledge by using
computational methods. This paper introduces the characteristics and advances of bioinformatics methods for
assessing the reliability of protein interactions by different aspects such as designing a process model, build-
ing the datasets, selecting characteristics, using some algorithms and describing some examples.
Key words: protein interactions; the reliability of PPI; bioinformatics
文章编号 :1004-0374(2008)03-0408-07
收稿日期:2007-11-13;修回日期:2008-01-29
*通讯作者:E-mail: mazq@nenu.edu.cn
在后基因组时代,生物学的研究重点之一是蛋
白质组学。蛋白质组学研究蛋白质的组成、蛋白
质 -蛋白质相互作用(protein-protein interactions,
PPI)及由蛋白质构成的代谢网络和信号网络。蛋白
质相互作用在很多的生命过程和细胞活动中都扮演
着非常重要的角色。
从 2000年初到现在,出现了各种基因组规模
的高通量的蛋白质相互作用实验鉴定技术:酵母双
杂交法、串联亲和纯化、质谱鉴定技术、蛋白质
芯片等。为了存储和管理实验得到的大量数据,陆
续建立起了蛋白质相互作用数据库。它们是生物网
络大规模特性研究、预测未知蛋白质相互作用、疾
病机理研究、药物设计等的宝贵资源。与小规模、
集中式的传统实验结果相比,在大规模蛋白质相互
作用数据中存在着比例较高的假阳性。von Mering
等[1]估计从高通量方法获得的数据有近一半是假阳性
的。因此,如何提高相互作用数据质量成为蛋白质
相互作用研究的一个重要方向。多种高通量数据集
的交叉在获得更可信的蛋白质相互作用方面可能是
有效的。然而,由于蛋白质相互作用潜在数目的庞
大和其动态性与瞬时性以及高通量实验鉴定的不确
409欧阳玉梅,等:评估蛋白质相互作用可信度的生物信息学方法第 3期
定性、低重复性和低覆盖性,导致海量数据集中交
叉覆盖率却很小[2]。进一步的细致的小规模实验可
以作为大规模方法的补充,但用它来逐一验证爆炸
性的海量数据多少有些不切实际。显然,海量相互
作用更需要成规模的经济的验证方法。
计算预测蛋白质相互作用是另一种与实验相辅
相成的研究手段。两个蛋白质之间存在相互作用可
以有多种表现,它会在基因组座位、序列特征、进
化过程、表达时相、亚细胞定位、表达量、结构
等诸多方面表现出相邻、相似、相关的性状。通
过考察这些性状就可以计算预测蛋白质相互作用,
计算预测能大大提高覆盖率,已经有了很大进展。
例如,尽管由实验已经产生了大量的人类蛋白质相
互作用组数据,但是与预测的数据相比实验覆盖仍
然很低[3]。同样,计算方法得到的数据也存在一定
程度的假阳性。
生物信息学方法综合了数学、计算机处理技术
和生物学工具,能够从已有的数据和知识出发,通
过计算方法实现系统评估(或验证)高通量实验和计算
预测得到的相互作用数据,从而提高相互作用数据
的质量。本文介绍评估大规模蛋白质相互作用可信
度的生物信息学方法的研究特点与进展。
1 数据资源
生物信息学与蛋白质组学数据库可分为蛋白质
序列数据库、蛋白质结构数据库、微阵列数据库、
蛋白质相互作用数据库、质谱数据库和综合数据库
等。这些数据库更进一步的发展依赖于数据集和数
据交换格式的标准化,以及与其他生物学信息的整
合与统一[2,4]。表 1列出了蛋白质以及它们之间相互
关系的信息数据的部分来源,其中UniProt包括了
Swiss-Prot与 TrEMBL,其他蛋白质数据库和蛋白
质相互作用数据库可参见[5] 。
2 评估 PPI可信度过程模型
在评估 PPI可信度时,根据所选特征的特点可
建立不同的过程模型。如按某些特征运用算法得到
对整个数据集的评估(真阳性数据所占百分比)、为
每一对相互作用打分判断其真假,或者根据模式识
别方式设计一个分类系统,从有噪声的 PPI数据集
中分离出真阳性和假阳性等。
通常,分类系统由设计与实现两部分构成:用
一定数量的样本即训练集进行分类器的构造;再用
已设计好的分类器对待识别的样本进行分类决策。
分类过程模型[6]主要包括数据集获取、预处理、特
征选择与提取、属性计算、分类算法建立和分类决
策。如图 1所示,其中实心箭头代表分类器构建流
向;空心箭头代表被分类的 PPI 数据流向。
2.1 PPI数据集的构建
正样本集是指由真实相互作用蛋白质对构成的
数据集;负样本集是指由无相互作用蛋白质对构成
的数据集。假阳性是指能够被实验技术检测到的
表1 蛋白质以及它们之间相互关系的信息数据部分来源
数据库类型 数据库名称 网址 说明
蛋白质序列 NCBI http://www.ncbi.nlm.nih.gov/sites/entrez?db=protein 蛋白质数据库
PIR http://pir.georgetown.edu 蛋白质信息资源
UniProt http://beta.uniprot.org 蛋白质序列和功能信息
蛋白质结构 PDB http://www.wwpdb.org 世界蛋白质数据库
蛋白质相互作用 DIP http://dip.doe-mbi.ucla.edu 蛋白质相互作用
Bond http://bond.unleashedinformatics.com 生物分子对象网络
MIPS http://mips.gsf.de/services/ppi 蛋白质相互作用
STRING http://string.embl.de 蛋白质及其相互作用
MINT http://mint.bio.uniroma2.it/mint/Welcome.do 生物分子相互作用
BIOBASE http://www.biobase-international.com /pages 生物数据库
BioGRID http://www.thebiogrid.org 生物相互作用数据集
蛋白质家族 PFAM http://pfam.sanger.ac.uk 蛋白质家族
Interpro http://www.ebi.ac.uk/interpro 蛋白质家族、结构域
COGs http://www.ncbi.nlm.nih.gov/COG 直系同源簇、种系发生谱
微阵列 GEO http://www.ncbi.nlm.nih.gov/projects/geo 基因表达和分子含量
质谱 OPD http://bioinformatics.icmb.utexas.edu/OPD 蛋白质组学开放数据库
综合 GO http://www.geneontology.org 基因本体论
410 生命科学 第20卷
(或被计算方法预测到的),但在细胞中并不存在的
蛋白质相互作用。每一种实验技术或计算方法都存
在一定程度的假阳性。目前在一些储存蛋白质相互
作用的数据库中提供了大杂烩的证据类标注信息:
小规模实验验证、大规模交叉覆盖、计算预测、可
信度评价等。由于高通量数据存在较高比例的假阳
性,所以正样本集需要谨慎地选择。另外,已有
数种构建负样本集的方案[7]。例如,由蛋白质随机
组对产生的蛋白质对,在除去已知真实相互作用蛋
白质对后,基本上可以认为是无相互作用的。由于
没有非相互作用的“黄金标准”,常用一定方法使
系统偏差降到最低。
从不同数据资源下载的数据集格式、对象名
称、证据类方案等可能是不同的。对于正、负样
本集及高通量集的构建与预处理包括统一格式与对
象名称、去冗余等工作。
2.2 特征选择与综合属性抽取
评估可信度的一个关键问题就是特征选择与综
合属性抽取。由于蛋白质相互作用的动态性、瞬时
性、多样性、复合性,导致从高通量蛋白质组学
数据中提取生物相关途径仍然是一大挑战。特征选
择与综合属性抽取的优劣程度,除根据其评估可信
度性能作为标准外,还没有其他统一的准则来评
判。相对而言,基因共表达、同源基因、结构域
组成、网络的连通性或拓扑学标准、共有的和相关
的GO注释(生物过程、细胞组分、分子功能)等更
令人信服。根据已有的相关信息的一个或数个特征
来进行评估,尽管并不全面, 不一定适合各种实验
数据集,但是也能够在一定程度上反映数据的质
量。综合多种特征[8]将得到更显著的效果,目前各
种探索正在不断出现。
2.2.1 基因共表达 一种观点认为,基因共表达具
有保守性[9]。DNA芯片可以提供全基因组规模的表
达信息。如果多组不同条件的数据表明编码两种蛋
白质的基因总是共同表达或者共同不表达,那么可
以认为这两种蛋白质具有功能相关性或发生相互作
用的概率较大。图 2是啤酒酵母(yeas t)的可读框
YML102W 与 YBR195C在 0、9.5、11.5、13.5、
15.5、18.5、20.5(Hours)时间上的相对表达水平比
较,体现出共表达的保守性。这种观点认为包含
“真实”蛋白质 - 蛋白质相互作用关系的蛋白质比
随机蛋白质对有更相似的mRNA的表达外形。这可
用来评估相互作用实验集的优劣。
图1 PPI分类过程模型
然而,最近的研究显示,在纯化亲和力 /质谱
实验鉴定中,由于不同的退化率,在基因组广泛区
域的数据集中相互作用与基因表达只有很弱的关
系;有些蛋白质的表达与mRNA可能不存在相互关
系[10]。由于蛋白质相互作用和基因表达之间的关系
比较复杂,所以在设计机器学习的分类器时会有一
定风险,通常与其他特征联合才能达到好的效果。
2.2.2 同源基因 同源基因是从共同序列演化而来
的,其编码的蛋白质很有可能具有相似结构和分子
水平上的相似功能。同源基因(homolog)进一步划
分为直系同源(ortholog)和旁系同源(paralog),前者
指不同物种中具有相同功能和共同起源的基因,是
祖先节点的一次分化事件的配对关系;后者则指在
同一物种内进化出不同功能,但也有共同起源的基
因,是祖先节点的一次复制事件的配对关系。研
究表明[11],具有相似的系统发生谱的蛋白质趋向于
功能相关。例如,在表 2 中,基因 A 与 B 在物种
I、物种 II与物种 V中有直系同源簇;在物种Ⅲ和
Ⅳ中没有直系同源簇,则A与B功能相关。如果待
验证相互作用蛋白质各自的同源物之间存在相互作
图2 共表达的保守性
411欧阳玉梅,等:评估蛋白质相互作用可信度的生物信息学方法第 3期
用,则该相互作用存在的可能性较大。直系同源
簇、种系发生谱下载地址之一为 ftp://ftp.ncbi.nih.
gov/pub/COG/COG/。
构。它采用分级结构,使用有控制的词汇表和严格
定义的概念关系,以有向无环图形式, 对基因产品
(大多数是蛋白质)用三种描述符(分子功能、生物过
程与细胞组分)描述。GO 中的每个概念结点都是对
其祖先概念结点的进一步细化。GO 功能结点的深
度被定义为连接该结点到根结点所需的边数, 它能够
大致反映功能概念的具体程度。GO还具有总是在
成长和改变、新的术语能逐层增加、免费向公众开
放等优点。
GO注释的相似性可以用来验证PPI实验结果或
预测结果的优劣。由于许多蛋白质功能在复合体内
体现,所以相互作用蛋白质倾向于共享相似的功能
类。另外,相互作用蛋白质对也倾向于定位在一个
紧密接近区域内,至少是暂时如此。因此,共定
位信息对于评估相互作用也应该是一个有效的表
示。GO能够确定基于GO注释的蛋白质之间的正式
关系,使功能类、亚细胞定位等概念相似性的计算
变为可能。例如,Schlicker等[18]使用了一种新的
基于GO的相似度度量评估了人类相互作用蛋白质
和结构域的分子功能和生物过程。
2.3 一些常用算法
尽管目前还没能建立起系统评价蛋白质相互作
用的完整方法, 然而已经有了统计学、机器学习等
方法评估蛋白质相互作用。这些方法能够在一定程
度上对蛋白质相互作用进行评估, 并且为进一步提高
数据的可信度提供线索。
假设检验、回归分析属于统计学方法。
假设检验试图发现一个能够解释观测数据的模
型,它首先建立一个假设,然后再用观测数据验证
它。一种假设检验方法是运用卡方统计量。卡方实
际上是一组过程,它可以用来检验两个观察变量值
之间的关系,并且确定一组观测变量值是否在统计
上显著(也就是说,它是否与期望的情况不同)。
回归分析是指根据输入值估计一个输出值。当
回归用于分类时,输入值是数据库中的值,输出值
是类别。实际上,回归是对数据集进行建模,并
用一个公式拟合数据。线性回归假设输入数据与输
出数据之间存在线性关系。还有一种被经常使用的
回归技术称做 Logistic回归,与线性回归不同,它
使用 Logistic曲线拟合数据。
在模式识别中,分类的关键是建立一个预测分
类模型。主要有两大类方法:有监督分类和无监督
分类。有监督分类主要有人工神经网络、Fisher线
表2 系统发生谱
I II III IV V ⋯⋯
A 1 1 0 0 1 ⋯⋯
B 1 1 0 0 1 ⋯⋯
综合基因共表达和同源基因两个特征将得到更
显著的效果[12]。
2.2.3 结构域 -结构域相互作用 许多蛋白质由结
构上独立的单元或结构域组成。结构域是由在同一
多肽中有限的高度有序结构片段相连而成。这种连
接像铰链一样使单个结构域成相互关联地移动。在
不同生物体中同源或相似的蛋白质含有相同的结构
域,揭示蛋白质结构域可能是蛋白质功能的基础。
结构域同时包括了序列顺序信息和功能信息,因而
它是蛋白质的一个重要特性[13]。如果蛋白质对之间
存在潜在的结构域 -结构域相互作用,则蛋白质相
互作用存在的可能性较大。
2.2.4 拓扑学标准 在蛋白质相互作用网络中,节
点是协助调控细胞活动的蛋白质,边是蛋白质之间
的相互作用。在这种网络中,如果两种蛋白质能相
互反应,就认为是彼此“连接”的。研究酵母这
种最简单的真核细胞时发现,在它的数千个蛋白质
之间找到了一种无尺度(Scale-free)网络[14]拓扑结
构:大部分蛋白质只与其他一二种蛋白质发生相互
作用,但有几种蛋白质分子却能与大量的其他蛋白
质相结合。在其他物种中,也发现了类似的蛋白质
相互作用网络。无尺度网络遵循幂律法则,具有比
随机网络更有效的信号传递。核心节点是度值高
(可以与许多其他蛋白质直接发生作用)的节点,度
值高的蛋白质发挥的作用比度值低的蛋白质重要。
剔除度值高的蛋白质容易引发严重的系统失灵。
利用观测到的和期望的相互作用网络的拓扑特
性,可以设计算法评估 PPI可信度。例如 IG1[15]、
IG2[16]、IRAP*[17]等,给出了不断改进的拓扑学标
准。另外,拓扑学标准还可以用来做预测。
2.2.5 基因本体论(gene ontology,GO)功能概念相
似性 为了促进计算机分析的发展,需要将数据置
于合理的形式,系统生物学的进展提供了这个可
能。GO是一个储存相互作用和功能数据的组织结
412 生命科学 第20卷
性判别分析、决策树、K- 近邻、粗糙集和支持向
量机、贝叶斯网络等。评价标准是特异性、灵敏
度、准确度。属于机器学习的人工神经网络、支
持向量机(support vector machine,SVM)和贝叶斯
网络已用于评估大规模蛋白质相互作用数据。
BP神经网络又称反向传播网络。它的连接权
的调整采用的是反向传播学习算法。它是一种前馈
网络,采用最小均方差学习方式。神经网络算法对
训练数据中的噪声有相当好的鲁棒性。因此,它非
常适合用来评估有噪声的高通量实验数据。但神经
网络模型需要大量的训练数据,在 PPI数量很少的
情况下无法使用。
SVM是最常用的分类器之一。SVM是由Vapnik
等在统计学习理论基础上提出的一种机器学习方
法。它采用结构风险最小化原理,使用有限样本,
就可以得到一个分类错误率较小的分类器,并具有
良好的推广能力。当线性不可分时,可用核函数实
现非线性变换。它将输入数据映射到高维特征空
间,构造最优分类超平面,用来区分带有标记的两
类样本,并且最终转化为二次优化问题,存在唯一
极值点。问题的复杂度不取决于特征的维数,而取
决于支持向量的个数。
贝叶斯方法的特点是确定对先验信息的利用(即
利用先验信息形成先验分布,参于统计推断),用
概率量化所有形式的不确定性,学习和其他形式的
推理都用概率规则来实现。贝叶斯网络是用来表示
变量间连接概率的图形模式,它提供了一种自然的
表示因果信息的方法,用来发掘数据间的潜在关
系。它可以处理不完整和带有噪声的数据集;能够
获得因果联系;能够利用已有的知识和观测数据进
行学习和预测;与其他方法结合可以有效避免数据
的过拟合。
3 评估PPI可信度实例
下面我们通过介绍几个有一定代表性的实例来
进一步了解评估 PPI可信度的研究特点与进展。
Deane 等[9]提出了两种计算评估方法。第一种
是表达谱可靠性(expression profile reliability, EPR) 索
引。EPR索引首先从待考察的蛋白质相互作用网络
中收集在一定条件下的各相互作用对的mRNA表达
水平,然后为相互作用网络创建基于距离的分布,
再与标准的有相互作用和无相互作用数据集的距离
的分布进行比较,从而推断出网络中真实相互作用
的百分比。该方法评价的是相互作用数据集。第二
种则用相似性检验方法(paralogous verification
method, PVM)来估计蛋白质相互作用的可靠性。
PVM首先从待考察的蛋白质相互作用网络中选取一
个相互作用,然后收集该相互作用蛋白质对各自的
旁系同源蛋白质,如果这两组旁系同源蛋白质之间
也有相互作用,则计算它们的相互作用对的数目,
依此给出该相互作用的得分。PVM与 EPR索引不
同,它为每对相互作用打分。PVM是特殊的,但
不是很敏感,即不能达到好的覆盖。这至少是部分
因为很多横向同源物的复合体的例子是稀少的。
Satio等[16]引入了“相互作用的一般性”方法,
用来评价用实验方法得到的结果的可靠性。该方法
通过定义 PPI网络拓扑特性,根据相互作用的拓扑
图的连接数量特征,监控相互作用水平,从而鉴定
相互作用的可靠性。
Bader等[10]采用了 Logistic 回归方法,这种方
法用统计和拓扑的描述符来预测从酵母高通量筛选
中得到的蛋白质相互作用的生物学联系。这个新的
拓扑统计学显示高可信度相互作用网络的等级组
织;蛋白复合物相互作用扩展一个连接一个,基因
相互作用显示更好的组织形式。已知连接的最大值
指出蛋白质对的显著相关使通过遗传学和基因表达
数据综合地分析蛋白质数据成为可能。
Lee等[6]为酵母蛋白质相互作用数据集建立了一
个能从噪声数据中识别真实的蛋白质相互作用对的
评估系统。系统基于神经网络算法并利用相互作用
蛋白质的三个特征:功能类的相似性、共定位的出
现率和 IG2拓扑特征。用蛋白质相互作用对以及它
们的属性组成的真阳性PPI数据集和假阳性PPI数据
集训练神经网络,训练好的神经网络分类器可以用
于预测候选相互作用蛋白质对。该系统平均准确率
较高。
Miller等[19]使用了SVM对酵母必需膜蛋白质相
互作用进行评估。由不同的独立研究证实了的蛋白
质相互作用构成正样本集,随机组对的蛋白质相互
作用构成负样本集。基于实验结果和从文献中提取
的蛋白质数据特征包括GO注释、蛋白质定位、转
录调控、编码蛋白质基因的特征、蛋白质表达水平
和密码子富含关联等。SVM通过“学习”区分正
负样本。训练好的 SVM可以用来为相互作用分类。
BIND蛋白质相互作用可信度核分(BIND protein in-
teraction confidence kernel scores, BIND PICKS)系统
为BIND数据库中啤酒酵母PPI提供一个量化的可信
413欧阳玉梅,等:评估蛋白质相互作用可信度的生物信息学方法第 3期
度测评。它用从啤酒酵母 PPI中收集的一个正样本
集和负样本集对SVM进行训练,使用的特征来自包
括好坏参半的和文本挖掘的刊物、同源相互作用的
存在、共有的和相关的GO注释、RNA/DNA结构
域组成和表现型谱。该系统为相互作用数据集核
分,分数范围从 -8— 8,建议分数大于 1的数据集
才可以用于研究。
Chen等[17]分别对啤酒酵母、果蝇、线虫三个
物种的蛋白质相互作用进行了研究,引入了一个叫
做 IRAP*的新方法,作为实验提取的高错误率的蛋
白质相互作用组的计算再提纯。它把 PPI网络建模
为一个权重图,有真实相互作用的两个蛋白质之间
存在一条边。通过迭代挑选移去确信为假阳性的相
互作用和加入确信为假阴性的相互作用,实现仅用
网络拓扑度量增加 PPI可信度。
Itay和Barkai等[12]介绍了一个计算验证蛋白质相
互作用的新方法:直系同源蛋白质对的共表达可以
增加待定蛋白质相互作用的可信度。这种方法对于
不能得到表达谱的物种和临时相互作用特别有用。
Patil和Nakamura[8]联合了3个基因组特征(已知
三维结构的相互作用蛋白质结构域、GO注释和序
列同源)用贝叶斯网络方法过滤啤酒酵母的高通量蛋
白质相互作用数据。由一个或多个基因组特征支持
的来自高通量数据的蛋白质相互作用具有较高的似
然率,并且因此更倾向于真实相互作用。
Mahdavi和Lin[20]使用了GO注释降低计算预测
蛋白质相互作用的假阳性。用一批实验获得的 PPI
对做训练集。由从GO分子功能注释提取的八个顶
级关键字和GO细胞组分确定的蛋白质对共定位信
息构建了两条启发式规则,用于移去假阳性的蛋白
质对。
Collins等[21]研究了面向啤酒酵母真实相互作用
组的全面图集。该方法用贝叶斯分类器的一个判别
函数作为实验观测值的似然率的度量,由此建模
“纯化含量”得分,再对已得分的 PPI集进行层次
聚类,从而得到真实相互作用与蛋白质混合物。
Ramírez 等[3]计算分析了人类蛋白质相互作用网
络。基于GO功能注释、结构上的蛋白质家族的结
构域 -结构域相互作用、似然率和网络拓扑参数,比
较了预测得到的数据、来自酵母双杂交的高通量实
验结果和从文献中挖掘得到的蛋白质相互作用数据。
4 问题与展望
生物信息学方法评估 PPI可信度工作目前还处
于起步阶段,存在着许多问题,如不同数据资源数
据格式不统一、数据不完备、数据预处理难度大且
很繁杂、特征选取优劣尚无定论、因数据量大对运
行程序的机器的软硬件要求很高等。评估 PPI可信
度已成为生物信息学研究的一项极富挑战性的新任
务,将出现多种方法并存,各有优势和局限的特
点。除了发展新方法外,更强调各种方法间的整合
和互补,以适应不同方法得到的不同特点的数据。
另外,蛋白质组学与其他学科的交叉也将日益显著
和重要,这种交叉是新技术新方法的源泉,由此呈
现出的系统生物学研究模式,将成为未来生命科学
最令人激动的新前沿。蛋白质组学领域仅仅经历了
十几年的发展历程,虽然它还有许多棘手的问题尚
待解决,我们有理由相信,与生物信息学携手前行
的蛋白质组学必将为人类揭开生命科学的奥秘。
[参 考 文 献]
[1] von Mering C, Krause R, Snel B, et al. Comparative assess-
ment of large-scale data sets of protein-protein interactions.
Nature, 2002, 417: 399-403
[2] Salwinski L, Eisenberg D. Computational methods of analy-
sis of protein-protein interactions. Curr Opin Struct Biol,
2003, 13: 377-82
[3] Ramírez F, Schlicker A, Assenov Y, et al. Computational
analysis of human protein interaction networks. Proteomics,
2007, 7(15): 2541-52
[4] Breitkreutz BJ, Stark C, Reguly T, et al. The BioGRID
interaction database: 2008 update. Nucleic Acids Res, 2008,
36: D637-40
[5] 曹建平, 马义才, 李亦学, 等. 计算方法在蛋白质相互作
用研究中的应用. 生命科学, 2005, 17(1): 82-7
[6] Lee MS, Park SS, Kim MK. A protein interaction verifica-
tion system based on a neural network algorithm[C]. Pro-
ceeding of the 2005 IEEE Computational Systems
Bioinformatics Conference Workshops, 2005
[7] Ben-Hur A, Noble WS. Choosing negative examples
for the prediction of protein-protein in teract ions.
BMC Bioinformatics, 2006, 7(Suppl 1): S2
[8] Patil A, Nakamura H. Filtering high-throughput protein-pro-
tein interaction data using a combination of genomic features.
BMC Bioinformatics, 2005, 6: 100
[9] Deane CM, Salwinski L, Xenarios I, et al. Protein
interactions: two methods for assessment of the reliability of
high throughput observations. Mol Cell Proteomics, 2002, 1:
349-56
[10] Bader JS, Chaudhuri A, Rothberg JM, et al. Gaining confi-
dence in high-throughput protein interaction network. Nat
Biotechnol, 2004, 22: 78-85
[11] 孙景春, 徐晋麟, 李亦学, 等. 大规模蛋白质相互作用数
据的分析与应用. 科学通报, 2005, 50(19): 2055-60
[12] Tirosh I, Barkai N. Computational verification of protein-
414 生命科学 第20卷
protein interactions by orthologous co-expression. BMC
Bioinformatics, 2005, 6: 40
[13] 曾 岚, 徐晋麟, 李亦学, 等. 大规模蛋白质功能预测方法
的进展. 生命的化学, 2005, 25(1): 4-7
[14] Albert-Lászl6 B, Eeic B. 无尺度网络. 何毓嵩, 译. 科学美
国人.中文版, 2003, 50-9
[15] Saito R, Suzuki H, Hayashizaki Y. Construction of reliable
protein-protein interaction networks with a new interaction
generality measure. Bioinformatics, 2003, 19: 756-63
[16] Saito R, Suzuki H, Hayashizaki Y. Interaction generality, a
measurement to assess the reliability of a protein-protein
interaction. Nucleic Acids Res, 2002, 30: 1163-8
[17] Chen J, Hsu W, Lee ML, et al. Increasing confidence of
protein interactomes using network topological metrics.
Bioinformatics, 2006, 22(16): 1998-2004
[18] Schlicker A, Huthmacher C, Ramírez F, et al. Functional
evaluation of domain-domain interactions and human pro-
tein interaction networks. Bioinformatics, 2007, 23(7): 859-
65
[19] Miller JP, Lo RS, Ben-Hur A. Large-scale identification of
yeast integral membrane protein interactions. Proc Natl Acad
Sci USA, 2005, 102(34): 12123-8
[20] Mahdavi MA, Lin YH. False positive reduction in protein-
protein interaction predictions using gene ontology
annotations. BMC Bioinformatics, 2007, 8: 262-72
[21] Collins SR, Kemmeren P, Zhao XC, et al. Toward a compre-
hensive atlas of the physical interactome of Saccharomyces
cerevisiae. Mol Cell Proteomics, 2007, 6: 439-50
上海药物所沙尔威辛抑制肿瘤细胞黏附机理研究取得重要进展
上海药物研究所肿瘤药理实验室丁健研究员及研究生周晋等在沙尔威辛抑制肿瘤细胞黏附的机理研究中
取得重要进展,研究论文已于 2008年 2月被作为封面文章发表于国际癌症研究权威杂志Molecular Cancer
Research上。
在肿瘤转移过程中,细胞与细胞外基质的黏附发挥了非常重要的作用。整合素家族是普遍存在于细胞
中的一种跨膜糖蛋白,是介导细胞与细胞外基质相互作用的最主要分子,目前已经发现 18个α亚基和 8个
β亚基,相互之间以非共价键连接,可以形成 24种有功能的异二聚体,识别绝大多数细胞外基质。基底
膜中的细胞外基质成分在细胞表面都有相应的整合素受体。整合素的基本功能是介导细胞黏附和启动相应
的信号转导,从而促进细胞铺展和迁移。整合素和肿瘤转移有密切的关系,它们不仅介导了肿瘤细胞在
毛细血管的黏附,而且整合素转导的信号对于黏附的肿瘤细胞早期增殖有着重要的促进作用。同时,整
合素还协助蛋白水解酶对细胞外基质进行降解,并促进肿瘤新生血管形成。沙尔威辛是由上海药物研究所
天然产物化学研究室从药用植物红根草中分离提取,再经修饰优化而得到的全新结构的二萜醌类化合物,
具有显著的体内外抗肿瘤活性、抗转移活性和独特的抗肿瘤多药耐药作用,现已进入临床 II期研究。
丁健研究员带领研究生周晋等对沙尔威辛引起的肿瘤细胞黏附能力下降的机制进行了深入研究。他们
发现沙尔威辛剂量依赖性地抑制MDA-MB-435细胞与整合素配体纤粘蛋白和 I型胶原的黏附,而对多聚赖
氨酸介导的非特异性黏附没有影响。沙尔威辛还可以破坏纤粘蛋白诱导形成的黏着斑和应力纤维,从而破
坏细胞铺展的形态,导致细胞变圆,通过对黏着斑激酶和 paxillin的去磷酸化下调 β1整合素的亲和力和聚
集。同时沙尔威辛激活 ERK和 p38激酶,使用U0126和 SB203580分别抑制MAPK/ERK1/2和 p38的活性
可以部分逆转沙尔威辛对细胞黏附的影响。沙尔威辛诱导活性氧产生,使用广谱活性氧抑制剂N-乙酰半
胱氨酸可以有效抑制活性氧的产生,从而抑制 ERK和 p38的激活,维持 β1整合素的活性并恢复细胞的黏
附和铺展。这些工作阐明了沙尔威辛通过促进细胞内活性氧生成,抑制 β1整合素的功能,并下调 RhoA
的活性破坏细胞微丝骨架,从而抑制细胞与细胞外基质黏附,进一步揭示了沙尔威辛抗转移作用的机制,
此外对于活性氧作为信号分子在调节整合素功能和细胞黏附方面也增添了新的内容。
摘自 http://www.sibs.ac.cn
·简 讯 ·