Advances in algorithms applied on various protein-protein interaction data sources integration-文献传递-植物通论文库

摘要：蛋白质相互作用在生物学过程和细胞功能行使中起核心作用。高通量技术的应用结合计算机预测方法的发展，使得直接和间接来源的蛋白质相互作用数据得到了大规模的增加。如何系统地整合这些数据并从中提取有用的信息是一项挑战，这也促使了许多整合算法应运而生。本文综述了八种整合蛋白质相互作用数据源的方法: 投票、支持向量机、朴素贝叶斯、逻辑斯蒂回归、决策树、随机森林、基于随机森林的k-近邻法以及混合属性分类等方法。
关键词：蛋白质相互作用；数据整合；二分类器
中图分类号：Q51；Q811.4；Q816　　文献标识码：A

Abstract:Abstract: Protein-protein interactions are crucial for all biological processes and fundamental to virtually every aspect of cellular functions. Developments of high through-put experimental techniques and in silico prediction methods help to increase direct and indirect protein-protein interactions data. How to systematically integrate those data and extract the meaningful information from them is a really challenge. Many computational approaches are therefore emerging for the purposes. This review presents recent advances for the application of those approaches in integrating protein-protein interaction data sources, including voting, support vector machine, naive bayes, logistic regression, decision tree, random forest (RF), RF-based k-nearest-neighbor and mixture of feature experts.
Key words: protein-protein interaction; data integration; binary classifier

全文：生命科学
Chinese Bulletin of Life Sciences
第 20卷第 5期
2008年 10月
Vol. 20, No. 5
Oct., 2008
异源蛋白质相互作用数据整合算法的进展
王文馨1，陈宇光1，石铁流2*
（1上海大学生命科学学院，上海 200444；2中国科学院上海生命科学信息中心，上海 200031）
摘　要：蛋白质相互作用在生物学过程和细胞功能行使中起核心作用。高通量技术的应用结合计算机
预测方法的发展，使得直接和间接来源的蛋白质相互作用数据得到了大规模的增加。如何系统地整合
这些数据并从中提取有用的信息是一项挑战，这也促使了许多整合算法应运而生。本文综述了八种整
合蛋白质相互作用数据源的方法: 投票、支持向量机、朴素贝叶斯、逻辑斯蒂回归、决策树、随机
森林、基于随机森林的 k - 近邻法以及混合属性分类等方法。
关键词：蛋白质相互作用；数据整合；二分类器
中图分类号：Q5 1；Q811 .4；Q81 6　　文献标识码：A
Advances in algorithms applied on various protein-protein
interaction data sources integration
WANG Wen-xin1, CHEN Yu-guang1, SHI Tie-liu2*
(1School of Life Sciences, Shanghai University, Shanghai 200444, China; 2Shanghai Information Center for Life
Sciences, Chinese Academy of Sciences, Shanghai 200031, China)
Abstract: Protein-protein interactions are crucial for all biological processes and fundamental to virtually every
aspect of cellular functions. Developments of high through-put experimental techniques and in silico prediction
methods help to increase direct and indirect protein-protein interactions data. How to systematically integrate
those data and extract the meaningful information from them is a really challenge. Many computational ap-
proaches are therefore emerging for the purposes. This review presents recent advances for the application of
those approaches in integrating protein-protein interaction data sources, including voting, support vector
machine, naive bayes, logistic regression, decision tree, random forest (RF), RF-based k-nearest-neighbor and
mixture of feature experts.
Key words: protein-protein interaction; data integration; binary classifier
文章编号：1004-0374(2008)05-0821-06
1　研究背景
蛋白质相互作用在生物学过程和细胞功能行使
中起核心作用。从系统生物学的角度看，蛋白质相
互作用网络为相互作用的两个蛋白质提供了功能联
系，有助于揭示信号转导、转录后修饰、发育过
程以及确定新的调控元件或者途径。
高通量技术已经被应用于发现蛋白质的相互作
用，但它耗费大量人力物力，结果不完整且有偏向
性，还存在假阳性和假阴性现象。不同的实验方法
针对同一物种产生的蛋白质相互作用数据也有很大
收稿日期：2008-05-29；修回日期：2008-06-11
基金项目：“973”项目(2007CB108 800) ；“863”
项目(2006AA02Z313) ；国家自然科学基金(90408010)
*通讯作者：E-mail: t1shi@sibs.ac.cn
差别。因此，开发出许多生物信息学的预测方法作
为蛋白相互作用数据源的补充很有必要。为了系统
地将这些实验的或预测的、不全面的数据源整合成
较为可靠的蛋白相互作用数据，一些整合算法应运
而生，它们的实质均是采用了二分类器的思想。
822 生命科学第20卷
2　蛋白质相互作用数据源
蛋白质相互作用数据按照来源可分为由高通量
实验直接产生的数据源和基于生物信息学预测方法
产生的数据源，它们是整合算法的对象。高通量实
验包括酵母双杂交、质谱等实验；生物信息学方法
包括各种基于基因表达谱、蛋白亚细胞定位、模式
物种同源蛋白对、蛋白结构域、基因功能注释、系
统发生谱、基因融合、基因邻近、突变关联等信
息的预测方法。通过整合算法综合考虑多种数据
源，可以解决以往仅使用单一数据源的预测偏向性
问题，并且可以有效地降低假阳性和假阴性的发生
率。比如，在实验验证基于序列信息(如蛋白结构
域、基因融合、基因邻近等)预测的蛋白相互作用
对之前，若依据Gene Ontology (GO)等提供的细胞
组分信息判断蛋白对的亚细胞定位情况相同与否，
则可去除物理空间上分隔的假阳性蛋白对；若同时
参考基于蛋白功能相关信息(如蛋白分类、基因功
能注释等)的数据源，则可进一步提高预测结果的
可靠性，并有助于减少人工实验量。同时考量不同
的数据源因素并取长补短是整合算法的任务。
3　整合算法
3.1　投票(voting)　投票是最简单的整合算法。每
种蛋白相互作用数据源都对某一蛋白对是否相互作
用进行投票，是否有相互作用的可能性，最终由多
少数据源同意算出。一种极端的方法是认为至少有
一种同意票的蛋白对发生相互作用，即取并集；另
一种是认为收到所有数据源同意票的蛋白对才发生
相互作用，即取交集[ 1]。通常，整合不同数据源
的最佳方法是上述两种极端方法的折中[2]。显然，
投票法未充分利用数据源信息，一般不能得到良好
的效果。
3.2　支持向量机(support vector machine, SVM)　支
持向量机是解决二类模式识别问题的一种颇受欢迎
的方法，可以处理上千个训练样本。SVM希望找
到分类最优的超平面，即属于两个不同类的数据点
集的间隔最大的那个面。将向量映射到一个更高维
的空间里，在这个空间里找出一个最优的间隔超平
面，使得该平面两侧两个分别与之平行的超平面间
的距离最大化。其假定为，平行超平面间的距离
(或)差距越大，分类器的总误差越小。最优分类不
但要求两类样本无误分开，而且要求两类的分类间
隔最大。支持向量 SV指那些在间隔区边缘的训练
样本点。从训练集中选取特征子集，使得对特征子
集的线性划分等价于对整个数据集的划分，这组特
征子集就是支持向量 SV。
将向量映射到一个高维空间中，使其在高维空
间中可分时，会涉及到高维特征空间的点积运算，
即核函数，这其实是一种相似性的度量。目前 SVM
的核函数及其参数的选择还没有统一的模式，因此还
只能是凭借经验、实验对比、大范围的搜寻或者利
用软件提供的交互检验功能进行寻优。有关SVM的相
关软件有很多，如SVMLight、LIBSVM、mySVM等。
针对蛋白相互作用预测的问题，Ben-Hur 和
Noble[3]提出了成对核函数(pairwise kernel)的概念，
将表示蛋白间相似性的传统的核函数转化成表示蛋
白对间的相似性的核函数。他们整合了三种基于序
列的成对核函数(k核苷酸频度、基序、蛋白结构
域)，提高了 SVM的分类准确性。再结合基于GO
注释、局部网络特性、同源性等信息的核函数后，
SVM的性能进一步提高。
3.3　朴素贝叶斯(naive bayes)　朴素贝叶斯分类器通
过某一蛋白对的各种属性值计算该蛋白对属于某一
个类的可能性。为了降低计算复杂度，朴素贝叶斯
假设一个属性值对给定类的影响独立于其他属性
值，即属性之间相互独立。虽然这个前提假设在实
际中并不存在，但是采用朴素贝叶斯的分类效果良
好，并且可以很方便地处理缺失数据。
这里的属性值就是两个蛋白在相应数据源中相
互作用与否的信息。相互作用的先验比定义为：
( ) / ( )=priorO P pos P neg ,
其中 P(pos)是在所有的蛋白对中找到一个相互作用的
蛋白对的概率；P(neg)是在所有的蛋白对中找到一个
不发生相互作用的蛋白对的概率。后验比是在给定
预测属性信息后，两个蛋白相互作用与否的比率：
1 1( | ... ) / ( | ... )=posterior n nO P pos f f P neg f f ,
其中 fi 是第 i个属性值。上式可以写成：
1* ( ... )=posterior prior nO O L f f ,
其中似然比为：
1 1 1( ... ) ( ... | ) / ( ... | )=n n nL f f P f f pos P f f neg ,
由于属性之间相互独立，所以：
1
1
( ... ) ( | ) / ( | )
=
=
=∏i nn i i
i
L f f P f pos P f neg ,
823第5期王文馨，等：异源蛋白质相互作用数据整合算法的进展
似然比的计算需用到阳集(确证发生相互作用的蛋白
对)和阴集(确证不发生相互作用的蛋白对)信息。
Jansen等[4]首先提出将朴素贝叶斯分类器用于
酵母蛋白互作数据整合。他们将MIPS网站中各蛋
白复合物(不含子复合物)里的蛋白两两组合，产生
8 250对蛋白对，作为阳集；根据收集到的五类酵
母蛋白亚细胞定位信息，认为定位不同的蛋白对不
发生相互作用，以此产生 2 691 903对蛋白对，作
为阴集。最好排除转录因子复合物的情况，因为它
们在转运至细胞核前，必须在细胞质中完成翻译过
程，这会使得阴阳集两集产生重复。两套酵母基因
芯片数据(细胞周期各时间点和不同细胞状态)共预测
得到 18 773 128对蛋白对；两种蛋白功能信息(MIPS
功能和GO生物学过程)分别预测得到 6 161 805和
3 146 286对蛋白对；蛋白对突变关联信息预测得
到 8 130 528对蛋白对。依据阴阳集，计算上述所
有蛋白对的似然比，设定朴素贝叶斯分类器的后验
比阈值为1时(即预测蛋白对发生相互作用的可能性
为 50％)，得到 9 897对蛋白对(PIP，通过生物信
息学方法预测整合得到)。同时，由于酵母双杂交
和体外 pull-down实验产生的数据源不独立，采用
全联贝叶斯整合了这些高通量实验数据，得到 163
对蛋白对(PIE，通过高通量实验得到)。
PIP中的线粒体核糖体蛋白复合物是预测出的
较大的蛋白复合物之一，它与阳集、PIE数据有较
多重叠。PIP数据将三个新的蛋白质加入该复合物
中：蛋白MEF1是翻译延伸因子，可能与线粒体核
糖体发生短暂的相互作用；另外两个蛋白的功能未
知，但是蛋白YNL081C的序列与极端嗜热菌的30S
核糖体亚基有 40％相似性，蛋白YGL068W序列与
大肠杆菌 L7/L12核糖体蛋白有 52％的相似性。因
此，蛋白相互作用预测整合结果为这两个蛋白注释
成线粒体核糖体蛋白提供了另一层面的证据。
为了进一步验证 PIP预测数据，作者进行了串
联亲和纯化(TAP)标记实验，选取酵母中 98个蛋白
作为诱饵蛋白，产生蛋白对中有 424对蛋白与 PIP
数据(后验比阈值为 0.5时)相同。其中与阳集相交
185对，与阴集相交 16对，说明实验结果是可靠
的。在 PIP数据中，假定的 DEAD-box RNA解旋
酶Dbp3与RNA解旋酶(Hca4、Mak5和Dbp7)、rRNA
新陈代谢相关蛋白(Nop2、Rrp5、Mak5等)、酵母
蛋白Nsr1均预测有相互作用(即属于同一复合物)。
以Dbp3作为 TAP实验的诱饵蛋白，新发现了三个
与之互作的蛋白质 Nsr1、Hca4 和 Nop1。接着，
分别以Mak5、Rrp5、Dbp7、Dbp3、Nsr1、Hca4
和Nop2为诱饵蛋白，又证实了一些该预测复合物
中的其他相互作用蛋白对。
Rhodes等[5]也采用了朴素贝叶斯分类器，整合
了基因表达谱、模式物种同源蛋白对、蛋白结构域
和基因功能注释等数据源，得到了近 4万个人类蛋
白的相互作用对。他们通过已知的相互作用数据集
证实了预测结果的准确性，并用实验确证了两对有
关人类癌症的蛋白相互作用。Cui等[6]在 Rhodes等[5]
的基础上，又增加了三种基因上下文属性至贝叶斯
分类器，并预测得到 28 000多对拟南芥的蛋白相互
作用，数据发布于拟南芥蛋白相互作用数据库
AtPID。Weka机器学习工具里有朴素贝叶斯分类器
供使用 [ 7 ]。
3.4　逻辑斯蒂回归(logistic regression)　逻辑斯蒂回
归是一种广义的线性统计模型，用于预测一组连
续、离散或者混合形式变量的二值分类输出，这里
的输出就是两个蛋白发生相互作用的概率。相互作
用的概率可由不同数据源(属性)推算获得，逻辑斯
蒂回归的形式是：
( 1| ) ( 1| )log log
( 0 | ) 1 ( 1| )
= == = += − =
P Y X P Y X X
P Y X P Y X
α β
或者可以写成：
( 1| )
1
+
+= = +
X
X
eP Y X
e
α β
α β
其中X是由属性X1, X2, ..., Xn组成的随机向量，
事件 Y = 1表示发生相互作用，事件 Y = 0表示不
发生相互作用，参数 α和 β可由最大似然法根据训
练集估计。最后，设定一个概率阈值，认为阈值
以上的蛋白对发生相互作用。
Sprinzak等[8]采用逻辑斯蒂回归整合了酵母的九
种不同数据源，在给定的特异性水平时，整合数据
的敏感性是酵母双杂交实验的两倍多。
Weka机器学习工具里有逻辑斯蒂回归分析[7]，
采用的是岭估计子来建立模型，也可以采用 SAS/
STAT软件中的 PROC LOGISTIC程序。逻辑斯蒂
回归模型受到本身线性形式的限制，也许不能提供
最佳的整合预测方案。
3.5　决策树(decision tree)　决策树是一个预测模
型，沿它的分支将对象按属性进行分类。非叶节点
824 生命科学第20卷
均表示属性，从这些节点引出的两条分支分别表示
属性的两个取值；叶节点则表示分类的结果。当给
定输入的属性值，决策树就学习分类函数以预测相
应的响应值，可以采用 J48程序(C4.5的 Java版本)，
它允许连续的属性，允许在构建树之后进行修剪，
而且可处理不完整的信息。
取适量蛋白对构成训练集 R，从根节点开始贪
婪地构建树，找出引起熵下降最多的属性 k，即最
大条件信息增益，递归地把每个节点N分成两个子节
点。令Yk(m)表示蛋白对m是否有属性 k，令X为表
示一个蛋白对相互作用与否的随机变量。设节点N分
成两个节点N0和N1，其中Nt =｛m∈ N, Yk (m)=t｝，
条件信息增益定义为：
0,1
| |
( ) ( )
| |=
−∑
t
t
N N
t
N
H X H X
N
其中 |N|代表节点N中蛋白对的数目，HN(X)是 X在
节点 N 的熵，即：
log( ) (1 ) log(1 )− − − −N N N NP P P P
其中 PN是一个蛋白对m ∈ N 有相互作用的概率。
Zhang等[9]采用决策树来整合高通量的以及其他
基于基因组、蛋白质组信息的数据源，用来预测蛋
白对是否属于同一蛋白复合物。文中用节点N中包
含的组成蛋白复合物的蛋白对数的比例作为 (PN)的估
计值，对于小样本量进行假计数(用训练样本的总体
(PN)表示)。决策树建好后，从根节点开始对待测蛋
白对进行判断直至到达叶节点，该蛋白对的分值由
概率PN决定。他们发现整合数据比酵母双杂交等实
验数据更为敏感和特异，并且部分预测分值较高的
蛋白对在酵母蛋白质数据库YPD中确证为发生相互
作用。
构建后的决策树存在过度拟合训练数据的风
险，一般采用后修剪方法来克服，可以采用贝叶斯
信息标准(BIC)进行模型选择[10]。当树完全生长好
后，从树叶开始去掉任何修剪后可降低 BIC分值的
树枝，这样就减小了树的大小和参数数目，并避免
了过度拟合。
Wong等[11]采用决策树整合了有关亚细胞定位、
基因表达谱、蛋白功能、网络拓扑结构等属性，预
测了酵母中引起合成致病或致死(SSL)的基因相互作
用对，并用实验验证了预测结果的可靠性。
3.6　随机森林(random forest, RF)　随机森林分类器
就是将许多决策树结合起来，以提升分类的正确
率。树的节点采用了各种数据源属性的随机子集。
输入向量经每棵树分析后，输出分类的结果。森林
根据每棵树的分类结果投票，选取票数最多的分类
作为森林的输出结果。
随机森林中的每棵树构建如下：假设训练的实
例数为N，分类器的变量个数(即蛋白相互作用数据
源的个数)为M。对于树中的一个节点而言，它所
包含的变量数为m，该节点下面的决策将基于这m
个变量进行，m的数目往往是远小于M的。通过
对N个实例样本进行N次的可放回抽样(如bootstrap
抽样)，为该树选取一个训练集，剩下的实例用来
估计树的误差。每棵树都需完全生长，不用修剪。
随机森林避免了过拟合现象，并可评估不同数
据源对决定分类结果的重要性。Lin等[12]指出在有
缺失数据时，朴素贝叶斯效率高且效果好；但数据
完整时，随机森林的性能优于朴素贝叶斯，且不要
求属性间独立。Qi等[13]处理缺失数据的方法如下：
对于训练数据，缺失值首先被赋值为同类中所有与
该缺失值相应值的中值(若为离散值，则取众数)，
然后进行训练。基于与该蛋白对含有共同的叶节点
的其余蛋白对的向量数据，重新估计该缺失值。重
复上述过程，直至估计值趋于恒定。对于测试数
据，分别建立两个属性向量，属性缺失值分别由两
个类的相应的均值代替。然后进行树的判断，基于
邻居蛋白对的值，重新估计该缺失值。重复上述过
程，最终值由投票最多的类所决定。
Chen等[14]采用以各种蛋白结构域作为属性的随
机森林来推测酵母蛋白相互作用。与以往仅考虑一
对结构域互作对的方法相比，这种方法同时考虑了
各种结构域对来推测某一蛋白对相互作用与否。实
验表明，该方法的预测数据的敏感性和特异性均优
于Deng等[15]提出的最大似然法。其实，若再结合
其他基于蛋白亚细胞定位、表达谱、功能等信息的
数据源，预测性能会进一步提高。
3.7　基于随机森林的 k-近邻法(RF-based k-nearest
neighbor)　Qi等[13]提出了基于随机森林的 k-近邻
法，该方法当用于整合酵母蛋白相互作用数据源
时，其性能优于前述各方法和基于欧式距离的 k-近
邻法。首先创建随机森林来计算蛋白对之间的相似
度，该相似度由两个蛋白对所处叶节点的异同所定
义。在随后的加权 k- 近邻算法中，距离的计算基
于上述相似度，并以平均相似度为权重，最终分类
825第5期王文馨，等：异源蛋白质相互作用数据整合算法的进展
该蛋白对相互作用与否。k-近邻算法相对于随机森
林末尾投票步骤的最大优点是它同时基于相似度和
非相似度进行分类(而不是仅仅基于相似度)。对于
不同的整合任务，参数 k 需自行优化。
得到随机森林后，计算蛋白对 X1和 X2的相似
度。将两个蛋白对分别进入随机森林判断，令 Z1=
(Z11, ⋯, Z1K)记录蛋白对X1在每棵树中的叶节点位置
情况，同理定义 Z2。蛋白对 X1和 X2的相似度为：
1 2 1 2
1
1( , ) ( )
=
= ==∑K i i
i
S X X I Z Z
K
其中 I 为指示函数，K 为树的数目。
为了快速计算相似度，假设森林里各决策树最
多具有不超过 N个的终节点，N*K维向量 V的每一
项都包含一个相应节点下训练集蛋白对的列表。对
于一个测试蛋白对，首先沿所有的决策树进行推断
(时间复杂度为O(N*K))。对于该蛋白所到达的每一
个终节点，可以从向量 V中找到相应的训练集蛋白
对列表，该蛋白对与列表中的蛋白对的相似度就加
一。因此，一个测试蛋白对只需O(|Strain|+N*K)时间
复杂度就可计算出它与所有训练集蛋白对的相似度
(|Strain|是训练集 Strain中元素的数目)。
给定一组训练集(Xi, Yi)，Xq表示输入的测试蛋
白对 q，使用加权的 k个邻居的 Yi的均值来计算蛋
白对 q的相互作用分值 f(q)(权重取决于训练集蛋白
对与蛋白对 q的相似度) ：
( )
1
( ) ( , )* ( )
=
=∑k q neighbor p neighbor
p
f q S X X Y p
这里 S(Xi, Xq)是蛋白对 i与蛋白对 q的相似度，Y∈
｛1,-1｝。按照 f(q)分值对测试集的蛋白对进行排序，
根据训练集得出阈值 t，并认为 f(q)>t时，归类为发
生相互作用。
3.8　混合属性分类(mixture of feature experts, MFE)
　在混合属性分类的方法中，Qi等[16]将蛋白相互作
用数据源归为四组：P组包括直接的高通量实验产
生的数据源，如酵母双杂交、质谱等；E 组包括
间接的高通量数据，如基因表达谱、蛋白 -DNA结
合信息等；S组是基于序列信息的数据源，如蛋白
结构域、基因上下文等；F组主要指蛋白功能相关
的数据源，如生物学过程、蛋白分类、蛋白定位
等。每组分类各自使用逻辑斯蒂回归来预测相互作
用，再将四组预测结果加权逻辑斯蒂回归整合，权
重由输入蛋白对决定。Qi等[16]将MFE应用于酵母
和人类细胞的相互作用蛋白对的预测，发现MFE性
能优于 SVM、朴素贝叶斯、逻辑斯蒂回归、决策
树、随机森林。
4　总结与展望
本文综述了八种整合蛋白相互作用数据源的方
法。投票法过程未充分利用数据源信息，一般不能
得到良好的效果；SVM可根据不同的整合任务采用
不同的核函数；使用朴素贝叶斯的前提是各属性的
条件概率独立；逻辑斯蒂回归实际上是一种广义的
线性统计模型；随机森林是将许多决策树结合起
来，以提升分类的正确率；基于随机森林的 k- 近
邻法是对随机森林的改进；MFE是针对不同的数据
源基于逻辑斯蒂回归改进而成的。此外，神经网络
(neural network)[17]等方法也曾用于整合的任务。
随着高通量技术的发展，愈来愈多的、直接
的由实验证实的以及间接的蛋白相互作用数据将产
生，加上基于序列、功能等信息的生物信息学预测
方法的进步，将为整合算法提供更多的属性，同时
将有更多的阳集数据用来评估这些算法，这些无疑
都将促进新的整合算法的发展。
[参　考　文　献]
[1] Tong AH, Drees B, Nardelli G, et al. A combined experimen-
tal and computational strategy to define protein interaction
networks for peptide recognition modules. Science, 2002,
295(5553): 321-4
[2] Gerstein M, Lan N, Jansen R, et al. Proteomics. Integrating
interactomes. Science, 2002, 295(5553): 284-7
[3] Ben-Hur A, Noble WS. Kernel methods for predicting pro-
tein-protein interactions. Bioinformatics, 2005, 21 Suppl 1:
i38-46
[4] Jansen R, Yu HY, Greenbaum D, et al. A Bayesian networks
approach for predicting protein-protein interactions from
genomic data. Science, 2003, 302(5644): 449-53
[5] Rhodes DR, Tomlins SA, Varambally S, et al. Probabilistic
model of the human protein-protein interaction network.
Nat Biotechnol, 2005, 23(8): 951-9
[6] Cui J, Li P, Li G, et al. AtPID: Arabidopsis thaliana protein
interactome database--an integrative platform for plant sys-
tems biology. Nucleic Acids Res, 2008, 36(Database issue):
D999-1008
[7] Witten IH, Frank E. Data mining: Practical machine learning
tools with java implementations[M]. San Francisco: Morgan
Kaufmann, 2000: 416
[8] Sprinzak E, Altuvia Y, Margalit H, et al. Characterization
and prediction of protein-protein interactions within and
826 生命科学第20卷
between complexes. Proc Natl Acad Sci USA, 2006, 103(40):
14718-23
[9] Zhang LV, Wong SL, King OD, et al. Predicting co-complexed
protein pairs using genomic and proteomic data integration.
BMC Bioinformatics, 2004, 5: 38
[10] King OD, Foulger RE, Dwight SS, et al. Predicting gene
function from patterns of annotation. Genome Res, 2003,
13(5): 896-904
[11] Wong SL, Zhang LV, Tong AH, et al. Combining biological
networks to predict genetic interactions. Proc Natl Acad Sci
USA, 2004, 101(44): 15682-7
[12] Lin N, Wu B, Jansen R, et al. Information assessment on
predicting protein-protein interactions. BMC Bioinformatics,
2004, 5: 154
[13] Qi YJ, Kleun-Seetharaman J, Bar-Joseph Z, et al. Random
forest similarity for protein-protein interaction prediction
from multiple source[C]. Pac Symp Biocomput, 2005: 531-42
[14] Chen XW, Liu M. Prediction of protein-protein interactions
using random decision forest framework. Bioinformatics, 2005,
21(24): 4394-400
[15] Deng M, Mehta S, Sun F, et al. Inferring domain-domain
interactions from protein-protein interactions. Genome Res,
2002, 12(10): 1540-8
[16] Qi YJ, Klein-Seetharaman J, Bar-Joseph Z, et al. A mixture
of feature experts approach for protein-protein interaction
prediction. BMC Bioinformatics, 2007, 8 Suppl 10: S6
[17] Eom JH, Zhang BT. Adaptive neural network-based clus-
tering of yeast protein-protein interactions. [M]//Pas G,
Gulati VP. Intelligent Information Technology. Berlin:
Springer, 2004: 49-57

Advances in algorithms applied on various protein-protein interaction data sources integration

异源蛋白质相互作用数据整合算法的进展

相关文献