免费文献传递   相关文献

Advances in algorithms applied on various protein-protein interaction data sources integration

异源蛋白质相互作用数据整合算法的进展



全 文 :生命科学
Chinese Bulletin of Life Sciences
第 20卷 第 5期
2008年 10月
Vol. 20, No. 5
Oct., 2008
异源蛋白质相互作用数据整合算法的进展
王文馨1,陈宇光1,石铁流2*
(1上海大学生命科学学院,上海 200444;2中国科学院上海生命科学信息中心,上海 200031)
摘 要:蛋白质相互作用在生物学过程和细胞功能行使中起核心作用。高通量技术的应用结合计算机
预测方法的发展,使得直接和间接来源的蛋白质相互作用数据得到了大规模的增加。如何系统地整合
这些数据并从中提取有用的信息是一项挑战,这也促使了许多整合算法应运而生。本文综述了八种整
合蛋白质相互作用数据源的方法: 投票、支持向量机、朴素贝叶斯、逻辑斯蒂回归、决策树、随机
森林、基于随机森林的 k - 近邻法以及混合属性分类等方法。
关键词:蛋白质相互作用;数据整合;二分类器
中图分类号:Q5 1;Q811 .4;Q81 6  文献标识码:A
Advances in algorithms applied on various protein-protein
interaction data sources integration
WANG Wen-xin1, CHEN Yu-guang1, SHI Tie-liu2*
(1School of Life Sciences, Shanghai University, Shanghai 200444, China; 2Shanghai Information Center for Life
Sciences, Chinese Academy of Sciences, Shanghai 200031, China)
Abstract: Protein-protein interactions are crucial for all biological processes and fundamental to virtually every
aspect of cellular functions. Developments of high through-put experimental techniques and in silico prediction
methods help to increase direct and indirect protein-protein interactions data. How to systematically integrate
those data and extract the meaningful information from them is a really challenge. Many computational ap-
proaches are therefore emerging for the purposes. This review presents recent advances for the application of
those approaches in integrating protein-protein interaction data sources, including voting, support vector
machine, naive bayes, logistic regression, decision tree, random forest (RF), RF-based k-nearest-neighbor and
mixture of feature experts.
Key words: protein-protein interaction; data integration; binary classifier
文章编号 :1004-0374(2008)05-0821-06
1 研究背景
蛋白质相互作用在生物学过程和细胞功能行使
中起核心作用。从系统生物学的角度看,蛋白质相
互作用网络为相互作用的两个蛋白质提供了功能联
系,有助于揭示信号转导、转录后修饰、发育过
程以及确定新的调控元件或者途径。
高通量技术已经被应用于发现蛋白质的相互作
用,但它耗费大量人力物力,结果不完整且有偏向
性,还存在假阳性和假阴性现象。不同的实验方法
针对同一物种产生的蛋白质相互作用数据也有很大
收稿日期:2008-05-29;修回日期:2008-06-11
基金项目:“973”项目(2007CB108 800) ;“863”
项目(2006AA02Z313) ;国家自然科学基金(90408010)
*通讯作者:E-mail: t1shi@sibs.ac.cn
差别。因此,开发出许多生物信息学的预测方法作
为蛋白相互作用数据源的补充很有必要。为了系统
地将这些实验的或预测的、不全面的数据源整合成
较为可靠的蛋白相互作用数据,一些整合算法应运
而生,它们的实质均是采用了二分类器的思想。
822 生命科学 第20卷
2 蛋白质相互作用数据源
蛋白质相互作用数据按照来源可分为由高通量
实验直接产生的数据源和基于生物信息学预测方法
产生的数据源,它们是整合算法的对象。高通量实
验包括酵母双杂交、质谱等实验;生物信息学方法
包括各种基于基因表达谱、蛋白亚细胞定位、模式
物种同源蛋白对、蛋白结构域、基因功能注释、系
统发生谱、基因融合、基因邻近、突变关联等信
息的预测方法。通过整合算法综合考虑多种数据
源,可以解决以往仅使用单一数据源的预测偏向性
问题,并且可以有效地降低假阳性和假阴性的发生
率。比如,在实验验证基于序列信息(如蛋白结构
域、基因融合、基因邻近等)预测的蛋白相互作用
对之前,若依据Gene Ontology (GO)等提供的细胞
组分信息判断蛋白对的亚细胞定位情况相同与否,
则可去除物理空间上分隔的假阳性蛋白对;若同时
参考基于蛋白功能相关信息(如蛋白分类、基因功
能注释等)的数据源,则可进一步提高预测结果的
可靠性,并有助于减少人工实验量。同时考量不同
的数据源因素并取长补短是整合算法的任务。
3 整合算法
3.1 投票(voting) 投票是最简单的整合算法。每
种蛋白相互作用数据源都对某一蛋白对是否相互作
用进行投票,是否有相互作用的可能性,最终由多
少数据源同意算出。一种极端的方法是认为至少有
一种同意票的蛋白对发生相互作用,即取并集;另
一种是认为收到所有数据源同意票的蛋白对才发生
相互作用,即取交集[ 1]。通常,整合不同数据源
的最佳方法是上述两种极端方法的折中[2]。显然,
投票法未充分利用数据源信息,一般不能得到良好
的效果。
3.2 支持向量机(support vector machine, SVM) 支
持向量机是解决二类模式识别问题的一种颇受欢迎
的方法,可以处理上千个训练样本。SVM希望找
到分类最优的超平面,即属于两个不同类的数据点
集的间隔最大的那个面。将向量映射到一个更高维
的空间里,在这个空间里找出一个最优的间隔超平
面,使得该平面两侧两个分别与之平行的超平面间
的距离最大化。其假定为,平行超平面间的距离
(或)差距越大,分类器的总误差越小。最优分类不
但要求两类样本无误分开,而且要求两类的分类间
隔最大。支持向量 SV指那些在间隔区边缘的训练
样本点。从训练集中选取特征子集,使得对特征子
集的线性划分等价于对整个数据集的划分,这组特
征子集就是支持向量 SV。
将向量映射到一个高维空间中,使其在高维空
间中可分时,会涉及到高维特征空间的点积运算,
即核函数,这其实是一种相似性的度量。目前 SVM
的核函数及其参数的选择还没有统一的模式,因此还
只能是凭借经验、实验对比、大范围的搜寻或者利
用软件提供的交互检验功能进行寻优。有关SVM的相
关软件有很多,如SVMLight、LIBSVM、mySVM等。
针对蛋白相互作用预测的问题,Ben-Hur 和
Noble[3]提出了成对核函数(pairwise kernel)的概念,
将表示蛋白间相似性的传统的核函数转化成表示蛋
白对间的相似性的核函数。他们整合了三种基于序
列的成对核函数(k核苷酸频度、基序、蛋白结构
域),提高了 SVM的分类准确性。再结合基于GO
注释、局部网络特性、同源性等信息的核函数后,
SVM的性能进一步提高。
3.3 朴素贝叶斯(naive bayes) 朴素贝叶斯分类器通
过某一蛋白对的各种属性值计算该蛋白对属于某一
个类的可能性。为了降低计算复杂度,朴素贝叶斯
假设一个属性值对给定类的影响独立于其他属性
值,即属性之间相互独立。虽然这个前提假设在实
际中并不存在,但是采用朴素贝叶斯的分类效果良
好,并且可以很方便地处理缺失数据。
这里的属性值就是两个蛋白在相应数据源中相
互作用与否的信息。相互作用的先验比定义为:
( ) / ( )=priorO P pos P neg ,
其中 P(pos)是在所有的蛋白对中找到一个相互作用的
蛋白对的概率;P(neg)是在所有的蛋白对中找到一个
不发生相互作用的蛋白对的概率。后验比是在给定
预测属性信息后,两个蛋白相互作用与否的比率:
1 1( | ... ) / ( | ... )=posterior n nO P pos f f P neg f f ,
其中 fi 是第 i个属性值。上式可以写成:
1* ( ... )=posterior prior nO O L f f ,
其中似然比为:
1 1 1( ... ) ( ... | ) / ( ... | )=n n nL f f P f f pos P f f neg ,
由于属性之间相互独立,所以:
1
1
( ... ) ( | ) / ( | )
=
=
=∏i nn i i
i
L f f P f pos P f neg ,
823第5期 王文馨,等:异源蛋白质相互作用数据整合算法的进展
似然比的计算需用到阳集(确证发生相互作用的蛋白
对)和阴集(确证不发生相互作用的蛋白对)信息。
Jansen等[4]首先提出将朴素贝叶斯分类器用于
酵母蛋白互作数据整合。他们将MIPS网站中各蛋
白复合物(不含子复合物)里的蛋白两两组合,产生
8 250对蛋白对,作为阳集;根据收集到的五类酵
母蛋白亚细胞定位信息,认为定位不同的蛋白对不
发生相互作用,以此产生 2 691 903对蛋白对,作
为阴集。最好排除转录因子复合物的情况,因为它
们在转运至细胞核前,必须在细胞质中完成翻译过
程,这会使得阴阳集两集产生重复。两套酵母基因
芯片数据(细胞周期各时间点和不同细胞状态)共预测
得到 18 773 128对蛋白对;两种蛋白功能信息(MIPS
功能和GO生物学过程)分别预测得到 6 161 805和
3 146 286对蛋白对;蛋白对突变关联信息预测得
到 8 130 528对蛋白对。依据阴阳集,计算上述所
有蛋白对的似然比,设定朴素贝叶斯分类器的后验
比阈值为1时(即预测蛋白对发生相互作用的可能性
为 50%),得到 9 897对蛋白对(PIP,通过生物信
息学方法预测整合得到)。同时,由于酵母双杂交
和体外 pull-down实验产生的数据源不独立,采用
全联贝叶斯整合了这些高通量实验数据,得到 163
对蛋白对(PIE,通过高通量实验得到)。
PIP中的线粒体核糖体蛋白复合物是预测出的
较大的蛋白复合物之一,它与阳集、PIE数据有较
多重叠。PIP数据将三个新的蛋白质加入该复合物
中:蛋白MEF1是翻译延伸因子,可能与线粒体核
糖体发生短暂的相互作用;另外两个蛋白的功能未
知,但是蛋白YNL081C的序列与极端嗜热菌的30S
核糖体亚基有 40%相似性,蛋白YGL068W序列与
大肠杆菌 L7/L12核糖体蛋白有 52%的相似性。因
此,蛋白相互作用预测整合结果为这两个蛋白注释
成线粒体核糖体蛋白提供了另一层面的证据。
为了进一步验证 PIP预测数据,作者进行了串
联亲和纯化(TAP)标记实验,选取酵母中 98个蛋白
作为诱饵蛋白,产生蛋白对中有 424对蛋白与 PIP
数据(后验比阈值为 0.5时)相同。其中与阳集相交
185对,与阴集相交 16对,说明实验结果是可靠
的。在 PIP数据中,假定的 DEAD-box RNA解旋
酶Dbp3与RNA解旋酶(Hca4、Mak5和Dbp7)、rRNA
新陈代谢相关蛋白(Nop2、Rrp5、Mak5等)、酵母
蛋白Nsr1均预测有相互作用(即属于同一复合物)。
以Dbp3作为 TAP实验的诱饵蛋白,新发现了三个
与之互作的蛋白质 Nsr1、Hca4 和 Nop1。接着,
分别以Mak5、Rrp5、Dbp7、Dbp3、Nsr1、Hca4
和Nop2为诱饵蛋白,又证实了一些该预测复合物
中的其他相互作用蛋白对。
Rhodes等[5]也采用了朴素贝叶斯分类器,整合
了基因表达谱、模式物种同源蛋白对、蛋白结构域
和基因功能注释等数据源,得到了近 4万个人类蛋
白的相互作用对。他们通过已知的相互作用数据集
证实了预测结果的准确性,并用实验确证了两对有
关人类癌症的蛋白相互作用。Cui等[6]在 Rhodes等[5]
的基础上,又增加了三种基因上下文属性至贝叶斯
分类器,并预测得到 28 000多对拟南芥的蛋白相互
作用,数据发布于拟南芥蛋白相互作用数据库
AtPID。Weka机器学习工具里有朴素贝叶斯分类器
供使用 [ 7 ]。
3.4 逻辑斯蒂回归(logistic regression) 逻辑斯蒂回
归是一种广义的线性统计模型,用于预测一组连
续、离散或者混合形式变量的二值分类输出,这里
的输出就是两个蛋白发生相互作用的概率。相互作
用的概率可由不同数据源(属性)推算获得,逻辑斯
蒂回归的形式是:
( 1| ) ( 1| )log log
( 0 | ) 1 ( 1| )
= == = += − =
P Y X P Y X X
P Y X P Y X
α β
或者可以写成:
( 1| )
1
+
+= = +
X
X
eP Y X
e
α β
α β
其中X是由属性X1, X2, ..., Xn组成的随机向量,
事件 Y = 1表示发生相互作用,事件 Y = 0表示不
发生相互作用,参数 α和 β可由最大似然法根据训
练集估计。最后,设定一个概率阈值,认为阈值
以上的蛋白对发生相互作用。
Sprinzak等[8]采用逻辑斯蒂回归整合了酵母的九
种不同数据源,在给定的特异性水平时,整合数据
的敏感性是酵母双杂交实验的两倍多。
Weka机器学习工具里有逻辑斯蒂回归分析[7],
采用的是岭估计子来建立模型,也可以采用 SAS/
STAT软件中的 PROC LOGISTIC程序。逻辑斯蒂
回归模型受到本身线性形式的限制,也许不能提供
最佳的整合预测方案。
3.5 决策树(decision tree) 决策树是一个预测模
型,沿它的分支将对象按属性进行分类。非叶节点
824 生命科学 第20卷
均表示属性,从这些节点引出的两条分支分别表示
属性的两个取值;叶节点则表示分类的结果。当给
定输入的属性值,决策树就学习分类函数以预测相
应的响应值,可以采用 J48程序(C4.5的 Java版本),
它允许连续的属性,允许在构建树之后进行修剪,
而且可处理不完整的信息。
取适量蛋白对构成训练集 R,从根节点开始贪
婪地构建树,找出引起熵下降最多的属性 k,即最
大条件信息增益,递归地把每个节点N分成两个子节
点。令Yk(m)表示蛋白对m是否有属性 k,令X为表
示一个蛋白对相互作用与否的随机变量。设节点N分
成两个节点N0和N1,其中Nt ={m∈ N, Yk (m)=t},
条件信息增益定义为:
0,1
| |
( ) ( )
| |=
−∑
t
t
N N
t
N
H X H X
N
其中 |N|代表节点N中蛋白对的数目,HN(X)是 X在
节点 N 的熵,即:
log( ) (1 ) log(1 )− − − −N N N NP P P P
其中 PN是一个蛋白对m ∈ N 有相互作用的概率。
Zhang等[9]采用决策树来整合高通量的以及其他
基于基因组、蛋白质组信息的数据源,用来预测蛋
白对是否属于同一蛋白复合物。文中用节点N中包
含的组成蛋白复合物的蛋白对数的比例作为 (PN)的估
计值,对于小样本量进行假计数(用训练样本的总体
(PN)表示)。决策树建好后,从根节点开始对待测蛋
白对进行判断直至到达叶节点,该蛋白对的分值由
概率PN决定。他们发现整合数据比酵母双杂交等实
验数据更为敏感和特异,并且部分预测分值较高的
蛋白对在酵母蛋白质数据库YPD中确证为发生相互
作用。
构建后的决策树存在过度拟合训练数据的风
险,一般采用后修剪方法来克服,可以采用贝叶斯
信息标准(BIC)进行模型选择[10]。当树完全生长好
后,从树叶开始去掉任何修剪后可降低 BIC分值的
树枝,这样就减小了树的大小和参数数目,并避免
了过度拟合。
Wong等[11]采用决策树整合了有关亚细胞定位、
基因表达谱、蛋白功能、网络拓扑结构等属性,预
测了酵母中引起合成致病或致死(SSL)的基因相互作
用对,并用实验验证了预测结果的可靠性。
3.6 随机森林(random forest, RF) 随机森林分类器
就是将许多决策树结合起来,以提升分类的正确
率。树的节点采用了各种数据源属性的随机子集。
输入向量经每棵树分析后,输出分类的结果。森林
根据每棵树的分类结果投票,选取票数最多的分类
作为森林的输出结果。
随机森林中的每棵树构建如下:假设训练的实
例数为N,分类器的变量个数(即蛋白相互作用数据
源的个数)为M。对于树中的一个节点而言,它所
包含的变量数为m,该节点下面的决策将基于这m
个变量进行,m的数目往往是远小于M的。通过
对N个实例样本进行N次的可放回抽样(如bootstrap
抽样),为该树选取一个训练集,剩下的实例用来
估计树的误差。每棵树都需完全生长,不用修剪。
随机森林避免了过拟合现象,并可评估不同数
据源对决定分类结果的重要性。Lin等[12]指出在有
缺失数据时,朴素贝叶斯效率高且效果好;但数据
完整时,随机森林的性能优于朴素贝叶斯,且不要
求属性间独立。Qi等[13]处理缺失数据的方法如下:
对于训练数据,缺失值首先被赋值为同类中所有与
该缺失值相应值的中值(若为离散值,则取众数),
然后进行训练。基于与该蛋白对含有共同的叶节点
的其余蛋白对的向量数据,重新估计该缺失值。重
复上述过程,直至估计值趋于恒定。对于测试数
据,分别建立两个属性向量,属性缺失值分别由两
个类的相应的均值代替。然后进行树的判断,基于
邻居蛋白对的值,重新估计该缺失值。重复上述过
程,最终值由投票最多的类所决定。
Chen等[14]采用以各种蛋白结构域作为属性的随
机森林来推测酵母蛋白相互作用。与以往仅考虑一
对结构域互作对的方法相比,这种方法同时考虑了
各种结构域对来推测某一蛋白对相互作用与否。实
验表明,该方法的预测数据的敏感性和特异性均优
于Deng等[15]提出的最大似然法。其实,若再结合
其他基于蛋白亚细胞定位、表达谱、功能等信息的
数据源,预测性能会进一步提高。
3.7 基于随机森林的 k-近邻法(RF-based k-nearest
neighbor) Qi等[13]提出了基于随机森林的 k-近邻
法,该方法当用于整合酵母蛋白相互作用数据源
时,其性能优于前述各方法和基于欧式距离的 k-近
邻法。首先创建随机森林来计算蛋白对之间的相似
度,该相似度由两个蛋白对所处叶节点的异同所定
义。在随后的加权 k- 近邻算法中,距离的计算基
于上述相似度,并以平均相似度为权重,最终分类
825第5期 王文馨,等:异源蛋白质相互作用数据整合算法的进展
该蛋白对相互作用与否。k-近邻算法相对于随机森
林末尾投票步骤的最大优点是它同时基于相似度和
非相似度进行分类(而不是仅仅基于相似度)。对于
不同的整合任务,参数 k 需自行优化。
得到随机森林后,计算蛋白对 X1和 X2的相似
度。将两个蛋白对分别进入随机森林判断,令 Z1=
(Z11, ⋯, Z1K)记录蛋白对X1在每棵树中的叶节点位置
情况,同理定义 Z2。蛋白对 X1和 X2的相似度为:
1 2 1 2
1
1( , ) ( )
=
= ==∑K i i
i
S X X I Z Z
K
其中 I 为指示函数,K 为树的数目。
为了快速计算相似度,假设森林里各决策树最
多具有不超过 N个的终节点,N*K维向量 V的每一
项都包含一个相应节点下训练集蛋白对的列表。对
于一个测试蛋白对,首先沿所有的决策树进行推断
(时间复杂度为O(N*K))。对于该蛋白所到达的每一
个终节点,可以从向量 V中找到相应的训练集蛋白
对列表,该蛋白对与列表中的蛋白对的相似度就加
一。因此,一个测试蛋白对只需O(|Strain|+N*K)时间
复杂度就可计算出它与所有训练集蛋白对的相似度
(|Strain|是训练集 Strain中元素的数目)。
给定一组训练集(Xi, Yi),Xq表示输入的测试蛋
白对 q,使用加权的 k个邻居的 Yi的均值来计算蛋
白对 q的相互作用分值 f(q)(权重取决于训练集蛋白
对与蛋白对 q的相似度) :
( )
1
( ) ( , )* ( )
=
=∑k q neighbor p neighbor
p
f q S X X Y p
这里 S(Xi, Xq)是蛋白对 i与蛋白对 q的相似度,Y∈
{1,-1}。按照 f(q)分值对测试集的蛋白对进行排序,
根据训练集得出阈值 t,并认为 f(q)>t时,归类为发
生相互作用。
3.8 混合属性分类(mixture of feature experts, MFE)
 在混合属性分类的方法中,Qi等[16]将蛋白相互作
用数据源归为四组:P组包括直接的高通量实验产
生的数据源,如酵母双杂交、质谱等;E 组包括
间接的高通量数据,如基因表达谱、蛋白 -DNA结
合信息等;S组是基于序列信息的数据源,如蛋白
结构域、基因上下文等;F组主要指蛋白功能相关
的数据源,如生物学过程、蛋白分类、蛋白定位
等。每组分类各自使用逻辑斯蒂回归来预测相互作
用,再将四组预测结果加权逻辑斯蒂回归整合,权
重由输入蛋白对决定。Qi等[16]将MFE应用于酵母
和人类细胞的相互作用蛋白对的预测,发现MFE性
能优于 SVM、朴素贝叶斯、逻辑斯蒂回归、决策
树、随机森林。
4 总结与展望
本文综述了八种整合蛋白相互作用数据源的方
法。投票法过程未充分利用数据源信息,一般不能
得到良好的效果;SVM可根据不同的整合任务采用
不同的核函数;使用朴素贝叶斯的前提是各属性的
条件概率独立;逻辑斯蒂回归实际上是一种广义的
线性统计模型;随机森林是将许多决策树结合起
来,以提升分类的正确率;基于随机森林的 k- 近
邻法是对随机森林的改进;MFE是针对不同的数据
源基于逻辑斯蒂回归改进而成的。此外,神经网络
(neural network)[17]等方法也曾用于整合的任务。
随着高通量技术的发展,愈来愈多的、直接
的由实验证实的以及间接的蛋白相互作用数据将产
生,加上基于序列、功能等信息的生物信息学预测
方法的进步,将为整合算法提供更多的属性,同时
将有更多的阳集数据用来评估这些算法,这些无疑
都将促进新的整合算法的发展。
[参 考 文 献]
[1] Tong AH, Drees B, Nardelli G, et al. A combined experimen-
tal and computational strategy to define protein interaction
networks for peptide recognition modules. Science, 2002,
295(5553): 321-4
[2] Gerstein M, Lan N, Jansen R, et al. Proteomics. Integrating
interactomes. Science, 2002, 295(5553): 284-7
[3] Ben-Hur A, Noble WS. Kernel methods for predicting pro-
tein-protein interactions. Bioinformatics, 2005, 21 Suppl 1:
i38-46
[4] Jansen R, Yu HY, Greenbaum D, et al. A Bayesian networks
approach for predicting protein-protein interactions from
genomic data. Science, 2003, 302(5644): 449-53
[5] Rhodes DR, Tomlins SA, Varambally S, et al. Probabilistic
model of the human protein-protein interaction network.
Nat Biotechnol, 2005, 23(8): 951-9
[6] Cui J, Li P, Li G, et al. AtPID: Arabidopsis thaliana protein
interactome database--an integrative platform for plant sys-
tems biology. Nucleic Acids Res, 2008, 36(Database issue):
D999-1008
[7] Witten IH, Frank E. Data mining: Practical machine learning
tools with java implementations[M]. San Francisco: Morgan
Kaufmann, 2000: 416
[8] Sprinzak E, Altuvia Y, Margalit H, et al. Characterization
and prediction of protein-protein interactions within and
826 生命科学 第20卷
between complexes. Proc Natl Acad Sci USA, 2006, 103(40):
14718-23
[9] Zhang LV, Wong SL, King OD, et al. Predicting co-complexed
protein pairs using genomic and proteomic data integration.
BMC Bioinformatics, 2004, 5: 38
[10] King OD, Foulger RE, Dwight SS, et al. Predicting gene
function from patterns of annotation. Genome Res, 2003,
13(5): 896-904
[11] Wong SL, Zhang LV, Tong AH, et al. Combining biological
networks to predict genetic interactions. Proc Natl Acad Sci
USA, 2004, 101(44): 15682-7
[12] Lin N, Wu B, Jansen R, et al. Information assessment on
predicting protein-protein interactions. BMC Bioinformatics,
2004, 5: 154
[13] Qi YJ, Kleun-Seetharaman J, Bar-Joseph Z, et al. Random
forest similarity for protein-protein interaction prediction
from multiple source[C]. Pac Symp Biocomput, 2005: 531-42
[14] Chen XW, Liu M. Prediction of protein-protein interactions
using random decision forest framework. Bioinformatics, 2005,
21(24): 4394-400
[15] Deng M, Mehta S, Sun F, et al. Inferring domain-domain
interactions from protein-protein interactions. Genome Res,
2002, 12(10): 1540-8
[16] Qi YJ, Klein-Seetharaman J, Bar-Joseph Z, et al. A mixture
of feature experts approach for protein-protein interaction
prediction. BMC Bioinformatics, 2007, 8 Suppl 10: S6
[17] Eom JH, Zhang BT. Adaptive neural network-based clus-
tering of yeast protein-protein interactions. [M]//Pas G,
Gulati VP. Intelligent Information Technology. Berlin:
Springer, 2004: 49-57