全 文 :生命科学
Chinese Bulletin of Life Sciences
第 19卷 第 2期
2007年 4月
Vol. 19, No. 2
Apr., 2007
ncRNA研究技术进展
肖章奎,薛良义*
(宁波大学生命科学与生物工程学院,宁波 3 1 52 1 1)
摘 要:ncRNA通过多种机制调控着基因的表达,生物信息学、基因组 SELEX技术及微阵列分析等
方法在 ncRNA的研究中发挥了重要作用,导致在最近 5年发现了大量的新 ncRNA,本文就研究 ncRNA
的各种方法作一简要介绍。
关键词:n cR N A;生物信息学;生物芯片;基因组 SE LE X;质谱法;R N A 组学;R N A 鉴定
中图分类号:R318.04; Q75 文献标识码:A
Advances in the research technology of ncRNA
XIAO Zhangkui, XUE Liangyi*
(College of Life Science and Biotechnology, Ningbo University, Ningbo 315211, China)
Abstract: ncRNA plays an important role in regulating gene expression by various mechanisms. Many
approaches, such as bioinformatics, genomic SELEX technology, and microarray analysis, were applied to study
ncRNA, resulting in the discovery of a large number of new ncRNAs in recent five years. Here we briefly summarize
these methods for identifying and validating ncRNA.
Key words: ncRNA; bioinformatics; microarray; genomic SELEX; mass spectrometry; rnomics; RNA identification
近年来,在原核生物、真核生物以及古细菌
中鉴定了许多 ncRNA(non-coding RNA),如小分子
核仁 RNA(small nucleolar RNA, snoRNA)、小 RNA
(microRNA, miRNA)、小干扰 RNA(short interfering
RNA, siRNA)等,并发现它们具有多种功能,在多
个水平上调节着基因的表达,如对染色体结构的影
响,对 RNA加工修饰及稳定性的影响,对转录和
翻译的影响,甚至对蛋白质的稳定性和转运都有影
响[1]。本文对 ncRNA的研究方法作一简要介绍。
1 生物信息学方法(Bioinformatics)预测
在利用 gene-finding软件预测基因编码区的同
时,就尝试着用生物信息学方法对 ncRNA进行鉴
定;但由于ncRNA缺少编码蛋白质的基因所具有的
典型特征,如启动子和终止子、开放阅读框、特
文章编号 :1004-0374(2007)02-0122-05
收稿日期:2006-12-10;修回日期:2007-03-12
基金项目:浙江省自然科学基金(Y306295); 宁波市自然科学基金(2006A610083)
作者简介:肖章奎(1 97 4 —),男,硕士研究生; 薛良义(1 96 2 —),男,博士,教授,博士生导师 , * 通讯作者 ,
E-mail: xueliangyi@nbu.edu.cn
异的剪切位点、多聚腺苷酸化位点和 CG岛等,且
ncRNA基因较小,用于 gene-finding软件的基序
(motif)变动较大等,因此,到目前为止,还没有
高效且通用的 ncRNA基因的预测算法。
现在能成功对ncRNA预测的gene-finding编程软
件一般被设计成只能搜索单一种类的 ncRNA,如
tRNAScan-SE搜索 tRNA[2]、snoScan搜索带C/D盒的
snoRNAs[3]、SnoGps搜索带H/ACA盒的 snoRNAs[4]、
mirScan搜索microRNA[5]等等。
一些基于基序聚类的软件,如 RNAmotifs[6]、
Erpin[7]以及 Patsearch[8]也用于对 ncRNA的搜索,但
是这些软件同搜索单一种类的ncRNA软件相比,灵
敏度和特异性都较差。实际上,用实验方法已证实
的 ncRNA很少是用这类软件鉴定出来的。
123第2期 肖章奎,等:ncRN A研究技术进展
随着各种生物物种基因组计划的实施,基因组
的序列比较分析可用来检测 ncRNA和 cis-regulatory
RNA的二级结构[9-10],如用QRNA已检测出在大肠
杆菌、酿酒酵母菌和激烈火球菌中的 ncRNA,并
在随后的实验中得到了证实。贺华良等[11]通过比较
基因组和分子生物学方法分析了 5种果蝇全基因组
内含子区域的保守序列,获得了 3个全新的非编码
RNA基因:1个典型的带 C/D盒的 snoRNA基因和
两个miRNA基因。
2 对 ncRNA的测序鉴定
2.1 直接测序 单一的 ncRNA通过变性凝胶电泳
(如含 EB的聚丙烯酰胺电泳)可从总 RNA中分离出
来。分离出来的 ncRNA 5端在多聚核苷酸激酶的
作用下加上 r-32P标记的AMP,或在T4DNA连接酶
的作用下在 3端连接上 32P标记的 CMP。5端和 3
端标记的ncRNA用酶或化学方法测序。酶法测序是
指标记过的 ncRNA在 50- 55℃,7 mol/L尿素存
在的条件下,由核糖核酸酶,如 RnaseT1、T2、
U2、PHYM、CL3、A、M1等对其进行碱基特异
性水解,得到大小不一的 RNA片段,随后通过变
性聚丙烯酰胺凝胶电泳和放射自显影得到其序列。
化学方法测序是指将标记过的RNA中的每一种碱基
分别进行特异性化学修饰后,采用苯胺催化而进行
条带剪切,产生大小不一的标记性片段,通过变性
聚丙烯酰胺凝胶电泳和放射自显影得到其序列。
最早对 ncRNA直接测序的研究是在 tRNA和
rRNA上进行的[12-15],如 16S rRNA[15]。利用直接测
序来鉴定新的ncRNA种类还远未过时,如最近通过
直接测序在真核生物中发现的 snoRNA,可能与
rRNA的修饰有关[16]。这种技术也用于对革兰氏阳
性细菌中丰富的 RNA进行分析[17-18]。
2.2 cDNA文库的测序 ncRNA分离方法主要有两
种:第一种将某种生物的总RNA通过变性凝胶电泳
(如变性聚丙烯酰胺凝胶电泳)和胶纯化可以得到所需
的 ncRNA(<500nt的RNA); 第二种则是利用 ncRNA
结合蛋白的抗体进行免疫沉淀反应来分离出
ncRNA,即首先从细胞中纯化出核糖核蛋白颗粒
(RNPS),然后与已知的 ncRNA结合蛋白的特异抗
体进行免疫沉淀反应,最后通过酚提取就可得到相
关的 ncRNA。
许多从生物体内分离出来的ncRNA长度上都比
mRNA小得多,为 20- 500 nt,并且也不具有多
聚A尾巴,不能直接用寡聚 dT引物来反转录形成
cDNA,因此,要对分离出来的 ncRNA进行处理。
这种处理是指在分离出来的 ncRNA的 3端,用poly
(A)多聚酶加上寡聚C或A尾巴,或在T4 RNA连接
酶作用下连接一个寡聚核苷酸连接子,随后ncRNA
的5端也可通过T4RNA连接酶连接一个寡聚核苷酸
连接子,这些寡聚核苷酸连接子是已知序列的RNA
或DNA。处理过的ncRNA通过RT-PCR形成cDNA。
cDNA与载体连接,构建 cDNA文库。对文库
进行测序并对测序结果进行多方面分析,如通过
BLAST进行染色体定位、Northern 杂交分析ncRNA
的表达、原位杂交找出其在细胞和亚细胞的位置以
及分析ncRNA结合蛋白等。这些分析有助于发现新
的ncRNA种类并对其进行功能上的鉴定,如通过构
建特异性 c D N A 文库,M a r k e r 等 [ 1 9 ]在拟南芥
(Arabidopsis thaliana)中鉴定出 140个 ncRNA,包括
88个 snoRNAs、2个 7SL RNA、13个 U snRNAs
和 1个类 tRNA- RNA等,还有 29个在基因间隔区
域,3个在内含子区域,4个在ORFs的候选 ncRNA
分子。罗俊等[20]通过构建特异性的 cDNA文库,发
现并鉴定了新的贾第虫box H/ACAsnoRNA。同样的
技术也在黑腹果蝇(Drosophila melanogaster)[21]、真
菌(Archaeoglobus fulgidus)和古细菌(Sulfolobus
solfataricus)[22-23]、大肠杆菌(E. coli)[24-25]和嗜热菌
(Aquifex aeolicus)[26]中成功运用,均鉴定出了大量
的 ncRNA。
这种方法很灵敏,但逆转录酶转录时出错率较
高,同时由于RNA尤其是 tRNA和 rRNA的二级结
构和碱基的修饰会造成转录的提前终止,因此,这
种方法也有一定的局限性。
3 生物芯片分析
生物芯片技术也可用于 n c R N A 研究,如
Genetix的一系列微阵列产品,适用于 RNA干扰
(RNA interference)的研究,能有效筛选 siRNA;又
如在细菌中,绝大多数具有一定功能的ncRNA被编
码在基因间隔区域(IGRs)。第一个既包括编码区又
包括 IGRs的DNA芯片已用于对模式生物大肠杆菌
的研究,它不仅可分析出细菌所有的mRNA、tRNA
和 rR NA,而且还可分析出细菌中大于 40 bp 的
IGRs。因此,使用这种芯片不仅可分析细菌mRNA
的表达水平,还可特异性地分析来自细菌中 IGRs的
转录产物,如用来分析与大肠杆菌Hfq蛋白结合的
ncRNA[27]。
生物芯片技术也可用于鉴定真核生物中的
124 生命科学 第19卷
ncRNA,并可研究它们在不同组织中的表达。Inada
和Guthrie[28]利用生物芯片技术对酵母中与 La 蛋白
(Lhp1)结合的 ncRNA进行分析,发现了至少三种新
的H/ACA snoRNAs,它们存在于基因间隔区域,且
表达程度较高。设计好的生物芯片还可在真核生物中
搜索具有一定功能的 ncRNA,如提取存在于人、小
鼠和大鼠的3 478个基因内和基因间的ncRNA序列[29],
再设计出含这些序列的生物芯片。利用这些生物芯
片与野生型小鼠的 16种组织中分离出的 RNA进行
Northern杂交,检测出了 55种新 ncRNA,进一步
证实其中的 8种 ncRNA在小鼠所有组织中高表达,
更有趣的是,这些 ncRNA只有 5种在大鼠的组织中
表达,却没有一种在人类组织或培养的细胞中发
现,这 5种 ncRNA在大鼠和小鼠中的保守性表达可
能暗示它们在这两种生物中具有一定的功能而在人
类中缺乏这种功能。目前看来,利用生物芯片技术
来发现 ncR N As 是一条具有巨大潜力的新途径。
Bertone等[30]推出的Tiling芯片, 可以全面系统地研究
基因组转录的所有 RNA分子,这一技术已在人[31-32]
和大肠杆菌[33]等基因组里成功运用。
4 基因组 SELEX技术(genomic systematic evolution
of ligands by exponential enrichment)
许多ncRNA在生命过程的不同时期常形成核糖
核酸蛋白颗粒(RNPs),与ncRNA结合的蛋白质起着
帮助 ncRNA折叠成它的活性形式,或在 ncRNA起
作用前防止核酸酶的分解等作用,还有一些蛋白质
与ncRNA的相互作用则直接调节着两者的行为。基
因组SELEX技术是利用分子生物学技术,构建人工
合成的某一个生物体基因组的单链随机 RNA文库,
其中随机序列长度在 20- 40 nt。单链随机 RNA片
段易形成发卡、口袋、假节、G- 四聚体等二级结
构,能与蛋白质结合,形成具有很强结合力的复合
物。利用这一原理,将随机 RNA文库与 ncRNA结
合蛋白相互作用,洗脱筛选出特异寡核苷酸配基
(aptemer),经 RT-PCR及体外转录生成新的次一级
文库,再与该靶蛋白结合。反复数个循环,即可
筛选出能与ncRNA结合蛋白特异结合的寡核苷酸片
段。该片段的序列一旦被确定,就可获得在基因组
中的相应位置,可检测出有可能进行某种ncRNA表
达的区域。基因组SELEX技术已成功的运用于挑选
与特异蛋白结合的mRNA。近来, Schroeder实验室
已经利用这种方法来鉴定大肠杆菌中的与Hfq蛋白
结合的 ncRNA,并初步鉴定出了大量的 ncRNA,
如反义RNA 和一些存在于基因间区域的候选ncRNA
分子 [ 3 4 ]。
5 质谱法(mass spectrometry)
质谱法可对复杂的混合物进行快速而灵敏的分
析,并有相当大的自动化操作过程。目前主要有
MALDI质谱法(matrix-assisted laser desorption ioniza-
tion mass spectrometry)、ESI质谱法(electrospray ion-
ization mass spectrometry)和质谱联用法(MS/MS)。
在对RNA的研究中,它们可用来对RNA进行测序,
如用ESI、MS/MS法测序或用酶和化学方法对RNA
进行消化后产生序列梯度,然后用MALDI质谱法进
行测序,如对嗜水气单胞菌(Aeromonas hydrophila)
16 S rRNA进行的测序[35]。由于碱基U和 C的相对
分子质量只有 1的区别,使RNA测序的最大长度有
一定限制,一般 10- 20个 nt的寡核苷酸片段用这
些方法是很精确的,如对一种长的 RNA要精确测
序,必须先消化后再多次测序。质谱法还可对转录
后RNA的修饰进行检测,它主要是通过对修饰后的
RNA与预期的RNA质量进行比较得到一个修饰后的
增量,对增量进行分析可检测其修饰,同时也可对
RNA 3D结构和 RNA与蛋白质的相互作用进行分
析,如MS 3D技术已成功用于对HIV-1的RNA 3D
结构和HIV-1病毒装配时RNA与蛋白质的相互作用
分析[36]。当然这种技术也可用于对 ncRNA的分析,
如对 tRNA和 rRNA结构的分析。
6 功能性的RNA组学方法——RNA鉴定后技术
ncRNA的鉴定仅仅是作为对它们功能解释的第
一步,要进一步阐明其功能,可采用以下几种方
法:(1)大多数具有一定功能的 ncRNA是 RNPs的组
成部分,鉴定后的ncRNA可用来捕获细胞抽取物中
的ncRNA结合蛋白,对蛋白质结构和成分的分析可
能揭示出 RNPs的功能,因为有些蛋白质可能含有
我们已了解的具有催化活性的区域。(2)迄今为止有
许多已被鉴定的ncRNA能通过反义机制结合特异的
靶 RNA,靶 RNA包括mRNA或别的 ncRNA,如
rRNA、snRNA、tRNA等,对靶 RNA的分析有助
于了解 ncRNA的功能。(3)对 ncRNA表达模式的分
析也有助于对其功能的了解。ncRNA或 RNPs在细
胞或亚细胞中的位置,如存在于核仁、核或细胞质
中,也许能提示这种 ncRNA或RNPs可能涉及在这
些细胞间隔区域里所起的作用,荧光标记技术可对
所要研究的 ncRNA进行定位[37]; 又如,对来自不
同组织或发育时期的细胞总 RNA进行Northern杂
125第2期 肖章奎,等:ncRN A研究技术进展
交,可分析ncRNA组织特异性或不同发育时期的表
达,从而间接分析其功能。(4)基因敲除方法可用于
验证 ncRNA的功能。对于某些模式生物如大肠杆
菌,基因敲除常在几天内就可完成[38-39],但对绝大
多数其他生物体说,传统的基因敲除技术耗时较长。
近来,RNA干扰可用于快速的 ncRNA敲除[40-41],但
是 RNAi靶向 ncRNA的作用机制还没有完全弄清
楚,近来证实化学修饰的反义miRNA能用于某种
miRNA种类的敲除[42]。
7 展望
以上这些技术手段各有其优缺点,随着各种技
术手段的不断改进和更新,对ncRNA基因进行识别
及其结构和功能研究,有可能发现新的ncRNA基因
及其在基因表达调控中的作用,从而使人们对基因
组的结构与功能的理解登上一个新的台阶。
[参 考 文 献]
[1] 秦云霞, 田 娥, 刘志昕, 等. 非编码RNA及其研究进展.
生物技术通报, 2004, 5: 9-12
[2] http://lowelab.ucsc.edu/tRNAscan-SE/
[3] http://lowelab.ucsc.edu/snoscan/
[4] http://lowelab.ucsc.edu/snoGPS/
[5] http://genes.mit.edu/mirscan/
[6] http://www.scripps.edu/mb/case/casegr-sh-3.5.html
[7] http://tagc.univ-mrs.fr/erpin/
[8] http://www.ba.itb.cnr.it/BIG/PatSearch/
[9] www.genetics.wustl.edu/eddy/software/
[10] Rivas E, Klein R J, Jones T A, et al. Computational identifi-
cation of noncoding RNAs in E. coli by comparative genomics.
Curr Biol, 2001, 11: 1369-1373
[11] 贺华良, 周 惠, 肖振东, 等. 果蝇 3个新的小分子非编
码RNA的鉴定. 科学通报, 2006, 51(20): 2393-2398
[12] Donis-Keller H, Maxam A M, Gilbert W. Mapping adenines,
guanines, and pyrimidines in RNA. Nucleic Acids Res, 1977,
4: 2527-2538
[13] Yarus M, Barrell B G. The sequence of nucleotides in tRNA
Ile from E.coli. Biochem Biophys Res Commun, 1971, 43:
729-734
[14] Brownlee G G, Cartwright E, McShane T, et al. The nucle-
otide sequence of somatic 5S RNA from Xenopus laevis.
FEBS Lett, 1972, 25: 8-12
[15] Ehresmann C, Stiegler P, Carbon P, et al. Recent progress in
the determination of the primary sequence of the 16S RNA
of Escherichia coli. FEBS Lett, 1977, 84: 337-341
[16] Balakin A G, Smith L, Fournier M J. The RNA world of the
nucleolus: two major families of small RNAs defined by
different box elements with related functions. Cell, 1996,
86: 823-834
[17] Pichon C, Felden B. Small RNA genes expressed from Sta-
phylococcus aureus genomic and patho-genicity islands with
specific expression among pathogenic strains. Proc Natl Acad
Sci USA, 2005, 102: 14249-14254
[18] Trotochaud A E, Wassarman K M. A highly conserved 6S
RNA structure is required for regulation of transcription.
Nature Struct Mol Biol, 2005, 12: 313-319
[19] Marker C, Zemann A, Terhorst T, et al. Experimental
RNomics: identification of 140 candidates for small non-
messenger RNAs in the plant Arabidopsis thaliana. Curr
Biol, 2002, 12: 2002-2013
[20] 罗 俊, 周 惠, 陈重建, 等. 贾第虫 4种新的 box H/
ACAsnoRNA的鉴定及其进化意义. 科学通报, 2006, 51
(17): 2018-2023
[21] Yuan G H, Klambt C, Bachellerie J P, et al. RNomics in
Drosophila melanogaster: identification of 66 candidates for
novel non-messenger RNAs. Nucleic Acids Res, 2003, 31:
2495-2507
[22] Tang T H, Bachellerie J P, Rozhdestvensky T, et al. Identi-
fication of 86 candidates for small non-messenger RNAs
from the archaeon Archaeoglobus fulgidus. Proc Natl Acad
Sci USA, 2002, 99: 7536-7541
[23] Tang T H, Polacek N, Zywicki M, et al. Identification of
novel non-coding RNAs as potential antisense regulators in
the archaeon Sulfolobus solfataricus. Mol Microbiol, 2005,
55: 469-481
[24] Vogel J, Bartels V, Tang T H, et al. RNomics in Escherichia
coli detects news RNA species and indicates parallel tran-
scriptional output in bacteria. Nucleic Acids Res, 2003, 31:
6435-6443
[25] Kawano M, Reynolds A A, Miranda-Rios J, et al. Detection
of 50- and 30-UTR-derived small RNAs and cis-encoded
antisense RNAs in Escherichia coli. Nucleic Acids Res,
2005, 33: 1040-1050
[26] Willkomm D K, Minnerup J, Huttenhofer A, et al. Experi-
mental RNomics in Aquifex aeolicus: identification of small
non-coding RNAs and the putative 6S RNA homolog. Nucleic
Acids Res, 2005, 33: 1949-1960
[27] Zhang A X, Wassarman K M, Rosenow C, et al. Global
analysis of small RNA and mRNA targets of Hfq. Mol
Microbiol, 2003, 50: 1111-1124
[28] Inada M, Guthrie C. Identification of Lhp1p-associated
RNAs by microarray analysis in Saccharomyces cerevisiae
reveals association with coding and noncoding RNAs. Proc
Natl Acad Sci USA, 2004, 101: 434-439
[29] Babak T, Blencowe B J, Hughes T R. A systematic search
for new mammalian non-coding RNAs indicates little con-
served intergenic transcription. BMC Genomics, 2005, 6:
104
[30] Bertone P, Gerstein M, Snyder M. Applications of DNA
tiling arrays to experimental genome annotation and regula-
tory pathway discovery. Chrom Res, 2005, 13: 259-274
[31] Kapranov P, Drenkow J, Cheng J, et al. Examples of the
complex architecture of the human transcriptome revealed
by RACE and high-density tiling arrays. Genome Res, 2005,
15: 987-997
[32] Cheng J L, Kapranov P, Drenkow J, et al. Transcriptional
maps of 10 human chromosomes at 5-nucleotide resolution.
Science, 2005, 308: 1149-1154
126 生命科学 第19卷
[33] Selinger D W, Cheung K J, Mei R, et al. RNA expression
analysis using a 30 base pair resolution Escherichia coli
genome array. Nat Biotechnol, 2000, 18: 1262-1268
[34] Huttenhofer A, Vogel J. Experimental approaches to iden-
tify non-coding RNAs. Nucleic Acids Res, 2006, 34: 635-646
[35] Ni J, Pomerantz S C, Rozenski J, et al. Interpretation of
oligonucleotide mass spectra for determination of sequence
using electrospray ionization and tandem mass spectrometry.
Anal Chem, 1996, 68: 1989-1999
[36] Yu E, Fabris D. Direct probing of RNA structures and RNA–
protein interactions in the HIV-1 packaging signal by chemi-
cal modification and electrospray ionization Fourier trans-
form mass spectrometry. J Mol Biol, 2003, 330: 211-223
[37] Vitali P, Basyuk E, Le Meur E, et al. ADAR2-mediated
editing of RNA substrates in the nucleolus is inhibited by C/D
small nucleolar RNAs. Cell Biol, 2005, 169: 745-753
[38] Datsenko K A, Wanner B L. One-step inactivation of chro-
mosomal genes in Escherichia coli K-12 using PCR products.
Proc Natl Acad Sci USA, 2000, 97: 6640-6645
[39] Yu D G, Ellis H M, Lee E C, et al. An efficient recombination
system for chromosome engineering in Escherichia coli. Proc
Natl Acad Sci USA, 2000, 97: 5978-5983
[40] Willingham A T, Orth A P, Batalo S, et al. A strategy for
probing the function of noncoding RNAs finds a repressor
of NFAT. Science, 2005, 309: 1570-1573
[41] Nakamoto M, Jin P, O’Donnell W T, et al. Physiological
identification of human transcripts translationally regulated
by a specific microRNA. Hum Mol Genet, 2005, 14: 3813-
3821
[42] Krutzfeldt J, Rajewsky N, Braich R, et al. Silencing of
microRNAs in vivo with ‘antagomirs’. Nature, 2005, 438:
685-689
上海药物所计算生物学研究取得重要进展
上海药物所药物发现与设计中心(DDDC)近年来在计算生物学、计算化学和药物设计研究方面取得了可
喜的成绩,相关研究成果分别在《美国科学院院刊》(PNAS)、《美国化学会志》( J AC S)、《核酸研究》
(NAR)、《生物化学杂志》(J BC)、《分子生物学杂志》( JMB)、《美国化学会药物化学杂志》( JMC)等国
际一流刊物上发表。最近,中心研究人员在蛋白质-蛋白质相互作用及其网络预测方法学发展方面取得重
要进展。蒋华良研究员带领学生张健和沈菊文等经过两年努力,发展仅根据蛋白质的序列即可预测蛋白质
-蛋白质相互作用的新理论预测方法。研究结果于 2007年 3月 5日发表在《美国科学院院刊》(PNAS)在
线版上(http://www.pnas.org/papbyrecent.shtml)。
蛋白质-蛋白质相互作用(PPI)决定着从转录调节到酶级连反应的几乎所有的生物功能,这方面的研究
具有重要的科学价值和应用前景。然而,目前的实验方法,如 GST pull down和免疫共沉淀方法的通量
还不足以满足蛋白质组相互作用网络研究的需要,酵母双杂交测定 PPI的速度虽快,但精度不够。因此,
发展理论方法在基因组水平上预测 PPI及其相互作用网络,对功能基因组研究具有十分重要的意义,也是
目前生命科学的前沿领域,为此Nature Biotechnology等杂志专门设立了计算生物学(Computational Biology)
栏目。目前大多数蛋白质-蛋白质相互作用预测方法需要同源蛋白信息或者蛋白相互作用标识物信息,这
类方法能应用的范围有限,不能对一般化的蛋白质-蛋白质相互作用给出较好预测结果,更不能应用于大
规模 PPI网络的预测。
蒋华良研究员等发展的方法是支持向量机算法—— 一种机器学习算法。他们首先将 20种氨基酸根据
极性和大小分成 7类,并用连续的三个氨基酸作为一个单位(三联子)来描述蛋白质序列,以降低蛋白质相
互作用空间的复杂性;他们还发展了新的内核函数,该函数考虑了蛋白相互作用的对称性,因此比现有
支持向量算法的内核函数更适合于表征蛋白质-蛋白质的相互作用;然后他们用超过 16 000对实验测定的
蛋白质-蛋白质相互作用结果构造了通用性 PPI预测模型。他们方法的预测精确性大于 80%,并能用于不
同类型 PPI网络的预测,意味着即使只获得蛋白质序列信息,他们的方法依然能够用于任意新蛋白的功能
研究或预测老蛋白质的新功能。蒋华良研究员等发展的蛋白质-蛋白质相互作用方法为蛋白质功能研究提
供了较好的理论工具,是计算生物学研究领域的重要进展。同时他们的方法也可能应用于设计新的药物,
即设计新的化合物或蛋白质调控蛋白质相互作用网络,而不是抑制或激动单一的靶标蛋白。
摘自 http://www.sibs.ac.cn
·简讯 ·