免费文献传递   相关文献

生物信息学中途径研究进展



全 文 :生物技术通报
BIOTECHNOLOGY BULLETIN·综述与专论· 2008年第1期
收稿日期:2007-09-25
作者简介:刘蓉(1982-),女,在读硕士研究生,研究方向:计算机网络
1 生物信息学中途径的发展背景
伴随着人类基因组计划的启动,生物信息学这
一新兴交叉学科的蓬勃发展,目前已经产生了大量
的以核酸和蛋白质等生物大分子数据库及其相关
的文献、资料图书。从 1994年开始,《核酸研究》杂
志每年第一期是生物数据库专辑[1]。国际上 3大核
苷酸、蛋白质数据库分别是:美国国家生物技术信
息中心(NCBI)的 GenBank数据库、欧洲生物信息
学研究所(EBI)的核酸序列数据库 EMBL和日本信
息生物学中心(CIB)的 DNA数据库 DDBJ。随着生
物信息数据库的不断发展,生物信息学的研究方向
划分的越来越细致,代谢途径研究则成为其中的一
个研究热点。途径作为一条维持生命的分子反应
链,不同的生命过程有不同的途径。比如细胞对外
界环境变化响应的途径、细胞代谢、凋亡途径和信
号途径。一条途径功能的中断可能引起严重的疾
病,如癌症。由多条途径整合起来可形成蛋白质和
基因的调控网络。因此,理解途径是理解细胞过程
和细胞过程药物的重要步骤。目前对于途径的研究
已经成为一个非常活跃的领域。
2 途径数据库的研究状况
2.1 代谢途径和生物化学数据库
Internet技术近 20年的迅速发展和普及,建立
了一个极为庞大的广域信息网络系统。这无疑为生
物信息学这一新兴领域的产生和发展奠定了坚实
的基础[2]。随着实验生物学的迅猛发展,特别是科
学家完成了包括人类自身在内的 60种生物的全基
因组测序,产生了大量的数据信息。计算机科学家
和生物信息学家通过数据库的构建和维护为生物
学家提供服务数据库已经成为一切生物信息学工
作的出发点。各种数据库的产生也势在必行。目前
常用的代谢途径和生物化学数据库,如表 1所示。
不同数据库的数据描述和收集方法,还有相关
开发工具等都可以在相关的网站中查阅,用户可以
根据自己的需要来进行选择。它们不仅仅是代谢途
径和生物化学数据库的列表,而且包括了一些相关
的注释和附加证据等,这些资源将为开发新的算法
和验证已有的算法提供材料。通常情况下,各数据
库对学术用户支持免费的下载和服务。
2.2 途径数据库
生物信息学中途径研究进展
刘蓉 刘军万
(中南林业科技大学计算机科学学院,长沙 410004)
摘 要: 叙述了生物信息学中途径的研究背景;综述了近几年来相关途径及生物化学数据库及其特点;介绍了有
关的途径分析方法。同时对于途径研究应用作了展望。
关键词: 生物信息学 代谢途径 信号途径 基因网络 数据库
AdvancesintheResearchofPathwaysinBioinformatics
LiuRong LiuJunwan
(SchoolofComputer,SouthCenterUniversityofForestScienceandTechnology,Changsha410004)
Abstract: Thisarticleintroducedtheresearchbackgroundofpathwaysinbioinformatics;Summarizedthedatabases
ofcorelatedpathwaysandbiochemistryandgeneralizedthecharacters;Discusedsomemethodsofpathwaysanalysis.At
thesametime,madeprospectoftheinvestigationapplicationsofpathways.
Keywords: BioinformaticsMetabolicpathwaysSignalpathwaysGenenetworksDatabase
生物技术通报Biotechnology Buletin 2008年第1期
大肠杆菌基因和代谢机制的百科全书[3],即 Eco
Cyc数据库。数据库中描述了大肠杆菌的 3030个
基因,695个由这些基因编码的酶,595个发生在大
肠杆菌上的代谢作用反应,以及由这些反应组织成
的 123个代谢作用途径。EcoCyc图形用户界面允许
科学家使用如基因组映射浏览器和代谢作用途径
的自动规划查询的查看工具来查询和浏览此数据
库。
KEGG[1~49],京都基因与基因组百科全书(Kyoto
EncyclopediaGenesandGenomes),它包含核酸分
子、蛋白质序列、基因表达、基因组图谱、代谢途径
图等。它是按照分子或基因的相互作用的二元关系
来计算基因或基因组的功能来进行组织的。
SMILES是一个辅助性数据库[1],它搜集与代谢
途径有关的化合物名称。
数据库 GeneCensus[4],是帮助研究者们观察后
基因组世界的一个新型工具。它是根据代谢作用途
径的活性和蛋白质家族共享来进行基因组比较,其
中提出了按照活性水平来进行分子的整个途径的
分析。它为研究者们提供了许多层面的信息。
Reactome[5]是一个关于人类生物学过程的途径
知识库。Reactome数据库的基本单元就是反应;这
些反应然后被整合成因果链进而形成途径。Reacto
me数据模型允许我们描绘人类系统中许多不同的
过程。这个数据库已经使传统数据的访问和生物学
专家提供的注释访问成为可能,并且允许我们观察
和调查研究交互式的处理图,这个处理图来源于已
经完成的数据集。这个数据库在开放资源下是公共
可利用的。
MetaCyc[1,6]是对微生物和植物途径进行基因组
分析和系统生物学的一个易访问的可比较资源。这
点与 EcoCyc数据库类似。MetaCyc包含代谢作用途
径,酶的反应,酶,化合物,基因和回顾的注释。其中
的数据主要是从一级文献中由具有丰富经验的生
物化学专家和分子生物专家来制作的。SRI和欧洲
生物信息学研究院采用这个数据库创建了 165个
生物体的途径/基因组数据库。这个数据库也包含
预测的操作子和途径漏洞填补器。
TRANSPATH[7]是一个关于信号转换事件的数
据库。它提供了关于信号分子,分子的反应以及由
这些反应构成的途径的相关信息。TRANSPATH的
目标是提供信号转导途径信息,并且它所呈现的转
导途径信息是从反应的不同提取层得到的。与
Reactome或 KEGG中的信号部分相比,TRANSPATH
的目标可称之为其特殊优点。另外 TRANSPATH在
信号反应和途径方面有很好的信息资源覆盖面。
Pathguide[8]是一个能提供超过 190个网络可访
问生物学途径和网络数据库的后数据库。它包括关
于代谢途径、信号途径、转移因子目标、基因调整网
表 1 代谢途径和生物化学数据库
84
2008年第1期
络、基因相互作用、蛋白质化合物相互用以作及蛋
白质间的相互作用的数据库。Pathguide作为生物学
途径分析的起始点是非常有用的,在整合生物学信
息系统中内容聚合上也非常有用。Pathguide中的数
据库(图 1)。
pSTING[9]是一个新的公共可访问的基于 web
的应用程序和数据库,是关于整合信号途径,炎症
和癌症中相互作用和转移调整网络的“系统”方法。
3 途径的其它相关工具和资源分析及利用
除了在代谢途径数据库方面的研究外,关于代
谢途径和信号途径及其它途径的分析工具也有很
大的进展。
WIT(WhatIsThere),是美国阿公(Argonne)国
家实验室的一个集成的重构代谢途径和模型的系
统[1]。它允许在网页上交互式地进行大量基因组序
列的分析和建立模型,对代谢途径、酶、模型、操作
子提出查询。WIT2是其新版本。EMP[1]是酶与代谢
途径(EnzymesandMetabolicPathways)的缩写。而
MPW(MetabolicPathways)数据库,是 EMP库的一个
子集。
由 BoehringerMannheim公司提供的代谢途径
图[1],与大型地图类似,它分别以字母和数字标识
途中小块。各种酶和反应物的盘根错节关系,现在
可以分块显示在屏幕上,并且上下左右跟踪。
pathDB系统[1],由美国国家基因组资源中心(Na
tionalCenterforGenomeResources)发展和维护的这
个生物化学和功能基因组学工具系统,基于
PathDB代谢途径数据库,由查询工具 QueryTool、代
谢途径显示程序 PathwayViewer和新途径分析工具
DiscoveryTool等部分组成。
CSNDB,即细胞中信号网络的数据库 [1](Cel
SignalingNetworksDataBase)。日本国立健康科学研
究所建立的这个数据库,是人类细胞中信号途径的
数据和知识库。它汇编了有关信号传输的生物分
子、序列、结构、功能和生物化学反应,并可自动绘
图表示信号途径。
生物信息学在模式生物数据库中要求可再度
利用的软件工具,路经/基因组数据库[10]这种模式
生物数据库就是一个可再度利用的产品性质的软
件环境。此数据库整合了人们对基因、蛋白质、代谢
途径网络和生物体的基因网络的理解。此途径工具
的 4个主要组件的大致功能为:病理学组件支持在
一个生物体注释基因组中新的途径/基因组数据库
的创建。途径/基因组导航器提供途径/基因组数据
库的查询,查看和网上发布服务。途径/基因组编辑
器支持途径/基因组数据库的交互式更新。途径工
具本体论定义途径/基因组数据库的方案。
在文献[11]中提出了在丢失酶的情况下的贝叶
斯方法。在填补途径或基因组数据库中途径漏洞
中,使用一系列序列编码在其它基因组中所要求的
活动,以此来识别所感兴趣的基因组中的候补蛋白
质,然后通过一个简单的贝叶斯分类器来评估每个
候补者,以此来决定候补者拥有所要求功能的概
率。在 3个途径或基因组数据库中的 333条途径中
的 513个途径漏洞中采用了我们的方法后,完成的
途径数据提高了 42%。
关于新陈代谢的知识可以用包含上千个节点
(化合物和反应)的网络来表示。已经有学者应用图
论来分析这个网络的拓扑属性,并通过途径拓荒来
推断代谢作用的途径。然而,这种方法并不是很直
接,因为其将不相关捷径通过高连结性节点来研
究。而那些高连结性节点相对应的是公共代谢物和
多因素(如 H2O,NADP和 H+)。基于这种方法,我们
提出了改进策略。即通过实现两个简单方法的网络
服务器[12]来解决上述问题。
图 1 在 pathguide中 40个最大的数据库[8]
5个主要的数据库种类(图例符号)在图中最大的前 40个中
表示了出来,有多个种类的数据库只是用一个符号来表示
刘蓉等:生物信息学中途径研究进展 85
生物技术通报Biotechnology Buletin 2008年第1期
与 MetaCyc这个包含很多生物体的代谢数据
相比,AraCyc[13]是一个仅包含模式生物 Arabidopsis
的酶和途径的单一物种的数据库。AraCyc是来源于
MetaCyc的第一个计算预测的植物新陈代谢数据
库。AraCyc中的途径预测中关于 Arabidopsis基因的
功能注释已经得到更新,这些注释来自于受约束的
词表和文献证据。AraCyc当前已经在 1156种文献
引用中有1418个独特的基因映射到204条途径上。
尽管高通量表达数据的产生越来越常规化,但
对这些数据的方便、快捷且系统的呈现和分析在生
物学的研究中却有了障碍。为了满足这种需求,文
献[14]开发了 PathwayExplorer,它能够将基因或蛋白
质的表达形式映射到一定的途径上。
PUMA2系统[15]是一个从序列数据中进行高通
量遗传序列分析和代谢作用途径重构的一个交互
式且综合性的生物信息环境。PUMA2为基因组数
据和代谢途径网络提供了一个可比较的且具有进
化功能的分析框架,这些基因组数据和代谢途径网
络是与分类学和表性信息有上下关系的。KEGG,
MetaCyc这些出色的资源都对基因组和代谢作用重
构提供了高通量分析。尽管 PUMA2与以上几个系
统有许多公共点,它也有其独特的特点。
一个基于 WEB的用户界面的和增强功能性的
KOBAS服务器[16]。可以支持有核苷或氨基酸序列的
输入,或支持在流行数据库中通过序列识别器的输
入。此服务器还可以通过 BLAST序列相似性或直
接将 ID映射到有已知注释的基因上,进而来注释
带有(KOKEGGOrthology)的术语和 KEGG的途径。
然后这个服务器通过提供 4个统计测试选择和多
重测试修正的选择,这样不仅可以识别频繁出现的
途径还可以识别统计上比较多的途径。
预测代谢作用途径的网络服务器 Path-A[17]利用
机器学习和序列分析技术(如,支持向量机,BLAST和
隐马尔科夫模型)来预测途径。每一个机器学习分
类器开发了在其模式生物和查询序列集的序列之
间的相似性。它还预测了呈现在查询生物体的途
径,并且注释了每一个预测的反应和催化剂。Path-
A也为模式生物的途径提供了可浏览和可查询的
数据库,这有助于途径的预测。Path-A的预报器集
合(采用不同的分类器技术)已经得到确认,这是通
过在 13个模式生物中的 10个代谢作用途径的数
据集上采用标准的确认技术来完成的。尽管 Path-A
当前只支持代谢作用途径,人们正在研究的预测技
术对于其它的途径类型将可以得到应用。因此,扩
展 Path-A来预测其它类型的途径将是我们努力的
方向,这些途径类型包括信号途径。
文献[18]中介绍了对弧菌霍乱的可预测代谢作
用途径的证据支持。弧菌霍乱能够在 24h内就可以
杀死一个受感染的成年人。对它的代谢作用途径更
好的理解将有助于对这种病状的有效治疗。使用完
全的弧菌霍乱菌基因组序列和病理学软件,我们制
作了 VchoCyc,一个预测了在细菌中 171个相似代
谢作用途径的途径-基因组数据库。VchoCyc为生
物学家提供了分析这种代谢作用和基因组信息的
有用工具,这些工具能够引领他们将潜在的洞察力
到新的反细菌的研究上。
4 代谢途径研究的展望
功能基因组学和蛋白质组学的快速发展,为解
决生物技术中的众多迫切问题搭建了一个平台。对
生物体的基因和代谢途径进行方便的目的性操作,
与计算机能力的空前提高相结合,为生物技术的新
领域——代谢工程的发展打开了方便之门。这个新
兴的研究领域以代谢途径和基因网络为研究对象[19]。
通过研究代谢途径和基因网络,人们可以在工
业规模上调控培养微生物以生产能源(如酒精)、有
机溶剂、胶质和色素等。在食品工业中常用的防腐
剂(如柠檬酸),借助于代谢途径及基因网络的研究
应用,目前微生物生产柠檬酸的产量已达每年几十
万吨。在医药工业上可以利用微生物生产维生素、
氨基酸、脂类、酶和抗生素的前体。对于代谢途径的
研究,还仅仅处于初步研究的阶段,采用系统生物
学的方法来解决生物系统的问题将成为一个挑战。
总之,代谢工程为人们描绘了一个不同的研究前
景,提供了一个崭新的思维方式。对代谢途径的研
究将带来很大的经济利益和社会效益。
参考 文献
1 郝柏林,张淑誉.生物信息学手册.上海:上海科学技术出版社,
164~166.
2 蒋彦,王小行,曹毅,等.基础生物信息学及应用.北京:清华大
学出版社,2003,1~25.
86
2008年第1期
究水平还未与国际接轨有很大关系。当前,我国对
于蛋白质组学的研究还处于初级阶段,对于蛋白质
的专利保护,我国的专利《审查指南》将蛋白质与基
因一样视为一种化学物质加以专利保护,尚没有关
于蛋白质组学领域中最重要的蛋白质三维结构的
专利审查指南。随着近几年我国在该研究领域的快
速发展,特别是一些蛋白质组学研究领域已达到国
际先进水平的情况下,开展蛋白质组学的知识产权
保护特别是专利保护研究显得尤为重要。此外,蛋
白质组学作为当代生命科学重要的前沿内容,知识
产权保护特别是专利保护对其快速健康发展必将
显示出越来越重要的作用。特别是当前我国已进入
“十一五”发展规划阶段,而该阶段国家将“自主创
新”作为发展的总体原则,其中开发具有自主知识
产权的创新成果是其重要内容。对于目前处在世界
科技前沿的蛋白质组学研究领域,较好的应用知识
产权保护策略特别是专利保护策略对其进行保护
将对我国蛋白质组学的发展起到极大的推动作用,
并对加速我国生命科学领域与国际接轨及提高生
命科学研究在“十一五”期间对我国国民经济的促
进作用具有重要的现实意义。
参考 文献
1 HeQY.JCelBiochem,2003,88(1):1~8.
2 WilkinsMR.Biotechnology,1996,14:61~65.
3 李明珠,张部昌,黄留玉.生物技术通讯,2005,16(1):93~95.
4 李倩,廖尚英.生物学通报,2004,39(11):15~17.
5《2002年中国生物技术发展报告》,htp:/www.cncbd.org.cn/nian
bao/2002/index.html
6 KealaChan,DenisFernandez.SantaClaraComputerandHighTech-
nologyLawJournal,2003,19(2):457~470.
7 JainKK.Pharmacogenomics,2004,5(3):331~336.
8 ChambersG,LawrieL,CashP.JPathol,2000,192:280~288.
9 吴永英,徐德昌,王专,等.生物信息学,2005,3:89~92.
10 CarterMD.JBiomolTech,2004,15(4):257~264.
11 TemplinMF,StolD,SchwenkJM.Proteomics,2003,3:2155.
12 王进科,白云飞,李同祥.中国医学生物技术应用,2002,2:5.
13 陈姗.肾脏病与透析肾移植杂志,2005,14(1):52~58.
14 魏衍亮,生物技术的专利保护研究.北京:知识产权出版社,
2004.
15 ItsukiShirabo,RieNakajima,ShigeyukiYokoyama.NatureBiotech
nology,2004,22(1):109~112.
16 陈红.电子知识产权,2002,1:58~61.
17 李士林,郑友德.科技与法律,2003,1:60~67.
18 HuS,DovichiNJ.AnalChem,2002,74:2833~2850.
19“中科院光学多元蛋白质芯片国际领先”,htp:/www.ec.com.cn/
pubnews/2005_12_13/100078/1121999.jsp
3 PeterDKarp,MonicaRiley,MiltonSaier,etal.NucleicAcidsResearch,
2002,30(1):56~8.
4 JLin,JQian,DGreenbaum,etal.NucleicAcidsResearch,2002,30
(20):4574~4582.
5 GJoshi-Tope,MGilespie,IVastrik,etal.NucleicAcidsResearch
(Databaseissue),2005,33:428~432.
6 RonCaspi,HartmutFoerster,CarolA,etal.NucleicAcidsResearch
(Databaseissue),2006,34:511~516.
7 MathiasKrul,SusannePistor,NicoVoss,etal.NucleicAcids
Research(Databaseissue),2006,34:546~551.
8 GaryDBader,MichaelPCary,ChrisSander.NucleicAcidsResearch
(Databaseissue),2006,34:504~506.
9 AylwinNg,BorisasBursteinas,QiongGao,etal.NucleicAcids
Research(Databaseissue),2006,34:527~534.
10 PeterDKarp,SuzannePale,PedroRomero.Bioinformatics,2002,
18(1):225~232.
11 MicheleLGreen,PeterDKarp.BMCBioinformatics,2004,5:76.
12 DidierCroes,FabianCouche,ShoshanaJ,etal.NucleicAcids
Research(WebServerissue),2005,33:326~330.
13 PerfenZhang,HartmutFoerster,ChristopheP,etal.PlantPhysiol,
2005,138:27~37.
14 BernhardMlecnik,MarcelScheideler,HubertHackl,etal.Nucleic
AcidsResearch(WebServerissue),2005,33:633~637.
15 NataliaMaltsev,ElizabethGlass,DinanathSulakhe,etal.Nucleic
AcidsResearch(Databaseissue),2006,34:369~372.
16 JianminWu,XizengMao,TaoCai,etal.NucleicAcidsResearch
(WebServiceissue),2006,34:720~724.
17 LucaPireddu,DuaneSzafron,PaulLu,etal.NucleicAcidsResearch
(WebServerissue),2006,34:714~719.
18 JingShi,PedroRRomero,GaryKSchoolnik,etal.NucleicAcids
Research,2006,34(8):2438~2444.
19 内斯托尔 V托雷斯,埃伯哈德 O沃伊特.代谢工程的途径分
析与优化.北京:化学工业出版社,2005,2~56.
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
(上接第82页)
刘蓉等:生物信息学中途径研究进展 87