全 文 :技术与方法
生物技术通报
BIOTECHNOLOGY BULLETIN 2011年第 1期
KEGG数据库在生物合成研究中的应用
韩增叶 田平芳
(北京化工大学生命科学与技术学院,北京 100029 )
摘 要: KEGG( Kyoto Encyc loped ia o f Genes and Genom es)提供了一个操作平台, 即以基因组信息 ( GENES)和化学物质
信息 ( L IGAND)为构建模块, 通过代谢网络 ( PATHWAY)将基因组和生物系统联系起来, 然后根据功能等级进行归纳分类
( BR ITE)。KEGG还为各种组学研究提供相关软件, 用于代谢途径重建、遗传分析和化合物比对。作为一个综合数据库,
KEGG不仅指导生物燃料、药物和新材料等生物基化学品的合成, 而且致力于研究日趋严重的环境问题。系统介绍了 KEGG
数据库的结构、功能及其相关工具的最新进展, 并展望在生物合成中的应用前景。
关键词: KEGG 基因 化合物 代谢途径 生物合成
Applications of KEGG Database in Research of Biosynthesis
H an Zengye T ian P ingfang
(College of L ife Science and T echnology, B eijing University of Chem ical T echnology, Beijing 100029)
Abstrac:t KEGG set a stage for bio log ists to accom plish reprogramm ing cell behav io r or even crea ting a novel o rganism. KEGG
basica lly consists o f four daughter da tabases: GENES, L IGAND, PATHWAY, and BRITE. GENES is a co llection of gene ca talogs for all
comp le te g enom es and som e partia l genomes. L IGAND cove rs both endogenous and exogenous chem ica l substances. PATHWAY pro
v ides m o lecular interaction netw orks such as pathw ay s and m o lecular comp lexes. BR ITE is an onto logy database representing functiona l
h ierarch ies of va rious b io log ical objects. In addition, KEGG prov ides ana ly sis too ls for om ics research, includ ing m etabo lic pathw ay re
construction, gene tic ana lysis, and comparison o f chem ical com pounds. A s a comprehensive da tabase, KEGG not only gu ides the bio syn
thesis o f biobased chem icals, such as biofue ls, drugs or nove l biom ate rials, but a lso illum ina tes our perception o f pressing env ironm en
ta l issues. In th is paper, the KEGG com position, function, and re levant softw arew ere rev iew ed and its potential u tilizations in biosynthe
sis w ere a lso tentativ ely env isioned.
Key words: KEGG Gene Com pound M etabo lic pa thway B iosynthes is
收稿日期: 20100525
基金项目:国家自然科学基金项目 ( 20876009)
作者简介:韩增叶,男,硕士研究生,研究方向:分子生物学; Em ai:l hanzengye@ 163. com
通讯作者:田平芳,男,博士,副教授,研究方向:合成生物学; Em ai:l t ianp@f m ai.l buct. edu. cn
如何使细胞和有机体在计算机上完整地表达和
演绎,是后基因组时代的重大挑战。为此诞生了许
多基于相关知识背景的网络预测工具, 让计算机处
理海量基因信息,从而对高层次和复杂生命活动及
生物体行为作出预测。KEGG (K yoto Encyc lopedia of
Genes and G enomes)即京都基因和基因组百科全
书,是分析各种生物信息的在线数据库,不仅从基因
水平, 而且从更高层次将基因、化学物质和各种网络
信息相结合 [ 1]。作为京都大学生物信息学中心
K anehisa实验室和东京大学人类基因组中心研究项
目的一部分, KEGG是一强大的生物信息学资源 [ 2 ]。
它具有描述代谢途径、预测基因功能、获取基因组信
息、同源性识别以及解析蛋白质和其他大分子相互
作用等诸多功能。
1 KEGG数据库简介
KEGG数据库 ( http: / /www. genome. jp /kegg / )
迄今共有 20个子数据库 [ 3, 4 ] ,其中 4个主要数据库
为 PATHWAY、GENES、L IGAND、BR ITE, 其他子数
据库是在这 4个数据库基础上衍生而来的。 PATH
WAY数据库提供发生在细胞内各种反应的人工绘
制途径图, 以网络形式呈现。GENES数据库储存
KEGG中注册的已测序的基因组信息。 LIGAND数
2011年第 1期 韩增叶等: KEGG数据库在生物合成研究中的应用
据库可用于查询化合物、多糖及酶促反应等信息。
BR ITE是将生物信息按等级层次分类归纳的数据
库,其中所包含的 KEGG ORTHOLOGY ( KO)是用于
基因同源性识别的系统 [ 2]。表 1列出了 KEGG发
展历史以及各数据库的数据代码。
表 1 KEGG各数据库及其标识符
发布时间 数据库 标识符
1995 KEGG PATHWAY m ap number
KEGG GENES locu s_ tag /NCB IG eneID
KEGG ENZYME EC num ber
KEGG COMPOUND C number
2000 KEGG GENOM E organ ism code /T num ber
2001 KEGG REACT ION R num ber
2002 KEGG ORTHOLOGY K num ber
2003 KEGG GLYCAN G num ber
2004 KEGG RPA IR RP num ber
2005 KEGG BRITE b r num ber
KEGG DRUG D num ber
2007 KEGG MODULE M number
KEGG D ISEASE H num ber
11 KEGG PATHWAY
KEGG PATHWAY是一个分类组织收录的图谱
数据库,提供已知途径所对应的网络功能信息 [ 5 ]。
一般来说,途径图中的矩形代表基因产物,通常为蛋
白质,有时为 RNA分子;小圆圈代表其他类型分子,
如化合物;包含路径标题的椭圆可以链接到其他途
径图;矩形簇代表络合物。基因产物间的关系用箭
头的方向来表示,可能带有 + p、- p、+ g、+ m的标
签,分别代表磷酸化作用、去磷酸化作用、糖基化、甲
基化。这些特定形状的图形均含有超链接, 便于用
户获取更多信息。
KEGG A tlas是针对 PATHWAY和 BRITE数据
库系统信息而新创建的图形界面数据库, 由一张全
局图和一个相关指示器构成, 其中包含大约 120张
KEGG代谢途径图和 10个 BRITE等级分类 [ 6]。At
las最显著的功能是能将大量试验数据绘制到全局图
上, 用户还可借助 A jax ( Asynchronous JavaScript and
XML)对全局图进行导航和缩放 [ 7]。由于 KEGG A tlas
不支持 IE,W indow s用户必须安装 F irefox, Chrome, Sa
fari或 Opera。
Pathw ay modules是 BR ITE数据库中与代谢功
能密切相关的等级说明, 第一层目录分为代谢与信
息处理,单击小三角形可以查看子目录或打开具体
特定目录。
12 KEGG BRITE
KEGG BRITE是层次等级分类的集合,将生物学
各方面信息系统地呈现出来,包括代谢途径、物种、蛋
白质家族、其他化合物和药物疾病等 [ 3]。PATHWAY
数据库只局限于分子间的相互作用和反应, 而
BR ITE数据库则包含多种不同层次的关系。BR ITE
还能查询核苷酸、氨基酸等代码, 以及不同类型酶和
化学元素的缩写。其中 binary re lationsh ips (二元
关系 )可以把不同的 BR ITE分类等级联系起来, 将
一种属性加到 BR ITE分类等级中, 或与其他 KEGG
数据库连接。
在主页中点击 KEGG Organ isms可查看数据
库中全部物种分类及物种代码。由于总目录过于冗
长, 可在 BTITE数据库中分目录查看, 表 2显示了
BR ITE中物种分类的前两级目录。点击特定物种进
入可获取全名、定义、生物分类学代码、世系、数据来
源与主要参考文献等信息。目录栏中还能查看该物
种基因组信息及相关途径图等。
表 2 KEGG物种分类目录
一级分类目录 二级分类目录
Eukaryotes
An im als
P lan ts
Fungi
Prot is ts
Prok aryotes
B acteria
Archaea
13 KEGG ORTHOLOGY
KEGG ORTHOLOGY ( KO )是一个直系同源基
因的分类系统,即不同物种间功能相同基因的集合,
最初是为了克服酶学委员会命名法的局限性而发展
起来 [ 8]。随着基因组信息的不断增加, 利用 KO系
统并根据同源性质分类显得更为合理。在途径网络
77
生物技术通报 B iotechnology Bulletin 2011年第 1期
中,化合物节点代表同一种化合物,而基因或蛋白质
节点有可能代表不同序列, 因此需用 KO标识符进
行分组, 将 GENES中的基因组信息与 PATHWAY
中的网络信息相结合, 来划分基因功能并探究未知
途径 [ 9]。随着 KO系统的不断改进, 分类将更加严
格,所得数据也将更加精确。
14 KEGG GENES
KEGG GENES收录所有完整测序和部分测序
基因组的目录信息,从可利用的公共资源获取,其中
大部分出自 NCB I( http: / /www. ncb.i n lm. nih. gov) ,
并符合 SSDB计算模式 [ 10]和人工 KO指定 (基因注
释 ) [ 11]。KEGG DGENES是一些真核生物的基因组
草案。KEGG EGENES中大多是植物的表达序列标
签 ( expression sequence tag, EST) ,作为 KEGG organ
ism s的补充。VGENES是已完成的病毒基因组数据
库。OGENES收录的是线粒体、质粒与类核体的基
因组 [ 3]。GENES是一个基因组数据库,一个基因组
又包含各条目基因,因而在此可获取基因的多种信
息。在 Gene N ame Conversion中, 使用其他数据库
的标识符也可检索 KEGG GENES。
表 3 基因条目中所含的信息
信息种类 具体内容
E ntry En try ID En try types( CDS, RNA, Cont ig, etc. ) Organ ism n am e
Gen e n am e Nam es and synonym s of genes and /or protein s
Def in it ion Function al annotat ion assigned by orig inal genom e project
O rthology Ortholog ann otat ion ass ign ed by KEGG project
Pathw ay L inks to pathw ay m ap s that harbou r the gene
C lass L ink to BRITE functional categories
SSDB L ink to SSDB for ob tain ing O rthologs, Paralogs and Conserved gene clu sters
M otif Dom ains and mot ifs in protein sequence
O ther DBs L inks to other comm on databases
L inkDB L inks to all availab le databases
Stru cture S tructu re of p rotein
Pos it ion Locating a gene from KEGG GENOME database
AA seq Am ino acid sequen ce in FASTA form at and link to BLAST search in Genom eN et
NT seq Nucleot ide sequ ence in FASTA form at and l ink to BLAST search in Genom eNet
15 KEGG L IGAND
LIGAND数据库最初由 COMPOUND、GLYCAN、
REACTION、ENZYME 4个子数据库组成,之后又添
加了两个新的子数据库 DRUG和 RPA IR。COM
POUND是化合物结构的集合,大多数是代谢化合物
或药物,所有化学结构都是人工输入,经过电脑修改
并不断更新。GLYCAN是多糖结构的数据库,数据
大多来源于 CarbB ank数据库,这些多糖条目可以链
接到复杂碳水化合物和脂类代谢的途径图 [ 12 ]。
REACTION数据库收录酶促反应与其他化学反应
的反应公式 [ 13 ]。RPA IR中储存着可能发生在一
个单独反应的两个反应物间的转化模式 [ 14]。 EN
ZYME为酶的相关信息数据库。 DRUG则是 COM
POUND的补充, 收集可作为药物的化合物的结
构,大多是根据治疗应用进行分类, 其中的结构也
可链接到 PATHWAY中药物发展类别的药物结
构图。
2 KEGG相关软件的应用介绍
KEGG除了提供各个数据库供信息查询,还具备
相关工具便于用户进行生物学研究。其中, KegH ier、
KegDraw、K egArray ( http: / /www. genome. jp /dow n
load / )为 JAVA运用软件, W indow s用户需要安装 JA
VA后方可运行。SIMCOMP、SUBCOMP、K caM、ezyme
及 PathComp均包含在 LIGAND数据库中。
78
2011年第 1期 韩增叶等: KEGG数据库在生物合成研究中的应用
21 K egH ier
K egH ier是用于查找 BR ITE中的功能等级分
类,并能操作用户自制等级分类文本文件的 JAVA
软件。KegH ier界面的左边为默认文件目录, 在文
件目录中选择显示等级分类,点击文本区的方向阀
进行扩展或收缩子目录, 上方的小三角形可调节目
录等级。点击文件名前的小加号,从服务器读取文件
并添加到左边栏的文件目录。左下角的加号为打开
本地文件,添加文件可从 KEGG网络获取 (安装 iKeg
后 )。此款软件操作简单,但读取数据较为费时。
22 K egD raw
K egDraw是绘制化合物与多糖结构的软件, 以
平台无关性方式运行。K egD raw包含两种画图模
式,选择界面左上角的 C可绘制简单化合物结构,
选择 G可绘制多糖结构。化合物模式以一种简单
的方式进行绘制,称为 ChemDraw。多糖模式下则可
通过多种不同方式来绘制多糖结构, 最简便是直接
从弹出菜单逐个选择单糖单元和连接构造, 还能运
用剪切粘贴和预定义模板结构等功能。K egD raw中
绘制完成的化合物或多糖, 可作为查询对象在
KEGG和 NCB I数据库中查询类似结构。目前 Keg
Draw输入输出支持 KCF与 MOL模式。
23 K egA rray
K egA rray是分析转录组数据 (基因表达图谱 )
与代谢组数据 (化合物图谱 )并能将分析结果绘制
到 KEGG数据库的软件。用户可以本地上传数据
或直接从 KEGG EXPRESSION数据库中加载。EX
PRESSION数据库 ( http: / /www. genome. jp /kegg /ex
pression / )储存一些已分析物种 (如枯草芽孢杆菌、
大肠杆菌等 )的微阵列表达数据, 每个条目含有试
验概述、DNA微阵列等信息。K egA rray界面顶部有
G ene /C ompound 与 C lustering两个标签。在
Gene /Compound窗格中用户可以载入一个转录组
或代谢组试验的数据文件和参数设置, 其中 Com
pound data默认选中以载入代谢组数据。而在
C lustering窗格则可载入几个转录组试验的数据
文件和设置强度阀。加载完一组数据文件后, 信息
以 4种方式显示:统计信息 ( Statistics)、阵列图 ( Ar
rayImage)、散点图 ( Scatter plot )和 MA 图 ( MA
plot)。图谱中红色代表下调基因; 绿色代表上调基
因; 黄色代表调控中无差别基因; 灰色代表没有调控
基因。在 Tools中可将表达图谱数据绘制到 Path
way、BR ITE、Genomem ap与 KEGG DAS中。绘制阵
列数据必须使用 KEGG GENES数据库代码, KEGG
外其他数据库的开放阅读框代码可通过使用
GenomeNet提供的 ID转化器转化为 KEGG GENES
代码。
24 SIMCOMP和 SUBCOMP
SIMCOMP ( SIM ilar COMPound ) 与 SUBCOMP
( SUBstructure match ing of COMPounds)是两种比较
化学物质结构相似性并查询类似结构的工具, 前者
基于图形查询,而后者基于字符串方式 [ 15 ]。两个软
件均可通过 4种方式输入待查询化合物:输入 KEGG
数据库中化合物编号;本地上传 Mol文件;将 Mol文
件内容复制粘贴入文本区; 直接输入 SM ILES字符
串, 点击页面下方的小三角形打开高级选项菜单。
获得查询结果后,在 Select operation下拉菜单中选
择 Map to Pathw ay或 Map to BR ITE ,分别链接到
PATHWAY与 BR ITE数据库查询该条目化合物信
息。 SUBCOMP作为 SIMCOMP 快捷的代替软件,
SIMCOMP费时但更精确 [ 16]。
25 KcaM
KcaM ( KEGG CarbohydrateM atcher)是用于分析
碳水化合物糖链及多糖结构, 并查找类似结构的工
具。K caM由 Approx imate match (近似配对 )与 Ex
actmatch(精确配对 )组成,前者将单糖排成直线后
允许其含有缺口, 而后者不允许, 从而使基准更严
格 [ 17]。两种运算均有本地搜索与全域搜索。使用本
地近似配对只能发现保守区域,本地精确配对也仅仅
找到第一个最大配对子树,而全域搜索范围更大 [ 18]。
26 ezym e
ezym e是预测给定反应对 (反应物与产物 ) EC
次亚类的程序, 运用 RDM ( the reaction center、the
matched reg ion、the d ifference reg ion)模型从结构上
识别 [ 19]。所有已知酶促反应的 RDM模型都储存在
RPA IR数据库中。当一个反应包含多个反应对, 可
以在 Query M ode中选择 Mu ltiple pairs, 此种情
况下预测的准确度较高。输入待查询反应对, 点击
V iew structures确认输入化合物结构后按下 Com
pute进行预测。预测完成页面的结构图中红色、蓝
79
生物技术通报 B iotechnology Bulletin 2011年第 1期
色、黄色分别代表 R原子、D原子、M原子, 绿色代
表配对结构中除了 R原子和 M原子外的部分。结
构图下方生成的结果用冒号隔开代表 R、D、M原
子。为了选择最合适的 EC次亚类, 系统将计算每
个待选 EC次亚类的加权分,最高分的 EC次亚类位
于表格顶部 [ 20]。 Observed freq. 是数据库中与查
询的 RDM模型相关的已报道 EC号数目。另外,用
户还可通过插入或删除原子来编辑更改配对原子
排列 [ 21]。
27 PathComp
PathComp是一种反应预测工具。输入两种化
学物质,一种作为底物,另一种作为产物, 通过运用
已知酶促反应中底物与产物间的二元关系, 预测可
能发生的一系列反应, 获得的结果可在 KEGG途径
图上查看 [ 5]。PathC omp还可设置特定物种查询反
应路径。
28 KAAS
KAAS(KEGG Automatic Anno tation Server)是注
释未知基因功能信息的软件。用户输入一组序列通
过 KAAS与 GENES数据库中的基因相比较,快速自
动地指定待查询序列的 K编号并构建 KEGG途径
和 BR ITE等级 [ 22]。通常待查询序列是一个完全测
序基因组中的一组编码蛋白质基因的氨基酸序列,
注释结果从 BLASTP获得。当要查询的是一组表达
序列标签或与表达序列标签邻接片段的核苷酸序
列,需选中 KAAS界面中 Nuc leotide复选框, 注释
结果则从 BLASTX和 TBLASTN中获得。KO注释方
法有 BBH ( b id irectiona l best hit)与 SBH ( singled i
rectional best hit)两种,前者是两个基因组互为模板
进行双向比较,后者是单向性比较。 BBH计算时间
大约是 SBH的两倍,但 BBH比 SBH更为精确,具体
选用哪种方法可根据待查询序列数目而定。如果是
数量有限的开放阅读框或表达序列标签, 则应选用
SBH方法。计算时间除与待查询序列的大小有关,
还与模板基因的范围有关。在 GENES data set中
选择与待查询序列密切相关的基因模板, 可缩小查
询范围 [ 23]。
29 FMM
FMM ( From M etabo lite to M etabo lite )主要从
KEGG获取信息, 构建将一种代谢物转化为另一代
谢物的代谢途径。其显著特点是能将代谢物在不同
KEGG图谱中联系起来, 这是其他类似工具所不具
备的功能 [ 24 ]。在 FMM主页 ( http: / /FMM. mbc. nc
tu. edu. tw / )直接输入起始代谢物和终止代谢物即
可查询 (输入关键字或 KEGG COMPOUND代码 )。
设计出的代谢途径有俯视图 (本地视图 )和 KEGG
途径图 (全局视图 )。输出图表中的 EC号与星号符
均含有超链接,以便用户获取参与反应酶的更多信
息。在 Start FMM 中,输入两种目的代谢物并从 4
个分类 (动物、植物、真菌和原核生物 )中选择一些
物种,就能在具体的物种间构建代谢途径。当途径
跨越一个以上 KEGG图谱时, FMM将图全都连接起
来。通常选择包含最多路径的途径图。
FMM的 ComparativeAnalysis是生物合成领域
比较有效的工具。Majo r Spec ies中列出了一些生产
次级代谢物、抗体、药物和生物燃料等常用微生物
(如大肠杆菌 )。Comparat ive Species罗列的是实验
室常用的可简单获取其基因的物种 (如拟南芥 )。
在构建途径的同时, 从 Major Species中选择一种微
生物并从 Comparat ive Species选出几个与之比较的
物种,通过 FMM 检索即能得知哪些物种 ( Compara
tive Species)的哪些基因应该克隆到这些微生物
(M ajor Species)中。由于 KEGG收录的代谢途径和
化合物比文献稍微滞后, 所以不能完全依赖 FMM,
而是将 FMM途径与文献检索相结合, 才能设计最
合理的代谢途径。
3 KEGG在生物合成中的应用
作为第三代基因工程, 代谢工程具有巨大应用
潜力。尽管功能基因组学的成果给我们带来机遇,
但代谢调控的复杂性造成信息处理上的巨大困难。
KEGG数据库将庞杂的生物信息系统地整理, 方便
用户提取所需信息并可进行如下研究。
31 组合生物合成 ( combinatoria l b iosynthesis)
包括途径重组 ( pathw ay assemb ly )和基因模块
重组 ( modular assembly)。前者是募集同源或异源
的不同酶基因, 构建共表达载体, 实现 多米诺骨
牌式的连续催化。后者是重排基因模块, 使重组
菌产生非天然化合物 ( nonnatural compound) [ 25] , 从
中筛选获得新的生物活性物质。KEGG恰好提供了
基因、酶及其催化途径信息, 从而使组合生物合成成
80
2011年第 1期 韩增叶等: KEGG数据库在生物合成研究中的应用
为可能。
32 信号转导工程
合成生物学 ( synthetic b io logy)的一个重要使命
是对细胞的信号转导网络进行理性设计。KEGG提
供了基因、细胞与环境之间的联系,通过分析现有数
据,可望重塑信号转导网络 [ 26]。新构建的细胞信号
网络有利于调控代谢流量,并充分考虑能量平衡,从
而最大程度地积累目标产物。
33 酶催化途径定位
代谢工程包括代谢流量分析 ( metabolic flux a
nalysis)、代谢控制分析 ( metabolic control analysis)
和生物系统理论 ( b iolog ical system theory)。首先要
进行代谢流量分析,锁定限速步骤,然后确定调节该
限速步骤的酶或调节因子,对其超表达或分子改造,
从而消除因中间产物积累而造成的反馈或前馈抑
制。实际研究中, 可以结合酶活分析及 Northern印
迹杂交检测,可从 KEGG PATHWAY中准确地锁定
限速步骤。倘若存在若干限速步骤, 可采用共表达
方式解决,但要避免中间产物的积累。
34 数量性状位点 ( quant itat ive trait loc i)分析
就发酵菌种而言, 无论其产物产量还是菌体对
产物的耐受性, 都属于多基因控制的数量性状。通
过克隆高产和低产菌种的差异表达基因, 结合代谢
流量分析和关键酶活性分析, 借助 KEGG PATH
WAY的图形展示功能,便可很直观地将差异表达基
因定位于代谢途径。代谢途径是由一系列酶催化
的,而编码这些酶的基因可视作单细胞的数量性状
位点, 从数量遗传学角度去研究发酵产量问题属科
学前沿。
35 新一代染色体改造工程
在了解生物合成途径以及调节机理的基础上,
对基因进行删除、添加、取代或重组, 可在一定程度
上提高目标产物的产量。传统菌种改造通过大量敲
除或超表达关键基因, 难以最大限度地挖掘菌种的
生产能力,原因是冗余基因带来的细胞负荷。例如,
酿酒酵母只有约 20%基因表达,而 80%基因在一般
环境条件下是多余的 [ 27 ]。随着基因功能的解析,以
及 DNA组装技术的成熟, 创造最小基因组 ( m in i
mum essentia l genom e)的新物种成为现实 [ 28] , 新物
种的每个基因都 满负荷工作 , 该研究代表了当今
合成生物学的前沿。
4 结语
与其他类似数据库相比, KEGG的显著特点是
具有强大的图形功能,用图形取代繁缛的文字来提
供各种信息。KEGG系统较为完整,获取信息快捷,
还有界面友好等优点。相关软件也为研究提供了便
利。参照 KEGG数据库, 利用基因工程强化原有代
谢途径或构建新的代谢途径,改变代谢流量或流向,
可望使微生物最大限度地利用可再生资源, 生产目
标产物, 实现石油替代战略。特别指出的是, 利用
KEGG平台可望理性设计高效固定 CO 2工程菌 [ 29] ,
解答节能减排这一重大难题, 是当今合成生物学的
研究前沿。
参 考 文 献
[ 1] Kaneh isaM, Goto S. KEGG: Kyoto E ncyclopedia of G enes and Ge
nom es. Nucleic A cids Res, 2000, 28( 1) : 2730.
[ 2] K aneh isaM , G oto S, Kaw ash ima S, et a.l Th eKEGG resou rce for de
ciphering the genom e. Nu cleic Acid sRes, 2004, 32( 1 ): 277280.
[ 3] Kaneh isaM, Goto S, H attoriM, et a.l From genom ics to chem ical ge
nom ics: new developm ents in KEGG. Nucleic A cids Res, 2006, 34
( 1) : D354D357.
[ 4] Kaneh isaM, Arak iM, G oto S, et a.l KEGG for link ing genom es to life
and th e environm ent. Nu cleicA cids Res, 2008, 36( 1) : D480D484.
[ 5 ] Aok iK inosh ita KF. Overview of applicat ions to om icsrelated re
search. JPest ic Sc,i 2006, 31( 3 ): 296299.
[ 6] Okuda S, Y amada T, H am aj ima M, et a.l KEGG A tlas m app ing for
glob al analysis of m etab olic pathw ays. Nucleic A cids Research,
2008, 36( 2 ): W 423W426.
[ 7] An tonov AV, D ietm ann S, M ew esHW. KEGG sp id er: in terpretation
of genom ics data in the con text of th e global genem etabolic netw ork.
Genom e B io,l 2008, 9: R179.
[ 8] K im JS, Lee SY. Genom ic tree of gen e contents based on functional
group s of KEGG orthology. J M icrob iol B iotechno,l 2006, 16 ( 5 ) :
748756.
[ 9] K im KM, Sung S, CaetanoAno llesG, et a.l An approach of orthology
detect ion from h omo logous sequences under m in im um evolu tion. Nu
cleic Acid sResearch, 2008, 36 ( 17) : 112.
[ 10] Sato Y, Nak aya A, Sh iraish iK, et a.l SSDB: Sequen ce s im ilarity da
tabase in KEGG. G enom e In form atics, 2001, 12: 230231.
[ 11] Kaneh isa M, Goto S, Kaw ash im a S, et a.l Th e KEGG datab ases at
G enom eNet. Nucleic A cids Res, 2002, 30 ( 1) : 4246.
[ 12] H ash im oto K, Goto S, Kaw ano S, et a.l KEGG as a glycom e in for
m atics resource. G lycob iology, 2006, 16( 5 ): 63R70R.
81
生物技术通报 B iotechnology Bulletin 2011年第 1期
[ 13] Yam am oto R, K om eno T, Goto S, et a.l Imp rovem ent of th eL IGAND
chem ical database. Genom e In form atics, 2002, 13: 492493.
[ 14 ] Faust K, C roes D, H eld en JV. M etabo lic path find ing using RPAIR
annotat ion. JMo lB io,l 2009, 388: 390414.
[ 15 ] H at toriM, OkunoY, Goto S, et a.l Developm en t of a ch em ical stru c
ture comparison m ethod for in tegrated analys is of chem ica l and
gen om ic informat ion in the m etabolic pathw ays. J Am Chem Soc,
2003a, 125 ( 39) : 1185311865.
[ 16 ] H attoriM , Okuno Y, G oto S, et a.l H euristics for chem ical com
poundm atch ing. G enom e In form atics, 2003b, 14: 144153.
[ 17 ] Aoki KF, Y am agu ch i A, Okuno Y, et a.l E fficien t treem atch ing
m ethods for accurate carbohydrate database qu eries. G enom e Infor
m at ics, 2003, 14: 134143.
[ 18 ] Aok iKF, Yam agu ch iA, Ued aN, et a.l KC aM ( KEGG C arb ohydrate
M atcher) : a softw are too l for analyz ing the stru ctures of carbohy
drate sugar chain s. Nucleic Acid sR es, 2004, 32: W 267W 272.
[ 19 ] Yam ada T, OhM, H attoriM, et a.l System atic ana lysis of enzym e
catalyzed reaction pattern s and pred ict ion ofm icrob ial b iodegrada
t ion pathw ays. J Ch em In fM ode,l 2007, 47 ( 4) : 17021712.
[ 20 ] KoteraM, Okuno Y, H attoriM, et a.l C ompu tat ional assignm en t of
the EC numbers for genom icsca le analys is of enzym atic react ion s. J
Am Chem Soc, 2004, 126 ( 50) : 1648716498.
[ 21 ] Yam an ish iY, H attoriM, KoteraM, et a.l Ezym e: p red icting poten
t ial EC numbers from the chem ical tran sform ation pattern of sub
strateproduct pairs. B ioin form atics, 2009, 25( 12) : i179i186.
[ 22 ] FernandesGR, M udadoMA, O rtega JM . T est ing the p erform ance of
autom ated annotation ofE STs w ith th e Kegg Orth ology( KO ) data
base d emonstrates lack of comp leten ess of clusters. GenetMo lRes,
2008, 7 ( 3) : 948957.
[ 23] M oriya Y, Itoh M, Okuda S, et a.l KAAS: an autom atic gen om e an
notation and pathw ay recon struction server. Nu cleic A cids Res,
2007, 35 ( 2) : W 182W 185.
[ 24] Chou CH, Chang WC, C h iu CM, et a.l FMM: a w eb server form eta
bol ic pathw ay recon struction and com parative analys is. Nu cleic
A cids Research, 2009, 37( 2 ) : W129134.
[ 25] Gu LC, Wang B, Kulkarn i A, et a.l M etam orph ic enzym e assemb ly
in polyketid e divers ification. Natu re, 2009, 459: 731735.
[ 26] BackesC, M eese E, LenhofH P, et a.l A d ict ion ary on m icroRNAs
and their putative target pathw ays. Nucleic Acid s Res, 2010, 38
( 13) : 447686.
[ 27] Lart igue C, V ashee S, A lgire MA, et a.l C reat ing bacterial s trains
from genom es th at have been cloned and eng ineered in yeast. Sci
en ce, 2009, 325 ( 5948) : 16931696.
[ 28] G ibson DG, Benders GA, And rew sP fannkoch C, et a.l Com p lete
chem ical syn th es is, assem b ly, and clon ing of aM ycop la sma g en ita li
um genom e. S cien ce, 2008, 319 ( 5867 ) : 12151220.
[ 29] BarE ven A, Noor E, L ew is NE, et a.l Design and analys is of syn
thet ic carbon fixation pathw ays. Proc Nat lA cad SciU SA, 2010, 107
( 19) : 88898894.
(责任编辑 李楠 )
82