全 文 :第 12卷第 1期
2014年 1月
生 物 加 工 过 程
Chinese Journal of Bioprocess Engineering
Vol 12 No 1
Jan 2014
doi:10 3969 / j issn 1672-3678 2014 01 015
收稿日期:2013-11-18
基金项目:国家重点基础研究发展计划(973计划)(2011CB707401);国家自然科学基金(31070063,30970051);国家高技术研究发展计划(863
计划)(2012AA10180402)
作者简介:王 帅(1989—),男,山东莱芜人,硕士研究生,研究方向:生物化学;王禄山(联系人),教授,E⁃mail:lswang@ sdu edu cn
碳水化合物活性酶数据库(CAZy)及其研究趋势
王 帅,陈冠军,张怀强,王禄山
(山东大学 微生物技术国家重点实验室,济南 250100)
摘 要:碳水化合物活性酶数据库(CAZy)是关于能够合成或者分解复杂碳水化合物和糖复合物的酶类的一个数
据库资源,其基于蛋白质结构域中的氨基酸序列相似性,将碳水化合物活性酶类归入不同蛋白质家族。 CAZy数据
库中包含了碳水化合物酶类的物种来源、酶功能 EC分类、基因序列、蛋白质序列及其结构等信息。 而随着宏基因
组学技术的快速发展,CAZy数据库中家族内序列数据量剧增,这为家族内进一步进行亚家族分类奠定了基础;而
蛋白质家族内新一层精细分类的引入可提高亚家族中酶分子功能预测的准确度,进而可指导酶分子理性设计来提
高特定功能酶组分设计的成功概率,从而推动生物质转化产业的发展。
关键词:CAZy;宏基因组;亚家族;功能预测
中图分类号:Q⁃1 文献标志码:A 文章编号:1672-3678(2014)01-0102-07
Carbohydrate⁃active enzyme (CAZy) database and its new prospect
WANG Shuai,CHEN Guanjun,ZHANG Huaiqiang,WANG Lushan
(State Key Laboratory of Microbial Technology,Shandong University,Jinan 250100,China)
Abstract:The carbohydrate⁃active enzyme (CAZy) database is a knowledge⁃based resource specialized
in enzymes that synthesis and degrade complex carbohydrates and glycoconjugates CAZymes were
classified into several distinct families based on amino⁃acid sequence similarity The information about
GenBank accession number,EC designation,family,organism could be accessed in CAZy database and it
has been linked with other bioinformatics databases With the development of metagenomics,the number
of sequences in CAZy database increased rapidly,making better opportunity for the refinement of CAZy
families into subfamilies The possibility of function prediction and molecular engineering of CAZymes
were improved,thus promoting the rapid development of the conversion of biomass
Key words:carbohydrate⁃active enzyme(CAZy);metagenomics;subfamily;function prediction
碳水化合物亦称糖类化合物,是自然界存在最
多、分布最广的一类重要有机化合物,是一切生物
体维持生命活动所需能量的主要来源。 在自然界
中,糖类分子构型多样,糖分子之间化学键有多种
类型,几乎所有生物大分子(糖分子、蛋白质、脂质
和核酸等)都可以被糖基化,因此,作用于各种糖复
合物、寡糖和多糖等碳水化合物的酶类就构成了地
球上结构最多样的蛋白质集合,亦被定义为碳水化
合物酶簇[1]。
碳水化合物酶类按功能分类主要包括糖苷水
解酶类(EC 3 2 1 ⁃)、糖基转移酶类(EC 2 4 ⁃ ⁃)、
多糖裂解酶类(EC 4 2 2 ⁃)等,这种系统命名原则
及系统编号由国际酶学委员会(EC)制定,由其编号
就可给出该酶分子类型及其催化反应性质,这是酶
学研究的基础。 一种酶分子一般只有一个名称及
一个 EC编号。 然而最新研究表明,一种酶分子常
常可催化一种以及以上类型的反应,即酶分子具有
多功能性(promiscuity)或非特异性[2],特别是作用
于复杂多糖的糖苷水解酶类,它们的底物专一性常
常都不高。 例如 Bacillus licheniformis ATCC 14580
分泌的 1种内切 β 1,4 葡聚糖酶(GenBank 登录
号 AAU42138 1),它既具有内切纤维素酶活性(EC
3 2 1 4 ), 也 具 有 木 葡 聚 糖 酶 活 性 ( EC
3 2 1 151) [3]。 酶分子底物专一性不高,功能分析
时就需要利用多种底物进行功能的测定,这就给酶
分子功能的研究带来极大的工作量[4]。
新一代高通量测序技术的发展使得测序成本
急剧降低,产生了可以克服微生物培养限制的宏基
因组技术,这为人们认识天然环境中蛋白质序列空
间(protein universe)提供了可能。 人们对宏基因组
数据集进行初步分析就发现了数以千计的蛋白质
新家族,并且家族内生物大分子序列数据量也在急
剧增加[5]。 然而,面对宏基因组产生的海量大数
据,人们不可能对其每一条序列进行详尽的功能验
证,对于多功能性的酶类也没有有效的实验技术为
每一条序列进行全部底物与反应性质的验证,这就
给新时代酶学研究提出了新的挑战。
碳水化合物酶是一类重要的活性蛋白,在宏基
因组学快速发展之下,这类酶的研究和应用显得越
来越重要。 因此,本文中笔者综述了碳水化合物酶
的研究背景、分类方法及其研究成果,以期为其在
工业微生物领域的应用奠定基础。
1 碳水化合物酶类分类法研究
早在 1989年,Henrissat 等[6]基于疏水簇分析将
21种 β 聚糖酶类氨基酸序列进行比对,并根据氨基
酸序列相似性划分成了 6个纤维素酶家族。 1991年,
Henrissat又根据 SWISS⁃PROT 和 EMBL / GenBank 数
据库中的氨基酸序列,基于蛋白质催化结构域的氨基
酸序列相似性,对当时 301种不同来源的糖苷水解酶
类(glycoside hydrolases,GHs)序列进行分类[7],并不
断进行更新[8-9]。 这种分类系统的理论基础是氨基
酸序列的相似性反映蛋白质保守的结构折叠类型。
功能未知的氨基酸序列,可根据其序列相似性将其归
类,形成特定的 GH 蛋白质家族。 据此,不仅可以将
不同糖苷水解酶进行分类,基于家族内序列相似性还
可以分析其分子进化关系。 这种分类方式随后扩展
到糖基转移酶类(glycosyl transferases,GTs) [10]。 随着
碳水化合物酶类三维结构的获得,1997 年该分类法
中又加入蛋白质空间结构的信息,并基于催化结构域
氨基酸序列与三维结构对碳水化合物酶家族进行重
新分类[3]。 以上这些可合成或分解碳水化合物的酶
类,统称为 CAZymes。 1998 年 9 月,CAZymes 的这种
分类正式在网络上开放,形成了专门的 CAZy数据库
(http:∥www cazy org / )。 随后,人们发现自然界还
存在部分没有催化活性即可辅助多糖降解酶进行降
解的模块[11-12],最初报道的多为结合不溶纤维素、几
丁质与淀粉等物质的模块。 Warren 及其同事研究发
现,这些多糖结合模块也可形成特定家族———碳水化
合物结合结构域(carbohydrate⁃binding modules,CBM)
家族[13-15],这些家族及多糖裂解酶、碳水化合物酯酶
也被 CAZy列出并不断更新。
基于以上分类方法,Henrissat 等[16]在 1998年提
出了一种全新的糖苷水解酶类命名方法,利用 3个字
母表示酶分子相关的底物,其后的数字表示所属的糖
苷水解酶类家族,最后的大写字母表示该酶第一次报
道时所排次序。 后来,在不同物种中发现同功酶数目
的增多,又在原先命名的基础上增加生物属名与种名
首字母加入到命名当中。 如 Trichoderma reesei(瑞氏
木霉)中的 3种酶:CBHⅠ(纤维二糖水解酶Ⅰ)、CBHⅡ
(纤维二糖水解酶Ⅱ)和 EGⅠ(内切葡聚糖酶 I)的催化
结构域分别命名为 TrCel7A,TrCel6A,TrCel6B。 更多
代表性的糖苷水解酶名称见表 1。 现在多数研究者
们已经广泛采用这种命名系统,但仍有部分研究者未
完全采用这种命名方法,主要原因是该命名未反映酶
分子的底物专一性与降解模式,如该方法不能区分内
切纤维素酶与外切纤维素酶等[17]。
最近研究发现,CBM33 家族、GH61 家族的部分
组分其真实功能是裂解多糖单加氧酶类 ( lytic
polysaccharide monooxygenases,LPMO),这是一类全
新的氧化酶类,因此就需要对 CBM 与 GH 家族等相
关家族重新进行分类[18]。 另外,由于绿色植物细胞
壁中木质素总与多糖类物质同时出现,并且降解木质
素的酶类很可能与 LPMO一同发生作用,因此 CAZy
数据库将降解木质素的酶类列入 LPMOs 家族,并创
建一种全新的 CAZy 大类,命名为辅助酶类家族[18]
(auxiliary activities,AAs),这样 CAZy 数据库基本涵
盖了木质纤维素降解所需要的相关酶类。 截至 2013
301 第 1期 王 帅等:碳水化合物活性酶数据库(CAZy)及其研究趋势
年 10月 1 日,CAZy 数据库已经包含糖苷水解酶类
(GHs)、糖苷转移酶类 ( GTs)、多糖裂解酶类
(polysaccharide lyases, PLs)、糖水化合物酯酶类
(carbohydrate esterases,CEs)、碳水化合物结合模块
(CBMs)和辅助模块酶类(AAs)六大类家族,其家族
数目分别达到了 132、94、22、16、66和 10个。
表 1 CAZy糖苷水解酶命名方式
Table 1 Designations for glucoside hydrolase enzymes
CAZy命名 传统命名 EC分类 底物 酶分子中文名称
Cel7A CBHⅠ 3 2 1 176 纤维素 纤维二糖水解酶Ⅰ
Cel6A CBHⅡ 3 2 1 91 纤维素 纤维二糖水解酶Ⅱ
Cel12A EGⅢ 3 2 1 4 纤维素 内切葡聚糖酶 Ⅲ
Lic16A LicB 3 2 1 73 地衣多糖 苔聚糖酶 B
Amy13 AmyH 3 2 1 1 淀粉 α 淀粉酶
Xyn10A Cex 3 2 1 8 木聚糖 木聚糖酶 B
Cel74A XEG 3 2 1 151 木葡聚糖 木葡聚糖 β 1,4 内切葡聚酶
Man5A Man 3 2 1 78 半乳甘露聚糖 内切甘露聚糖酶
Rha78A RHA 3 2 1 40 果胶 α 鼠李糖苷酶
a—CAZy数据库中包含酶分子名称、EC分类号物种来源、酶分子基因及氨基酸序列和三维结构信息;
b—酶分子基因序列(GenBank:AAM77711 1);c—酶分子氨基酸序列(Uniprot Q8NJY6);d—酶分子三维结构信息
(PDB:1OA3)以及催化残基(116E,200E);e—酶分子作用的纤维素链及其作用位置
图 1 CAZy数据库家族内列出酶分子相关信息(以 AAM77711 1为例)
Fig 1 Information of enzymes contained in CAZy database (AAM77711 1)
401 生 物 加 工 过 程 第 12卷
2 CAZy数据库———基因组学与酶学
研究的重要桥梁
CAZy 数据库中列出了酶分子序列的家族信
息、物种来源、基因序列、蛋白质序列信息、三维结
构、EC分类以及与相关数据库的链接。 对于每一家
族中已经得到生化表征的酶分子,还提供催化机制
关系密切的信息,包括活性中心及催化机制特征,
催化残基(对整个家族是保守的)及其分类范围信
息,这些信息对快速分析同一家族酶分子共同特征
是非常重要的。 图 1 以 AAM77711 1 为例显示了
CAZy数据库家族内列出的酶分子相关信息。
CAZy数据库建立的目的是将酶分子的序列、
结构与催化机制特点结合起来,对其结构域进行定
义。 碳水化合物活性酶类常常是多结构域的,在
CAZy数据库中,同一条基因不同结构域划入不同
的结构域家族,如 T. reesei 分泌的 CBHⅠ碳水化合
物结合模块归入 CBM1 家族,而催化结构域归入
GH7家族[19]。 这样对包含多个结构域的酶分子定
义更加准确,特别是研究复杂的木质纤维素高效降
解生境系统,通过研究酶分子基因结构域的组合就
可以了解相应微生物的降解模式与降解策略。 如
东秀珠课题组利用宏基因组技术研究牦牛瘤胃降
解植物细胞壁酶的多样性时发现[20],降解纤维素的
基因在宏基因组序列中含量丰富,从其构建的开放
阅读框(ORFs)中分析蛋白质结构域,发现具有水解
酶酶活力的蛋白质来自 GH5、9、10 等糖苷水解酶家
族,并且这样的结构域与编码 SusC / SusD 类型的外
膜蛋白结构域相连,只有少量催化结构域带有碳水
化合物结合模块,没有检测到催化结构域与纤维小
体的对接 /粘连模块相连。 这些发现表明,在牦牛
瘤胃木质纤维素降解过程中起着重要作用的纤维
素酶类应与 SucC / SucD有关的催化机制,明显不同
于热纤梭菌采用的纤维素小体模式,也不同于丝状
真菌大量分泌胞外游离酶系的模式[20]。
利用生物信息学手段快速筛选由宏基因组产
生的大量基因序列,确定相关基因功能结构域的组
合方式,可以预测相关微生物采取的降解模式是属
于游离酶系(只有催化结构域或包含催化结构和
CBM模块)、纤维小体超分子复合物(含有对接 /粘
连模块、锚定模块等)还是其他模式[21-23](图 2),这
就大大降低了实验的工作强度,明确了研究目标并
具有一定针对性。 将相关功能结构域归入某一蛋
白家族后,由于家族内蛋白质的三维结构非常保
守[3,24],催化机制也非常保守,确定其相关蛋白质家
族后,GH家族的酶分子序列就可以确定其催化机
制是保留型还是反转型。 如果该蛋白质家族中有
一酶组分的三维结构获得解析,人们还可以利用同
源模建技术获得相应酶分子的结构特性,尤其是催
化活性中心及其催化活性位点附近的空间信息,这
就大大提高了酶分子结构与功能研究的工作
效率[1]。
3 CAZy数据库的新研究趋势
由于测序技术的飞速发展,宏基因组研究产生
了海量的生物多样性与序列多样性数据,现在蛋白
质序列的发现速度已经远远超出人们对功能确切
描述与分析的速度[22]。 如 CAZy 数据库的蛋白序
列已经达到 34万余条(截至 2013年 10月 1日),获
得生化表征序列却仅有 1 万余条,不足 3%;而获得
三维结构的序列仅有 1 400多个,不足 0 5%。 CAZy
数据库现在面临的难题可能不再是蛋白质序列太
少,而是如何对宏基因组产生的大数据(big data)进
行深入地挖掘分析。
宏基因组技术产生海量数据,人们不再可能穷
举所有序列、所有底物,逐条逐项地分析其生物学
功能,必须运用生物信息学方法建立相关算法,完
成其自动功能注释[25-26]。 早在人类基因组草图完
成时,有人就利用同源性方法来预测蛋白质的功
能,提出了结构基因组学( structural genomics)的概
念,以序列一致性 30%为标准构建蛋白质家族,利
用同源模建方法来分析其结构与功能[27]。 然而,由
于序列同源性并不意味着蛋白质具有相同的功能,
不同基因由于处于不同选择压力之下,因而可能具
有不同的进化速率,这使得预测结果的准确性难以
确定[28]。 特别是酶分子功能执行区域仅是催化结
构域中非常小的一部分,仅仅基于全序列比对结果
来预测局部发生变化区域的功能,这是自动功能注
释常常出错的根源[29]。 对应酶分子功能分类层次,
如 EC号包括 4 级层次:酶的大类、化学键类型、反
应类型及底物专一性。 蛋白质家族分类也应根据
相似性程度进行不同层次的聚类分析,以对应酶分
子功能分类的不同层次,来提高预测的效率与准确
度[30]。 现在 CATH 等蛋白质结构分类数据库已经
根据不同的序列一致性细化出不同的层次,序列一
致性< 35%为 S 层,< 60%为 O 层, < 95%为 L 层,
501 第 1期 王 帅等:碳水化合物活性酶数据库(CAZy)及其研究趋势
(a)为碳水化合物模块结构;(b)为游离酶降解模式(CBHⅠ、CBHⅡ分别从还原端、非还原端降解结晶纤维素);
(c)为纤维小体降解模式;(d)为降解需要菌体与底物紧密结合(SusC / SusD蛋白是大多数细菌或古菌细胞壁上的蛋白亚基,
碳水化合物降解酶的模块结构与 SusC / SusD蛋白模块相连,说明催化结构域位于细胞表面)
图 2 碳水化合物降解酶的模块结构及其可能的降解模式
Fig 2 Domain architectures and its possible mode of degradation
100%为 I层[31]。 Pfam等蛋白质数据库也加强了与
架构保守性(即功能位点保守性)数据库如 Prosite、
SCOP 和 CAZy 等的联系,以提高其功能预测的准
确性[32]。
CAZy数据库对酶分子催化结构域按 30%序列
相似性进行家族分类,不能够准确预测同一家族内
不同成员的底物专一性。 随着宏基因组数据的快
速增加,CAZy 数据库也正在着手对所包含家族进
行细化分类。 其中糖苷水解酶类(GHs)涵盖 CAZy
数据库中最多的家族,是 CAZy 数据库中生化特征
被描述最为详细的酶类。 目前,CAZy 数据库已经
对糖苷水解酶 GH5、GH13和 GH30家族进行了亚家
族的分类[33-34]。 以 GH5 家族为例, GH5 家族是
CAZy库中最大的一个糖苷水解酶家族,因为它是
第 1个纤维素酶家族,该家族曾被命名为“纤维素
酶家族 A” [6]。 GH5家族序列分布很广,在古菌、细
菌和真菌界(真菌、植物)都存在,利用宏基因组学
方法从不同生境中也鉴定出了丰富的 GH5 家族序
列[35-37]。 GH5模块的折叠类型是 TIM结构,实验确
定了近 20种明确 EC分类的酶活性,这充分展现了
该家族的多功能性。 因此仅将蛋白质序列归入如
此庞大的“多专一性”家族显然不能够发掘出依靠
序列与结构相似性进行分类的全部潜力,基于序列
一致性>75%的标准,提出了 GH5 家族新的亚家族
分类系统,其中 51个亚家族能覆盖其中 80%以上的
序列[33]。
经过进一步的功能分析之后,发现 GH5 家族中
有的亚家族(表 2)是单底物专一性的亚家族,如
GH5 5、GH5 8亚家族等,对那些多功能的亚家族
再进行细化分类就可能形成单功能亚亚家族,当新发
现的序列归入此类亚家族或亚亚家族时,就可以判断
该序列可能具有此类功能,这有利于提高功能注释的
准确度与效率。 而多功能性亚家族或亚亚家族序列
相似性很高,这说明其中只要几个氨基酸的突变就可
能导致功能的分歧[33],对其中 GH5 4亚家族的改造
也证明了这一点,他们利用全面的 GH5 亚家族系统
发育分析发现了 GH5 4 亚家族中决定葡聚糖和甘
露聚糖双底物特异性活性位点的基序[38]。
601 生 物 加 工 过 程 第 12卷
表 2 GH5家族各亚家族底物专一性(以 GH5 1到 GH5 10亚家族为例)
Table 2 Subfamilies with identified active enzymes in GH5(subfamily GH5⁃1 to GH5⁃10 as example)
专一性 亚家族 酶活性 EC号
单底物专一性
GH5 5 内切 β 1,4 葡聚糖酶 3 2 1 4
GH5 8
GH5 10 内切 β 1,4 甘露聚糖酶 3 2 1 78
多底物专一性
GH5 1
GH5 2
内切 β 1,4 葡聚糖酶
纤维二糖水解酶
脱乙酰几丁质酶
3 2 1 4
3 2 1 91
3 2 1 132
GH5 4
(木葡聚糖专一性)
内切 β 1,4 葡聚糖酶
licheninases
木聚糖酶
3 2 1 4
3 2 1 151
3 2 1 73
3 2 1 8
GH5 7 内切 β 1,4 甘露聚糖酶甘露低聚糖或甘露多糖水解酶
3 2 1 78
3 2 1 25
GH5 9
外切 β 1,3 葡聚糖酶
内切 β 1,6 葡聚糖酶
β 葡糖苷酶
3 2 1 58
3 2 1 75
3 2 1 21
表 2列出的 GH5 家族 8 个亚家族中,GH5 5、
GH5 8亚家族具有单底物专一性;其余 4个亚家族
均具有两个或两个以上多底物专一性(GH5 亚家族
A1 A10 是较先发现的亚家族,在进行重新分类
时,A3归入 GH5 4 亚家族,A5 和 A6 统一归入到
GH5 5亚家族,为了与先前的分类一致),这些重
新划分的亚家族保持了与原先一样的序号[39]。
4 展 望
随着测序技术的进一步发展,宏基因组技术产生
的海量蛋白质序列既是挑战,又是机遇。 CAZy 数据
库将碳水化合物酶类序列归入不同的“多专一性”家
族,通过对蛋白质家族分类的进一步细化,对亚家族
甚至亚亚家族的分类,找到更小的聚类族,分析与酶
分子功能密切相关的活性中心部位,确定酶分子决定
功能专一性残基 /组合及其协变性,就可以提高功能
预测的准确度,这对于了解碳水化合物活性酶类的作
用机制具有重要意义。 对碳水化合物活性酶类亚家
族、亚亚家族的分类,使得同一亚家族或亚亚家族内
氨基酸序列相似性很高,几个氨基酸的改变就可能改
变酶的功能,这就大大降低了蛋白质工程改造对序列
空间的搜索强度,提高了理性设计成功的概率[40],对
生物质转化和生物炼制提供了有力的技术支持。 同
时,这种亚家族的分类方法对其他类型蛋白质的功能
预测也具有重要指导意义。
参考文献:
[ 1 ] Cantarel B L,Coutinho P M,Rancurel C,et al The carbohydrate⁃
active enzymes database ( CAZy ): an expert resource for
glycogenomics[J] .Nucleic Acids Res,2009,37:D233⁃D238
[ 2 ] Hult K, Berglund P Enzyme promiscuity: mechanism and
applications[J] .Trends Biotechnol,2007,25(5):231⁃238
[ 3 ] Henrissat B, Davies G Structural and sequence⁃based
classification of glycoside hydrolases[ J] .Curr Opin Struct Biol,
1997,7(5):637⁃644
[ 4 ] Vlasenko E,Schülein M,Cherry J,et al Substrate specificity of
family 5, 6, 7, 9, 12, and 45 endoglucanases [ J ] . Bioresour
Technol,2010,101(7):2405⁃2411
[ 5 ] Godzik A Metagenomics and the protein universe[ J] .Curr Opin
Struct Biol,2011,21(3):398⁃403
[ 6 ] Henrissat B, Claeyssens M, Tomme P, et al Cellulase families
revealed by hydrophobic cluster analysis[J] .Gene,1989,81(1):
83⁃95
[ 7 ] Henrissat B A classification of glycosyl hydrolases based on
amino acid sequence similarities [ J ] . Biochem J, 1991, 280:
309⁃316
[ 8 ] Henrissat B, Bairoch A New families in the classification of
glycosyl hydrolases based on amino acid sequence similarities[J] .
Biochem J,1993,293:781⁃788
[ 9 ] Henrissat B, Bairoch A Updating the sequence⁃based
classification of glycosyl hydrolases [ J] . Biochem J,1996,316:
695⁃696
[10] Campbell J A,Davies G J, Bulone V, et al A classification of
nucleotide⁃diphospho⁃sugar glycosyltransferases based on amino
acid sequence similarities[J] .Biochem J,1997,326:929⁃942
[11] Svensson B,Jespersen H,Sierks M R,et al Sequence homology
701 第 1期 王 帅等:碳水化合物活性酶数据库(CAZy)及其研究趋势
between putative raw⁃starch binding domains from different
starch⁃degrading enzymes[J] .Biochem J,1989,264:309⁃311
[12] Gilkes N R,Henrissat B,Kilburn D G,et al Domains in microbial
beta⁃1,4⁃glycanases:sequence conservation,function,and enzyme
families[J] .Microbiol Rev,1991,55(2):303⁃315
[13] Coutinho J B,Gilkes N R,Kilburn D G,et al The nature of the
cellulose⁃binding domain effects the activities of a bacterial
endoglucanase on different forms of cellulose[J] .FEMS Microbiol
Lett,1993,113(2):211⁃217
[14] Tomme P,Warren R A J,Miller R C, et al Cellulose⁃binding
domains: classification and properties [ C ]. ACS Symposium
Series,1995,618:142⁃163
[15] Warren R A J Microbial hydrolysis of polysaccharides[ J] . Ann
Rev Microbiol,1996,50(1):183⁃212
[16] Henrissat B,Teeri T T,Warren R A J A scheme for designating
enzymes that hydrolyse the polysaccharides in the cell walls of
plants[J] .FEBS Lett,1998,425(2):352⁃354
[17] 曲音波,陈冠军,高培基,等 木质纤维素降解酶与生物炼制
[M].北京:化学工业出版社,2011
[18] Levasseur A, Drula E, Lombard V, et al Expansion of the
enzymatic repertoire of the CAZy database to integrate auxiliary
redox enzymes[J] .Biotechnol Biofuels,2013,6(1):1⁃14
[19] Sukharnikov L O, Cantwell B J, Podar M, et al Cellulases:
ambiguous nonhomologous enzymes in a genomic perspective[J] .
Trends Biotechnol,2011,29(10):473⁃479
[20] Dai X, Zhu Y, Luo Y, et al Metagenomic insights into the
fibrolytic microbiome in yak rumen [ J ] . PLoS One, 2012, 7
(7):e40430
[21] Wilson D B Microbial diversity of cellulose hydrolysis[ J] . Curr
Opin Microbiol,2011,14(3):259⁃263
[22] Wilson D B Processive and nonprocessive cellulases for biofuel
production:lessons from bacterial genomes and structural analysis
[J] .Appl Microbiol Biotechnol,2012,93(2):497⁃502
[23] Medie F M, Davies G J, Drancourt M, et al Genome analyses
highlight the different biological roles of cellulases[ J] .Nat Rev
Microbiol,2012,10(3):227⁃234
[24] Davies G, Henrissat B Structures and mechanisms of glycosyl
hydrolases[J] .Structure,1995,3(9):853⁃859
[25] Ferrer M,Beloqui A,Timmis K N,et al Metagenomics for mining
new genetic resources of microbial communities [ J ] . J Mol
Microbiol Biotechnol,2008,16(1 / 2):109⁃123
[26] Friedberg I Automated protein function prediction: the genomic
challenge[J] .Brief Bioinform,2006,7(3):225⁃242
[27] Baker D, Sali A Protein structure prediction and structural
genomics[J] .Science,2001,294(5540):93⁃96
[28] Lee D, Redfern O, Orengo C Predicting protein function from
sequence and structure[J] .Nat Rev Mol Cell Biol,2007,8(12):
995⁃1005
[29] Sjölander K Getting started in structural phylogenomics[J] .PLoS
Comput Biol,2010,6(1):e1000621
[30] Prakash T, Taylor T D Functional assignment of metagenomic
data:challenges and applications [ J] . Brief Bioinform,2012,13
(6):711⁃727
[31] Sillitoe I,Cuff A L,Dessailly B H,et al New functional families
(FunFams ) in CATH to improve the mapping of conserved
functional sites to 3D structures[J] .Nucleic Acids Res,2013,41
(D1):D490⁃D498
[32] Bateman A,Coin L,Durbin R,et al The Pfam protein families
database[J] .Nucleic Acids Res,2004,32(S1):D138⁃D141
[33] Aspeborg H,Coutinho P M,Wang Y,et al Evolution, substrate
specificity and subfamily classification of glycoside hydrolase
family 5 ( GH5) [ J] . BMC Evol Biol,2012,12( 1):186 doi:
10 1186 / 1471⁃2148⁃12⁃186
[34] Stam M R,Danchin E G,Rancurel C, et al Dividing the large
glycoside hydrolase family 13 into subfamilies:towards improved
functional annotations of alpha⁃amylase⁃related proteins[J] .
Protein Eng Des Sel,2006,19(12):555⁃562
[35] Duan C J, Xian L, Zhao G C, et al Isolation and partial
characterization of novel genes encoding acidic cellulases from
metagenomes of buffalo rumens[ J] . J Appl Microbiol,2009,107
(1):245⁃256
[36] Elifantz H, Waidner L A, Michelou V K, et al Diversity and
abundance of glycosyl hydrolase family 5 in the North Atlantic
Ocean[J] .FEMS Microbiol Lett,2008,63(3):316⁃327
[37] Hess M, Sczyrba A, Egan R, et al Metagenomic discovery of
biomass⁃degrading genes and genomes from cow rumen [ J ] .
Science,2011,331:463⁃467
[38] Chen Z,Friedland G D,Pereira J H,et al Tracing determinants of
dual substrate specificity in glycoside hydrolase family 5 [ J] . J
Biol Chem,2012,287(30):25335⁃25343
[39] Lo L L, Larsen S The 1 62 Å structure of Thermoascus
aurantiacus endoglucanase: completing the structural picture of
subfamilies in glycoside hydrolase family 5[J] .FEBS Lett,2002,
523(1 / 2 / 3):103⁃108
[40] Lichtarge O, Wilkins A Evolution: a guide to perturb protein
function and networks[J] .Curr Opin Struct Biol,2010,20(3):
351⁃359
(责任编辑 荀志金)
801 生 物 加 工 过 程 第 12卷