免费文献传递   相关文献

An Introduction to Metagenome Databases of Environmental Microbiology

环境微生物宏基因组学数据库利用



全 文 :·特约综述· 2015, 31(11):78-88
生物技术通报
BIOTECHNOLOGY BULLETIN
微生物在物质合成、降解、碳氮元素循环等方
面具有十分重要的生态功能[1]。微生物的种类和数
量繁多,且大多数难以单独分离、培养和鉴定。近
年来,高通量二代测序技术的发展给环境微生物的
研究带来了新的方法和策略,其在微生物基因组中
的应用产生了宏基因组学(Metagenome)这一新的
学科,为地球生物资源的普查和鉴定提供了新的技
术和方法。
宏基因组这一概念由 Handelsman[2]于 1998 年
提出,其含义是将环境中全部微生物的遗传信息看
作一个整体,对环境样品中细菌和真菌的基因组总
和进行研究。宏基因组学研究方法避开了微生物需
要培养提取的过程,还可以揭示微生物之间及其与
环境之间相互作用的规律[1]。宏基因组学研究已经
成为微生物研究的热点和前沿,在环境生物多样性
的探测、气候变化、极端环境、人体肠道、石油污
染修复、生物冶金等领域,取得了一系列重要成果[3]。
国际上多个不同组织和研究联盟对全球的不同环境
收稿日期 :2015-08-27
基金项目 :科技部科技基础性工作专项(2012FY112900)
作者简介 :王慧丽,女,硕士,研究方向 :环境微生物和水处理 ;E-mail :lypp1229@126.com
通讯作者 :郭安源,男,博士,研究方向 :生物信息和数据库 ;E-mail :guoay@hust.edu.cn
环境微生物宏基因组学数据库利用
王慧丽1  郭安源2
(1. 文华学院城市建设工程学部环境工程系,武汉 430074 ;2. 华中科技大学生命科学与技术学院,武汉 430074)
摘 要: 宏基因组学技术产生的数据是研究环境微生物的宝贵资源,国际上已有微生物计划、海洋计划、生命普查等大项目,
采集和测序的样本量数以百万计,产生了海量的环境宏基因组学数据,并以此建立了几十个相关宏基因组数据库和平台。主要从
以下几个方面综述环境宏基因组学的研究进展和已有资源 :环境宏基因组学国际合作大项目、宏基因组学数据库和宏基因组学数
据在线分析平台。将结合相应的数据库网站介绍其项目详情、样本来源、数据类型、使用方式和分析结果等,以便研究者全面了
解此类数据并能快速找到和利用相关资源。
关键词 : 宏基因组学 ;数据库 ;资源 ;微生物
DOI :10.13560/j.cnki.biotech.bull.1985.2015.11.008
An Introduction to Metagenome Databases of Environmental
Microbiology
Wang Huili1 Guo Anyuan2
(1. Department of Environmental Engineering,Urban Construction Engineering Division,Wenhua College,Wuhan 430074 ;
2. College of Life Science and Technology,Huazhong University of Science and Technology,Wuhan 430074)
Abstract: The huge data produced by metagenome are valuable resources for environmental microbiology research. Until now, there are
many big projects such as the Earth Microbiome Project and Census of Marine Life, which generated huge metagenome data and also constructed
various databases and platforms to store and analyze these data. In this review, we summarized the current big projects, databases and online
analysis platforms for environmental metagenomes. We introduced the project background, the sample information, the data type, the usage mode
and the webpage of those databases.
Key words: metagenome ;database ;resources ;microbiology
2015,31(11) 79王慧丽等 :环境微生物宏基因组学数据库利用
进行微生物多样性检测和探查。这些研究采集和产
生了大量的不同环境微生物的数据,基于此,目前
国际上建立了几十个有关环境生物资源和宏基因组
学数据的大数据库。基于作者对生物数据库开发和
使用方面的深入研究和体会,结合环境微生物学研
究需求,本文着重介绍国际上大型的环境宏基因组
学项目、环境宏基因组学相关数据库和分析平台,
以便相关人员更好的利用这些资源。
1 环境宏基因组学项目介绍
宏基因组学技术实现以来,国际上针对全球的
环境微生物普查实施了几大项目计划,主要有地球
微生物组计划(The Earth Microbiome Project,EMP)、
全球海洋采样(Global Ocean Sampling,GOS)和海
洋生命普查(Census of Marine Life,CoML)。
1.1 地球微生物组计划(EMP)
地球微生物组计划(The Earth Microbiome Proj-
ectm,EMP)[4]是一个分析全球范围内微生物群落、
描述全球微生物多样性和功能的项目。其目标是使
用宏基因组、宏转录组和扩增子测序分析近 20 万个
来自不同地球环境和生态系统的样本,产生了全球
基因图谱描述每个生物群落的蛋白质和环境代谢模
型,以及大约 50 万个重建的微生物基因组,建立了
全球代谢模型和数据可视化分析的门户网站。
EMP 项 目 主 要 目 标 和 任 务 :(1) 基 因 地 图
集(Gene Atlas), 研 究 中 获 得 的 所 有 信 息 的 集 中
存储库,提供可搜索的格式存储所有的序列、注
释信息和环境元数据。(2)地球微生物组的基因
组(Earth microbiome assembled genomes), 包 含 所
有 EMP 数据中组装的基因组,并且使用自动注释
流程进行注释和分析。(3)地球微生物组可视化接
口(Earth Micro-biome Visualization Portal), 建 立 交
互式可视化软件处理数据,使之方便易用。人们能
从微生物空间的角度查看地球,描述环境和基因组
功能,以便整合 EMP 数据发现新的生态理论。(4)
地球微生物组代谢重建(Earth microbiome metabolic
reconstruction),基于宏基因组代谢组数据描述和软
件预测,描述代谢物随时间和生物地理空间的改变。
EMP 项 目 的 数 据 存 放 在 http ://qiita.microbio.
me/ 网站,这是一个完全开源的微生物组数据存储和
分析资源,建立在广泛使用的 QIIME 包之上,可用
于分析组学数据。目前 Qiita 网站中存储有来自 158
个研究项目的 33 285 个样本的数据,需要注册使用。
注册用户登录后,可以通过“Study”菜单下的“View
Studies”子菜单来搜索已有的数据,如搜索“Earth
Microbiome Project”可以得到该项目的所有数据,然
后可以选择相应的数据点击“Add to Analysis”进行
分析,可选择的分析有稀释度和物种多样性等。
1.2 全球海洋采样(GOS)
全 球 海 洋 采 样(Global ocean sampling,GOS)
是一个探测海洋生物基因组的项目,它的目标是评
估海洋微生物群落的遗传多样性,了解它们在自然
的基本进程中扮演的角色。J. Craig Venter 研究所
(JCVI)的科学家们自 2003 年开始对全球范围内的
海洋进行采样,目的是通过对生活在这些水域中的
微生物的 DNA 采样、测序和分析以了解无尽海洋的
奥秘。2003-2008 年,采样主要集中在美国西海岸,
同时与其他合作者在一些极端环境进行了采样。随
后于 2009-2010 年沿墨西哥海岸进行采样,然后离
开美洲进发到欧洲,对波罗的海、地中海和红海水
域的微生物进行采样研究分析。对 Sargasso 海采样
测序的宏基因组数据分析,鉴定了 1 800 个独特的
基因组、148 个之前研究未涉及的细菌种群和 120
万个未报导的新基因[5]。该研究证明了基因组测序
方法鉴定宏基因组的可行性,并为海洋微生物数据
增添了许多资源和技术。为了分析这些数据,科学
家们还开发了一系列新的生物信息学分析方法和软
件,促进了多个相关学科的发展。
全球海洋采样项目的数据同时也提交到了 NCBI
的 SRA 数据库和高级海洋微生物生态研究和分析领
域基础设施 CAMERA,CAMERA 是一个在线海洋宏
基因资源库。
1.3 海洋生命普查(CoML)
海 洋 生 命 普 查(Census of Marine Life,CoML)
发起的目的是评估和解释全世界海洋生命的多样性、
分布和丰富性,以及它们的过去、现在和未来。海
洋生命普查(2000-2010 年)已经成为一个全球协
作的科学项目,有超过 80 个国家的研究者参与,是
世界上第一个全面的海洋生命普查,结果于 2010 年
生物技术通报 Biotechnology Bulletin 2015,Vol.31,No.1180
在伦敦发布。大部分研究报道发表在 PLoS One 杂志,
并且有一个专门的文章合集(http://www.ploscollec
tions.org/static/comlCollections.action)。 海 洋 生 命 普
查项目包含 14 个野外的普查项目和 4 个非野外项
目(表 1)。
该 普 查 同 时 形 成 了 一 个 名 为“First Census of
表 1 海洋生命普查项目包含的子项目信息
缩写 全称 中文 网址
野外项目
ArcOD Arctic Ocean Diversity 北冰洋生物多样性 http://www.arcodiv.org/
CAML Census of Antarctic Marine Life 南冰洋生命普查 http://www.caml.aq/
CeDAMar Census of the Diversity of Abyssal Marine Life 深海平原海洋生命多样性普查 http://www.cedamar.org
CenSeam Census of Marine Life on Seamounts 全球海底山海洋生命普查 http://censeam.niwa.co.nz/
ChEss Biogeography of Deep-Water Chemosynthetic
Ecosystems
生物地理学的深水化学合成的生态系统 http://www.noc.soton.ac.uk/ chess/
CMarZ Census of Marine Zooplankton 海洋浮游生物普查 http://www.cmarz.org
COMARGE Continental Margins Ecosystems 大陆边缘的生态系统 http://www.ifremer.fr/comarge/
CReefs Census of Coral Reefs 珊瑚礁生命普查 http://www.creefs.org
GoMA Gulf of Maine Program 缅因海湾计划 http://www.usm.maine.edu/ gulfofmaine-census/
ICoMM International Census of Marine Microbes 国际海洋微生物普查 http://icomm.mbl.edu
MAR-ECO Mid-Atlantic Ridge Ecosystem Project 中大西洋山脊生态系统项目 http://www.mar-eco.no
NaGISA Natural Geography in Shore Areas 海岸地区自然地理 http://nagisa.cbm.usb.ve/cms/
POST Pacific Ocean Shelf Tracking Project 太平洋板块大陆架项目 http://www.postcoml.org
TOPP Tagging of Pacific Predators 太平洋捕食者标记计划 http://www.topp.org
非野外项目
FMAP Future of Marine Animal Populations 海洋动物群体的未来 http://www.fmap.ca
HMAP History of Marine Animal Populations 海洋动物群体的过去 http://www.hmapcoml.org
OBIS Ocean Biogeographic Information Systems 海洋生物地理信息系统 http://www.iobis.org
MV Mapping & Visualization 绘图和可视化展示 http://www.comlmaps.org/ oceanlifemap
Marine Life 2010 :Highlights of a Decade of Discovery”
(2010 年第一次海洋生命普查 :10 年发现的亮点)
的 64 页的报告[6],描述海洋生命普查中 10 年探
索、研究和分析发现的科学亮点。http://www.coml.
org/census-resources 网站列出了此普查项目的一些资
源列表,对表 1 的各个项目都有网站详细描述其成
果。同时该项目主要的参与国家和地区也分别有各
自的网站介绍本国参与和获得的成果,包括澳大利
亚、加拿大、加勒比海、中国、欧洲、印度洋和美国。
2 环境宏基因组学数据库
上述 EMP、GOS 和 CoML 三个国际环境宏基因
组大项目获得了大量的样本和数据,也分别建立了
相应的数据库存储数据。此外,国际上还有其他一
些专业数据库存储环境微生物宏基因组学数据,供
全世界的研究者使用,以下分别介绍之(表 2)。
2.1 基因组在线数据库(GOLD)
基因组在线数据库(Genomes Online Database,
GOLD)[7],是一个存储基因组和宏基因组测序项目
信息及其元数据(Metadata)的网络资源。GOLD 中
包含的研究项目有 2 万多个,其中 546 个是宏基因
组研究项目。这些宏基因组样本的来源使用了谷歌
地图和谷歌地球来展示,遍布全世界各地,如美国、
澳大利亚、新西兰、巴拿马、马来西亚等,样本来
源环境包括温泉、淡水、海洋、土壤、绿色肥料、
人和动物身上的微生物群落等。GOLD 包含的生物
样本中环境相关的样本有 6 777 个。GOLD 数据库提
供了 3 种检索方式,快速搜索、高级搜索和元数据
搜索。其中快速搜索允许用户使用最常用的域或关
键字检索数据库。高级检索则可以对元数据的各个
域和数据库中各个分类层次进行精确的查找。元数
2015,31(11) 81王慧丽等 :环境微生物宏基因组学数据库利用
表 2 国际上已有环境微生物宏基因组学数据库资源列表
缩写 全称 网址 功能介绍
样本或
数据量
EMP The Earth Microbiome Project
(地球微生物组计划)
http://www.earthmicrobiome.org/
http://qiita.microbio.me/
描述全球微生物分类和功能
多样性,存储和分析微生物
组数据
33285
GOS Global Ocean Sampling
(全球海洋采样项目)
http://www.ncbi.nlm.nih.gov/sra/
http://camera.calit2.net/
http://data.imicrobe.us/
探测海洋生物基因组
CoML Census of Marine Life
(海洋生命普查)
www.coml.org 探索海洋生命的多样性,包
括多个海洋和地域的项目
14 个大
项目
GOLD Genomes Online Database
(基因组在线数据库)
https://gold.jgi-psf.org/ 基因组和宏基因组测序数据 6777
CAMERA (高级微生物生态分析系统) http://camera.calit2.net/ 储存环境基因组数据
MgOI MetagenomesOnline
(宏基因组在线)
http://metagenomesonline.org/ 环境宏基因组蛋白质数据库 258
HMP Hydrocarbon Metagenomics Project
(碳氢化合物的宏基因组项目)
http://www.hydrocarbonmetagenomics.com/
http://hmp.ucalgary.ca/HMP/
研究石油资源中的微生物群
落的宏基因组特征分析
31 个项目
EnvBase The EnvBase Data Catalogue
(环境组学数据目录)
http://envgen.nox.ac.uk/cgi-bin/envbase.cgi 一个可搜索的环境组学数据
索引
53 组
IMG Integrated Microbial Genomes
(整合微生物基因组系统)
http://img.jgi.doe.gov/ 储存、注释、分析和发布微
生物基因组和宏基因组数据
3374
MG-RAST the Metagenomics RAST
(宏基因组学分析服务器)
http://metagenomics.anl.gov/ 存储和分析宏基因组数据的
平台
208481
EBI Metagenomics 欧洲生物信息研究生宏基因组
网站
https://www.ebi.ac.uk/metagenomics 存储和分析宏基因组数据的
平台
4514
MeganDB The MEtaGenome Analyzer DataBase
(宏基因组分析仪数据)
http://www.megan-db.org/megan-db/ 存储和分析宏基因组数据 235
CoMet 宏基因组比较分析平台 http://comet2.gobics.de/ 基于蛋白结构域特征的宏基
因组比较分析平台
据搜索的目的是使用各种元数据标识符查询数据库。
各种搜索选项卡包含图形和表格表示其描述的项目
或生物的数量,以便获得一个项目和样品的整体情
况,同时可根据选择标准产生一个可排序的表和饼
形图方便参考。
2.2 CAMERA
CAMERA[8]提供了很多重要的资源,包括质
量可靠的经过校验的环境基因组数据库、用户提
交和保存环境相关分子序列数据的平台,以及开
放的计算资源用于宏基因组比较分析等,特别是
CAMERA 的计算资源,包括大规模的 BLAST 计算
能力和其他流程化分析能力。CAMERA 项目受到
Gordon 和 Betty Moore 基金会(GBMF)的海洋微生
物学计划(Marine Microbiology Initiative)和美国国
家自然科学基金委资助,主要服务于海洋微生物学
领域和其他用户。但是由于 GBMF 基金会资助的
终止,CAMERA 从 2014 年 7 月 1 日起不再为科学
领域提供计算需求,即不再接受新的计算申请提
交。但是 CAMERA 还将继续维护其收集的大量校
验好的数据,并提供免费的开放获取服务,这是通
过 CAMERA 的数据分发中心来完成的,同时可以链
接到海洋微生物真核转录组测序项目。其数据分发
中心提供下载的数据包括 :宏基因组和基因组数据,
该项目用到的参考基因组和蛋白质序列,约 750 个
来自数百个不同物种样本的转录组测序数据,以及
微生物基因组测序计划项目(The Microbial Genome
Sequencing Project)中获得的海洋环境宏基因组和生
态基因组及其比较分析的数据。这些海洋环境宏基
生物技术通报 Biotechnology Bulletin 2015,Vol.31,No.1182
因组和基因组测序筛选的样本主要是来自海洋和开
放沿海的细菌浮游生物群落。该项目是 JCVI 研究所
完成的,其完成了 177 个海洋微生物的测序、组装
和自动注释。这些物种的生理多样性较好,包括固碳、
光能自养型、光能异养型、硝化细菌和甲烷氧化菌等。
PLoS Biology 杂志于 2007 年 5 月专门为此项目做了
一期题为 Ocean Metagenomics Collection 的专刊[9]。
2.3 MetagenomesOnline(MgOI)
MgOI 是一个校准过的环境宏基因组蛋白质数
据库,包括病毒和微生物鸟枪法测序的宏基因组中
的预测蛋白质及其注释资源。MgOI 中的样本信息
比较丰富,包括样品来源、地理描述、环境参数、
取样和制备方法及环境本体论条目(Environmental
ontology terms)等,并且这些样本进一步被用 MgOI
的样本描述方法归类,使之容易被理解和比较。
MgOI 最初是被设计为 VIROME 宏基因组项目[10]注
释流程中的环境蛋白质数据库。用户可以在网站上
使用 MgOI BLAST 工具对数据库进行小规模(小于
10 条序列)的同源序列搜索,或者下载全部的数据
库进行本地化的搜索。目前,MgOI 数据库中包括
50 个项目的总共 258 个文库(包括病毒、原核和真
核)的数据,其中总蛋白质条数为 56 254 299,总
氨基酸数目达 6 480 011 292。
2.4 Hydrocarbon Metagenomics Project(HMP)
为了应对碳氢化合物相关能源研究,加拿大启
动了碳氢化合物的宏基因组项目(HMP)[11]。这个
项目研究加拿大石油资源中的微生物群落的宏基因
组特征,目的是开发新的和改进现有的生物过程,
提高碳氢化合物的获取,减少能源使用和温室气体
排放。这个项目产生了大量序列和分析数据,同时
还开发了宏基因组分析工具和流程。HMP 数据库中
含有来自 31 个项目的宏基因组数据,主要样本来
自含油砂、油田、尾矿池、煤层等环境。宏基因组
数据包括采用 454 或 Illumina 测序得到的原始或经
过质控的测序数据,经过序列组装的 contig 结果等。
每个宏基因组样本,都有一个单独的页面可以查看
或者下载原始的和处理后的数据,以及每一步的分
析结果。这些项目数据绝大部分都上传到 IMG/M、
MG-RAST 或 NCBI SRA 数据库中,并提供了其链接。
2.5 The EnvBase Data Catalogue
EnvBase 是一个可搜索的环境组学数据索引,
属于英国国家环境研究委员会(National Environment
Research Council,简称 NERC)下的环境生物信息
中心(NERC Environmental Bioinformatics Centre,简
称 NEBC)。EnvBase 包括不同研究组提交的 53 组环
境组学数据集。
2.6 IMG Data Management
这 是 美 国 能 源 部 联 合 基 因 组 研 究 所(DOEs
Joint Genome Institute,简称 JGI)的整合微生物基因
组 系 统(Integrated Microbial Genomes, 简 称 IMG),
该系统的目标是注释、分析和发布 JGI 测序的微
生物基因组和宏基因组数据,因此同时含有宏基
因组数据库和分析平台。只要同意其数据发布政
策,IMG 面向全世界的科学家提供免费的宏基因组
数据注释、分析和整合的支持,同时也可以自由获
取整合的基因组和宏基因组的比较分析。截至 2014
年 12 月 31 日,IMG 有 来 自 6 大 洲,88 个 国 家 的
10 310 名用户。IMG 系统的数据分发政策是上传的
基因组和宏基因组数据自从这些数据可以用于分析
时起保持私有状态 2 年,之后将会公开给全世界的
科研界共享。到 2015 年初,IMG 共有来自所有生
命界的 32 802 个基因组数据集和 5 234 个宏基因组
数据集,其中 IMG 宏基因组数据仓库(IMG/M)中
包含 245 个项目的 3 374 个公开的宏基因组数据集,
对应 3 161 个独立样本,其中环境样本数据集有
2 021 个(空气 31 个,水环境 1 207 个,陆地环境
783 个),其他的为工程领域和宿主相关的样本[12]。
用户可以免费注册一个账号,登录后可以浏览查看
和分析数据库中已有的公共数据,也可以上传自己
的数据进行分析。IMG 数据中,20% 的基因组和
75% 的宏基因组数据样本是 JGI 测序的。
IMG 中的基因使用了多个功能资源进行鉴定和
注释,这些资源包括 COG、KOG、KEGG、PFAM、
TIGRfam、MetaCyc 和 Gene Ontology。IMG 数据统计
页面含有当前 IMG 中的基本数据统计,包括基因组
统计(如处于完成和草图状态的细菌、古细菌、真
核、质粒、病毒、微生物组和基因组片段的数目)、
基因统计(各类蛋白质编码基因和 RNA 编码基因的
2015,31(11) 83王慧丽等 :环境微生物宏基因组学数据库利用
统计以及这些基因在 COG、KOG、Pfam 等数据库中
的注释比例)、功能统计(有 Gene ontology 和 KEGG
pathway 功能注释的基因统计、各种功能酶统计等)
和组学实验统计(蛋白质实验、转录组研究、甲基
化实验和必需基因实验等)。其中基因组统计中的
微生物组即为宏基因组(图 1-A)。点击微生物组下
面的数字或者首页左边的统计信息中的 Metagenome
后, 进 入“Find Genomes” 页 面, 也 即“Genome
Browser”页面,此页面使用分页方式展示了所有公
开的宏基因组研究项目信息,也可以使用关键字进
行过滤筛选(图 1-B)。然后选择其中一个数据集点
击其中的“Genome Name/Sample Name”可以进入该
数据集的具体信息页面,包括该研究名称、样本名、
采集时间、地点等基本信息,同时也包含该数据集
的基本统计信息和基因信息。此页面中的功能还包
括把该数据加入待分析的购物车、浏览已分析好的
基因组、BLAST 分析基因组和下载数据(图 1-C)。
此页面的数据统计信息包括宏基因组数据统计,如
序列数目、碱基数目、G+C 含量、基因数目等(图 1-D),
也可以根据关键字查询相关注释基因信息,浏览基
因组组装的 scaffold 和浏览基因长度分布信息等(图
1-E)以及浏览基因组在进化和系统发生学上的分布
(图 1-F)。
3 环境宏基因组数据分析平台
随着宏基因组技术产生的大量数据需要分析,
很多研究组发展了宏基因组学数据分析方法和工具。
这些工具在用户使用上可以分为两类 :一类是可以
独立下载安装的宏基因组分析软件包,使用它一般
需要较强的生物信息学基础 ;另一类是在线的宏基
因组数据分析平台,这是为了使生物信息基础薄弱
的研究者也能分析宏基因组数据而开发的,因此较
为简单易用。本文着重介绍这一类在线的宏基因组
分析平台。这类平台可以上传和保存数据,故通常
也包含有存储宏基因组数据的功能,即它们通常既
是数据库也是分析平台。如上文提到的 IMG 整合微
生物基因组系统,该系统既可以分析 IMG 数据库中
存储的公共数据,也可以上传新的数据进行分析。
下面再介绍其他几个比较常见的宏基因组数据在线
分析平台。
3.1 MG-RAST(the Metagenomics Analysis Server)
MG-RAST 服务器是一个基于序列数据提供微
生物群落的定量分析的宏基因组自动分析平台[13],
这个服务器主要提供数据上传、质量控制、自动
注释和分析原核宏基因组鸟枪法测序数据。MG-
RAST 启动于 2007 年,有超过 12 000 个注册用户。
截 至 2015 年 9 月,MG-RAST 服 务 器 含 有 208 481
个宏基因组数据集,共 83.42 Tb 碱基数据,其中
近 3 万个宏基因组数据是公开的。对这些公开的
数据,可以直接下载、分析和查询注释信息,如
http://metagenomics.anl.gov/metagenomics.cgi?page=Ana
lysis&metagenome=4440039.3 是其中一个公开数据的
分析页面,用户可以选择不同的数据展示方式(如
表格、树图、热图、柱图等)进行分析和注释,也
可以查看某个宏基因组数据的详细信息如页面 http://
metagenomics.anl.gov/?page=MetagenomeOverview&met
agenome=4440036.3。
MG-RAST 是目前使用最为广泛的宏基因组数据
在线分析服务器,目前更新到第 3 版本。注册用户
可以上传宏基因组数据(测序的 fastq 格式即可)进
行分析。上传数据后,可以使用其 managebox 工具
提供的 join paired-ends 功能把双端测序的两个文件
整合成一个文件便于后续分析。接下来进行参数选
择,有一些对数据过滤的选项(如低质量序列过滤
和宿主物种序列过滤),可以根据具体情况选择,或
者使用默认参数。分析完成后,MG-RAST 将对数据
结果以多种形式展现,如图 2 所示。这些分析包括
与各种注释数据库的匹配序列数目和相似性匹配程
度(图 2-A)、各类蛋白质在数据库中的注释类型统
计(图 2-B)、Subsystems 系统注释[14]的蛋白质分
类和物质分类信息统计、宏基因组中样本分类在门
纲目科属的各分类层次数目统计(图 2-E)以及多
个样本的蛋白质功能注释树形比较图等(图 2-F)。
3.2 EBI Metagenomics
EBI Metagenomics[15] 是 欧 洲 生 物 信 息 学 研 究
所(EBI)搭建的分析和存储宏基因组数据的分析
平台。用户经注册后可以提交自己产生的宏基因组
数据,提交后系统将自动存档数据到欧洲核酸存
档 库 中(European Nucleotide Archive,ENA), 并
生物技术通报 Biotechnology Bulletin 2015,Vol.31,No.1184
将自动分配数据登录号以便于数据公开。提交到
EBI Metagenomics 的数据最后都必须要公开,但是
用户可以选择一个不长于 2 年的数据保密期。EBI
Metagenomics 提供的分析宏基因组数据流程主要包
括以下几步 :(1)数据质量控制,如去除或者截断
低质量的序列,序列片段长度过滤等 ;(2)通过
rRNASelector 程序对测序的宏基因组序列片段进行
核 糖 体 RNA(rRNA) 筛 选, 然 后 针 对 rRNA 和 非
rRNA 序列分开处理 ;(3)针对 rRNA 序列,使用
QIIME 软件包对其中的 16S rRNA 序列进行分类分
析,获得宏基因组样本中包含的物种类别 ;(4)对
于非 rRNA 序列,使用 FragGeneScan 软件预测其蛋
白质编码区域,并使用 InterProScan 程序预测这些
蛋白质的功能结构域和进行功能分析。除了单个样
图 1 IMG 系统中的宏基因组数据详细信息浏览
2015,31(11) 85王慧丽等 :环境微生物宏基因组学数据库利用
本数据的分析,EBI Metagenomics 还提供一个比较
分析工具,可以选择已经存储在该数据库中的某个
项目中的多个样本数据进行比较分析。这个比较分
析主要是对宏基因组数据中蛋白编码序列的 Gene
Ontotolgy 注 释 进 行 比 较 分 析。 截 至 2015 年 9 月,
EBI Metagenomics 中存储的可以公开访问的数据有来
自 127 个项目的 4 514 个样本的数据,样本来源于
土壤、海洋等环境微生物和人的肠道微生物等。对
于每个已经公开的数据,其基本的分析结果也可以
浏览和下载,包括数据质量控制结果、多种图形方
式展示的物种分类结果和功能分析结果等。
3.3 宏基因组分析仪数据库(MeganDB)
宏 基 因 组 分 析 仪 数 据 库(The MEtaGenome
Analyzer Data-Base,MeganDB)是一个为宏基因组
分析工具 MEGAN[16]特别设计的宏基因组数据库。
MEGAN 是一个分析宏基因组分类学和功能的独立
下载软件包,目前已经更新到第 5 版本,使用也比
较广泛。MEGAN 使用 NCBI 的分类系统进行物种分
类, 同 时 使 用 SEED、KEGG、COG 等 多 个 系 统 进
行功能注释,以及进行其他一些比较、聚类和画图
等分析。MeganDB 数据库目前存储了 235 套宏基因
A
C
E
FD
B
图 2 MG-RAST 宏基因组注释系统的分析结果
生物技术通报 Biotechnology Bulletin 2015,Vol.31,No.1186
组数据,并提供了一个 Java 网络版本的 MEGAN 程
序,可以对一个或多个选择的宏基因组样本数据进
行分析,也可以使用 MEGAN 分析用户自己的数据
(<100 MB)或比较公共数据与用户自己的样本数据。
MEGAN 服务器可以用于上传数据和下载已有宏基因
组数据,也可以查询和启动分析这些数据。
3.4 CoMet
CoMet[17]是一个快速进行宏基因组功能谱比较
分析的在线分析平台。比较方便的是使用 CoMet 平
台不需要注册即可上传宏基因组数据分析。CoMet
平台对于用户上传的 FASTA 格式的 DNA 序列进行
基因预测,然后预测其中编码的 Pfam 功能结构域,
最后再进行统计分析和比较。值得注意的是 CoMet
没有上述数据库的保存数据功能,用户提交用于分
析的数据在 2 个月后将自动删除,以节省空间。
4 重点数据库的比较分析
上 述 内 容 分 别 介 绍 了 微 生 物 宏 基 因 组 数 据
库和平台,接下来对其中几个较大的数据库进行
比 较 分 析。 全 球 海 洋 采 样 项 目 GOS 的 目 标 是 评
估海洋微生物群落的遗传多样性,其大量的原始
数 据 存 储 于 NCBI SRA 数 据 库 中, 同 时 也 存 储 于
http://data.imicrobe.us/, 具 体 数 据 见 http://mirrors.
iplantcollaborative.org/browse/iplant/home/shared/
imicrobe/projects/26/CAM_PROJ_GOS.read.fa。但是这
两个网站都只能下载原始数据,没有分析的结果,
用户只能自己根据需要下载原始测序数据分析。海
洋生命普查 CoML 项目的普查对象也是海洋,但是
不只限于微生物,还包括其他生物。其目的是评估
和解释全世界海洋生命的多样性、分布和丰富性。
样本来自多个海域和不同地理环境,如北冰洋、深
海、大陆边缘、珊瑚礁等。其中的 ICoMM 项目是
国际海洋微生物普查项目,旨在促进一个能加速发
现、理解和意识到海洋微生物的全球意义的议程和
环境[18]。ICoMM 项目数据存储在 https://vamps.mbl.
edu/portals/icomm/icomm.php/microbis/ 网 站 中, 需
要注册才能使用。IcoMM 的信息主要包含 VAMPS
(Visualization and Analysis of Microbial Population
Structures)这一整合的数据库和工具集,其提供了
微生物的序列以及工具用于分析和可视化微生物
群落结构,主要包括可视化分析和数据匝道(data
ramp)2 个必要元件。可视化分析包括基于对单个
微生物群落的物种分类或独立起源的可操作物种单
元(Operational taxonomic units,OTUs)所做的分析
热图、饼图、多样性估计、稀释曲线和表格数据输
出等。数据匝道是研究者将其自己的数据(序列或
者物种分类数据)导入 VAMPS 网站使之与目前共
享的数据合并用于单独或者比较分析。另一个大的
项目地球微生物组计划 EMP,其收集和测序的样本
是来自不同地球环境和生态系统的微生物,然后同
时使用宏基因组、宏转录组和扩增子测序分析,产
生了全球基因图谱描述每个生物群落的蛋白质和环
境代谢模型,以及重建的微生物基因组。所以 EMP
项目的数据类型更多,除宏基因组外,还有宏转录组、
代谢组、蛋白质和代谢模型等。
IMG Data Management 和 MG-RAST 作为两个存
储较多微生物数据并且提供分析的平台,它们都能
分析数据库本身存储的数据,也可以分析用户上传
的数据。但是分析内容有些不同,IMG 分析内容比
较多,包括整合 KEGG、PFAM 等多个功能资源对数
据进行鉴定和注释,同时也有基本的数据统计如序
列碱基数目、G+C 含量等,还可以进行基因组组装
并展示基因组在系统发生学上的分布。而 MG-RAST
则主要是分析宏基因组数据中的物种分布类别组成,
但是它提供了树图、柱状图、热图、组成分分析图
和表格等方式展示结果,结果形式多样化。
5 展望
宏基因组学是研究环境微生物的一个重要手
段,这些宏基因组数据的解析依赖于很好的分析工
具。目前虽然有不少宏基因组分析工具,但还是存
在一些不足。对宏基因组测序数据处理最理想的结
果就是通过组装软件组装出其中各种微生物的基因
组。但是目前还远远做不到,只能在很大测序数据
量的情况下对少数序列差异较大的物种组装有较好
效果。组装的效果一方面依赖于测序的深度和序列
片段长度的加大,另一方面依赖于组装算法的改进,
需要能在宏基因组这样的混合样本中辨别出单个基
因组序列并组装。基因组组装后需要进行基因预测,
目前也有很多基因测序软件,但是宏基因组中不同
2015,31(11) 87王慧丽等 :环境微生物宏基因组学数据库利用
物种可能有不同的密码子偏好性和物种特异的基因,
因此需要有适应性更广的预测算法或者同时使用多
种预测软件和训练数据进行预测。宏基因组数据中
的物种分类也是其中一个关键分析,目前有基于基
因、参考基因组比较、序列组成等多种方式的物种
分类[19]。基于宏基因组数据中预测到的基因的相似
性注释分类是目前最为普遍的物种分类方法。
上述宏基因组数据分析工具都需要有一定的生
物信息学基础和技能才能分析,这也是目前困扰环
境微生物研究者的问题之一。因此,将已有的环境
宏基因组数据建立方便易用的在线公开数据库,搭
建操作简单的网络版本宏基因组学分析平台是非常
有必要的,也是研究共享的必然趋势。可喜的是,
国际上已有几十个相关数据库和平台,这些资源存
储了许多重要的国际合作项目或者个人研究项目的
环境宏基因组学数据,其总的数据量达到上百万个
样本的级别,样本类型也是多种多样,包括海洋、
陆地、极端环境、油田等环境的样本。此外,除了
上述介绍的专门存储环境微生物宏基因组数据的数
据库,NCBI 的 SRA 数据库也专门存储各种高通量
测序的数据,包括各种基因组和转录组数据,其中
含有约 6 000 组非肠道微生物的环境宏基因组数据
集。另一方面,这些数据的采样和产生都耗费了大
量人力物力和经费,充分利用它们也是对资源的重
利用,可以减少消耗,提高效率,节省各方面的开
销和能源。
如何充分利用和挖掘这些数据,对它们进行综
合的二次深度分析,获得新的发现,是一个值得思
考的问题。目前环境宏基因组领域内的一个比较大
的问题是数据分散在不同的数据库中或者分布在不
同的研究者手中。如果能收集所有数据并从不同的
角度整理这些数据,如从环境类型、数据类型等角
度整合这些数据,将能更加方便的为其他研究者提
供便利。例如,研究热泉环境的微生物就可以直接
提取热泉环境的宏基因组数据集进行整合分析,而
不需要花费大量精力收集数据,甚至重新采集样本
测序。合理有效的整合这些不同来源和类型的环境
宏基因组数据将是一个发展方向和趋势。本文介绍
的这些环境宏基因组数据库就是这方面的尝试,介
绍和了解这些不同大项目的数据或者不同研究者来
源的数据。用户可以根据自己的需求综合这些数据
库进行使用,获得最全面的所需要的数据。利用已
有的宏基因组学数据从不同的角度整合、比较和分
析发现,新的微生物资源及其可利用规律,必将推
动环境微生物的研究。
参 考 文 献
[1] 孙欣 , 高莹 , 杨云锋 . 环境微生物的宏基因组学研究新进展[J].
生物多样性 , 2013, 21(4):393-400.
[2] Handelsman J, Rondon MR, Brady SF, et al. Molecular biological
access to the chemistry of unknown soil microbes :a new frontier
for natural products[J]. Chemistry & Biology, 1998, 5(10):
R245-R249.
[3] Chistoserdova L. Recent progress and new challenges in metageno-
mics for biotechnology[J]. Biotechnology Letters, 2010, 32(10):
1351-1359.
[4] Gilbert JA, Jansson JK, Knight R. The Earth Microbiome project :
successes and aspirations[J]. BMC Biology, 2014, 12(1):69.
[5]Venter JC, Remington K, Heidelberg JF, et al. Environmental
genome shotgun sequencing of the Sargasso Sea[J]. Science,
2004, 304(5667):66-74.
[6]CoML. First census of marine life 2010 :highlights of a decade of
discovery[R]. Washington :Census of Marine Life, 2010.
[7]Reddy TBK, Thomas AD, Stamatis D, et al. The Genomes OnLine
Database(GOLD)v. 5 :a metadata management system based on
a four level(meta)genome project classification[J]. Nucleic
Acids Research, 2015, 43 (D1): D1099-D1106.
[8]Sun S, Chen J, Li W, et al. Community cyberinfrastructure for
advanced microbial ecology research and analysis :the CAMERA
resource[J]. Nucleic Acids Research, 2011, 39(suppl. 1):
D546-D551.
[9]Parthasarathy H, Hill E, MacCallum C. Global ocean sampling
collection[J]. PLoS Biology, 2007, 5(3):e83.
[10]Wommack KE, Bhavsar J, Polson SW, et al. VIROME :a
standard operating procedure for analysis of viral metagenome
sequences[J]. Standards in Genomic Sciences, 2012, 6(3):
427.
[11]An D, Caffrey SM, Soh J, et al. Metagenomics of hydrocarbon
resource environments indicates aerobic taxa and genes to be
unexpectedly common[J]. Environmental Science & Technology,
生物技术通报 Biotechnology Bulletin 2015,Vol.31,No.1188
2013, 47(18):10708-10717.
[12]Markowitz VM, Chen IMA, Chu K, et al. IMG/M 4 version of the
integrated metagenome comparative analysis system[J]. Nucleic
Acids Research, 2014, 42(D1):D568-D573.
[13]Meyer F, Paarmann D, D’Souza M, et al. The metagenomics
RAST server-a public resource for the automatic phylogenetic and
functional analysis of metagenomes[J]. BMC Bioinformatics,
2008, 9(1):386.
[14]Overbeek R, Begley T, Butler RM, et al. The subsystems approach
to genome annotation and its use in the Project to Annotate 1000
Genomes[J]. Nucleic Acids Research, 2007, 33(17):5691-
5702.
[15] Hunter S, Corbett M, Denise H, et al. EBI metagenomics--a new
resource for the analysis and archiving of metagenomic data[J].
Nucleic Acids Research, 2014, 42(D1):D600-D606.
[16]Huson DH, Auch AF, Qi J, et al. MEGAN analysis of metagenomic
data[J]. Genome Research, 2007, 17(3):377-386.
[17]Lingner T, Asshauer KP, Schreiber F, et al. CoMet--a web server
for comparative functional profiling of metagenomes[J]. Nucleic
Acids Research, 2011, 39(8):W518-523.
[18]Amaral-Zettler L, Artigas LF, Baross J, et al. A global census of
marine microbes[M]// Life in the World’s Oceans :Diversity,
Distribution, and Abundance. Wiley-Blackwell, 2010.
[19]Teeling H, Glöckner FO. Current opportunities and challenges in
microbial metagenome analysis--a bioinformatic perspective[J].
Briefings in Bioinformatics, 2012, 13(6):728-742.
(责任编辑 马鑫)