全 文 :园 艺 学 报 2012,39(11):2245–2250 http: // www. ahs. ac. cn
Acta Horticulturae Sinica E-mail: yuanyixuebao@126.com
收稿日期:2012–06–18;修回日期:2012–09–26
基金项目:国家现代苹果产业技术体系项目(CARS-28)
* 通信作者 Author for correspondence(E-mail:hrshu@sdau.edu.cn)
苹果功能基因组数据库的构建与使用
张世忠 1,付 莹 1,周 波 2,姜泽盛 1,许瑞瑞 3,束怀瑞 1,*
(1 山东农业大学园艺科学与工程学院,山东泰安 271018;2 山东农业大学生命科学学院,山东泰安 271018;3潍坊
学院生物与农业工程学院,山东潍坊 261061)
摘 要:苹果功能基因组数据库是在苹果全基因组分析及注解基础上,对苹果基因组进行广泛的基
因家族分类及系统进化分析;数据库还包含广泛的基因信息,包括 CDS 及蛋白质序列、染色体定位、基
因结构、GO 分类、蛋白质结构域分析、Interpro 分类、表达谱、microRNA 及相关文献等;此外,数据库
还提供用户交互平台,研究人员可提交基因信息及相关文献等参与苹果基因注释。数据库登录地址是:
http://www. applegene. org/或 http://gfdb. sdau. edu. cn/。
关键词:苹果;基因功能;基因家族;数据库
中图分类号:S 661.1 文献标志码:A 文章编号:0513-353X(2012)11-2245-06
The Construction and Instruction Manual of Apple Functional Genomic
Database
ZHANG Shi-zhong1,FU Ying1,ZHOU Bo2,JIANG Ze-sheng1,XU Rui-rui3,and SHU Huai-rui1,*
(1College of Horticulture Science and Technology,Shandong Agricultural Unversity,Tai’an,Shandong 271018,China;
2College of Life Science,Shandong Agricultural Unversity,Tai’an,Shandong 271018,China;3 College of Biological and
Agricultural Engineering,Weifang University,Weifang,Shandong 261061,China)
Abstract:Through analyzing and mining the genome-wide sequence of the apple,the Apple Gene
Function and Gene Family DataBase(AppleGFDB)provide the classification and phylogenetic analysis of
159 gene families in apple. The database includes a series of information about the genes,including
nucleotide or protein sequence,chromosomal location,gene structure,gene ontology(GO),protein
conserved domain,interpro,the expression profile,microRNA and related publication. Furthermore,
AppleGFDB specially develops a user-interactive platform which provided the researchers a chance to
modify annotation of apple genes and submit publication. AppleGFDB was available at http://www.
applegene. org/ or http://gfdb. sdau. edu. cn/.
Key words:apple;gene function;gene family;database
苹果(Malus × domestica)作为模式果树植物受到了科学界的高度重视。苹果基因组测序已经
完成(Velasco et al.,2010),亟待一个完整的、综合的基因组数据库来收集、存储、比对和集成基
因注释。已公布的几个苹果基因组数据库,如 GDR(Genome Database for Rosaceae),IAMSA(FEM-
IASMA Computational Biology Web Resources),Plaza(Jung et al.,2008;Proost et al.,2009;Velasco
2246 园 艺 学 报 39 卷
et al.,2010)等提供了苹果基因组核酸或蛋白质序列、表达序列标签(EST)、Blast 搜索和基因组
浏览等信息,但是缺乏全面的基因组信息和基因家族分类,以及苹果表达图谱及 microRNA 信息等。
此外,这些数据库缺乏一个适时的、良好的用户交互界面,以给用户提供改进和纠正信息的平台。
更重要的是,这些数据库都不是专门为苹果的功能基因组学研究而建立,也未对基因组信息进行深
入分析,更未随时收录苹果的基因信息。因此有必要开发一个专门整合苹果基因组信息相关的不同
来源数据并对数据进行注释的平台。
1 数据来源与分析
1.1 数据来源及分析工具
核酸和蛋白序列、基因结构及染色体定位等苹果基因组信息基本信息均来源于 GDR(Jung et al.,
2008)及 IAMSA(http://genomics. research. iasma. it)数据库。microRNA 来自 NCBI 文献搜索查
找及植物 microRNA 数据库(PMRD-plant microRNA DataBase)(Zhang et al.,2010)。从拟南芥数
据库(Rhee et al.,2003)下载拟南芥蛋白序列及基因注释,构建本地 Blast 数据库,通过寻找拟南
芥中最高同源基因的方法来对苹果基因进行注释。表达谱信息来源于 NCBI 的 GEO(Barrett et al.,
2011)数据库和 EBI Array Express(Parkinson et al.,2009),通过 perl 程序及 mysql 数据库处理、整
合芯片数据信息。GO(Barrel et al.,2009)数据主要来源于拟南芥同源性最高蛋白的 GO 分类注释,
对苹果全基因组进行 GO 分析。苹果全基因组蛋白序列保守结构域分析主要通过 PFAM(Bateman et
al.,2011),SMART(Letunic et al.,2009)及 NCBI-CDD(Marchler-Bauer et al.,2011)等数据库
蛋白序列预保守性预测工具进行预测。
1.2 基因家族分类
为了对苹果基因组的编码蛋白分类,参考拟南芥基因家族数据库及转录因子数据库
(Pérez-Rodríguez et al.,2010)等基因家族分类方法和原则,构建了基因家族 HMM 特征序列模型;
通过对全基因组蛋白序列预测,得到苹果基因组蛋白结构,根据基因家族蛋白结构特征,筛选具有
结构域的蛋白,删除不包含结构域的蛋白,利用 perl 程序完成对苹果全基因组的家族分类(图 1)。
图 1 基因家族分类步骤
Fig. 1 Pipeline for the identification and classification of gene families
11 期 张世忠等:苹果功能基因组数据库的构建与使用 2247
2 数据库浏览与使用
2.1 数据库导航
AppleGFDB(Apple Gene Function and Gene Family DataBase)数据库由 7 个部分组成,分别是
基因家族数据库(Gene Family DataBase)、蛋白结构域数据库(Conserved Domain DataBase)、GO
数据库(Gene Ontology DataBase)、Interpro 数据库、序列比对数据库(Blast DataBase)、microRNA
数据库以及文献数据库(Publication DataBase)。数据库导航如图 2 所示。
图 2 数据库结构
Fig. 2 The website structure of the database
用户可以通过浏览或者使用序列比对、搜索等查看基因信息,基因的基本信息包括核苷酸及蛋
白质序列、染色体定位、基因结构、基因的 GO 分类、蛋白保守性结构、基因表达谱结果及相关文
献等信息。此外,系统提供了用户修改窗口,以方便用户提交基因及基因家族注释等。
2.2 基因家族浏览
利用拟南芥基因家族的分类标准,基于基因家族蛋白序列保守性,建立了 159 个基因家族的
HMM 特征序列,并对苹果基因进行了分类,提取 159 个基因家族共 15 326 个基因进行家族进化分
析,其中包括 57 个转录因子基因家族共 3 039 个基因。利用 MUSCLE(Edgar,2004)进行多重序
列比对,构建进化树,进行家族进化分析。用户可以直接在数据库中寻找并下载基因家族,进行家
族基因的系统进化及功能研究。
2.3 目的基因查询
分析具有功能特征的蛋白结构域对于研究者快速了解蛋白的功能至关重要。利用 PFAM、
2248 园 艺 学 报 39 卷
SMART、COG、TIGRFAM 及 NCBI-CDD 数据库的信息对苹果基因组进行了全面的蛋白结构域分析,
建立了蛋白结构域数据库。研究人员可以输入结构域名称、关键词或者是结构域代码搜索苹果中含
有相关信息的所有苹果基因。同时,还可以在 GO 数据库中通过关键词模糊搜索某个功能过程的所
有苹果基因,或者是利用 GO 编号搜索相关功能的苹果基因。
此外,可以利用数据库提供的 BLAST 序列比对服务,在苹果基因组中进行核酸或蛋白的序列
比对,得到与检索序列同源的苹果基因。
2.4 基因表达谱搜索
从 NCBI GEO 数据库和 EBI Array Express 的公共库收集了所有可用的苹果芯片,目前,
AppleGFDB 包含 8 个试验得到的表达谱信息。这些试验包括果实发育不同时期、果实脱落、接穗与
枕木互作等(Newcomb et al.,2006;Lee et al.,2007;Schaffer et al.,2007; Janssen et al.,2008;
Costa et al.,2010;Philip et al.,2010;Botton et al.,2011;Sarowar et al.,2011),可以直接输入基
因名查看基因表达谱信息。
2.5 小 RNA 数据浏览
通过搜索文献及 microRNA 数据库,AppleGFDB 收集整理了苹果 microRNA 信息,包括苹果
microRNA 成熟体序列、前提序列及靶基因预测信息,并将搜集到的靶基因与苹果基因对应
(Varkonyi-Gasic et al.,2010;Yu et al.,2011),研究人员可以浏览苹果 microRNA 及其靶基因。
3 讨论
随着苹果基因组测序的完成,苹果生物学研究进入后基因组时代和系统生物学时代。全基因组
序列为解析和阐明基因的功能,为在经典的分子生物学及生物工程学基础上研究基因的功能提供了
强大的序列支持。基因组学、转录组学、蛋白组学、代谢组学、表型组学紧密联系又相互融合,有
利于从整体上阐明苹果生理学机理,为栽培耕作体系的革新提供强大的理论依据,将极大推动品种
遗传改良及新品种的培育。
面临高通量的数据,如何利用生物信息学整理、挖掘及分析数据信息便成了难题,也是后基因
组时代系统生物学研究的关键。
苹果基因组测序完成后,GDR、IAMSA、Plaza 等数据库提供了序列比对及基因浏览功能,但
是缺少苹果基因更全面的信息,如蛋白结构、GO、表达谱及小 RNA 等信息。AppleGFDB 不仅包含
苹果基因组的基础信息,如核酸或蛋白质序列和染色体上的位置,还包含更广泛的信息及注释,包
括基因功能的描述、基因结构、蛋白结构域、基因表达谱及 microRNA 及保守结构域(Conserved
Domain)和 GO 分类等诸多信息,并在此基础上对基因组进行了广泛的基因家族分类和系统进化分
析。此外,数据库提供了序列比对和全库搜索以及信息下载等工具。
为了方便数据收集,AppleGFDB 的用户互动平台提供了研究者增加和修改苹果基因信息的接
口,希望通过研究者们共同的努力来促进苹果基因的全面准确的注释。
AppleGFDB 数据库不仅整合了苹果基因组的序列信息,而且包含了更多的功能分析,更重要的
是提供了用户互动平台,可以更及时地与用户交流和沟通,实现信息的互动。
References
Bateman A,Coin L,Durbin R,Finn R D,Hollich V,Griffiths-Jones S,Khanna A,Marshall M,Moxon S,Sonnhammer E L,Studholme D
11 期 张世忠等:苹果功能基因组数据库的构建与使用 2249
J,Yeats C,Eddy S R. 2011. The Pfam protein families database. Nucleic Acids Research,38 (Database issue):211–222.
Barrell D,Dimmer E,Huntley R P,Binns D,ODonovan C,Apweiler R. 2009. The GOA database in 2009–an integrated Gene Ontology
Annotation resource. Nucleic Acids Research,37 (Database issue):396–403.
Barrett T,Troup D B,Wilhite S E,Ledoux P,Evangelista C,Kim I F,Tomashevsky M,Marshall K A,Phillippy K H,Sherman P M,Muertter
R N,Holko M,Ayanbule O,Yefanov A,Soboleva A. 2011. NCBI GEO:Archive for functional genomics data sets–10 years on. Nucleic Acids
Research,39 (Database issue):1005–1010.
Botton A,Eccher G,Forcato C,Ferrarini A,Begheldo M,Zermiani M,Moscatello S,Battistelli A,Velasco R,Ruperti B,Ramina A. 2011.
Signaling pathways mediating the induction of apple fruitlet abscission. Plant Physiology,155:185–208.
Costa F,Alba R,Schouten H,Soglio V,Gianfranceschi L,Serra S,Musacchi S,Sansavini S,Costa G,Fei Z,Giovannoni J. 2010. Use of homologous
and heterologous gene expression profiling tools to characterize transcription dynamics during apple fruit maturation and ripening. BMC Plant
Biology,10:229.
Edgar R C. 2004. MUSCLE:Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Research,32 (5):1792–
1797.
Janssen B J,Thodey K,Schaffer R J,Alba R,Balakrishnan L,Bishop R,Bowen J H,Crowhurst R N,Gleave A P,Ledger S,McArtney S,
Pichler F B,Snowden K C,Ward S. 2008. Global gene expression analysis of apple fruit development from the floral bud to ripe fruit. BMC
Plant Biology,8:16.
Jung S,Staton M,Lee T,Blenda A,Svancara R,Abbott A,Main D. 2008. GDR(Genome Database for Rosaceae):Integrated web-database
for Rosaceae genomics and genetics data. Nucleic Acids Research,36 (Database issue):1034–1040.
Lee Y P,Yu G H,Seo Y S,Han S E,Choi Y O,Kim D,Mok I G,Kim W T,Sung S K. 2007. Microarray analysis of apple gene expression engaged
in early fruit development. Plant Cell Reports,26 (7):917–926.
Letunic I,Doerks T,Bork P. 2009. SMART 6:Recent updates and new developments. Nucleic Acids Research,37 (Database issue):229–
232.
Marchler-Bauer A,Lu S,Anderson J B,Chitsaz F,Derbyshire M K,DeWeese-Scott C,Fong J H,Geer L Y,Geer R C,Gonzales N R,Gwadz
M,Hurwitz D I,Jackson J D,Ke Z,Lanczycki C J,Lu F,Marchler G H,Mullokandov M,Omelchenko M V,Robertson C L,Song J
S,Thanki N,Yamashita R A,Zhang D,Zhang N,Zheng C,Bryant S H. 2011. CDD:A Conserved Domain Database for the functional
annotation of proteins. Nucleic Acids Research,39 (Database issue):225–229.
Newcomb R D,Crowhurst R N,Gleave AP,Rikkerink E H,Allan A C,Beuning L L,Bowen J H,Gera E,Jamieson K R,Janssen B J,Laing
W A,McArtney S,Nain B,Ross G S,Snowden K C,Souleyre E J,Walton E F,Yauk Y K. 2006. Analyses of expressed sequence tags from
apple. Plant Physiology,141 (1):147–166.
Parkinson H,Kapushesky M,Kolesnikov N,Rustici G,Shojatalab M,Abeygunawardena N,Berube H,Dylag M,Emam I,Farne A,Holloway
E,Lukk M,Malone J,Mani R,Pilicheva E,Rayner T F,Rezwan F,Sharma A,Williams E,Bradley X Z,Adamusiak T,Brandizi M,
Burdett T,Coulson R,Krestyaninova M,Kurnosov P,Maguire E,Neogi S G,Rocca-Serra P,Sansone S A,Sklyar N,Zhao M,Sarkans
U,Brazma A. 2009. ArrayExpress update-from an archive of functional genomics experiments to the atlas of gene expression. Nucleic Acids
Research,37 (Database issue):868–872.
Pérez-Rodríguez P,Riaño-Pachón D M,Corrêa L G,Rensing S A,Kersten B,Mueller-Roeber B. 2010. PlnTFDB:Updated content and new features
of the plant transcription factor database. Nucleic Acids Research,38 (Database issue):822–827.
Philip J Jensen,Izabela Makalowska,Naomi Altman,Gennaro Fazio,Craig Praul,Siela N Maximova,Robert M Crassweller,James W Travis,
Timothy W McNellis. 2010. Rootstock-regulated gene expression patterns in apple tree scions. Tree Genetics & Genomes,6:57–72.
Proost S,Van B M,Sterck L,Billiau K,Van P T,Vande P Y,Vandepoele K. 2009. PLAZA:A comparative genomics resource to study gene
and genome evolution in plants. Plant Cell,21 (12):3718–3731.
Rhee S Y,Beavis W,Berardini T Z,Chen G,Dixon D,Doyle A,Garcia-Hernandez M,Huala E,Lander G,Montoya M,Miller N,Mueller
L A,Mundodi S,Reiser L,Tacklind J,Weems D C,Wu Y,Xu I,Yoo D,Yoon J,Zhang P. 2003. The Arabidopsis Information Resource
(TAIR):A model organism database providing a centralized,curated gateway to Arabidopsis biology,research materials and community.
Nucleic Acids Research,31 (Database issue):224–228.
2250 园 艺 学 报 39 卷
征 订
Sarowar S,Zhao Y,Soria-Guerra R E,Ali S,Zheng D,Wang D,Korban S S. 2011. Expression profiles of differentially regulated genes during
the early stages of apple flower infection with Erwinia amylovora. The Journal of Experimental Botany,62 (14):4851–4861.
Schaffer R J,Friel E N,Souleyre E J,Bolitho K,Thodey K,Ledger S,Bowen J H,Ma J H,Nain B,Cohen D,Gleave A P,Crowhurst R N,
Janssen B J,Yao J L,Newcomb R D. 2007. A genomics approach reveals that aroma production in apple is controlled by ethylene
predominantly at the final step in each biosynthetic pathway. Plant Physiology,144 (4):1899–1912.
Varkonyi-Gasic E,Gould N,Sandanayaka M,Sutherland P,MacDiarmid R M. 2010. Characterisation of microRNAs from apple(Malus domestica
‘Royal Gala’)vascular tissue and phloem sap. BMC Plant Biology,10:159.
Velasco R,Zharkikh A,Affourtit J,Dhingra A,Cestaro A,Kalyanaraman A,Fontana P,Bhatnagar S K,Troggio M,Pruss D,Salvi S,Pindo
M,Baldi P,Castelletti S,Cavaiuolo M,Coppola G,Costa F,Cova V,Dal R A,Goremykin V,Komjanc M,Longhi S,Magnago P,
Malacarne G,Malnoy M,Micheletti D,Moretto M,Perazzolli M,Si-Ammour A,Vezzulli S,Zini E,Eldredge G,Fitzgerald L M,Gutin
N,Lanchbury J,Macalma T,Mitchell J T,Reid J,Wardell B,Kodira C,Chen Z,Desany B,Niazi F,Palmer M,Koepke T,Jiwan D,
Schaeffer S,Krishnan V,Wu C,Chu V T,King S T,Vick J,Tao Q,Mraz A,Stormo A,Stormo K,Bogden R,Ederle D,Stella A,
Vecchietti A,Kater M M,Masiero S,Lasserre P,Lespinasse Y,Allan AC,Bus V,Chagné D,Crowhurst R N,Gleave A P,Lavezzo E,
Fawcett J A,Proost S,Rouzé P,Sterck L,Toppo S,Lazzari B,Hellens R P,Durel C E,Gutin A,Bumgarner R E,Gardiner S E,Skolnick
M,Egholm M,Van de Peer Y,Salamini F,Viola R. 2010. The genome of the domesticated apple(Malus domestica Borkh.). Nature Genetics,
42 (10):833–839.
Yu H,Song C,Jia Q,Wang C,Li F,Nicholas K K,Zhang X,Fang J. 2011. Computational identification of microRNAs in apple expressed sequence
tags and validation of their precise sequences by miR-RACE. Plant Physiology,141 (1):56–70.
Zhang Z,Yu J,Li D,Zhang Z,Liu F,Zhou X,Wang T,Ling Y,Su Z. 2010. PMRD:Plant microRNA database. Nucleic Acids Research,
36 (Database issue):806–813.
《新编拉汉英植物名称》
本书收集具有经济价值和学术价值或通俗常见的种子植物、蕨类植物、苔藓植物、藻类植物、真菌、地衣
名称 55 800 条。每种植物名称有拉、汉、英,3 种文字对照,按拉丁文字母顺序排列。书后附有英文俗名和汉
名索引。本书可供农、林、医药、环境保护等学科的管理机构、科研单位、大学中的科技人员以及生物工程、植物
检疫、花卉园艺、新闻出版、旅游、外贸等专业的技术人员使用,也是各类图书馆典藏的重要工具书。
定价:185 元(含邮费)。
购书者请通过邮局汇款至北京中关村南大街 12 号中国农科院蔬菜花卉所《园艺学报》编辑部,邮编 100081。