免费文献传递   相关文献

An Online, Batch, and Real-time Retrieval Platform for Genomic Sequences and Annotation of Horticultural Plants

一个园艺植物基因组序列和注释的在线批量实时提取平台



全 文 :植物学报 Chinese Bulletin of Botany 2015, 50 (3): 388–393, www.chinbullbotany.com
doi: 10.3724/SP.J.1259.2015.00388
——————————————————
收稿日期: 2014-06-18; 接受日期: 2014-12-26
基金项目: 国家自然科学基金(No.31171273)和江苏省“江苏省 333高层次人才培养工程”(No.BRA2014003)
* 通讯作者。E-mail: zcq@jit.edu.cn
一个园艺植物基因组序列和注释的在线批量实时提取平台
张长青1*, 上官凌飞2, 李海玲1, 王进3
1金陵科技学院园艺学院, 南京 210038; 2南京农业大学园艺学院, 南京 210095
3南京大学生物化学系, 南京 210093
摘要 目前, 大量园艺植物基因组测序已经完成或接近尾声, 它们的基因组序列和注释数据极大地促进了功能基因组学研
究。为给科研人员提供批量下载特定的基因组区段序列和注释平台, 笔者开发了一个称为OBRRP的生物信息学工具。
OBRRP具有提取葡萄(Vitis vinifera)、桃(Prunus persica)、草莓(Fragaria vesca)、黄瓜(Cucumis sativus)、西瓜(Citrullus
lanatus)、番茄(Solanum lycopersicum)、甜橙(Citrus sinensis)、苹果(Malus x domestica)、猕猴桃(Actinidia chinensis)、
马铃薯(Solanum tuberosum)、香蕉(Musa acuminata)和拟南芥(Arabidopsis thaliana) 12种植物基因组序列及注释数据的
功能; 同时, 也具有扩展到其它Gbrowser浏览器架构的数据库功能。测试结果表明, OBRRP是一个快捷简便的在线、批量
和实时提取工具, 其登录地址为http://bioinfo.jit.edu.cn/OBRRP/。
关键词 基因组, 序列提取, 注释提取, 生物信息技术
张长青, 上官凌飞, 李海玲, 王进 (2015). 一个园艺植物基因组序列和注释的在线批量实时提取平台. 植物学报 50, 388–393.
目前, 大量园艺植物的基因组测序计划已经完成
或即将结束。由此产生的数据将被广泛应用到植物分
子遗传育种的各个领域。然而, 对于科研人员来说,
批量提取基因组特定序列或注释却是他们所面临的
基本操作之一。手工操作为其常用方法。该方法尽管
可行, 但费时费力且容易出错。计算机自动提取可相
对弥补手工操作的不足, 故具有更为广阔的应用前
景。
计算机自动提取工具主要分为2类: 一类是类似
于TAIR和SGN等数据库提供的Bulk Data Retrieval
(http://www.arabidopsis.org/tools/bulk/sequences/in-
dex.jsp)和Bulk Download (http://solgenomics.net/
tools/bulk)等工具。它们由数据库构建者自行开发,
具有功能丰富、提取速度快和使用方便等优点, 但普
及度差, 目前仅局限于各自数据库的使用。另一类是
数据库用户自行开发的提取程序。他们一般先下载全
基因组数据, 然后自行编程, 完成对目标序列和注释
的批量提取(许瑞瑞等, 2013)。该方法要求科研人员
具有良好的编程基础, 同时要求每次操作前需完成数
据更新, 以确保数据的时效性, 该方法更趋向于实验
室内部交流使用, 在不同研究者间的共享度不高。
为了解决园艺植物基因组序列和注释下载工具
的上述不足 , 本研究基于葡萄 (Vitis vinifera)、桃
(Prunus persica)、草莓 (Fragaria vesca)、黄瓜
(Cucumis sativus)、西瓜(Citrullus lanatus)、番茄
(Solanum lycopersicum)、甜橙(Citrus sinensis)、苹
果(Malus x domestica)、猕猴桃(Actinidia chinensis)、
马铃薯(Solanum tuberosum)、香蕉(Musa acumi-
nata)和拟南芥(Arabidopsis thaliana) 12种植物基因
组数据库, 开发了一个在线、批量和实时的下载工具
——OBRRP (an Online, Batch, and Real-time Re-
trieve Platform), 希望能为园艺植物功能基因组学研
究提供有益的帮助。
1 材料与方法
1.1 OBRRP的开发
OBRRP是基于Linux系统开发的, 它的所有界面均由
CGI-Perl、JavaScript和HTML语言编写, 运行服务器
为Apache。
OBRRP提取的数据来源依物种而异(表1)。
OBRRP由用户层、OBRRP核心层和远程数据层
·技术方法·
张长青等: 一个园艺植物基因组序列和注释的在线批量实时提取平台 389
表1 OBRRP中物种数据的来源
Table 1 The sources of species in OBRRP
No. Species in OBRRP Website of database Database maintainer
1 Vitis vinifera (12X) www.genoscope.cns.fr/cgi-bin/ggb/vitis/12X/gbrowse/vitis/ French National Sequencing Center
Vitis vinifera (8X) www.genoscope.cns.fr/cgi-bin/ggb/vitis/gbrowse/vitis/ French National Sequencing Center
2 Prunus persica www.rosaceae.org/gb/gbrowse/prunus_persica/ Genome Database for Rosaceae
3 Fragaria vesca www.rosaceae.org/gb/gbrowse/fragaria_vesca_v1.0/ Genome Database for Rosaceae
4 Cucumis sativus www.icugi.org/cgi-bin/gb2/gbrowse/cucumber_v1/ International Cucurbit Genomics Initia-
tive
5 Citrullus lanatus www.icugi.org/cgi-bin/gb2/gbrowse/watermelon_v1/ International Cucurbit Genomics Initia-
tive
6 Solanum lycopersicum solgenomics.net/gb2/gbrowse/ITAG2.3_genomic/ The Sol Genomics Network
7 Citrus sinensis citrus.hzau.edu.cn/cgi-bin/gb2/gbrowse/orange/ Citrus Sinensis Annotation Project
8 Malus × domestica (a) www.rosaceae.org/gb/gbrowse/malus_x_domestica_v1.0-
primary/
Genome Database for Rosaceae
Malus × domestica (b) www.rosaceae.org/gb/gbrowse/malus_x_domestica/ Genome Database for Rosaceae
9 Actinidia chinensis www.icugi.org/cgi-bin/gb2/gbrowse/kiwi/ International Cucurbit Genomics Initia-
tive
10 Solanum tuberosum solgenomics.net/gb2/gbrowse/PGSC_DM3.4/ The Sol Genomics Network
11 Musa acuminata banana-genome.cirad.fr/cgi-bin/gbrowse/musa_acuminata/ Banana Genome Hub
12 Arabidopsis thaliana tairvm17.tacc.utexas.edu/cgi-bin/gb2/gbrowse/arabidopsis/ The Arabidopsis Information Resource



图1 OBRRP的工作流程

Figure 1 The workflow of OBRRP


3部分组成, 工作流程如图1所示, 主要包括4个工作
步骤。
(1) 数据接收: OBRRP在用户层接收用户递交的
基因标识符或基因组区标识符, 以及选定的物种和所
需的数据类型。该数据类型包括基因区、编码区、转
录本区、内含子区、5-UTR区、3-UTR区、基因上游
区和基因下游区等DNA序列或位置, 及基因组的特
定区段序列或注释。
(2) 数据请求: OBRRP核心层依据收到的用户信
息, 向所选物种的远程数据库发送服务请求, 调用
Gbrowse浏览器的搜索模块和数据源模块等进行搜
索, 然后利用文件输出模块返回输出结果。
390 植物学报 50(3) 2015
(3) 数据解析: OBRRP核心层根据远程服务器的
返回结果, 按照用户需求进一步解析用户数据并临时
储存。此步骤中, 如果OBRRP检测到用户递交的是
多基因标示符或多基因组区标示符, 将继续重复步骤
2和步骤3, 直至每个基因标示符或基因组区标示符
的远程请求和本地处理完毕。
(4) 数据输出: 在所有数据的远程请求和本地解
析完毕后, OBRRP最后以网页的形式向用户输出所
需数据。用户进一步通过复制-粘贴或保存网页等操
作, 完成对所需基因组序列或基因注释数据的提取。
1.2 OBRRP的测试
为测试OBRRP的应用效果, 笔者选用了4组数据, 分
别是: 张停林等(2013)设计细胞分裂素合成关键酶引
物时使用的8条黄瓜基因ID号; 王小非等(2013)研究
番茄LBD基因家族成员染色体分布时使用的46条基
因ID号; Zhang等(2014)构建tasiRNAdb数据库时使
用的5条葡萄ta-siRNA基因位置; 袁伟等(2014)展示
黄瓜TCP基因结构时使用的22条基因位置。
OBRRP测试中的运行时间由程序自带计时器计
算产生; 算法以Perl时间函数为基础, 由程序运行结
束时间和开始时间之差自动产生。
2 结果与讨论
2.1 OBRRP的界面和功能
OBRRP平台可由其主页(http://bioinfo.jit.edu.cn/OB
RRP/)进入, 其主界面设计采用了上下框架结构。其
中, 导航栏位于上框架, 包含了主页(home)、物种界
面和MyOBRRP三类链接; 相应的各链接页位于下框
架, 是基因组序列和注释数据提取的主要工作界面
(图2)。
从图2可以看出, OBRRP的物种界面, 即主工作
界面包括3个部分。(1) 数据来源。它位于物种界面首
行, 主要为用户提供源数据链接, 帮助用户了解拟提
取数据的远程数据库情况。(2) 基因序列和位置提取。
它以用户提供的基因ID号为索引, 批量完成基因区、
编码区、转录本区、内含子区、5-UTR区、3-UTR
区、基因上游区和基因下游区等特定基因组区域和位
置的下载。(3) 基因组序列与注释的提取。它以用户



图2 OBRRP的界面示例

Figure 2 An interface example of OBRRP

张长青等: 一个园艺植物基因组序列和注释的在线批量实时提取平台 391
提供的基因组区段为索引, 批量下载特定基因组区段
的DNA序列及其注释信息。
具体使用时, 用户可在物种界面输入1条或多条
由分号分割的基因标示符或基因组区段标示符, 然后
选择所需数据类型, 并点击相应功能按钮即可完成递
交。OBRRP将根据用户递交的数据, 自动完成所需
数据的提取和展示。
目前, OBRRP平台已为用户提供了葡萄、桃、草
莓、黄瓜、西瓜、番茄、甜橙、苹果、猕猴桃、马铃
薯、香蕉和拟南芥12种植物的下载界面。
为进一步解决用户所需物种未被收录的情形 ,
OBRRP还为用户提供了物种扩展工具——MyOBR-
RP。该扩展工具要求源数据库采用流行的GBrowse
(Generic Genome Browser) (Stein et al., 2002)基因
组浏览器。具体使用时, 用户只需向MyOBRRP递交
该数据库的浏览器地址和1条测试基因ID号即可。
MyOBRRP测试成功后将为用户自动建立新的物种
界面, 其功能与前述界面一致, 且使用的方法类似,
唯一不同的是MyOBRRP物种界面为临时性界面, 将
在用户关闭浏览界面后自动删除。MyOBRRP为用户
提供了一个可满足个性化需求的扩展提取平台。
2.2 OBRRP的效能评价
2.2.1 基因序列的提取
分子生物学研究中, 基因序列常被用于引物设计、相
似性比较和miRNA/siRNA靶点分析等 (张长青等 ,
2005; 张晓辉等, 2014)。2013年, 张停林等基于细胞
分裂素合成关键酶IPT家族中的8条基因序列设计了
引物, 分析了它们在不同器官中的表达情况。为检测
OBRRP对基因序列的提取效果, 笔者基于该8条基
因ID号提取了它们的基因序列(表2)。结果共用时147
秒, 且提取的8条基因序列与张停林等(2013)公布的
引物序列完全一致, 可见用OBRRP提取的8条IPT家
族基因序列正确。

2.2.2 基因位置提取测试与MyOBRRP的应用
基因位置可用于研究基因在染色体上的分布和复制
等情况(魏潇等, 2011)。王小非等(2013)研究了46条
番茄LBD基因家族成员的染色体定位情况。本研究中,
笔者利用这46条番茄基因测试了OBRRP对其位置的

提取效果。结果(表2)共用时172秒, 每条基因平均用
时3.7秒。遗憾的是, 提取结果与原文并不一致, 其中
22条缺乏位置注释, 另外24条染色体号相同, 但具体
位置却存在差异。推测这可能与使用的基因组注释版
本号不同有关。OBRRP使用的是ITAG2.3版, 原文献
则未对版本号予以说明。
进一步随机选取其中的1条基因, 经手工测试不
同版本的提取结果, 发现原文基于的版本号可能为
ITAG2。故基于OBRRP平台中的物种扩展工具——
MyOBRRP, 笔者重新建立了新的番茄基因组序列和
注释提取工具, 并再次提取上述46条基因的位置。结
果共用时469秒, 平均每条基因用时10.0秒, 且新获
得的结果与原文献完全一致, 说明用MyOBRRP进行
位置提取是可行的。

2.2.3 基因组区段序列的提取
miRNA和siRNA等小RNA的基因多为非编码基因 ,
因此, 它们一般不具有特定的基因ID号, 其序列的提
取常按照基因组特定区段的提取方式进行。 tasi-
RNAdb数据库是笔者公开的一个植物ta-siRNA数据
库, 其中收录了大量的非编码ta-siRNA基因序列(Zh-
ang et al., 2014)。为检测OBRRP平台对基因组区段
的提取效果, 笔者利用5条葡萄ta-siRNA基因的基因
组位置模拟了OBRRP对基因组区段序列的提取操
作。结果5条ta-siRNA基因的提取共耗时15秒(表2),
提取结果与原文(Zhang et al., 2012)报道的一致。

2.2.4 基因组特定区段的注释提取
目前, 基因组注释普遍采用gff、gff3和gbk等标准化格
式, 这为数据的交换和共享提供了方便。2014年, 袁
伟等从黄瓜中筛选出22条TCP基因。为展示它们的基
因结构, 作者手工提取了它们的基因组注释, 并绘制
了基因结构示意图。本研究为评价OBRRP平台提取
基因组注释的效果, 利用这22条TCP基因代号, 首先
获得了它们的染色体位置(表2), 进而开展了基因组
注释数据提取的操作。结果22条TCP基因注释的提取
操作共用时27秒。可见, OBRRP平台方便了用户对基
因组注释数据的提取。
目前, 随着大量基因组测序的完成, 园艺植物研
究已进入了后基因组时代和系统生物学时代。因此,
392 植物学报 50(3) 2015
表2 OBRRP的效能评估
Table 2 Evaluation of OBRRP effectiveness
No. Tool name Parameters Number Used
time
(s)
Gene IDs: 1 Cucumber
Csa000066; Csa001021; Csa004014; Csa006964; Csa018435; Csa021143; Csa022290;
Csa025189;
8 147
Gene IDs: Tomato
Solyc01g044520.1.1;
Solyc01g091400.1.1;
Solyc01g091420.1.1;
Solyc01g098220.1.1;
Solyc01g107190.1.1;
Solyc01g109240.1.1;
Solyc02g065150.1.1;
Solyc02g067800.1.1;
Solyc02g069440.1.1;
Solyc02g077380.1.1;
Solyc02g085910.1.1;
Solyc02g086480.1.1;
Solyc02g087570.1.1;
Solyc02g090410.1.1;
Solyc02g092550.1.1;
Solyc03g063140.1.1;
Solyc03g095940.1.1;
Solyc03g112430.1.1;
Solyc03g113360.1.1;
Solyc03g119530.1.1;
Solyc04g050010.1.1;
Solyc04g077990.1.1;
Solyc05g009320.1.1;
Solyc05g048740.1.1;
Solyc06g005090.1.1;
Solyc06g007390.1.1;
Solyc06g050430.1.1;
Solyc06g050950.1.1;
Solyc06g062630.1.1;
Solyc06g064540.1.1;
Solyc06g071660.1.1;
Solyc06g082310.1.1;
Solyc06g082430.1.1;
Solyc06g082770.1.1;
Solyc06g083930.1.1;
Solyc08g065130.1.1;
Solyc09g010490.1.1;
Solyc09g014690.1.1;
Solyc09g014700.1.1;
Solyc09g066260.1.1;
Solyc09g066270.1.1;
Solyc11g008830.1.1;
Solyc11g045530.1.1;
Solyc11g072470.1.1;
Solyc12g010810.1.1;
Solyc12g100150.1.1;
46 1722
MyOBRRP (1) Species Website: http://solgenomics.net/gb2/gbrowse/ITAG2_genomic/
(2) Test Gene: Solyc01g044520.1.1
469
Genomic locations: 3 Genoscope
(12X) Chr5:359214..359381;
Chr14:21607855..21608085;
Chr9:3017668..3018077;
Chr5:22564235..22564791;
Chr19:5718801..5719546;
5 15
Genomic locations:
Chr5:20276908..20278927; Chr5:27486172..27487465; Chr4:18785112..18787609;
22 27
Chr6:9759628..9760584; Chr1:2917372..2918787; Chr1:2214334..2223145;
Chr1:4095889..4097124; Chr1:3476246..3478078; Chr6:8956474..8957034;
Scaffold000100:527374..528264; Chr4:5358347..5359240; Chr6:6316016..6317507;
Scaffold000164:128613..129407; Chr5:449956..450726; Chr6:18756255..18756878;
Scaffold000195:22087..23115; Chr6:5180192..5180920; Chr1:1848674..1849114;
Chr1:3837106..3837585; Chr1:7967784..7968414; Chr1:1434222..1435145;
4 Cucumber
Chr3:15413475..15414623;


基于序列分析的大量基因功能解析和进化等研究也
成为当前及今后的研究热点(袁明等, 2014)。简便且
快捷的基因组序列及注释提取工具的开发将十分有
助于该方面的研究。本文公开了一个在线、批量和实
时的园艺植物基因组序列及注释数据的提取平台——
OBRRP。利用该平台对黄瓜、番茄和葡萄等园艺植
物数据的测试结果表明, OBRRP的提取结果正确,
用时短, 使用方便, 能有效地帮助科研人员快捷地获
取目的基因组序列和注释。同时, 它对用户的软件和
硬件要求不高, 在互联网畅通的PC机上即可完成。
OBRRP平台的开发为园艺植物功能基因组学研究提
供了有益的工具。
参考文献
王小非 , 刘鑫 , 苏玲 , 孙永江 , 张世忠 , 郝玉金 , 由春香
(2013). 番茄LBD基因家族的全基因组序列鉴定及其进化
和表达分析. 中国农业科学 46, 2501–2513.
魏潇, 刘威生, 刘宁, 章秋平, 张玉萍, 刘硕, 刘有春 (2011).
果实软化相关PG基因的进化分析和基因组定位. 园艺学报
38, 1791–1799.
许瑞瑞, 张世忠, 宿红艳, 刘春香, 曹慧, 束怀瑞 (2013). 苹
果锚蛋白基因ANK家族生物信息学鉴定分析. 园艺学报 40,
1021–1032.
袁明, 瞿礼嘉, 王小菁, 钱前, 杨维才, 王台, 孔宏智, 蒋高
张长青等: 一个园艺植物基因组序列和注释的在线批量实时提取平台 393
明, 种康 (2014). 2013年中国植物科学若干领域重要研究
进展. 植物学报 49, 347–406.
袁伟, 顾掌根, 褚伟雄, 叶立华, 杨国志 (2014). 黄瓜转录因
子TCP基因家族的鉴定及结构分析 . 分子植物育种 12,
287–295.
张长青, 王进, 李广平, 章镇 (2005). 园艺植物分子育种相关
生物信息资源及其应用. 植物学通报 22, 494–501.
张停林, 李季, 崔利, 苏芃, 徐建, 陈劲枫 (2013). 黄瓜细胞
分裂素合成关键酶IPT基因家族序列特征及其表达分析. 园
艺学报 40, 58–68.
张晓辉, 魏小春, 李锡香, 孙玉燕, 王冠, 常兆晶, 刘冠群, 邱
杨, 宋江萍, 王海平, 沈镝, 王大江, 韩月澎 (2014). 苹果
全基因组SBP-box基因家族分析及代表成员的分子克隆.
园艺学报 41, 215–226.
Stein LD, Mungall C, Shu SQ, Caudy M, Mangone M, Day
A, Nickerson E, Stajich JE, Harris TW, Arva A, Lewis S
(2002). The generic genome browser: a building block for
a model organism system database. Genome Res 12,
1599–1610.
Zhang CQ, Li GP, Wang J, Fang JG (2012). Identification
of trans-acting siRNAs and their regulatory cascades in
grapevine. Bioinformatics 28, 2561–2568.
Zhang CQ, Li GP, Zhu SN, Zhang S, Fang JG (2014).
tasiRNAdb: a database of ta-siRNA regulatory pathways.
Bioinformatics 30, 1045–1046.

An Online, Batch, and Real-time Retrieval Platform for Genomic
Sequences and Annotation of Horticultural Plants
Changqing Zhang 1*, Lingfei Shangguan 2, Hailing Li1, Jin Wang3
1College of Horticulture, Jinling Institute of Technology, Nanjing 210038, China; 2College of Horticulture, Nanjing Agricultural
University, Nanjing 210095, China; 3Department of Biochemistry, Nanjing University, Nanjing 210093, China
Abstract The genomes of a large number of horticultural plants have been or are being sequenced. The genomic se-
quences and annotated data have greatly promoted functional genomics research. To provide a batch-retrieval platform of
sub-data for researchers, we developed a bioinformatics tool called Online, Batch, and Real-time Retrieve Platform
(OBRRP). The program can be used to retrieve special genomic subsequences or sub-annotations from databases for
grape, peach, strawberry, cucumber, watermelon, tomato, orange, apple, kiwifruit, potato, banana, and Arabidopsis. Also,
it can be extended to other species by using Gbrowser with its genomic database. OBRRP is a convenient, online,
real-time, batch retrieval tool and is available at http://bioinfo.jit.edu.cn/OBRRP/.
Key words genomics, sequence retrieval, annotation retrieval, bioinformatics
Zhang CQ, Shangguan LF, Li HL, Wang J (2015). An online, batch, and real-time retrieval platform for genomic se-
quences and annotation of horticultural plants. Chin Bull Bot 50, 388–393.
———————————————
* Author for correspondence. E-mail: zcq@jit.edu.cn
(责任编辑: 孙冬花)