免费文献传递   相关文献

Construction and Application of a Secondary Database for Phytohormone-related Nucleotides and Proteins

植物激素相关核酸和蛋白质二级数据库的构建与应用



全 文 :植物学报 Chinese Bulletin of Botany 2010, 45 (2): 258–264, www.chinbullbotany.com
doi: 10.3969/j.issn.1674-3466.2010.02.016

——————————————————
收稿日期: 2009-05-11; 接受日期: 2009-11-27
基金项目: 国家自然科学基金(No.30600049 和 No.30670190)
* 通讯作者。E-mail: wangruoz@163.com
植物激素相关核酸和蛋白质二级数据库的构建与应用
程鹏, 黄志刚, 洪亚辉, 刘霞, 萧浪涛, 王若仲*
湖南农业大学植物激素与生长发育湖南省重点实验室, 长沙 410128
摘要 以NCBI维护的一级数据库为数据源建立植物激素相关核酸和蛋白质二级数据库。将该二级数据库设计为基因、蛋白
质和文献三部分, 编写软件从上述数据源中采集数据, 并以XML作为中间格式保存, 通过解析提交到二级数据库中并集成
部分生物信息学工具软件, 初步实现了数据检索、统计分析、基于Web的本地化BLAST同源序列检索、序列的自动拼接以
及蛋白质结构和功能位点的分析等功能。该二级数据库的构建为植物激素作用分子机理研究提供了高针对性的植物激素数
据源和生物信息学辅助工具。
关键词 生物信息学, 数据库, 植物激素, XML
程鹏, 黄志刚, 洪亚辉, 刘霞, 萧浪涛, 王若仲 (2010). 植物激素相关核酸和蛋白质二级数据库的构建与应用. 植物学报
45, 258–264.
整合大量异构的生物信息资源, 提供方便、高效
的获取高质量信息的手段, 从这些离散但又相互关联
的数据库中分析并挖掘出有用的信息是进行现代生
物学研究的前提和关键, 也是生物信息学研究急需解
决的问题(Roos, 2001)。随着基因组学和蛋白质组学
研究的深入, 越来越多基因的结构和功能得到阐明,
建立简洁、专用性强和数据质量高的二级数据库及分
析系统已成为研究热点之一 (Wang et al., 2001;
Faria-Campos et al., 2006)。
植物激素几乎参与植物生长发育的每一个过程,
既调控植物自身的生长发育, 又通过与植物外部生存
环境的互相作用调节其对环境的适应(许智宏和李家
洋, 2006)。因此, 植物激素作用机理研究已成为生物科
学中的热点领域。本文构建了网络化的植物激素生物信
息分析平台(http://210.43.224.89/klp), 该平台包括植
物激素相关核酸和蛋白质二级数据库及生物信息分
析软件, 可供植物激素研究人员参考。
1 植物激素相关核酸和蛋白质二级数据
库的构建
1.1 数据源
NCBI(national center for biotechnology information)
是国际主要生命科学信息服务机构之一, 每天都有大
量来自实验室和测序机构发布的序列数据进入该数
据库, 并保持与其它数据库的数据交换和更新, 因而
汇集了当前所有公开的核酸和蛋白质序列(Benson
et al., 2003)。本二级数据库中的数据主要来源于
NCBI维护的基因数据库、核酸序列数据库、 蛋白质
序列数据库和文献数据库。收集方法是以auxin、
gibberellin、cytokinin、abscisic acid、ethylene、
jasmonic acid、salicylic acid、brassinosteroid和
strigolactone等为关键字, 通过代理程序自动获取一
级数据库的Web信息资源(王攀等, 2004), 经过检索、
解析、归纳和转换而成。二级数据库的数据还可以根
据需要进行重复数据剔除和依据版本号更新等日常
维护。目前, 已收集到2 429条植物激素相关基因信
息、115 026条相关核酸序列、14 126条蛋白质序列
及140 567篇相关文献记录。
1.2 数据解析
Microsoft.NET框架中为用户提供了一套全新的
XML(Extensible Markup Language)应用程序接口。
其中System.Xml是最重要的命名空间, 为编程人员
提供了操作XML文档的基类, 如XmlDocument类、
XmlReader类和XmlWriter类。本平台使用XmlDocu-
·基础知识·
程鹏等: 植物激素相关核酸和蛋白质二级数据库的构建与应用 259
ment类的DOM模型创建、修改、遍历XML文档, 运
行后台解析程序将XML文档映射为二级数据库的多
张表, 实现了数据的批量导入(图1)。采用XML技术将
各种异构数据源的数据转换成XML公共数据模型格
式, 有效地实现了网络数据资源和本地二级数据库之
间的数据交换。
同时, 以GBSeq XML格式(NCBI提供的XML格
式之一)获取文本数据。与NCBI提供的其它发布格式
(包括缺省格式、ASN.1、Summary和TinySeq XML
等)相比, GBSeq XML格式不仅具有丰富的信息和严
格的格式规范, 而且信息表达较为简单、直观。另外,
以该格式保存的文档大小适中, 从而降低了Web获
取过程中数据中断的概率。
1.3 数据库结构设计
为了减少数据的冗余, 节约存储空间, 同时提高修改
和查询的速度, 设计数据库时应遵循第三范式, 即:
数据库表中不包含已在其它表中包含的非主关键字
信息。因此 , 本平台数据库设计依据GenBank、
EMBL、DDBJ、Swissprot、PDB和PubMed等数据
库文件格式以及用户查询的实际需要, 设计成适合关
系型数据库的结构, 以方便数据处理为目标。
本数据库总体上基于关系型数据库模式构建, 主
要包括基因表、核酸表、蛋白质表、序列表和参考文
献等实体表以及描述各表之间关系约束的关系表。同
时, 无论是序列条目还是结构条目, 其字段组成都较
为复杂, 数据信息不能简单地由单一的数据表进行存
储。例如, 每一基因序列条目对应的参考文献往往不
止1篇, 且数目不定; 每篇参考文献由编号、作者、题
目和期刊名等字段组成, 这些字段将被导入单独的数
据表(Gene_Reference), 以序列编号字段(Access-
ion)作为外键和基本信息数据表(Gene_Basic)保持联
系(图2)。同样, 与序列性状相关的注释信息也将被导
入单独的数据表。
1.4 数据库的管理和更新
数据库管理主要包括对序列或结构条目、服务器端相
应XML文档的增删和二级注释信息的编辑。为保证数
据的时效性, 管理员可通过SQL Server提供的企业
管理器或SQL*Plus进行管理和维护, 平台则通过统
一、友好的数据库管理和维护页面集成这些功能。
二级数据库的数据更新需要适应一级数据库的
更新, 主要包括序列条目的修改、冗余条目的删除和
新条目的加入。当一级数据库条目修改后, 其版本号
会自动加1, 而登录号不变。所以当后台程序解析数
据时, 首先会读取条目的版本号, 与二级数据库对应
的版本号进行比较, 若发生变动则下载并更新该条目
信息。如果由于数据重复或其它原因, 根据登录号找
不到相应信息, 将在表中添加删除标记。由于数据更
新的量虽然较少, 但直接影响着二级数据库构建的质
量, 因此在对条目删除和增加时, 采用文本通知的方
式提示数据库管理人员进行相应的操作。
1.5 平台设计思路
由NCBI和EBI分别开发的Entrez和SRS等大型生物
信息集成系统, 大多数意在克服结构上的异构, 较少
关注各个数据源之间数据内容的集成, 而本地化的平
台将多种数据源的数据集成到一个具有统一数据模
式的数据库中。
平台的系统结构主要包括: 通过运行后台程序获
取一级数据库的Web信息资源, 获取的文本文档以
GBSeq XML作为中间格式保存, 然后对XML文档进
行初步处理, 包括删除一些不必要的信息, 对将要处
理的数据进行分类, 向不同的函数进行提交, 调用独

Parse XML FilesWeb
Information XML
Gene、Protein、
Literature
Download
Update
NCBI
Primary
Database
Local
Secondary
Database


图1 构建二级数据库的系统结构图

Figure 1 System architecture of the construction of secondary database

260 植物学报 45(2) 2010


图2 基因信息数据表的设计

Figure 2 Design of the tables for gene information


图3 生物信息平台系统结构图

Figure 3 System architecture of bioinformatic platform

立的函数对数据进行处理, 同时在函数运行中进行表
操作, 将数据存放在已建好的数据表中(Seibel et al.,
2006)。最后, 以数据库检索、统计和管理为核心并
本地化生物信息分析软件, 设计和开发基于植物激素
二级数据库的生物信息平台(图3)。
2 分析平台的主要功能与服务
2.1 检索系统的建立
数据库建立完毕后最重要的任务是如何将这些数据
库互相关联起来形成数据库网络, 最大限度地提高数
据库的利用率, 因此, 高效的检索系统至关重要。
本平台整合多种植物激素生物信息资源, 并进行
集成检索, 能够引导用户迅速找到合适的信息资源,
使检索更具针对性。集成检索主要包括基本检索和高
级检索, 每种方式又分别针对基因库、核酸库、蛋白
质库和文献库的数据类别, 其功能实现参考国内外同
类数据库的方法(Philippi, 2004)。其中基本检索是基
于数据项内容的检索, 为用户提供多种检索途径, 如
根据基因类别、所属物种或所在染色体等, 大大缩小
了检索Gene信息的范围, 提高了检索速度。而高级检
索则利用布尔运算对数据信息进行详细分类检索, 例
如, 在输入检索表达式时, 使用含有空格或将其它特
殊字符的单个检索词用单引号(‘’)括起来, 多个检索
词之间根据逻辑关系使用“and”或“or”连接。
2.2 二级数据库的统计分析
2.2.1 植物激素相关基因信息的统计
在植物激素相关基因信息的统计中, 有Gene ontol-
ogy注释信息的共有1 343条, 按功能注释分布由多
到少依次是abscisic acid、auxin、ethylene、jasmonic
acid 、 salicylic acid 、 cytokinin 、 gibberellin 、
brassinosteroid和stringolactone(表1)。由Gene on-
tology功能分类表明, 激素相关基因与代谢、调控、
修饰、合成和信号转导等生理过程关系密切。
对主要植物基因组如拟南芥 ( A r a b id o ps i s
thaliana)、水稻(Oryza sativa)、玉米(Zea mays)、小
立碗藓(Physcomitrella patens)、葡萄(Vitis vinifera)、
烟草(Nicotiana tabacum)、大麦(Hordeum vulgare)、



表1 植物激素相关基因信息统计
Table 1 Statistics of information of phytohormone-related genes
Phytohormones Number of gene ontology annota-
tions
Auxin 255
Gibberellin 84
Cytokinin 130
Abscisic acid 258
Ethylene 205
Jasmonic acid 194
Salicylic acid 172
Brassinosteroid 45
Stringolactone 4
程鹏等: 植物激素相关核酸和蛋白质二级数据库的构建与应用 261
小麦(Triticum aestivum)、马铃薯(Solanum tubero-
sum)和蒺藜苜蓿(Medicago truncatula)的激素mRNA
序列信息进行统计分析。结果表明, 玉米、大麦、小
麦、烟草、马铃薯和蒺藜苜蓿的大部分激素mRNA序
列已有注释, 而水稻、小立碗藓和葡萄的推测序列及
未知mRNA数目超过其总记录数的1/3(表2)。因此,
开展水稻、小立碗藓和葡萄功能基因组学研究的任务
十分紧迫。另外, 文献记录数以拟南芥为最多, 这与
拟南芥是最早完成全基因组测序的模式植物, 且其基
因功能研究开展较多有关。
2.2.2 染色体分布情况统计
植物激素相关基因数据库共收录基因2 429条, 已确
定染色体定位的有1 754条。对其进行染色体分布情
况的统计表明: 植物激素相关基因在染色体上的分布
密度不均一。如拟南芥和水稻1号染色体上植物激素
相关基因的分布密度最大, 分别为29.8%和15.9%,
而在拟南芥4号和水稻11号染色体上分布密度最小,
分别为15.1%和3.2%。进一步研究拟南芥染色体上激
素相关基因的功能分布, 在1–5号染色体上主要表现
为 transcription factor activity 、 DNA binding 、
transcription activator activity、protein binding和
kinase activity, 分别有406、289、189、97和50个基
因, 查看详细情况可获得具体的基因信息。
2.2.3 植物激素调控表型的分类
植物激素能够调控植物的生长和发育过程, 并且多个
激素能调控一个共同的表型性状(Nemhauser et al.,
2006)。数据库分类统计了不同激素在表型性状上的
作用, 由表3可知, 在17个表型子类中, 14个表型受
多种激素调控, 而心皮、种子成熟和渗透应激3个表
型则受单一类型激素调控。
基于本地数据库的分析发现, 大多数表型性状受
多个激素反应的一组基因调控。例如, 有15个基因已
被证明参与花粉的发育、成熟和衰老。在这15个基因
中, 有3个基因参与调控根毛的延伸、盐胁迫、雄蕊
的发育和形成; 有2个基因与种子发芽、侧根的形成、
叶片发育和衰老有关。这些相关的表型可能在生理生
态等方面相互关联, 或者可能在进化过程中有着同样
的起源(Peng et al., 2009)。
2.3 分析平台的其它功能
2.3.1 基因调控信息的初步分析
基因调控信息在基因的转录和蛋白质的合成等生物
进化、发展的过程中起着非常重要的作用。本平台提
供了与基因调控信息相关的启动子区域数据、调控因
子数据、调控元件数据、保守序列数据和基因表达数
据, 以及这些数据之间的关联查询。通过将查询得到
的基因调控信息与文献数据库中的记录进行整合, 从
而筛选出相关联的基因数据。例如, 可通过本平台尝
试挖掘植物激素乙烯的基因调控信息。在文献数据库
中, 拟南芥、水稻、玉米、马铃薯和小麦5种植物与
乙烯有关的记录为1 159篇, 与ACC氧化酶和合成酶
有关的为196篇, 而在序列数据库中这5种植物与乙
烯有关的记录为991条, 与乙烯相关的基因调控信息
为609条, 而与ACC氧化酶和合成酶有关的记录只有
149条。从中可以抽取相关联的基因, 如乙烯响应蛋
白和乙烯受体等。但是, 要构建完善的基因调控信息


表2 植物激素二级数据库的mRNA序列信息统计
Table 2 Statistics of mRNA sequence information in phytohormone-related secondary database
Species mRNA records Putative sequence Unknown mRNA Literature records
Arabidopsis thaliana 4 311 618 189 4 157
Oryza sativa 3 026 1 081 434 825
Zea mays 639 41 84 487
Physcomitrella patens 546 401 1 69
Vitis vinifera 493 172 270 190
Nicotiana tabacum 356 13 4 787
Hordeum vulgare 346 11 2 209
Triticum aestivum 335 9 8 187
Solanum tuberosum 148 6 1 179
Medicago truncatula 126 15 21 133

262 植物学报 45(2) 2010
表3 植物激素调控表型的分类
Table 3 Categories of phytohormone-regulated phenotypes
Phenotypic traits Related phytohormones Number
of genes
Root IAA, ABA, GA, CK, ET, JA,
BR, SA, SL
145
Lateral root IAA, ABA, GA, CK, ET, JA,
BR
97
Root hair IAA, ABA, CK, ET, JA, SA 42
Root cap IAA, ABA 17
Leaf IAA, ABA, GA, CK, ET, JA,
SA, BR
72
Leaf senescence ABA, CK, ET, BR 41
Leaf morphogenesis IAA, GA, CK, JA, SA, BR 35
Leaf shaping IAA, BR 4
Stem IAA, ABA, GA, CK, ET, BR,
JA, BR, SL
113
Shoot branching IAA, CK, GA, ABA, SL 56
Apical meristem IAA, GA, ABA, ET, BR 21
Apical dominance IAA, GA, CK, ABA, ET, JA,
BR
60
Flower IAA, ABA, GA, CK, ET, JA,
BR
67
Photoperiodism IAA, ABA, GA, CK, ET, JA,
BR
45
Sepal IAA, ET, JA, BR 8
Petal IAA, ET, JA, BR 11
Pollen IAA, ABA, GA, ET, JA, BR 15
Carpel GA 4
Seed IAA, ABA, GA, CK, ET, JA,
BR
102
Seed germination IAA, ABA, GA, ET, JA 74
Seed dormancy ABA, GA, CK, BR 41
Seed maturation IAA 3
Stress response IAA, ABA, GA, ET, JA, SA 375
Salt stress GA, ABA, ET 336
Osmotic stress ABA 52
Oxidative stress IAA, ABA, GA, ET, JA, SA 32
Cold stress ABA, ET, JA 8


库还需要从基因表达数据 ( 如微阵列、 EST 和
MicroRNA)中获取更多的线索(Kantety et al., 2002),
以进一步得到更深层次的基因调控信息。

2.3.2 DNA序列特征分析与格式化
平台提供了DNA序列特征分析与格式化的功能, 用
户可以分别进行以下操作。输入DNA序列及一系列引
物序列, 将以文本图像格式输出引物的退火位置及每
行的碱基数。输出DNA序列中与特征序列相符的序列
位置与数量, 并统计序列中的每种碱基与某些碱基组
的个数和比例。生成一个密码图表, 其长度与密码子
在频率表中的频率成正比, 并可以查出可能不表达的
DNA序列。输出DNA序列限制酶切位点的位置与数
量, 可快速确定是否有1个限制酶可切断某个DNA片
段。同时, 还可以格式化DNA序列, 将序列转化为反
序、补序或反补序列, 移去非DNA字符, 将DNA序列
翻译成可能的6条蛋白质序列等操作。
2.4 生物信息分析软件的集成
2.4.1 基于Web的本地化BLAST
通过访问NCBI的主页进行BLAST同源性比对是常用
的生物信息分析方法(Altschul et al., 1997)。但同源
性比对通常比较耗时, 且花费的时间会随着提交序列
的长度、复杂程度和数据库大小的增加而迅速增加。
因此, 使用本系统对较小的二级数据库进行检索分析
可以大大提高效率。此外, 有时需要在脱机状态下使
用BLAST, 所以实现BLAST软件的本地化有其必要
性。BLAST的安装包可从FTP服务器上免费下载
(ftp://ftp.ncbi.nlm.nih.gov/blast)。在使用之前, 需要
对BLAST程序的运行环境和Apache服务器进行配
置, 主要涉及3个文件的配置: Web服务器配置文件
及BLAST相关的blast.html和blast.rc文件。同时, 执
行formatdb命令格式化本地序列数据库。

2.4.2 InterProScan的安装和配置
InterProScan整合了PROSITE、PRINTS、Pfam、
ProDom、SMART和TIGRFAMs等常用的数据库, 旨
在对蛋白质家族、区域和功能位点进行独特、无冗余
的描述(Quevillon et al., 2005)。从EBI的FTP上免费
下载相应的软件包,并解压缩到interproscan目录下。
安装过程中会提示许多可选择性问题并给出相应的
解释, 通过逐一回答进行相应设定。当软件包安装完
成后, 按照安装最后一段屏幕输出的提示, 把代码添
加到Apache服务器的配置文件httpd.conf中, 即开通
了Web界面的服务。
2.5 平台应用实例
利用本平台的生物信息学工具可以进行多种生物信
息学分析。例如, 作者曾利用本平台进行超级杂交水
稻生长素结合蛋白ABP1(auxin binding protein 1)的
电子克隆。首先 , 通过平台文献检索系统查询到
ABP1相关文献信息62篇, 从上述检索中选择拟南芥
ABP1 cDNA作为探针, 通过本地BLAST搜索, 从水
程鹏等: 植物激素相关核酸和蛋白质二级数据库的构建与应用 263
稻基因组数据库中检索到一条高度同源的粳稻cDNA
序列(GenBank登录号为AK111608)。以此水稻cDNA
序列进行BLAST, 发现它与玉米和燕麦(Avena sa-
tiva) ABP1 cDNA的同源性分别为82%和81%。对此
水稻cDNA序列进行开放阅读框分析, 发现它与玉米
和燕麦ABP1的同源性分别为75%和74%。进而运用
本地InterProScan对此推测的肽链进行功能预测分
析, 发现其包含ABP1的4个保守结构域。根据以上结
果, 可以初步确定编码该肽链的cDNA为水稻ABP1
cDNA。以此序列为模板设计引物, 通过RT-PCR扩增
获得了超级杂交水稻亲本的ABP1 cDNA(GenBank
登录号为AY968674)(程鹏等, 2008)。
3 结论
利用二级数据库进行组合检索, 获得相关的信息, 整
合序列和文献数据是构建基因表达调控网络的主要
手段之一(Donaldson et al., 2003; Merkulov and
Merkulova, 2009)。从NCBI数据库中提取编码基因的
注释和序列等信息, 与Gene ontology的注释进行比
较, 并与文献数据库的记录整合, 同时结合相应算
法, 可构建基因的调控网络。最近, Peng等(2009)构
建了专门的拟南芥激素数据库, 深入研究了拟南芥激
素的遗传调控和表型信息。
为了有效地利用植物激素相关基因和蛋白质序
列以及其它公共数据, 方便信息的交流与共享, 本文
构建了植物激素相关基因和蛋白质的二级数据库。以
此为中心, 整合了BLAST和InterProScan等生物信息
学工具软件, 初步研究了二级数据库的检索和统计分
析功能。与大型生物信息系统相比, 该系统在植物激
素领域具有较强的针对性, 能够为研究者提供一个便
捷的植物激素生物信息查询与分析平台。由于目前集
成的数据分析工具有限, 该系统在功能多样性方面与
国外大型生物信息系统相比还有一定差距。
目前, 本数据库系统只是收集了植物激素相关的
基因和蛋白质序列信息。随着植物激素分子生物学研
究的不断深入, 有必要对系统进行扩展和完善, 例
如, 增加植物激素相关蛋白质的理化性质、蛋白质与
基因的关系、蛋白质-蛋白质相互作用关系、蛋白质
合成、代谢、调节和功能等数据。另外, 如何对相关
海量数据进行有效管理和利用以及对已有的数据信
息进行整合, 也值得深入探讨。
参考文献
程鹏, 蒋泓, 欧阳琳, 王若仲, 萧浪涛 (2008). 生物信息学技
术分析并克隆超级稻生长素结合蛋白cDNA. 农业现代化研
究 29, 506–509.
王攀, 鲁强, 曾绍群, 赵元弟, 骆清铭 (2004). 基于Web信息
自动获取构建生物信息二级数据库 . 高技术通讯 14,
28–31.
许智宏, 李家洋 (2006). 中国植物激素研究: 过去、现在和未
来. 植物学通报 23, 433–442.
Altschul SF, Madden TL, Schaffer AA, Zhang J, Zhang Z,
Miller W, Lipman DJ (1997). Gapped Blast and
PSI-Blast: a new generation of protein database search
programs. Nucleic Acids Res 25, 3389–3402.
Benson DA, Karsch-Mizrachi I, Lipman DJ, Ostell J,
Rapp BA, Wheeler DL (2003). GenBank. Nucleic Acids
Res 31, 23–27.
Donaldson I, Martin J, de Bruijn B, Wolting C, Lay V,
Tuekam B, Zhang S, Baskin B, Bader GD, Michalick-
ova K, Pawson T, Hogue CW (2003). PreBIND and
Textomy—mining the biomedical literature for pro-
tein-protein interactions using a support vector machine.
BMC Bioinformatics 4, 11–11.
Faria-Campos AC, Campos SV, Prosdocimi F, Franco
GC, Franco GR, Ortega JM (2006). Efficient secondary
database driven annotation using model gaism se-
quences. In Silico Biol 6, 363–372.
Kantety RV, La RM, Matthews DE, Sorrells ME (2002).
Data mining for simple sequence repeats in expressed
sequence tags from barley, maize, rice, sorghum and
wheat. Plant Mol Biol 48, 501–510.
Merkulov VM, Merkulova TI (2009). Structural variants of
glucocorticoid receptor binding sites and different ver-
sions of positive glucocorticoid responsive elements:
analysis of GR-TRRD database. J Steroid Biochem Mol
Biol 115, 1–8.
Nemhauser JL, Hong F, Chory J (2006). Different plant
hormones regulate similar processes through largely
nonoverlapping transcriptional responses. Cell 126, 467–
475.
Peng ZY, Zhou X, Li LC, Yu XC, Li HJ, Jiang ZQ, Cao GY,
Bai MY, Wang XC, Jiang CF, Lu HB, Hou XH, Qu LJ,
Wang ZY, Zuo JR, Fu XD, Su Z, Li SG, Guo HW (2009).
Arabidopsis Hormone Database: a comprehensive ge-
netic and phenotypic information database for plant hor-
mone research in Arabidopsis. Nucleic Acids Res 37,
975–982.
Philippi S (2004). Light-weight integration of molecular bio-
264 植物学报 45(2) 2010
logical databases. Bioinformatics 20, 51–57.
Quevillon E, Silventoinen V, Pillai S, Harte N, Mulder N,
Apweiler R, Lopez R (2005). InterProScan: protein do-
mains identifier. Nucleic Acids Res 33, 116–120.
Roos DS (2001). Bioinformatics—trying to swim in a sea of
data. Science 291, 1260–1261.
Seibel PN, Kruger J, Hartmeier S, Schwarzer K, Loewe-
nthal K, Mersch H, Dandekar T, Giegerich R (2006).
XML schemas for common bioinformatic data types and
their application in workflow systems. BMC Bioinformatics
7, 490–501.
Wang JM, Luo JC, Li Y, Qu H, Wu GX, Gu XC (2001).
Construction of rice dwarf virus genome database. Acta
Microbiol Sin 41, 43–48.
Construction and Application of a Secondary Database for
Phytohormone-related Nucleotides and Proteins
Peng Cheng, Zhigang Huang, Yahui Hong, Xia Liu, Langtao Xiao, Ruozhong Wang*
Hunan Provincial Key Laboratory of Phytohormones and Growth Development, Hunan Agricultural University, Changsha
410128, China
Abstract Using the biological primary databases at the National Center for Biotechnology Information (NCBI), we con-
structed a secondary database of phytohormone-related nucleotides and proteins. The secondary database included data
on genes, proteins and literature. Data were extracted from the NCBI databases by specially programmed software and
stored in XML files, then parsed and loaded into the secondary database. The secondary database could be used for
some preliminary applications such as data retrieval, statistical analysis, local web-based BLAST alignment, automatic
sequence assembly and protein structure prediction after integrating some bioinformatics tools. This secondary database
provides a highly specific phytohormonal data source and a supplementary bioinformatics tool for research into phyto-
hormonal actions and their molecular mechanisms.
Key words bioinformatics, database, phytohormones, XML
Cheng P, Huang ZG, Hong YH, Liu X, Xiao LT, Wang RZ (2010). Construction and application of a secondary database for
phytohormone-related nucleotides and proteins. Chin Bull Bot 45, 258–264.

———————————————
* Author for correspondence. E-mail: wangruoz@163.com
(责任编辑: 刘慧君)