免费文献传递   相关文献

Construction and Application of Medicago truncatula Bio-Data Analysis Platform

截形苜蓿生物数据分析平台的构建与应用



全 文 :文章编号: 1007-0435( 2006) 03-0231-05
截形苜蓿生物数据分析平台的构建与应用
刘云岩, 苏 震, 董江丽, 申小叶, 李道丰, 王 涛*
(中国农业大学农业与生物技术国家重点实验室, 北京 100094)
摘要: 为更有效地利用截形苜蓿(M . tr uncatula)的表达序列标签和其他公共数据, 加快对截形苜蓿功能基因的研究步
伐,构建了“M . tr uncatula Home”生物数据分析平台,并以此为中心, 整合了专门为截形苜蓿定制的电子克隆系统。该数
据分析平台具有序列基本信息查询、电子克隆系统、试验一致性序列动态分类查询的功能。进一步利用“M . tr uncatula
Home”生物数据分析平台大规模预测了截形苜蓿盐胁迫相关基因, 从截形苜蓿的36878 条试验一致性序列中预测出 650
条与耐盐相关的序列, 为进一步克隆截形苜蓿耐盐相关功能基因奠定了基础。
关键词: 截形苜蓿; 生物数据分析平台; 电子克隆; 表达序列标签; 试验一致性序列
中图分类号: S 812; Q943    文献标识码: A
Construction and Application of Medicago truncatula
Bio-Data Analysis Platform
LIU Yun-yan, SU ZHen, DONG Jiang-li, SHEN Xiao-ye, LI Dao-feng, WANG T ao
*
( State Key Labo rato r y of Ag ro-bio techno lo g y, China Ag riculture Univer sity , Beijing , 100094 China)
Abstract: T o use more eff icient ly the Medicago tr uncatula expr essed sequence tag s data and o ther public re-
sources, facilitat ing the study for functional g enes, a M . t runcatula bio-data analysis plat form, namely , “M .
truncatula Home”, w as const ructed. M T -Clone, an in silico clone sy stem, specially for M . t runcatula was com-
bined into “M . tr uncatula Home”. This bio-data analysis plat form perfo rms functions in basic informat ion
search, MT -Clone, and TC classif icat ion. T he 650 T Cs related to salt-st ress have been designated f rom 36, 878
M . truncatula T Cs, while the “M . truncatula Home”was used to detect in a large scale the genes related to
salt-tolerance.
Key words: Med icago tr uncatula; Bio-data analysis platform ; In silico clone system; Expressed Sequence
Tag s; T entat ive consensus sequences
  截形苜蓿(Med icago t runcatula)是豆科的模式植
物,与其他豆科植物相比,具有相对小的二倍体基因组
(大约4. 5×108bp)、自花授粉、后代种子多、生长周期
较短和易于组织培养等特点[ 1]。以美国国家科学基金
植物基因组计划和欧盟基因组计划为首的国际性组织
正在对截形苜蓿基因组进行测序, 预计2006年底将完
成全基因组的初步分析[ 2]。截止到2006年4月, 全世界
已经获得了来自49个不同的截形苜蓿 cDNA 文库的
237764条表达序列标签( Expressed Sequence T ags,
ESTs) ; 美国基因组研究所( T he Institute fo r Genom-
ic Research, T IGR)数据库的M tGI. 8共产生试验一
致性序列 ( T entat ive Consensus sequences, TCs )
18612条, 单体ESTs( Sing leton EST ) 18238条 [ 3]。但
是,单独的序列信息并不能解答诸如基因功能、发育调
控等有关的生物问题,需要使用数据分析软件或是自
己设计的数据分析平台来分析这些序列, 从中发现生
物学规律,为功能基因组学研究奠定基础。
目前,国外涉及到截形苜蓿资源的网站有3类: 第
1类是中心数据库,例如美国国立生物技术信息中心
( Nat ional Center fo r Biotechno logy Informat ion,
NCBI)中有大量的截形苜蓿 EST 数据, 但该网站不是
专门针对截形苜蓿的; 第2类是综合性截形苜蓿网站,
但自己的内容比较少,主要提供各种研究截形苜蓿的
网站链接,例如ht tp: / / www . medicago. o rg; 第2类是
收稿日期: 2006-08-18; 修回日期: 2006-09-07
作者简介: 刘云岩( 1980- ) , 女, 北京人, 硕士研究生, 从事生物信息学研究工作, E-mail: yunyan. l iu@ gmail. com; * 通讯作者 Author for
correspondence, w an gt@cau . edu. cn
第 14 卷 第3 期
 Vol. 14  No . 3
草 地 学 报
ACTA AGREST IA SINICA
   2006 年  9 月
 Sep.   2006
截形苜蓿专业网站,其提供的数据是有侧重的, 例如网
站 ht tp: / / www . genet ik. uni-bielefeld. de/ M olM yk/
主要研究的是截形苜蓿与根瘤菌的共生关系,而 Mt-
DB
[ 4]界面过于复杂不够直观。总之, 迄今为止, 国际上
尚没有一个网站能提供关于截形苜蓿的全面的数据和
分析工具。由于国内研究截形苜蓿的实验室很少,还没
有一个截形苜蓿专业网站。为了更有效的利用截形苜
蓿的公共数据, 方便信息的交流与共享,我们构建了
“M . truncatula Home”生物数据分析平台。
由于截形苜蓿的基因组测序还没有完成,存在大
量EST 序列数据还不能被有效利用, EST 是cDNA 克
隆的序列片断[ 5] ,并且广泛的应用于基因的发现和生
物全基因组的图谱绘制[ 6] ,如果能够通过电子克隆系
统延伸现有的EST 序列, EST 的价值可以被极大的增
强, 可以为通过实验获得新基因全长 cDNA 序列提供
重要线为索。但目前没有合适的免费电子克隆系统可
用,所以笔者以“M . truncatula Home”为中心, 整合了
一个专门为截形苜蓿定制的电子克隆系统,称为“MT-
Clone系统”。
我国土壤盐碱化的土地分布十分广泛,苜蓿是豆
科植物中较耐盐的牧草,能在轻度盐碱地种植[ 7]。克隆
截形苜蓿耐盐相关基因、研究截形苜蓿的耐盐调控机
制,有助于阐述诸如基因调控、信号传导、离子转运和
矿质营养等生物学机理,对发展农业和改善环境有重
要应用价值。为了加快对截形苜蓿盐胁迫相关基因的
研究步伐, 本研究利用构建的“M . truncatula Home”
生物数据分析平台,预测了截形苜蓿盐胁迫相关基因。
1 “M . truncatula Home”生物数据分
析平台的构建
1. 1 硬件配置、操作系统和应用软件环境
为构建“M . t runcatula Home”生物数据分析平
台,需要一定的硬件、操作系统、应用软件环境。本研究
采用的硬件条件为Del lTMSC1420服务器。配置了高性
能双Intel○RXeonTM 3. 2 GHz CPU, 内存达 2G,硬盘容
量达146* 3G。操作系统采用Linux 操作系统( Fedora
co re 4, kernel 2. 6. 14-1. 1637 FC4smp)。应用软件环
境包括编程软件Perl、PHP,数据库软件 MySQL, w eb
服务器软件Apache,图形显示软件包GD等;另外还有
与生物数据分析相关的大量软件, 包括 BioPerl 模块,
序列比对软件WU-BLAST [ 8] ,序列拼接软件CAP3[ 9] ,
序列预处理软件SeqClean和Repeat M asker 等。
1. 2 数据来源
网站的数据来源分为两类,一类是公共网站的数
据, 其中截形苜蓿的EST、T C、单体EST、单体成熟转
录本( Singleton mature t ranscripts, Singleton ET [ 10] )
和基因存在论( Gene Ontolo gy ) [ 11]注释都是来自公共
网站, 他们分别来自美国国立生物技术信息中心
NCBI, 美国基因组研究所T IGR,基因存在论Gene On-
to log y。另一类是自己预测的数据结果,包括预测的截
形苜蓿耐盐相关基因和相关的拟南芥( Arabidop-sis)
基因。
1. 3 数据处理和格式转换
由于从美国基因组研究所直接下载的截形苜蓿基
因索引数据很复杂,不能直接存入数据库, 所以我们使
用Perl语言编写了3个程序来处理数据的提取和格式
的转换,分别是 tc table. pl用于生成 tc informat ion
表的内容, tc go table. pl生成tc go 表和 go infor-
mat ion表的内容, tc est table. pl 生成tc est 表的内
容。同样,从美国国立生物技术信息中心下载的截形苜
蓿的EST 数据具有 fasta 格式也需要进行数据的提取
和格式的转换,因此编写了 est table. pl 程序,来完成
提取数据、转换数据格式、生成 est info rmat ion 表的
内容。
经过数据处理和格式转换,目前数据库中序列数
据包括T C 188612条, Singleton EST 序列18238条,
单体成熟转录本序列28条, EST 序列201653条,另外
还包括T C与EST 相互关系的文件, TC, EST 与GO 注
释信息和植物 GO Slim 文件、GO 词汇的定义文件
term、GO词汇间结构关系的文件term2term [ 12]。
1. 4 数据库设计
作者使用 MySQL 作为“M . truncatula Home”生
物数据分析平台的数据库管理系统。MySQL 是一个
对非营利机构免费使用的关系型数据库[ 13]。为数据分
析平台所建的后台数据库是MT db,由12个表组成。它
们是 tc information, 存储T C序列的相关信息; est 
information 存储EST 信息; tc est 存储T C与EST 之
间的对应关系; term 存储GO 的详细定义信息; tc go
存储 TC 与之对应的GO id; term2term 存储GO term
之间的关系; g oslim 是GO Slim 的合写,它存储对植物
基因比较概括的描述; go slim  term 存储 GO Slim
term 与GO term 之间的对应关系; ara salt 存储从拟
南芥基因芯片中获得的耐盐相关基因的芯片数据;
match  informat ion 存储截形苜蓿的T C 与拟南芥耐
盐相关基因的相似性匹配关系; publish  informat ion
存储拟南芥耐盐相关基因的文献信息; atg pub 存储
拟南芥耐盐相关基因与文献的对应关系(图1)。
232 草 地 学 报 第 14卷
图1 中心数据库结构图
F ig . 1 The structur e of central database
注:“Med icag o tr uncatula Home”生物数据分析平台的中心数据库
是由 12个表组成的,数据库共包含EST 序列 201, 653条, TC和 S ingle-
ton 序列共 36, 878条,预测的截形苜蓿耐盐相关基因 650个, 相关的拟
南芥基因 514个。EST 数据的详细信息被存储在 es t informat ion表
中, TC 数据的详细信息被存储在 TC information 表中, GO 注释分类
信息被存储在 t erm , term2ter m, goslim 及 gosl im t erm 表中,预测的截
形苜蓿耐盐相关基因和相关的拟南芥基因芯片数据分别被存储在
match和 ara salt 表中,另外还有相关的文章信息被存储在 pub lish 
information 表中。
Note: Th e cent ral database of Med icag o tr uncatula Hom e is com-
posed of 12 tab les . It con tains 201, 653 EST , 36, 878 T Cs, an d 650
predicted salt-tolerant related genes w ith 514 related Arabidops is
gen es . The detail inform at ion of EST is stored in EST-in format ion
table, the TC -infor mat ion, in the T C-informat ion tab le, an d GO anno-
tat ion, stored in ter m, term2ter m, gos lim , and gosl im-term tables.
T he predicted salt-tolerant related genes an d related Arabidopsis gene
ch ip data are stored in match table, and ara-sal t table, separately. Oth-
er publ icat ion informat ion is stored in publi sh-informat ion table.
1. 5 “M. truncatula Home”生物数据分析平台的功
能与服务
“M . truncatula Home”生物数据分析平台是关于
截形苜蓿数据信息查询、数据分析的专门性网站,已集
成的和将要收集的都是与截形苜蓿相关的信息, 该数
据分析平台具有截形苜蓿序列基本信息查询、T C 动
态检索分类查询和电子克隆的功能(图2)。
1. 5. 1 截形苜蓿基本序列数据查询
查询 TC 相关信息:在数据库中用 TC 号进行检
索,检索结果会包括TC 的描述, T C 序列和TC 所包含
的EST。
查询EST 相关信息: 用Genebank 的登陆号( Ac-
cession number )进行搜索, 结果包括EST 序列、序列
的详细描述和属于哪条T C序列。
关键字搜索:可以查询TC 或EST 中包含某关键
字的所有序列的相关信息, 例如键入任何关键字如
“根”或“叶”搜索, 将会显示相关序列的GO 注释,序列
描述及所包含的EST 序列。搜索结果会以摘要的形式
显示,在摘要里有相关的T C和EST 的超级链接,点击
可以得到更详细信息。
批量搜索:可以上传需要查询的一列 TC 或 EST
号所组成的文本文件到网站, 系统将会根据文件内容
给出搜索结果。
网站首页最下面提供类似Goog le( tm )的全站搜
索功能。网站提供相关截形苜蓿研究网站的快速链接。
1. 5. 2 TC 动态检索分类系统
对TC 序列注释的精确性程度极大的影响着动态
分类功能的质量。GO 组织已经对分子生物学中用于
描述生物过程,细胞组分和分子功能的词汇作了结构
化、标准化的定义[ 14]。为了能从一个宏观的角度来观
察一群基因、序列的大体情况, GO 组织还定义了 GO
的子集被称为 GO Slim, 并为植物设计了专门的 GO
Slim
[ 11]。TIGR已经完成用GO词汇注释T C。
图2 截形苜蓿生物数据分析平台结构示意图
F ig . 2 The ar chitecture o f “Medicago truncatula Home”
本研究利用植物GO Slim 文件, GO 词汇的定义
文件 term, 以及描述 GO 词汇之间结构关系的文件
term2term,通过编程goslim term table. pl生成了描
233第 3期 刘云岩等:截形苜蓿生物数据分析平台的构建与应用
述GO Slim 与 GO 词汇之间关系的数据库文件表
go slim term, 最后用PHP 语言编写代码实现了对TC
的动态检索分类功能。用户只需要从下拉框中选择他
们感兴趣的基因描述信息, 自己定义检索条件, 就可以
查到相关的截形苜蓿TC。
1. 5. 3 截形苜蓿电子克隆系统
截形苜蓿电子克隆系统利用3个独立使用Perl语
言编写的程序模块 extend. pl, g raph. pl和 finish. pl来
实现对截形苜蓿短序列的延伸服务。进一步把电子克
隆系统系统嵌入到“M . tr uncatula Home”生物数据分
析平台,成为平台服务的一部分。
截形苜蓿电子克隆系统的具体逻辑流程如下(图
3) :
图3 截形苜蓿电子克隆逻辑流程图
Fig. 3 F lowchar t of in silico clone o f M . tr uncatula
 选出待进行电子克隆的种子序列。
 利用序列同源性比对软件WU-BLAST 中的
blastn将待进行电子克隆的序列对库检索。
 从数据库中挑选出全部相关序列。主要从比对
结果中过滤掉相似性低的和序列左边和右边都不长于
此次待延伸序列的EST (即序列包含在此次待延伸序
列中, 不可能对种子序列延伸做出贡献的序列) , 剩下
的序列就是拼接的相关序列。为了优化性能,只选取相
似性最高的10个相关序列。
使用 CAP3软件拼接所用相关序列, 形成延伸
后的拼接片断( cont ig )。
 图形显示此次序列延伸结果。它显示待延伸序
列和延伸后序列的相对位置。
用户选择感兴趣的拼接片断进行进一步延伸。
 判断序列延伸是否结束,如果此次延伸后的序
列长度比前一次延伸的长度只多了不到10 bp, 则认为
电子克隆结束, 序列不能再延伸; 否则重复进行上述
( 2—6)步,直至序列不能被进一步延伸。
  本文构建的截形苜蓿电子克隆系统具有以下特点:
 通过web访问,这样用户只要能联网就可以使用。
 专门为截形苜蓿定制的,参数经过多次尝试和
调整。
 增加了过滤环节。在每次待延伸序列对库比对
后, blast 结果序列不是直接用 CAP3 软件拼接, 而是
先从比对结果中过滤掉相似性低的和序列左边和右边
都不长于此次待延伸序列的表达序列标签,即序列包
含在此次待延伸序列中,不可能对种子序列延伸做出
贡献的序列。
序列每一次延伸后都有可视化的延伸效果图,
非常直观,增加了系统的灵活性和可靠性。
2 应用截形苜蓿生物数据分析平台预
测耐盐相关基因
2. 1 确定保守序列并注释
首先确定哪些截形苜蓿的TC 与拟南芥基因在进
化上保守。通过用截形苜蓿的36878条TC 与拟南芥的
29161条cDNA 序列使用blastn 比对,在E value= 1e-
5, ident ity%= 70% , match% = 60%的时候, 共得到截
形苜蓿T C 2179条, 拟南芥 cDNA 2698条; 进一步比
较二者在氨基酸序列水平上两者的相似性程度, 用与
拟南芥 cDNA 序列相似性高的T C 2179条与拟南芥
蛋白库进行blastx 比对, 在E value= 1e-5, identity=
60%, similarity% = 70%, match% = 60%时得到在氨
基酸序列水平上相似性高的截形苜蓿T C 1978 条, 拟
南芥 cDNA 序列3619条。这1978条截形苜蓿T C可以
推测是与拟南芥在进化上保守的序列, 并用来自拟南
芥的描述信息注释截形苜蓿T C。如图4所示。
2. 2 从截形苜蓿的TC中预测出与盐胁迫相关的基因
拟南芥作为目前在分子水平上被研究最多和最透
彻的植物,已经作了各种基因芯片实验,积累了大量的
数据。作者从欧洲的NASC( Not t ingham A rabidopsis
Stock Centre)做的AtGenExpress 系列中关于拟南芥
盐胁迫实验的一组基因芯片[ 15]获得拟南芥与盐胁迫相
关的基因数据。经过计算机分析, 从中挑出的3400个盐
胁迫相关基因,存放在文件 arab sal t sh s. tx t中。
作者认为能与这3400 个基因匹配的截形苜蓿TC
是截形苜蓿中的耐盐相关基因的转录。通过编写程序
234 草 地 学 报 第 14卷
match atg . pl和match tc. pl 来实现这个匹配过程。
执行命令“perl match atg . pl AtgHash arab salt sh
 s. tx t T CHash match atg”,得到文件match atg ,它
包含拟南芥514个盐胁迫相关基因与T C的对应关系,
和514个基因的详细信息。执行命令“per l match tc. pl
tcHash arab salt sh s. tx t AtgHash match tc”,得
到文件match tc, 它包含650个截形苜蓿T C与拟南芥
盐胁迫相关基因的对应关系和详细信息。
为了进一步对这些基因被研究的程度分类,作者编
写了程序 class arad. pl, 执行完该程序后得到 level 
fisrt , lev el second, level third 3个文件。level f irst
文件是已经研究得非常清楚的基因的相关文献信息,共
涉及到拟南芥基因99个; level second 和 lev el thir d
文件是研究过一些,但还不怎么清楚的拟南芥基因的相
关文献信息, 比如从表达谱中预测的, 根据序列结构相
似性推测的基因等等, 这样的拟南芥基因涉及到558
个。整个流程如图4所示。
图4 预测截形苜蓿盐胁迫相关基因流程图
F ig . 4 Flow chart of predicting of the M . truncatula
genes relative to salt -stress
3 讨论与结论
为了更有效的利用截形苜蓿的EST 序列和其他公
共数据, 方便信息的交流与共享, 加快对截形苜蓿盐胁
迫相关基因的研究步伐。我们构建了“M . truncatula
Home”生物数据分析平台, 并以此为中心, 整合了专门
为截形苜蓿定制的电子克隆系统, 还利用该平台大规模
预测了截形苜蓿盐胁迫相关基因, 从截形苜蓿的36878
条T C中预测到650条截形苜蓿耐盐相关TC,为进一步
挖掘新的功能基因奠定了基础。
“Medicago tr uncatula Home”数据分析平台已实
现了序列基本信息查询, 电子克隆系统, T C 分类查询
和基因功能预测的功能。该平台具有界面简洁、使用方
便的优点,但是仍然需要继续完善,今后开发的重点主
要集中在以下两个方面。一是同一时刻, 可以有多个用
户从不同终端访问电子克隆系统。目前,同一时刻,只能
有一个用户在做电子克隆, 只有当一个用户完成整个一
次电子克隆后,第二个用户才能使用MT-Clone。接下来
的工作将对这点进行改进, 使多个用户可以从不同终端
访问MT -Clone,做电子克隆。二是需要继续开发分析软
件的web 界面。由于大多数生物学研究人员对Linux 操
作系统不熟悉,因此无法使用只能运行在Linux 系统下
的分析软件。通过开发一个web界面,让使用者只需上
网就能使用,这样就大大提高了工作效率。我们接下来
准备为SeqClean开发一个简洁便于使用的web 界面。
参考文献:
[ 1] May G D, Dixon R A. Medicago tru ncatula[ J] . Cu rr. Biol. , 2004,
14( 5) : 180-181
[ 2] Cannon S B, Crow J A, Heuer M L, et al . Datab as es an d in-for-
mation integration for th e Med icag o tr uncatula g enome and t ran-
scriptom e[ J] . Plant Phys iol. , 2005, 138( 1) : 38-46
[ 3] TIGR Medicago Gene Index [ DB/ OL ] . ht tp : / /w ww . t igr. org/
t igr-script s/ t gi/ T -index . cgi? species= medicago, 2005-01-19
[ 4] CCGB-MtDB 2. 0 [ DB/ OL ] . ht tp: / / w ww . medicago. org: 8180/
M tDB2/ Queries/ Sim ilar ityDB2. html, 2004-12-02
[ 5] Adam s M D, Kelley J M , Gocayne J D, et al . C om plementary
DNA sequencing : express ed sequence tags and human genome
project [ J] . Science, 1991, 252( 5013) : 1651-1656
[ 6] Roun sley S D, Glodek A, Sut ton G, et al. T he cons t ruct ion of
Arabidopsis express ed sequence tag as sem blies. A new res ource
to facil itate gene ident ificat ion [ J ] . Plant Ph ysiol. , 1996, 112
( 3) : 1177-1183
[ 7] 杨青川, 康俊梅, 郭文山, 等. 紫花苜蓿耐盐新种质一般配合力分
析与轮回选择[ J ] . 草地学报, 2006, ( 1) : 4-8
[ 8] Ian Korf M Y, Bedell J . BLAST [ M ] . USA, OReilly&Associ-
ates, In c 2003: 116-128
[ 9] Huang X, M adan A. CAP3: A DNA sequence assembly program
[ J] . Genome Res . , 1999, 9( 9) : 868-877
[ 10] TIGR Gene In dices Informat ion Page [ EB/ OL ] . ht tp : / /w ww .
t igr. org/ tdb/ tgi/ def init ions . html, 1993-2003
[ 11] Har ris M A, Clark J, Ir eland A, et al . The Gene Ontology
( GO) databas e and informatics res ou rce[ J] . Nucleic Acids Res. ,
2004, 32( Database issue) :D258-261
[ 12] GO DAT ABASE DAILY T ERMDB DOWNLOAD [ DB/ OL ] .
ht tp: / / archive. g odatab as e. org/ lates t-termdb / , 2006-08-30
[ 13] Reese G, R J Y, King T , et al . Managing and Using MySQL
[ M] . USA, OReil ly&Associates, Inc 2002, 2: 217-250
[ 14] Schulz e-Kremer S. Ontologies for molecular biology an d bioinfor-
mat ics[ J] . In Silico Biol. , 2002, 2( 3) : 179-193
[ 15] Af fymet rix AT H1 Arabidopsis Genome Array [ EB/ OL] . ht tp: / /
af f ymet rix . arab idopsis . info/ narrays /experimentp age. pl? experi-
men tid= 140, 2005-08-30
(责任编辑 孙洪仁)
235第 3期 刘云岩等:截形苜蓿生物数据分析平台的构建与应用