全 文 :
2008 年 第 53 卷 第 17 期: 2054 ~ 2059
2054 www.scichina.com csb.scichina.com
《中国科学》杂志社
SCIENCE IN CHINA PRESS 论 文
拟南芥花药表达基因调控关系的预测
黄继风①*, 杨晶晶②*, 王冠②, 余庆波②, 杨仲南②†
上海师范大学①数理信息学院, ②生命与环境科学学院, 上海 200234
* 同等贡献
† 联系人, E-mail: znyang@shnu.edu.cn
2008-01-31收稿, 2008-05-28接受
国家自然科学基金(批准号: 30530100)和上海市教育委员会教育科学研究(批准号: 07ZZ60)资助项目
摘要 模式植物拟南芥花药的发育由复杂的基因网络所调控. 至今为止, 研究人员对这一调控
网络的了解非常有限. 本研究利用一种整合基因芯片数据与启动子序列分析的生物信息学方
法来预测拟南芥花药表达基因之间的调控关系. 基于这种方法, 一共预测到了 7710 对具有调
控关系的基因对, 其中 80 对为高可信度的调控关系. 在这 80 对基因中, 有 3 对调控关系已被
之前的实验验证, 表明本研究预测的结果有一定的可靠性. 我们所预测的基因调控关系有助于
拟南芥花药发育分子机理的深入研究, 提出的生物信息学研究方法也可用于其他基因调控关
系的预测.
关键词
拟南芥
花药发育
基因调控网络
生物信息学
基元
植物发育过程由一系列复杂的基因调控网络所
控制 , 基因调控网络及特定基因与其他基因的调控
关系对于发育分子机理深入研究具有重要的意义 .
基因调控网络可以以实验为基础进行构建 , 也可以
利用生物信息学的方法进行研究. 在实验方面, 由于
芯片包含的信息量大 , 并且能够反映生物体内的实
际情况, 因此, 以芯片为基础的 ChIP-chip 是当前用
得最广泛的鉴定基因调控关系的方法[1]. 该方法的使
用要求所研究的物种全基因组序列得到测定 , 并且
需要有全基因组基因芯片. 针对每一个调控基因(转
录因子), 需要有高质量的抗体. 因此, 该方法在实际
应用过程中受到很多限制.
当前 , 各种组学的发展产生大量的基因表达数
据和其他高通量的实验数据 . 利用这些数据来研究
基因调控关系的生物信息学方法是构建基因调控网
络的一种重要方法. 从表达谱数据出发, 可以利用数
学模型来建立基因调控关系 , 这种方法也称反向工
程(reverse engineering)[2]. 最常用的基因调控网络模
型是 Boolean 网络[3]和贝叶斯网络[4]. Tamada 等人[5]
已经利用贝叶斯网络算法构建出酵母基因的调控网
络. 基因调控网络也可以通过预测转录因子结合位
点的方法进行构建 . 由于转录因子能够结合特定的
DNA 序列, 从而调控下游基因的表达, 因此对转录
因子结合位点的预测有助于分析转录因子与其他基
因之间的调控关系, 用以构建基因的调控网络. 根据
识别策略和搜索对象的不同 , 已有的预测方法可大
致分成两类: 基于保守基元(motif)的方法和基于比较
基因组学的方法[6]. 前者主要在同一物种基因组的协
同调控基因的调控区域内通过寻找保守基元来预测
可能的结合位点. 后者则利用比较基因组学方法, 例
如系统发生足迹法 , 通过比对多个相关物种基因组
的对应区域来发现具有公共保守特性的基元.
目前, 酵母、人、果蝇等几种模式生物的基因调
控网络已被构建出来 [7,8]. Lee 等人 [7]利用一种整合
ChIP-on-chip 与基因表达数据的方法, 构建了一个酵
母细胞周期的转录调控网络 . 对调控网络的结构分
析表明 , 真核生物的细胞功能与网络中的高连接度
的调节基因有着密切的关系. Odom 等人[8]为人类肝
细胞的 6个主要的调节基因构建了转录调控网络, 他
们进一步发现, 这 6个主要的调节基因会联合结合其
2055
论 文
靶基因的启动子区域.
然而 , 由于缺少足够的基因表达数据与高通量
实验数据 , 鲜有大规模的拟南芥的转录调控网络被
构建出来. 目前只报道过一些小规模的、基于少数特
定调控基因的调控网络. Espinosa 等人[9]利用一种离
散网络模型(discrete network model)将早先植物中已
知的 ABC模型转换成了一个动态模型. To等人[10]利
用整合实验与基因表达数据的方法构建了一个与拟
南芥种子成熟有关的基因调控网络.
花药的发育是植物有性生殖的重要环节 . 本研
究利用一种整合基因表达数据与启动子区域转录因
子结合位点预测的生物信息学方法来构建一个拟南
芥花药发育有关的基因调控网络 . 通过基因共表达
分析和启动子区域的 TFBS (transcription factor
binding site)预测, 得出了一些高可信度的花药表达
基因的调控关系 , 并将这些调控关系构建成了一个
拟南芥花药发育的调控网络.
1 材料与方法
(ⅰ) 基因芯片数据. (1) AtGenExpress 是一个
国际合作项目 , 主要利用基因芯片研究拟南芥的转
录[11], 其芯片数据发布在网上(http://www.arabidopsis.
org/info/expression/ATGenExpress.jsp). (2) ATTED-Ⅱ
数据库[12]收集了大部分的拟南芥现有基因芯片数据,
并对这些基因芯片数据进行整合分析 , 得出了拟南
芥基因间的共表达相关数据.
(ⅱ) GO和MapMan数据库. GO数据库[13]构建
了 3个相对独立的本体论(ontology). 其中, 生物过程
(biological process)、分子功能(molecular function)和
细胞成分(cell component)是基因和基因产物的所有
属性. GO 数据库的目标是从生物语义上实现各数据
库的最大整合 . 因此该数据库被广泛地用于基因功
能的注释, 本研究用 GO数据库对预测出来的转录因
子与其靶基因的转录调控关系进行可靠性筛选.
MapMan[14]是 PPDB (Plant Proteome Database)数
据库 (http://ppdb.tc.cornell.edu/)所提供的一种工具 ,
它可以按照蛋白质在生物体代谢途径和生物过程中
的功能对基因进行分类. 其原理与 GO 很相似, 都是
利用层次分类方式对基因产物进行功能分类 , 由于
MapMan 工具对拟南芥和玉米蛋白的分类效果较好,
因此我们用它对本文预测 80 个基因对所编码蛋白质
进行功能分类与注释, 并进一步探讨由 80 个基因对
所构成网络反映的生物学意义.
(ⅲ) 花药表达基因的鉴定. 为了预测拟南芥花
药发育过程中表达的转录因子与其靶基因之间的关
系 , 我们根据基因芯片数据确定花药表达基因 . 从
AtGenExpress 网站下载了编号为 ATGE_36 和
ATGE_43 的基因芯片数据, 从中挑选出在 6 张芯片
中都认为有一定表达值的基因 , 即该基因在这些芯
片的 Detection 值为 P (Present), 再加上文献[15~17]
中报道的拟南芥花药表达基因, 经过计算共有 14020
个基因.
(ⅳ) 共表达基因的挑选. 通常, 被同一转录因
子调控的一组基因都存在共表达的情况 [18]. 基于这
一原理 , 利用 ATTED-Ⅱ数据库提供的数据 , 将
14020 个基因按照共表达情况进行分组 . 首先 , 从
ATTED-Ⅱ数据库中下载了拟南芥全基因组的共表达
数据, 这些数据包含了 20906 个文件, 每一个文件对
应一个拟南芥的基因, 并以该基因的 AGI号命名. 同
时, 每一个文件都有 22572 行, 其中第一行为该文件
所代表的基因, 其余各行分别代表基因组其他基因,
在每一个基因的后面都有一个范围从−1.0~1.0 的相关
系数来表示该基因与第一行基因之间的共表达关系,
基因之间共表达系数越高 , 它们共表达的可能性就
越大, 但满足这一条件的基因数量就越少. 兼顾数量
与共表达可靠性两方面要求 , 设定共表达系数阈值
为 0.6. 然后, 对于上一步筛选到的每一个花药表达
基因, 编写 perl语言脚本对这 20906个文件进行筛选,
筛选的条件是与这个基因的共表达系数大于 0.6的所
有花药发育基因, 将这些基因分为一组用 MEME[19]
软件预测这组共表达基因中的基元. MEME软件对待
预测的共表达基因有数量上的要求, 如果 MEME 输
入的一组共表达基因数量较少 , 预测结果可靠性降
低. 为了得到可靠的基元预测结果, 设定作为MEME
输入的每组共表达基因数量必须大于等于 10. 最后,
通过分组得到了 405 组共计 2352 个基因, 每一组基
因都被认为是在花药发育过程中有共表达的情况.
(ⅴ) 启动子区域的基元预测. 真核生物转录因
子识别的基元一般分布在基因上游−1~−500的区域[20].
因此采用基因上游 500 bp的启动子序列作为 MEME
的输入数据. MEME算法是一种常用的基元预测工具,
它可以从一组共表达基因的启动子序列中预测出一
个或多个基元. 上述方法得到了 405 组共表达基因,
从 TAIR数据库中下载这些基因启动子 500 bp的序列
做为MEME的输入. 在MEME工具的参数设定方面,
使用了该工具的 ZOOPS模式, 即MEME算法假设输
2008 年 9 月 第 53 卷 第 17 期
2056
入的每一条启动子序列上允许有零个或一个基元存
在, 其余参数皆为工具默认. 最后通过计算, 挑出得
分最高的 3个结果.
(ⅵ) 调控关系的预测. 预测出启动子上基元信
息后, 利用 STAMP[21]工具将这些信息转换成转录因
子信息. STAMP 将基元序列与数据库中已知转录因
子结合位点序列比对 , 从而确定一个基因及其启动
子上结合的转录因子. 具体步骤如下:
(1) 使用 Perl程序批量地向 STAMP服务器提交
预测出来的基元序列, STAMP 服务器根据其转录因
子识别序列数据库将基元信息转换成转录因子信息.
STAMP 服务器收集了 TRANSFAC[22], AthaMap[23]和
AGRIS[24]这 3 个数据库存储的转录因子识别序列信
息, 其中 TRANSFAC 数据库包含了各个物种的识别
数据, AthaMap包含了几种植物中的转录因子识别序
列数据, 而 AGRIS 数据库则只包含拟南芥已知的转
录因子识别序列数据.
(2) 从 STAMP 工具获得的转录因子信息中挑选
出可能性最高的 3个数据, 作为启动子上可能结合的
转录因子. 如果预测的转录因子为其他物种, 则根据
同源性分析转换为拟南芥的转录因子 . 一个基因及
其启动子上可能结合的转录因子构成具有调控关系
的基因对.
(ⅶ) 预测结果的筛选. 通过预测共得到 7710
对转录因子与其靶基因的转录调控关系 . 为了提高
结果的可靠性, 利用 ATTED-Ⅱ数据库和 GO 数据库
对初步结果进行筛选, 筛选的方法如下:
(1) 基于 ATTED-Ⅱ数据库提供的共表达系数 ,
高可信度转录调控关系对中的两个基因之间的共表
达系数必需大于等于 0.6.
(2) 通过对 GO 数据库的搜索, 高可信转录调控
关系对中的两个基因至少有一个是和花发育有关的
基因.
只有以上两个条件都满足的转录调控关系对才
被视为高可信度的花药发育调控基因对.
2 结果
2.1 花药表达基因调控关系数据库构建
我们从 AtGenExpress 基因芯片数据及先前的实
验数据初步鉴定出 14020 个花药表达基因 . 利用
ATTED-Ⅱ拟南芥基因共表达数据库筛选出有共表达
情况的基因 , 并根据其共表达情况将这些基因分成
了 405组, 共计 2352个基因. 然后, 使用基元预测软
件 MEME 对每一组基因启动子序列进行预测, 找到
这些基因启动子区域上的基元 . 这些基元可能是转
录因子的识别位点 . 为了确定识别这些基元的转录
因子, 使用 STAMP 工具将基元信息转换成转录因子
信息 , 从而确定一个基因启动子上可能结合的转录
因子 . 具体流程见图 1. 经过以上分析 , 共预测到
7710 对模式植物拟南芥花药表达转录因子与其靶基
因的调控关系(网络版附录 1). 这些调控关系共包含
了 2319 个基因, 查询 AGRIS 数据库后, 我们发现其
中有 480个编码转录因子的基因.
图 1 基因调控关系预测流程图
2.2 高可信度的基因调控关系
为了进一步提高结果的准确性 , 我们再次使用
ATTED-Ⅱ数据库中的基因共表达数据对以上的结果
进行筛选, 根据材料与方法(ⅶ)中的筛选条件, 得到
了 80对高可信度的转录调控关系(网络版附录 2). 80
对预测出来的调控关系一共包含了 84 个基因, 通过
检索转录因子数据库 AGRIS后, 发现在 84个基因中
有 34 个编码转录因子的基因, 通过对 MapMan 数据
库的检索, 有 22 个功能未知基因. 同时, 利用 pajek
网络分析软件 (http://vlado.fmf.uni-lj.si/pub/networks/
pajek/) 将这 80对转录调控关系绘制成了可视化的图
形(图 2).
2.3 被实验证实的转录调控关系
我们从 AGRIS 数据库收集到了 348 对实验验证
的转录调控关系 , 并将这些转录调控关系与我们预
测的结果进行比较. 结果表明, 在预测的 80 对高可
信度调控基因对中, 有 3对调控关系被之前的实验所
验证. 这 3 对调控关系是: AGAMOUS (AG)自调控,
2057
论 文
AG调控 APETALA3 (AP3), AG 调控 CRABSCLAW
(CRC)[25]. AG, AP3, CRC这 3个基因在之前的相关研
究中已被证明对花的发育有重要的作用, 其中 CRC
也被证明在拟南芥心皮与蜜腺的发育过程扮演关键
角色[26]. 这些结果表明, 我们所预测的基因调控关系
有一定的准确性. 因此, 本研究所预测的花药表达基
因调控关系将为花药发育分子机理的深入研究提供
有用的线索.
3 讨论
3.1 花药表达基因
由于目前拟南芥花药芯片数量的不足 , 本研究
仅使用了 6 张花药发育的基因芯片数据来确定拟南
芥花药表达基因. 因此根据这些芯片得到的 14020个
基因并不能够完全准确地反映花药表达的基因 , 部
分基因可能并非花药表达 . 但是这些基因信息在本
项工作中只是作为我们数据挖掘的原始数据 . 经过
基因共表达分析并筛选后 , 去除了非花药表达基因
的假阳性结果, 获得的 405 组 2352 个基因才是花药
表达基因. 以此为基础我们预测得到了 7710 对花药
基因调控关系, 其中 80 对为高可靠性的调控基因对.
预测到的 7710基因对共包含 2319个基因, 对 AGRIS
数据库分析表明这些基因中有 67 对为实验所验证.
本文我们预测到其中 9 对调控关系, 在 80 对高可靠
性的调控关系中亦包含 3对已知的调控关系. 上述情
况说明, 我们的预测结果有一定的可靠性, 为拟南芥
花药发育的分子机理研究提供有用的参考信息. 在我
们所预测出的 7710 对基因调控关系中, 有部分为功
能未知基因. 根据调控关系中的已知基因功能, 可以
预测未知基因的功能. 因此我们所构建的基因调控网
络也为花药中未知功能基因的研究提供了参考信息.
3.2 80个基因对的生物学意义
MapMan 根据代谢途径和生物学功能对拟南芥
蛋白进行分类. 在第一层次, MapMan 将拟南芥基因
产物分为 35类, 其中第 27类包含绝大部分的转录因
子, 第 35 类为功能未知蛋白. 根据调控基因(转录因
子)与被调控基因的关系, 我们将高可信度的 80个基
因对分为 18组(网络版附录 3), 其中 6组调控基因(转
录因子 )与被调控基因都处于 27.3 这一层 , 而在
MapMan的分层说明里, 27.3这一层的蛋白基本是转
录因子. 根据以前的研究结果, 这种转录因子调控转
录因子表达的现象在拟南芥花发育的过程中往往有
图 2 花药表达基因调控网络
方形节点表示转录因子, 圆形节点表示基因, 黑色箭头表示转录因子与基因之间的调控关系, 椭圆环表示自调控
重要的生物学意义[25,27].
转录因子既可以调控其他转录因子 , 也可以调
控非转录因子. 在 80 个基因对中, AG 调控的基因
最多, 共有 33 个基因, 其中有 13 个编码转录因子的
2008 年 9 月 第 53 卷 第 17 期
2058
基因, 这 13个基因的分类号与 AG的分类号相似, 都
处于 27.3. 此外, AG 也可能调控 20 个编码非转录
因子的基因. 其中有 3个属于第一层的 30类. 该类蛋
白与信号传导相关, 由此推测 AG基因具有调控信号
传导的功能. AG调控的 20个非转录因子基因中, 有
10 个基因编码的蛋白处于第一层的 35 类, 这一层的
蛋白都是功能未知. 由于这些未知基因都受 AG 调
控, 这些未知基因中可能部分基因也具有信号传导
功能.
3.3 生物信息学方法的优缺点
相对实验方法 , 本研究所采用的生物信息方法
有着快速、高通量的优势, 可以建立一个大规模的基
因调控网络 . 与生物信息学中的反向工程的方法相
比, 避免了收集大量的基因表达数据的困难. 但是我
们所使用的方法亦存在着许多不足之处: 首先, 由于
训练数据的缺乏 , 目前启动子上基元的预测算法的
准确率还不够高, 假阳性结果较多; 其次, 由于缺乏
足够的拟南芥转录调控实验数据 , 难以对生物信息
学的预测结果进行全面的评估. 尽管如此, 本研究方
法仍然能预测到 67 对已知调控关系中的 9 对, 表示
该方法有一定的准确性 , 该方法可以为拟南芥其他
生物学过程分子机理研究提供一种新的研究方法.
参考文献
1 Banerjee N, Zhang M Q. Functional genomics as applied to mapping transcription regulatory networks. Curr Opin Microbiol, 2002,
5(3): 313—317
2 Hartemink A J. Reverse engineering gene regulatory networks. Nat Biotechnol, 2005, 23(5): 554—555
3 Somogyi R, Sniegoski C. Modeling the complexity of genetic networks: understanding multigenetic and pleiotropic regulation. Com-
plexity, 1996, 1: 45—63
4 Zou M, Conzen S D. A new dynamic Bayesian network (DBN) approach for identifying gene regulatory networks from time course
microarray data. Bioinformatics, 2005, 21(1): 71—79
5 Tamada Y, Kim S, Bannai H, et al. Estimating gene networks from gene expression data by combining Bayesian network model with
promoter element detection. Bioinformatics, 2003, 19(i2): ii227—ii236
6 Blais A, Dynlacht B D Constructing transcriptional regulatory networks. Genes Dev, 2005, 19: 1499—1511
7 Lee T I, Rinaldi N J, Robert F, et al. Transcriptional regulatory networks in Saccharomyces cerevisiae. Science, 2002, 298(5594): 799—
804
8 Odom D T, Dowell R D, Jacobsen E S, et al. Core transcriptional regulatory circuitry in human hepatocytes. Mol Syst Biol, 2006, 2:
2006.0017, doi: 10.1038/msb4100059
9 Espinosa-Soto C, Padilla-Longoria P, Alvarez-Buylla E R. A gene regulatory network model for cell-fate determination during Arabi-
dopsis thaliana flower development that is robust and recovers experimental gene expression profiles. Plant Cell, 2004, 16(11): 2923—
2939
10 To A, Valon C, Savino G, et al. A network of local and redundant gene regulation governs Arabidopsis seed maturation. Plant Cell,
2006, 18(7): 1642—1651
11 Schmid M, Davison T S, Henz S R, et al. A gene expression map of Arabidopsis thaliana development. Nat Genet, 2005, 37(5): 501—
506
12 Obayashi T, Kinoshita K, Nakai K, et al. ATTED-Ⅱ: A database of co-expressed genes and cis elements for identifying co-regulated
gene groups in Arabidopsis. Nucleic Acids Res, 2007, 35(Database issue): D863—D869
13 The Gene Ontology Consortium. Gene Ontology: Tool for the unification of biology. Nature Genet, 2000, 25: 25—29
14 Friso G, Ytterberg A J, Giacomelli L, et al. In-depth analysis of the thylakoid membrane proteome of Arabidopsis thaliana chloro-
plasts; new proteins, functions and a plastid proteome database. Plant Cell, 2004, 16: 478—499
15 Honys D, Twell D. Comparative analysis of the Arabidopsis pollen transcriptome. Plant Physiol, 2003, 132(2): 640—652
16 Wellmer F, Riechmann J L, Alves-Ferreira M, et al. Genome-wide analysis of spatial gene expression in Arabidopsis flowers. Plant Cell,
2004, 16(5): 1314—1326
17 Honys D, Twell D. Transcriptome analysis of haploid male gametophyte development in Arabidopsis. Genome Biol 2004, 5(11): R85
18 Janaki C, Joshi R R. Motif detection in Arabidopsis: Correlation with gene expression data. In Silico Biol, 2004, 4(2): 149—146
19 Bailey T L, Elkan C. The value of prior knowledge in discovering motifs with MEME. Proc Int Conf Intell Syst Mol Biol, 1995, 3: 21
—29
2059
论 文
20 Caselle M, Di Cunto F, Provero P. Correlating overrepresented upstream motifs to gene expression: A computational approach to
regulatory element discovery in eukaryotes. BMC Bioinformatics 2002, 3: 7
21 Mahony S, Benos P V. STAMP: A web tool for exploring DNA-binding motif similarities. Nucleic Acids Res 2007, 35(Web Server is-
sue): W253—W258
22 Matys V, Fricke E, Geffers R, et al. TRANSFAC: Transcriptional regulation, from patterns to profiles. Nucleic Acids Res, 2003, 31:
374—378
23 Steffens N O, Galuschka C, Schindler M, et al. 2004. AthaMap: an online resource for in silico transcription factor binding sites in the
Arabidopsis thaliana genome. Nucleic Acids Res, 32: D368—372
24 Palaniswamy S K, James S, Sun H, et al. A platform to link cis-regulatory elements and transcription factors into regulatory networks.
Plant Physiol, 2006, 140(3): 818—829
25 Gomez-Mena C, de Folter S, Costa M M, et al. Transcriptional program controlled by the floral homeotic gene AGAMOUS during
early organogenesis. Development, 2005, 132(3): 429—438
26 Bowman J L, Smyth D R. CRABS CLAW, a gene that regulates carpel and nectary development in Arabidopsis, encodes a novel pro-
tein with zinc finger and helix-loop-helix domains. Development, 1999, 126(11): 2387—2396
27 De Folter S, Immink R G, Kieffer M, et al. Comprehensive interaction map of the Arabidopsis MADS Box transcription factors. Plant
Cell, 2005, 17(2): 1424—1433
《中国科学 C 辑: 生命科学》简介
《中国科学 C辑: 生命科学》(中文版)和《Science in China Series C: Life Science》(英文版)是中国科学院主管、中
国科学院和国家自然科学基金委员会共同主办的自然科学综合性学术刊物, 主要刊载自然科学各领域基础研究和应用研
究方面具有创新性的、高水平的、有重要意义的研究成果, 由中国科学杂志社出版. 中、英文版是两个相对独立的刊物. 月
刊.
《中国科学 C辑: 生命科学》(中文版)被《中国科学引文数据库》、《中国学术期刊网》、《中国科学文献数据库》、
《中国数字化期刊》数据库收录, 《Science in China Series C: Life Sciences》(英文版)被 SCI, MEDLINE, CA, 俄罗斯文摘
杂志等数据库收录.
栏目设置
评述: 综述所研究领域的代表性成果、研究进展, 提出作者自己的见解以及对今后研究方向的建议.
论文: 报道化学各领域具重要意义的创新性科研成果.
快报: 简明扼要地报道化学各领域最新研究成果的核心内容. 本栏目文章将优先发表.
投稿方式
投稿时使用在线投稿的方式,可访问中国科学杂志社网站 www.scichina.com
联系方式
地 址: 北京东黄城根北街 16号
邮政编码: 100717
电 话: (010) 64015399
传 真: (010) 64016350
电子信箱: life@scichina.org