全 文 :植物生理学通讯 第 43卷 第 2期,2007年 4月 333
转录因子靶基因的鉴定
刘淑敏 1,2,朱瑞良 1,蔡秀玲 2,*
1华东师范大学生命科学学院,上海 200062;2中国科学院上海生命科学研究院植物生理生态研究所,上海 200032
Identification of Target Genes of Transcription Factor
LIU Shu-Min1,2, ZHU Rui-Liang1, CAI Xiu-Ling2,*
1School of Life Science, East China Normal University, Shanghai 200062, China; 2Institute of Plant Physiology and Ecology,
Shanghai Institutes for Biological Sciences, Chinese Academy of Sciences, Shanghai 200032, China
提要:文章介绍了鉴定转录因子靶基因研究中常用的生物学方法,尤其是在基因组范围内转录因子靶位点的筛选方法,
如染色质免疫沉淀、甲基化酶鉴定、pull-down、蛋白结合芯片和生物信息学方法等。
关键词:转录因子;靶基因;鉴定
收稿 2006-12-04 修定 2007-03-02
致谢 王宗阳先生曾提出修改意见。
* 通讯作者(E -ma i l:xlc a i@s ippe .a c . cn;T e l:0 2 1 -
5 4 9 2 4 0 7 8;Fa x:0 2 1 -5 4 9 2 4 0 1 5 )。
复杂的生命活动过程中需要每一个基因适
时、适量、适地的表达,基因的表达在各个层
次上都受到精密的调控(包括染色体结构、转录、
转录后、翻译和翻译后加工等水平的调控) ;转录
水平的调控发生在基因表达的初期阶段,是很多
基因表达调控的主要方式之一(Schwechheimer和
Bevan 1998)。转录水平的调控是指一类称为转录
因子(也称反式作用因子,transcription factor,
TF)的蛋白质特异地结合到靶基因调控区的顺式作
用元件上,或调节基因表达的强度,或控制靶基
因的时空特异性表达,或应答外界激素和环境胁
迫(陈俊和王宗阳 2002)。在细胞生长、细胞周期
的转换、胚胎发育和分化、细胞程序性死亡、对
外界刺激的反应等生命活动过程中,转录因子和
DNA之间的相互作用是不可缺少的要素,可以毫
不夸张地说,真核生物一切生命过程都与DNA转
录相关蛋白和转录因子有关。
通常情况下,一个转录因子可以调控很多基
因,一个基因也会受很多转录因子的调控,它们
组成复杂的调控网络。然而,这个调控网络如何
组成、怎样工作,到目前为止研究得尚不清楚。
鉴定出转录因子的靶基因,是研究调控网络的重
要基础;弄清楚每一个转录因子在转录调控网络
中所处的位置和所起的作用,了解某一个物种或
组织中的各个基因的表达关系,进而就可以阐明
基因转录调控的网络模型;这种整体的模式分析
和研究,可以帮助人们了解复杂生命活动的本
质,在系统的框架下认识生命现象,特别是信息
流动的规律,在功能基因组研究中具有深远意义。
鉴定转录因子靶基因的方法主要有两类,即
通过转录因子表达水平的改变引起靶基因的表达变
化来鉴别靶基因和通过转录因子结合的特异靶序列
鉴别靶基因,本文对此问题逐一作如下介绍。
1 通过转录因子表达水平的变化鉴别靶基因
最初鉴定转录因子靶基因的方法通常是将生
物体中所研究的转录因子敲除或过量表达,然后
检测哪些基因的表达发生了变化,来确定这一转
录因子的靶基因。通常用于检测基因表达发生变
化的方法有 R T- P C R、消减杂交( s ub t r a c t i ve
hybridization)、差异显示(differential display)、基
因表达系列分析(serial analysis of gene expression,
SAGE)和基因芯片(chip)杂交分析等。
1.1 转录因子基因的敲除(gene knockout) 基因敲
除是20世纪80年代末发展起来的一种新型分子生
物学技术,它是指对一个结构已知但功能未知的
基因,从分子水平上设计实验,将该基因去除。
比较成功的有基因的插入突变、反义RNA技术和
RNA干扰(RNAi)等方法将该基因敲除;或用其他
技术与方法 Techniques and Methods
植物生理学通讯 第 43卷 第 2期,2007年 4月334
顺序相近基因取代,然后从整体观察实验生物中
哪些基因的表达发生了变化。例如,在拟南芥热
激转录因子HsfA2的研究中,将其敲除掉后结合
芯片和 R T - P C R 的方法寻找到它的靶基因
(Schramm等 2006;Nishizawa等 2006)。随着基
因敲除技术的发展,新的原理和技术也逐渐被应
用。但是基因敲除经常会引起一些致死效应或强
烈的多重效应;或者由于冗余转录因子的存在,
导致真正的靶基因表达量没有下调。
1.2 转录因子的超表达(overexpression) 超表达是
指目的基因的全长序列与高活性组成型启动子或具
有时空表达特征的启动子重组,构成融合基因,
通过DNA载体转化到受体细胞,由启动子直接指
导目的基因进行有效表达。与基因敲除技术相
比,超表达技术的一个重要优势就是其受功能冗
余的影响不大,因此通过超表达可以鉴定很多基
因敲除无法鉴定的转录因子的功能。如:酵母的
转录激活子YAP1超表达后,通过基因芯片检测
到 17个基因的表达量增加数超过 3倍(DeRisi等
1997) ;又如:拟南芥的转录因子 ICE1超表达
时,引起转录因子 CBF3表达量增加,从而增强
了转基因植株对寒冷的耐受性(Chinnusamy等
2003)。
但是此方法也有一定的局限性,对于受到精
密调控的转录来说,超表达转录因子有可能不引
起它的靶基因表达上调;有一些超表达会导致转
录因子与不相关的启动子中亲和力较低的结合位点
结合,从而激活一些不相关基因的表达,因此很
难估计在超表达链中哪些基因真正受到调控。其
次,也很难估计靶基因是受转录因子的直接调控
还是间接调控。
1.3 转录因子基因的诱导表达 转录因子激活后,
表达量迅速发生改变的基因最可能是此转录因子的
直接靶基因,因此可以将随时间变化引起基因表
达发生变化作为一个标准来进行判断。基因诱导
表达可以实现基因表达的时空和数量控制。一个
可用的诱导表达系统是利用鼠的糖皮质激素受体
(glucocorticoid receptor,GR)进行翻译后诱导,
并结合一些蛋白质合成抑制剂,例如环己酰亚胺
(cycloheximide),然后分离到转录因子直接调控
的靶基因。其机制是:用诱导剂诱导转录因子直
接调控的靶基因的转录,但在蛋白合成抑制剂的
作用下,所转录的靶基因不能翻译成蛋白质,从
而阻断了直接靶基因的功能,与不加抑制剂的相
比,此时的转录本数量增高的基因便是该转录因
子直接调控的靶基因。例如,S a b l o w s k i 和
Meyerowitz (1998)将拟南芥基因 APETALA3 (AP3)
与糖皮质激素受体融合后,再与基因 ISTILLATA
(PI)同时在 ap3-3突变体中超表达,采用环己酰亚
胺,结合差异显示分离出一个受同源异型蛋白质
异二聚体AP3/PI直接调控的基因NAP。McDonald
和 Rosbash (2001)用芯片分析果蝇的Clk转录因子
有 134个靶基因,但是在环己酰亚胺存在的条件
下,仅有 9 个基因是直接的靶基因。S a k a i 等
(2001)用诱导剂地塞米松(dexamethasone)查明拟南
芥中转录因子ARR1可直接激活细胞分裂素受体基
因 A RR 6。
2 通过转录因子结合的特异靶序列鉴别靶基因
在后基因组时代,从整个基因组范围分析转
录因子的结合位点寻找它们的靶基因已经成为分子
生物学发展的一种趋势,应运而生的有染色质免
疫沉淀方法(chromatin immunoprecipita tion,
ChIP),以及一些 ChIP衍生的方法;还有甲基化
酶鉴定方法(Dam methyla se ident i fica t ion,
DamID)、pull-down方法、蛋白结合芯片方法以
及生物信息学方法等,这些方法都是以整个基因
组作为研究对象,有些方法能够真实地反映正常
生理条件下转录因子调控的靶基因。这些方法应
用在果蝇、酵母和人类细胞研究中,都得到很好
的结果。
2.1 ChIP ChIP是一种在体内研究DNA-蛋白质相
互作用的方法,相对于传统的研究蛋白与DNA相
互作用的方法(如凝胶滞后等)来说,ChIP技术能
更加真实、完整地反映结合在DNA序列上的调控
蛋白,是目前确定转录因子与特定基因组区域互
作中一种很理想的方法。此法的基本原理是在生
理条件下用甲醛把细胞内的DNA与蛋白质交联在
一起,再用超声波将染色质打碎后,用所要研究
的转录因子的特异性抗体沉淀这种交联复合体,
然后解除交联,纯化 DNA,用 PCR或 Southern
杂交等方法确认已知的靶基因,用基因芯片或亚
克隆等方法寻找新的靶基因。
植物生理学通讯 第 43卷 第 2期,2007年 4月 335
2.1.1 基因组富集的序列标签分析(sequence tag
analysis of genomic enrichment,STAGE) Kim
等(2005)提出了一个在基因组范围内研究DNA和
蛋白质之间相互作用的新方法,称之为 STAGE。
它来源于 SAGE,但是它的模板来源和基因表达
系列分析是不相同的,它的高通量串连DNA标签
来自于ChIP。STAGE的基本方法是:首先用ChIP
方法获得与蛋白质交联在一起的 DNA,再将此
D N A 纯化后采用生物素标记的简并引物扩增
DNA,用 4个碱基的限制性核酸内切酶 NLaIII酶
切DNA,再用链霉亲和素分离生物素标记的DNA
片段;标记的 D N A片段与包含限制性内切酶
NLaIII位点的接头连接后,接着用内切酶MmeI酶
切,分离得到包含内切酶NLaIII酶切位点的 21个
碱基的 DNA片段后再把这些片段串连起来,克
隆、测序,并作进一步分析(图 1 )。
Kim等(2005)用此方法鉴定了酵母中 TATA
box结合蛋白(TBP)的靶基因,得到 1 050个有效
的 STAGE标签,79个靶基因中 68个基因有RNA
聚合酶 III的启动区,从而证明此法有其可行性。
Kim等(2005)用这种方法还对人类转录因子 E2F4
的靶基因进行了研究,找到3 500个有效的STAGE
标签,得到的靶基因不仅包含已经证实的靶基
因,而且还发现几个新的靶基因,有一些结合位
点并不存在于启动区中,有的甚至是在基因编码
区,这和已经报道的转录因子 NF-B、c-Myc和
Sp1的结合位点的特征相一致。
2.1.2 ChIP-chip 近年来,ChIP与DNA芯片技术
相结合,已经用于高通量地筛选转录因子的靶基
因以及分析靶基因在整个基因组中的分布情况。
Buck和Lieb (2004)详细地介绍了ChIP-chip如何设
计芯片、怎样选择对照以及使用什么分析工具来
分析得到的数据,从而为人们采用此项技术提供
了借鉴。其原理如图 2。
ChIP-chip方法最早从酵母中发展而来。Ren
等(2000)研究碳源(carbon source)变化时的转录因
子Gal4在酵母基因组上的结合位点,以及当性信
息素(mating pheromone)变化时,转录因子 Ste12
在酵母基因组中的结合位点。他们观察到,所获
得的结合位点不仅包括了Gal4和Ste12已知的靶基
因,还包括一些未知的靶基因,因此人们对它们
的功能得到新的认识。基因组范围的分析有利于
从整体上研究基因调控网络、基因功能、染色体
组修复。Iyer等(2001)在酵母中成功地鉴定了与
细胞周期相关的转录因子SBF和MBF在酵母基因
组中 200个新的靶基因,他们的结果不仅支持了
以前的假说,即认为 SBF激活与芽孢、细胞膜和
细胞壁合成有关的基因,MBF激活与DNA复制和
修复有关的基因,并且得到的结果还表明:在细
胞有丝分裂过程中两者都有功能,转录因子 SBF
对酵母接合和假菌丝的生长起作用,而转录因子
MBF则在酵母减数分裂中发挥作用。Simon等
(2001)研究酵母中调控细胞周期表达的9个转录因
子时观察到这些转录因子协同地调控细胞周期基因
的表达,它们在细胞周期的不同阶段有不同的功
能,因而细胞周期具有连续性。Lieb等(2001)研
究阻遏激活蛋白 Rap1和辅助沉默蛋白 Sir2、3、
4在酵母基因组中靶基因分布的结果表明,Rap1
在细胞快速生长中起作用,有 294个靶基因,占
酵母整个基因组的 5%,在细胞的指数生长过程
中,它参与激活 37% RNA聚合酶 II。Lee等(2002)
用c-Myc抗原决定簇蛋白标签系统鉴定了酵母106
个转录因子在基因组范围内的结合位点图谱,结果
表明转录因子在调节真核细胞功能过程中起作用。
图 1 STAGE方法示意(Kim等 2005)
植物生理学通讯 第 43卷 第 2期,2007年 4月336
在人类细胞中应用此方法找到了转录因子 c-
Myc (Li等 2003)、Gata-l (Horak等 2002)、E2F
(Weinmann等 2002;Ren等 2002)和 Rb (Wells等
2003)的结合位点。随着众多新靶基因的不断发
现,人们对很多转录因子的功能有了进一步的认
识。转录因子的结合位点(transcription factor bind-
ing site,TFBS)是转录因子调节基因表达时与顺式
作用元件结合的区域。按照常识,转录因子的结
合位点一般应该分布在基因的 5端,但是 Cawley
等(2004)采用包含了人类 21和 22号染色体的几乎
所有非重复序列的高密度寡核苷酸芯片,检测 3
种转录因子 Sp1、c-Myc、p53 的结合位点时,
发现一些和以前的理论不相符的结果:只有 22%
的TFBS分布在蛋白编码基因的5端,36%的TFBS
分布在蛋白编码基因的中部或 3端,并且这 36%
的 TFBS常常和基因组中的非蛋白编码 RNA分布
在一起。这暗示:在人的基因组中,除了编码
蛋白的基因以外,还有相当数量的非编码基因
(noncoding gene)也受到转录因子的调控。
由于芯片包含的信息量大,并且能够反映生
物体内的实际情况,因此,以芯片为基础的
ChIP-chip是当前用得最广泛的鉴定转录因子在基
因组范围内结合位点的方法。但是此方法也有它
的不足之处:它需要预先弄清楚所研究生物基因
组的序列信息后方可使用,即使是已经完全测序
的生物基因组,基因组的注释和基因预测依然是
一个技术难题;另外,真核生物基因组不仅结构
复杂,而且调控方式也很复杂,到目前为止,已
经生产的芯片所包括的物种数量有限,有很多芯
片并不包括全部基因组的信息;并且,芯片价格
昂贵,大规模推广使用也受到限制。
2.1.3 ChIP-PET 配对端点双标记[(paired-end)
diTag,PET]方法是首先从一种生物的mRNA样品
中反转录获得 cDNA,然后用限制性内切酶酶切
cDNA,分离到包含 5端 18个碱基和 3端 18个碱
基的标签片段,然后把这些标签片段连接成长的
DNA片段进行规模化测序,比较测序结果和基因
组的序列图谱就能够确定基因转录的范围。
新加坡国立基因组研究所的Wei等(2006)将
PET和ChIP 2种方法结合,建立了称为ChIP-PET
的新实验系统,用于基因组水平蛋白结合位点的
研究。在应用ChIP方法获得与所研究转录因子结
合的DNA片段后,采用PET技术描绘这些位点在
基因组中的位置并把用多相重叠片段方法鉴定的遗
传标记点看作“靶点”,接着在通过 R NA 干扰
技术将所研究的转录因子剔除之后,用微阵列分
析方法研究这些位点的遗传表达变化。其实验过
程是:先进行 ChIP,后将得到的DNA片段构建
成一个 ChIP-PET文库,最后将 PET序列和基因
组序列比对(图 3)。
Wei等(2006)用此法研究了人类转录因子p53
在整个人类基因组范围的结合位点,他们对包含
大约 5 0 万个 P E T 序列的饱和样品( s a t u r a t e d
sampling)进行了分析,获得 65 572个单独的 ChIP
DNA片段,并建立以特殊标记标定 p53结合位点
的重叠 PET簇(PET clusters)。在这一基础上,他
们最终确定了最少 542个 p53精确结合位点(包括
98个之前未发现的 p53目标基因),表明 p53在肿
瘤形成的初期有作用;另外,他们还确定这些目
标基因中有 122个为直接的靶基因。比较采用此
方法得到的靶基因和以前用生物芯片、基因表达
系列分析和生物信息学等方法已经证实的66个靶
基因的结果显示,有 41个是相同的,但和Cawley
等(2004)用 ChIP-chip获得的 p53在人类 21和 22号
染色体的靶基因不同,这是一个值得探讨的问题。
基因组范围靶基因筛选很多方法都是和ChIP
结合进行的,除了上面介绍的方法外,还有
SACO-ChIP (Impey等 2004)、SABE-ChIP (Chen
等 2005)等方法。但是 ChIP有时会遇到一些问
题,如:一些试验中免疫沉淀结合的 DNA片段
不容易富集起来,有一些抗体由于一些客观原因
无法利用(因为有些蛋白的合适培养条件或表达时
间无法确定)。
2.2 DamID DamID是从果蝇中发展而来的在体内
鉴别转录因子靶基因的方法,它利用了绝大多数
真核生物没有内源甲基化酶的特点,将大肠杆菌
的甲基化酶Dam和所要研究的DNA结合蛋白基因
构建成融合表达的嵌合质粒后,再将嵌合质粒导
入培养细胞或整个组织中使融合蛋白表达,这样
Dam会使染色质蛋白的DNA结合位点处GATC序
列中的 A甲基化,从而形成“基因组标签”,最
后在基因组数据库中加以鉴别。这种方法提供了
植物生理学通讯 第 43卷 第 2期,2007年 4月 337
例来判断特异性结合位点。另外,由于 Dam的
酶活性比较高,如果构建嵌合质粒时所选择的启
动子不够弱,容易造成基因组的甲基化饱和,这
样就无法判断特异性结合位点。所以要尽可能选
择一个非常弱的启动子,使融合蛋白在表达载体
中维持痕量表达。
DamID方法是以高通量、大规模实验方法及
计算机统计分析为特征,在果蝇中有成功应用的
先例。Van Steensel等(2001)在果蝇中用DamID方
一种发掘整个基因组上与特定转录因子蛋白有关的
所有调节性位点的系统,帮助了解转录因子如何
调节复杂的遗传模式以及不同的细胞的产生机制和
它们的功能等重要的遗传学问题,还可能有助于
确定多种基因在一定的细胞类型中开启和关闭的机
制以及细胞和功能多样性产生的根本原因。
运用DamID方法进行研究有 2个关键点:设
置对照和使用弱启动子。当将嵌合质粒转化入研
究对象的体内,甲基化酶将所要研究的核蛋白特
异性结合位点处的GATC序列甲基化的同时,有
时也会将在特异性结合位点以外的GATC序列甲
基化而造成甲基化背景;而且不是每个GATC序
列的甲基化效率都是相同的。所以需要设置一个
对照,即同时构建一个只含有 Dam的质粒,与
嵌合质粒分别转化受体,通过计算Dam-融合蛋白
引起的甲基化与只由Dam引起的甲基化之间的比图 2 ChIP-chip方法示意(Iyer等 2001)
图 3 ChIP-PET方法示意(Wei等 2006)
法结合 PCR和芯片技术,找到了GAF和 Sir2P因
子的靶位点,并分析总结了它们靶位点的特征。
Sun等(2003)用包含果蝇2号和3号染色体的芯片,
研究了异染色质蛋白HP1和转录因子GAF在果蝇
体内和 DNA 的相互作用图谱。转录因子Myc、
Max、Mad/Mnt在细胞的增值、分化中起作用,
Orian等(2003)研究果蝇中转录因子Myc、Max、
Mad/Mnt在基因组范围的结合位点,对鉴定出
dMax网络的 968个结合位点的研究表明,这些转
植物生理学通讯 第 43卷 第 2期,2007年 4月338
录因子也调控细胞周期和 DNA复制。Bianchi-
Frias等(2004)研究果蝇多毛基因(hairy gene)在果蝇
Kc细胞和发育 2~6 h的胚胎中的靶基因时,在果
蝇Kc细胞中鉴定到 40个靶基因,在胚胎中鉴定
到 20个靶基因,其中有一个靶基因是重复的,结
果表明多毛基因在细胞周期、细胞生长、形态形
成等过程都起作用。
Song等(2004)用DamID方法鉴定人类细胞转
录因子 E2A的直接的目标基因是细胞周期蛋白
D3,并首先将DamID的方法应用到哺乳动物中。
Germann等(2006)用DamID方法研究拟南芥中与
常染色质有关的蛋白 LHP1的靶基因,认为有 4
个:AG、AP3、FT和 PI,并查明植物中的 LHP1
蛋白和动物中的 LHP1蛋白有高度的同源性。
2.3 pull-down pull-down方法是体外鉴定转录因
子直接靶基因的一种高通量方法。2 0 0 0 年,
Watson等(2000)在Methods in Molecular Biology
一书中详细地介绍了此方法。其实验流程如下:
(1 )选取限制性内切酶酶切总 D NA;( 2 )酶切的
DNA片段纯化后和没有磷酸化的双链寡核苷酸接
头连接;(3)回收并且纯化连接有接头的 DNA片
段;(4)全长的转录因子 cDNA克隆到有 6×His标
签的表达载体中,表达并纯化蛋白;(5)孵育纯化
过的有接头的DNA片段和蛋白,使有相互作用的
DNA片段和蛋白结合,免疫共沉淀有相互作用的
复合物;(6)用蛋白A回收免疫共沉淀复合物并用
苯酚和氯仿除去蛋白,用步骤(2)的接头作为引物
进行PCR反应,扩增所得到的DNA片段,将PCR
产物亚克隆到TA载体,然后提取转化子的质粒测
序分析。
Robinson等(1997)用此方法从人类细胞中分离
出 Ets转录因子的 43个靶基因。Miao等(2004)在
研究拟南芥转录因子WRKY53的靶基因中,通过
对 100个克隆随机测序,得到 63个靶基因。
2.4 蛋白结合芯片(protein binding microarrays,
PBMs) Mukherjee等(2004)发明了蛋白结合芯片方
法,它的基本原理是先将转录因子全长 cDNA克
隆到有抗原表位标记的载体中,并在原核细胞中
表达出重组蛋白并进行纯化,然后直接把纯化的
蛋白结合到双链DNA芯片,结合反应结束后,洗
去没有结合到芯片的蛋白,用荧光标记的抗原决
定基标签的抗体作为标记,扫描芯片。此法是一
种快速、高通量的体外寻找转录因子靶位点的方
法。Mukherjee等(2004)用此法分离酵母转录因子
Abf1、Rap1、Mig1的靶基因时,筛选到的靶基
因不仅包括用其他方法已经证实的靶基因,而且
又筛选出Abf1转录因子 107个新的靶基因,Rap1
转录因子有90个新的靶基因,Mig1转录因子有75
个新的靶基因。许多靶基因是一些不典型的开放
阅读框的上游序列。Berger 和 Bulyk (2006)在
Methods in Molecular Biology中介绍了这种高通量
的方法。目前,Bulyk实验室正用此方法大规模
地鉴定酵母转录因子的靶位点。
2.5 生物信息学方法(bioinformatic approaches)
生物信息学是以计算机为工具,用数理及信息
科学的理论和方法研究生命现象,对生物信息进
行储存、检索和分析的一门新兴交叉学科。
目前,许多综合转录因子结合位点的数据库
已经形成。最常用的是TRANSFAC数据库(Matys
等2003),这个数据库可将真核生物的转录因子和
它们已知的结合位点进行分类,提供位点加权矩
阵(position weight matrix,PWM)。类似的数据
库还有很多,如MatInd and MatInspector (Quandt
等 1995)、MATRIX SEARCH (Chen等 1995)、
SIGNAL SCAN (Prestridge 1996)和 rVISTA (Loots
等 2002)。
生物信息学方法还采用一种称为比较基因组
学或者称作系统发生印迹的方法,其依据的原理
是:不同物种之间的非编码区非常保守,这些保
守区极有可能参与基因调控。这种方法的关键是
找到直系同源序列(orthologs),同源序列具有共
同祖先并垂直传递下来,且在不同物种中编码具
有“相同功能”的蛋白质。这个概念应与平行
同源(paralogs)区别开来,平行同源是已进化出来
的同源性复本基因,编码具有“类似功能”,但
不是功能完全相同的基因(Pennacchio和 Rubin
2003;Lenhard等 2003)。从进化上来说,人和
鼠已经分离 0.75亿年,但Waterston等(2002)发现
在核苷酸水平上人类基因组和鼠的基因组大约有
40%相匹配,有 80%鼠和人的基因有直系同源序
列。Cliften等(2001)比较 7种酵母的基因组的结果
认为,可以通过比较分析不同酵母的基因组序列
植物生理学通讯 第 43卷 第 2期,2007年 4月 339
来鉴定功能保守的调控元件。
Marinescu等(2005)开发了一个新的软件用于
搜索基因组中的TFBS。软件基于隐马尔可夫链模
型(hidden Markov models),用来自 TRANSFAC和
JASPAR数据库的序列比对信息构建了 1 079个
TFBS 的模型,然后用这些模型扫描人、小鼠、
果蝇、线虫以及酵母的基因组。与其他几种功能
类似的软件相比,此软件具有更高的专一性和敏
感性。另外,与基于核苷酸权重矩阵(nucleotide
weight matrix)的方法相比,基于隐马尔可夫链模
型的方法更具优越性(网址:http://creativecommons.
org/licenses/by/2.0)。
Horsman等(2006)设计出一个 BLAST搜索工
具,称之为 TF Target Mapper (其网址是:http://
tftargetmapper.erasmusmc.nl/)。此软件能够快速提
取靶点附近基因的注解信息,有助于全面分析调
控信息,并有利于弄清楚特异转录因子的作用机
制,最终了解这些转录因子在生物体的哪些途径
中发挥作用。
在真核生物中,转录因子的结合位点很复
杂,可以是在基因的上游,也可以在基因的下
游,甚至位于基因内含子中;并且有的结合位点
远离基因的调控区。高等真核生物的基因组很
大,有很多重复序列,虽然 90% 以上的基因是
不编码蛋白的,但是它们当中有许多具有重要生
物功能。因此,用简单的序列搜寻工具就有可能
遗漏一些非编码区的结合位点,以致得到的结果
不能全面反映结合位点的真实情况,所以需要与
实验方法结合起来综合加以分析。
3 结语
不断发展的高通量鉴定转录因子靶基因的方
法有助于我们深入了解基因调控网络,基因组范
围的基因表达图谱和定位分析不仅有利于确认转录
因子之间的相互作用,并且对转录调控网络的研
究来说可能是一个很有用的工具。上述各种研究
靶基因的方法各有自身的局限性,单独运用某一
种技术无法真正弄清楚转录调控网络。随着功能
基因组学的不断深入和发展,我们不仅需要完善
现有的研究手段,而且必须发展一些更灵敏、更
可靠的研究技术,以最终阐明转录调控网络,对所
有的生命现象在分子层面上给予一个合理的解释。
参考文献
陈俊, 王宗阳(2002). 植物MYB类转录因子研究进展. 植物生理
与分子生物学学报, 28 (2): 81~88
Berger MF, Bulyk ML (2006). Protein binding microarrays
(PBMs) for rapid, high-throughput characterization of the
sequence specificities of DNA binding proteins. Methods Mol
Biol, 338: 245~260
Bianchi-Frias D, Orian A, Delrow JJ, Vazquez J, Rosales-Nieves
AE, Parkhurst SM (2004). Hairy transcriptional repression
targets and cofactor recruitment in Drosophila . PLoS Biol,
2 (7): 975~990
Buck MJ, Lieb JD (2004). ChIP-chip: considerations for the design,
analysis, and application of genome-wide chromatin immu-
noprecipitation experiments. Genomics, 83 (3): 349~360
Cawley S, Bekiranov S, Ng HH, Kapranov P, Sekinger EA, Kampa
D, Piccolboni A, Sementchenko V, Cheng J, Williams AJ et
al (2004). Unbiased mapping of transcription factor binding
sites along human chromosomes 21 and 22 points to wide-
spread regulation of noncoding RNAs. Cell, 116 (4): 499~509
Chen J, Sadowski I (2005). Identification of the mismatch repair
genes PMS2 and MLH1 as p53 target genes by using serial
analysis of binding elements. Proc Natl Acad Sci USA, 102
(13): 4813~4818
Chen QK, Hertz GZ, Stormo GD (1995). MATRIX SEARCH 1.0:
a computer program that scans DNA sequences for tran-
scriptional elements using a database of weight matrices.
Comput Appl Biosci, 11 (5): 563~566
Chinnusamy V, Ohta M, Kanrar S, Lee BH, Hong X, Agarwal M,
Zhu J K (2 0 0 3) . ICE1 : a r egu la tor of cold-induced
transcriptome and freezing tolerance in Arabidopsis. Genes
Dev, 17 (8): 1043~1054
Cliften PF, Hillier LW, Fulton L, Graves T, Miner T, Gish WR,
Waterston RH, Johnston M (2001). Surveying Saccharo-
myces genomes to identify functional elements by compara-
tive DNA sequence analysis. Genome Res, 11 (7): 1175~1186
DeRisi JL, Iyer VR, Brown PO (1997). Exploring the metabolic
and genetic control of gene expression on a genomic scale.
Science, 278 (5338): 680~686
Germann S, Juul-Jensen T, Letarnec B, Gaudin V (2006). DamID,
a new tool for studying plant chromatin profiling in vivo ,
and its use to identify putative LHP1 target loci. Plant J, 48
(1): 153~163
Horak CE, Mahajan MC, Luscombe NM, Gerstein M, Weissman
SM, Snyder M (2002). GATA-1 binding sites mapped in the
β-globin locus by using mammalian ChIP-chip analysis. Proc
Natl Acad Sci USA, 99 (5): 2924~2929
Horsman S, Moorhouse MJ, De Jager VCL, Van der Spek P, Grosveld
F, Strouboulis J, Katsantoni EZ (2006). TF Target Mapper:
a BLAST search tool for the identification of Transcription
Factor target genes. BMC Bioinformatics, 7: 120
Impey S, McCorkle SR, Cha-Molstad H, Dwyer JM, Yochum GS,
Boss JM, McWeeney S, Dunn JJ, Mandel G, Goodman RH
(2004). Defining the CREB regulon: a genome-wide analysis
of transcription factor regulatory regions. Cell, 119 (5):
1041~1054
Iyer VR, Horak CE, Scafe CS, Botstein D, Snyder M, Brown PO
(2001). Genomic binding sites of the yeast cell-cycle tran-
scription factors SBF and MBF. Nature, 409 (6819): 533~538
植物生理学通讯 第 43卷 第 2期,2007年 4月340
Kim J, Bhinge AA, Morgan XC, Iyer VR (2005). Mapping DNA-
protein interactions in large genomes by sequence tag analysis
of genomic enrichment. Nat Methods, 2 (1): 47~53
Lee TI, Rinaldi NJ, Robert F, Odom DT, Bar-Joseph Z, Gerber
GK, Hannett NM, Harbison CT, Thompson CM, Simon I et
al (2002). Transcriptional regulatory networks in Saccha-
romyces cerevisiae. Science, 298 (5594): 799~804
Lenhard B, Sandelin A, Mendoza L, Engström P, Jareborg N,
Wasserman WW (2003). Identification of conserved regula-
tory elements by comparative genome analysis. J Biol, 2 (2): 13
Li Z, Van Calcar S, Qu C, Cavenee WK, Zhang MQ, Ren B (2003).
A global transcriptional regulatory role for c-myc in Burkitt’s
lymphoma cells. Proc Natl Acad Sci USA, 100 (14):
8164~8169
Lieb JD, Liu X, Botstein D, Brown PO (2001). Promoter-specific
binding of Rap1 revealed by genome-wide maps of protein-
DNA association. Nat Genet, 28 (4): 327~334
Loots GG, Ovcharenko I, Pachter L, Dubchak I, Rubin EM (2002).
rVista for comparative sequence-based discovery of func-
tional transcription factor binding sites. Genome Res, 12 (5):
832~839
Marinescu VD, Kohane IS, Riva A (2005). MAPPER: a search
engine for the computational identification of putative tran-
scription factor binding sites in multiple genomes. BMC
Bioinformatics, 6: 79
Matys V, Fricke E, Geffers R, Gossling E, Haubrock M, Hehl R,
Hornischer K, Karas D, Kel AE, Kel-Margoulis OV et al
(2003). TRANSFAC: transcriptional regulation, from pat-
terns to profiles. Nucleic Acids Res, 31 (1): 374~378
McDonald MJ, Rosbash M (2001). Microarray analysis and orga-
nization of circadian gene expression in Drosophila . Cell,
107 (5): 567~578
Miao Y, Laun T, Zimmermann P, Zentgraf U (2004). Targets of
the WRKY53 transcription factor and its role during leaf
senescence in Arabidopsis. Plant Mol Biol, 55 (6): 853~867
Mukherjee S, Berger MF, Jona G, Wang XS, Muzzey D, Snyder M,
Young RA, Bulyk ML (2004). Rapid analysis of the DNA-
binding specificities of transcription factors with DNA
microarrays. Nat Genet, 36 (12): 1331~1339
Nishizawa A, Yabuta Y, Yoshida E, Maruta T, Yoshimura K,
Shigeoka S (2006). Arabidopsis heat shock transcription
factor A2 as a key regulator in response to several types of
environmental stress. Plant J, 48 (4): 535~547
Orian A, Van Steensel B, Delrow J, Bussemaker HJ, Li L, Sawado
T, Williams E, Loo LW, Cowley SM, Yost C et al (2003).
Genomic binding by the Drosophila Myc, Max, Mad/Mnt
transcription factor network. Genes Dev, 17 (9): 1101~1114
Pennacchio LA, Rubin EM (2003). Comparative genomic tools
and databases: providing insights into the human genome. J
Clin Invest, 111 (8): 1099~1106
Prestridge DS (1996). SIGNAL SCAN 4.0: additional databases
and sequence formats. Comput Appl Biosci, 12 (2): 157~160
Quandt K, Frech K, Karas H, Wingender E, Werner T (1995).
MatInd and MatInspector: new fast and versatile tools for
detection of consensus matches in nucleotide sequence data.
Nucleic Acids Res, 23 (23): 4878~4884
Ren B, Cam H, Takahashi Y, Volkert T, Terragni J, Young RA,
Dynlacht BD (2002). E2F integrates cell-cycle progression
with DNA repair, replication, and G(2)/M checkpoints. Genes
Dev, 16 (2): 245~256
Ren B, Robert F, Wyrick JJ, Aparicio O, Jennings EG, Simon I,
Zeitlinger J, Schreiber J, Hannett N, Kanin E et al (2000).
Genome-wide location and function of DNA binding proteins.
Science, 290 (5500): 2306~2309
Robinson L, Panayiotakis A, Papas TS, Kola I, Seth A (1997).
ETS target genes: identification of Egr1 as a target by RNA
differential display and whole genome PCR techniques. Proc
Natl Acad Sci USA, 94: 7170~7175
Sablowski RWM, Meyerowitz EM (1998). A homolog of NO API-
CAL MERISTEM is an immediate target of the floral homeotic
genes APETALA3/PISTILLATA. Cell, 92 (1): 93~103
Sakai H, Honma T, Aoyama T, Sato S, Kato T, Tabata S, Oka A
(2001). ARR1, a transcription factor for genes immediately
responsive to cytokinins. Science, 294 (5546): 1519~1521
Schramm F, Ganguli A, Kiehlmann E, Englich G, Walch D, von
Koskull-Doring P (2006). The heat stress transcription fac-
tor HsfA2 serves as a regulatory amplifier of a subset of
genes in the heat stress response in Arabidopsis. Plant Mol
Biol, 60 (5): 759~772
Schwechheimer C, Bevan MW (1998). The regulation of tran-
scription activity in plants. Trends Plant Sci, 3: 378~382
Simon I, Barnett J, Hannett N, Harbison CT, Rinaldi NJ, Volkert
TL, Wyrick JJ, Zeitlinger J, Gifford DK, Jaakkola TS et al
(2001). Serial regulation of transcriptional regulators in the
yeast cell cycle. Cell, 106 (6): 697~708
Song S, Cooperman J, Letting DL, Blobel GA, Choi JK (2004).
Identification of cyclin D3 as a direct target of E2A using
DamID. Mol Cell Biol, 24 (19): 8790~8802
Sun LV, Chen L, Greil F, Negre N, Li TR, Cavalli G, Zhao H, Van
Steensel B, White KP (2003). Protein-DNA interaction
mapping using genomic tiling path microarrays in Drosophila.
Proc Natl Acad Sci USA, 100 (16): 9428~9433
Van Steensel B, Delrow J, Henikoff S (2001). Chromatin profil-
ing using targeted DNA adenine methyltransferase. Nat Genet,
27 (3): 304~308
Waterston RH, Lindblad-Toh K, Birney E, Rogers J, Abril JF,
Agarwal P, Agarwala R, Ainscough R, Alexandersson M, An
P et al (2002). Initial sequencing and comparative analysis
of the mouse genome. Nature, 420 (6915): 520~562
Watson DK, Kitching R, Vary C, Kola I, Seth A (2000). Isolation
of target gene promoter/enhancer sequences by whole ge-
nome PCR method. Methods Mol Biol, 130: 1~11
Wei CL, Wu Q, Vega VB, Chiu KP, Ng P, Zhang T, Shahab A,
Yong HC, Fu Y, Weng Z et al (2006). A global map of p53
transcription-factor binding sites in the human genome. Cell,
124 (1): 207~219
Weinmann AS, Yan PS, Oberley MJ, Huang TH, Farnham PJ
(2002). Isolating human transcription-factor targets by cou-
pling chromat in immunoprecipita tion a nd CpG island
microarray analysis. Genes Dev, 16 (2): 235~244
Wells J , Yan PS, Cechvala M, Huang T, Farnham PJ (2003).
Ident ifi cat ion of novel pRb binding sites u sing CpG
microarrays suggests that E2F recruits pRb to specific ge-
nomic sites during S phase. Oncogene, 22 (10): 1445~1460