全 文 :0 引言
基因转录是遗传信息传递和表达的枢纽,是基
因表达调控机制发挥作用的重要环节。而启动子是
决定转录起始点和转录频率的关键元件,因此启动
子的识别对整个基因组功能的诠释具有重要作用[1]。
对已有的组织特异性启动子的序列进行分析,确定转
录因子与靶基因间的调控关系以及转录因子在靶基因
上的结合位点成为理解转录调控机制的核心问题。传
基金项目:吉林省博士后科技项目“玉米盐碱胁迫基因差异表达谱的解析和相关基因的功能鉴定”。
第一作者简介:姜志磊,男,1981年出生,助理研究员,硕士,主要从事生物信息学研究。Tel:0431-87063084,E-mail:jiang1891@yahoo.com.cn。
通讯作者:龙丽坤,女,1976年出生,吉林长春人,副研究员,博士,主要从事植物分子生物学研究。通信地址:130033长春市彩宇大街1363号,Tel:
0431-87063043,E-mail:longlk1015@gmail.com。
收稿日期:2012-08-27,修回日期:2012-11-08。
水稻、拟南芥组织特异性启动子的序列特征分析
姜志磊,李淑芳,胡庆才,龙丽坤
(吉林省农业科学院农业生物技术研究所,长春 130033)
摘 要:基因转录是遗传信息传递和表达的枢纽,确定转录因子与靶基因间的调控关系以及转录因子
在靶基因上的结合位点成为理解转录调控机制的核心问题。分析UniGene数据库获得的拟南芥和水稻
中根、叶片、花、种子4种组织中特异表达基因和组织中特异不表达基因。从TAIR和RAP-DB获得其启
动子序列。利用生物信息学软件MEME预测获得组织特异表达基因的顺式作用元件。利用模式搜索
软件FIMO,考察顺式作用元件序列的分布特征。发现了9个组织特异表达基因的顺式作用元件,其中
“CCACACA”达到极显著水平。本研究技术和策略可为基因表达调控的机制研究提供参考,获得的顺
式作用元件为进一步构建组织特异性表达载体提供基础。
关键词:拟南芥;水稻;基因表达序列标签;顺式作用元件;启动子
中图分类号:Q78 文献标志码:A 论文编号:2012-2920
The Feature Analysis of the Promoter Sequences in Tissue Specific Expression Genes
in Rice and Arabidopsis
Jiang Zhilei, Li Shufang, Hu Qingcai, Long Likun
(Biotechnology Research Centre, Jilin Academy of Agricultural Sciences, Changchun 130033)
Abstract: Transcriptional control is an important way of regulating of gene expression. The relationship
between the transcription factors and target gene and recognition of transcription factor binding site (TFBS) are
the essential task to understand transcription regulation mechanism. The sequences information of four kinds of
tissue specific expression genes and tissue non-expression of genes including root, leaf root, leaf, flower, seed
in the Arabidopsis and rice were got in the UniGene database and the promoter sequences were downloaded
from the database of TAIR and RAP-DB in this research. The promoter sequences of tissue specific expression
of genes were analyzed by bioinformatics software MEME to forecast the cis-acting element for regulation of
tissue-specific expression genes. Furthermore, every cis-acting element was tested in tissue specific
expression genes and tissue non-expression of genes by FIMO. 9 cis-acting elements were found, in which
“CCACACA”showed extremely significant difference. This research strategy can provide the references for the
gene regulation research. The transcription factor binding sites (TFBS) could also provide the foundation of
constructing tissue specific vector.
Key words: Arabidopsis; rice; EST; cis-acting element; promoter
中国农学通报 2013,29(15):142-148
Chinese Agricultural Science Bulletin
姜志磊等:水稻、拟南芥组织特异性启动子的序列特征分析
统启动子识别通过免疫沉淀、突变分析等生物学实
验来进行,这些方法成本高、效率低,限制了启动子
研究的进展。随着现代生物技术的发展,利用大规
模测序数据挖掘预测启动子已经成为生物信息学的
重要方向[2]。
转录因子与基因特定序列专一性结合,从而保证
目的基因以特定的强度在特定的时间与空间表达。启
动子序列中转录因子结合的特定DNA序列作为顺式
作用元件调控目的基因的表达。通过EST(表达序列
标签)测序,可以获得生物体在此特定组织和特定发育
时期基因表达种类,每种EST的数目也反映出代表基
因的表达拷贝数,基因表达的次数越多,其相应的EST
也越多。因此通过分析数据库中不同组织EST数目,
可以获得组织特异性表达基因[3]。通过收集各组织特
异性表达基因的表达特征和启动子序列的预测信息,
有助于获得转录因子的结合位点的序列特征,这对于
阐释基因表达调控网络的机制和基因组功能都有非常
重要的意义。
预测转录因子结合位点一直是生物信息学中非常
活跃的一个问题。研究者开发了很多算法来解决这个
问题,也有很多在线软件在网上公开。预测算法的基
本逻辑是,以一组共调控的基因作为输入,用计算方法
搜索在这些基因的上游调控序列中富集的Motif。此
类算法有很多,除了本研究所用的基于 EM算法的
MEME,另有基于贪婪算法的Consensus[4]、基于“词穷
举法”(word enumeration)的 Seeder[5]、基于吉布斯抽样
(Gibbs Sampler)AlignACE[6]、 MotifSampler[7],
BioProspector[8]、等等。用 13种预测软件进行的分析
表明:各种软件之间没有绝对的优劣,软件的绝对检测
效果都不是太高,13 个软件中最高的灵敏度
(Sensitivity)为0.22[9]。
为了提高转录因子结合位点预测的灵敏度,本研
究首先不仅根据 UniGene[10] (http://www.ncbi.nlm.nih.
gov/UniGene) 数 据 库 中 有 关 拟 南 芥 (Arabidopsis
thaliana)和水稻(Oryza sativa L.)的相关信息,获得根、
叶片、花、种子 4种组织中特异表达基因,而且获得 4
种组织特异不表达基因,再根据基因组注释信息获得
基因的启动子序列,利用生物信息学序列分析软件
MEME[11]结合模式搜索 FIMO[12]获得拟南芥和水稻
根、叶片、花、种子中特异表达基因启动子特征,预测
调控组织特异表达基因的转录因子结合位点。用此
系统设计和实现方案可推广一种通用的序列元件预
测系统解决方案,最终加快基因时空表达调控机制的
构建。
1 材料和方法
1.1 分析材料数据来源
分别下载UniGene中有关拟南芥和水稻所有基因
在各种组织的 EST 统计结果 (ftp://ftp.ncbi.nih.gov/
repository/UniGene/Arabidopsis_thaliana/At.profiles.gz)
(ftp://ftp.ncbi.nih.gov/repository/ UniGene/Oryza_sativa/
Os.profiles.gz)。
根据NCBI、TAIR[13]和RAP-DB[14]对基因组各个基
因位点注释质量,逐条分析,去掉不能准确获得基因转
录起始位点的基因。例如,5’侧翼序列不完整,或由于
可变剪切 5’侧翼序列不相同的基因位点注释。分别
在 TAIR(http://www.arabidopsis.org/tools/bulk/sequenc
es/index.jsp) 和 RAP-DB(http://rapdb.dna.affrc.go.jp/
tools/dump/)下载拟南芥和水稻基因转录起始位点上
游1000 bp启动子序列。
1.2 分析方法
利用序列分析软件MEME(http://meme.sdsc.edu/
meme/intro.html)对组织特异表达基因启动子序列进
行分析,预测得到10条最可能的顺式作用元件。
再利用模式搜索软件FIMO,考察这10条最可能
的顺式作用元件在这种组织特异表达基因和组织特异
不表达基因启动子序列中的分布,在组织特异表达基
因启动子序列分布较多,但在组织特异不表达基因启
动子较少分布的顺式作用元件,被认为是组织特异表
达基因的转录因子结合位点(图1)。
2 结果与分析
2.1 组织特异表达的基因和启动子区分析
分别下载UniGene中有关拟南芥和水稻所有基因
在各种组织的 EST 统计结果 (ftp://ftp.ncbi.nih.gov/
repository/UniGene/Arabidopsis_thaliana/At.profiles.gz)
(ftp://ftp.ncbi.nih.gov/repository/ UniGene/Oryza_sativa/
Os.profiles.gz),根据其在各种组织的表达特性选取分
析所需基因。选取标准如下:组织特异表达基因:基因
在某特定组织 EST表达数量较高,在其他 3种组织
EST表达数量较少的 30条基因,拟南芥和水稻的根、
种子、花、叶片的组织特异性基因见表1。
而针对组织特异不表达基因:基因在某特定组织
EST表达数量等于0,在其他3种组织中EST表达数量
都大于0。取3种组织EST表达数量之和较高的30条
基因。整理结果见表2。
根据NCBI、TAIR和RAP-DB对基因组各个基因
位点注释质量,逐条分析,去掉不能准确获得基因转录
起始位点的基因。例如5’侧翼序列不完整,或由于可
变剪切 5’侧翼序列不相同的基因位点注释。分别在
·· 143
中国农学通报 http://www.casb.org.cn
组织特异表达基因启动子
10条最可能的顺式作用元件 组织特异不表达基因启动子
顺式作用元件
FIMO
MEME
图1 启动子序列分析策略
表1 拟南芥和水稻中根、种子、花、叶片组织特异表达的基因
作
物
拟
南
芥
组织
根
At1g73330
AT2G05440
AT1G66270
At2g44790
AT1G05240
AT4g12550
At2g01530
AT5G63600
AT2G43590
AT2G05510
At4g30170
AT3g09940
At4g38320
AT5G45500
At2g20560
AT3G20240
AT3G01190
At3g21510
AT5G17820
AT3G21770
At2g23030
At1g20770
AT5G26280
AT3G16410
AT4G11290
AT5G57625
AT2G38390
AT5G48010
AT5G38550
AT3G28950
种子
At4g26740
AT1G54870
AT2G28490
At5g50770
AT5G54740
AT5G40000
At1g01900
At1g67100
At1g73190
AT1G05510
AT5G22470
At1g73965
AT1G09932
At3g27670
AT5g40420
AT5G20790
AT4G27170
AT1G35910
AT5G50600
AT5G59170
At3g12203
AT4G36700
AT4G27140
AT3G01570
At5g09640
At4g25140
At1g03890
AT1G73010
AT1G19900
AT1G62000
花
AT4G12890
AT5g44620
AT1G02190
AT3G19340
AT2G07727
At2g02850
AT1G73620
AT3G28007
AT1G10540
AT5G47500
AT5G54062
AT2G27385
At4g29430
AT4G08025
AT1G02910
AT1G45223
AT2G39851
AT5G44630
At3g25220
At1g74430
AT5G66720
AT5G45910
AT5G09370
AT4G38170
AT2G36325
AT1G55340
AT5G18520
AT2G07708
AT5G18000
AT1G02370
叶
At5g45890
AT3G51660
At1g12220
AT4g37990
AT3g60140
At5g13080
At2g41850
At1g32350
At5g43470
AT5G39520
At2g26560
At1g67865
At2g47190
At4g16740
AT5G43740
At4g37370
AT1G72840
AT1G61300
AT1G23130
AT1G30700
AT3G04210
AT4G16950
AT3g46530
AT4G15610
AT2G15390
AT1G61190
AT1G56520
AT5G44870
AT1G63360
AT5G46270
作
物
水
稻
组织
根
Os02g0116700
Os03g0107300
Os03g0307300
Os01g0949800
Os02g0662000
Os02g0745100
Os01g0916000
Os03g0103100
Os04g0430700
Os03g0281900
Os02g0653200
Os07g0442900
Os08g0113000
Os08g0493800
Os02g0658100
Os08g0124500
Os05g0183100
Os02g0512000
Os03g0365800
Os02g0582900
Os05g0399300
Os02g0256200
Os07g0645300
Os02g0767400
Os10g0139700
Os07g0104500
Os02g0588700
Os07g0421300
Os01g0284500
Os06g0692100
种子
Os03g0347200
Os03g0699000
Os01g0663400
Os07g0615500
Os08g0327700
Os07g0213600
Os09g0480600
Os07g0147600
Os07g0680000
Os09g0474100
Os05g0566800
Os10g0366400
Os03g0685300
Os02g0597800
Os01g0610300
Os08g0430100
Os05g0101600
Os01g0693300
Os01g0232100
Os08g0482300
Os12g0270300
Os10g0190500
Os12g0409600
Os01g0166100
Os02g0762300
Os05g0164900
Os02g0518400
Os08g0446400
Os01g0559200
Os05g0364500
花
Os07g0556800
Os10g0427600
Os12g0633400
Os12g0244400
Os12g0604600
Os03g0168000
Os04g0532500
Os11g0242500
Os02g0565500
Os12g0267200
Os01g0144300
Os07g0685600
Os01g0209500
Os06g0254600
Os08g0241300
Os11g0184800
Os04g0550300
Os12g0242700
Os08g0481200
Os08g0490700
Os01g0235500
Os04g0508600
Os11g0424400
Os02g0117700
Os11g0191800
Os12g0467200
Os02g0559300
Os07g0525400
Os12g0573800
Os03g0201800
叶
Os05g0531100
Os09g0530300
Os01g0368900
Os10g0166600
Os07g0143000
Os03g0397300
Os01g0155500
Os05g0215700
Os01g0361500
Os07g0558300
Os02g0197700
Os12g0491800
Os02g0807900
Os07g0241500
Os11g0182500
Os03g0228200
Os12g0616800
Os09g0553900
Os07g0113700
Os04g0379700
Os09g0287000
Os02g0589000
Os03g0133000
Os05g0158700
Os10g0517400
Os12g0125000
Os08g0203100
Os01g0551100
Os02g0583900
Os03g0758900
·· 144
姜志磊等:水稻、拟南芥组织特异性启动子的序列特征分析
表2 拟南芥和水稻中组织特异不表达基因
TAIR (http://www.arabidopsis.org/tools/bulk/sequences/
index.jsp)和RAP-DB (http://rapdb.dna.affrc.go.jp/ tools/
dump/)下载拟南芥和水稻基因转录起始位点上游
1000 bp启动子序列。
2.2 MEME分析
利用序列分析软件MEME[3]对组织特异表达基因
启动子序列进行分析,预测得到10条可能的顺式作用
元件(见表3,用*或**表示)。
表中可见,除了含有A较多的顺式作用元件外,2
个物种同一组织未发现较为相似的顺式作用元件。
2.3 FIMO分析
预得到的 10条可能的顺式作用元件输入模式搜
索软件 FIMO,考察每一条顺式作用元件在这种组织
特异表达基因和组织特异不表达基因启动子序列中的
分布特征,统计比较后获得在组织特异表达基因启动
子序列分布较多,但在组织特异不表达基因启动子较
少分布的顺式作用元件(表3)。
各个组织 10条可能的顺式作用元件在中特异表
达基因启动子和非特异表达基因启动子序列中分布大
多差异不显著(表3可见),但9个顺式作用元件有显著
作物
拟南
芥
组织
根
At1g15820
At2g26250
At3g61470
At4g28750
AT3G16370
AT5g66570
At1g27950
At4g39330
At2g10940
At5g23940
At3g22120
AT4g01150
AT5g24770
At3g27830
At1g55670
At1g07750
At1g68530
At4g05180
At2g28900
AT3G43720
At1g17840
At1g67740
AT5G02240
At1g42970
AT4g32480
AT4g32260
At5g66190
AT5g14780
At5g49360
At5g43320
种子
AT5g24780
At2g38540
At2g16600
AT3g62250
At2g02100
AT3G22230
AT5g59320
AT2G31390
AT1G67430
At1g60950
AT4g38920
AT1G13930
AT4g00100
AT4g02770
At4g03210
AT4G39200
AT3g05590
At5g16050
AT1G77940
At1g30380
At1g69620
AT3G15353
AT1G09590
AT5G52650
At1g56330
AT3G22970
At5g42980
AT3G53430
AT1G03220
AT1G65720
花
At3g09260
AT2G38380
AT4G15390
AT2G25450
AT1G21310
AT4G37520
At3g01420
At2g32080
At2g15620
AT1G32920
At1g27730
At3g21720
AT1G73010
At2g37040
AT1G14870
AT4g17340
At5g39190
At1g24280
At3g10340
At2g40940
At4g17500
At4g39950
At3g44720
AT4G21850
AT2G18690
AT5G41750
AT2G36220
AT1G72920
AT1G76790
AT3G48740
叶
AT5g62690
AT2G41840
AT3G58610
At1g72970
At3g17390
At4g18730
AT1G62500
At1g70710
AT5G61790
AT3G60245
At1g19570
AT5G19510
AT3G07110
AT5G28540
AT3g53020
AT5g49720
AT5G43830
AT3G23390
AT5g17330
At3g03250
AT2G47610
At2g39770
At1g51060
AT1G45000
AT3g53460
AT4g35790
AT5G19760
At1g01090
At1g48630
At2g45470
作物
水稻
组织
根
Os04g0678700
Os07g0147500
Os04g0465600
Os06g0668200
Os06g0553200
Os04g0387600
Os07g0412100
Os05g0111200
Os01g0967800
Os02g0469200
Os01g0210600
Os04g0493400
Os12g0612100
Os07g0636000
Os04g0165300
Os03g0666200
Os08g0544900
Os04g0617600
Os07g0671700
Os08g0440100
Os03g0836500
Os11g0545000
Os02g0777100
Os07g0496200
Os10g0564900
Os11g0141000
Os03g0198400
Os05g0317200
Os10g0555900
Os04g0272700
种子
Os01g0822900
Os01g0348900
Os02g0503400
Os03g0843300
Os05g0413200
Os01g0924000
Os01g0723200
Os03g0757900
Os03g0855600
Os11g0615700
Os08g0408500
Os09g0486500
Os07g0596600
Os01g0756600
Os03g0823400
Os06g0703500
Os03g0183000
Os02g0122000
Os07g0600700
Os02g0713400
Os07g0608700
Os07g0585000
Os05g0361900
Os04g0535200
Os08g0359500
Os03g0109600
Os04g0662900
Os07g0602700
Os01g0570800
Os07g0185200
花
Os02g0609400
Os01g0839900
Os02g0162000
Os03g0818400
Os03g0134900
Os02g0324300
Os03g0381300
Os11g0484000
Os01g0263300
Os07g0672500
Os02g0606200
Os12g0223300
Os03g0243100
Os02g0734300
Os07g0608400
Os05g0127200
Os04g0619500
Os06g0731400
Os02g0229000
Os06g0226600
Os12g0566400
Os03g0628900
Os07g0204500
Os07g0112700
Os01g0279800
Os03g0683700
Os02g0158600
Os01g0705200
Os01g0884300
Os05g0542500
叶
Os09g0484200
Os02g0757100
Os08g0109200
Os06g0729300
Os09g0498800
Os03g0162200
Os08g0327100
Os10g0368400
Os07g0105700
Os01g0147700
Os06g0168700
Os05g0512600
Os03g0758500
Os03g0305400
Os08g0512700
Os05g0469600
Os09g0424300
Os05g0370600
Os04g0418800
Os04g0685900
Os06g0604400
Os12g0197500
Os11g0472000
Os05g0455500
Os11g0147500
Os12g0530000
Os07g0603100
Os10g0369000
Os07g0151800
Os05g0519700
·· 145
中国农学通报 http://www.casb.org.cn
表3 各种组织预测的顺式作用元件分布数目
拟南芥
根
AA[GCA]AAAA[AC]AA[AC]A
[GT][GC]G[CG][CT][CT][CG]GACG[CG]
C[GC][TG][TC]CTCGC[CA]
C[CT][CGT][AG][GA]G[AGC]CCGG
CC[CG]TCTGTCGGC
CCGCCG[CG]G
G[CT]CTCC[TA]C
CGCGTCACC[CG]
[CG]CCACCCACC
A[GAC]A[AG]A[CA]AAA[AT][GT]A
种子
C[TAC]TCT[CG][TC]CTCT*
AAAA[AG]AA[AG]AAAA
CCTC[CT][TA]C[TC][AT][CT][CA][TC]*
C[AG]TGCA[TA]G[CG][AT][CT][AC]*
C[CA][AC]AA[AC][AC]A[AC]A[CT]
[AG]GACT[CG][GC]TCT[CT]
ACACGT[GC][AT][ATC][TC][TGC]C
C[ACG]G[AC]CGGT[CG]C[AC][GC]
[GC][CT][CA]G[CT]C[AG]C[CT]G[CA]A
GCCA[CT][GA]TG[TG][CT]
A
28
8
8
5
2
2
12
2
2
30
20
30
28
20
29
11
15
4
8
8
B
25
2
1
2
3
0
5
1
4
24
9
25
8
6
19
5
6
4
3
6
水稻
根
[AG][CA]GG[AC]G[GA]GAG[TC]A
C[GT]CCG[CG]C[GA][CT]CG[CG]
AAAAAAAA[AG][GT]AA
[CT]CTC[CT]TC[CT]TC[CT]*
[CG]G[CG]G[CG]G[CAG]GGCGG
G[GC]C[AT][CG][GA]C[CAG][GC]GCC*
CG[GT]C[CG][GT][CG]G[TA]CG
[CG]CA[TA]GC[AC][TA]GC[AC]
GC[CG]A[GT]CTCC[AC][CT]C
CG[AG]CGGC[TG][CT]G[CG]G
种子
C[CTG]C[CT]C[TC][CT]C[TAG][CT]CC
[AG]A[AG]A[ACG]AAAAAA
[CG][GC]C[GC][CT][CG]GCCG[CG]C
G[AC]A[AG][AC]GGAG[GA]G[AG]
C[TC]CC[TA]C[GT][CG]C[AT]CC
AT[GA][AG]AAAA*
CA[TA]CT[CT]CCTCC
AAAAA[AG]AT[TA]AA[TA]
[AG][CG]AAAA[GA][CT]AAA
CCAA[CT][CT][GC][TC][AC][ATC][AC]A
A
24
28
21
21
15
16
13
12
9
8
30
29
15
22
14
29
21
25
21
30
B
16
25
14
6
12
4
5
8
14
9
17
19
20
17
17
12
14
21
17
10
花
[CA][CGA]AAAAA[AG]AAAA
AA[AG]AAGA[AG][AG][GA][AG][GA]
GGCCC[CA]C[CT][CT]CG
G[TA]CC[CA]AAC[TCG]CG[GC]
CCCCAGCC[AT]CC[CG]
CCGGGGG
[GC][GA]CG[AC]G[AG]AC[CA]TC
GCCTGCCT[AG]CC
C[CG]GTCACCGAG
GGCTCACG[AT]GG
叶片
CACAAAAAAAAA
A[GC][CG]CG[CG]C[CG]CTC
A[AT]G[GA]A[AT]G[AG]A[AT][AG]
C[CA]ACACA**
[CA][AGT]AAA[CA][CG]AAA[AG]
CCCG[CT]CCC[AG]CC
CCACGGCC[CG]
TCGGT[GC]CATG[CG]A
GCAT[CG]GGTGGG
GCGGCG[CG]
30
30
7
7
2
2
7
2
2
2
16
4
24
24
24
2
2
3
2
2
24
23
0
1
2
0
0
0
1
1
23
1
12
0
23
0
0
1
1
2
花
AAAAAAAAAA[GT]
[CG][CG][TA]C[GT][CA][GA]C[GTC]CGC*
GCC[TG]C[GT][TC]C[CGT]C[CG][CT]
GTGG[AGC][GC]C[TC]C[AG]CC
A[AG][GA]AAA[AC][TG]AAA[AT]
[CT]CTCG[CG]CG[CT]CG
C[CTG][AT]C[CT][CGT]CC[TA]CC
GCA[AG]CG[CG][CA]CG[GC]G
GC[ACT][CG][GT]C[TA]CGG[AC][CG]
TTTT[TG]A[AG][AC]AAAA*
叶片
[CT][CT][ACG][CT][TC][CG]CCT[CG]C
[GC][CG]C[CT][CG][GC]CCGG[CG]
TTTTT[CT]TTTTT[CGT]
GAGG[AT][GC]GA[ACG]GA[GC]
TTT[GA][GT]AAAAAAA
CC[AG]C[CG][CT]C[AT]GCC
[CG]G[CA]CAC[GC][AT][GAC]G[GC]
C[GC][CT]CGCC[GA][CA][CG][CGT]
AATG[CT][AG][GC]TGC[CA]
GCCGGTGAG[GT]C
30
22
16
10
30
9
25
11
9
23
27
14
30
22
25
9
10
9
10
6
21
10
6
9
18
11
18
14
6
11
20
10
19
21
18
15
10
16
8
16
注:(A):组织特异表达基因启动子,(B)组织特异不表达基因启动子。*表示显著差异,**表示极显著差异。
·· 146
姜志磊等:水稻、拟南芥组织特异性启动子的序列特征分析
差异(见表 3,用*或**表示)。其中拟南芥叶片中的
motif-4“CCACACA”,其在 30条拟南芥叶片特异表达
基因启动子的24条中出现,而在拟南芥叶片中不表达
基因中没有出现一次,达到极显著水平。拟南芥种子
有 3个顺式作用元件差异显著,分别是motif-1 (20:9)
“C[TAC]TCT[CG][TC]CTCT”,motif-3 (28:8)“CCTC
[CT][TA]C[TC][AT][CT][CA][TC]”,motif-4 (20:6)“C
[AG]TGCA[TA]G[CG][AT][CT][AC]”。可能控制水稻
根基因表达的元件有 motif-4 (21:6)“[TG]GC[AGT]
[AC]GC[TC] [TG]C[GA] [CG]”,motif-6 (16:4)“GC
[AG]CGC[GA][CA][GA]C[AC]”;可能控制水稻种子
基因表达的元件有 motif-6(29:12)“AT[GA] [AG]
AAAA”;可能控制水稻花基因表达的元件有motif-2
(22:10)“[CG][CG][TA]C[GT][CA][GA]C[GTC]CGC”,
motif-10 (23:11)“TTTT[TG]A[AG][AC] AAAA”。
3 讨论
一般认为,转录因子结合位点主要在转录起始位
点(transcription start sites,TSSs)上游附近出现,但还有
一些转录因子结合在基因上游很远的区域(被称为远
程作用)。根据研究问题的不同,启动子序列的长度可
以取几百到几千个碱基不等,通常选取转录起始位点
上游1000~2000个碱基的长度作为启动子区。序列太
短会丢失部分结合位点。如果序列取的过长,在包含
了少量真实结合位点的同时,却引入了大量的背景噪
声,使真正的转录因子结合位点淹没在噪声中无法区
分[15]。本研究选取转录起始位点上游 1000 bp启动子
序列,与传统选取序列长度类似。
2007年ENCODE[16]计划的研究成果表明转录调控序
列在转录起始位点两侧是对称分布的,而不是偏向于出
现在转录因子起始位点上游的;该实验中发现的转录调
控序列较集中的区域中,只有25%与已知的转录起始位
点较近,这意味着基因组中可能存在着大量没有被发现
的启动子和转录调控元件,又或者存在一种还没有被发
现的转录调控机制,染色体结构(Chromatin structure)对
转录调控(转录起始位点,顺式调控序列)也有很大
影[9]。如此复杂性转录调控机制,在本研究和大多数生
物信息的算法研究中还未得到体现。
另一个制约转录调控研究发展的是基因组注释
质量。拟南芥基因组注释最新版本TAIR10专门建立
了一个分级系统来描述基因组各个位点的注释质量,
达到 5星级的位点只有 10%左右(ftp://ftp.arabidopsis.
org/Genes/TAIR_gene_confidence_ranking/),而水稻以
及其他基因组的注释质量更差。不准确的注释,使获
得准确的序列信息更加困难,特别是转录起始位点的
确定成为转录调控研究非常棘手的问题,大多数研究
不得不采用翻译起始位点作为转录调控研究的基准
点。本研究根据NCBI,TAIR和RAP-DB对基因组各
个基因位点注释质量,逐条分析,去掉不能准确获得基
因转录起始位点的基因,提高了预测的准确性。
本研究两物种同一组织未发现较为相似的顺式作
用元件,可能是由于两物种亲缘关系较远加之转录调
控的复杂性。多数组织特异表达基因不准确的注释对
分析结果也造成了极大的影响。
本研究利用序列分析软件MEME对组织特异表
达基因启动子序列进行分析,又利用组织特异不表达
基因启动子做了一个减法,与用一组共调控的基因预
测转录因子结合位点相比[4-8]提高了软件的检测效果。
随着生物学实验技术的进步和测序技术的发展,
更多的物种基因组信息,以及同一物种内品种间或个
体间基因组信息差异的揭示,对转录调控机制的深入
理解必将为生物信息学研究注入新的生命力,生物信
息学与实验相互结合相互促进,人们对转录调控的认
识将更加系统深入。
4 结论
本研究以UniGene数据库中有关拟南芥和水稻的
相关信息,获得根、叶片、花、种子4种组织中特异表达
基因和特异不表达基因。在TAIR和RAP-DB下载获
得此类基因启动子序列,利用生物信息学软件MEME
对组织特异表达基因启动子序列进行分析,预测得到
组织特异表达基因的顺式作用元件。同时,利用模式
搜索软件 FIMO,考察每一条顺式作用元件在这种组
织特异表达基因和组织特异不表达基因启动子序列中
的分布特征。分析得到9个组织特异表达基因的转录
因子结合位点。其中“CCACACA”达到极显著水平,
极有可能为控制基因在拟南芥叶片中表达的顺式作用
元件,另有8个顺式作用元件达到显著水平,其中控制
拟南芥种子基因表达3个;控制水稻根基因表达2个;
控制水稻种子基因表达的 1个;控制水稻花基因表达
元件2个。
本研究技术和策略提高了软件的检测效果,成功
预测获得多个组织特异表达基因的转录因子结合位
点,解决了预测转录结合因子灵敏度低的问题。其方
法可为其他基因表达调控的机制研究提供参考,获得
的转录因子结合位点为进一步构建组织特异性表达载
体提供基础。
参考文献
[1] 刘玉瑛,张江丽.真核生物启动子预测相关数据库资源概述[J].安
·· 147
中国农学通报 http://www.casb.org.cn
徽农业科学,2007,35(24):7418-7419.
[2] 胡松年.基因表达序列标签(EST)数据[M].杭州:浙江大学出版社,
2005.
[3] 于凤池.EST技术及其应用综述 [J].中国农学通报,2005,21(2):
54-58.
[4] Hertz G Z, Stormo G D. Identifying DNA and protein patternswith
statistically significant alignments of multiplesequences[J].
Bioinformatics,1999,15(7-8):563-577.
[5] Fauteux F, Blanchette M, Stromvik M V. Seeder: discriminative
seeding DNA motif discovery[J]. Bioinformatics,2008,24(20):
2303-2307.
[6] Hughes J D, Estep P W, Tavazoie S, et al. Computational
identification of Cis-regulatory elements associated with groups of
functionally related genes in Saccharomyces cerevisiae [J]. Journal
of Molecular Biology,2000,296(5):1205-1214.
[7] Thijs G, Lescot M, Marchal K, et al. A higher-order background
model improves the detection of promoter regulatory elements by
Gibbs sampling [J]. Bioinformatics,2001,17(12):1113-1122.
[8] Liu X, Brutlag D L, Liu J S. BioProspector: discovering conserved
DNA motifs in upstream regulatory regions of co-expressed genes
[J]. Pac Symp Biocomput,2001:127-138.
[9] 侯琳,钱敏平,朱云平,等.转录因子结合位点生物信息学研究进展
[J].遗传2009,31(4):365-373.
[10] Dennis A B, Ilene K M, Karen C, et al. Lipman:GenBank [J].
Nucleic Acids Research,2011(40):48-53.
[11] Timothy L B, Charles E. Fitting a mixture model by expectation
maximization to discover motifs in biopolymers[C]. Proceedings of
the Second International Conference on Intelligent Systems for
Molecular Biology,1994:28-36.
[12] Charles E G, Timothy L B, William S N. FIMO: Scanning for
occurrences of a given motif[J]. Bioinformatics, 2011,27(7):
1017-1018.
[13] Swarbreck D, Wilks C, Lamesch P, et al. The Arabidopsis
Information Resource (TAIR): gene structure and function
annotation [EB/OL]. Nucleic Acids Research. 2008(36):1009-1014.
[14] Tanaka T, Antonio B A, Kikuchi S, et al. The Rice Annotation
Project Database (RAP-DB): 2008 update Rice Annotation Project
[EB/OL]. Nucleic Acids Research,2008(36):1028-1033.
[15] 李婷婷,蒋博,汪小我,等.转录因子结合位点的计算分析方法[J].生
物物理学报,2008(10):54-58.
[16] Mattick J S. ENCODE Project Consortium. Identification and
analysis of functional elements in 1% of the human genome by the
ENCODE pilot project[J]. Nature,2007,447(7146):799-816.
·· 148