免费文献传递   相关文献

基于EST和GSS序列的玉米未知微RNA的数据挖掘



全 文 :·研究报告· 2011年第12期
生物技术通报
BIOTECHNOLOGY BULLETIN
收稿日期 :2011-07-05
基金项目 :中央高校基本科研业务费专项资金项目(SWJTU09BR217, SWJTU09ZT28,SWJTU11ZT25)
作者简介 :李婧,女,硕士研究生,研究方向 : 药物生物技术 ; E-mail: mable4509@163.com
通讯作者 :郭志云,男,博士,研究方向 : 生物信息学 ; E-mail: bioinf@home.swjtu.edu.cn
基于 EST 和 GSS 序列的玉米未知微 RNA 的数据挖掘
李婧 熊莉丽 胡久梅 郭志云
(西南交通大学生命科学与工程学院,成都 610031)
摘 要: miRNAs 通过与靶基因互补位点配对结合,在转录后水平负性调控靶基因的表达。根据 miRNA 进化上的保守性,
以拟南芥、水稻等已知的植物 miRNAs 为探针,与相关数据库中玉米表达序列标签(EST)和基因组序列(GSS)中的非编码序列
比对,采用一系列的标准进行筛选,最后预测得到 24 个玉米 miRNA 前体,通过靶基因的预测共得到 61 个靶基因。通过生物信息
学方法大大提高了人们发现 miRNAs 及其靶基因的效率,补充了玉米 miRNA 数据库的不足。
关键词: MicroRNA 玉米 EST GSS 靶基因
Based on EST and GSS Sequences to Predict Maizes Novel MicroRNAs
Li Jing Xiong Lili Hu Jiumei Guo Zhiyun
(School of Life Science and Engineering,Southwest Jiaotong University, Chengdu 610031)
Abstract: We used previously deposited miRNA sequences from Arabidopsis, rice, and other plant species to blast the databases of
maize expressed sequence tags and genomic survey sequence that do not correspond to protein coding genes. Following the filtering with a
combination of stringent criteria,24 potential miRNAs were detected in maize, and a total of 61 target genes were found through target gene
forecast.By bioinformatics methods we can improve the efficiency of miRNA found and its target genes,and add information to maizes miRNA
database.
Key words: MicroRNA Maize EST GSS Target gene
微 RNA(microRNA,简称 miRNA)是 20 世纪
90 年代,Lee 等 [1] 利用遗传筛选的方法发现的一类
内源性的小分子非编码 RNA,它们长度约为 22 nt,
广泛存在于真核细胞内。miRNAs 通过与靶基因互
补位点配对结合,在转录后水平负调控靶基因的表
达,参与生长发育、细胞增殖和细胞分化等生命过
程 [2-4]。最初,miRNA 的研究一直局限在对动物的
研究中。随后,研究人员又相继在拟南芥和水稻模
式植物中找到了数百个 miRNA[5,6],从此开始了大规
模发现和鉴定 miRNA 的历程,有关它们的研究将改
变对 RNA 的传统理解。
目前识别和鉴定 microRNA 主要利用试验分析
和计算机分析两种方法。试验分析识别 microRNA
的方法有直接克隆法和基因芯片法的方法 [7,8]。当
microRNA 表 达 丰 度 低 或 受 某 些 特 定 诱 导、 或 组
织特异性表达时,克隆方法难以克隆出这些新的
microRNAs。因此,针对 microRNA 具有某些独特的
共性,生物信息学方法逐渐发展成为一种有效的鉴
定 microRNA 及靶基因的方法,弥补了试验法的一
些缺陷,很大程度上提高了发现 microRNA 及其靶
基因的效率。
生物信息学的方法主要根据序列和结构的保
守 性 检 索 microRNA ;利 用 靶 序 列 的 保 守 性 识 别
microRNA。一些研究使用靶序列的保守性作为识别
潜在 microRNA 的一个重要的依据 [9]。玉米是世界
上产量第一的粮食,但是已经鉴定登记的 miRNAs
还较少,对其靶基因的调控作用也尚待解明。本研
究根据 miRNA 进化上的保守性,以拟南芥、水稻
等已知的植物 miRNAs 为探针,与相关数据库中玉
米表达序列标签(EST)和基因组序列(GSS)中的
2011年第12期 109
非编码序列比对,采用一系列的标准进行筛选,最
后预测得到玉米新的 miRNA 及其靶基因,补充了
miRNA 数据库的不足。
1 材料与方法
1.1 相关数据的获得
本研究主要应用同源性搜索方法,以寻找玉米
潜在的 miRNAs 为目的,从 miRNA 数据库 miRBase
(http:// www.mirbase.org/index.shtml ) [5] 下载植物已经
登记的 miRNAs 序列 1 804 条,自身比对去除重复
序列后,再以此为探针在美国国家生物技术信息中
心(NCBI)GenBank 核酸数据库搜索玉米的 EST 和
GSS 序列。
1.2 应用的软件
BLAST(http://blast.ncbi.nlm.nih.gov/Blast. cgi)
用于在线比对序列的软件 ;RNA 二级折叠结构在线
预 测 软 件 MFold3.2(http://mfold. Bioinfo. rpi.edu/cgi-
bin /rna-form1.cgi ) [10] ;植物 miRNA 在线靶基因预测
软 件 miRU(http://bioinfo3. noble.org/miRNA /miRU.
htm ) [10]。
1.3 玉米新miRNA的预测
计算机搜寻玉米潜在 miRNA 的方案,如图 1
所示。从 miRNA 数据库下载各种植物已经登记的
miRNAs 序列,自身比对去除重复序列后,以此为探
针搜索 NCBI 数据库中玉米的 EST 和 GSS 序列。少
于 4 个碱基错配的同源序列,经比对去除重复序列,
然后与玉米的 miRNA 数据库比对去除已知序列,再
与 NCBI 数据库中的 mRNA 序列比对,去除蛋白质
编码序列,作为候选 miRNAs。最后,用 Mfold3.2 软
件预测候选 miRNAs 的二级结构,根据 miRNAs 二
级结构的筛选标准 [10,11] 对其进行筛选并分析。
1.4 玉米miRNA靶基因的预测
由于植物 miRNA 与靶基因能近乎“完美”的
结合 [8],使得利用计算机预测植物 miRNA 的靶基因
成为可能。miRU[12] 是一款较好的植物 miRNA 靶序
列在线分析软件,将 miRNA 候选序列输入软件中,
然后根据不同物种选择允许的 miRNA 与互补序列的
错配碱基数设置罚分参数,最终选择物种的数据库
进行搜索。
2 结果
2.1 玉米miRNAs的预测
从 miRBase 下载拟南芥、小麦、水稻、棉花、
毛果杨、甘蔗、大豆、苜蓿和高粱等植物已经登记
的 miRNAs 序列 1 804 条,这些序列很多是相似的,
将其进行多序列比对(MSA),对于重复序列保留一
条。以这些非重复的已知序列为探针分别在 NCBI
玉米的 GSS 数据库和 EST 数据库中进行搜索,结果
共得到 83 条符合条件的序列。将这些符合条件的序
列与 miRBase 数据库中玉米已知的 miRNAs 比对去
除已知序列,去除 55 条已知序列后,剩余 28 条数
据库中未收录的未知序列。自身比对去除重复序列,
剩 24 条非重复的序列。将 24 条非重复的 miRNAs
与 NCBI 数据库中的玉米的蛋白质数据库比对,使
用 blastx,选择数据库 SwissPort,物种 Zea mays(taxid:
4577),进行比对,结果表示这 24 条序列全部为非
编码序列。
对新鉴定 miRNA 序列进行二级结构预测,并对
其进行分析和筛选。使用 mfold3.2 对 miRNAs 逐一
进行二级折叠结构的预测,预测结果中可以查看其
图 1 计算机搜寻玉米未知 miRNAs 的方案
李婧等 :基于 EST 和 GSS 序列的玉米未知微 RNA 的数据挖掘
生物技术通报 Biotechnology Bulletin 2011年第12期110
折叠自由能、miRNAs 与互补区段两单链之间的错配
碱基数、miRNAs 互补区段两单链是否额外环或缺口。
如图 2 为 miRNA444c 二级折叠结构。经过对预测结
果进行分析筛选,共有 10 条符合 miRNAs 符合鉴定
标准。其中,3 条来源于 GSS 序列,7 条来源于 EST
序列。根据 Ambros 等 [11] 提出的 miRNAs 的命名原
则,将 10 条 miRNAs 序列分别命名为 miRNA444、
miRNA160、miRNA444a、miRNA444b、miRNA444c、
miRNA444d、miRNA444e、miRNA444f、miRNA819c
和 miRNA819d,见表 1。
miRNA 序列类型 位置 miRNA 成熟序列 NM(nt) LM(nt) LP(nt) A+U(%) MFE (kcal/mol) MFEI
miRNA160 GSS 5 UGCCUGGCUCCCUGUAUGCCA 0 21 114 36.84 -59.40 0.82
miRNA444 EST 3 UUGUUGCCUCAAGCUUGCUGC 1 21 204 55.88 -83.60 0.93
miRNA444a EST
3 UGCAGUUGCUGCCUCAAGCUU 0 21
125 47.20 -72.50 1.10
3 UUGCUGCCUCAAGCUUCCUGC 1 21
miRNA444b EST
3 UGCAGUUGUUGUCUCAAGCUU 0 21
131 53.44 -79.00 1.30
3 UUGCUGCCUCAAGCUUGCUGC 0 21
miRNA444c EST
3 UGCAGUUGUUGUCUCAAGCUU 0 21
140 51.43 -86.50 1.27
3 UUGCUGCCUCAAGCUUGCUGC 0 21
miRNA444d EST
3 UUGUGGCUUUCUUGCAAGUUG 0 21
170 56.47 -77.50 1.053 UGCAGUUGUUGCCUCAAGCUU 1 21
3 UUGUUGCCUCAAGCUUGCUGC 1 21
miRNA444e EST 3 UGCAGUUGCUGCCUCAAGCUU 0 21 126 48.41 -76.40 1.17
miRNA444f EST 3 UGCAGUUGUUGCCUCAAGCUU 0 21 155 54.84 -88.40 1.26
miRNA819c GSS 5 UCAGGUUAUAAGAUUUUCUAGC 1 22 154 70.78 -71.70 1.59
miRNA819d GSS 5 UCAUAUUAUAAGACUUUCUAGC 2 22 143 70.63 -63.10 1.50
表 1 预测得到新的玉米 miRNAs
NM. 错配碱基数;LM. 成熟miRNA的长度;LP. miRNA前体的长度;MFE. 最小折叠自由能;MFEI. 最小折叠自由能系数
图 2 miRNA444c 二级折叠结构(黑线标记为成熟 miRNA)
2.2 玉米miRNAs靶基因的预测
在 植 物 中 靶 基 因 与 miRNA 是 高 度 碱 基 互 补
的。以新鉴定的 10 条 miRNAs 序列为探针,用植
物 miRNAs 靶 基 因 搜 索 软 件 miRU 找 到 其 中 5 条
miRNAs 序列的 41 个靶基因,它们功能信息见表 2。
除上述已知功能的基因外,还有一部分 mRNAs 的功
能未知(未列出)。
3 讨论
在预测预测玉米新的 miRNA 时,设定的筛选
条件是根据 miRNA 的特性所总结得到的。发夹结构
的形成是 miRNA 成熟过程中的一个重要步骤,也是
miRNA 前体的一个重要特征。然而,发夹结构并不
是 miRNA 特有的,因为其它类型的 RNAs 也可能形
成类似的发夹结构(比如 mRNA、rRNA、rRNA)。
因此,为了防止 miRNA 的预测中,误将其它类型
的 RNAs 或者 RNA 片段混入,引入了两个参数 :最
小折叠自由能(MFE) 、以及最小折叠自由能系数
(MFEI),由于 MFE 随序列的长度的变化而变化,目
2011年第12期 111李婧等 :基于 EST 和 GSS 序列的玉米未知微 RNA 的数据挖掘
前 MFEI 这个参数被认为是鉴定 miRNA 的最佳标准。
通过对已知 pre-miRNAs 分析表明,它具有绝对值较
大的折叠自由能(MFE)和折叠自由能系数(MFEI),
并且 pre-miRNA 平均折叠自由能系数为 0.97,明显
miRNA 家族 靶基因登录号 编码蛋白 可能的功能
miRNA160 TC264641 假定磷脂酶 信号转导
miRNA160 CF648203 假定蛋白 新陈代谢
miRNA160 TC248728 40S 核糖体蛋白 S16 新陈代谢
miRNA444 TC271847 MADS box 蛋白 转录因子
miRNA444 TC266762 MADS27 转录因子
miRNA444 TC276497 柯巴基焦磷酸 新陈代谢
miRNA444 TC258456 螺旋-环-螺旋蛋白 转录因子
miRNA444 TC252872 DNA 结合蛋白 类似转录因子
miRNA444 TC261598 BRI1-KD 相互作用蛋白 132 信号转导
miRNA444 TC266762 转录因子 MADS27 转录因子
miRNA444 TC271849 MADS-box 转录因子 MADS27 转录因子
miRNA444 TC257408 转录因子 MADS57 转录因子
miRNA444 TC271847 MADS box 蛋白 转录因子
miRNA444 CD434156 小的 Ras 相关的 GTP 结合蛋白 信号转导
miRNA444 TC251288 沉默相关蛋白 SAS10 信号转导
miRNA444 TC253912 类似锌指蛋白 转录因子
miRNA444 TC259015 小的 GTP 结合蛋白 Ran2 信号转导
miRNA444 TC259030 小的 GTP 结合蛋白 Ran2 信号转导
miRNA444 TC259031 小的 GTP 结合蛋白 Ran2 信号转导
miRNA444 TC259044 小的 GTP 结合蛋白 Ran2 信号转导
miRNA444 TC262153 泛酸激酶 1 信号转导
miRNA444 TC273624 类似 GRR1 蛋白 膜装配
miRNA444 TC256543 Flagellar 转录激活子 转录因子
miRNA444 TC271534 RNA 解旋酶 新陈代谢
miRNA444 TC260993 类似细胞色素 P450 酶 新陈代谢
miRNA444 TC272462 M31 蛋白 转录因子
miRNA444 TC257408 转录因子 MADS57 转录因子
miRNA444 TC270636 真核转录起始因子 eIF3a 转录因子
miRNA444 TC263018 肌蛋白 新陈代谢
miRNA444 TC250020 腺苷三磷酸酶 新陈代谢
miRNA444 TC249247 类似 UDP-半乳糖 4-差向酶 新陈代谢
miRNA444 TC261251 P- 型腺苷三磷酸酶 胁迫和新陈代谢
miRNA444 TC273013 Nicastrin 前体蛋白 信号转导
miRNA444 TC271760 脂酸生物合成蛋白 新陈代谢
miRNA444 TC271761 脂酸生物合成蛋白 新陈代谢
miRNA189 TC259003 类似 2 型金属硫蛋白 新陈代谢
miRNA189 TC275847 非特异性保守细胞膜蛋白 新陈代谢
miRNA189 TC272639 Ser/Thr 特异的蛋白磷酸酶 信号转导
miRNA189 CD441527 IDS3 信号转导
miRNA189 CF014130 过氧化物酶病含铜胺氧化酶 新陈代谢
miRNA189 TC261456 组蛋白乙酰转移酶 HAC108 转录因子
表 2 预测得到的玉米 miRNAs 的靶基因及其编码蛋白
生物技术通报 Biotechnology Bulletin 2011年第12期112
高于 tRNA(0.64),rRNA(0.59),mRNA(0.62-0.66),
90% 以上的 pre-miRNA 的 MFEI 大于 0.85,而其他
任何 RNA 的 MFEI 不大于 0.85[13]。所以可以认为,
MFEI 大 于 0.85 的 RNA 极 可 能 是 miRNA。 所 预 测
到的 miRNA 的 MFEI 值只有一个小于 0.85,符合
90%miRNA 前体的折叠自由能系数大于 0.85。
本研究鉴定的 10 条新的 miRNAs 前体序列中有
些前体序列中还有多个成熟的 miRNA 序列,主要集
中在 miRNA444 家族。前体 miRNA 长度在 114-204
nt 之间。A+U 含量在 36.84%-70.78% 之间,均符合
miRNAs 二级结构稳定性要求。
预测得到的玉米 miRNA 及其二级结构的特点
均与先前在水稻、拟南芥等植物中发现的相符 [14,15]。
新预测的成熟 miRNAs 的位置有的位于 3 端,有的
位于 5 端。虽然在长度和二级结构方面有变化,但
这 10 条前体序列均可折叠成 miRNA 家族标准的二
级结构。
在预测到的靶基因中,绝大多数是编码与玉
米生长发育有关的蛋白质,参与玉米的新陈代谢。
还有一部分是编码转录因子的,这些转录因子调
控玉米的生长、发育以及其它生理代谢过程。如
miRNA444 的靶基因较多(表 2),分别编码多种蛋
白,其中 MADS27、MADS57 都属于 MADS-box 蛋白
家族,在玉米花的发育过程起重要作用 ;小的 GTP
结合蛋白 Ran2 是受 GTP 激活,受 GDP 关闭的分子
开关,与细胞信号转导、细细胞骨架组织和囊泡运
输等多种应答机制相关。
上述预测找到的 miRNAs 所调控的靶基因均是
表达序列中的编码区域。由此说明,miRNAs 在玉米
基因表达调控中的作用是广泛的,研究结果为玉米
的生物学研究提供了新思路。
4 结论
本研究采用生物信息学的方法,用一系列的标
准进行筛选后,得到 24 个新的玉米 miRNA 前体,
通过靶基因的预测共得到 61 个新靶基因,补充了玉
米 miRNA 数据库的不足。
参 考 文 献
[1] Lee RC,Feinbaum RL,Ambros V. The C.elegans heterochlonic
genelin lin-4 encodes small RNAs with antisense complementarity to
lin-14.Cell,1993,75(5): 843-854.
[2] Lee RC,Ambros V. An extensive class of small RNAs in
Caenorhabditis elegans. Science,2001,294(5543): 862-864.
[3] Lagos-Quintana M,Rauhut R,Lendeckel W,et al. Identification
of novel genes coding for small expressed RNAs. Science,2001,
294(5543):853-858.
[4] Lau NC,Lim LP,Weinstein EG,et al. An abundant class of tiny
RNAs with probable regulatory roles in Caenorhabditis elegans.
Science,2001,294(5543): 858-862.
[5] Griffiths-Jones S,Grocock RJ,van Dongen,S,et al. miRBase:
microRNA sequences,targets and gene nomenclature. Nucleic
Acids Res,2006,34(Database Issue) : D140-D144.
[6] Zhang BH,Pan XP,Erson TA. Indentification of 188 conserved
maize microRNAs and the its targets.FEBS Lett,2006,580:
3752-3762.
[7] 吴敏,韩召军 .miRNA 研究方法进展 . 生物技术通讯 , 2005, 16
(5):571-573.
[8] 吕德康,葛瑛,柏锡,等 . 生物信息学在植物 miRNA 研究中
的应用 . 生物信息学 , 2009,7(2):113-116.
[9] 赵东宇,王岩,罗迪,等 . 生物信息学中的 Micro- RNA 预测
研究 . 吉林大学学报 : 信息科学版,2008,26(3):276-280.
[10 ] Zuker M. Mfold web server for nucleic acid folding and
hybridization prediction. Nucleic Acids Res,2003,31(13) :
3406-3415.
[11 ] Ambros V,Bartel B,Bartel DP,et al . A uniform system for
microRNA annotation. RNA,2003,9(3) : 277-279.
[12] Zhang Y. miRU: an automated plant miRNA target prediction
server. Nueleic Acids Res,2005,33: 701-704.
[13] Zhang BH,Pan XP,Cox SB,et al. Evidence that miRNAs
aredifferent from other RNAs . Cell Mol Life Sci,2006,63(2) :
246-254.
[14] 金伟波,李楠楠,吴方丽,等 . 水稻 MicroRNA 的预测及实验
验证 . 中国生物化学与分子生物学报 , 2007,23(9):743-750.
[15] 金伟波,孔栋,应晓敏,等 . 拟南芥基因组中新的 microRNA
预测及分析 . 生物物理学报,2007,23(5): 389-395.
(责任编辑 李楠)