免费文献传递   相关文献

拟南芥基因组中新的microRNA预测及分析



全 文 :拟南芥基因组中新的microRNA预测及分析
金伟波 1,2, 孔 栋 2, 应晓敏 1, 郭蔼光 2, 李伍举 1
( 1.军事医学科学院基础医学研究所计算生物学中心,北京 100850;2.西北农林科技大学生命科学学院,西安 712100)
摘要:MicroRNA(miRNA)是一类存在于动植物体内、长度为 21~25nt的内源性小 RNA,对生物体的转录
后基因调控起着关键作用,但一些低丰度的 miRNA和组织特异性 miRNA往往很难发现。为了系统识别拟南芥
基因组中新的非同源miRNA,首先基于已报道的拟南芥 miRNA的特征,从全基因组范围中筛选出 453条可能的
miRNA前体;其次,为了进一步对上述 miRNA前体进行筛选,利用人的 miRNA前体数据构建了支持向量机模
型 GenomicSVM,该模型对人测试集的敏感性和特异性分别为 86.3%和 98.1%(30个人 miRNA前体和 1000个
阴性 miRNA前体),对拟南芥测试集的正确率为 93.6%(78个 miRNA前体);最后,利用 GenomicSVM预测上
述 453条 miRNA前体序列,得到了 37条候选的新的拟南芥 miRNA前体,为进一步的 miRNA实验发现研究提
供了指导。
关键词:拟南芥;基因组;microRNA;预测
中图分类号:Q74
生物物理学报 第二十三卷 第五期 二**七年十月
ACTABIOPHYSICASINICA Vol.23No.5 Oct.2007
收稿日期:2007-02-02
基金项目:国家自然科学基金项目( 30470411,30500105)
通讯作者:李伍举,电话 /传真:(010)66931324,E-mail:
liwj@nic.bmi.ac.cn;郭蔼光,电话 /传真:(029)87026171,
E-mail:guoaiguang@yahoo.com.cn
0 引 言
MicroRNA( miRNA)是一类存在于动植物体
内的内源性的 ncRNA[1~5],在生物体内起调节
mRNA稳定性及翻译作用。最早被发现的miRNA
lin-4和 let-7可通过与靶 mRNA3末端形成碱基
配对来抑制翻译,后来很多新发现的miRNA也以
相似的机制发挥作用[6]。不过miRNA大家族里也
有一些成员,特别是植物 miRNA,主要是通过
RNAi途径,以完全互补或接近完全互补的方式与
靶mRNA结合,从而达到降解靶基因目的[7,8]。
miRNA在生物体的不同部位和不同的发育阶
段对基因的转录后调控都起重要的作用[1~5],因此
发现各物种的miRNA进而揭示其功能具有重要意
义。但通过实验手段只能使部分高丰度表达的
miRNA得到有效克隆,而大量低丰度表达的
miRNA却难以得到,因此,利用计算生物学方法
发现低丰度或组织特异性表达的miRNA,进而为
实验提供帮助已成为一条切实可行的途径。到目前
为止,已发展了许多算法与软件[9~15],如基于比较
基因组学方法的软件有MiRscan[9,10]、SRNAloop[11]、
miRseeker[12]和 miRAlign[13]等,这些程序都需要通
过序列保守性来预测miRNA前体,因此利用它们
很难有效地发现某个基因组中非同源的新的
miRNA基因。另外,最近机器学习方法也逐渐用
于真假miRNA前体的区分问题,如Nam等人[14]于
2005年开发的基于隐马氏模型( HMM)的
ProMIR来预测人的 pre-miRNA,正确率为 75%;
Xue等人[15]利用人miRNA前体数据集中的部分数
据作为训练数据,然后采用 SVM 方法构建
miRNA前体预测模型,对阳性测试集中的 30个
miRNA前体,预测精度为93.3%( 28/30),对两个
阴性测试集来说,预测精度分别为 88.1%
( 881/1000)和 89.0%( 2175/2444);此外,Loong
等人[16]也利用 SVM方法探讨了 miRNA前体的预
测问题,在他们构建的测试集上,其敏感性与特异
性分别为84.6%与98.0%;这些预测模型主要是基
于已知的数据集来探讨miRNA前体的预测问题,
还没有用于基因组水平的miRNA前体识别。
基于上述考虑,我们采用下列策略探讨拟南芥
基因组中新的非同源miRNA的识别问题,首先对
目前已知的78条拟南芥miRNA前体进行特征统
计,并以之为基础并结合比较基因组学方法,构建
了拟南芥基因组水平的新的非同源miRNA前体预
测流程,获得了453条miRNA前体;然后利用人
的 miRNA前体数据集和支持向量机方法构建了
2007年生 物 物 理 学 报
miRNA前体预测模型 GenomicSVM,并基于此模
型预测上述 453条 miRNA前体,最终获得了 37
条候选的新的非同源的拟南芥miRNA前体,为进
一步的miRNA实验发现研究提供了指导,也为其
它物种基因组中新的非同源的 miRNA识别提供
借鉴。
1 材料与方法
1.1 在拟南芥基因组中筛选具有发夹结构的序列
拟南芥基因组从 NCBI( htp:/www.ncbi.nih.
nlm.gov/)库中下载;根据已公布拟南芥 miRNA
的相关特征,包括前体发夹结构及自由能( 根据
RNAfold计算所得)、GC含量、前体长度、茎区
螺旋区长度和发夹环的长度等,从拟南芥基因组中
筛选pre-miRNA-like序列。
1.2 真假pre-miRNA数据集
人的pre-miRNA从miRNA数据库[17]下载,通
过去除那些没有发夹结构的pre-miRNA,最后得到
193条人pre-miRNA作为阳性数据集。目前认为,
miRNA基因主要位于基因组的非编码区,因此可
以认为,对于一些编码蛋白的基因序列,即使它们
具有一些与真正pre-miRNA类似的特征,仍认为
是假的pre-miRNA。基于此认识,本研究构建了一
个 ENCODE阴性数据集,它根据 UCSC的
refGene列表提取出人类编码基因的序列,用
RNAfold程序[18]预测这些序列的二级结构,提取所
有与已报道人的pre-miRNA具有相似特征并具有
发夹结构的序列,最后构建的 ENCODE包含了
7893条序列。
1.3 构建GenomicSVM的训练集和检测集
为了用支持向量机( SVM)方法来判别真假
pre-miRNA,我们构建了一个训练集( TR)和两
个测试集 TE-human和 TE-ath。其中 TR包括 163
条随机从阳性数据集中抽取的真的pre-miRNA( 阳
性样本)和 1000条随机从阴性数据集 ENCODE
中抽取的假pre-miRNA( 阴性样本)的序列;TE-
human包括了剩余的 30条真 pre-miRNA和 1000
条随机从阴性数据集 ENCODE中抽取的假
pre-miRNA( 与 TR中的数据没有重复)。TE-ath
数据集中包含了从miRNA数据库[17]下载得到的78
条具有发夹结构的拟南芥miRNA。
1.4 支持向量机模型及其评估
本研究采用支持向量机软件包LibSVM[19],该
软件包由台湾大学林智仁等人开发,具有操作简单
和易于使用等特点,可以解决分类问题、回归问题
以及分布估计等问题,提供了四种常用核函数( 线
性、多项式、径向基和 S形函数)供用户选择,
可以有效地解决多类问题、交叉验证选择参数和对
不平衡样本加权等,其中Grid方法用于寻找最优
的罚分参数 C和径向基函数 RBF的核心参数 γ。
该软件包下载于 htp:/www.csie.ntu.edu.tw/~cjlin/
libsvm/oldfiles/。
另外,模型效果评价是评估一个模型在实际中
能否应用的关键步骤。对于一个包含阳性样本与阴
性样本的测试集来说,预测结果包括以下四种类
型:正确预测的阳性样本数目TP与阴性样本数目
TN,假阳性样本数目 FP与假阴性样本数目 FN。
基于这些数值,可以分别计算出模型的敏感性
( Se)、特异性( Sp)和分类精度( ACC),具体计
算公式如下:
Se=TP/(TP+FN) (1)
Sp=TN/(TN+FP) (2)
ACC=(TP+TN)/(TP+TN+FP+FN) (3)
2 结果与分析
2.1 拟 南 芥 miRNA特 征 统 计 及 基 因 组 中
Hairpin-like序列的搜索
通过对测试集TE-ath中的78条具有发夹结构
的拟南芥miRNA前体序列进行分析与特征统计,
得到了如表1所示的结果。然后,以表1得到的结
果作为参数,从拟南芥基因组中识别 pre-
miRNA-like序列,具体流程见图1,去除冗余后,
最终得到453条可能的前体片段。
Table1 Thecharacteristicsofknown78pre-miRNAsinA.thaliana
Length(nt) GCcontent Stemlength Lengthofhelix Looplength Freeenergy
>70 0.36~0.70 >32nt >20bp ≥5nt <-9.6kcal/mol
390
第5期 拟南芥基因组中新的microRNA预测及分析
2.2 GenomicSVM模型的训练和检测
为了进一步从大量 pre-miRNA-like序列中识
别出真正的 pre-miRNA,我们开发了用于真假
miRNA前体识别的支持向量机模型GenomicSVM。
GenomicSVM是根据pre-miRNA的二级结构特征,
并利用SVM工具来预测miRNA前体的一个模型。
该模型在训练时选用RBF作为核函数,并用Grid
策略及10-fold交叉验证的方法来搜索RBF的最优
参数 γ,然后用优化的核心参数( γ=0.125)训练
GenomicSVM, 并 通 过 两 个 测 试 集 来 检 验
GenomicSVM 的预测效果。如表 2所示,TE-
human中的 30条真的 pre-miRNA有 25条被正确
识别,得到模型的敏感性( 即从阳性数据集中被正
确识别为阳性数据的条数)为 83.3%;另外的
1000条阴性序列有 981条被正确地识别为假的
pre-miRNA序列,得到模型的特异性( 即从阴性数
据集中被正确识别为阴性数据的条数)为98.1%。
GenomicSVM及所有相关资料都可从网上免费下
载得到,网址为:htp:/geneweb.go3.icpcn.com/
genomicSVM/。
2.3 拟南芥候选pre-miRNA的预测
为了检测 GenomicSVM对拟南芥 pre-miRNA
的识别效率,我们用 TE-ath作为测试集来验证。
TE-ath中共有 78条拟南芥 pre-miRNA,其中 73
条得到了正确识别( 见表 2),正确率为 93.6%。
Table2 PerformanceoftheGenomicSVM modelontestsetsTE-humanandTE-ath
Testset TP TN FP FN Se Sp ACC
TE-human
TE-ath
25
73
981
0
19
0
5
5
0.833
0.936
0.981
0.000
0.977
0.936
然后我们将 GenomicSVM模型用于上述得到的
453条 pre-miRNA-like序列的识别,最后得到了
37条候选的 pre-miRNA,其中 20条位于基因间
区,占54.1%;9条位于基因内含子区,占24.3%;
剩余的8条位于基因编码区,占21.6%( 表3)。但
是根据文献[20],miRNA在编码区上不应有很高的
比例,我们推测位于编码区上的这些miRNA可能
是一些反式作用小RNA。由于本研究在发夹结构
序列的筛选过程中去除了与目前已报道拟南芥和水
稻miRNA的同源序列,因此,本研究最后得到的
37条候选序列是新的拟南芥miRNA前体。
2.4 miRNA的靶标预测
作为miRNA,其主要作用是调控靶基因的表
达,因此,上节中预测的37条候选miRNA前体,
如果是真实的miRNA,在拟南芥中应该有对应的
被调控的靶标,为此,我们开展了miRNA靶标的
预测研究。
目前认为,植物miRNA的作用方式主要通过
与靶标基因编码区以接近完全互补的方式发生作用
( near-perfectcomplementarity),从而降解靶标
mRNA[7,8,21],为了进一步检测上述预测的拟南芥
miRNA的功能,通过Blast程序( W:16,S:2;
表示搜索时wordsize为16nt,仅搜索互补链)将
候选的 37条成熟 miRNA( 分别来自于相应
pre-miRNA发夹结构的两个茎区)与 EST库作互
补检索,如表 3所示,发现这些 miRNA的靶标
Fig.1 Flowchartforthe prediction ofpre-miRNA-like
sequencesintheA.thalianausingthecharacteristicsofthe
knownmiRNAsandcomparativegenomicsmethods
A.thalianagenome
Scantheplusstrandofthewhole
genomewiththewindowsize120nt
andstepsize2nt
Predictsecondarystructureofeach
fragmentusingRNAfoldprogram
Removethefragmentswiththesimilaritymorethan
95% toalknownPre-miRNAsinA.thalianagenome
Obtain453candidatePre-miRNAs
Keepthefragmentswiththecharacteristic
ofmiRNAhairpinstructures
Onlykeepthefragmentswithfreeenergyless
than-9.7kcal/Mol
OnlykeepthefragmentswithGC
contentbetween36% and70%
Removetheredundancyandkeepthe
fragmentswiththelowestfreeenergy
Removethefragmentswiththesimilaritymorethan
85% toalknownPre-miRNAsinricegenome
391
2007年生 物 物 理 学 报
mRNA从几十到几百不等,然而对于 AthmiR010
却没有找到相应的靶标EST序列,这存在两种可
能,一种是由于目前拟南芥的EST序列还不够完
整,也就是说AthmiR010的靶标序列还没有发现;
另一种就是本研究预测的AthmiR010可能为假阳
性片段。
Table3 ThelistofpredictedmiRNAsinA.thaliana
miRNANo. Chr. ΔG(kcal/mol) Tar1 Location2 Sequence
AthmiR001
AthmiR002
AthmiR003
AthmiR004
AthmiR005
AthmiR006
AthmiR007
AthmiR008
AthmiR009
AthmiR010
AthmiR011
AthmiR012
AthmiR013
AthmiR014
1
1
1
1
1
1
1
1
1
1
1
1
1
1
-17.99
-10.22
-13.00
-21.51
-15.80
-10.80
-17.40
-30.60
-15.72
-18.64
-16.38
-21.80
-17.45
-22.81
33
15
26
1
2
250
2
81
41
0
46
3
40
21
Intron
Inter
Inter
Inter
Inter
Inter
Exon
Inter
Inter
Intron
Exon
Intron
Exon
Exon
UGAAUGAACAGCCUAGACAAAAUAAAGAAGGCCACAAGUUA
AAUGAUUUCUCUUAGUAAGAAAAGGAGAAAGAGGAAAUCAG
ACCAACUUUGCCAAAGAAAGAUGUAGCUAGACUCAUAA
UGAUAGACAACAGUUCUAAAGAAGGGAAGAUGAGAUUCAGG
CAACAAAAAACACAUAUAGUUCAAAAAAAUUAGGUUGGUAG
GAUCAAUUAUUCAAAAAACAUACACCAAAUAGAUUUUA
UAACUAAAGGAUCAAAUUCAAAGUUUUUCUUGUAAACAAAC
AUACGUAAAGGAGGUAAGCUUGGUACAUGAGAAAUAAAAAU
AAUAUUUAAGUUAGUGGUGAAGAAAGAAGGGAAGAAGA
AAAUUUCUAAAAAUUUCAUCUUAGUGGGACGGAGGGAGUAU
AUGGUAUAUUUCAAAGAAAAAAAAAACUUAAAAUACCAUAU
AGUUUCGAUCAUUAAACUAAAAACUGAAAAAAAGAAAA
GAAACCAAAACGAAUAUUUAUAAAAUUCGGAACAGAUUUUA
AAUAUUUCUACCGGAAUUACACGUACCAAAUUAAAAUCCGG
AUAUUAUAUCUGAAAACCCGAAAUAUAAUUAUAUAUAA
AGAAGUAGACGAUGAAGAAGAAAAAGAAGAAAAAAAAAGG
UACAAAUAGAGAAAGAAUAUAUAUUAUGCUUUUUUGAGUA
AUUAAAUUAUAUAUAUAAUCUGAUAAUAGCUACAACUUCC
AAACAGAAAAAUGGCCUGAAAUAUAUAAAGAAAAUACAUCU
UGUAAGUGACAAACAAGCAUCAUGAAAAUGAAUAAGAACAA
AUACCAUGAACCAUUGCUACCUUGGACUUAUAAGGGAA
AAAUAAAAAUAAAAAUCUCUUACAGAAGAACAAGUCUGUCU
UUUGCAAACAUUGUUUGAAGAAAAGAAAUCAAAUGAUGGAA
CAGAGCAGAAGAACAGAACAAGUUCUGUUAGUGCAGAG
UAGAAAAAAACAUUCAACUGAAUCAUUCAAAUGAUCUAUUU
AAACAUGAAAAACAAACAACAAUUUUCAUCUUCAUUGAGAU
GGUUCAUCCAAAUGGACAAACAAACAGGACCUUAAUAG
UAAUUAUACCCUACACAAAACGGACUAUCUCUAACAAAUCU
UAAACCUCUUCAGCGAAAAAUUGAGGUAAGGAUAGUGAAAG
AUAGUGGUACAAUAUGAUUAAACAAAUAAACAUAAUAA
AUCGAUUCAUUACCAGAACCAUUUUCUUCAAAAUCUGCAAU
UGGCAAUGAGAGCAUUAGAAAGAGAGACAGAGGAAAAUGAG
AAAGACGAUAAUGAGAAUAAGACAGAGAGAAUAUAAAC
AAUGAACAAACAACACUAGAGAACAAACCAACAUGGAAUAU
CUGUAGCUUAAUUCAUAAAAGGAUACAGAAACUGUAACCUU
UUAACUUAAGCUCAACCAAUUAGAGAUAAAGUUAUGAC
GAUAAGUCUGGCUUGGCACAACUUGAAUCACACCUGGUUGU
UCUGCAACAUCCAAAUCCCCAAAAGCAUAUAAGAAAAACAG
AACAAAGACAAAAAAAAAAAACAUUGAUCAAGUUGAAA
AAGAGAUACACAAGAGCAGGAAAAAAAGAAGAAGAUAAAGA
GAAAAUCACAUCAUUUAUUCUCUUGAGUGAUGAUUAAUAAG
UGAAUGAAUCACUCAAGAAGAUAUUAAAAAAGUGAUGA
( tobecontinued)
392
第5期 拟南芥基因组中新的microRNA预测及分析
( continued)
( tobecontinued)
miRNANo. Chr. ΔG(kcal/mol) Tar1 Location2 Sequence
AthmiR015
AthmiR016
AthmiR017
AthmiR018
AthmiR019
AthmiR020
AthmiR021
AthmiR022
AthmiR023
AthmiR024
AthmiR025
AthmiR026
AthmiR027
AthmiR028
AthmiR029
1
1
2
2
2
2
2
2
3
3
3
3
3
4
4
-18.03
-20.03
-16.00
-14.62
-25.20
-21.48
-16.51
-14.72
-20.20
-19.19
-23.06
-15.99
-9.70
-24.12
-17.51
123
3
10
250
26
6
10
47
247
10
2
8
23
250
72
Exon
Inter
Inter
Exon
Inter
Exon
Intron
Inter
Inter
Inter
Inter
Intron
Intron
Inter
Inter
UAUACAUAUAUAGAGAGAGAGAAGAGGACAAAGAGUUGAA
AGAUGAAGACUCUCAUGUCUUCAUAGAAACAAGUGAUAUGU
GCGCUAAGAAAGAAGAAGAAGAAGAAGAAGAAGAAGACA
AAAGUAAAUUUAAAUGCAUGGAGAAUAGAAGUAUAAAACU
AAAUUUAUUCAAUUCUAUAUGUAAAAUUUUUAAGAAGAAG
AUUAAAUUUAAAGUAAGACUUUGGUCUCUAAGAGCAAAUU
UUUUGAUUUUGUAACAAAAAAUCUUAUGAUACUUAAACCGG
UCUAACCAAUGCAGACAUAUUUAGUAGGAGUAUCAUAACAA
AUUUCAAACAAUAAACAAACAUUAUAAAUAAUACUAAA
UCUAAAUCCUAAUUUAUGAGAAGAAAAAGUAGAAAUUUUUC
ACUAAUCCUUAAAAUCAGACAAAACAAAAAGUGAUUUGUUG
AGUGAAAAAAAUCUUUAGAGAGAGAAAGAAAGAAGAAG
CAAAAAAAAAAAAAUUUUAAAAAAAAGUAUGAGAGAAGGG
AGAAAAAGUAGGAGAGAAGGAGAGUUGAGUUUCUCGGAGG
AGAAACUUUGAGAAACUAUUCUCAUCCAAUUUGGACAGGU
CGAGAAGCAGGAUGAUCUAAAAGAACUGACUUUGUUAUCUU
CUGGGGAAAUAUUAACAAAACUACAGAGGAAAAAGAAACAA
AUAUUAGGCUAAACAGAACAAACCUGCAGAGAAACACC
AAGAAACAUUACUUAUUCAAGAAUUUAACCCAAAAAAAACA
AAUUACUUUUCAAAAACUUAUCUUCUACCCUAUACAAGUAG
GAGUGGGCCAAAUUCUAAUAACAGAGAGAAAAGGUAAA
CAUCCAAUUCUCAAAAUCUCCAAUUUCCUAACAAAAUCAAC
ACACAGAUCCAUCAUUGAACAAAACAAAGAAGACGAAACGU
GAUUUUGAAGACUCGUAGAAAAUAGAGAUGAUCAGAAA
AGAAGAAGAAAGAAGAAGGAACAAGAAAAAAAAAAAAAAA
AGAGGAAGGGGGCGAGAGAAAGGAAUGAGCAAAAUAAUACG
CACUGUGAUUUUGGAAGCGUAGGGCUCUCUUUUCUUUUU
AGAUUAACAAAACAUUCUUCUUCUAUCAAGUAACAAUGUUA
UAUAGCAUAAGAGAGAAAAAUGGGCAUGAAUCGAAGAAGAG
CUAAUACAUAAUGUUGUAAAGAUGGCACAAGAAGAAAC
UAGGUCAAAUUACUCCUAAAUUUAAGCAGAGUGUUGCUGAG
UCAAAAAAAACACUAGCCUAAUUUUUACUAAAAAGAAAAAA
AAGAGAAAAAGGAGGCUUGAGUUUACUUAGCAAAUAAA
AUAAUAAGAAAAAAUAACAAGAUAAAAAAAGGAUAUUAUG
UUAUCGCAUGUAUUUCAAAAAAAAUAUAUUACAAAGGAUAU
UUACGUAAUUACAUGUGUUCUCCAACAUAUUUCCGACAA
UUUAUAUGUUAUUCAAUUUUAGAUUAUUAGUUGAAAAUAA
UCGUGACAAAAAAAAUUAGAGGAGAGAGGAAAAAUGAAAA
ACAACAUAUAGCACAAAAUAAUAGGACGUAGAAAAUUAAA
UUCUUCUUCUUCUUCACCAUCGAAAAGAGAUAAUGAACCAA
GAAGAAGAAAAAACAGAGAACAAAAGGAUCAACGAGAUCGA
UGAAGACGAAGAAGAAGAGUUGGAGAACAAGAAGAUGG
AAUCAUCAUCAGUCUGCAUAGAAGAAUCAAGAAGCUAAAGA
AUCUUAAAAACGAAAAUAAUAAUAAAAAUCAAGAAACAUAG
AUUCUUGAGGAAUGUGAAGUUACCAAGUCUGAUUGAUU
393
2007年生 物 物 理 学 报
( continued)
miRNANo. Chr. ΔG(kcal/mol) Tar1 Location2 Sequence
AthmiR030
AthmiR031
AthmiR032
AthmiR033
AthmiR034
AthmiR035
AthmiR036
AthmiR037
4
4
4
5
5
5
5
5
-25.40
-21.24
-18.49
-19.90
-21.20
-17.95
-20.05
-16.43
9
253
9
3
250
4
3
31
Inter
Intron
Intron
Inter
Inter
Inter
Inter
Intron
AUCAUUCAGAUGCAUCAUCCAAAUGGAUCAUGUAAAUGAAU
CAUUUGGAUGUAAAUGCUAAAUGAUGAAACAAACAGGACCU
AAAUAUAUAACACAAAAAUAAACAAAUAAUACUAUAAU
AGAGCAGCAGAAGAAGAAGAUGAAGACCCACGUUGGUGCUG
CUAAUCUCAGAUACAAACAAUGGGUUCUUAUAACCAGAGAA
UCUAAAAAAGAUUUGAAAAGAAGCAUCAAAAAUAAUAA
UUCACUCAAACGAAAAUAUCUAAUGGCUAAACCACUAGUCU
AGACACUUUAAAGAAUAAUUGAAAAUGAUUUAUGUAAAAA
AAAAGAAAAGUGAGACUGUGAGAAAGCCAUGCCCAUAUA
AGAAAAUCAAAACAUAACACAACAUUAGAUGGUUAGUCUCU
CCCCCAAACUUAUUUCACACCGUCUCGGUGUAAAGAUAAUU
CCGGAAAAAAGACUAACGAAAAACAAAGAGAAAAUGAA
AUUAAAUAUCAAAUGAUUAAACAAACACUAGAAACAUCAUU
CAAAUGCAUCAUUUAAAUGAAUCAUGUAAAUGAAUCAUGUA
AAUGAAAAUGCUAAAUGAUGAAACAAACAGGACCUAAC
AACAAACCACCAUCGUUGCAAAUUUCUUGAUGUUGAUCUGG
CAAAAACCGAAGAUGAUCAGCGAAACAUUAAAAAAAAAAAA
CAGAUCAAUCAAGAAAACCAUAAAUCUGUAAGAACAUG
AGCUCCAAGAUGUGUAAGAGUGCCUUAAAUGACUCAAAACA
UACGAAAAGAUUAGAAAGAGUCUAAAAACAACUCUGAAACU
AUGUUUGAAAUCAGUAAAAACUAGGACAUAUCAAAAAG
ACAAGUGCAGAAAGAUCCUUCAUAAUUUGAGCAAGAUCGUU
UACUGAUUCUACAACCUGGACAAUGACACAGACAACGAAGA
AGAAAAAAGAUUAUGAUUGAUUGCAAAAGAAAAAAAAA
1Tar:NumberofTargets;2Loc:LocationsofmiRNA(includeInter,intronandExon)
3 讨 论
miRNA在基因调控中扮演着重要的角色[22]。
Lewis等[23]研究认为,人类有1/3的基因由miRNA
调控。因此尽快找出所有的 miRNA并研究其功
能,对进一步理解基因表达调控具有重要意义。但
由于其片段较短,利用实验方法快速识别miRNA
具有很大困难[21]。因为在实验水平上,目前检测
miRNA主要是分离 18~28nt的小片段 RNA,然
后再通过克隆和测序的手段来获得。由于实验本身
的问题,使得研究者们克隆到的miRNA仅仅是表
达丰度较高的少数 miRNA,而大批的低丰度
miRNA却很难通过实验手段分离到。因此,利用
计算生物学方法来预测miRNA具有重要意义。通
过计算的方法来预测miRNA能在短时间内识别出
大量的miRNA,但同时也会产生大量的假阳性序
列,因此如何提高识别的准确率是在miRNA预测
中亟待解决的问题,也是生物信息学领域中普遍存
在的问题。
目前,对于拟南芥miRNA的预测一般仅从基
因间区入手,这将直接导致部分由基因区编码的
miRNA被遗漏。此外,目前在拟南芥的 miRNA
预测中,对于大量具有发夹结构的pre-miRNA-like
序列的筛选主要是根据miRNA的种间保守性,利
用比较基因组学方法来进行[8,24]。比较基因组学方
法虽然可以对miRNA进行有效的识别,但却很难
发现非同源的miRNA。为了克服上述缺陷,从拟
南芥基因组中找出新的miRNA,本研究首先从基
因组入手,在拟南芥全基因组范围预测 miRNA,
从而克服了目前方法对基因内编码miRNA的遗漏
的问题;然后本研究发展了一个 SVM 模型
GenomicSVM,它基于机器学习算法,对 miRNA
前体的筛选,无需比较基因组方法,也可以从大量
pre-miRNA-like序列中识别出真正的 pre-miRNA
394
第5期 拟南芥基因组中新的microRNA预测及分析
基因。检测表明该模型的敏感性为83.3%,特异性
为 98.1%。通过应用 GenomicSVM模型,最后从
453条可能的miRNA前体中预测出37条新型的拟
南芥候选miRNA。
发夹结构被认为是pre-miRNA的一个重要特
征,在miRNA前体识别中是必不可少的环节。然
而,在基因组中,往往存在着大量的具有类似结构
的序列,因此如何从这些具有类似发夹结构的片段
中找出少数真正的pre-miRNA是目前计算生物学
预 测 miRNA的 核 心 问 题 。 本 研 究 开 发 的
GenomicSVM模型具有98.1%的预测特异性,因此
应用该模型能够有效地从大量具有类似发夹结构的
序列中筛选出少数真正的pre-miRNA,然而,令人
遗憾的是该模型还存在 16.7%的假阳性识别。因
此,如何进一步优化该模型,以提高敏感性是今后
工作的重点。
参考文献:
[1] Lagos-QuintanaM,RauhutR,LendeckelW,TuschlT.Iden-
tificationofnovelgenescodingforsmalexpressedRNAs.
Science,2001,294(5543):853~858
[2] LauNC,Lim LP,WeinsteinEG,BartelDP.Anabundant
class oftiny RNAs with probable regulatory roles in
Caenorhabditiselegans.Science,2001,294(5543):858~862
[3] LeeRC. Ambrosanextensiveclassofsmal1 RNAsin
Caenorhabditiselegans.Science,2001,294(5543):862~864
[4] ReinhartBJ,WeinsteinEG,RhoadesMW,BartelB,Bartel
DP.MicroRNAsinplants.GenesDev,2002,16(13):1616~
1626
[5] LlaveC,KasschauKD,RectorMA,CaringtonJC.Endoge-
nousandsilencingassociatedsmalRNAsinplants.Plant
Cel,2002,14(7):1605~1619
[6] BartelDP.MicroRNAs:genomics,biogenesis,mechanism,and
function.Cel,2004,116(2):281~297
[7] SunkarR,ZhuJK.Novelandstressregulatedmicro-RNAs
andothersmalRNAsfrom Arabidopsis.PlantCel,2004,
16(8):2001~2019
[8] WangXJ,ReyesJL,ChuaNH.Predictionandidentification
ofArabidopsisthalianamicroRNAsandtheirmRNAtargets.
GenomeBiol,2004,5(9):R65
[9] Lim LP,LauNC,WeinsteinEG,Abdelhakim A,YektaS,
RhoadesMW,BurgeCB,BartelDP.ThemicroRNAsof
Caenorhabditiselegans.GenesDev,2003,17(8):991~1008
[10]Lim LP,GlasnerME,YektaS,BurgeCB,BartelDP.Verte-
bratemicroRNAgenes.Science,2003,299(5612):1540~1546
[11]GradY,AachJ,HayesGD,ReinhartBJ,ChurchGM,
RuvkunG,Kim J.Computationalandexperimentalidentifi-
cationofC.elegansmicroRNAs.MolCel,2003,11(5):
1253~1263
[12]LaiEC,TomancakP,WiliamsRW,RubinGM.Computa-
tionalidentificationofDrosophilamicroRNA genes.Genome
Biol,2003,4(7):R42
[13]WangXW,ZhangJ,LiF,GuG,HeT,ZhangXG,LiYD.
MicroRNA identification based on sequenceand structure
alignment.Bioinformatics,2005,21(18):3610~3614
[14]Nam JW,ShinKR,HanJJ,LeeY.HumanmicroRNA
prediction through a probabilistic co-learning modelof
sequenceandstructure.Nucleicacidsresearch,2005,33(11):
3570~3581
[15]Grifiths-JonesS.ThemicroRNAregistry.NucleicAcidsRes,
2004,32(Databaseissue):D109~D111
[16] LoongSK,MishraSK.DenovoSVM classificationof
precursormicroRNAsfrom genomicpseudohairpinsusing
globalandintrinsicfoldingmeasures.Bioinformatics,2007,
10.1093/bioinformatics/btm026
[17]XueCH,LiF,HeT,LiuGP,LiYD,ZhangXG.Classifica-
tionofrealandpseudomicroRNA precursorsusinglocal
structure-sequence features and supportvector machine.
BMCBioinformatics,2005,6:310
[18]HofackerIL,FontanaW,StadlerPF,BonhoeferS,Tacker
M, SchusterP. Fastfolding and comparison ofRNA
secondarystructures. MonatsheftefChemie, 1994,125(2):
167~188
[19]ChangCC,LinCJ.LIBSVM:alibraryforsupportvector
machines.2001
[20]AlenE,XieZ,GustafsonAM,SungGH,SpataforaJW,
CaringtonJC.EvolutionofmicroRNA genesbyinverted
duplicationoftargetgenesequencesinArabidopsisthaliana.
NatGenet,2004,36(12):1282~1290
[21]AlenE,XieZ,GustafsonAM,CaringtonJC.microRNA-
directed phasing during trans-acting siRNA biogenesisin
plants.Cel,2005,121(2):207~221
[22]BonnetE,WuytsJ,RouzeP,VandePeerY.Detectionof
91 potentialconserved plantmicroRNAs in Arabidopsis
thalianaandOryzasativaidentifiesimportanttargetgenes.
ProcNatlAcadSciUSA,2004(101):11511~11516
[23]LewisBP,BurgeCB,BartelDP.Conservedseedpairing,
often flanked byadenosines, indicatesthatthousandsof
humangenesaremicroRNAtargets.Cel,2005,120(1):15~20
[24]AlexA,CameronJ,SizolwenkosiM,SarahAE,VarunM,
VickiV,VenkatesanS.ComputationalpredictionofmiRNAs
inArabidopsisthaliana.GenomeResearch,2005,15(1):78~91
395
2007年生 物 物 理 学 报
ThisworkwassupportedbyagrantfromTheNationalNaturalSciencesFoundationofChina( 30470411,30500105)
Received:Feb2,2007
Correspondingauthor:LIWu-ju,Tel/Fax:+86(10)66931324,E-mail:liwj@nic.bmi.ac.cn;
GUOAi-guang,Tel/Fax:+86(29)87026171,E-mail:guoaiguang@yahoo.com.cn
PREDICTIONANDANALYSISOFNOVELmiRNAINArabidopsisthaliana
JINWei-bo1,2, KONGDong2, YINGXiao-min1, GUOAi-guang2, LIWu-ju1
(1.InstituteofBasicMedicalSciences,AcademyofMilitaryMedicalSciences,Beijing100850;2.ColegeofLifeScience,
NorthwestA&FUniversityYangling,Xian712100,China)
Abstract:MicroRNAs(miRNAs),ranginginsizefrom 20~25nt,areagrowingfamilyofnoncoding
RNAs.Theyplayanimportantroleintheregulationofgeneexpression.Thelow abundanceofsome
miRNAsandtheirtime-andtissue-specificexpressionpaternsmakethem dificulttobeidentified.To
identifythenovelmiRNA systematicalyinA.thaliana,theauthorsfirstlyfound453pre-miRNA
candidatesfrom thegenomeusingthecharacteristicsoftheknownA.thalianamiRNAsandcomparative
genomicsmethods.Then,inordertoreducethenumberofputativepre-miRNAcandidates,theauthors
developedaSVM (supportvectormachine)model,GenomicSVM,usingthehumanmiRNA datasetas
thetrainingdataset.Themodelhadthesensitivity86.3% andspecificity98.1% respectivelyonthe
humantestdataset,whichcontained30positivehumanpre-miRNAsand1000negativepre-miRNAs.For
the78positivepre-miRNAsinA.thaliana,themodelcouldpickup73pre-miRNAsandthereforethe
corectratewas93.6%. Finaly, theGenomicSVM wasused to discriminatewhethereach 453
pre-miRNA-likesequencewaspre-miRNAornot.Theresultsindicatedthattherewere37novelmiRNA
candidates. Therefore, thestudy in thisreportprovidesbioinformaticshelp fortheexperimental
identificationofmiRNAsinA.thaliana.
KeyWords:A.thaliana;Genome;microRNA;Prediction
396