全 文 :向日葵保守性 microRNA的预测与分析
周向红 易乐飞 王 萍
(淮海工学院海洋学院,222005,江苏连云港)
摘 要 microRNA 是一类非编码的小分子
RNA,通过与靶 mRNA的互补来抑制靶 mRNA 的翻
译或者降解靶 mRNA,从而在转录后水平对基因表
达发挥调控作用。为了快速挖掘向日葵 microRNA
及其靶基因的相关信息,根据 microRNA 序列及其
前体结构的保守性,在向日葵核酸数据库中预测并
分析了向日葵 microRNA 及其靶基因。经过筛选最
终获得了 7 个向日葵 microRNA,其成熟 microRNA
的长度为 18 ~ 21nt,前体长度为 72 ~ 148nt,最小折
叠自由能系数为 0. 90 ~ 1. 19。获得了向日葵 mi-
croRNA的靶基因 16 条,这些靶基因参与了转录调
控、营养阶段转换调控、种子萌发调控、花发育调控、
信号传递以及环境刺激的响应等过程。
关键词 向日葵;microRNA;生物信息学
microRNA是一类内源性的、非编码的、长约 21
个碱基的小分子 RNA[1]。最早于 1993 年在线虫
(Caenorhabditis elegans)中发现[2],随后发现其广泛
分布于各类动植物中。最近 10 年的研究发现 mi-
croRNA是细胞内一类重要的调控分子,其通过与靶
mRNA的互补来抑制靶 mRNA 的翻译或者降解靶
mRNA,从而在转录后水平对基因表达发挥负调控
作用[1]。microRNA参与了植物的一系列重要生命
活动进程,例如花器官发育与开花、激素信号转导、
叶片发育和组织器官的形态构建等;microRNA也参
与了植物的逆境响应过程,例如参与养分胁迫、干旱
胁迫、高盐胁迫和重金属胁迫等抗逆反应[3]。
microRNA的获得主要有 3 种方法,即直接克
隆、正向遗传学和生物信息学[1]。前两种方法直
接、可靠、高效,是早期研究 microRNA 的主要方法;
但是部分 microRNA 表达水平低,或者存在时间和
组织表达特异性,这些因素制约了前两种方法的使
作者简介:周向红,实验师,主要从事生物化学与分子生物学教学与
研究
王萍为通讯作者,教授,主要从事植物基因工程研究
基金项目:教育部大豆重点实验室开放课题(SB08A03)
收稿日期:2012 - 05 - 13;修回日期:2012 - 06 - 03
用[1,4]。不同植物的 microRNA 存在着序列和结构
保守性,这种保守特性使得利用生物信息学方法预
测和研究 microRNA 成为可能[1,4]。随着基因组测
序计划的不断开展,各类核酸序列大量涌现,利用生
物信息学方法已经成功预测了大豆 (Glycine
max)[5]、大麦(Triticum aestivum)[6]、番茄(Lycopersi-
con esculentum)[7]和棉花(Gossypium hirsutum)[8]等
多种生物的 microRNA,并且预测结果也得到了实验
验证。
向日葵(Helianthus annuus)不仅是主要的油料
作物,而且是耐盐碱和耐干旱的重要作物,因此向日
葵成为了重要的耐盐碱模式作物。目前鲜有向日葵
microRNA的相关报道,因此迫切需要对其进行数据
挖掘。利用多种生物信息学软件以及 GenBank 中
向日葵的 EST(expressed sequence tag)和 GSS(ge-
nome survey sequence)序列,预测并分析了向日葵
microRNA及其靶基因,为进一步研究向日葵的发
育、抗逆和基因表达调控奠定基础。
1 材料与方法
1. 1 序列来源与预处理
从 miRBase 数据库[9] (http:/ /www. mirbase.
org /)中下载拟南芥(Arabidopsis thaliana)、琴叶拟南
芥(Arabidopsis lyrata)、玉米(Zea mays)、蒺藜苜蓿
(Medicago truncatula)、水稻(Oryza sativa)、高粱
(Sorghum bicolor)和大豆的 microRNA 序列。为了
避免 microRNA 的重复搜索以及预测结果的冗余
性,首先删除上述不同植物中的重复序列(即碱基
序列相同的 microRNA) ,接着用剩余的 microRNA
序列作搜索序列来预测向日葵 microRNA。
从 GenBank 核酸数据库(http:/ /www. ncbi.
nlm. nih. gov)中下载得到向日葵约 1. 5 万条 EST 序
列和约 6 000 条 GSS序列(截至 2011 年 8 月) ,这些
序列将用于向日葵 microRNA的预测。
1. 2 microRNA及其靶基因预测与分析
microRNA 的预测流程参照 Yin 等[7]和 Qiu
83
作物杂志 Crops2012. 6
DOI:10.16035/j.issn.1001-7283.2012.06.016
等[8]的方法,稍作改动。首先对已知 microRNA 进
行冗余性筛选,并以选出序列对向日葵 EST 和 GSS
序列进行 Blastn 搜索[10],对搜索到的候选 microR-
NA序列进行相互比对,去冗余序列;将候选序列对
GenBank非冗余蛋白数据库进行 Blastx 搜索[10],去
除潜在的编码序列;接着利用 RNAfold[11]对候选序
列进行二级结构预测,最后获得向日葵 microRNA
序列。上述所有软件运算和筛选过程都在 Linux 系
统下完成,并用 BioPerl编写脚本程序实现上述过程
的自动化。采用 psRNATarget[12]对向日葵 microR-
NA的靶基因进行预测,进而采用 Blast2GO[13]对预
测出的靶序列进行 GO(Gene Ontology)[14]注解。
2 结果与讨论
2. 1 向日葵 microRNA的预测
来自 miRBase数据库的 7 种植物的 1820 条 mi-
croRNA序列经过冗余性筛选,获得了 1269 条非重
复的 microRNA 序列。接着以这些已知 microRNA
为种子序列对向日葵 EST 和 GSS 序列进行 Blastn
搜索;为了尽可能多地发现 microRNA 序列,将
Blastn参数中期望值(E-value)设置为 10,最小窗口
值(minimal word size)设为 7[15];接着对 Blastn 结果
进行筛选,将所有与已知 microRNA 序列之间只存
在小于 4 个碱基错配的序列全部选出[16],获得了向
日葵候选 microRNA 序列共计 664 条。考虑到 EST
序列的冗余性,继续对这 664 条序列进行相互间比
对,去除重复序列后获得了 438 条非重复候选 mi-
croRNA序列。以这 438 条序列为种子序列对 Gen-
Bank非冗余蛋白数据库再进行一次 Blastx 搜索,去
除潜在的编码蛋白质的 RNA 序列。接着利用
RNAfold程序对候选序列中目标 microRNA 位点上
下游各 200bp范围内的序列(若上下游不足 200bp,
取到末端即可)进行二级结构折叠分析。参考宋长
年等[17]、张志明等[16]、Yin等[7]和 Qiu 等[8]的方法,
设定以下 microRNA 筛选标准:microRNA 前体必须
折叠成发夹结构,成熟 microRNA 序列位于发夹结
构的一条臂上,microRNA* (即在 miRNA 加工成熟
过程中与其互补的 RNA序列)位于另一条臂上,且
图 1 向日葵 microRNA成熟序列、前体序列和预测的茎环结构
93
作物杂志 Crops 2012. 6
microRNA和另一臂上的互补链之间错配碱基数不
超过 6 个且不能存在环或者缺口,microRNA 中 A +
U含量必须在 30% ~70%之间,microRNA前体的发
夹结构最小折叠自由能(negative minimal free ener-
gy,MFE)的绝对值要高于 25kcal /mol以及最小折叠
自由能系数(minimal free energy index,MFEI)要高
于 0. 8。最后,采用此标准在向日葵中获得了 7 个
microRNA(图 1)。
继而对向日葵 microRNA 和其前体序列的长
度、A + U含量等序列特征进行了统计分析(表 1)。
预测到的 microRNA仅占向日葵所有 EST和 GSS 序
列的 0. 03%,这与其他植物中预测到的概率相
近[5]。向日葵 7 条成熟 microRNA 的长度为 18 ~
21nt,均分布在茎环结构的臂上,其中 4 个 microR-
NA位于前体的 5端,3 个位于 3端的。向日葵 mi-
croRNA 前体的长度为 72 ~ 148nt,平均长度为
114. 9nt。前体 A + U 含量在 45. 98% ~ 62. 07%之
间,除了 han-miR160-5p 和 han-miR160-3p 的 A + U
含量低于 50%以外,其他所有的都大于 50%;这种
高 A + U含量有助于 microRNA前体的稳定[18]。与
动物的 microRNA前体相比,向日葵 microRNA 前体
的长度变化范围较大,进一步验证了植物 microRNA
前体具有较大的长度变化范围[5]。虽然 microRNA
前体与其他 RNA 都能形成典型的发夹结构,但是
microRNA的 MFEI显著高于 tRNA、rRNA和 mRNA,
因此 MFEI是 microRNA区别于其他 RNA分子的重
要依据[18]。向日葵 microRNA前体具有绝对值较高
的 MFE和 较 高 的 MFEI,其 中 MFEI介于 0. 90 ~
表 1 向日葵 microRNA及其序列特征
microRNA Accession microRNA成熟序列(5→3) LM(nt) LP(nt) Location A + U(%) MFE(kcal /mol) MEFI
han-miR156a DY914465 TGACAGAAGAGAGTGAGCAC 20 128 5 55. 47 - 51. 40 0. 90
han-miR156b GE509962 TGACAGAAGAGAGTGAGCAC 20 148 5 60. 81 - 55. 00 0. 95
han-miR157 BQ916415 TTGACAGAAGATAGAGAGCAC 21 137 5 61. 31 - 62. 90 1. 19
han-miR160-5p GE518759 TGCCTGGCTCCCTGTATGCC 20 87 5 45. 98 - 45. 80 0. 97
han-miR160-3p GE518759 GCGTATGAGGAGCCAAGCATA 21 87 3 45. 98 - 45. 80 0. 97
han-miR398 CD849864 GTGTTCTCAGGTCGCCCC 18 72 3 55. 56 - 33. 90 1. 06
han-miR403 DY916842 TTAGATTCACGCACAAACTCG 21 145 3 62. 07 - 49. 90 0. 91
注:LM指成熟 microRNA的长度;LP指前体序列的长度;Location指成熟 microRNA在前体中的定位
1. 19,显著高于 mRNA、rRNA和 tRNA的 MFEI[18]。
2. 2 靶基因分析
植物 microRNA 与靶基因互补性非常高,因此
容易实现软件自动预测;本研究利用 psRNATarget
软件(采用默认参数)在向日葵 DFCI Gene Index
(HAGI)Release 6 数据库中预测了潜在的靶基因。
预测到靶基因的向日葵 microRNA 有 5 个,未能预
测到靶基因的有 2 个 (即 han-miR398 和 han-
miR160-3p)。预测到的靶基因有 30 条,其中 han-
miR156 和 han-miR157 的靶基因最多,各为 8 条,
han-miR160-5p的靶基因最少,仅 1 条,但是去除重
复序列后靶基因仅剩余 16 条。向日葵 microRNA
以降解方式控制 13 条靶基因,以翻译抑制方式控制
3 条靶基因。预测到的靶基因数目明显偏少,这可
能与向日葵有限的 mRNA 序列有关。继续将靶基
因进行 Blastx搜索,接着用 Blast2GO进行 GO注解。
结果显示靶基因参与的生物学过程主要是各类调控
过程,例如 DNA 依赖性转录调控、营养阶段转换调
控、种子萌发调控、花发育调控、信号传递以及对多
种内外刺激的响应(图 2A)。靶基因执行的分子功
能主要是 DNA结合、转录因子激活、蛋白激酶激活、
蛋白磷酸酶激活、ATP结合和锌离子结合等(图
图 2 靶基因的 GO注解
04
作物杂志 Crops2012. 6
2B)。这些预测结果与其他学者[19 - 20]的预测结果
类似,即 microRNA 广泛参与了植物体内各类发育
与调控过程[1]。
microRNA是生物学研究领域中的一个热点,为
研究各类生物学机理提供了新方法、新技术。目前
向日葵基因组信息尚不完善,预测到的 microRNA
及其靶基因数量偏少,但是相信随着向日葵基因组
信息的日益增加和完善,将会发现更多的向日葵
microRNA及其靶基因,进而有助于阐明向日葵的生
长、发育、调控、抗逆等生物学机理。除了进一步发
掘向日葵 microRNA 以外,其对靶基因的调控网络
和作用效果等也都有待于进一步研究。
参考文献
[1]Jones-Rhoades M W,Bartel D P,Bartel B. MicroRNAs and their reg-
ulatory roles in plants. Annual Review of Plant Biology,2006,57
(1) :19 - 53.
[2]Lee R C,Feinbaum R L,Ambros V. The C. elegans heterochronic
gene lin-4 encodes small RNAs with antisense complementarity to lin-
14. Cell,1993,75(5) :843 - 854.
[3]许振华,谢传晓. 植物 microRNA 与逆境响应研究进展. 遗传,
2010(10) :1018 - 1030.
[4]侯妍妍,应晓敏,李伍举. microRNA 计算发现方法的研究进展.
遗传,2008(06) :687 - 696.
[5]Zhang B,Pan X,Stellwag E J. Identification of soybean microRNAs
and their targets. Planta,2008,229(1) :161 - 182.
[6]Jin W,Li N,Zhang B,et al. Identification and verification of microR-
NA in wheat (Triticum aestivum). Journal of Plant Research,2008,
121(3) :351 - 355.
[7]Yin Z,Li C,Han X,et al. Identification of conserved microRNAs and
their target genes in tomato (Lycopersicon esculentum). Gene,2008,
414(1 - 2) :60 - 66.
[8]Qiu C X,Xie F L,Zhu Y Y,et al. Computational identification of mi-
croRNAs and their targets in Gossypium hirsutum expressed sequence
tags. Gene,2007,395(1 - 2) :49 - 61.
[9]Kozomara A,Griffiths-Jones S. miRBase:integrating microRNA anno-
tation and deep-sequencing data. Nucleic Acids Research,2011,39
(suppl 1) :D152 - D157.
[10]Altschul S F,Madden T L,Schaffer A A,et al. Gapped BLAST and
PSI-BLAST:a new generation of protein database search programs.
Nucleic Acids Research,1997,25(17) :3389 - 3402.
[11]Hofacker I,Fontana W,Stadler P F,et al. Fast Folding and Compari-
son of RNA Secondary Structures. Monatsh Chem,1994,125:167 -
188.
[12]Dai X,Zhao P X. psRNATarget:a plant small RNA target analysis
server. Nucleic Acids Research,2011,39(suppl 2) :W155 - W159.
[13]Conesa A,Gtz S,García-Gómez J M,et al. Blast2GO:a universal
tool for annotation,visualization and analysis in functional genomics
research. Bioinformatics,2005,21(18) :3674 - 3676.
[14]Ashburner M,Ball C A,Blake J A,et al. Gene ontology:tool for the
unification of biology. Nature Genetics,2000,25(1) :25 - 29.
[15]Dezulian T,Remmert M,Palatnik J F,et al. Identification of plant
microRNA homologs. Bioinformatics,2006,22(3) :359 - 360.
[16]张志明,宋锐,彭华,等.用生物信息学挖掘玉米中的 microRNAs
及其靶基因.作物学报,2010,36(8) :1324 - 1335.
[17]宋长年,贾启东,王晨,等. 32 种果树 microRNA的生物信息学预
测与分析.园艺学报,2010,37(6) :869 - 879.
[18]Zhang B,Pan X,Cox S,et al. Evidence that miRNAs are different
from other RNAs. Cellular and Molecular Life Sciences,2006,63
(2) :246 - 254.
[19]张磊,晁江涛,崔萌萌,等. 茄子 microRNAs 与其靶基因的生物
信息学预测.遗传,2011,33(7) :116 - 124.
[20]潘玉欣,刘恒蔚. 花生 miRNA 与其靶基因的生物信息学预测.
中国油料作物学报,2010,32(2) :290 - 294.
Computational Identification of Conserved
MicroRNAs and Their Target Genes in
Sunflower (Helianthus Annuus)
Zhou Xianghong,Yi Lefei,Wang Ping
(School of Marine Science & Technology,Huaihai Institute of Technology,Lianyungang 222005,Jiangsu,China)
Abstract MicroRNAs are a class of conserved non-protein-coding small RNAs. MicroRNAs can regulate gene ex-
pression at the post-transcriptional level by degrading target mRNAs or repressing mRNA translation. In order to
mine the information about microRNAs and their target genes in sunflower (Helianthus annuus) ,we identified the
conserved sunflower microRNAs and their target genes using a computational homology search approach. Based on
the conserved sequences of microRNAs and the conserved stem-loop structure of microRNA precursors,7 conserved
microRNAs were detected from the sunflower nucleic acids database. The mature microRNAs were 18 - 21nt in
length,and the microRNA precursors were 72 - 148nt in length. The minimal free energy indexes of the microRNA
precursors were 0. 90 - 1. 19. A total of 16 potential target genes for the microRNAs were predicted. Most of the tar-
get genes were involved in sunflower regulation of transcription,regulation of vegetative phase change,regulation of
seed germination,regulation of flower development,signal transduction and stress response.
Key words Sunflower (Helianthus annuus) ;MicroRNA;Bioinformatics
14
作物杂志 Crops 2012. 6