免费文献传递   相关文献

Small RNA Analysis Using High-Throughput Sequencing and Virus Investigation in Bamboo (Phyllostachys edulis)

毛竹小RNA高通量测序及病毒分析



全 文 :林业科学研究 2014,27(3):335 340
ForestResearch
  文章编号:10011498(2014)03033506
毛竹小 RNA高通量测序及病毒分析
范春节1,2,王 晖1,3,卢孟柱1
(1.中国林业科学研究院林业研究所,林木遗传育种国家重点实验室,北京 100091;2.中国林业科学研究院热带林业研究所,
广东 广州 510520;3.NERC/CentreforEcologyandHydrology(CEH)Oxford,MansfieldRoad,OxfordOX13SR,UK)
收稿日期:20120708
基金项目:国家自然科学基金海外及港澳台基金“利用小RNA组研究竹子中的抗病毒免疫及其与竹子开花的关系”(201131028004)
作者简介:范春节(1983—),男,河南驻马店人,博士,主要研究方向为植物分子生物学.
 通讯作者:研究员,博士,主要研究方向:木材形成的分子基础与分子育种.
摘要:以毛竹叶片为材料,采用小RNA高通量测序结合生物信息学对小 RNA数据库进行组装,进一步分析了毛竹
中存在的病毒和类病毒,并采用RTPCR和 RACE进行验证。结果表明:在竹子样品中存在水稻东格鲁病毒(RT
BV),覆盖率达到91.0%。在毛竹样品中扩增得到1992bpRTBV病毒类似序列,占其基因组的24.9%。RTBV病
毒在多个毛竹样品中存在且不存在多态性。RTBV病毒可能是一个古老的植物病毒,在进化过程中禾本科植物将
其序列整合到基因组中来防御RTBV病毒的浸染。
关键词:毛竹;高通量测序;小RNA;RTBV病毒
中图分类号:S795.7 文献标识码:A
SmalRNAAnalysisUsingHighThroughputSequencingandVirus
InvestigationinBamboo(Phylostachysedulis)
FANChunjie1,2,WANGHui1,3,LUMengzhu1
(1.StateKeyLaboratoryofTreeGeneticsandBreeding,ResearchInstituteofForestry,ChineseAcademyofForestry,Beijing 100091,China;
2.ResearchInstituteofTropicalForestry,ChineseAcademyofForestry,Guangzhou 510520,Guangdong,China;
3.NERC/CentreforEcologyandHydrology(CEH),MansfieldRoad,OxfordOX13SR,UK)
Abstract:TheleavesofPhylostachyseduliswereharvestedforRNAextraction,asRNAlibrarywasconstructed
andsequencedbyusingtheSolexahighthroughputsequencingtechnology.Bioinformaticswasperformedtoidentify
thesRNAsandviruses.RTPCRandRACEtechniqueswereexploredtoidentifyandconfirmthevirusesorviroidin
bamboo.TheassemblyofsRNAinalsamplesrevealedthatasequencewhichcovered910% ofricetungrobacili
formvirus(RTBV)genomeexistedwidelyinbamboosamples.Meanwhile,1992bpDNAsequencewhichcovered
24.9% ofRTBVcompletedgenomewasamplifiedandnopolymorphismwasobservedinthissamples.Itconcluded
thatRTBVvirusmayexistinplantainancienttimeandwaslateintegratedintotheplantgenomesagainsttheRTBV
infection.
Keywords:Phylostachysedulis;highthroughputsequencing;smalRNA;RTBV
野生植物被认为是病毒的天然储存库,其爆发
可能会导致农业和种植业的减产。近年来已经从农
作物中发现了大量的植物病毒并且进行了基因组测
序,但目前大部分的植物病毒仍然是未知的[1]。植
物在受到病毒浸染时会形成干扰小 RNA(siRNA),
以RNA干扰(RNAi)方式对靶向病毒核酸多个位点
进行降解,来沉默病毒 RNA,使植物可以获得系统
性的病毒免疫[2]。在这个过程中植物中存在着大量
的起源于病毒的 siRNA,通过 Solexa深度测序和组
装可以得到病毒的序列信息,如果测序深度足够可
林 业 科 学 研 究 第27卷
以得到完整的病毒序列。利用这种方法检测到温室
中培育的甜土豆中感染2个已知病毒,证实了这种
方法的有效性[3];同时还检测到2个未知病毒,这也
说明植物中可能存在着大量未知病毒,也表明了这
种方法的高灵敏度。目前,高通量的小RNA测序技
术用于植物病毒和调控生物学过程的miRNA发现。
如果植物样品中有病毒感染,在获得的 siRNA序列
库中就会含有来源于病毒的序列,并且可以发现植
物病毒以及植物抗病毒基因沉默的特点特征,如基
因沉默的热点区域等,对抗病性的研究有指导意义。
目前,在竹子中发现存在着竹花叶病毒(bamboomo
saicvirus,BaMV),竹花叶病的病征主要为叶片呈现
黄绿相嵌的斑纹,尤其心叶更是明显。罹病竹株的
产笋量减少,品质亦受到很大影响[4]。除此之外,在
竹子中的相关病毒研究未见报道。本研究以桂林地
区野生毛竹为研究对象,从中提取低分子量 RNA,
应用Solexa高通量测序技术获得大量的小 RNA序
列,通过生物信息学组装小 RNA,预测和发现竹子
中存在的病毒或者植物抗病毒序列特征。通过进一
步分析竹子抗病毒基因沉默的热点区域,为进一步
的抗病性研究提供支持。
1 材料和方法
1.1 材料
野生型毛竹(Phylostachysedulis(Car.)H.de
Lehaie)材料取自广西壮族自治区桂林市,样品 mix1
和 mix3取自桂林市灌阳县洞井瑶族乡野猪殿村
(25°13′24.38″N,110°43′13.84″E),样品 mix2、
mix4和mix5取自灵川县松江村(25°12′23.33″N,
110°43′13.84″E),样品 mix6取自桂林市兴安县猫
儿山自然保护区(25°80′13.27″N,110°45′31.52″
E),选取2 3年生毛竹幼嫩叶片3 5片,每个样
品至少有3株以上,2010年5—6月采样。mix7为
毛竹种子实生苗温室材料,种子取自广西桂林市,
2010年9月收获当年种子,将种子种植在中国林业
科学研究院温室生长3个月,取叶片。所有样品的
材料至少取3株以上。
1.2 方法
将采取的毛竹叶片放在冻存管中,快速放入到
液氮中直接保存。按照 AmbionRNA提取试剂盒步
骤分离小分子量和大分子量RNA,采用Agilent2100
bioanalyzer检测提取小分子量 RNA的质量和浓度,
将检测合格的2μg小分子量RNA样品送到华大基
因进行建库测序分析。其中cDNA合成采用invitro
gen公司的superscriptII反转录试剂盒。
采用RNA组装软件SOAPdenovo(htp://soap.
genomics.org.cn/soapdenovo.html)进行序列的组装
分析。采用病毒库(htp://www.ncbi.nlm.nih.gov/
genomes/GenomesHome.cgi?taxid=10239)数据与
组装结果进行 blast比对分析。根据比对分析结果
以及测序组装序列所在的 RTBV或 ERTBV序列的
ORF区域设计引物。以混合样品为模板利用上述引
物,利用PrimeSTARTMHSDNAPolymerase(TaKaRa)
进行序列扩增。采用 clonetech的 SMARTerTMRACE
cDNAAmplificationKit和 Advantage 2PCRKit,得
到的片段采用NucleoTrap GelExtractionKit试剂盒
进行扩增片段的回收。根据扩增序列设计引物,以
mix1 mix7多个样地的单株毛竹叶片的 cDNA为
模板分别PCR扩增。
2 结果与分析
2.1 小RNA群体的基本分析
2.1.1 小RNA在各类中的分类 将得到的原始数
据进行去接头序列以及去除低质量读序和污染序列
等,最终得到确定读序。表1所示:7个样品小 RNA
库都得到超过20000000的小 RNA片段,其中,最
多的是样品 mix6得到32665676个小 RNA片段,
最少的为样品mix7,为20347893个。通过与 Gen
bank和Rfam比对,进行小 RNA分类。在所有的样
品中rRNA占的比例较小,其中,最高的为 mix4,为
11.28%,说明样品RNA不存在降解,构建的小RNA
文库是合格的。在所测样品中大部分是未知序列,
几乎所有的样品中都超过了60.0%,原因可能是缺
少毛竹的全基因组序列。另外,样品中 miRNA所占
比例较高,除 mix4外,都超过10.0%,其中,mix5样
品中的miRNA所占比例为20.91%。除此之外还存
在着其他类型的小 RNA种类,如重复序列、snRNA
和snoRNA等,但所占比例较少,都低于0.5%。
2.1.2 小 RNA的长度分布 在7个小 RNA文库
中里面,18 35nt的小 RNA具体分布比例见图
1。在所有样品中24nt长度的小RNA所占比例最
高,在 mix7样品中24nt长度的小 RNA占到所有
小RNA的63.91%,其次为21nt长度的小RNA,所
占比例为 14% 24%。大多数小 RNA分布在
20 25nt区间,占所有小 RNA的90%左右;而在
mix7样品中 20 25nt所占比例最高,达到
633
第3期 范春节等:毛竹小RNA高通量测序及病毒分析
9782%。在样品 mix6中表现与其他样品有些差
异,除了在21 24nt一个主分布区域外,在30
35nt片段长度序列分布较多,占36.48%,这与其
它样品明显不同。
表1 所有毛竹样品小RNA种类的分布
分类
小RNA种类
mix1 mix2 mix3 mix4 mix5 mix6 mix7
总数 25375720 22566966 23703485 21845528 26592728 32665676 20347893
反义外显子
12248
(0.05%)
6786
(0.03%)
10870
(0.05%)
8172
(0.04%)
9452
(0.04%)
7945
(0.02%)
10131
(0.05%)
正义外显子
55709
(0.22%)
28847
(0.13%)
52677
(0.22%)
46212
(0.21%)
127727
(0.48%)
311956
(0.95%)
23261
(0.11%)
反义内含子
5000
(0.02%)
3307
(0.01%)
3694
(0.02%)
4965
(0.02%)
9099
(0.03%)
9939
(0.03%)
3906
(0.02%)
正义内含子
59715
(0.24%)
10895
(0.05%)
16851
(0.07%)
14325
(0.07%)
27997
(0.11%)
43640
(0.13%)
9579
(0.05%)
miRNA
3675779
(14.49%)
2875419
(12.74%)
3530421
(14.89%)
2097793
(9.6%)
5559467
(20.91%)
3899043
(11.94%)
3257552
(16.01%)
核糖体RNA
2652606
(10.45%)
1350538
(5.98%)
2077666
(8.77%)
2464488
(11.28%)
2184150
(8.21%)
3580611
(10.96%)
508850
(2.5%)
重复序列
31749
(0.13%)
32496
(0.14%)
36307
(0.15%)
48983
(0.22%)
51227
(0.19%)
31625
(0.10%)
38000
(0.19%)
核小RNA
11419
(0.04%)
6540
(0.03%)
9982
(0.04%)
69042
(0.32%)
67673
(0.25%)
131065
(0.4%)
5667
(0.03%)
核仁小RNA
9713
(0.04%)
4968
(0.02%)
6660
(0.03%)
77192
(0.35%)
70506
(0.27%)
97728
(0.3%)
3232
(0.02%)
转运RNA
970566
(3.82%)
406663
(1.8%)
612051
(2.58%)
1474898
(6.75%)
1937550
(7.29%)
13107865
(40.13%)
177389
(0.87%)
未知
17891216
(70.51%)
17840507
(79.06%)
17346306
(73.18%)
15539458
(71.13%)
16547880
(62.23%)
11444259
(35.03%)
16310326
(80.16%)
  注:括号内数据为占总数的百分比。
图1 不同的库中sRNA长度的分布
2.2 小RNA组装结果与分析
采用 SOAPdenovo软件以 17mer进行小 RNA
序列组装,将组装后的序列与病毒库序列进行比对,
在不考虑比对长度的条件下,能够比对上的病毒种
类共有294种(图2a)。有246种病毒对应的比对
序列数量小于4个,其中,大多数只有一条比对序
列,另外能够比对上5 10条序列的病毒有33个。
由于比对序列数量较少,推测毛竹的小 RNA中存在
着少量与病毒类似的序列。超过10条以上的有15
种病毒(图 2b),值得关注的是水稻东格鲁病毒
(Ricetungrobaciliformvirus,RTBV)和柑橘裂皮病
类病毒(Citrusexocortisviroid,CEVd),他们的序列
比对条数分别达到了59、48条(图2b)。
733
林 业 科 学 研 究 第27卷
图2 毛竹数据库中存在的病毒分析
2.3 RTBV病毒的组装与分析
根据在 NCBI(htp://www.ncbi.nlm.nih.gov/
genome/?term=RTBV)搜索到的信息,RTBV病毒
基因组长度为8002bp,GC含量为33.7%,由4个
开放可读框组成,分别定位在基因组69 668bp、
665 997bp、994 6021bp和6042 7211bp。
第1个开放可读框编码1个24kD的蛋白,但没有
起始密码子 ATG。另外,在 7373 7379有一个
TATA盒子,在7610 7616处有 polyA尾巴。设
定如下参数:比对长度大于 15nt,3个错配碱基以
内,e=0.01,进一步与小 RNA数据库 blast比对计
算样品和 RTBV的覆盖度(表 2)。所有的样品中
RTBV覆盖度均大于 80.0%,覆盖长度最多的是
mix7,覆盖度达到902%。将7个小RNA数据库混
合在一起比对 RTBV病毒时,其覆盖率达到100%,
初步说明在毛竹样品中存在着 RTBV病毒。在
mer17的条件下进行组装后,除了 mix6覆盖度为
35.3%外,其他样品的覆盖度都大于40.0%,混合
总样品分析RTBV病毒覆盖度达到88.2%,说明样
品中存在着 RTBV病毒。在样品 mix5中组装出最
长的序列,长度为 353nt,占 RTBV病毒总长的
44%;混合样品组装出来的 RTBV序列最长为453
nt,占总长的5.7%。
表2 水稻东格鲁病毒(RTBV)在样品中的覆盖度分析
样品名 覆盖长度/nt 覆盖度/% 组装后覆盖长度/nt 组装后覆盖度/% 组装最长长度/nt 覆盖度/%
mix1 7057 88.2 3671 45.9 236 2.9
mix2 7040 88.0 3539 44.2 288 3.6
mix3 7160 89.5 3822 47.8 227 2.8
mix4 7117 89.0 3788 47.3 228 2.8
mix5 7038 88.0 3568 44.6 353 4.4
mix6 6710 83.9 2824 35.3 154 1.9
mix7 7218 90.2 3561 44.5 191 2.4
混合 8002 100.0 7060 88.2 453 5.7
进一步将所有样品组装出来的序列进行拼接,
结果如图3所示:覆盖率达到79.0%,存在几个较小
的缺口,在第4个 ORF中序列覆盖度较高,几乎不
存在缺口。在第1个ORF区存在着大于40倍的重
叠率,而在其他 ORF区重叠率相对较低,可能由于
样品是幼嫩的叶片。
2.4 RTBV病毒的验证和分析
2.4.1 PCR和 RACE扩增病毒序列 将提取的各
样品的总 RNA分别进行反转录得到的 cDNA,等量
混合后作为模板引物 ERA1(FP:GATGCTTA
833
第3期 范春节等:毛竹小RNA高通量测序及病毒分析
图3 毛竹小RNA库中的水稻东格鲁病毒(RTBV)病毒覆盖分析(空白处表示序列缺失)
CAATATTCCAAATA, RP: TTTTCCTTTTATGTGT
TCAAAT)和ERA2(FP:TGACAATACCATAGATGAT
GCTT,RP:ACTTTATGACCATTTCCTGTAA)进 行
RTPCR扩增,扩增产物长度分别为1034、1009bp
的序列。比对结果为水稻东格鲁病毒类似序列 A
(ERTBVA),定位在第 2个 ORF区域的 5620
6654bp,同源性达到81%,氨基酸序列同源性达到
91%。为了得到更长的 RTBV病毒序列,采用通过
5’RACE和 3’RACE扩增出长度为 1992bp的
ERTBVA病毒类似序列。将扩增结果与测序组装
结果进一步组装,最终达到覆盖率为91%的 RTBV,
初步证明了在毛竹序列中存在的RTBV病毒。
2.4.2 RTBV病毒的分布及多样性分析 以 ERA1
为引物对 mix1 mix6不同样地的32个样品进行
RTPCR扩增,结果表明:其中有 18个样品存在着
RTBV病毒序列,且这 18个样品均匀的分布于
mix1 mix6样地。在温室取样的材料中也能够扩
增出目的片段,说明在毛竹中广泛存在着 RTBV病
毒,这是一个内在的古老的植物病毒,可能在进化过
程中整合到毛竹基因组序列中,而且其序列可以表
达。为了确认病毒序列是否存在多态性,对 PCR产
物测序并进行分析,结果表明:在毛竹样品中 RTBV
病毒只存在着一种序列,不存在多态性。
3 结论与讨论
通过高通量测序和生物信息学组装分析,发现
在野外的竹子样品中存在着 RTBV病毒序列和
CEVd类病毒序列,一次组装的结果中RTBV病毒的
覆盖率达到79.0%。通过进一步 PCR和 RACE扩
增,最终得到1992bpRTBV病毒类似序列,将实验
扩增结果与小RNA拼接组装最终得到覆盖910%
RTBV病毒的序列。初步认为竹子中存在着 RTBV
病毒类似序列,且不同样品的病毒序列没有多态性。
通过小RNA高通量测序的方法从甜土豆中发
现植物病毒后,通过高通量测序在模式生物线虫以
及果蝇中也发现已知的病毒和新的病毒[3,5]。除此
之外,通过这种方式在家蚊的研究中也发现了病毒
的存在,在竹子感染了 BaTV病毒后的小 RNA测序
的结果也验证了这种方法的可行性[6-7]。在本研究
中同样发现高达90%以上的 RTBV病毒覆盖序列,
RTBV病毒是环状双链 DNA中的花椰菜病毒科
(Caulimoviridae)水稻衰退(东格鲁)杆状样病毒属
(TungrovirusRicetungrobaciliformlikeviruses)的
代表种,存在着4个开放可读框(ORF),分别编码
24、12、194、46kD的蛋白[8],主要在水稻中存在,感
染后叶片变黄或变橙色,植株矮化,导致水稻减产,
是东南亚水稻限产的主要原因。在水稻中存在着
RTBV病毒类似的序列,这些序列都是以分散的形
式整合在水稻基因组中,通过组装发现在水稻中存
在ERTBVA、ERTBVB和ERTBVC3类类似序列,
长度分别为7526、7496、7499bp,这些序列除了缺
933
林 业 科 学 研 究 第27卷
乏RTBV病毒的 ORF2区域外,具备其他所有的编
码区,而且类似序列 ORFz区域(RTBV中是 ORF3)
中具有完整的编码MP、CP、PR、RNaseH(RT/RH)
区域[9]。在水稻中发现 ERTBV的拷贝数在不同种
之间差异较大,在不易感染 RTBV亚洲种源的品种
中拷贝数较高,而在非洲和拉丁美洲中拷贝数较低,
值得注意的是非洲种源的光稃稻(Oryzaglaberima)
和短舌野生稻(O.barthi)是水稻东格鲁病毒的易感
品种,因此,可能是在水稻长期的进化过程中通过整
合病毒进一步通过形成内源的siRNA起到防御病毒
的作用。
越来越多的证据也表明,植物中内源的 siRNA
而不是病毒的siRNA在植物防御病毒中起着更加重
要的作用[10-12],也说明植物中存在病毒类似序列对
于植株防御病毒的重要性。在毛竹中也有可能是这
些序列嵌合在基因组中,在 RTBV病毒浸染的时候
起作为内源的siRNA的起源来抵御RTBV病毒对毛
竹的侵染。如果这种假设属实,RTBV病毒可能是
一个古老的植物病毒,在进化过程中禾本科植物将
其序列整合到基因组中来防御 RTBV病毒的浸染。
在本研究中发现毛竹中存在的 RTBV病毒类似序
列,其覆盖深度较低,可能是由于采取的样品是幼嫩
的叶片本身带有的病毒较少的原因,也可能与 RT
BV病毒主要在韧皮部特异作用有关[13]。
参考文献:
[1]WrenJD,RoossinckMJ,NelsonRS,etal.PlantVirusBiodiver
sityandEcology[J].PLoSBiology,2006,4:e80
[2]DingSW.DirectandIndirectRolesofviralsuppressorsofRNAsi
lencinginPathogenesis[J].AnnuRevPhytopathol,2008,44:26
[3]KreuzeJF,PerezA,UntiverosM,etal.Completeviralgenomese
quenceanddiscoveryofnovelvirusesbydeepsequencingofsmal
RNAs:Agenericmethodfordiagnosis,discoveryandsequencingof
viruses[J].Virology,2009,388:1-7
[4]LinNS,ChaiYJ,HuangTY,etal.Incidenceofbamboomosaic
potexvirusinTaiwan[J].Plantdisease,1993,77:3
[5]WuQ,LuoY,LuR,etal.Virusdiscoverybydeepsequencingand
assemblyofvirusderivedsmalsilencingRNAs[J].Proceedingsof
theNationalAcademyofSciences,2010,107:1606-1611
[6]LinKY,ChangCP,WangCH,etal.GlobalAnalysesofSmal
InterferingRNAsDerivedfromBamboomosaicvirusandItsAssoci
atedSateliteRNAsinDiferentPlants[J].PLoSONE,2010,
5:e11928
[7]MaMH,GongZ,ZhuangL,etal.DiscoveryofDNAVirusesin
WildCaughtMosquitoesUsingSmalRNAHighthroughputSequen
cing[J].PLoSONE,2011,6:e24758
[8]HayJM,JonesMC,BlakebroughML,etal.Ananalysisofthe
sequenceofaninfectiouscloneofricetungrobaciliformvirus,a
plantpararetrovirus[J].NucleicAcidsResearch,1991,19:2615
-2621
[9]KuniMK,MasanoriN,HironoriU,etal.Reconstructionofputa
tiveDNAvirusfromendogenousricetungrobaciliformvirus-like
sequencesinthericegenome:implicationsforintegrationandevolu
tion[J].BMCGenomics,2004,5:80
[10]DingSW,LuR.VirusderivedsiRNAsandpiRNAsinimmunity
andpathogenesis[J].CurentOpinioninVirology,2011,1:533-
544
[11]BlevinsT,RajeswaranR,AreggerM,etal.Massiveproductionof
smalRNAsfromanoncodingregionofCauliflowermosaicvirusin
plantdefenseandviralcounterdefense[J].NucleicAcidsRe
search,2011,39:5003-5014
[12]RuizFererV,VoinnetO.RolesofPlantSmalRNAsinBiotic
StressResponses[J].AnnualReviewofPlantBiology,2009,60:
485-510
[13]YinY,BeachyRN.Theregulatoryregionsofthericetungrobacil
liformviruspromoterandinteractingnuclearfactorsinrice(Oryza
sativaL.)[J].ThePlantJournal,1995,7:969-980
043