全 文 :林业科学研究 2016,29(4):500 507
ForestResearch
文章编号:10011498(2016)04050008
蕨类植物芒萁幼孢子体转录组高通量测序
及特征分析
刘丽婷1,2,温 强2,黄小春2,刘琪瞡1
(1.北京林业大学 北京 100083;2.江西省林业科学院省植物生物技术重点实验室 江西 南昌 330013)
收稿日期:20151125
基金项目:国家林业局948项目(213462);江西省重大财政专项青年人才培养计划(芒萁根系微生物环境与成片发育研究)。
作者简介:刘丽婷,博士研究生。主要从事森林生态与植物资源利用研究。Email:39191393@qq.com
通讯作者:刘琪瞡
摘要:[目的]采用高通量测序技术IluminaMiSeq250获得蕨类植物芒萁的孢子体转录组数据,以期为芒萁的生长、
发育、代谢调控、微进化机制分析等提供重要的分子信息。[方法]应用生物信息学方法对测序获得的大量单基因
簇(Unigene)进行基因功能注释、代谢途径及微卫星分析等。[结果]本研究共获得18463296条序列读取片段
(reads),总碱基数为4.62Gbp序列信息,经序列组装最终得到63169个 Unigene,平均单条 Unigene长度为863bp,
N50为1587bp,其中分布在200 500bp长度区间Unigene占总数的55.4%。数据库中的序列同源性比较表明,
26826个Unigene与其他物种的已知基因具有不同程度的同源性。芒萁转录组中的Unigene根据GO功能大致可分
为细胞组成、分子功能和生物学过程3大类47个分支,其中有大量的Unigene与细胞进程、绑定活性、代谢过程和催
化活性相关。将Unigene与COG数据库进行比对,根据其功能大致可分为26类。以KEGG数据库作为参考,依据
代谢途径可将Unigene定位到257个代谢途径分支。此外,利用 MISA软件检索2 6碱基微卫星,共找到13286
个SSR。在不同长度微卫星中,三核苷重复数量最多,占总数的40.41%。在各重复基序类型中出现频率最高的为
AG/CT(14.45%)与AAG/CTT(12.39%)。利用重复基序开发的多态性 SSR标记,可应用于芒萁不同个体的基因
型分型鉴定。[结论]本研究获得了较高质量的芒萁转录组数据库,揭示了芒萁孢子体生长发育过程中表达基因的
功能总体特征,可为芒萁进一步的功能基因挖掘和分子标记规模化开发奠定基础。
关键词:芒萁;转录组;功能注释;微卫星
中图分类号:S71846 文献标识码:A
DenovoSequencingandCharacterizationofJuvenileSporophyte
TranscriptomeofaFern,Dicranopterisdichotoma
LIULiting1,2,WENQiang2,HUANGXiaochun2,LIUQijing1
(1.BeijingForestryUniversity,Beijing 100083,China;2.JiangxiProvincialBiotechKeyLabforPlant,
JiangxiAcademyofForestry,Nanchang 330032,Jiangxi,China)
Abstract:[Objective]ThesporophytetranscriptomeofDicranopterisdichotomawassequencedbyIluminaMiSeq
250toprovidemolecularinformationofitsgrowth,development,metabolism,andthemicroevolutionarymecha
nism.[Method]Thefunctionalannotations,metabolicpathwaysandmicrosateliteanalysisofsomeUnigeneswere
conductedusingbioinformaticsmethods.[Result]Atotalof18463296readscontaining4.62Gbpofsequencein
formationweregenerated.Atotalof63169unigeneswereformedbyinitialsequencesplicing,withanaverageread
lengthof863bpandN50valueof1587bp.26826unigeneswereannotatedusingBLASTXsearchesagainstthe
Nr,NtandSwissProtdatabases.TheunigenesofthetranscriptomeofD.dichotomawereroughlydividedintocelu
larcomponents,moleculefunctionandbiologicalprocessescategoriesof47branchesbygeneontology,ofwhichre
第4期 刘丽婷,等:蕨类植物芒萁幼孢子体转录组高通量测序及特征分析
latedwithcelularprocesscel,binding,metabolismprocessesandcatalyticactivities.Furtherannotatedbasedon
COGcategory,Unigenescouldbegroupedinto26functionalcategories.KEGGpathwayanalysisshowedthatUni
genescouldbedividedinto276classesbasedontheirmetabolicfunction.Meanwhile,13286SSRs(simplese
quencerepeats)wereminedwithrepeatmotifof2to6bpbyMISA.Thetrinucleotiderepeatsweremostdominant,
accountingforatotalof40.41%.AG/CT(14.45%)andAAG/CTT(12.39%)werethemostcommonrepeatmo
tifs.PolymorphicSSRmarkersweredevelopedfromrepeatmotifs,whichcouldbeusedforgenotypingofdiferentin
dividualsofD.dichotoma.[Conclusion]Ahigherqualityoftranscriptomedatabasewasobtainedinthisstudy,
whichcouldrevealthegeneralcharacteristicsofgeneexpressionintheprocessofgrowthanddevelopment,andlaythe
foundationforfurthergenefunctionminingandthelargescaledevelopmentofmolecularmarkersofD.dichotoma.
Keywords:Dicranopterisdichotoma;transcriptome;geneannotation;simplesequencerepeat
芒萁(Dicranopterisdichotoma(Thunb.)Bernh.)
属水龙骨目(Polypodiales)里白科(Gleicheniaceae)
芒萁属(Dicranopteris),是典型酸性土壤指示植物,
也是亚热带丘陵山区马尾松(Pinusmasoniana
Lamb.)、杉木 (Cunninghamialanceolat(Lamb.)
Hook.)暖性针叶林、疏灌草丛等次生植被的“识别
种”及“标志种”[1]。芒萁除孢子繁殖外兼营克隆繁
殖[2],其孢子体(2n=78)[3]匍匐根茎发达,在林冠
下层易形成稳定的片层结构[4]。作为丘陵红壤林区
立地破坏后最先侵入的下层植被种类之一[5],芒萁
具有重要的水土保持与植被恢复作用[6-7]。此外,
芒萁孢子体对砷(As)[8]、铅(Pb)[9]、稀土[10-11]等重
金属有较强的吸收富集作用,是典型的金属型植物
(metalophytes)[12-13],已成为矿区废弃地植被重建
的先锋植物。研究芒萁在困难立地种群扩散过程及
对逆境应答机制,对于发挥其生态价值具有重要的
现实意义。
、近年来,新一代高通量转录组测序被广泛应用
于非模式植物[14-15],可以高通量地测定 cDNA序
列,揭示特定细胞或组织中表达的全部基因或表达
序列标签(Expressedsequencetag,EST),获得大量
SSR等遗传标记等。该技术已成为揭示植物优良特
性及研究其环境互作等复杂分子机制的重要手段。
蕨类植物由于拥有特殊的系统进化位置及独特的生
活史,是研究陆生植物系统演化的代表性物种[16]。
然而蕨类植物与种子植物相比具更复杂的染色体组
成及较大的基因组[17-18],使得该类植物遗传信息资
源非常有限,局限了其分子生物学研究[19]。早期有
报道开展诸如江南卷柏(Selaginelamoelendorfi
Herb.)[20]、铁 线 蕨 (Adiantum capilusveneris
Linn.)[21]等的转录组文库构建研究;而基于高通量
测序的转录组学研究较少,仅见蕨(Pteridiumaquili
num(Linn.)Kuhn.)[22]、水蕨(Ceratopterisrichardi
Linn.)[23]、鸟巢蕨(AspleniumnidusLinn.)[24]及海
金沙(Lygodiumjaponicum(Thunb.)Sw.)[19]有研
究报道。
目前有关芒萁的转录组学研究未见报道,该物
种分子标记开发及抗逆机理等相关研究相对滞后。
本研究旨在应用IluminaMiseq250高通量测序技术
开展芒萁孢子体转录组学研究,采用生物信息学等
方法对获得的大量 Unigene进行基因功能注释、代
谢途径分析等,从功能基因组水平上分析芒萁孢子
体生长发育过程中重要基因的表达水平,为进一步
功能基因挖掘和分子标记开发奠定基础。
1 方法
1.1 试验材料
采集当年新萌的芒萁孢子体幼叶,经液氮速冻
后于-70℃储存备用于 RNA提取。用于检测 SSR
标记多态性的芒萁群体样本来自江西泰和县千烟洲
(115°0.527′E,25°22.445′N),参考改进的 CTAB
高盐法[25]提取基因组总DNA。
1.2 转录组测序与序列组装
RNA提取试剂盒(TIANGEN)提取总 RNA。采
用带有Oligo(dT)的磁珠富集mRNA,并将其随机打
断成短片段作为模板,六碱基随机引物合成一链
cDNA,随后在 DNApolymeraseⅠ作用下合成二链
cDNA。双链cDNA经纯化、加 poly(A)及连接测序
接头后进行PCR扩增,得到测序用 cDNA文库。采
用 IluminaMiSeq测序平台,利用双末端测序
(Pairedend,PE)的方法,PE250的测序策略进行高
通量测序。测序得到的原始序列去除其中的接头及
低质量序列,经Trinity软件拼接组装成一个转录组,
同时取每条基因中最长的转录本(Transcripts)作为
105
林 业 科 学 研 究 第29卷
单基因簇(Unigene)[26]。
1.3 Unigene功能注释、GO分类和代谢通路分析
将拼接得到的 Unigene序列与 NR(NCBInon
redundantproteinsequences),NT(NCBInucleotidese
quences),SwissProt(SwissProtproteindatabase),COG
(Clusteroforthologousgroups)数据库进行BLAST比
对获得注释(其中 NR、NT、SwissProt数据库比对 E
值≤1e5,COG比对E值≤1e3);通过 HMMER3程
序,搜索已建好的蛋白结构域的 HMM模型,对 Uni
gene进行蛋白家族(Proteinfamily,Pfam)注释;另据
NR和Pfam两部分蛋白注释结果,使用 Blast2GO软
件得到 Unigene的 GO(GeneOntology)条目,并用
WEGO软件对所有的 Unigene进行 GO功能分类统
计,最后进行KEGG(Kyotoencyclopediaofgenesand
genomes)数据库代谢路径 KO(KEGGORTHOLOG)
注释分析。若前述各数据库之间的比对结果有出
入,则按 NR、SwissProt的优先级确定 Unigene的序
列方向,比对不上的 Unigenes则用软件 ESTScan预
测其编码区并确定序列方向。
1.4 微卫星分析与SSR标记应用
MISA软件检索 Unigene序列中的简单重复序
列(Simplesequencerepeats,SSR)。检索标准:单、
二、三、四、五、六核苷酸基序(motif)至少重复次数
分别为10、6、4、3、3、3,包括精确型(perfect)及复合
型(compound)重复基序(motif)[27],进而对微卫星
基序开展统计分析。
随机选择微卫星重复基序长度大于等于18bp
的Unigene序列,利用PRIMER3.0软件进行 SSR引
物批量设计。本试验随机合成引物20对,编号 Dd_
eSSR120。经优化确定芒萁孢子体 SSR标记体系:
10μL中含10×PCR缓冲液1μL,Mg2+2.5mmol·
L-1,dNTPs200μmol·L-1,上下游引物各0.2μmol
·L-1,Taq聚合酶0.5U,DNA30ng左右。PCR反应
程序:94℃预变性3min;94℃30s,55℃30s,72℃30
s,30个循环;最后72℃延伸1min,8℃保存。供试
样本PCR产物采用8%聚丙烯酰胺凝胶,在 DYCZ
32型垂直电泳槽(北京六一)中进行电泳分离,
50bpMarker作为标准分子量。银染检测电泳结果,
同位点条带从大到小顺序以 A、B、C…编号,按照等
位基因型进行判读。
2 结果与分析
2.1 转录组测序产出与基因表达分析
测序获得序列经过滤得到总的片段数(clean
reads)为9231648条,总碱基数为2.31Gbp,GC含
量平均值为47.76%。序列质量评估,碱基 Q20为
98.24%,Q30为97.55%。原始数据经 Trinity拼接
后,共获得 110051个转录本,最短转录本长度为
201bp,平均单条转录本长度为 1238bp,N50为
2182bp。转录本经取舍获得63169条 Unigene序
列,最短Unigene长度与转录本一致,平均单条 Uni
gene长度为863bp,N50为1587bp。Unigene序列
在200 500bp长度区间的数量占总数的55.4%
(34982),组装效果符合 PE250测序特点。利用
Blast搜索预测了 23064个 CDS,其 中 81.3%
(18740)的序列长度大于 300nt,而长度大于
1000nt序列占 36.0%(8301);其他未能用
Blast比对上的 Unigene序列采用 ESTScan预测了
37778个 CDS,其中40.5%(15308)的序列长度
大于300nt。数据总体表明测序质量符合后续分
析要求。
采用 FPKM(expectednumberofFragmentsPer
KilobaseoftranscriptsequenceperMilionsbasepairs
sequenced)算法[28]估算芒萁 Unigene的表达水平。
该算法可消除基因长度差异和测序深度对基因表达
水平估计的影响。芒萁 Unigene的 RPKM平均值为
17.42,最大值为31231.04;230条Unigene的FPKM
值大于500,其中有142条 Unigene序列在后续 NR
数据库中得到功能注释。各基因的FPKM表达量值
集中在3.16 36.12,显示本次测序低水平表达基
因检测数量较多。
2.2 序列功能注释与功能分类
2.2.1 功能注释序列比较 将 Unigenes序列与
Nr,Nt,SwissProt,Pfam,GO,COG,KEGG数据库做比
较,获得 Unigenes的注释信息。统计最终获得注释
信息的 Unigenes序列共有 26826条,注释率为
42.46%,在各数据库中获得注释序列数量见表 1。
经NR数据库比对,芒萁孢子体 Unigenes序列与苔
藓植物小立碗藓(Physcomitrelapatens(Hedw.)
Bruch&Schimp.)及同为蕨类植物的江南卷柏的
Unigenes序列匹配相似数量最多,各占被注释总序
列的18.5%与18.4%,此外依次与北美云杉(Picea
sitchensis(Bong.)Car.)(17.0%)、葡萄(Vitisvinif
eraLinn.)(10.5%)及大豆(Glycinemax(Linn.)
Mer.)(3.8%)也能匹配到一定数量的相似序列。
同时由于缺乏芒萁基因组信息,尚存一定数量 Uni
genes序列未能获得匹配。
205
第4期 刘丽婷,等:蕨类植物芒萁幼孢子体转录组高通量测序及特征分析
表1 Unigene序列在各数据库的功能注释情况
数据库类型
被注释Unigene
数量
占总数量的
百分比/%
NR 22897 36.24
NT 3427 5.42
KO 6240 9.87
SwissProt 18016 28.52
PFAM 18685 29.53
GO 19855 31.43
COG 8907 14.1
在7个数据库中均有注释数量 1484 2.34
总的被注释Unigene数量 26826 42.46
2.2.2 GO数据库注释分类 本研究结合 GO数据
库,从宏观上对芒萁的 Unigene进行功能分类,以了
解其孢子体生长发育过程中表达基因的功能分布总
体特征。19855个Unigenes可分成3个基本的功能
本体,并区划成47个组别(图1)。其中执行生物学
过程功能Unigenes最多有52242条,执行细胞组成
有36032条 Unigenes,涉及分子功能的 Unigenes有
24770条。从各功能区划来看,各功能本体中 Uni
genes数量功能区划规律基本与鸟巢蕨孢子体发育
进程的基因表达谱[24]一致。其中测得的芒萁孢子
体Unigenes涉及较多的几个功能组为细胞过程
(11945条)、代谢过程(11044条)、细胞(7196
条)、细胞要素(7159条)、绑定(11538条)及催化
活性(9457条)等。
植物重金属硫结合蛋白(MT)关乎植物体重金
属离子维持与毒害解除及调节运输等[29],作为典型
的金属型植物,本研究重点关注了芒萁 MT蛋白相
关序列注释情况。本研究中共获得23个 GO功能
注释跟重金属结合蛋白密切相关的 Unigene序列,
其功能预测显示主要集中为铜、锌、镉等结合蛋白。
在这23条有功能注释的Unigene序列中FPKM值大
于500的有2条:comp28891_c0(GO:0046872//GO:
0003950)、comp9834_c0(GO:0008270//GO:
0046872),其中 comp9834_c0序列 FPKM值最大为
6424.29,GO功能预测为锌结合蛋白,来自植物
PEC金属硫蛋白家族。
1.生物附着;2.生物调节;3.细胞杀伤;4.细胞组成或生物合成;5.细胞过程;6.发育过程;7.定位活性;8.生长;9.免疫系统;
10.定位;11.运动;12.代谢过程;13.多细胞进程;14.多个有机体过程;15.负调节;16.正调控;17.生物调节;18.繁殖;19.繁殖过
程;20.应激反应;21.信号传导;22.单一有机体过程;23.细胞;24.细胞要素;25.细胞外基质;26.细胞外基质要素;27.胞外区;
28.胞外区要素;29.大分子复合物;30.膜;31.膜封闭腔;32.膜要素;33.细胞器;34.细胞器要素;35.病毒体;36.病毒体要素;37.抗
氧化活性;38.绑定;39.催化活性;40.通道调节活性;41.酶调节活性;42.分子转导活性;43.核酸结合转录因子活性;44.蛋白结合
转录因子活性;45.受体活性;46.结构分子活性;47.转运活性。
图1 GO注释分类图
2.2.3 COG数据库注释分析 将芒萁 Unigene与
COG蛋白质直系同源数据库进行比对,预测Unigene
的功能并进行分类统计。研究结果见图2,数据显
示芒萁Unigene所涉及的 COG功能类别较为全面,
可将10035个Unigene根据其功能大致分为26类。
对每一类的 Unigene进行统计分析显示,仅一般功
能预测类基因最多(1763条),其次是翻译后修饰,
蛋白折叠和分子伴侣类基因(1195条)、信号传导
机制类基因(736条)和转录类基因(537条);而胞
外结构类基因(25条)和细胞运动类基因较少(9
305
林 业 科 学 研 究 第29卷
条),另外还存在1条未知蛋白基因;其他类别的基
因表达丰度不尽相同。从总的 COG功能类别来看
本研究的 Unigene基本涉及到芒萁大多数的生命
活动。
2.2.4 生物学代谢 KEGG分析 据 KEGG数据库
的注释信息进一步将芒萁 Unigene进行 pathway注
释,其中6240条 Unigene获得对应的 KO编号,这
些Unigene参与或涉及相关代谢途径。5个代谢通
路大类中,主要包括碳水化合物代谢、翻译、信号转
导、蛋白折叠,分类和降解、脂类物质代谢、运输和代
谢等32类代谢途径(图3)。32类代谢途径下具体
又可分为257个代谢分支,各分支中Unigene被注释
到数量相对较多的路径(表 2)依次为碳代谢(248
条)、氨基酸生物合成(210条)、内质网中蛋白质加
工(192条)等。研究表明重金属污染区域的芒萁自
身可以通过控制光合活性来避免重金属离子对其光
合系统的影响[11],而碳代谢是植物光合作用的重要
内容,本研究中获得注释的 Unigene数量可为今后
开展芒萁相关研究提供序列基础。
A:RNA的加工与修饰;B:染色体的结构域动力学;C:能
源产生与转化;D:细胞周期调控,细胞分裂,染色体分离 ;E:
氨基酸转运与代谢;F:核酸转运与代谢;G:碳水化合物转运
与代谢;H:辅酶转运与代谢;I:脂类转运与代谢;J:翻译,核
糖体结构和生物合成;K:转录;L:复制,重组和修饰;M:细胞
壁/细胞膜生物发生;N:细胞运动;O:翻译后修饰,蛋白折叠
和分子伴侣;P:无机离子转运与代谢;Q:次生代谢物的生物
合成,转运和代谢;R:仅一般功能预测;S:未知功能;T:信号
传导机制;U:细胞内分泌和囊泡运输;V:防御机制;W:胞外
结构;X:未知蛋白;Y:核结构;Z:细胞骨架
图2 COG注释分类图
A:有机系统:1.感觉系统;2.神经系统;3.免疫系统;4.排泄系统;5.适应环境;6.内分泌系
统;7.消化系统;8.发展9.循环系统;B:代谢:1.外来物质的降解和代谢;2.总代谢;3.核苷酸代
谢;4.萜类和酮类化合物;5.其他氨基酸代谢;6.代谢辅助因子和维生素;7.脂质代谢;8.糖链的
生物合成与代谢;9.能量代谢;10.碳水化合物代谢;11.其他次生代谢产物的生物合成;12.氨
基酸代谢;C:遗传信息处理:1.翻译;2.转录;3.复制和修复;4.折叠,分类和降解;D:环境信息处
理代谢:1.信号分子的相互作用;2.信号转导;3.膜转运;E:细胞过程:1.运输和代谢;2.细胞运
动;3.细胞生长和死亡;4.细胞通讯。
图3 芒萁Unigene的KEGG分类
2.3 微卫星信息分析及ESTSSR有效性
在被检索的63169个 Unigene序列中,检测含
有微卫星重复基序的序列总数为10120个,包含微
卫星总量为13286个,其中复合型重复基序共1337
个,总的微卫星重复基序发生频率为0.21,微卫星
序列平均跨度为4100.97bp。在被检索到的微卫
405
第4期 刘丽婷,等:蕨类植物芒萁幼孢子体转录组高通量测序及特征分析
表2 注释Unigene数量最多的10个代谢通路
编号 代谢通路 基因数目
Ko01200 碳代谢 248
Ko01230 氨基酸生物合成 210
Ko04141 内质网中的蛋白质加工 192
Ko03040 剪切体 187
Ko03010 核糖体 174
Ko03013 RNA转运 162
Ko04075 植物激素信号转导 161
Ko00500 淀粉和糖代谢 151
Ko04626 植物与病原菌互作 144
Ko00190 氧化磷酸化 143
星基序中,单核苷酸到六核苷酸重复类型均存在。
各类型重复基序分布数量及比例见图4。在各重复
基序中,以二、三短重复基序为主导,其中三核苷酸
重复基序最多,占总数的40.41%,而长的重复基序
数量则相对较少,其中五核苷酸重复基序最少,仅占
总数的2.67%。在所有检测到的 290种重复基序
中,1 6核苷酸重复基序中出现频率最高类型依次
为,A/T(1013个,7.62%),AG/CT(1920个,
14.45%),AAG/CTT(1646个,12.39%),AAAC/
GTTT(463个,3.48%),AAAAC/GTTTT(23个,
0.17%),AAAAAC/GTTTTT(10个,0.08%),其中
AG/CT与AAG/CTT同时为所有被检测重复基序中
出现频率最高的两种。
注:括号内数值为对应重复基序的总值
图4 芒萁微卫星重复基序分布比例图
利用来自江西泰和县千烟洲的芒萁群体29个样本
检测随机开发的20对 SSR引物的扩增有效性与多
态性,并初步尝试利用标记组合对各供试样本进行
基因型分型鉴定。试验结果表明,共有11对引物具
有良好的扩增,有效引物占54.55%,而其中有5对
引物在个体间存在多态性,多态引物信息见表 3。
图 5为 SSR位点 DD_eSSR01、DD_eSSR14、DD_
eSSR17扩增电泳图,组合3个位点的扩增结果,可初
步判定 29个样本包含 4种基因型 (分别为
BBBBBB、ABAAAB、ABBBBB及ABBBAB)。
表3 多态性引物信息
位点 引物序列(5′ 3′) 重复基序 退火温度/℃ 扩增片段/bp
DD_eSSR01
F:TCGTCCCCTTTACATTAGCCAC
R:GCCAGTGTTGATACAGCTTGC
(AC)9 56 280
DD_eSSR10
F:TCTGTCAGGCTTCGAACGAG
R:TGGGGTTCTGAAAAATTGTAGCA
(TC)9 55 273
DD_eSSR14
F:CCACTGGCACATTGTTCACA
RTGAGACCCCTCTTTAGCAGGA
(AC)9 55 170
DD_eSSR15
F:GCTTCTCCAGCCCTCCATTT
R:CCTGTGCTTGGATTGGCAAC
(GA)10 55 450
DD_eSSR17
F:CGAGGGTTCGGATTTCCCAA
R:GGGCGGCTACAAGTGTGTAT
(AATC)4 58 191
3 讨论
对于缺乏基因组信息的非模式物种而言,采用
转录组测序技术可获得大量的转录本信息,对解决
其基因进化、遗传育种以及生态等诸多方面的问题
具有重要意义[30]。一般 Hiseq策略的 Ilumina高通
量测序通量大,但通量的增加注定会以牺牲序列片
段长度为代价。由于非模式生物缺乏参考基因组信
息,因而测序读长越长,越有利于测序片段的后续
装配。这使得454技术(平均读长400bp)在非模式
生物转录组研究中应用较为广泛,但该技术价格高
昂且通量不高。本研究采用 MiSeq250策略开展芒
萁Ilumina高通量测序,获得的63169条Unigene序
列,平均单条 Unigene长度为 863bp,N50为 1587
bp,序列质量评估Q30达到97.55%,最短转录本长
度为201bp,而获得的 Unigene序列分布在 200
500bp长度区间的占总数的55.4%。与同类研究
相比[22,24],本次测序在降低成本的前提下,既保证
505
林 业 科 学 研 究 第29卷
注:图中左右两侧为50bpMarker,自上而下依次对应为SSR位点DD_eSSR01、DD_eSSR14、DD_eSSR17PCR扩增电泳检测结果。
图5 芒萁群体PCR扩增电泳图
了测序的通量,又兼顾了单序列的长度与质量。
将芒萁Unigene序列与NR等7个数据库比对,
共有26826条获得注释,仅占总数的42.46%。由
于蕨类植物基因组学及转录组学研究尚处起步阶
段,部分序列暂时无法获得相应的功能注释。有研
究认为在目前转录组研究中,表达量很低的基因在
EST数据库中很难找到,而表达量较高的数据过量
存在[31]。本研究中芒萁Unigene的FPKM表达量值
集中在3.16 36.12,显示本次测序检测到的低表
达水平基因的比例较高,可能原因在于研究对象的
差异性。经NR数据库比对,芒萁与江南卷柏及苔
藓植物小立碗藓的 Unigene序列有较高的匹配,其
中三者比较,芒萁与小立碗藓匹配率更高。Der
等[22]采用相似方法比较蕨、江南卷柏及小立碗藓的
Unigenes,显示蕨与小立碗藓具更多的相似性,推断
原因可能在于与江南卷柏的异型孢子不同,蕨与小
立碗藓同属同型孢子世代,三者生活史的差异影响
了基因的进化。芒萁与蕨同为真蕨植物具有相似的
生活史,结果的一致性进一步验证了前人的推测。
同时,笔者注意到与本研究材料来源于孢子体不同,
Der的研究为世界第一个配子体转录组,初步分析
蕨类植物不同世代功能基因表达存在一定的共性
问题。
开发用于基因分型的 SSR分子标记,可作为研
究芒萁克隆生活史性状及对环境条件的响应机制的
重要工具。本研究检索了芒萁Unigenes序列中的微
卫星重复基序,显示重复基序进化趋向于较短的序
列,诸如三核苷酸重复基序是该物种的主要微卫星
基序,而五核苷酸重复基序最少。在不同类型核苷
酸重复基序中出现频率最高类型为AG/CT与AAG/
CTT,这与同为蕨类植物的鸟巢蕨[24]相比有些不同,
后者二核苷酸重复基序最多类型与前者一致,但三
核苷酸重复基序以 AGG/CCT为主;芒萁的这一微
卫星分布规律与大青杨(PopuluscathayanaRehd.)、
油茶(CameliaoleiferaAbel.)等[32-33]种子植物一
致。随机开发20对SSR引物,有效引物占54.55%,
其中有5对引物在芒萁群体检测存在多态性,表明
引物开发效率较高。
4 结论
本研究应用 Ilumina高通量测序技术采用
MiSeq250的策略开展芒萁孢子体转录组测序。通
过生物信息学方法对测序获得的大量 Unigene进行
基因功能注释分类、代谢途径及微卫星特征等分析,
从而初步揭示了芒萁孢子体生长发育过程中表达基
因的功能总体特征。可为进一步开展芒萁生长、发
育、代谢调控、微进化机制分析等研究提供重要的分
子信息。此外作为世界蕨类植物基因组序列的重要
补充,也可为其他蕨类植物功能基因挖掘及 SSR标
记的规模化开发提供丰富的基础数据。
参考文献:
[1]XuXL,LiQK,WangJY,etal.InorganicandOrganicNitrogen
AcquisitionbyaFernDicranopterisdichotomainaSubtropicalForest
inSouthChina[J].PLOSONE,2014,9(5):e9005.
[2]董 鸣.克隆植物生态学[M].北京:科学出版社.2011,5-6.
[3]岩?邦男.日本野生植物 -蕨类(日文)[M].东京:平凡社.
1999,311.
[4]张明如,何 明,温国胜,等.芒萁种群特征及其对森林更新影
响评述[J].内蒙古农业大学学报,2010,31(4):303-308.
[5]李小飞,陈志彪,陈志强,等.南方红壤侵蚀区芒萁生长特征及
其对环境因子的响应[J].水土保持通报,2013,33(3):33
-37.
[6]刘迎春,刘琪瞡,汪宏清,等.芒萁生物量分布特征[J].生态学
605
第4期 刘丽婷,等:蕨类植物芒萁幼孢子体转录组高通量测序及特征分析
杂志,2008,27(5):705-711.
[7]侯晓龙,刘明新,蔡丽平,等.安溪崩岗侵蚀区不同植被配置模
式与恢复效果研究[J].亚热带水土保持,2010,22(1):5
-10.
[8]WeiCY,WangC,SunX,etal.Arsenicaccumulationbyferns:a
fieldsurveyinsouthernChina[J].EnvironmentalGeochemistryand
Health,2007,29(3):169-177.
[9]刘足根,杨国华,杨 帆,等.赣南钨矿区土壤重金属含量与植
物富集特征[J].生态学杂志,2008,27(8):1345-1350.
[10]李小飞,陈志彪,陈志强.南方稀土采矿恢复地土壤稀土元素
含量及植物吸收特征[J].生态学杂志,2013,32(8):2126-
2132.
[11]王立丰,季红兵,田维敏.重稀土矿区芒萁稀土元素精细地位
及光抑制对其光合活性的影响[J].中国稀土学报,2010,28
(3):379-386.
[12]骆永明.金属污染土壤的植物修复[J].土壤,1999,33(5):
261-265.
[13]李交昆,龚育龙,唐璐璐,等.金属型植物的研究进展[J].生
命科学研究,2011,15(6):560-564.
[14]邓敏捷,董焱鹏,赵振利,等.基于 Ilumina高通量测序的泡
桐转录组研究[J].林业科学,2013,49(6):30-36.
[15]WangZW,JiangC,WenQ,etal.DeepsequencingoftheCa
meliachekiangoleosatranscriptomerevealedcandidategenesforan
thocyaninbiosynthesis[J].Gene,2014,538(1):1-7.
[16]BarkerMS,WolfPG.Unfurlingfernbiologyinthegenomicsage
[J].Bioscience,2010,60:177-185.
[17]BarkerMS.Evolutionarygenomicanalysesoffernsrevealthathigh
chromosomenumbersareaproductofhighretentionandfewer
roundsofpolyploidyrelativetoangiosperms[J].AmerFernJ,
2009,99:136-137.
[18]NakazatoT,BarkerMS,RiesebergLH,etal.Evolutionofthe
nucleargenomeoffernsandlycophytes[M]//RankerTA,Hau
flerCH.BiologyandEvolutionofFernsandLycophytes.Cam
bridgeUniversityPress.2008,175-198.
[19]AyaK,KobayashiM,TanakaJ,etal.Denovotranscriptomeas
semblyofafern,Lygodiumjaponicum,andawebresourcedata
base,LjtransDB[J].Plant&CelPhysiology,2015,56(1):e5.
[20]WengJK,TanurdzicM,ChappleC.Functionalanalysisandcom
parativegenomicsofexpressedsequencetagsfromthelycophyte
Selaginelamoelendorfi[J].BMCGenomics,2005,6:85-97.
[21]YamauchiD,SutohK,KanegaeH,etal.Analysisofexpressed
sequencetagsinprothaliaofAdiantumcapilusveneris[J].Journal
ofPlantResearch,2005,118:223-227.
[22]DerJD,BarkerMS,WicketNJ,etal.Denovocharacterization
ofthegametophytetranscriptomeinbrackenfern,Pteridiumaquili
num[J].BMCGenomics,2011,12(1):99-113.
[23]BushartTJ,CannonAE,HaqueULA,etal.RNAseqanalysis
identifiespotentialmodulatorsofgravityresponseinsporesofCera
topteris(Parkeriaceae):evidenceformodulationbycalciumpumps
andapyraseactivity[J].AmerJBot,2013,100:161-174.
[24]贾新平,孙晓波,邓衍明,等.鸟巢蕨转录组高通量测序及分
析[J].园艺学报,2014,41(11):2329-2341.
[25]温 强,叶金山,雷小林,等.油茶ISSR反应体系建立及优化
[J].中南林学院学报,2006,26(6):22-26.
[26]GrabherMG,HaasBJ,YassourM,etal.Fullengthtranscrip
tomeassemblyfromRNASeqdatawithoutareferencegenome[J].
NatureBiotechnology,2011,29,644-652.
[27]WeberJL.Infomativenessofhuman(dCdA)n(dGdT)npoly
morphisms[J].Genomics,1990,7:524-530.
[28]TrapnelC,WiliamsBA,PerteaG,etal.Transcriptassembly
andquantificationbyRNASeqrevealsunannotatedtranscriptsand
isoformswitchingduringceldiferentiation[J].NatureBiotechnol
ogy,2010,28,511-515.
[29]全先庆,张洪涛,单 雷,等.植物金属硫蛋白及其重金属解
毒机制研究进展[J].遗传,2006,28(3):375-382.
[30]刘洪亮,郑丽明,刘青青,等.非模式生物转录组研究[J].遗
传,2013,35(8):955-970.
[31]梁 烨,陈双燕,刘公社.新一代测序技术在植物转录组研究
中的应用[J].遗传,2011,33(12):1317-1326.
[32]雷淑云,张发起,KhanG,等.利用高通量测序分析青藏高原
地区青杨的 SSR和 SNP特征[J].林业科学研究,2015,28
(1):37-43.
[33]温 强,徐林初,江香梅,等.基于454测序的油茶DNA序列
微卫星观测与分析[J].林业科学,2013,49(8):43-50.
(责任编辑:彭南轩)
705