免费文献传递   相关文献

两个花色印度野牡丹转录组Denovo数据分析



全 文 :分子植物育种,2017年,第 15卷,第 2期
MolecularPlantBreeding,2017,Vol.15,No.2
研究报告
Research Report
两个花色印度野牡丹转录组 De novo数据分析
郑涛 * 林艺华 林秀香 苏金强 林秋金 陈振东 林秋金 王美盛
福建省热带作物科学研究所,漳州, 363001
*通讯作者, jagy1203@163.com
摘 要 项目构建了两个花色印度野牡丹不同花期 6份花瓣样品的转录组数据库,共获得 387 450 968条读
段(reads),有效读段数据(clean reads) 375 952 826条,占比 97.03%,其中包含 54 795 712 285 nt数据信息,6个
样品的高质量 clean reads比例均达 95%以上;对获得的高质量序列进行组装,获得非冗余的基因(Unigene)
数据 54 725条,总长度 56 818 948 nt,N50平均长度 1 909 nt;clean reads在 Unigene上被比对到的 reads数
(mapped reads)为 316 210 813条,匹配率 84.109 2%,能够唯一比对到的 reads片段(unique mapped reads)为
296 302 103条,唯一匹配率 78.813 6%。所得数据将为野牡丹属植物控制花色的相关功能基因开发、利用奠
定基础。
关键词 野牡丹,花色,转录组, De novo, RNA测序
Transcriptome de novo Data Analysis of Melastoma malabathricum with
Two Flower Colors
Zheng Tao * Lin Yihua Lin Xiuxiang Su Jinqiang Lin Qiujin Chen Zhendong Wang Meisheng
Fujian Institute of Tropical Crops, Zhangzhou, 363001
* Corresponding author, jagy1203@163.com
Abstract This project constructed a transcriptome database about 6 petal samples of Melastoma malabathricum
witch had two different flower color. There were 387 450 968 reads presented.The clean reads had 375 952 826
sections. The percentage of clean reads to the whole reads was 97.03%. The clean reads included 54 795 712 285
nt data information. The ratio of high-quality clean reads of 6 samples reached more than 95%. 54 725 Unigenes
were identified based on the assembling of high quality clean reads. The total length was 56 818 948 nt. The length
of N50 was 1 909 nt. There were 316 210 813 sections readsmapped on Unigene witch. The matching rate was
84.109 2%. The number of unique mapped reads was 296 302 103, accounting for 78.813 6%. The obtained data
could be useful for exploitation and utilization of function genes about flower color of Melastoma.
Keywords Melastoma, Flower coler, Transcriptome, de novo, RNA-seq
基金项目:本研究由福建省公益类科研院所专项(2014R1028-1)、福建省公益类科研院所专项、福建省自然科学基金面上项目
(2014J01116)项目共同资助
引用格式:Zheng T., Lin Y.H., Lin X.X., Su J.Q., Lin Q.J., Chen Z.D., and Wang M.S., 2017, Transcriptome de novo data analysis of
Melastoma malabathricum withtwoflowercolors,FenziZhiwuYuzhong(MolecularPlantBreeding),15(2) 郑涛 , 林艺华 ,林秀香 ,
强 ,林秋金 ,陈振东 ,王美盛 , 2017, 两个花色印度野牡丹转录组 De novo 数据分析 ,分子植物育种 ,15(2))
转录组代表了细胞或者组织内全部 RNA的转
录本(RNA Transcripts),可反映出生命体在不同的发
育阶段、不同类型的组织、不同生理代谢状况,以及
生命体处于不同环境条件下的不同基因的表达水平
及调控模式的详细情况。
新一代高通量 RNA测序技术(RNA-seq)克服了
传统转录组学研究模式下对非模式生物研究操作复
杂、周期长、花费高的缺点,加快了转录组研究的总
体进展(刘红亮等, 2013;张春兰等, 2012)。
项目组从 2003 年开始对野牡丹科野牡丹属野
苏金(
网络出版时间:2016-12-19 14:47:07
网络出版地址:http://www.cnki.net/kcms/detail/46.1068.S.20161219.1447.002.html
分子植物育种
Molecular Plant Breeding
生种质资源进行收集、驯化、栽培、育种等研究。目前已
收集该属野生种质 300余份,涵盖了《中国植物志》、
《福建植物志》、《海南植物志》等记载的 9个种(多花
野牡丹 Melastoma affine D. Don;野牡丹 M. candidum
D. Don;枝毛野牡丹 M. dendrisetosum C. Chen;地菍
M. dodecandrum Lour.;大野牡丹 M. imbricatumWall.;
细叶野牡丹 M. intermedium Dunn; 展毛野牡丹或肖
野牡丹 M. normale D. Don;紫毛野牡丹 M. penicilla-
tumNaud.;毛菍M. sanguineum Sims)、1个外来种(印度
野牡丹 M. malabathiricum)及其变种(M. malabathricum
var. alba),在种质保存期间产生了大量的自然杂交
种,为人工杂交、分子育种提供了丰富的原始素材。
野牡丹属植物株型丰富,从地被到小乔木均有
对应品种,可应用范围广,但其花色为粉 -紫系及一
些过渡色,相对较为单一。本项目试图从代谢组学、
转录组学对其花色机制进行系统研究,以期在该属
植物人工花色育种上有所突破。
本研究选取印度野牡丹及其不同花色的变种为
试验材料,针对花色差异在转录组水平的对比情况
进行研究,首先对从头测序组装(De novo sequence as-
sembly)数据进行质量控制、分析,以确保所得数据的
全面、可靠性。
1结果与分析
1.1数据质控
测序仪产生的原始图像数据根据信噪比确定碱
基类型和质量分数(base calling),转化为序列数据
(raw data或 raw reads)。经过平台初步过滤后,得到去
除干扰后的序列读取片段(clean data或 clean reads)。
将其存档为 fastq格式,保存 clean reads初始文件,其
中包含各序列的碱基序列和测序的质量。得到的初
始 clean reads文件数据,并非全部有效。部分数据会
影响到片段的组装和后续数据分析,这些数据的特
征为:带接头、重复、测序质量相对低。需对得到
clean reads数据再进行更严格的过滤,按照去除含
adaptor(接头序列)以及 N的比例大于 10%的 reads,
去除质量值 Q臆20的 reads依次进行,最终得到高质
量的 clean reads用于后期分析。
数据过滤前后白花印度野牡丹和粉花印度野牡
丹不同花期 6个样品的高质量 clean reads比例均达
到了 95%以上(表 1)。
基于碱基数的统计结果显示(表 2),过滤后 6个
样品的碱基测序正确率指标 Q20 (正确率 99%或碱基
测序错误率小于 1%)均达到 97%以上,Q30 (正确率
99.9%或碱基测序错误率小于 0.1%)均达到 93%以上。
1.2数据组装
在得到 clean reads数据后,需对其进行数据组
装以获得非冗余基因数据库(universal gene, Unigene)
序列信息,获得 Unigene数据后先对其组装质量进
行分析。目前,常用的用于评估组装质量的指标为
N50,即将所有 Unigene从长到短排序,并依次累加
长度,当累加得到的长度达到总片段的 50%时,这个
片段的长度就为 N50的长度。组装结果统计知,本次
组装共得到了 54 725条 Unigene,其中 GC含量为
47.3967%,N50 长度为 1 909 nt (核苷酸数),最长片
段长度 16 870 nt,最小片段长度 201 nt,平均长度
1038 nt,全转录组碱基数量为 56 818 948个。碱基的
长度分布统计分析(图 1)显示,长度在 200~299 bp的
Unigene数量最多,达到了 14 366条,其次是长度为
300~399 nt的 Unigene数。
1.3覆盖统计
对测序产生的 reads进行覆盖度统计。统计分析
(图 2) 显示,reads长度在 11~100 nt的 Unigene数为
19 370条,reads长度大于 10 000 nt的 Unigene数为 7
048 条,总体呈现“两头高、中间低”的趋势,大部分
reads在基因上的覆盖度比较低。针对每个基因的
reads覆盖度进行统计,结果显示在总的 54 725条 U-
nigene中,能够唯一比对到指定 Unigene序列的 reads
数(Unique-mapped-Reads)在 100 万以上的有 6 条,
50万以上的有 21条,10万以上的有 288条,5万以
上的有 932条;GC含量在 19%~76%之间。
1.4总体表达量统计
对组装得到的 Unigene进行基于 RPKM (Reads
Per kb per Million reads)值的表达量统计,可利用该
值比较不同样品间的基因表达差异。RPKM值计算
公式如下:RPKM=(1 000 000伊C)/(N伊L/1 000),其中
C表示比对到的某个 Unigene的 reads数,N表示比
对到的所有 Unigene的总 reads数,L表示某个 Uni-
gene的碱基数。统计结果可知,54 725条 Unigene的
RPKM值在 0~4 700之间,平均值 1 000以上的有 22
条,其中 Unigene0015085最高,达 4 638.047,其次为
Unigene0021310 为 2 767.870,RPKM 值 100~999 的
有 660条,RPKM值为 0的有 434条。总体而言,总
的 reads片段为 375 952 826个,在 Unigene上被比
对到的 mapped reads 数为 316 210 813,匹配率
两个花色印度野牡丹转录组 De novo数据分析
Transcriptome de novo Data Analysis ofMelastoma malabathricum with Two Flower Colors
分子植物育种
Molecular Plant Breeding
图 1印度野牡丹 Unigene的长度分布
Figure 1 Length distribution ofMelastoma malabathricum Unigene
图 2印度野牡丹 reads在 Unigene上的覆盖统计
Figure 2ReadsCoverage ofMelastomamalabathricumonUnigene
84.109 2%,能够唯一比对到的 reads片段为 296 302
103个,唯一匹配率 78.813 6%。
2讨论
从头测序组装(De novo sequence assembly)分为
有参考基因组的重测序的读长定位和无参考基因组
的从头测序组装(周华等, 2012)。本项目涉及的野牡
丹属植物转录组研究属于后者。
选择 Illumina HiSeq 2000平台,运用可逆染料
终结合成测序,得到的数据总量约 6 GB。每个样品得
到 reads片段数在 5 500万 ~7 500万条之间,低质量
reads比例在 2%~3%之间;N50长度在 1 000~2 000 bp
范围内越长,组装质量越好。
本研究组装结果评价指标 N50长度为 1 909 bp,
较许多同类研究(易官美和包燕春, 2016;邓楠等, 2015;
李炎林等, 2014; Verbist et al., 2015)高,说明组装质
量良好。
一般认为,Q20大于 85%,即说明测序数据质量
较高(薛辉等, 2015)。本次测序数据的正确率指标 Q20
均大于 97%,说明测序产生的数据准确度较高。组
装共得到 54 725条 Unigene,数量上与红掌佛焰苞
(64 576条) (彭佳佳, 2015)、杜仲果实和叶片(49 610条)
(李铁柱等 , 2012)、油桐花芽 (70 511 条 ) (孙颖等 ,
2014)、辣椒(54 045条) (刘少群等, 2014)等的研究结
果相当,平均长度 1 038 bp。数量随序列长度的增加
平缓递减,说明样品质量较高。
覆盖度统计显示,99.2% (54 291 条)的 Unigene
被 reads全长和至少一个 read的深度覆盖,说明了组
装的高准确度。这与在白菜(黄鹂, 2007)、芒果(武红
霞, 2015)、野生蕉(张妙霞, 2010)、玫瑰(张玲, 2015)等
的研究结果相似。
RPKM法能够消除基因长度与测序量差异对计
算基因表达所产生的影响(付文芹, 2014),作为基因
表差差异的衡量指标。一般,用 RPKM值的上调或者
下调量(倍数)的相对量来说明某一基因的表达差异
(张丽君等, 2014)。针对 RPKM绝对值,一般用作基
因有无表达的度量指标(王琳等, 2016,江苏农业科学,
44(4): 70-73)。数据显示,在 54 725条 Unigene中有
434条 RPKM值为零,说明并非所有 map到的 Uni-
gene都可以成功表达。
总体而言,测定所得的数据质量符合后期转录
组分析要求,将为野牡丹属植物花色相关功能基因
的筛选、克隆、表达以及分子标记辅助育种奠定基础。
3材料与方法
3.1材料
取福建省热带作物科学研究所、广州市林业和
园林科学研究院野牡丹资源圃内的印度野牡丹(粉色
花 P, Melastoma malabathiricum)、印度野牡丹(白色花
W, Melastoma malabathricum var.alba) 花朵的三个不
同程度开放期(含苞期 W1, P1; 吐瓣显色期 W2, P2;
盛花期W3, P3)新鲜花瓣,两个花色各取 10朵,作混
合样进行 RNA提取为进一步研究材料。
3.2方法
提取样品总 RNA 后,利用含 Oligo(dT)的磁珠
对 mRNA 进行富集。将富集的 mRNA 置入 Frag-
mentation Buffer进行片段化。以片段化的 mRNA作
为模板,利用 Random Hexamers (六碱基随机引物)合
成首条 cDNA链。再加入缓冲液、RNase、HdNTPs和
DNA polymerase I,合成第二条 cDNA链。经过试剂
盒(QiaQuick PCR)纯化后,加入 EB 缓冲液洗脱,做
末端修复,加入 poly(A)连接测序接头,最后用琼脂
糖凝胶电泳选择片段大小、进行 PCR扩增,得到测
序文库后,利用 Illumina HiSeq 2000 平台进行
RNA-seq (RNA测序)。
作者贡献
郑涛是本研究的构思者及实验设计、文章撰写
负责人;林艺华、林秀香是实验研究的执行人及初稿
撰写人;苏金强、林秋金完成各相关试验操作及数据
分析;陈振东、王美盛参与实验设计,试验结果分析及
文章校对工作。全体作者都阅读并同意最终的文本。
致谢
本研究由福建省公益类科研院所专项(2014R10-
28-1)、福建省公益类科研院所专项:“野牡丹属植物
花瓣关键呈色因子研究”、福建省自然科学基金面上
项目(2014J01116)项目共同资助。感谢福建农林大学
园艺学院潘东明教授、钟凤林副教授、蒲晓龙博士的
指导!
参考文献
Deng N., Shi S.Q., Chang E.M., Liu J.F., Lan Q., and Jiang Z.
P., 2015, Transcriptomic analysis of germinated seeds of
Ephedra przewalskii, Dongbei Linye Daxue Xuebao (Jour-
nal of Northeast Forestry University), 43(2): 28-32 (邓楠,史
胜青,常二梅,刘建锋,兰倩,江泽平, 2015,膜果麻黄种子
不同发育时期的转录组测序分析,东北林业大学学报, 43
(2): 28-32)
Fu W.Q., 2014, Morphology and transcriptome analysis of Brassi-
ca napus - Orychophragmus violaceus addition lines with
female sterility and red petals, Thesis for Ph.D, Huazhong
Agricultural University, Supervisor: Li Z.Y., pp.39-40 (付文
芹, 2014,甘蓝型油菜 -诸葛菜附加系中雌不育和花色的
形态学及转录组研究,博士学位论文,华中农业大学,导
师:李再云, pp.39-40)
Huang L., 2007, Analysis of the difference of the transcription
group of three male sterile lines in Chinese Cabbage and
maintainer lines,the function identificationthe of three pollen
development related genes, Thesis for Ph.D, Zhejiang Uni-
versity, Supervisor: Cao J.S., pp.42-45 (黄鹂, 2007,白菜三
种雄性不育系与保持系花蕾转录组差异分析及三个花粉
发育相关基因功能鉴定,博士学位论文,浙江大学,导师:
曹家树, pp.42-45)
Li T.Z., Du H.Y., Liu H.M., WuYun T.N., Wang L., and Ye S.J.,
2012, Transcriptome data assembly and gene function anno-
tation of Eucommia fruits and leaves, Zhongnan Linye Keji
Daxue Xuebao (Journal of Central South University of
Forestry & Technology), 32(11): 122-124 (李铁柱,杜红岩,
刘慧敏,乌云塔娜,王淋,叶生晶, 2012,杜仲果实和叶片
转录组数据组装及基因功能注释,中南林业科技大学学
报, 32(11): 122-124)
Li Y.L., Yang X.X., Zhang J.Y., Huang S.W., and Xiong X.Y.,
2014, Studies on SSR molecular markers based on transcrip-
tome of Taxus chinensis var. mairei, Yuanyixue Bao (Acta
Horticulturae Sinica), 41(4): 735-745 (李炎林, 杨星星, 张
家银, 黄三文,熊兴耀, 2014, 南方红豆杉转录组 SSR 挖
掘及分子标记的研究,园艺学报, 41(4): 735-745)
Liu H.L., Zeng L.M., LIiu Q.Q., Quan F.S., and Zhang Y.,
2013, Studies on the transcriptomes of non-model organ-
isms, Yichuan (Hereditas), 35(8): 955-970 (刘红亮,郑丽明,
刘青青,权富生,张涌, 2013,非模式生物转录组研究,遗
传, 35(8): 955-970)
Liu S.Q., Li W.S., Wu Y.M., Chen C.M., and Lei J.J., 2014, Ap-
praisal the related gene of capsaicin biosynthesis on Capsic-
um frutescens based on the transcriptome de novo, Lajiao
Zazhi (Journal of China Capsicum), (1): 42-45 (刘少群, 李
万顺,吴英明,陈长明,雷建军, 2014,基于转录组 de novo
拼接鉴定辣椒中辣椒素生物合成相关基因, 辣椒杂志,
(1): 42-45)
两个花色印度野牡丹转录组 De novo数据分析
Transcriptome de novo Data Analysis of Melastoma malabathricum with Two Flower Colors
分子植物育种
Molecular Plant Breeding
Peng J.J., 2015, Analysis about the transcriptome sequencing
and the differentially expressed genes in the pathway of an-
thovyanin biosynthesis on Anthurium andreanum, Thesis for
M.S., Ningxia University, Supervisor: Ping J.C, Zhang L.,
pp.56-57 (彭佳佳, 2015,红掌转录组测序及花青素生物合
成途径差异表达基因的分析,硕士学位论文,宁夏大学,
导师:平吉成,张黎, pp.56-57)
Sun Y., Tang X.F., Luo M., and Li J.A., 2014, The sequencing
analysis of transcriptome of Vernicia fordii flower buds at
two development stages, Linye Kexue (Scientia Silvae Sini-
cae), 50(5): 70-73 (孙颖,谭晓风, 罗敏, 李建安, 2014,油
桐花芽 2个不同发育时期转录组分析,林业科学, 50(5):
70-73)
Verbist B., Clement L., Reumers J., Thys K., Vapirev A., Talloen
W., Wetzels Y., Meys J., Aerssens J., Bijnens L., and Thas
O., 2015, ViVaMBC: estimating viral sequence variation in
complex populations from illumina deep-sequencing data us-
ingmodel-based clustering, BMCBioinformatics, 16(1): 1-11
Wu H.X., 2015, Physiological and molecular mechanism of an-
thocyanin synthesis and regulation in Mango (Mangifera ind-
ica Linn.), Thesis for Ph.D, Zhejiang University, Supervisor:
Gao Z.S., pp.28-30 (武红霞, 2015,芒果花色苷合成与调控
的生理分子机制,博士学位论文, 浙江大学, 导师: 高中
山, pp.28-30)
Xue H, Chao S.Y., Li H.X., Niu J., Zhang F.H., and Zhao D.G.,
2015, Aplciation of transcriptome technology in fruit tree re-
search, Jiangxi Nongye Xuebao (Acta Agriculturae Jiangxi),
27(5): 16-21 (薛辉,曹尚银,李好先,牛娟,张富红,赵弟广,
2015,转录组技术在果树研究中的应用,江西农业学报,
27(5): 16-21)
Yi G.M., and Bao C.Y., 2016,Sequencing and bioinformatic
analysis for transcriptome of Torreya grandis Fort. ex Lindl.
cv. merrillii, Shandong Nongye Daxue Xuebao (Journal of
Shandong Agricultural University (Natural Science Edition)),
47(1): 19-24 (易官美,包燕春, 2016,香榧转录组测序及生
物信息学基础分析, 山东农业大学学报(自然科学版), 47
(1): 19-24)
Zhang C.L., Qin Z.J., Wang G.Z., Ji Z.B., and Wang J.M., 2012,
Transcriptome and RNA-Seq technology, Shengwu Jishu
Tongbao (Biotechnology Bulletin), (12): 52-56 (张春兰,秦
孜娟, 王桂芝,纪志宾,王建民, 2012,转录组与 RNA-seq
技术,生物技术通报, (12): 52-56)
Zhang L., 2015, Study on flower color formation of Rosa rugosa
Thunb., Thesis for Ph.D, Shandong University, Supervisor:
Zhan L.Y., pp.16-18 (张玲, 2015,玫瑰(Rosa rugosa Thunb.)
花瓣显色机理研究,博士学位论文,山东农业大学,导师:
赵兰勇, pp.16-18)
Zhang L.J., Liu L.L., Qiao Z.J., Ma M.C., Zhou J.P., Fan Y.Y.,
and Cui L., 2014, Transcriptome sequencing and analysis of
Oat nuclear sterile stamens, Caodixue Bao (Acta Agrectir
Sinica), 22(2): 38-42 (张丽君,刘龙龙,乔治军,马名川,周
建萍,范银燕,崔林, 2014,燕麦核不育雄蕊转录组测序及
分析,草地学报, 22(2): 38-42)
Zhang M.X., 2010, Cloning and expression analysis of cold resis-
tance relative genes of the wild banana, Thesis for Ph.D, Fu-
jian Agriculture and Forestry University, Supervisor: Lai Z.
X., pp.30-33 (张妙霞, 2010, 野生香蕉Musa+sppAB抗寒
相关基因的克隆与表达分析,博士学位论文,福建农林大
学,导师:赖忠雄, pp.30-33)
Zhou H., Zhang X., Liu T.Y., and Yu F.X., 2012, Data process-
ing and gene discovery of high-throughput transcriptome se-
quencing, Jiangxi Kexue (Jiangxi Science), 30(5): 607-611
(周华,张新,刘腾云,余发新, 2012,高通量转录组测序的
数据分析与基因发掘,江西科学, 30(5): 607-611)