免费文献传递   相关文献

基于454测序的碧桃花瓣组织转录组核苷酸变异



全 文 :第 42 卷 第 12 期 东 北 林 业 大 学 学 报 Vol. 42 No. 12
2014 年 12 月 JOURNAL OF NORTHEAST FORESTRY UNIVERSITY Dec. 2014
1)国家自然科学基金(31270711、31400564) ,江苏省自然科学
基金(BK20130968) ,江苏省南方现代林业协同创新项目,江苏高校
优势学科建设工程(PAPD)资助。
第一作者简介:陈赢男,女,1984 年 5 月生,南京林业大学森林
资源与环境学院,讲师。
通信作者:李淑娴,南京林业大学森林资源与环境学院,教授。
E - mail:shuxianli@ njfu. com. cn。
收稿日期:2014 年 6 月 30 日。
责任编辑:潘 华。
基于 454测序的碧桃花瓣组织转录组核苷酸变异1)
陈赢男 戴晓港 马秋月 刘海琳 李淑娴
(南京林业大学,南京,210037)
摘 要 通过对碧桃花瓣组织进行转录组测序,获得 1 556 684 条序列,平均读长 446 bp,共计 695. 34 Mb 数
据,其中 1 492 289 条高质量序列经拼接后得到 22 762个重叠群。以拼接后的重叠群作为参考序列,利用 SNP/InDel
分析软件检测碧桃花瓣组织转录组中的核苷酸变异位点,共得到 9 836 个 SNP和 1 550 个 InDel位点。在 SNP位点
中,转换占 62. 55%、颠换占 37. 45%,A/G的变异最为丰富,C /G的变异最少。在 InDel位点中,有 34. 71%的位点
为单核苷酸插入、缺失突变。
关键词 碧桃,转录组测序,单核苷酸多态性,插入缺失长度多态性
分类号 S662. 1
Identification and Characterization of Nucleotide Variations in the Transcriptome of Ornamental Peach Flower
Petals Based on 454 Sequencing /Chen Yingnan,Dai Xiaogang,Ma Qiuyue,Liu Hailin,Li Shuxian(Nanjing Forestry
University,Nanjing 210037,P. R. China)/ / Journal of Northeast Forestry University. - 2014,42(12). - 85 ~ 88
We identified single-nucleotide polymorphisms (SNP)and insertion deletion length polymorphism (InDel)in the
transcriptome from ornamental peach flower petals using the sequences generated by the Roche 454 GS-FLX sequencer. A
total of 1 556 684 reads were generated with an average length of 446 bp. After filtering poor quality reads,1 492 289 high
quality reads were obtained and were further assembled into 22 762 contigs. Using these contigs as a reference sequences,
9 836 SNPs and 1 550 InDels were identified. In the SNPs,transitions and transversions were accounted for 62. 55% and
37. 45%,respectively. In these SNPs,A/T transitions were the most abundant,and C /G transitions were much rarer than
any of the other SNP types. In the InDels,mononucleotide changes amounted for 34. 71% .
Keywords Prunus persica;Transcriptome sequencing;Single-nucleotide polymorphisms (SNP);Insertion deletion
length polymorphism (InDel)
单核苷酸多态性(single nucleotide polymor-
phism,SNP)是许多物种基因组中最常见的变异形
式,具有数量多、分布广、突变率低、可稳定遗传等特
点,被认为是最具发展潜力的分子标记[1 - 2],在遗传
图谱构建、数量性状定位、分子标记辅助育种等方面
有着广泛的应用[3 - 5]。如,Hyten等[6]利用 1,536 个
SNP标记构建了一个高密度的大豆数量性状遗传
图;Yu等[7]利用高密度的 SNPs 图谱成功检测到与
稻米粒型粒重相关的数量性状位点。此外,某些位
于基因内部的 SNP 位点可以直接影响基因的功
能[8 - 9]。Fan等[10]报道了水稻 GS3 基因第二外显
子上 C - A单核苷酸突变导致长粒品种中 GS3 蛋白
翻译提前终止。与 SNP相比,插入缺失长度多态性
(insertion deletion length polymorphism,InDel)是基
因组中另一较为丰富的多态性资源[11],InDel 所产
生的序列改变更为显著,故其对基因功能的影响也
更大[12]。
随着测序技术的发展,转录组测序已成为解读
基因组功能元件、揭示基因表达与表型之间内在联
系的重要手段,同时也成为检测分子标记的重要数
据源。基于转录组及其它 EST 序列开发的分子标
记已被广泛运用于大豆(Giycine max)、玉米(Zea
mays)、杨树(Populus deltoides)等[13 - 15]等多个物种
的遗传图谱构建和遗传多样性分析中。
碧桃(Prunus persica)是蔷薇科桃属的观花木本
植物,具有花型丰富、花色艳丽、花香独特等特点,已
被广泛应用于园林绿化。随着桃树[16]基因组测序
工作的完成,越来越多转录组信息的公布[17 - 18],桃
树分子标记的开发也日益受到重视[18]。如曹珂
等[19]以桃“红垂枝”与“白花山碧桃”为亲本,构建
了一个包含 206 个标记(18 个 SSR,126 个 AFLP、61
个 SRAP和 1 个形态学标记)遗传图谱,并将雌蕊发
育和单瓣 /重瓣性状进行定位;Verde 等[20]对 56 个
桃树品种进行重测序,检测到 1 022 354 个 SNP。为
了进一步丰富碧桃分子标记类型及数量,本研究利
用 454 高通量测序技术对碧桃花瓣组织转录组进行
测序,并对获得的数据进行 SNP /InDel 位点查找和
分析。
1 材料与方法
桃花转录组测序材料选自南京市情侣园内一株
DOI:10.13759/j.cnki.dlxb.20141104.004
树龄约 5 a的碧桃(Prunus persica L.)。于 2013 年 3
月盛花期采集花瓣,并用液氮迅速冷冻,置于冰箱中
- 80 ℃保存备用。
RNA提取与 cDNA合成:采用 CTAB 法[21]提取
总 RNA,样品中残留的基因组 DNA 利用 DNase I
(RNase Free)来去除,参照 Takara 公司的使用说明
进行操作。采用 Oligotex mRNA 纯化试剂盒(Qia-
gen)对 mRNA 进行纯化,然后使用 cDNA Synthe-
sis System Kit(Roche)合成 cDNA。
cDNA文库构建与转录组测序:使用 Rapid Li-
brary Prep Kit(Roche)构建测序文库,并用 Agilent
2100 Bioanalyzer 对文库质量进行检测。参照标准
的测序试验流程(Roche),利用 454 GS FLX 测序仪
(454 Life Sciences)对构建好的 cDNA 文库进行测
序,利用软件 Newbler v2. 8 software(Roche)进行序
列拼装。
核苷酸变异分析:使用拼接后的序列作为参考
序列,利用软件 GS Reference Mapper (Roche Inc.,
version 2. 8)将原始测序片段与参考序列进行比对,
检测核苷酸变异位点,包括转换、颠换、插入和缺失。
软件参数设置及序列筛选标准参考 Ma 等[22]的研
究方法。
含 SNP /InDel 序列的功能注释:利用 Blast2go
(http:/ /www. blast2go. org)程序,对含有 SNP /In-
Del的重叠群序列进行功能注释(E <10 - 5)并获取
GO编号。利用 BGI WEGO(http:/ /wego. genomics.
org. cn /cgi - bin /wego / index. pl)将获得的 GO 编号
进行功能分类。
2 结果与分析
2. 1 转录组测序及序列组装
采用 454 GS FLX 测序平台对碧桃花瓣组织转
录组测序共获得 1 556 684 条序列,平均读长 446
bp,共有 695. 34 Mb 的数据量。去除低质量序列后
有 1 492 289 条序列参与组装,共得到 22 762 个重叠
群(≥100 bp)和 72 719 个 singleton。在所得到的重
叠群中,长度大于等于 500 bp的重叠群有 14 006 个
(61. 53%),最大重叠群为 14 330 bp,重叠群 N50 为
1 426 bp,平均重叠群(≥500 bp)大小为 1 273 bp。
数据拼接结果见网址:http:/ /115. 29. 234. 170 /。
2. 2 SNP位点查找
利用 454 newbler GS Mapper 软件,将原始序列
比对到组装好的转录组参考序列上,在 2 561 个重
叠群中共检测到 9 836 个 SNP位点,平均每 2 013 bp
就有一个 SNP。SNP 位点中,转换 6 152 个(A /G、
C /T),颠换 3 684 个(A /C、A /T、G /T、G /C)。其中,
A /G突变最多,占总数的 31. 83%,C /T 突变其次,
占到 30. 71%;C /G突变最少,占总数的 8. 42%(表
1)。统计结果显示,本实验所检测到的 SNP 大部分
集中于长度在 100 ~ 2 100 bp范围内的重叠群上,只
有 1867 个(18. 97%)SNP位点在长度大于 2 100 bp
的重叠群上检测到,这是由于组装后得到的大于 2
100 bp的重叠群本身就比较少。所以本研究检测到
的 SNP数据库见网址:http:/ /115. 29. 234. 170 /。
表 1 SNP分类型统计分析
SNP类型 数量 /个 百分比 /%
转换 A /G 3 131 31. 83
C /T 3 021 30. 71
小计 6 152 62. 55
颠换 A /C 966 9. 82
A /T 1 021 10. 38
C /G 828 8. 42
G /T 868 8. 82
小计 3 683 37. 45
总 数 9 835 100. 00
2. 3 InDel位点查找
在 933 个重叠群中检测共出 1 550 个 InDel 位
点,包括 1,257 个插入突变和 293 个缺失突变。与
SNP位点相比,InDel位点占所有核苷酸变异位点的
13. 61%。核苷酸插入和缺失突变的变化范围分别
在 1 ~ 53 bp和 1 ~ 47 bp,其中单核苷酸插入、缺失占
所有 InDel位点的 34. 71%,小于或等于 10 bp的 In-
Del总数占 InDel 总量的 83. 87%。在插入突变中,
有 468 个位点为单核苷酸插入;在缺失突变中,检测
到最多的是三核苷酸缺失(78 个),其次为单核苷酸
缺失(70 个)。无论是插入还是缺失突变,都基本上
呈现出位点数目随核苷酸变异长度增加而减少的趋
势(表 2)。
表 2 InDel位点数量随其长度变化分布
InDel大小 /bp 插入突变 百分比 /% 缺失突变 百分比 /%
1 468 30. 19 70 4. 52
2 162 10. 45 46 2. 97
3 105 6. 77 78 5. 03
4 56 3. 61 12 0. 77
5 53 3. 42 10 0. 65
6 64 4. 13 14 0. 90
7 46 2. 97 5 0. 32
8 31 2. 00 9 0. 58
9 32 2. 06 7 0. 45
10 28 1. 81 4 0. 26
> 10 212 13. 68 38 2. 45
总计 1257 81. 10 293 18. 90
2. 4 含 SNP /InDel重叠群序列的功能
以 NCBI nr数据库基因注释为参考,将 3 159 个
含有 SNP /InDel 的重叠群序列进行 BLAST 比对,共
有 2 655 条(84. 05%)序列被匹配,共有 8 417 个
68 东 北 林 业 大 学 学 报 第 42 卷
SNP位点匹配到 2 655 个注释基因上。在成功注
释的重叠群中有 2 204 个被 GO 分类,功能分析
发现有 1 300 个重叠群参与分子功能、490 个重叠群
参与细胞学组件、681 个重叠群参与生物学途径(图
1)。
图 1 含 SNP /InDel序列 GO分析
3 结论与讨论
分子标记的快速发展为观赏园艺植物研究领域
开辟了新的途径。近年来,分子标记技术在花卉品
种鉴别、遗传图谱构建、分子标记辅助育种等方面的
应用也日益广泛[23 - 25]。桃属植物因其基因组较小
(2c = 265 Mb,2n = 16)被视为蔷薇科的模式植
物[26],桃全基因组测序工作的完成使得大规模分子
标记的开发成为可能。本文通过对碧桃花瓣组织转
录组测序,拼接后共得到 22 762 个重叠群(≥100
bp),其中 2 561 个重叠群上检测到 9 836 个 SNP 位
点,平均每 2 013 bp有一个 SNP,发生转换和颠换概
率的比值(Ts /Tv)为 1. 67,大于理论上 0. 5 的比
值[27]。对于实际中 Ts /Tv 值大于 0. 5 的现象(又称
“转换偏差”) ,一种假说认为是由于一些内在的特
征如化学组成、结构差异(嘌呤和嘧啶)[28];一种认
为这可能由于进化选择导致,因为转换偏差更易于
保持所编码蛋白的原有结构,降低有害突变的发
生[29 - 30]。
在多数有关 SNP变异类型的报道中,C /T 所占
比例最高,目前人们普遍认同的观点是 CG 二联码
的 C常被甲基化,容易脱氨基转换成 T 从而成为突
变热点[31 - 32]。在碧桃花瓣转录组转换位点中,A /
G、C /T两种变异类型几乎相等 C /T(1. 04:1),但 C /
T所占比例与大麦、小麦、辣椒等物种中的 SNP碱基
变异类型相似[3,33 - 34]。在颠换变异类型中,A /T 发
生的频率最高,C /G 发生的频率最小,部分原因可
能是由于桃树基因组本身 GC 含量就比较小
(37 . 07%)导致的。
遍布于整个基因组的 InDel 频率仅次于
SNP[35],InDel作为重要的遗传标记已被广泛用于作
物连锁图谱的构建及多样性研究[36]。本研究在
933 个重叠群中检测出 1 550 个 InDel 位点,1 bp 长
InDel的比例超过 InDel总量的 30%,插入和缺失的
数量都随着 InDel长度的增加而下降。这种长度与
数量的相关性在许多植物中都有报道[22,28,37]。较长
的 InDel可能对生物有不同程度的危害,其比例也
相对很少[38]。
随着碧桃基因组、转录组测序研究的不断深入,
其 SNP /InDel 资源将更加丰富。本研究中检测到
SNP /InDel位点将有助于研究核苷酸变异引起的蛋
白质功能的变化,同时,这些多态性位点可以开发成
分子标记应用到基因的图位克隆及分子标记辅助育
种中。
参 考 文 献
[1] Brooker A J. The essence of SNPs[J]. Gene,1999,234(2):177
- 186.
[2] Gray I C,Campbell D A,Spurr N K:Single nucleotide polymor-
phisms as tools in human genetics[J]. Human Molecular Genet-
ics,2000,9(16) :2403 - 2408.
[3] Chao S,Zhang W,Akhunov E,et al. Analysis of gene-derived
SNP marker polymorphism in US wheat (Triticum aestivum L.)
cultivars[J]. Molecular Breeding,2008,23(1) :23 - 33.
78第 12 期 陈赢男等:基于 454 测序的碧桃花瓣组织转录组核苷酸变异
[4] Niu P X,Huang Z,Li C C,et al. Cloning,chromosomal localiza-
tion,SNP detection and association analysis of the porcine IRS-1
gene[J]. Molecular Biology Reports,2009,36(8):2087 - 2092.
[5] Ren G,Chen H,Zhang L Z,et al. A coding SNP of LHX4 gene
is associated with body weight and body length in bovine[J]. Mo-
lecular Biology Reports,2010,37(1) :417 - 422.
[6] Hyten D L,Choi I Y,Song Q,et al. A high density integrated ge-
netic linkage map of soybean and the development of a 1536 uni-
versal soy linkage panel for quantitative trait locus mapping[J].
Crop Science,2010,50(3) :960 - 968.
[7] Yu H H,Xie W B,Wang J,et al. Gains in QTL detection using
an ultra-high density SNP map based on population sequencing rel-
ative to traditional RFLP /SSR markers[J]. PLoS ONE,2011,6
(3) :e17595.
[8] Isshiki M,Morino K,Nakajima M,et al. A naturally occurring
functional allele of the rice waxy locus has a GT to TT mutation at
the 5’splice site of the first intron[J]. The Plant Journal,1998,
15(1) :133 - 138.
[9] Abe F,Saito K,Miura K,et al. A single nucleotide polymor-
phism in the alternative oxidase gene among rice varieties differing
in low temperature tolerance[J]. FEBS Letters,2002,527(1) :
181 - 185.
[10] Fan C,Xing Y,Mao H,et al. GS3,a major QTL for grain
length and weight and minor QTL for grain width and thickness in
rice,encodes a putative transmembrane protein[J]. Theoretical
and Applied Genetics,2006,112(6) :1164 - 1171.
[11] Edwards J D,Lee V M,McCouch S R. Sources and predictors of
resolvable indel polymorphism assessed using rice as a model
[J]. Molecular Genetics and Genomics,2004,271(3) :298 -
307.
[12] Petrov D A. Mutational equilibrium model of genome size evolu-
tion[J]. Theoretical Population Biology,2002,61(4) :531 -
544.
[13] Barbazuk W B,Emrich S J,Chen H D,et al. SNP discovery via
454 transcriptome sequencing[J]. The Plant Journal,2007,51
(5) :910 - 918.
[14] 张新叶,宋丛文,张亚东,等.杨树 EST - SSR标记的开发[J].
林业科学,2009,45(9) :53 - 59.
[15] Shu Y,Li Y,Zhu Z,et al. SNPs discovery and CAPS marker
conversion in soybean[J]. Molecular Biology Reports,2011,38
(3) :1841 - 1846.
[16] Verde I,Abbott A G,Scalabrin S,et al. The high-quality draft
genome of peach (Prunus persica)identifies unique patterns of
genetic diversity,domestication and genome evolution[J]. Na-
ture Genetics,2013,45(5) :487 - 494.
[17] Wang Lu,Zhao Shuang,Gu Chao,et al. Deep RNA-Seq uncov-
ers the peach transcriptome landscape[J]. Plant Molecular Biol-
ogy,2013,83(4 /5) :365 - 377.
[18] 李雄伟,贾惠娟,高中山.桃基因组学及全基因组关联分析研
究进展[J].遗传,2013,35(10) :1167 - 1178.
[19] 曹珂,王力荣,朱更瑞,等. 桃遗传图谱的构建及两个花性状
的分子标记[J].园艺学报,2009,36(2) :179 - 186.
[20] Verde I,Bassil N,Scalabrin S,et al. Development and evalua-
tion of a 9K SNP array for peach by internationally coordinated
SNP detection and validation in breeding germplasm[J]. PLoS
ONE,2012,7(4) :e35668.
[21] Liu J,Yin T,Ye N,et al. Transcriptome analysis of the differ-
entially expressed genes in the male and female shrub willows
(Salix suchowensis) [J]. PloS ONE,2013,8(4) :e60181.
[22] Ma Q,Feng K,Yang W,et al. Identification and characteriza-
tion of nucleotide variations in the genome of Ziziphus jujuba
(Rhamnaceae)by next generation sequencing[J]. Molecular Bi-
ology Reports,2014,41(5) :3219 - 3223.
[23] 侯小改,尹伟伦,李嘉珏,等. 部分牡丹品种遗传多样性的
AFLP分析[J].中国农业科学,2006,39(8):1709 - 1715.
[24] 田晔林,刘克锋,石爱平,等. 一串红品种遗传多样性 RAPD
分析[J].中国农学通报,2006,22(5):76 - 78.
[25] 于恒秀,王淼,梁国华,等. ISSR 引物鉴定芍药栽培品种之间
亲缘关系的初步研究[J].植物生理学通讯,2006,42(2) :271
-274.
[26] 徐勇.桃花发育相关 MADS box 基因研究[D]. 北京:首都师
范大学生命科学学院,2007.
[27] 赵辉,李启寨,李俊,等.相邻碱基组分与产生 SNP 的转换或
颠换在植物基因组中的研究[J]. 中国科学:C 辑,2006,36
(1):1 - 8.
[28] 唐萍,王强,陈建群. 茄科植物叶绿体基因组插入,缺失和核
苷酸替代的发生方式及影响[J].遗传,2008,30(11):1506 -
1512.
[29] Li W H,Wu C I,Luo C C. Nonrandomness of point mutation as
reflected in nucleotide substitutions in pseudogenes and its evolu-
tionary implications[J]. Journal of Molecular Evolution,1984,21
(1) :58 - 71.
[30] Wakeley J. The excess of transitions among nucleotide substitu-
tions:new methods of estimating transition bias underscore its
significance[J]. Trends in Ecology Evolution,1996,11(4) :158
-162.
[31] Bird A P. DNA methylation and the frequency of CpG in animal
DNA[J]. Nucleic Acids Research,1980,8(7) :1499 - 1504.
[32] Gruenbaum Y,Naveh Many T,Cedar H,et al. Sequence speci-
ficity of methylation in higher plant DNA[J]. Nature,1981,292:
860 - 862.
[33] Sato K,Close T J,Bhat P,et al. Single nucleotide polymor-
phism mapping and alignment of recombinant chromosome substi-
tution lines in barley[J]. Plant and Cell Physiology,2011,52
(5) :728 -737.
[34] 刘峰,谢玲玲,弭宝彬,等.辣椒转录组 SNP 挖掘及多态性分
析[J].园艺学报,2014,41(2) :343 - 348.
[35] 孙宽,张素华,朱如心,等. 新一代遗传标记:InDel 研究进展
[J].法医学杂志,2013,29(2) :134 - 139.
[36] 张体付,葛敏,韦玉才,等. 玉米功能性 Insertion /Deletion(In-
Del)分子标记的挖掘及其在杂交种纯度鉴定中的应用[J].
玉米科学,2012,20(2) :64 - 68.
[37] Batley J,Barker G,O’Sullivan H,et al. Mining for single nu-
cleotide polymorphisms and insertions /deletions in maize ex-
pressed sequence tag data[J]. Plant Physiology,2003,132(1) :
84 - 91.
[38] Tenaillon M I,Sawkins M C,Anderson L K,et al. Patterns of
diversity and recombination along chromosome 1 of maize (Zea
mays ssp. mays L.) [J]. Genetics,2002,162(3) :1401 -

1413.
(上接 62 页)
[13] 李云,周建斌,董燕捷.黄土高原不同植物凋落物的分解特性
[J].应用生态学报,2012,23(12) :3309 - 3316.
[14] 杨文龙,邵棉丽,黄慧.福州城市森林凋落物动态及其归还量
[J].亚热带资源与环境学报,2013,8(6) :49 - 55.
[15] 王欣,高明达,杨飞.不同林龄华北落叶松人工林叶凋落物分
解及其养分动态比较[J].东北林业大学学报,2012,40(10):
56 - 66.
[16] 李雪峰,韩士杰,郭忠玲,等. 红松阔叶林内凋落物表层与底
层红松枝叶的分解动态[J].北京林业大学学报,2006,28(3) :8
-13.
[17] Yang S,Hou J H,Zhao X H,et al. Biomass estimation model of
shrub in broad leaved Korean pine (Pinus koraiensis)mixed for-
est in Jiaohe,Jilin province[J]. Guangdong Agricultural Sci-
ences,2013,40(9) :36 - 41.
[18] Berg B,Berg M P,Bottner P,et al. Litter mass loss rates in
pine forests of Europe and Eastern United States:Some relation-
ships with climate and litter quality[J]. Biogeochemistry,1993,
20(3) :127 - 159.
[19] 郭忠玲,郑金萍,马元丹.长白山各植被带主要树种凋落物分
解速率及模型模拟的试验研究[J].生态学报,2006,26(4) :
1037 - 1046.
[20] Joseph J H,Wilson C A,Boring L R. Foliar litter position and
decomposition in a fire-maintained longleaf pine-wiregrass ecosys-
tem[J] . Canadian Journal of Forest Research,2002,32(6) :928
-941.
[21] Salamanca E,Kaneko N,Kntagiri S. Nutrient dynamics and
lignocellulose degradation in decomposing Quercus serrata leaf lit-
ter[J] . Ecological Research,1998,13(2) :199 - 210.
88 东 北 林 业 大 学 学 报 第 42 卷