免费文献传递   相关文献

SSR Mining and Development of EST-SSR Markers for Cunninghamia lanceolata Based on Transcriptome Sequences

杉木转录组SSR挖掘及EST-SSR标记规模化开发



全 文 :第 51 卷 第 11 期
2 0 1 5 年 11 月
林 业 科 学
SCIENTIA SILVAE SINICAE
Vol. 51,No. 11
Nov.,2 0 1 5
doi:10.11707 / j.1001-7488.20151106
收稿日期: 2015 - 06 - 01; 修回日期: 2015 - 07 - 23。
基金项目: 国家自然科学基金项目(30972357) ; 湖南省自然科学基金项目(10JJ2018)。
杉木转录组 SSR挖掘及 EST-SSR标记规模化开发
文亚峰1 韩文军2 周 宏3 徐刚标2
(1. 中南林业科技大学风景园林学院 长沙 410004; 2.中南林业科技大学林学院 长沙 410004;
3.广东省韶关市林业局 韶关 512000 )
摘 要: 【目的】为解决杉木 SSR 标记数量不足、已开发的位点多态性较差等问题,以杉木转录组测序数据为基
础,结合多重 PCR 技术批量挖掘 SSR,规模化开发 EST-SSR 位点,为杉木分子遗传学研究奠定良好基础。【方法】
杉木转录组序列数据(Accession: SRX151872)从 NCBI 的 SRA 数据库下载。利用 CLC 和 CMiB 软件批量挖掘 SSR
位点; 利用四色荧光标记通用引物多重 PCR(multiplex-PCR)技术实现 SSR 标记的规模化开发。【结果】杉木转录
组 de novo assembly 序列拼接共得到 35 633 个 contigs,总长度 31. 5 Mb,其中最小拼接长度 155 bp,最大 23 794 bp,
平均长度 884 bp。得到 2 156 个 SSR 位点,分布于 1 822 个 contigs 中,其中 256 个 contigs 中包含 1 个以上 SSR 位
点,复合型 SSR 数量为 118 个,SSR 平均分布密度为 68. 4 个 /Mb。不同 SSR 重复单元(motif)中,三核苷酸 SSR 重
复单元数量最多,占总数的 41. 7%。批量引物设计得到 1 582 个有效位点的引物对,占 SSR 位点总数的 73. 4%。
利用四色荧光标记通用引物多重 PCR 检测技术,对 35 个候选标记位点进行多态性检测,其中 28 个位点具有多态
性,多态性位点比例达到 80%,检测位点多态信息含量(PIC)平均值为 0. 573,表明所开发的 EST-SSR 位点具有很
高的多态性。PCA 分析结果表明,28 个 EST-SSR 多态性位点具有很强的鉴别杉木不同地理种源,甚至同一种源
不同单株的能力。【结论】将转录组 SSRs 挖掘和四色荧光标记通用引物多重 PCR 技术相结合,成功建立杉木
EST-SSR 高效开发流程和方法,得到较多高质量的 EST-SSR 标记位点,这些位点已用于后续杉木遗传多样性保护
研究。与传统 SSR 标记位点开发技术相比较,转录组海量序列为高质量多态性位点的选择可提供充足的数据保
证。四色荧光标记通用引物基因分型结果清晰、稳定可靠,不但试验成本仅为原来的 10% ~ 15%,而且结合多重
PCR 扩增技术,可使试验效率提高 5 ~ 6 倍。新方法的建立和应用不仅能促进杉木分子遗传学相关研究,而且对其
他非模式生物或新物种 SSR 标记开发也具有重要的参考作用。
关键词: 杉木; 微卫星标记; EST-SSR; 转录组; 序列从头拼接
中图分类号: S718. 46 文献标识码: A 文章编号: 1001 - 7488(2015)11 - 0040 - 10
SSR Mining and Development of EST-SSR Markers for Cunninghamia
lanceolata Based on Transcriptome Sequences
Wen Yafeng1 Han Wenjun2 Zhou Hong3 Xu Gangbiao2
(1 . College of Landscape Architecture,Central South University of Forestry and Technology Changsha 410004;
2 . College of Forestry,Central South University of Forestry and Technology Changsha 410004;
3 . Shaoguan Forestry Administration,Guangdong Province Shaoguan 512000)
Abstract: 【Objective】Chinese fir ( Cunninghamia lanceolata) is an important timber species distributed mainly in
southern China. Current genetic analyses of this species lag behind other conifer species due to the limitation of available
molecular markers. Accordingly,transcriptome sequence data were used to improve the efficiency of SSR development for
the species. 【Method】Utilizing Chinese fir transcriptome sequences from the Sequence Read Archive (SRA) database of
NCBI. CLC and CMiB software were used to assemble sequence reads,to mine SSRs and design PCR amplicon primers for
contigs that contained SSRs. Four universal fluorescent labeling primers and multiplex PCR were used to accomplish
genotyping for polymorphic loci. 【Result】De novo assembly produced 35 633 contigs,the total length was 31. 5 Mb,of
which mini- and max-contigs were 155 bp and 23 794 bp,respectively,with an average length of 884 bp. In total,2 156
SSRs were identified distributed in 1 822 (5. 11% ) contigs,with threshold repeat numbers of 6,5,4,3 and 2 for di-,
第 11 期 文亚峰等: 杉木转录组 SSR 挖掘及 EST-SSR 标记规模化开发
tri-,tetra-,penta- and hexa-SSRs,respectively. 256 contigs contained one or more SSRs,and the numbers of compound
SSR contigs was 118. The average SSR density was 68. 4 SSRs·Mb - 1 . The most common SSR types were tri-SSRs
(41. 7% ),followed by hexa-(29. 8% ),penta-(12. 7% ),di-(11. 1% ) and tetra-(4. 7% ) . EST-SSR markers based
on the 1 822 SSR-containing contigs were developed,of which 1 582 contigs could design primer pairs. Of the 35 primer
pairs designed,29 produced clear PCR fragment patterns with one or two bands. Polymorphic genotypes were obtained for
28 loci (80% ) with the number of alleles per locus ranging from 3 to 12 for the 16 studied individuals. The average PIC
value was 0. 573,which indicates that the identified EST-SSR markers have a high degree of polymorphism. Principal
Coordinates Analysis ( PCA ) showed that these EST-SSR loci can be used for identifying the provenances, even
individuals of Chinese fir. 【Conclusion】Combined SSRs mining and multiplex-PCR methods,we established the flow
chart of EST-SSR markers development from transcriptome sequences of Chinese fir,and developed 28 polymorphic EST-
SSR loci. These markers have been used in our ongoing analysis of genetic diversity in Chinese fir. Compared with
traditional methods of SSR markers development,our method significantly improved PCR efficiency and dramatically
reduced project costs. The new technologies will promote molecular genetics studies in Chinese fir,and also provide a
basis for SSR marker development in other species.
Key words: Cunninghamia lanceolata; microsatellite markers; EST-SSR; transcriptome sequences; de novo assembly
微卫星也称 SSR( simple sequence repeat,简单
重复序列),是以 1 ~ 6 个核苷酸碱基(bp)为重复单
元(motif)组成的简单串联重复序列 ( short tandem
repeat)。与同类分子标记技术相比,微卫星标记具
有多态性高、呈共显性遗传、重复性好、实验操作容
易等特点( Jarne et al.,1996),在人类医学、动物、植
物及微生物等学科领域得到了广泛应用。然而,微
卫星标记的特异性一定程度上限制了其引物的通用
性(Glenn et al.,2005)。对基因序列未知的物种而
言,微卫星标记的开发较为困难。传统微卫星标记
开发以基因文库构建法(包括 SSR 富集文库)为主
(Hamilton et al.,1999; Zane et al.,2002),其实验过
程繁杂、费时费力、效率较低。微卫星标记还可以利
用公共基因数据库(NCBI,EMBL,DDBJ)中的共享
序列来设计开发,但对于非模式生物或新物种来
说,有限的基因序列资源依然是微卫星标记开发的
瓶颈。2005 年以来,第二代高通量测序技术的发展
为规模化遗传变异检测(O’Neill et al.,2013)和标
记位点开发 ( Davey et al.,2011; Yu et al.,2011;
Pandey et al.,2013)带来了新机遇。但利用高通量
测序数据开发 SSR 标记,目前仍面临 2 个方面的挑
战: 一是海量测序数据对生物信息学方法和技术的
挑战,二是规模化 SSR 挖掘对标记位点开发的挑
战。如何利用高通量测序数据高效、快速地开发微
卫星标记位点,是当前分子遗传学领域研究的热点
之一。
杉木 ( Cunninghamia lanceolata)是我国南方重
要的用材林树种,具有生长快、产量高、材质好、用
途广等特点。但杉木分子遗传学研究基础薄弱,严
重滞后于杨树、桉树、松树等其他用材林树种。目前
杉木分子研究所用的标记仍以 RAPD (尤勇等,
1998)、ISSR (齐明,2008 ) 和 AFLP ( Chung et al.,
2004)等显性标记为主。近年来,杉木微卫星标记
开发有所报道(张圣等,2013; 徐阳等,2014),其
原始序列来源于公共数据库中有限的 EST 或基因
组数据,因而开发得到的 SSR 位点多态性均不理
想。为解决杉木 SSR 标记数量不足、多态性位点质
量差等问题,本文以杉木转录组测序数据为基础,
从中批量挖掘 SSR,利用四色荧光标记通用引物多
重 PCR(multiplex-PCR)技术,规模化开发杉木 EST-
SSR 标记。新方法不仅能大幅度提高 SSR 开发效
率,而且能够显著降低开发试验成本,目前已得到
了一定数量的高质量 EST-SSR 多态性位点。SSR 标
记规模化挖掘与开发新技术的应用,将极大地促进
杉木分子遗传学相关研究,对其他非模式生物或新
物种 SSR 标记开发也具有重要的参考作用。
1 材料与方法
杉木转录组序列数据(Accession: SRX151872)
从 NCBI ( National Center of Biotechnology
Information)的 SRA(Sequence Read Archive)数据库
下 载 ( http: ∥ www. ncbi. nlm. nih. gov / sra /
SRX151872)。该转录组以 Illumina Genome Analyzer
Ⅱ为平台测序获得,20 μg RNA 测序样本由杉木种
子、叶、茎和根部组织所提取的 RNA 等量混合而成。
1. 1 序列的预处理
下载得到杉木转录组 SRR504919. sra 格式文件
(1. 5 Gb),利用 NCBI 提供的 fastq-dump 软件将其
14
林 业 科 学 51 卷
转化为 SRR504919. fastq 文件(6. 5 Gb),用于后续
分析。杉木转录组原始序列含 27 666 670 paired-
end reads,平均长度 90 bp,共有 2 490 000 300 个
核苷酸(2. 49 Gb),其中 G + C( guanine + cytosine)
含量为 40%。
图 1 利用杉木转录组序列开发 EST-SSR 标记技术流程
Fig. 1 Flow chart for EST-SSR markers development from transcriptome sequences of Cunninghamia lanceolata
1. 2 序列的拼接与装配
利用商业软件 CLC 遗传工作平台 5. 0( http:∥
www. clcbio. com)提供的 de novo assembly 程序对预
处理后的转录组数据进行拼接。序列质量控制参数
设置为: Removal of low quality sequence, limit =
0. 05; Removal of ambigious nucleotides,maximal 2
nucleotides allowed。序列拼接完成后,剔除其中
100 bp 以下的短序列,将序列数据转化为 fasta 文
件待用。
1. 3 SSR 批量挖掘与引物设计
利用 CMiB 软件包(Ueno et al.,2012)进行规模
化 SSR 挖掘、批量引物设计及电子 PCR。CMiB 有
效组 合 了 CD-HIT-EST ( Li et al.,2006 )、MISA
(Thiel et al.,2003)、Primer3 (Rozen et al.,2000)、
ipcress (Slater et al.,2005)和 BlastCLUST (Altschul
et al.,1990)等程序,其操作流程如图 1 所示: 首先
用 MISA 软件对拼接得到的 contigs 进行 SSR 检测,
得到含有设定参数(二、三、四、五、六核苷酸重复单
元,其重复数分别须大于 6,5,4,3,3)的 SSR 序列
24
第 11 期 文亚峰等: 杉木转录组 SSR 挖掘及 EST-SSR 标记规模化开发
文件; CD-HIT-EST 程序对含有 SSR 的 EST 序列进
行聚类并排序(按序列长度从大到小),剔除其中相
似或相同的冗余序列; Primer3 用于批量引物设计;
ipcress 程序根据所设计的引物进行电子 PCR,得到
特定位点可能的 PCR 产物序列; 最后,BlastCLUST
程序会对电子 PCR 产物进行聚类排序,筛选其中
最短的序列作为该位点的最优扩增结果。
转录组拼接序列( contigs)经 CMiB 软件包处理
后,最终得到的是所有 SSR 位点的详细信息,包括
检测序列中所含的 SSR 数量、SSR 重复单元频率与
分布、SSR 位点引物对及电子 PCR 产物长度等。
1. 4 四色荧光标记通用引物多重 PCR 检测技术
从挖掘得到的 SSR 序列中选择 motif 重复数大
于 9 的 35 个位点合成引物,正向引物 5端添加通
用序列接头(A,B,C 或 D,其序列分别为: Tail A
5-GCCTCCCTCGCGCCA-3; Tail B 5-GCCTTGCC
AGCCCGC-3; Tail C 5-CAGGACCAGGCTACCGTG-
3; Tail D 5-CGGAGAGCCGAGAGGTG-3),利用四
色荧光标记通用引物多重 PCR 技术(Blacket et al.,
2012)对候选位点的多态性进行规模化检测。多重
PCR 扩增体系中含有 3 个引物,包括添加了通用序
列接头的正向引物( F)、反向引物(R)以及有荧光
标记的通用引物 Tail A(FAM)、Tail B(HEX)、Tail C
(NED)或 Tail D(PET)。同一 PCR 反应中,正向引
物(F)须与相应的荧光标记通用引物一致。四色荧
光标记通用引物多重 PCR 基因分型的步骤如下:
首先,选用 2 个杉木样本材料检测候选位点能
否成功扩增,单个位点 PCR 扩增按 QIAGEN 
Multiplex PCR 试剂盒方法进行,PCR 反应体系
(10. 0 μL)中含 2 × Multiplex PCR master 混合液
5. 0 μL,10 × 引物混合液 1. 0 μL 和 5 ~ 10 ng DNA
模板 1. 0 μL。10 × 引物混合液由 1. 0 μmol·L - 1的
荧光标记通用引物( Tail A,Tail B,Tail C 或 Tail
D)、2. 0 μmol·L - 1正向引物( F)和 2. 0 μmol·L - 1反
向引物(R)组成。PCR 反应条件为: 95 ℃预变性
15 min; 94 ℃变性 30 s,60 ℃退火 90 s,72 ℃延伸
60 s,共 35 个循环; 60 ℃延伸 30 min。扩增产物利
用 2% 的琼脂糖凝胶电泳检测其是否能成功扩增
(有无扩增条带)。
其次,利用多重 PCR 技术对成功扩增位点的多
态性进行检测。16 个杉木优树单株(不同家系或无
性系)用于评估其多态性,其中 12 株 ( Y6,Y18,
J5, J80, Ht14, Ht16, Jh10, Jh16, Y26, J18,
2-110,2-1116 ) 来源于湖南省攸县杉木种子园
(27°18 N,113°47 E),4 株 ( Lc6,Lc12,Lc18,
Lc418) 来源于广东省乐昌市龙山杉木种子园
(25°12 N,113°28 E)。多重 PCR 反应体系(10. 0
μL)中含2 × Multiplex PCR master 混合液 5. 0 μL,
10 ×引物混合液 1. 0 μL,5 ~ 10 ng DNA 模板 1. 0 ~
2. 0 μL (根据引物数量进行调整)。10 ×引物混合
液由5 ~ 6 个候选位点引物混合而成,其中含 0. 5 ~
2. 0 μmol·L - 1的荧光标记通用引物(引物浓度根据
不同颜色荧光强度或基因片段峰值大小进行调
整)、2. 0 μmol·L - 1正向引物(F)和 2. 0 μmol·L - 1反
向引物(R),PCR 反应条件与第 1 轮相同。多重
PCR 产物稀释 5 ~ 10 倍后,在 ABI3100 测序仪上基
因分型(Liz 600 为内标),GeneScan 收集基因分型
结果,基因片段分析用 Genotyper3. 7 软件。
最后,利用 GenAlEx 6. 3 软件 ( Peakall et al.,
2006)分析不同位点遗传多样性参数,包括每个位
点的等位基因数(N a )、观测杂合度(H o )、期望杂合
度(H e)、近交系数(F IS )等。Ms-tool 软件用于位点
多态性信息含量分析,Genepop v4. 0. 10 ( http:∥
genepop. curtin. edu. au / index. html ) 用于 Hardy-
Weinberg 和 Linkage Disequilibrium 检验,无效等位
基因检测用 Micro-check 2. 2. 3 软件,Blast2GO 软件
对含有 SSR 的 EST 序列进行基因功能注释。
1. 5 多态性位点的有效性评估
利用 GenAlEx 6. 3 软件对 16 个杉木优树(不同
家系或无性系)进行主成分分析(PCA),确定其遗
传关系。并根据不同优树的来源和已知遗传信息,
对多态性位点的有效性进行评估。
2 结果与分析
2. 1 转录组序列拼接结果
杉木转录组序列经 CLC 剪切(去除低质量和污
染序列)后有 27 627 141 paired-end reads 用于后续拼
接。de novo assembly 序列拼接结果见表 1,共得到
35 633 个 contigs,其中最小拼接长度 155 bp,最大
23 794 bp,总长度 31. 5 Mb,平均长度 884 bp,N75,
N50,N25 长度分别达到了 705,1 396,2 218 bp。
2. 2 SSR 分布特征与数量
35 633 个 contigs 中挖掘得到 2 156 个 SSR 位
点,分布于 1 822 个 contigs 中,其中 256 个 contigs
中包含 1 个以上 SSR 位点,复合型 SSR 数量为 118
个,SSR 平均分布密度为 68. 4 个·Mb - 1。杉木 SSR
不同重复类型数量与分布比例见表 2,其中三核苷
酸 SSR 重复类型数量最大,有 900 个,占 SSR 总数
的 41. 7% ; 其次为六核苷酸重复单元类型和五核苷
酸重复类型,分别占 SSR 位点总数的 29. 8% 和
34
林 业 科 学 51 卷
12. 7% ; 二 核 苷 酸 重 复 类 型 较 少,占 总 数 的
11. 1%。在三核苷酸重复类型的位点中,AAG 重复
单元分布频率最高,共有 239 个,占该重复类型位
点数的 26. 6%。最高比例的二核苷酸重复单元是
AG 和 AT,各有 109 个,分别占 45. 6% (图 2)。
表 1 杉木转录组 CLC 拼接结果
Tab. 1 Length distribution of assembled contigs of
transcriptome sequences of C. lanceolata
using CLC software
核苷酸长度
Nucleotide length / bp
Contigs 数量
Number of contigs
比率
Rate(% )
155 ~ 200 119 0. 33
201 ~ 300 7 455 20. 92
301 ~ 400 5 409 15. 18
401 ~ 500 3 385 9. 50
501 ~ 1 000 8 375 23. 50
1 001 ~ 1 500 4 540 12. 74
1 501 ~ 2 000 2 875 8. 07
2 001 ~ 2 500 1 685 4. 73
2 501 ~ 3 000 850 2. 39
> 3 000 940 2. 64
总序列数 Total contigs 35 633 100
最小拼接长度 Minimum contig / bp 155
最大拼接长度 Maximum contig / bp 23 794
N75 长度 N75 length / bp 705
N50 长度 N50 length / bp 1 396
N25 长度 N25 length / bp 2 218
平均长度 Average length / bp 884
总计核苷酸长度
Total nucleotide length / bp
31 515 850
2. 3 四色荧光标记通用引物多重 PCR 检测结果
试验发现,多重 PCR 扩增及基因分型过程中,
不同引物的荧光强度(基因片段峰值)存在较大差
异。可以通过调整荧光标记通用引物的浓度,使不
同颜色引物的荧光强度达到较为一致的水平,以便
于基因型检测和分析。Tail C(NED)引物荧光强度
最强,其浓度以 0. 5 μmol·L - 1为宜,Tail B(HEX)
引物浓度以 1. 0 μmol·L - 1为宜,Tail A( FAM)引物
浓度以 1. 5 μmol·L - 1为宜,而 Tail D (PET)引物的
荧光强度普遍较弱,浓度以 2. 0 μmol·L - 1较为合
适。如果不同颜色引物的荧光强度均较低,可将
DNA 模板的量增加到 2. 0 μL,以满足多个引物对
DNA 量的较大需求。
35 个候选标记位点中,29 个成功扩增位点(表
3)根据其正向引物 F 端接头所对应的通用引物荧
光标记颜色(FAM,HEX,NED 或 PET),以及各位点
扩增片段分子量大小,可分为 5 个引物组合(每组
各含 5 ~ 6 个位点),即需要 5 次 PCR 和基因分型可
完成全部 29 个位点的多态性检测。与早期所使用
的通用引物(M13 等)基因分型方法相比较,本试验
所建立的杉木四色荧光标记通用引物基因分型方法
结果清晰、稳定可靠(图 3),不但试验成本仅为原来
的 10% ~ 15%,而且,结合多重 PCR 扩增技术,使试
验效率提高了 5 ~ 6 倍。
2. 4 多态性位点的特点
2 156 个 SSR 位点中有 1 582 个能成功设计引
物,占 SSR 位点总数的 73. 4%。从二、三核苷酸重
复单元类型中选择 SSR 重复数大于 9 的位点 35 个
合成引物,从中筛选多态性位点。16 个杉木样本
基因分型结果表明,所检测的 35 个 EST-SSR 位点
中,5 个位点没有扩增成功(无扩增条带),1 个位
点有杂带(条带数量大于 2),29 个位点产生 1 ~ 2
条带 (表 3 ),其中 28 个位点具有多态性 (Wen
et al.,2013),多态性位点比率达到 80%。多态性
位点的等位基因数为 3 ~ 12 不等,位点多态信息含
量(PIC)变动幅度为 0. 210 ~ 0. 881,平均为 0. 573,
大于 0. 5,说明所开发的 EST-SSR 位点具有很高的
多态性。
表 2 杉木 SSR 重复类型及其分布频率
Tab. 2 SSR motif types and frequency of C. lanceolata
重复类型
Motif types
重复数 Motif number
3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
总数
Total
比率
Rate(%)
二核苷酸 Dinucleotide — — — 137 37 21 23 8 7 3 2 0 0 0 0 1 239 11. 1
三核苷酸 Trinucleotide — — 571 212 72 24 10 7 2 2 0 0 0 0 0 0 900 41. 7
四核苷酸 Tetranucleotide — 75 24 2 0 0 0 0 0 0 0 0 0 0 0 0 101 4. 7
五核苷酸 Pentanucleotide 234 31 8 1 0 0 0 0 0 0 0 0 0 0 0 0 274 12. 7
六核苷酸 Hexanucleotide 536 86 16 3 1 0 0 0 0 0 0 0 0 0 0 0 642 29. 8
总数 Total 770 192 619 355 110 45 33 15 9 5 2 0 0 0 0 1 2 156 100. 0
44
第 11 期 文亚峰等: 杉木转录组 SSR 挖掘及 EST-SSR 标记规模化开发
图 2 杉木二、三核苷酸重复单元 SSR 分布频率及重复数
Fig. 2 Frequency distribution of di- and tri-SSRs by motif and repeats number of C. lanceolata
图 3 同一引物组合中 6 个 EST-SSR 位点多重 PCR 基因分型结果
Fig. 3 GeneScan result of 6 EST-SSR loci in a same primer combination by multiplex PCR
2. 5 多态性位点的有效性
PCA 分析结果(图 4)显示,16 个杉木优良单株
可被清楚地分开,其中来源于乐昌市龙山杉木种子
园的 4 株优树( Lc6,Lc12,Lc18 和 Lc418)位于二维
散点图的右上端,彼此间显示出较近的亲缘关系。
来源于湖南攸县杉木种子园的 12 株优树,在图中
分布较为松散,部分个体间有较远的亲缘关系,这
是因为这些优树来源于地理距离较远的不同种源。
PCA 分析结果表明,28 个 EST-SSR 多态性位点具
有很强的鉴别杉木不同地理种源,甚至同一种源不
同单株的能力。
54
林 业 科 学 51 卷
表 3 杉木 EST-SSR 位点信息①
Tab. 3 Characteristics of EST-SSR markers developed for C. lanceolata
位点
Locus
引物序列
Primer sequence (5—3)
重复单元
Motif
基因注释
Blastx top hit
description
GenBank
登录号
Accesson No.
contig33_
11946A*
F: GCCTCCCTCGCGCCAAGATTCGATTAGAACAGAGAACGG
R: GACAAATGTAGAGGTACAAGCATGAG
(AT) 9 N
AB757710
AB757711
contig3078_
1424
F: GCCTCCCTCGCGCCACAATCAGCCAAGTTGTACAGGC
R: CATACCTTAGCAAAGCCCTCAGC
(AT) 8 (AG) 18 N
AB757708
AB757709
contig3400_
101A
F: GCCTCCCTCGCGCCATGAAATTGCGTTGTACCGAAGG
R: TAACGAGACGAGCGACAATCTCC
(GA) 13 N
AB749554
AB749555
contig5354_
691A
F: GCCTCCCTCGCGCCAGATCCTCTGGTACTTGGTGCCC
R: TGCAAAGTCATGTCATCTCTGGC
(AT) 9 N
AB749556
AB749557
contig5410_
1886A
F: GCCTCCCTCGCGCCAGGCTCGAGTTTGCATCTCACAC
R: CACATCCAATCCATACAGGAGGG
(TC) 9 N
AB749558
AB749559
contig9724_
201A
F: GCCTCCCTCGCGCCAGGTCCGGGCATTTAGAGTCATC
R: GCTCAGATCCAAGGTGACTCAGG
(AT) 9 N
AB749560
AB749561
contig16147_
262A
F: GCCTCCCTCGCGCCATGAATGGACTGCCACAAATTCC
R: TTCTTTGCAGGAAAGCCAACAAG
(AG) 11 N
AB749550
AB749551
contig16322_
179A
F: GCCTCCCTCGCGCCACTGGCATGTAAAGACCATGTTAGG
R: GGCTGAGCCTTTAGTGTATCTTCCC
(TA) 9 N
AB749552
AB749553
contig1382_
349B
F: GCCTTGCCAGCCCGCCTTAAGATAGCAGCGGGAATGG
R: CTTGCTCGATTTCTTGCATCTGG
(CT) 11 N
AB749562
AB749563
contig1997_
271B
F: GCCTTGCCAGCCCGCAGAAATGTATACGGACCCTGCG
R: AAATCAAAGCACACGGTGAGAGC
(TA) 9 N
AB749564
AB749565
contig4417_
459B
F: GCCTTGCCAGCCCGCAAGAGAAGAGGAGGAGGTCCAAG
R: CAGGAGCAGGTGCAGTAGCATTC
(AG) 9 N
AB749570
AB749571
contig4728_
384B
F: GCCTTGCCAGCCCGCATTATCCGAGGCAGATACGCAC
R: CTTCTCCGTATTTGATCCATCGC
(GGA) 10 N
AB749572
AB749573
contig7616_
683B
F: GCCTTGCCAGCCCGCGAGCCGTGAAGAACGAAGGTCTC
R: ACGATCGGATTGTCTCAGAAACG
(GAA) 12 N
AB749574
AB749575
contig7671_
1267B
F: GCCTTGCCAGCCCGCTGATCTTGGCATGTCAGTCTGG
R: TGTCTGTCTGCCTGCAGTTATGC
(AT) 9 N
AB749576
AB749577
contig20158_
829B
F: GCCTTGCCAGCCCGCTCCACACCTTGCTGCTCTCTTC
R: GAGATTAGGGCACTAGCGATGGG
(AT) 9 N
AB749566
AB749567
contig25400_
116B
F: GCCTTGCCAGCCCGCAGCGATTAGAATCCGAGCAGAG
R: GCTCGAGATCTGCGTAGGAAGTG
(ATC) 9
促花因子蛋白
Hypothetical protein of
flowing promoting factor
AB749568
AB749569
contig406_
1209C
F: CAGGACCAGGCTACCGTGTCATCAGCCTCAGTTTGTACTTGC
R: GCAATCATGGGCTCTCTGCAC
(AT) 9 N
AB749584
AB749585
contig2573_
171C
F: CAGGACCAGGCTACCGTGAATGCGACTTGCAAATTTCTGG
R: CGAATTCCTCAATCACTTGGCTG
(AGA) 10 N
AB749582
AB749583
contig6064_
1563C
F: CAGGACCAGGCTACCGTGCACAGTCAATGTCCGTTATCGTTC
R: AATGGCAGCAACATCAGAAATGG
(TA) 9 N
AB749586
AB749587
contig6319_
250C
F: CAGGACCAGGCTACCGTGGCGGCCATTTATATCATCTTC
R: CACGCCTGTAATTCATCTCCGTC
(GAA) 9 N
AB749588
AB749589
contig12886_
2058C
F: CAGGACCAGGCTACCGTGGGAGCCCTTAGAGTTACGGAG
R: TGGGCTCCATTCATTTGTACTGC
(ATA) 9 N
AB749578
AB749579
contig16181_
1285C
F: CAGGACCAGGCTACCGTGGGTACTGCGAATCTTCAAATCC
R: TGTTCAAGAAAGGAAGCAAACGG
(TC) 9 N
AB749580
AB749581
contig476_
526D
F: CGGAGAGCCGAGAGGTGTTTGGGACCTTATGGAGGTGGAG
R: AAACCACCAGGTTGAGAAGCAGC
(GGA) 9 N
AB749602
AB749603
contig1560_
1789D
F: CGGAGAGCCGAGAGGTGTTTCGGCTCTCCGACTCCTTAAC
R: AGAATCGCGTCCAGAACACAGAG
(CT) 11 N
AB749594
AB749595
contig4056_
974D
F: CGGAGAGCCGAGAGGTGTCCAGGAGTCTGTGAATCCGAAG
R: CAGTACCAATTCAACCCAGCAGC
(CTG) 9 N
AB749600
AB749601
contig10192_
1677D
F: CGGAGAGCCGAGAGGTGTCAAGAAGTTCCGCCATTGAGAG
R: CCCATGAGGATTCAGAAACATGC
(CTT) 10 N
AB749590
AB749591
contig14033_
236D
F: CGGAGAGCCGAGAGGTGTTAATGGTGCAAGGTGGAATTGG
R: TTGAATCCCACTGATCACACTGC
(GAA) 10 N
AB749592
AB749593
contig16781_
913D
F: CGGAGAGCCGAGAGGTGCTGTTTGTACATTGGCCTCGAC
R: TCACAAACCACTGTGCTGGAATG
(CTC) 9 N
AB749596
AB749597
contig18815_
185D
F: CGGAGAGCCGAGAGGTGGTTGGGATGTCATCAAGATTGG
R: TGAAAGAGGCGGAAATTGGTAGG
(TC) 11 N
AB749598
AB749599
①contig33_11946A 是单态位点; N 表示未找到相似功能基因。 contig25400 _116B,E 值为 3. 1E - 13。 contig33 _11946A is monomorphic
locus. N: No hits found. contig25400_116B,E-value is 3. 1E - 13.
64
第 11 期 文亚峰等: 杉木转录组 SSR 挖掘及 EST-SSR 标记规模化开发
△ 优树来源于乐昌市龙山杉木种子园 Plus trees collected from Lechang seed orchard of Chinese fir
◆ 优树来源于湖南攸县杉木种子园 Plus trees collected from Youxian seed orchard of Chinese fir
图 4 来源于 2 个种子园 16 个杉木优树的 PCA 分析结果
Fig. 4 PCA result of 16 individuals from two seed orchards of C. lanceolata
3 结论
本文利用公共序列数据库(NCBI)中的杉木转
录组开发 EST-SSR 标记位点,得到以下主要结论:
1) 与传统 SSR 标记开发技术相比较,建立的杉木
EST-SSR 高效开发流程和方法有效结合了海量序列
数据挖掘与通用引物多重 PCR 技术,大幅度提高了
SSR 标记开发效率,显著降低了试验成本。2)杉木
转录组 SSR 平均分布密度为 68. 4 个·Mb - 1,其中,
三核苷酸和六核苷酸是主要的 SSR 重复类型,占
SSR 位点总数的 71. 5%。开发得到的 28 个 EST-
SSR 位点多态性高,分辨率强,能有效用于杉木遗传
多样性保护研究。
4 讨论
4. 1 杉木转录组 SSR 和 EST-SSR 位点特征
杉木转录组 SSR 平均分布密度为 68. 4 个·
Mb - 1,明显低于日本柳杉 ( Cryptomeria japonica )
(Ueno et al.,2012 ),但高于火炬松(Pinus taeda)、
白 云 杉 ( Picea glauca )、恩 格 曼 云 杉 ( Picea
engelmannii)和北美云杉(Picea sitchensis) (Bérubé et
al.,2007)。SSR 重复类型(motif)中,三核苷酸重
复类型 数量 最 大,有 900 个,占 SSR 总 数 的
41. 7% ; 其次为六核苷酸重复类型,占 SSR 位点总
数的 29. 8%。这可能与基因密码子有关,生物体信
使 RNA 分子上的 3 个碱基决定 1 个氨基酸,EST 序
列位于基因的编码区,直接与功能基因表达相关,
因此转录组序列中三核苷酸、六核苷酸 SSR 重复类
型的比例也相应较大。
与之前杉木 SSR 位点的开发研究相比 (张圣
等,2013; 徐阳等,2014),本研究以杉木转录组序
列为基础,海量序列为高质量多态性位点的选择提
供了充分的数据保证。所合成的 35 个引物中,多
态性位点比例达到了 80%。根据作者的经验,SSR
位点重复单元的重复数如果小于 6,则很难产生多
态性。本次开发得到的 28 个 EST-SSR 多态性位
点,SSR 重复单元重复数均超过 9,有 18 个位点的
多态性信息含量(PIC)大于 0. 5,是高多态性位点。
16 个优良单株的检测表明,28 个位点的等位基因
数 3 ~ 12 不等,平均为 5. 71。这些 EST-SSR 位点已
用于杉木遗传多样性保护研究。
4. 2 利用第二代测序技术开发 SSR 位点的共性
问题
第二代高通量测序技术解决了传统微卫星标记
开发的瓶颈问题,开启了大规模微卫星标记开发的
新时代(程晓凤等,2011; Castoe et al.,2012; Zalapa
et al.,2012)。在当前高通量测序成本依然较高、研
究经费有限的情况下,利用公共基因序列数据库
(NCBI,EMBL 和 DDBJ 等)中的共享第二代测序数
据不失为明智选择。目前,基于第二代测序技术开
发微卫星位点依然存在诸多共性问题,值得进一步
探讨。
4. 2. 1 生物信息学软件的比较 序列拼接是测序
数据处理的前提与基础,对于高通量测序产生的海
量短序列,拼接与组装显得尤为重要。目前有多种
序列拼接软件可供选择使用,但还没有一个中立的
机构能够对这些软件的拼接质量和性能进行系统、
公正的评估。Brutigam 等 (2011)对目前常用的 6
种拼接软件 ( SOAP,Velvet,MIRA,CAP3,TGICL,
CLC)的性能进行了模拟评价,评价参数包括拼接
后的 contigs 数量、未拼接的 reads 百分率、N25、N50
长度等。模拟试验结果表明 CAP3,TGICL,CLC 拼
接质量稳定可靠,适合用于非模式物种序列从头拼
接(de novo assembling),而且 TGICL 和 CLC 在处理
错误(变异)序列方面性能更胜一筹。因此,本文选
用 CLC 软件对杉木转录组序列进行拼接,共得到
74
林 业 科 学 51 卷
35 633 个 contigs,平均长度为 884 bp。 Qiu 等
(2013)利用 SOAP 软件也对该转录组进行过拼接,
得到 59 669 个 unigenes,平均长度为 497 bp。从 2
个软件的拼接结果来看,CLC 的拼接质量明显好于
SOAP。
规模化 SSR 挖掘软件除早期的 SSRIT,Sputnik,
TROLL 和 MISA 外,近年来,海量序列数据促生了
包括 CMiB ( Ueno et al.,2012 ),ESMP ( Sarmah et
al.,2012),SSRLocator ( da Maia et al.,2008 )以及
QDD(Meglécz et al.,2010)等大型软件的出现,这类
软件整合了 SSR 检测、引物设计、电子 PCR 等多个
程序,实现了 SSR 标记开发的高效化和自动化,可
选择这类软件来提高 SSR 的开发效率。
4. 2. 2 提高多态性位点选择效率的方法 第二代
高通量测序技术显著提高了 SSR 开发效率和通量。
但如何从数以万计的 SSR 中鉴别、筛选多态性位
点,是面临的又一挑战。短序列拼接错误、电子
PCR 错误等都有可能使筛选位点无 PCR 产物或片
段大小与预期不一致。因此,通过序列拼接得到的
SSR 位点必须经过 PCR 试验验证,确认其真实性后
才能用于相关研究。可以根据研究材料(新物种或
重测序物种)、研究目的(遗传多样性或遗传图谱构
建)、所需标记位点数量的不同,灵活运用重复单元
(motif)长度判断法和电子( in silico)预测法,借助
多重 PCR 扩增技术进一步提高多态性位点选择
效率。
较多的试验研究表明,微卫星位点的多态性与
SSR 长度(重复序列的长度)存在正相关( Smulders
et al.,1997; He et al.,2003;Ueno et al.,2012),完美
型 SSR 位点的多态性高于复合型(Buschiazzo et al.,
2006)。可以根据重复单元长度判断法,选择具有
较长 SSR 的完美型位点来设计引物以提高多态性
检测效率。本研究中所选择的 35 个候选位点的重
复单元重复数均大于 9,检测发现其中 28 个具有多
态性,多态性位点比例达到了 80%,远高于其他相
关研究结果。
电子预测法( in silico)是近年发展起来的大规
模多态性位点选择方法(Tang et al.,2008; Hoffman
et al.,2011; Victoria et al.,2011; Duran et al.,
2013)。其原理是在序列拼接的基础上,借助序列
比对软件对 contigs 中的 SSR 变异进行检测,以
contigs 中的等位基因数来判断 (预测)特定位点的
多态性。利用该方法的前提是原始序列中至少应包
含 2 个或 2 个以上个体(样本)的序列数据。今后
还可 以 通 过 多 组 杉 木 转 录 组 数 据 的 比 较
(SRX151872,SRX139598 和 SRX320120 ),进一步
判断所获得的 1 582 个 EST-SSR 位点的多态性(图
1 右下虚线部分)。
四色荧光标记通用引物多重 PCR 技术能将不
同颜色标记 ( FAM,NED,HEX 或 PET)的通用引物
和不同位点的 SSR 引物置于同一 PCR 反应中进行
扩增,利用毛细管电泳技术一次获得多个位点的多
态性信息,具有高效、高产率、低成 本等优 点
(Blacket et al.,2012)。针对大规模多态性位点选
择,可以利用该技术提高多态性位点选择效率。本
试验中,利用建立的杉木多重 PCR 扩增技术,将
5 ~ 6 对不同引物置于同一 PCR 反应中进行扩增,
基因分型结果清晰、稳定,显著提高了多态性位点
开发效率,降低了试验成本。
当前,第三代测序技术呼之欲出,更高精度、
更长读长、更低成本的单分子测序技术将使全基因
组遗传变异分析变成现实。目前尚不能预测基于局
部位点检测的分子标记技术的变化和发展前途,但
可以肯定的是,第三代测序技术能有效解决大规模
微卫星标记开发中的难题,“一条染色体,一个
contig”的序列拼接目标会使 SSR 标记开发、功能基
因定位更为便捷。同样,高精度的多样本平行测序
会使大规模多态性位点电子检测成为可能,真正实
现多态性位点选择的规模化和高效化。
参 考 文 献
程晓凤,黄福江,刘明典,等 . 2011. 454 测序技术开发微卫星标记
的研究进展 . 生物技术通报,(8) : 82 - 90.
(Cheng X F,Huang F J,Liu M D, et al. 2011. Development of
microsatellite markers using 454 pyrosequencing. Biotechnology
Bulletin,(8) : 82 - 90.[in Chinese])
齐 明 . 2008. 杉木远交亲本群体遗传多样性研究 . 植物研究,28
(3) : 299 - 303.
( Qi M. 2008. Genetic diversity of wide cross population of
Cunninghamia lanceolata and Platycladus orientalis. Bulletin of
Botanical Research,28(3) : 299 - 303.[in Chinese])
徐 阳,陈金慧,李 亚,等 . 2014. 杉木 EST-SSR 与基因组 SSR 引
物开发 . 南京林业大学学报,38(1) : 9 - 14.
(Xu Y,Chen J H,Li Y,et al. 2014. Development of EST-SSR and
genomic-SSR in Chinese fir. Journal of Nanjing Forestry University,
38(1) : 9 - 14.[in Chinese])
尤 勇,洪菊生 . 1998. RAPD 标记在杉木种源遗传变异上的应用 .
林业科学,34(4) : 33 - 38.
( You Y,Hong J S. 1998. Application of RAPD marker of genetic
variation of Chinese fir provenances. Scientia Silvae Sinicae,34
(4) : 33 - 38.[in Chinese])
张 圣,黄华宏,林二培,等 . 2013. 杉木与台湾杉 EST-SSR 标记的
开发与应用 . 林业科学,49 (10) : 173 - 180.
( Zhang S,Huang H H,Lin E P, et al. 2013. Development and
application of EST-SSR markers for Cunninghamia lanceolata and
Taiwania cryptomerioides. Scientia Silvae Sinicae,49 (10) : 173 -
180.[in Chinese])
Altschul S F,Gish W,Miller W,et al. 1990. Basic local alignment
84
第 11 期 文亚峰等: 杉木转录组 SSR 挖掘及 EST-SSR 标记规模化开发
search tool. Journal of Molecular Biology,215(3) : 403 - 410.
Bérubé Y,Zhuang J,Rungis D,et al. 2007. Characterization of EST-
SSRs in loblolly pine and spruce. Tree Genetics and Genomes,3
(3) : 251 - 259.
Blacket M J,Robin C,Good R T,et al. 2012. Universal primers for
fluorescent labelling of PCR fragments—an efficient and cost-
effective approach to genotyping by fluorescence. Molecular Ecology
Resources,12(3) : 456 - 463.
Brutigam A,Mullick T,Schliesky S,et al. 2011. Critical assessment
of assembly strategies for non-model species mRNA-Seq data and
application of next-generation sequencing to the comparison of C3 and
C4 species. Journal of Experimental Botany,62(9) : 3093 - 3102.
Buschiazzo E,Gemmell N J. 2006. The rise, fall and renaissance of
microsatellites in eukaryotic genomes. BioEssays,28 (10): 1040 -
1050.
Castoe T A, Poole A W, de Koning A P J, et al. 2012. Rapid
microsatellite identification from Illumina paired-end genomic
sequencing in two birds and a snake. PLoS ONE,7(2) : e30953.
Chung J D,Lin T P,Tan Y C,et al. 2004. Genetic diversity and
biogeography of Cunninghamia konishii (Cupressaceae),an island
species in Taiwan: a comparison with Cunninghamia lanceolata,a
mainland species in China. Molecular Phylogenetics and Evolution,
33(3) : 792 - 801.
da Maia L C,Palmieri D A,de Souza V Q,et al. 2008. SSRLocator:
tool for simple sequence repeat discovery integrated with primer
design and PCR simulation. International Journal of Plant
Genomics,doi: 10. 1155 /2008 /412696.
Davey J W,Hohenlohe P A,Etter P D,et al. 2011. Genome-wide
genetic marker discovery and genotyping using next-generation
sequencing. Nature Reviews Genetics,12(7) : 499 - 510.
Duran C,Singhania R,Raman H,et al. 2013. Predicting polymorphic
EST-SSRs in silico. Molecular Ecology Resources,13 (3 ) : 538 -
545.
Glenn T C,Schable N A. 2005. Isolating microsatellite DNA loci.
Methods in Enzymology,395: 202 - 222.
Hamilton M B,Pincus E L,Di-Fiore A,et al. 1999. Universal linker
and ligation procedures for construction of genomic DNA libraries
enriched for microsatellites. BioTechniques,27(3) : 500 - 507.
He C,Poysa V,Yu K. 2003. Development and characterization of
simple sequence repeat ( SSR) markers and their use in determining
relationships among Lycopersicon esculentum cultivars. Theoretical
and Applied Genetics,106(2) : 363 - 373.
Hoffman J I, Nichols H J. 2011. A novel approach for mining
polymorphic microsatellite markers in silico. PLoS ONE,6 ( 8 ) :
e23283.
Jarne P, Lagoda P J L. 1996. Microsatellites, from molecules to
populations and back. Trends in Ecology and Evolution,11 (10) :
424 - 429.
Li W,Godzik A. 2006. Cd-hit: a fast program for clustering and
comparing large sets of protein or nucleotide sequences.
Bioinformatics,22: 1658 - 1659.
Meglécz E,Costedoat C,Dubut V,et al. 2010. QDD: a user-friendly
program to select microsatellite markers and design primers from
large sequencing projects. Bioinformatics,26(3) : 403 - 404.
O’Neill E M,Schwartz R,Bullock C T,et al. 2013. Parallel tagged
amplicon sequencing reveals major lineages and phylogenetic
structure in the North American tiger salamander ( Ambystoma
tigrinum) species complex. Molecular Ecology,22(1) : 111 - 129.
Pandey G,Misra G,Kumari K,et al. 2013. Genome-wide development
and use of microsatellite markers for large-scale genotyping
applications in foxtail millet [Setaria italica ( L.)]. DNA
Research,20(2) : 197 - 207.
Peakall R,Smouse P E. 2006. GENALEX 6: genetic analysis in Excel.
Population genetic software for teaching and research. Molecular
Ecology Notes,6(1) : 288 - 295.
Qiu Z B,Wan L C,Chen T,et al. 2013. The regulation of cambial
activity in Chinese fir ( Cunninghamia lanceolata ) involves
extensive transcriptome remodeling. New Phytologist,199 ( 3 ) :
708 - 719.
Rozen S,Skaletsky H J. 2000. Primer3 on the WWW for general users
and for biologist programmers. Bioinformatics Methods and
Protocols,132: 365 - 386.
Sarmah R,Sahu J,Dehury B,et al. 2012. ESMP: a high-throughput
computational pipeline for mining SSR markers from ESTs.
Bioinformation,8(4) : 206 - 208.
Slater G S,Birney E. 2005. Automated generation of heuristics for
biological sequence comparison. BMC Bioinformatics,6(4) : 31.
Smulders M J M,Bredemeijer G,Rus-Kortekaas W,et al. 1997. Use of
short microsatellites from database sequences to generate
polymorphisms among Lycopersicon esculentum cultivars and
accessions of other Lycopersicon species. Theoretical and Applied
Genetics,94(2) : 264 - 272.
Tang J F, Baldwin S J, Jacobs J M E, et al. 2008. Large-scale
identification of polymorphic microsatellites using an in silico
approach. BMC Bioinformatics,9: 374.
Thiel T,Michalek W, Varshney R, et al. 2003. Exploiting EST
databases for the development and characterization of gene-derived
SSR-markers in barley ( Hordeum vulgare L ) . Theoretical and
Applied Genetics,106 (3) : 411 - 422.
Ueno S,Moroguchi Y,Uchiyama K,et al. 2012. A second generation
framework for the analysis of microsatellites in expressed sequence
tags and the development of EST-SSR markers for a conifer,
Cryptomeria japonica. BMC Genomics,13: 136.
Victoria F C,da Maia L C,de Oliveira A C. 2011. In silico comparative
analysis of SSR markers in plants. BMC Plant Biology,11: 15.
Wen Y,Ueno S,Han W,et al. 2013. Development and characterization
of 28 polymorphic EST-SSR markers for Cunninghamia lanceolata
(Taxodiaceae) based on tranxcriptome sequences. Silave Gentica,
62(3) :137 - 141.
Yu J N,Won C,Jun J,et al. 2011. Fast and cost-effective mining of
microsatellite markers using NGS technology: an example of a Korean
water deer Hydropotes inermis argyropus. PLoS ONE,6: e26933.
Zalapa J E,Cuevas H,Zhu H Y,et al. 2012. Using next-generation
sequencing approaches to isolate simple sequence repeat (SSR) loci in
the plant sciences. American Journal of Botany,99(2): 193 -208.
Zane L,Bargelloni L,Patarnello T. 2002. Strategies for microsatellite
isolation: A review. Molecular Ecology,11(1) : 1 - 16.
(责任编辑 徐 红)
94