免费文献传递   相关文献

Characterization of Microsatellites in the Genome of Ziziphus jujuba

枣基因组的微卫星特征


利用454高通量测序技术对枣基因组进行部分测序。经序列拼接,共获得总长约为8.4 Mb的基因组序列,从中找到15 036个微卫星重复序列。其中六碱基重复类型的重复数目最丰富,共6 033个,占重复序列总数的40.1%;其次是复合型碱基2 707个和单碱基2 575个,分别占重复序列总数的18.0%和17.1%。另外,二碱基重复1 118个,三碱基1 050个,四碱基1 218个,五碱基335个,分别占重复序列总数的7.5%,7.0%,8.1%,2.2%。通过分析发现六碱基重复类型所占比例最多,但微卫星重复单元的重复次数变化却是二碱基微卫星显著高于其他各重复类型。在单碱基重复和二碱基重复这2种类型中,A/T以及AT/TA为最主要的重复单元;(AAN)n,(AAAN)n,(AAAAN)n和(AAAAAN)n为三碱基、四碱基、五碱基、六碱基重复类型中对应的优势重复单元,这些优势重复单元中富含A和T碱基。分析还发现,枣基因组微卫星长度变化的多样性与重复单元长度呈负相关(二碱基重复类型除外),这意味着枣基因组中重复单元较短的微卫星变异速率较快,而重复单元较长的微卫星变异速率较慢。对枣基因组微卫星侧翼序列分析发现,左侧序列与右侧序列GC含量相差不大;设计的引物序列中,有86%的引物可以特异扩增出含有SSR序列的位点。研究结果为枣的遗传研究提供丰富的序列信息和标记资源。

In this study, the genome of Ziziphus jujuba was partially sequenced using the Roche 454 FLX sequencer. The assembled sequences were totally 8.4 Mb, from which 15 036 microsatellites repeats were detected. Among them, the hexanucleotide repeats were the most abundant (6 033), accounting for 40.1% of the total microsatellites, following by the compound (2 707) and mononucleotide(2 575) repeats that accounted for 18.0% and 17.1% of the total microsatellites, respectively. The number of dinucleotide (1 118), trinucleotide (1 218), tetranucleotide (1 050), and pentanucleotide repeats (335), were found to account for 7.5%, 7.0%, 8.1%, 2.2% of the total microsatellites, respectively. While hexanucleotide repeats were the most abundant, dinucleotide repeats were more frequent than the other types of microsatellites in terms of changes in the number of repeat motifs. In mononucleotide and dinucleotide repeats, A/T and AT/TA were the main repeating motifs, while (AAN)n, (AAAN)n, (AAAAN)n and (AAAAAN)n were the dominant repeat motifs in tri-, tetra-, penta-and hexanucleotide repeats, respectively. All the dominant repeat motifs in different types of microsatellites were rich in A and T. It is noteworthy that the variation of microsatellites was found to be negatively correlated with the lengths of repeat motifs, which suggested that the microsatellites with longer repeat motifs would change faster than those with shorter repeat motifs. This study provided abundant genome sequences and marker resources for different aspects of genetic studies on Z. jujuba.


全 文 :第 49 卷 第 12 期
2 0 1 3 年 12 月
林 业 科 学
SCIENTIA SILVAE SINICAE
Vol. 49,No. 12
Dec.,2 0 1 3
doi: 10.11707 / j.1001-7488.20131212
收稿日期: 2013 - 02 - 04; 修回日期: 2013 - 03 - 23。
基金项目: 林业公益性行业重大项目(201304102) ; 国家自然科学基金项目(31270711)。
* 李淑娴为通讯作者。
枣基因组的微卫星特征*
马秋月 戴晓港 陈赢男 张得芳 廖卓毅 李淑娴
(南京林业大学 林木遗传与生物技术省部共建重点实验室 南京 210037)
摘 要: 利用 454 高通量测序技术对枣基因组进行部分测序。经序列拼接,共获得总长约为 8. 4 Mb 的基因组序
列,从中找到 15 036 个微卫星重复序列。其中六碱基重复类型的重复数目最丰富,共 6 033 个,占重复序列总数的
40. 1% ; 其次是复合型碱基 2 707 个和单碱基 2 575 个,分别占重复序列总数的 18. 0%和 17. 1%。另外,二碱基重
复 1 118 个,三碱基 1 050 个,四碱基 1 218 个,五碱基 335 个,分别占重复序列总数的 7. 5%,7. 0%,8. 1%,2. 2%。
通过分析发现六碱基重复类型所占比例最多,但微卫星重复单元的重复次数变化却是二碱基微卫星显著高于其他
各重复类型。在单碱基重复和二碱基重复这 2 种类型中,A /T 以及 AT /TA 为最主要的重复单元; ( AAN) n,
(AAAN) n,(AAAAN) n和(AAAAAN) n 为三碱基、四碱基、五碱基、六碱基重复类型中对应的优势重复单元,这些优
势重复单元中富含 A 和 T 碱基。分析还发现,枣基因组微卫星长度变化的多样性与重复单元长度呈负相关(二碱
基重复类型除外),这意味着枣基因组中重复单元较短的微卫星变异速率较快,而重复单元较长的微卫星变异速率
较慢。对枣基因组微卫星侧翼序列分析发现,左侧序列与右侧序列 GC 含量相差不大; 设计的引物序列中,有 86%
的引物可以特异扩增出含有 SSR 序列的位点。研究结果为枣的遗传研究提供丰富的序列信息和标记资源。
关键词: 枣; 基因组; 454 测序; 微卫星
中图分类号: S718. 46 文献标识码: A 文章编号: 1001 - 7488(2013)12 - 0081 - 07
Characterization of Microsatellites in the Genome of Ziziphus jujuba
Ma Qiuyue Dai Xiaogang Chen Yingnan Zhang Defang Liao Zhuoyi Li Shuxian
(Key Laboratory of Forest Genetics and Biotechnology,Nanjing Forestry University Nanjing 210037)
Abstract: In this study,the genome of Ziziphus jujuba was partially sequenced using the Roche 454 FLX sequencer.
The assembled sequences were totally 8. 4 Mb,from which 15 036 microsatellites repeats were detected. Among them,the
hexanucleotide repeats were the most abundant (6 033),accounting for 40. 1% of the total microsatellites,following by
the compound ( 2 707 ) and mononucleotide ( 2 575 ) repeats that accounted for 18. 0% and 17. 1% of the total
microsatellites,respectively. The number of dinucleotide (1 118),trinucleotide (1 218),tetranucleotide (1 050),and
pentanucleotide repeats (335),were found to account for 7. 5%,7. 0%,8. 1%,2. 2% of the total microsatellites,
respectively . While hexanucleotide repeats were the most abundant,dinucleotide repeats were more frequent than the other
types of microsatellites in terms of changes in the number of repeat motifs. In mononucleotide and dinucleotide repeats,
A /T and AT /TA were the main repeating motifs,while (AAN) n,(AAAN) n,(AAAAN) n and (AAAAAN) n were the
dominant repeat motifs in tri-,tetra-,penta- and hexanucleotide repeats,respectively. All the dominant repeat motifs in
different types of microsatellites were rich in A and T. It is noteworthy that the variation of microsatellites was found to be
negatively correlated with the lengths of repeat motifs,which suggested that the microsatellites with longer repeat motifs
would change faster than those with shorter repeat motifs. This study provided abundant genome sequences and marker
resources for different aspects of genetic studies on Z. jujuba.
Key words: Ziziphus jujuba; genome; 454 sequencing; microsatellite
微卫星 ( microsatellite),又称简单序列重复
( simple sequence repeat,SSR),其侧翼区序列比较保
守,核心区以 1 ~ 6 个碱基组成串联重复序列。微卫
星普遍存在于真核生物和原核生物基因组中
林 业 科 学 49 卷
(Mrazek et al.,2007; Tóth et al.,2000),甚至在病毒
基因组中(杨纪青等,2010),并且在编码区和非编
码区都有分布 ( Li et al.,2004)。以往的研究还发
现,SSR 在非编码区的含量要比在编码区的含量多
(Ellegren,2004; Qian et al.,2013)。微卫星在群体
和不同个体间通常表现出很高的变异性,且按照孟
德尔方式分离,具有多态性丰富、共显性遗传等特
点,现已在基因组指纹图谱的构建、基因定位和克隆
以及品种鉴定和进化研究等领域被广泛应用
(Selkoe et al.,2006; Beheregaray et al.,2003)。SSR
具有影响转录、基因调节、蛋白质功能以及基因组构
建等功能(Kashi et al.,2006; Lawson et al.,2006)。
近年来,随着基因组测序技术的发展,越来越多
的物种进行了大规模测序并对物种的基因组进行了
微卫星分布特征分析(Tóth et al.,2000; Katti et al.,
2001; Kong et al.,2005; Cruz et al.,2005),从而为
在全基因组层面上分析基因组中 SSR 的分布、丰度
等特性提供了可能。对不同物种中微卫星序列分析
的结果表明,虽然微卫星广泛分布于真核、原核生物
甚至病毒基因组中,但微卫星序列在不同物种的分
布存在较大的差异,而且不同物种基因组间微卫星
密度、碱基组成以及突变率也存在着较大差异
(Oliveira et al.,2006)。研究微卫星序列在物种基
因组中的丰度及其特征还有助于了解物种基因组的
结构和进化(张学勇等,2000)。
枣(Ziziphus jujuba),是我国北方分布较为广泛
的经济林树种,对气候、土壤的适应能力很强,且耐
干旱、瘠薄,在 76°—124°E,23°—42. 5°N 内的平原、
沙地、盐碱地及高原地带均有分布。枣在中国被广
泛地应用于食品、药材、园林绿化等诸多领域。近年
来国内外学者利用 SSR (麻利颖等,2012)、RAPD
(智福君等,2009)、AFLP(王永康等,2007)等分子
标记技术对枣的品种分类、鉴别以及遗传多样性方
面开展了研究,但枣种属特异性的标记资源及基因
组序列信息还比较匮乏,枣基因组水平上微卫星特
征分析研究还未见报道。目前,苗木市场混乱,存在
以假乱真现象,给苗农造成不必要的经济损失,已有
很多研究者应用 SSR 分子标记技术对同一属种及
不同品种间进行分子鉴定 (张红莲等,2010; 黄平
等,2012)。本研究利用 Roche-454 FLX 高通量测
序平台对枣进行低覆盖度基因组测序,并进行微卫
星序列特征和组成分析,以期展开枣基因组微卫星
特征分析研究,进而为我国枣品种鉴别以及遗传研
究提供标记和序列资源,减少枣农因品种不明而带
来的经济损失。
1 材料与方法
1. 1 供试材料
2012 年春天在南京林业大学校园内采集新萌
发的 1 株金丝小枣(Z. jujuba‘Jinsixiaozao’)的幼叶
作为枣基因组测序的材料,采后立即置于便携式冰
盒中带回实验室,置 - 80 ℃超低温冰箱中备用。
1. 2 DNA 提取
基因组 DNA 的提取和提纯采用 DNeasy Plant
Mini Kit(50)(上海玉博生物科技有限公司)的植物
DNA 提取试剂盒,具体为: 取 3 ~ 5 片幼嫩叶片约
1 g于 2 mL 的冻存管中,按照试剂盒的标准程序以
及史洁等 ( 2012 )的方法操作,提取的 DNA 置于
- 20 ℃下保存备用。
1. 3 枣基因组测序文库构建及测序
利用 Roche GS Rapid Library Preparation Kit 构
建基因组文库,取 2 μg 基因组 DNA 用 TE 稀释到
100 μL,加入 500 μL Nebulization buffer,混匀后在
0. 2 MPa 的氮气压力下打断 1 min,回收打断后的
DNA,进行末端修复加 A,连接接头后用 AMPure
beads 去除小片段。再用 TBS-380 荧光分光光度计
对文库进行定量,根据定量结果用 TE 将文库稀释
成 1 × 107 molecules·μL - 1,- 20 ℃保存。用 Agilent-
2100 生物分析仪测定文库质量,保证文库的长度在
900 ~ 1 200 bp 之间,小于 350 bp 的片段不超过总量
的 10%。采用 emPCR 试剂盒将文库中的 DNA 片
段连接到珠子上,1 个珠子连接 1 条 DNA,然后进行
油包水的 PCR 扩增,PCR 扩增完成后回收含有 DNA
的珠子,并连接测序引物,用颗粒计数仪数取 200 万
珠子用于上机测序。采用 Roche-454 GS FLX 测序
仪进行测序,将 PTP 板分为 2 个区,测序为 200 个循
环。测序后仪器将图像文件转换为 sff 文件,再利用
Roche Newbler 2. 8 软件进行序列拼接。
1. 4 分析方法
采用 Misa (www. pgrc. ipkgatersleben. de /misa)
程序查找 1 ~ 6 碱基重复的微卫星,其中参数设置
为: 单碱基重复最短为 10 个重复,二碱基重复最短
为 6 个重复,三碱基重复最短为 4 个重复,四碱基重
复最短为 3 个重复,五碱基重复最短为 3 个重复,六
碱基重复最短为 2 个重复。不同重复单元微卫星密
度(D)的计算按照史洁等 (2012)的方法。侧翼序
列的查找通过自编 Perl 程序,在已设计好的引物中
随机挑取 100 对,分别对这 100 对引物的核心序列
SSR 的左侧上游 100 nt 序列和右侧下游 100 nt 序列
(其中上游或下游序列少于 100 nt 的 SSR 被剔除
28
第 12 期 马秋月等: 枣基因组的微卫星特征
掉)进行 GC 含量分析,应用 Bio-Edit 6. 0. 7 软件对
基因组侧翼序列比对分析,其中 Expectation Value
(E)设置为 1. 0E - 3。
2 结果与分析
2. 1 测序及拼接结果
利用 Roche-454 FLX 高通量测序后,共测得
203. 3 Mb 的 枣 基 因 组 序 列,片 段 总 数 为
203 271 297 bp,平均 读长 为 360 bp,通 过 Roche
Newbler 2. 7 软 件 进 行 序 列 拼 接 和 组 装,产 生
266 870 个 组 装 序 列 及 293 458 个 单 一 序 列 数
( singleton assembled)。其中大于 500 bp 的 contig 有
8 448个,contig 的最大长度为 84 716 bp,部分拼接
数据见表 1。
表 1 有效 reads 序列拼接结果①
Tab. 1 The assemble results of trimmed reads
Large contig(Length≥500 bp) All contigs(Length≥100 bp)
Contigs Bases ACZa
N50 contig
sizeb
Largest contig
size
Q40 plus
basesc
Q39 minus
basesd
Contigs Bases
8 448 8 333 952 986 1 029 84 716 5 800 154 2 533 798 23 864 12 324 989
①a: 长度大于 500 bp contigs 平均长度; b: 长度大于 500 bp contigs 长度中位数; c: Contig 中单碱基质量分数大于 40 的总碱基数; d:
Contig 中单碱基质量分数小于 39 的总碱基数目。a: Average contig size; b: Contig size that half of contigs in this size or longer; c: All base that the
single base quality scores greater than 40 in contig; d: All base that the single base quality scores less than 40 in contig.
2. 2 微卫星序列的查找
Weber(1990)按照微卫星重复序列结构的不同,
将其分为完整型 SSR( perfect SSR)、不完整型 SSR
( imperfect SSR)以及复合型 SSR ( compound SSR)。
完整型 SSR 一般是由 1 种串联重复序列以不间断的
重复方式构成的单一重复类型的微卫星; 不完整型
SSR 是指 2 个或 2 个以上的同种重复序列被 3 个或 3
个以下的非重复碱基分隔开; 复合型 SSR 指 2 个或 2
个以上的串联核心序列被 3 个或者 3 个以上连续的
非重复碱基所间隔,但这种连续性的核心序列重复数
不得少于 5。本研究对枣基因组中 1 ~ 6 碱基重复完
整型和复合型进行分析,共获得15 036条枣微卫星重
复序列,其中部分微卫星信息见表 2。
表 2 枣微卫星数据库的部分结果
Tab. 2 Part of the Z. jujuba SSR database
重叠群
Contig name
SSR 类型
SSR type
重复单元
Repeat motif
SSR 长度
SSR length
> contig02814 (TA) 10 Dinucleotide 20
> contig04507 (TC) 9 Dinucleotide 18
> contig04671 (GAT) 6 Trinucleotide 18
> contig04727 (AAT) 8 Trinucleotide 24
> contig04980 (ATTT) 6 Tetranucleotide 24
> contig05012 (TATT) 6 Tetranucleotide 24
> contig05074 (GAT) 4 Trinucleotide 12
> contig05243 (TCTTA) 3 Pentanucleotide 15
> contig03376
(TGATAC) 2 tgga
(ACTGGT) 2
Compound
nucleotide
52
> contig01932 (G) 12 Mononucleotide 12
> contig01944 (AG) 9 Dinucleotide 18
> contig00001
(CCCCCT) 2
cttccccacgcctatttgttc
(CCCCGG) 2
Compound
nucleotide
45
> contig01920 (ATATGG) 3 Hexanucleotide 18
> contig02070 (TTTTTA) 3 Hexanucleotide 18
2. 3 枣基因组微卫星丰度分析
在枣基因组 SSR 数据库中,六碱基重复单元的
SSR 含量最多,约占总数的 40. 1%,之后为复合碱
基(18. 0% )、单碱基(17. 1% )、四碱基(8. 1% )、二
碱基(7. 5% )、三碱基(7. 0% )、五碱基(2. 2% ) (表
3)。每种碱基重复单元包含不同种类的重复碱基,
其中单碱基微卫星由 2 种不同的重复碱基组成,二
碱基、三碱基、四碱基、五碱基、六碱基微卫星分别由
12,53,133,100,1 814种组成,复合型碱基微卫星由
2 707 种不同重复组成。
对枣部分基因组覆盖度的序列进行微卫星查
找,从总长为 8 333 952 bp的 8 448个重叠中发现
15 036个微卫星。从微卫星的分布密度来看,枣基
因组中平均每 554. 3 bp 出现 1 个微卫星。由于不
同重复单元微卫星数量差异较大,所以分布密度变
化也很大(表 3)。
表 3 不同重复类型微卫星所占比例及分布密度
Tab. 3 Proportion and density of repeat types
in SSR database
重复类型
Repeat
type
SSR数量
Number
of SSR
所占比例
Percent of
total SSRs(% )
密度
Density /
(SSR·Mb -1)
单碱基 Mononucleotide 2 575 17. 2 309. 0
二碱基 Dinucleotide 1 118 7. 5 134. 2
三碱基 Trinucleotide 1 050 7. 0 126. 0
四碱基 Tetranucleotide 1 218 8. 1 146. 1
五碱基 Pentanucleotide 335 2. 2 40. 2
六碱基 Hexanucleotide 6 033 40. 1 723. 9
复合碱基 Compound nucleotide 2 707 18. 0 324. 8
总数 Total 15 036 100. 0 1 804. 2
38
林 业 科 学 49 卷
2. 4 优势重复单元碱基在枣基因组微卫星中的
组成
对枣不同类型重复单元微卫星中各重复单元数
量的变化情况进行统计发现: 单碱基重复微卫星
中,A /T 为最主要的重复单元,占 99. 1%。在二碱
基重复类型中,AT /TA 重复的数量最多,共 506 个,
占 73. 26% ; 其次为 AG /TC,66 个,占 10. 20%。在
10 种三碱基重复类型中,AAT /ATT 数量最多,共
504 个,占 48. 0% ; 其次为 AAG /CTT ( 23. 9% )和
ATC /ATG(10. 5% ),其他重复碱基则相对较少。四
碱基重复类型共有 60 种,AAAT /ATTT 数量最多,共
632 个 ( 51. 9% ),其次为 AATT /TTAA ( 13. 1% )、
AAAG /CTTT(12. 2% ),这 3 种类型约占四碱基重复
类型总 量 的 80%。 78 种 五 碱 基 重 复 类 型 中,
AAAAT /ATTTT 的数量最多,共 157 个(46. 9% ),其
次为 AAAAG /CTTTT(18. 2% )。325 种六碱基重复
类型中,AAAAAT /TAAAAA 数量较多,共 663 个
(11. 0% ),其 次 为 AAAAAG /CTTTTT,共 413 个
(6. 8% )。
上述分析结果还表明,枣基因组中最丰富的微
卫星类型是六碱基重复,主要优势序列为 AAAAAT /
TAAAAA、AAAAAG /CTTTTT; 五碱基重复丰度最
低,主 要 优 势 序 列 为 AAAAT /TAAAA、AAAAG /
CTTTT。同样在二、三、四、五碱基重复类型中,
(AN) n、(AAN) n、(AAAN) n和(AAAAN) n分别比其
他碱基组成的微卫星数量大些。这些优势重复拷贝
类型均富含 A 和 T 碱基。但在枣基因组的不同碱
基重复类型中,(GC) n含量仅占 0. 18%,在三碱基
中发现 1 个(CGG) 5 和 1 个(GGC) 4,四碱基中发现
1 个(GCCG) 3 以及五碱基的 1 个(GGCGG) 3。
2. 5 枣基因组微卫星长度分布及变异分析
本研究中枣微卫星的平均长度为 26. 6 bp,最长
的为 577 bp,最短的为 10 bp(图 1)。从图 1 中可以
看出,微 卫 星 长 度 为 12 bp 所 占 比 例 最 多
(54. 02% ),长度大于 20 bp 的微卫星仅占 23. 02%。
图 1 枣不同长度微卫星出现频率
Fig. 1 Frequency of microsatellites in different lengths
对不同重复微卫星类型中的重复长度进行统计
分析以进一步了解不同长度重复单元微卫星长度的
变异情况(图 2)。微卫星长度的变异情况表示微卫
星获得或失去重复单元速率的快慢程度。图 2 的结
果表明: 二碱基重复微卫星重复单元的变化次数最
高,单碱基重复微卫星次之,变异程度最低的为五碱
基重复微卫星,仅有 3 种不同微卫星变化长度。每
种重复微卫星类型都随着重复长度的递增,微卫星
丰度呈递减趋势,即微卫星长度越长,微卫星丰度
越低。
图 2 不同长度重复单元微卫星变异情况
Fig. 2 Length diversification of the microsatellites
柱状图中每一条形对应不同长度微卫星。In above chart,each column corresponds to microsatellites in particular length.
48
第 12 期 马秋月等: 枣基因组的微卫星特征
2. 6 枣基因组微卫星侧翼序列分析
从已设计好的引物中随机挑取 100 对,分别对
这些引物的核心序列 SSR 的左侧上游 100 nt 序列
和右侧下游 100 nt 进行 GC 含量分析,对满足条件
的 76 个 SSR 进行分析发现,左侧与右侧序列 GC 含
量相差不大,左侧 GC 总平均含量占 33. 2% (16% ~
53% ),右侧占 33. 3% (17% ~ 51% )。利用 Bio-Edit
6. 0. 7 软件(Hall,1999)对成对的侧翼序列与枣树
所测基因组序列进行比对分析发现,左侧序列与右
侧序列查询覆盖率达到 100%,左侧序列平均期望
值为 8. 96E - 5(2. 00E - 7 ~ 5. 00E - 4),最大得分
50. 1,最小得分 38. 2,匹配率为 100% ; 右侧序列平
均期望值为 0. 14E - 7 (2. 00E - 8 ~ 8. 00E - 4),最
大得分 54,最小得分 38. 2,最大匹配率 100%,最小
匹配率 95. 65%。在分析的 100 对引物中,86 对引
物为单拷贝,且 SSR 区域只存在于侧翼序列之间,
所以约有 86% 的引物能够特异扩增出含有相应
SSR 序列的位点。而另有 14 对引物为多拷贝,这些
侧翼序列在非 SSR 区域也同时存在,这些引物会扩
增出不含 SSR 序列的位点。
3 讨论
3. 1 枣优势重复碱基类型分析
本研究利用 Roche-454 FLX 高通量测序平台对
枣进行了低覆盖度基因组测序,并利用 Misa 软件在
枣全基因组总长为 8 333 952 bp 的 8 448 个重叠中
发现了 15 036 个微卫星。从微卫星的分布密度来
看,平均每 554. 3 bp 出现 1 个微卫星,分布密度为
1 804. 2 Mb - 1。对测得的基因组分析发现: 六碱基
重复微卫星出现的频率(40. 1% )明显高于其他类
型,之 后 依 次 为 复 合 碱 基 ( 18. 0% )、单 碱 基
(17. 1% )、四碱基(8. 1% )、二碱基(7. 5% )、三碱基
(7. 0% )、五碱基(2. 2% )。史洁等 (2012)研究发
现,二碱基重复微卫星为油茶(Camellia spp. )基因
组的最优重复类型。郑燕等 (2011) 对水稻 (Oryza
sativa)、高 粱 ( Sorghum bicolor )、二 穗 短 柄 草
(Brachypodium distachyon)、玉米(Zea mays) 4 种禾
本科植物进行基因组微卫星序列分析发现,水稻、高
粱的优势重复碱基类型为三碱基重复,而二穗短柄
草和玉米则为六碱基重复微卫星,与本研究中枣的
优势碱基重复类型相同。由此可见微卫星优势类型
在不同物种间的分布有较大差异。不同物种的基因
组大小不同,碱基组成含量不同,因而微卫星丰度也
会不同。有研究报道基因组越小,单碱基重复序列
越多,随着物种基因组的增大,其他类型微卫星逐渐
占主导地位(Karaoglu et al.,2005)。
3. 2 枣优势重复单元碱基组成分析
Tóth 等(2000)认为微卫星的形成可能与 DNA
复制滑脱、核酸交替以及重组不平衡有一定的关系;
Biet 等(1999)认为微卫星重复序列,如 CA、GA、GT
等重复可以通过影响 DNA 的结构而影响 DNA 重
组。因此微卫星中的重复单元碱基组成在很大程度
上会影响生物的生命活动。本研究中,枣不同重复
碱基类型优势重复单元的共同特点是富含 AT 碱基
(单碱基重复微卫星占 99. 1%、二碱基占 73. 26%、
三碱基占 48. 0%、四碱基占 51. 9%、五碱基占
46. 9%、六碱基占 11. 0% )。以往的研究发现,不同
植物中优势重复单元有所不同: Echt 等 (1997)比
较北美乔松 (Pinus strobus)和火炬松 ( P. taeda) 基
因组微卫星时发现,( AC ) n、( AG ) n、( AAT ) n、
(ATC) n是最丰富的 4 种重复单元; 油茶基因组中
单、三、四碱基重复类型中 AT 碱基为最优重复单元
(史洁等,2012)。大多数植物中 ( AG) n含量要比
(AC) n高(Akkaya et al.,1992; Wang et al.,1994),
在枣基因组微卫星的分析中亦如此,(AG) n所占比
例约为(AC) n的 2 倍,但在水稻和玉米中却截然相
反(Wu et al.,1993; Panaud et al.,1995)。枣基因组
的不同碱基重复类型中,(GC) n含量仅占 0. 18%,
在三碱基中发现 1 个(CGG) 5 和 1 个(GGC) 4,四碱
基中 发 现 1 个 ( GCCG ) 3,五 碱 基 也 有 1 个
(GGCGG) 3。Katti 等(2001)、Tóth 等(2000)的研究
也发现 GC 两碱基的重复拷贝类别在所研究的生物
基因组中的含量也很少,有研究者对脊椎动物基因
组分析认为可能是由于基因组 DNA 中 CpG 岛的甲
基化造成的(Schorderet et al.,1992),甲基化的胞苷
酸 C 很容易经过脱氨基作用转变成胸腺嘧啶 T,同
时基因组 DNA 中 CpG 的甲基化会成为突变的热
点,而且少量的 GC 又是维持 DNA 热力学稳定性所
必需的,这可能是导致 GC 含量偏少的原因。
造成不同植物基因组中不同重复碱基类型及重
复单元偏好性的原因除了与不同物种间的真实微卫
星信息差异有关外,可能还与不同微卫星查找工具
中的参数设置有一定关系(阎毛毛等,2011),另外
所测基因组的覆盖度的深浅也会影响微卫星的
分析。
3. 3 枣不同长度重复单元微卫星长度变异情况
分析
本文对枣不同重复类型碱基长度的变异情况分
析发现,随着微卫星重复单元长度的不断增加,其丰
度普遍呈递减的趋势(二碱基变异频率除外)。本
58
林 业 科 学 49 卷
研究中枣微卫星的平均长度为 26. 6 bp,最长的为
577 bp,最短的为 10 bp。从图 1 中可以看出,微卫
星长度为 12 bp 所占比例最多(54. 02% ),长度大于
20 bp 的微卫星仅占 23. 02%。由于不同类型微卫
星序列获得或失去重复单元的速率可以从序列长度
的变化情况得以反映,所以这一特征与微卫星位点
的多态性有密切关系。Samadi 等 (1998)的模拟分
析认为,重复单元长度变化与选择压力有关,重复单
元长度越长,所受的选择压力越大,拷贝数就越少,
因此基因组中长度较短的微卫星变异速率较快,而
较长的重复单元变异速率较慢,相对较为稳定。本
研究中六碱基为枣最优势微卫星,所占比例最多,但
值得关注的是二碱基微卫星重复单元次数的变化显
著高于其他重复类型,这在一定程度上说明二碱基
在整个枣基因组中变异最为活跃。
3. 4 枣基因组微卫星侧翼序列分析
对枣基因组微卫星侧翼序列的分析发现,左侧
与右侧序列 GC 含量相差不大,左侧 GC 总平均含量
占 33. 2% (16% ~ 53% ),右侧占 33. 3% ( 17% ~
51% ),这在一定程度上也说明基因组中对 AT 的偏
好性。同时利用 Bio-Edit 6. 0. 7 软件对随机挑选的
100 对引物序列与枣树所测基因组序列进行比对分
析,发现左侧序列与右侧序列查询覆盖率均达到
100%。但这 100 对引物中有 86 对具有特异性(即
SSR 区域只存在于特定的 2 个侧翼序列之间),发现
非 SSR 区域也可以同时存在这样的 2 个侧翼序列,
因此如果依据这样的侧翼序列设计引物,所得到的
PCR 扩增产物中就会有非 SSR 产物,因此在利用
SSR 进行基因定位时,要考虑产物的假阳性可能(詹
少华等,2010)。Jeffreys 等(1985)认为 SSR 是高等
生物在减数分裂过程中由于 DNA 滑动复制以及不
对等交换所产生的。这只能解释高度保守的 SSR
侧翼序列的重复基元所具有的多态性,对于在非
SSR 区域存在 SSR 侧翼序列或者 SSR 具有多种侧
翼序列的现象无法解释,说明 SSR 的产生也可以通
过易位等方式产生。因此在常规的 SSR 引物设计
中,缺乏对 SSR 侧翼序列保守性的分析,而通过常
规试验来进行筛选,工作耗时又存在一定的误差。
本研究中利用序列比对分析,可以为后期引物的开
发提供一种可靠而快速的方法。
3. 5 微卫星技术在枣研究中的应用前景
微卫星序列对基因的功能有重要影响,序列特
征是了解不同物种基因组差异的重要指标,并且微
卫星是生物基因组中变异频率最快的序列,含有微
卫星的基因比不含微卫星的基因更容易产生突变,
因此,虽然目前本研究中所得到的枣基因组 SSR 序
列得到应用,但对以后该物种微卫星标记资源的开
发以及物种进化、遗传多样性等方面的研究将提供
重要信息资源。本研究还将对开发枣多态性高的微
卫星标记提供帮助,从而为枣品种的分子鉴别打下
基础。
参 考 文 献
黄 平,崔鹏娇,郑勇奇,等 . 2012.基于 SSR 标记月季品种鉴定及遗
传关系分析 .林业科学,48(10) : 55 - 62.
麻丽颖,孔德仓,刘华波,等 . 2012. 36 份枣品种 SSR 指纹图谱的构
建 .园艺学报,39(4) : 647 - 654.
史 洁,尹佟明,管宏伟,等 . 2012.油茶基因组微卫星特征分析 .南京
林业大学学报: 自然科学版,36(2) : 47 - 51.
王永康,田建保,王永勤,等 . 2007.枣树品种品系的 AFLP 分析 . 果树
学报,24(2) : 146 - 150.
阎毛毛,戴晓港,李淑娴,等 . 2011.松树、杨树及桉树表达基因序列微
卫星比对分析 .基因组学与应用生物学,30(1) : 103 - 109.
杨纪青,杨 硕,杨 莉,等 . 2010. Tomato leaf curl Bangladesh 病毒完
整基因组上微卫星分布 .中国农学通报,26(24) : 20 - 27.
詹少华,盛新颖,樊洪泓,等 . 2010.大豆二核苷酸 SSR 侧翼序列保守
型分析 .大豆科学,29(2) : 195 - 198.
张红莲,李火根,胥 猛,等 . 2010.鹅掌楸属种及杂种的 SSR 分子鉴
定 .林业科学,46(1) : 36 - 39.
张学勇,李大勇 . 2000. 小麦及其近亲基因组中的 DNA 重复序列研
究进展 .中国农业科学,33(5) : 14 - 24.
郑 燕,张 耿,吴为人 . 2011.禾本科植物微卫星序列的特征分析和
比较 .基因组学与应用生物学,30(5) : 513 - 520.
智福君,贾彦丽,梁海永,等 . 2009. 利用 RAPD 技术进行枣树的品种
鉴定 .华北农学报,24(增刊) : 110 - 114.
Akkaya M S,Bhagwat A A,Cregan P B. 1992. Length polymorphisms
of simple sequence repeat DNA in soybean. Genetics,132 ( 4 ) :
1131 - 1139.
Beheregaray L B,Ciofi C,Geist D, et al. 2003. Genes record a
prehistoric volcano eruption in the Galápagos. Science, 302
(5642) : 75.
Biet E,Sun J S,Dutreix M. 1999. Conserved sequence preference in
DNA binding among recombination proteins: an effect of ssDNA
secondary structure. Nucleic Acids Research,27(2) : 596 - 600.
Cruz F, Pérez M, Presa P. 2005. Distribution and abundance of
microsatellites in the genome of bivalves. Gene,346: 241 - 247.
Echt C S,May-Marquardt P. 1997. Survey of microsatellite DNA in
pine. Genome,40: 9 - 17.
Ellegren H. 2004. Microsatellites: simple sequences with complex
evolution. Nature Reviews Genetics,5: 435 - 445.
Hall T A. 1999. BioEdit: a user-friendly biological sequence alignment
editor and analysis program for Windows 95 /98 /NT. Nucleic Acids
Symp Ser,41: 95 - 98.
Jeffreys A J,Wilson V,Thein S L. 1985. Hypervariable‘minisatellite’
regions in human DNA. Nature,314(7) : 67 - 73.
Karaoglu H,Lee C M Y,Meyer W. 2005. Survey of simple sequence
repeats in completed fungal genomes. Molecular Biology and
68
第 12 期 马秋月等: 枣基因组的微卫星特征
Evolution,(22) : 639 - 649.
Kashi Y,King D,Soller M. 2006. Simple sequence repeats as a source
of quantitative genetic variation. Trends in Genetics, 13
(2) : 74 - 78.
Katti M V,Ranjekar P K,Gupta V S. 2001. Differential distribution of
simple sequence repeats in eukaryotic genome sequences. Molecular
Biology and Evolution,18(7) : 1161 - 1167.
Kong J,Gao H. 2005. Analysis of tandem repeats in the genome of
Chinese shrimp Fenneropenaeus chinensis. Chinese Science Bulletin,
50(14) : 1462 - 1469.
Lawson M J, Zhang L. 2006. Patterns of SSR distribution in the
Arabidopsis thaliana and rice genomes. Genome Biology,7: R14.
Li C Y,Korol A B,Fahima T,et al. 2004. Microsatellites within genes:
structure, function, and evolution. Molecular Biology and
Evolution,21: 991 - 1007.
Mrazek J, Guo X, Shah A. 2007. Simple sequence repeats in
prokaryotic genomes. PNAS,104: 8472 - 8477.
Oliveira E J,Pádua J G,Zucchi M I,et al. 2006. Origin,evolution and
genome distribution of microsatellites. Genetics and Molecular
Biology,29(2) : 294 - 307.
Panaud O,Chen X,McCouch S R. 1995. Frequency of microsatellite
sequences in rice(Oryza sativa L. ) . Genome,38: 1170 - 1176.
Qian J,Xu H B,Song J Y,et al. 2013. Genome-wide analysis of simple
sequence repeats in the model medicinal mushroom Ganoderma
lucidum. Gene,512: 331 - 336.
Samadi S, Artiguebielle E, Estoup A, et al. 1998. Density and
variability of dinucleotide microsatellites in the parthenogenetic
polyploid snail Melanoides tuberculata. Molecular Ecology,7 (9) :
1233 - 1236.
Schorderet D F,Gartler S M. 1992. Analysis of CpG suppression in
methylated and nonmethylated species. PNAS,89(3) : 957 - 961.
Selkoe K A,Toonen R J. 2006. Microsatellites for ecologists: a practical
guide to using and evaluating microsatellite markers. Ecology
Letters,9(5) : 615 - 629.
Tóth G,Gáspári Z,Jurka J. 2000. Microsatellites in different eukaryotic
genomes: survey and analysis. Genome Research, 10
(7) : 967 - 981.
Wang Z,Weber J L,Tanksley S D. 1994. Surey of plant short tandem
DNA repeats. Theoretical and Applied Genetics,88(1) : 1 - 6.
Weber J L. 1990. Informativeness of human ( dC-dA ) n·( dG-dT ) n
polymorphisms. Genomics,7(4) : 524 - 530.
Wu K S,Tanksly S D. 1993. Abundance,polymorphism and genetic
mapping of microsatellites in rice. Molecular and Genetics,241:
225 - 235.
(责任编辑 徐 红)
78