全 文 :基因组学与应用生物学,2011年,第 30卷,第 5期,第 513-520页
Genomics and Applied Biology, 2011, Vol.30, No.5, 513-520
研究论文
An Article
禾本科植物微卫星序列的特征分析和比较
郑燕 1 张耿 2 吴为人 1*
1福建农林大学作物遗传育种与综合利用教育部重点实验室,福州, 350002; 2北京凯拓迪恩生物技术研发中心,北京, 100085
*通讯作者, wuwr@fjau.edu.cn
摘 要 微卫星或简单序列重复(simple sequence repeats, SSRs)广泛存在于真核生物的基因组中,是目前最
有用的分子标记之一。本研究首次利用全基因序列对 4个禾本科植物种,包括二穗短柄草(Brachypodium
distachyon)、水稻(Oryza sativa)、高粱(Sorghum bicolor)和玉米(Zea mays)的 SSR的类型、丰度(数量)、相对丰
度、频率、长度和偏好性等进行了分析和比较。结果表明,禾本科植物中 SSR的丰度与基因组大小成正比,而
相对丰度与基因组大小相关不显著;三核苷酸和六核苷酸基序类型比其它类型更为丰富;不同物种皆呈现出
明显的基序偏好性。总的来讲,除个别例外,禾本科植物的基因组中更倾向于富含 A/T的基序。本研究结果
为研究禾本科植物的基因组进化和 SSR标记的开发提供了有价值的信息。
关键词 禾本科,基因组,微卫星,特征分析
Characterization and Comparison of Microsatellites in Gramineae
ZhengYan 1 ZhangGeng 2 WuWeiren 1*
1 Key Laboratory of Ministry of Education for Genetics, Breeding and Multiple Utilization of Crops, Fujian Agriculture & Forestry University, Fuzhou,
350002; 2 Beijing Kaituo DNA Biotech Research Centre, Beijing, 100085
* Corresponding author, wuwr@fjau.edu.cn
DOI: 10.3969/gab.030.000513
Abstract Microsatellites (or simple sequence repeats, SSRs) are widespread in eukaryote genomes and are one
of the most useful molecular markers. In this study, we first time employed complete genome sequences to analyze
and compare the types, abundance (number), relative abundance, frequency, lengths, bias etc. of SSRs in four
Gramineae species, including Brachypodium distachyon, Oryza sativa, Sorghum bicolor and Zea mays. The results
showed that the abundance of SSRs is positively proportional to the genome size, whereas the relative abundance
of SSRs is not significantly correlated with the genome size; the types with trinucleotide and hexanucleotide motifs
are more abundant than other types; and different species exhibit distinct bias of motif types. In general, in all the
species studied, the dominant SSR motifs tend to be A/T-rich with only a few exceptions. The information ob-
tained in this study will facilitate the study of genome evolution and the development of SSR markers in
Gramineae plants.
Keywords Gramineae, Genome, Microsatellite, Characterization
基金项目:本研究由教育部高等学校博士学科点专项科研基金项目(20093515120002)、福建省自然科学基金项目(2009J05051)
和国家自然科学基金项目(31101136)共同资助
微卫星(microsatellite)又称简单序列重复(simple
sequence repeats, SSRs),是一类由几个 (一般为 1~6
个)核苷酸为单位,串联重复而成的 DNA序列。重复
序列是分子水平研究物种起源和进化的有效工具,
几乎所有的高等生物基因组中都含有一些物种或基
因组特异的重复序列,研究这些序列在物种中的变
化,可揭示物种的起源进化(张学勇和李大勇, 2000)。
对 SSR序列的进化已做了大量的研究,大多集中于
二倍体生物,主要比较种内或近缘种之间微卫星序
列变异情况(李成云等, 2005;高亚梅等, 2008)。由于
微卫星具有高度的多态性,在基因组中含量丰富且
分布均匀等特点,被认为是目前最好用且应用最广
的分子标记之一,已广泛应用于遗传多样性分析、基
因或 QTL定位等研究中(吴秋花等, 2005)。
基因组学与应用生物学
Genomics and Applied Biology
禾本科植物超过 10 000种,是最大的被子植物
之一,包括许多重要的经济作物,如水稻、玉米、小麦
和高粱等(Kellogg, 2001)。禾本科植物在基因组大小
和染色体数目上有很大差异,但它们在基因组序列
上存在很高的保守性,是一个很好的比较基因组学研
究的模式系统。目前已有 4个禾本科物种完成了全基
因组测序,分别是水稻(IRGSP, 2005)、高粱(Paterson
et al., 2009)、玉米(Schnable et al., 2009)和二穗短柄草
(The International Brachypodium Initiative, 2010)。近
年来已有一些关于这些物种 SSR 序列的研究报道
(Temnykh et al., 2000; Sharopova et al., 2002; Vogel
et al., 2009; Li et al., 2009),但这些研究主要是基于已
公布的编码序列、BAC克隆序列、部分重叠群或已公
布的不太完整的基因组序列。另外,SSR标记仅在水
稻中大量被开发利用,而在其它 3个物种中应用非常
有限。随着基因组测序技术的发展,越来越多的物种
已被测序,这使得在全基因组层面上分析基因组中
SSR 的分布、丰度等特性提供了可能。Lawson和
Zhang (2006)对水稻和拟南芥基因组中 SSR分布做了
较为详细的比较。然而,到目前为止仍没有应用全基
因组序列对禾本科植物 SSR特性进行比较的报道。
本研究对 4个已获得全基因组完整序列的禾本
科植物(二穗短柄草,水稻,高粱和玉米)中 SSR序列
的结构类型、分布、丰度、长度和偏好性等特性进行系
统比较分析,旨在寻找禾本科植物基因组中 SSR序列
分布的一些规律,为研究禾本科植物的进化关系及禾
本科植物 SSR标记的开发提供一些有用的信息。
1结果与分析
1.1 4种禾本科植物 SSR的丰度与频率
所分析的 4种禾本科植物的基因组大小差异很
大,变化在 272 Mb (二穗短柄草)至 2 061 Mb (玉米)
之间(表 1)。对 4个物种基因组中长度≥12 bp的 SSR
序列进行搜索,结果显示(表 1),SSR的丰度(数量)与
基因组的大小存在极显著的正相关(r=0.972; p<0.01),
基因组越大,所含的 SSR也越多;而 SSR的相对丰
度和频率与基因组大小的相关关系不明显,未达到
统计上显著水平。相对丰度最高的是水稻,最小的是
玉米,二者相差超过一倍。可见,禾本科植物基因组
中的 SSR分布密度存在很高的多样性。
对 6种不同基序长度的 SSR进行比较,结果表
明(表 2),4个物种都表现为三核苷酸基序的 SSR具
有最高的丰度(数量)和相对丰度,六核苷酸基序次
之。与全体 SSR的统计结果一致,6种基序长度的
SSR丰度都是玉米最高,二穗短柄草最低;而相对丰
度则都是水稻最高,玉米最低。
检查了 SSR相对丰度与重复次数的关系,结果
表明(图 1),4个物种中 SSR相对丰度都随着重复次
数的增加而迅速下降,但不同基序长度类型的下降
速度不同。总体看,单核苷酸重复次数超过 20、二核
苷酸超过 15、三核苷酸超过 8、四核苷酸超过 6、五核
苷酸超过 5、六核苷酸超过 4之后,相对丰度就接近于
零了。不同物种间各类型的相对丰度差异主要表现在
这些重复次数的范围内,而且各类型中的高低顺序与
整体的顺序基本是一致的。但四核苷酸重复的情况比
较特殊,在重复次数<6的范围内,玉米基因组中的相
对丰度非常低,而其余 3个物种则非常接近。当重复
次数大于 45时,高粱中二核苷酸重复的数量比其它
物种要多得多;重复次数大于 51的单核苷酸重复序
列只有在高粱和玉米的基因组中才有发现。
1.2 4种禾本科植物中 SSR的长度特征
4种禾本科植物的基因组中 SSR序列所占的比
例不同,变化在 0.3%至 0.9%之间(表 3)。SSR的平均
表 1 4个禾本科植物基因组中 SSR的丰度和频率
Table 1 Abundance and frequency of the SSRs in four gramineae species
物种
Species
二穗短柄草
B. distachyon
水稻
O. sativa
高粱
S. bicolor
玉米
Z. mays
基因组大小(Mb)
Genome size (Mb)
272
372
739
2 061
染色体数(2n)
Chromosome
No. (2n)
10
24
20
20
SSR丰度(数目)
SSR abundance
(No.)
98 200
210 623
258 602
498 403
相对丰度(数目 /Mb)
Relative abundance
(No./Mb)
361
566
350
242
频率(1/kb)
Frequency
(1/kb)
1/2.77
1/1.77
1/2.86
1/4.14
514
表 2 4种禾本科植物中不同基序长度类型的 SSR的丰度和相对丰度
Table 2 The abundance and relative abundance of SSRs with different motif lengths in the four gramineae species
物种
Species
二穗短柄草
B. distachyon
水稻
O. sativa
高粱
S. bicolar
玉米
Z. mays
SSR丰度(相对丰度)
SSR abundance (relative abundance)
单核苷酸
Monomers
7 991 (29)
15 311 (41)
14 294 (19)
30 700 (15)
二核苷酸
Dimers
9 175 (34)
35 315 (95)
38 090 (52)
64 663 (31)
三核苷酸
Trimers
37 005 (136)
77 566 (208)
80 299 (109)
185 973 (90)
四核苷酸
Tetramers
17 428 (64)
26 411 (71)
47 062 (64)
58 806 (29)
五核苷酸
Pentamers
7 972 (29)
17 080 (46)
16 630 (23)
38 408 (19)
六核苷酸
Hexamers
18 629 (69)
38 940 (105)
62 227 (84)
119 813 (58)
图 1 4种禾本科植物中 SSR相对丰度与重复数的关系
注: A:单核苷酸重复; B:二核苷酸重复; C:三核苷酸重复; D:四核苷酸重复; E:五核苷酸重复; F:六核苷酸重复
Figure 1 Relationship between SSR relative abundance and repeat number in the four gramineae species
Note: A: Monomers; B: Dimers; C: Trimers; D: Tetramers; E: Pentamers; F: Hexamers
禾本科植物微卫星序列的特征分析和比较
Characterization and Comparison of Microsatellites in Gramineae 515
基因组学与应用生物学
Genomics and Applied Biology
长度与物种的关系较小。6种核苷酸重复的平均长度
变化范围在 10 bp到 21 bp之间。除了二核苷酸重复
和三核苷酸重复的平均长度在不同物种间存在较大
差异外(水稻最大,高粱最小),其它类型核苷酸重复
的平均长度在物种间非常接近(表 3;图 2)。
玉米和高粱是 4个物种中基因组较大的两个物
种,也是较易出现长 SSR序列的物种。从表 4可以看
出,在单核苷酸重复和二核苷酸重复类型中,最长的
核苷酸重复(A)88和(AC)683都出现在玉米的基因组
中,(AC)683也是 4个物种所有 SSR中最长的。大部分
重复数大的单核苷酸重复是 A/T重复,而不是 C/G
重复,大多数最长的二核苷酸重复的基序是 AT,少
数是 AC。一般来讲,AG和 GC重复的二核苷酸重复
序列都会比较短。对于三核苷酸至六核苷酸重复序
图 2 4种禾本科植物中不同基序长度类型的 SSRs的平均长度
注: A:单核苷酸重复; B:二核苷酸重复; C:三核苷酸重复; D:
四核苷酸重复; E:五核苷酸重复; F:六核苷酸重复
Figure 2 The average lengths of SSRs with different motif lengths
in the four gramineae species
Note: A: Monomers; B: Dimers; C: Trimers; D: Tetramers; E:
Pentamers; F: Hexamers
表 3 4种禾本科植物中 SSR的长度特征
Table 3 SSR length characteristics in the four gramineae species
注: *: SSR总长度占基因组长度的百分比
Note: *: The percentage of total SSR length in the genome
物种
Species
二穗短柄草
B. distachyon
水稻
O. sativa
高粱
S. bicolor
玉米
Z. mays
SSR总长度(Mb)
Total SSR length (Mb)
1.4
3.3
3.3
6.9
SSR长度范围(bp)
SSR length range (bp)
12~312
12~170
12~740
12~1 366
SSR平均长度(bp)
Average SSR length (bp)
14.3
15.6
12.8
13.8
百分比(%) *
Percentage (%) *
0.5
0.9
0.4
0.3
表 4 4种禾本科植物中前三种最长的 SSR类型
Table 4 The first three longest SSR motifs in the four gramineae species
物种
Species
二穗短柄草
B. distachyon
水稻
O. sativa
高粱
S. bicolor
玉米
Z. mays
重复类型(长度 bp)
Repeat type (length bp)
单核苷酸
Monomers
A (49)
C (45)
A (43)
C (51)
A (49)
A (48)
A (71)
A (59)
A (53)
A (88)
A (85)
A (83)
二核苷酸
Dimers
AT (312)
AT (182)
AT (158)
AC (170)
AT (104)
AT (100)
AT (280)
AT (276)
AT (270)
AC (1 366)
AC (910)
AT (178)
三核苷酸
Trimers
AAT (225)
AAT (171)
AAT (138)
AAT (165)
AAT (147)
AAT (126)
ACT (366)
AAT (327)
AAT (318)
ACC (291)
AAT (207)
ACT (132)
四核苷酸
Tetramers
ACAT (196)
ACAT (180)
ACAT (180)
ACAT (132)
ACAT (96)
ACAT (96)
ACAT (524)
AGAT (388)
ACAT (260)
ACAT (196)
ACAT (144)
AAAG (100)
五核苷酸
Pentamers
AGATC (100)
ACGCC (75)
AGATG (65)
AATAT (55)
AATAT (55)
AATAT (55)
AATAT (740)
AATAT (430)
AATAT (315)
AATAT (180)
ACTAT (115)
AATAT (85)
六核苷酸
Hexamers
AACAGC (90)
ACTGAT (78)
AGAGAT (66)
ACCTAT (90)
ACATAT (78)
ACATAT (78)
AAATAT (390)
AGATAT (366)
AAATAT (294)
AATAGT (198)
AATAGT (72)
AACCAT (66)
516
表 5 4种禾本科植物中单核苷酸和二核苷酸 SSR基序的丰度和比例
Table 5 The abundance and percentage of mononucleotide and dinucleotide SSR motifs in the four gramineae species
物种
Species
二穗短柄草
B. distachyon
水稻
O. sativa
高粱
S. bicolor
玉米
Z. mays
A/T
2 967 (37.1%)
9 853 (64.4%)
9 371 (65.6%)
9 478 (30.9%)
G/C
5 024 (62.9%)
5 458 (35.6%)
4 923 (34.4%)
21 222 (69.1%)
AC
1 996 (21.8%)
3 552 (10.16%)
5 378 (14.1%)
6 963 (10.8%)
AG
4 629 (50.5%)
14 781 (41.9%)
10 882 (28.6%)
30 955 (47.9%)
AT
2 070 (22.6%)
14 639 (41.5%)
20 633 (54.2%)
23 841 (36.9%)
GC
480 (5.2%)
2 343 (6.6%)
1 197 (3.1%)
2 904 (4.5%)
表 6 4种禾本科植物中三核苷酸 SSR基序的丰度和比例
Table 6 The abundance and percentage of trinucleotide SSR motifs in the four gramineae species
物种
Species
二穗短柄草
B. distachyon
水稻
O. sativa
高粱
S. bicolor
玉米
Z. mays
AAC
1 905
(5.15%)
1 915
(2.47%)
5 164
(6.43%)
6 600
(3.55%)
AAG
5 444
(14.71%)
4 631
(5.97%)
11 336
(14.12%)
45 993
(24.73%)
AAT
1 293
(3.49%)
4 372
(5.64%)
8 667
(10.79%)
17 088
(9.19%)
ACC
1 710
(4.62%)
4 562
(5.88%)
4 964
(6.18%)
14 048
(7.55%)
ACG
2 096
(5.66%)
7 056
(9.10%)
6 380
(7.95%)
17 863
(9.61%)
ACT
761
(2.06%)
1 392
(1.79%)
3 976
(4.95%)
6 753
(3.63%)
AGC
4 989
(13.48%)
6 475
(8.35%)
9 516
(11.85%)
23 608
(12.69%)
AGG
5 587
(15.10%)
10 109
(13.03%)
9 220
(11.48%)
11 488
(6.18%)
ATC
1 409
(3.81%)
2 340
(3.02%)
6 491
(8.08%)
18 841
(10.13%)
CCG
11 811
(31.92%)
34 714
(44.75%)
14 585
(18.16%)
23 691
(12.74%)
列,长 SSR序列都是出现在高粱基因组中。4个物种
中,多数长的三核苷酸重复序列都是 AAT重复。另
外,一个突出的特点是,4个禾本科植物都有一个长
的 ACAT重复序列,多数长的四核苷酸重复序列是
由 A和 T组成。二穗短柄草中,AGATC是最长的五
核苷酸重复序列,AATAT是其它物种中最长的五核
苷酸序列,这说明长的五核苷酸重复序列多数也是由
A和 T组成的。除高粱外,其它 3个物种的六核苷酸
重复序列长度都不超过 90 bp。高粱中六碱基重复序
列的长度一般大于其它物种。
1.3 4种禾本科植物 SSR基序的偏好性
分析了 4 个物种中各种类型 SSR 序列的组成
(表 5;表 6;表 7),发现 4个物种中 SSR的基序都有
一定的偏好性,且有一定的规律性。二穗短柄草和玉
米中单核苷酸 C/G的比例远远高于 A/T的比例,说
明这两个物种单核苷酸更偏好于 C/G重复,但在水
稻和高粱中结果却恰恰相反(表 5)。AG重复是二穗
短柄草、水稻和玉米基因组中最偏好的二核苷酸重
复,而在高粱中 AT重复最多。CG重复在四个禾本
科植物中都是最少的(表 5)。CCG是二穗短柄草、水
稻和高粱基因组中出现最多的三核苷酸重复,在玉
米中 AAG最多。ACT是 4个物种基因组出现最少或
倒数第二的三核苷酸重复(表 6)。表 7列出了 4个物
种中最常见的四核苷酸、五核苷酸、六核苷酸重复序
列。4 个禾本科植物基因组都较偏好于 AAAT 和
AAAG 重复的四核苷酸重复序列,AAAAT 和
AAAAG的五核苷酸序列及 AAAAAG的六核苷酸
序列。这些重复类型的序列在玉米基因组中的出现
次数都是最多的。
2讨论
本研究结果表明,基因组中 SSR数量与禾本科
植物的基因组大小有关,而相对丰度则与基因组的
大小无关,这与其它生物如真菌 (Karaoglu et al.,
2004)和双子叶植物(Morgante et al., 2002)的研究类
似。由此看出,基因组的大小似乎会引起 SSR的膨
胀。然而,在大小不同的基因组中,SSR的积累速度
及进化速度可能会有所不同,从而导致如玉米基因
组中其基因组最大,SSR数量最多,然而 SSR的相对
禾本科植物微卫星序列的特征分析和比较
Characterization and Comparison of Microsatellites in Gramineae 517
基因组学与应用生物学
Genomics and Applied Biology
丰度却倒数第二的原因。
本研究发现的最明显趋势之一是禾本科物种的
SSR序列具有明显的偏好性。对于单核苷酸重复的
两种类型,水稻和高粱中聚 A/T远比聚 C/G丰富,这
与拟南芥的情况类似(Lawson and Zhang, 2006),但二
穗短柄草和玉米的情况却刚好相反。因此看来并无
一致的规律。在二核苷酸重复序列中,除了高粱中最
常见的基序为 AT之外,其余物种中都是 AG。Law-
son和 Zhang (2006)发现拟南芥中最多的二核苷酸重
复也是 AG。但 Lagercrantz等(1993)研究认为,植物
中 AT重复比其它类型多。一种可能的原因是,他们
分析的只是部分基因组序列,存在偏差。CG在 4种
禾本科植物中都是最少的二核苷酸重复基序,这种
现象不仅在禾本科中出现,在双子叶植物拟南芥
(Lawson and Zhang, 2006)、哺乳动物、脊椎动物和真
菌(Tóth et al., 2000)等中也是这样。这可能与真核生
物中存在 CpG岛有关(Tóth et al., 2000)。三核苷酸重
复也有一个有趣的碱基重复偏好,即 CCG在 4种禾
本科植物中都是最多的基序,但这种现象似乎只在
禾本科植物基因组中被发现,其它生物基因组中却
很少,CCG只有在脊椎动物的基因间序列才分布比
较多(Tóth et al., 2000)。Coffee等(1999)认为,CCG重
复的膨胀可能与组蛋白脱乙酰基作用有关。禾本科
植物四核苷酸、五核苷酸和六核苷酸重复中分布最
多的重复类型都有 A/T偏好性,这种现象可能与其
在 DNA解链较易有关(Gur-Arie et al., 2000)。
SSR作为分子标记,目前在水稻基因组中已被
大量开发,然而在其它物种中应用却很有限。SSR核
心序列重复次数的差异是形成 SSR多态性的基础。
一般说来,SSR重复次数越多(长度越长),其变异越
大,则 SSR的等位基因数越多(Weber, 1990)。本研究
发现在水稻基因组中二核苷酸重复的 SSR平均长度
最长,说明二核苷酸重复的 SSR更易发生变异,这与
陈仲中等(2005)的研究结果一致。以此推断,在二穗短
柄草和玉米基因组中,二核苷酸重复也有可能是多态
性最高的 SSR类型,这有待于进一步的实验验证。本
研究结果将为其它禾本科植物特别是未被测序的禾
本科植物 SSR标记开发提供非常有用的信息。
总的来说,本研究中对已完全测序禾本科植物
基因组中 SSR特征的分析,为更好地理解这些序列
表 7 4种禾本科植物中最常见的四核苷酸、五核苷酸和六核苷酸 SSR基序
Table 7 The most frequent tetranucleotide, pentanucleotide and hexanucleotide SSR motifs in the four gramineae species
物种
Species
二穗短柄草
B. distachyon
水稻
O. sativa
高粱
S. bicolor
玉米
Z. mays
重复基序(个数,百分比)
Motif (number, percentage)
四核苷酸
Tetramers
AAAT (1 833, 10.52%)
AAAG (1 601, 9.19%)
ATGC (1 529, 8.77%)
AGCT (1 097, 6.29%)
ATCG (1 001, 5.74%)
AAAT (2 471, 9.36%)
AATT (2 128, 8.06%)
ATCG (1 999, 7.57%)
AGAT (1 866, 7.07%)
AAAG (1 774, 6.72%)
AAAT (12 393, 26.33%)
AATC (5 048, 10.73%)
AAAG (2 880, 6.12%)
AGAT (2 663, 5.66%)
ATGC (2 392, 5.08%)
AAAT (16 491, 28.04%)
AACG (4 770, 8.11%)
AAAG (3 644, 6.20%)
AAAC (2 480, 4.22%)
ATGC (2 363, 4.02%)
五核苷酸
Pentamers
AAAAT (893, 11.20%)
AAAAG (842, 10.56%)
AAAAC (342, 4.29%)
CCCGG (282, 3.54%)
AAATG (247, 3.10%)
AAAAG (1 890, 11.07%)
AAAAT (1 675, 9.81%)
AGAGG (1 249, 7.31%)
AGGGG (950, 5.56%)
CCGCG (732, 4.29%)
AAAAG (1 496, 9.00%)
AAAAT (1 470, 8.84%)
AAAGT (561, 3.37%)
AGAGG (536, 3.22%)
AAAAC (492, 2.96%)
AAAAG (5 226, 13.61%)
AAAAT (4 142, 10.78%)
AGCCG (2 716, 7.07%)
AAGAG (2 622, 6.83%)
CCCGG (1 536, 4.00%)
六核苷酸
Hexamers
AAAAAG (1 292, 6.94%)
AAAAAT (789, 4.24%)
CCGGCG (587, 3.15%)
AGGCGG (502, 2.69%)
AACCCT (436, 2.34%)
AAATTC (2 978, 7.65%)
AAAAAG (2 384, 6.12%)
ACGGCG (1 955, 5.02%)
AAAAAT (1 621, 4.16%)
ACATAT (1 071, 2.75%)
AACTAG (9 071, 14.58%)
AAAAAG (4 325, 6.95%)
AAAAAT (3 770, 6.06%)
AAGATC (2 127, 3.42%)
AAAACC (1 700, 2.73%)
AAAAAG (11 316, 9.44%)
ACCTCG (10 180, 8.50%)
AGAGGG (3 963, 3.31%)
CCCGCG (3 740, 3.12%)
CCCCCG (3 348, 2.79%)
518
表 8 4个物种的基因组序列数据来源
Table 8 The sources of genome sequence data of the four species
物种
Species
二穗短柄草
Brachypodium distachyon
水稻
Oryza sativa
玉米
Zea mays
高粱
Sorghum bicolor
基因组序列数据来源
Genome sequence data sources
http://www.brachypodium.org/
http://rice.plantbiology.msu.edu
http://www.maizesequence.org/
http://genome.jgi-psf.org/Sorbi1/
的重要性质奠定基础。SSR序列的组成形式具有很
大的相似性,这可能是禾本科植物基因组中具有较
高的共线性的原因之一,可以有效地用于选择最佳
的 SSR重复序列来研究其它植物基因组。
3材料与方法
3.1数据来源
从互联网上下载二穗短柄草、水稻、高粱和玉米
的全基因组序列(表 8)。
作者贡献
郑燕负责本实验设计、数据分析和文章初稿的
写作;张耿负责基因组 SSR序列的扫描及统计;通讯
作者吴为人是项目的构思者,指导实验设计、数据分
析及论文修改。全体作者都阅读并同意最终的文本。
参考文献
Chen Z.Z., Wang X.S., and Zhu J., 2005, Analysis of SSR poly-
morphism by genome-scale comparing between varieties in
rice, Zhongguo Shuidao Kexue (Chinese Journal of Rice
Science), 19(4): 303-307 (陈仲中,汪旭升, 朱军, 2005, 基
于水稻基因组序列 SSR的多态性分析,中国水稻科学, 19
(4): 303-307)
Coffee B., Zhang F., Warren S.T., and Reines D., 1999, Acetylat-
ed histones are associated with FMR1 in normal but not
fragile X-syndrome cells, Nature Genetics, 22: 98-101
Gao Y.M., Han Y.Q., Tang H., Sun D.M., Wang Y.J., and Wang
W.D., 2008, Analysis of simple sequence repeats in Rhizobi-
um genomes, Zhongguo Nongye Kexue (Scientia Agricul-
tura Sinica), 41(10): 2992-2998 (高亚梅,韩毅强,汤辉,孙
东梅,王彦杰,王伟东, 2008,根瘤菌基因组内简单重复序
列的分析,中国农业科学, 41(10): 2992-2998)
Gur-Arie R., Cohen C.J., Eitan Y., Shelef L., Hallerman E.M.,
and Kashi Y., 2000, Simple sequence repeats in Escherichia
coli: Abundance, distribution, composition, and polymor-
phism, Genome Res., 10(1): 62-71
International Rice Genome Sequencing Project, 2005, The map-
based sequence of the rice genome, Nature, 463: 793-800
Karaoglu H., Lee C.M.Y., and Meyer W., 2004, Survey of simple
sequence repeats in completed fungal genomes, Molecular
Biology and Evolution, 22(3): 639-649
Kellogg E.A., 2001, Evolutionary history of the grasses, Plant
Physiol., 125(3): 1198-1205
Kolpakov R., Bana G., and Kucherov G., 2003, mreps: Efficient
and flexible detection of tandem repeats in DNA, Nucleic
Acids Res., 31(13): 3672-3678
Lagercrantz U., Ellegren H., and Andersson L., 1993, The abun-
dance of various polymorphic microsatellite motifs differs
between plants and vertebrates, Nucleic Acids Research, 21
(5): 1111-1115
Lawson M.J. and Zhang L., 2006, Distinct patterns of SSR distri-
bution in the Arabidopsis thaliana and rice genomes,
Genome Biology, 7: R14
Li C.Y., Li J.B., Zhou X.G., Zhang S.S., Dong A.R., and Xu M.
H., 2005, Frequency and distribution of microsatellites in
open reading frame of rice blast fungus, Magnaporthe grisea,
Zhongguo Shuidao Kexue (Chinese Journal of Rice Science),
3.2数据分析
利用重复序列查找软件 mreps (Kolpakov et al.,
2003),编写一个 perl脚本,对目标基因组(包括正链
和负链)中的 SSR位点进行高通量检索,查找基因组
中序列总长度大于 12 bp,个数从 1到 6,匹配率为
100%的 SSR序列。对于一个长度大于 12 bp的 SSR,
可能包括 12个以上单碱基重复,6个以上二碱基重
复,4个以上三碱基重复,3个以上四碱基或五碱基
重复,或 2个以上六碱基重复。为叙述方便,将所有
可循环的序列及其互补的序列归为一类,如 AAC基
序代表所有 AAC、ACA、CAA、GTT、TGT和 TTG的
SSR。据此,可以将单碱基重复归为 A、C两类,二核苷
酸重复归为 4类,三核苷酸重复归为 10类,四核苷酸
重复归为 33类,五核苷酸重复归为 102类,六核苷酸
重复归为 350类。根据这一原则,我们编写了一个
JAVA程序,实现核苷酸重复的批量转换。之后再统
计各种核苷酸类型的种类、数目等特征,包括 SSR频
率(基因组中出现一个 SSR序列的距离,即每多少 kb
出现一个 SSR序列)、SSR丰度(基因组中 SSR的数
目)、SSR相对丰度(基因组中每百万个碱基中所含的
SSR数量) (Karaoglu et al., 2004)。
禾本科植物微卫星序列的特征分析和比较
Characterization and Comparison of Microsatellites in Gramineae 519
基因组学与应用生物学
Genomics and Applied Biology
19(2): 167-173 (李成云,李进斌,周晓罡,张绍松,董爱荣,
许明辉, 2005,稻瘟病菌阅读框架中 SSR频率、分布及所
在基因功能,中国水稻科学, 19(2): 167-173)
Li M., Yuyama N., Luo L., Hirata M., and Cai H., 2009, In silico
mapping of 1758 new SSR markers developed from public
genomic sequences for sorghum, Molecular Breeding, 24(1):
41-47
Morgante M., Hanafey M., and Powell W., 2002, Microsatellites
are preferentially associated with nonrepetitive DNA in
plant genomes, Nature Genetics, 30: 194-200
Paterson A.H., Bowers J.E., Bruggmann R., Dubchak I., Grim-
wood J., Gundlach H., Haberer G., Hellsten U., Mitros T.,
Poliakov A., Schmutz J., Spannagl M., Tang H., Wang X.,
Wicker T., Bharti A.K., Chapman J., Feltus F.A., Gowik U.,
Grigoriev I.V., Lyons E., Maher C.A., Martis M., Narecha-
nia A., Otillar R.P., Penning B.W., Salamov A.A., Wang Y.,
Zhang L.F., Carpita N.C., Freeling M., Gingle A.R., Hash C.
T., Keller B., Klein P., Kresovich S., McCann M.C., Ming
R., Peterson D.G., Rahman M., Ware D., Westhoff P., May-
er K.F.X., Messing J., and Rokhsar D.S., 2009, The Sorghum
bicolor genome and the diversification of grasses, Nature,
457(7229): 551-556
Schnable P.S., Ware D., Fulton R.S., Stein J.C., Wei F., Pasternak
S., Liang C., Zhang J., Fulton L., Graves T.A., Minx P.,
Reily A.D., Courtney L.C., Kruchowski S.S., Tomlinson C.,
Strong C., Delehaunty K., Fronick C., Corutney B., Rock S.
M., Belter E., Du F., Kim K., Abbott R.M., Cotton M., Levy
A., Marchetto P., Ochoa K., Jackson S.M., Gillam B., Chen
W., Yan L., Higginbotham J., Cardenas M., Waligorski J.,
Applebaum E., Phelps L., Falcone J., Kanchi K., Thane T.,
Scimone A., Thane N., Henke J., Wnag T., Ruppert J., Shah
N., Rotter K., Hodges J., Ingenthron E., Cordes M., Kohlerg
S., Sgro J., Delgado B., Mead K., Chinwalla A., Leonard S.,
Crouse K., Collura K., Kudrna D., Currie J., He R., Angelo-
va A., Rajasekar S., Mueller T., Lomeli R., Scara G., Ara K.
, Delaney K., Wissotski M., Lopez G., Campos D., Braidotti
M., Ashley E., Golser W., Kim H., Lee S., Lin J., Dujmic Z.,
Kim W., Talag J., Zuccolo A., Fan C., Sebastian A., Kramer
M., Spiegel L., Nascimento L., Zutavern T., Miller B., Am-
broise C., Muller S., Spooner W., Narechania A., Ren L.,
Wei S., Kumari S., Faga B., Levy M.J., McMahan L., Buren
P.V., Vaughn M.W., Ying K., Yeh C.T., Emrich S.J., Jia Y.,
Kalyanaraman A., Hsia A.P., Barbazuk W.B., Baucom R.S.,
Brutnell T.P., Carpita N.C., Chaparro C., Chia J.M., Der-
agon J.M., Estill J.C., Yan F., Jeddeloh J.A., Han Y., Lee H.,
Li P., Lisch D.R., Liu S., Liu Z., Nagel D.H., McCann M.C.,
SanMiguel P., Myers A.M., Nettleton D., Nguyen J., Pen-
ning B.W., Ponnala L., Schneider K.L., Schwartz D.C.,
Sharma A., Soderlund C., Springer N.M., Sun Q., Wang H.,
Waterman M., Westerman R., Wolfgruber T.K., Yang L.,
Yu Y., Zhang L., Zhou S., Zhu Q., Bennetzen J.L., Dawe R.
K., Jiang J., Jiang N., Presting G.G., Wessler S.R., Aluru S.,
Martienssen R.A., Clifton S.W., McCombie W.R., Wing
R.A., and Wilson R.K., 2009, The B73 maize genome:
Complexity, diversity, and dynamics, Science, 326(5956):
1112-1115
Sharopova N., McMullen M.D., Schultz L., Schroeder S.,
Sanchez-Villeda H., Gardiner J., Bergstrom D., Houchins K.,
Melia-Hancock S., Musket T., Duru N., Polacco M., Ed-
wards K., Ruff T., Register J.C., Brouwer C., Thompson R.,
Velasco R., Chin E., Lee M., Woodman-Clikeman W., Long
M.J., Liscum E., Cone K., Davis G., and Coe E.H.J., 2002,
Development and mapping of SSR markers for maize, Plant
Mol. Biol., 48(5-6): 463-481
Temnykh S., Park W.D., Ayres N., Cartinhour S., Hauck N.,
Lipovich L., Cho Y.G., Ishii T. and McCouch S.R., 2000,
Mapping and genome organization of microsatellite se-
quences in rice (Oryza sativa L.), Theor. Appl. Genet., 100(5):
697-712
The international Brachypodium Initiative, 2010, Genome se-
quencing and analysis of the model grass Brachypodium dis-
tachyon, Nature, 463: 763-768
Tóth G., Gáspári Z., and Jurka J., 2000, Microsatellites in differ-
ent eukaryotic genomes: Survey and analysis, Genome Res.,
10(7): 967-981
Vogel J.P., Tuna M., Budak H., Huo N., Gu Y.Q., and Steinwand
M.A., 2009, Development of SSR markers and analysis of
diversity in Turkish populations of Brachypodium distachyon,
BMC Plant Biology, 9: 88
Weber J.L., 1990, Informativeness of human (dC-dA) n and (dG-
dT) n polymorphism, Genomics, 7(4): 524-530
Wu Q.H., Li X.F., and Mao X.X., 2005, Using microsatellite
markers to detect genetic diversity in rice, Fenzi Zhiwu
Yuzhong (Molecular Plant Breeding), 3(5): 744-748 (吴秋
花,李晓方,毛兴学, 2005,水稻微卫星标记与遗传多样性
的检测,分子植物育种, 3(5): 744-748)
Zhang X.Y., and Li D.Y., 2000, Repetitive DNA sequences in
wheat and its relatives, Zhongguo Nongye Kexue (Scientia
Agricultura Sinica), 33(5): 14-24, 111 (张学勇,李大勇, 2000,
小麦及其近亲基因组中的 DNA重复序列研究进展,中国
农业科学, 33(5): 14-24, 111)
520