全 文 :基因组学与应用生物学,2012年,第31卷,第6期,第624-633页
GenomicsandAppliedBiology,2012,Vol.31,No.6,624-633
数据分析
DataAnalysis
甘蔗叶绿体 DNA微卫星在禾本科中的进化分析
吴杨 1 周会 2* 李杨瑞 2
1福建农业职业技术学院生物技术系,福州,350007;2中国农业科学院甘蔗研究中心,农业部广西甘蔗生物技术与遗传改良重点实验室,广西
农业科学院甘蔗研究所,广西甘蔗遗传改良重点实验室,南宁,530007
*通讯作者,zhouhui@gxaas.net
摘 要 为开发甘蔗属内及近缘属叶绿体微卫星,或称简单重复序列(simplesequencerepeat,SSR)分子标
记,以甘蔗叶绿体SSRs(chloroplastsimplesequencerepeats,cpSSRs)及其侧翼序列为参照,应用BLAST程序
对18种禾本科植物进行多序列比对,分析甘蔗cpSSR在禾本科中的进化。结果表明,cpSSRs及其两侧翼区
域是进化过程中发生突变的热点区域,禾本科植物cpSSRs的数量在进化过程中处于动态变化的过程,但在
亚科水平上保持动态平衡;在禾本科叶绿体基因组不同结构位置中反向重复序列(invertedrepeat,IR)中的
cpSSRs在进化过程中稳定程度最高,小单拷贝(smallsinglecopy,SSC)中的 pSSRs稳定程度次之,大单拷贝
(largesinglecopy,LSC)中的cpSSRs稳定程度最低;编码区中cpSSRs的稳定性远远高于非编码区,非编码区
为cpSSRs突变发生的主要区域;应用编码区cpSSRs信息构建系统进化树结果最为精确,在涉及亚科以上
水平的进化分析时使用非编码区的cpSSRs信息可能会造成结果有误。
关键词 甘蔗,禾本科,叶绿体,微卫星,进化
EvolutionAnalysisofSugarcaneChloroplastDNAMicrosatellitesinPoaceae
WuYang1 ZhouHui2* L Yangrui2
1DepartmentofBiotechnology,FujianVocationalCollegeofAgriculture,Fuzhou,350007;2SugarcaneResearchCenter,ChineseAcademyofAgric-
ulturalSciences,KeyLaboratoryofSugarcaneBiotechnologyandGeneticImprovement(Guangxi),MinistryofAgriculture,SugarcaneResearchInstitute,
GuangxiAcademyofAgriculturalSciences,GuangxiKeyLaboratoryofSugarcaneGeneticImprovement,Nanning,530007
*Correspondingauthor,zhouhui@gxaas.net
DOI:10.3969/gab.031.000624
Abstract Inordertodevelopchloroplastmicrosatellites,orsimplesequencerepeats(cpSSRs)forSaccharumand
relatedgenus,thevariationsofcpSSRsandtheirflankingregionsof18plantschloroplastgenomesinthefamilyof
Poaceae were analyzed by BLAST program by comparing with the cpSSRs of sugarcane. The cpSSRs and their
flankingregionswerehotspotofmutationsduringevolution.TheamountofcpSSRsinthefamilyofPoaceaewas
changing dynamically, but keeping dynamic balance at sub-familylevel during evolution. The cpSSRs within in-
vertedrepeat(IR)regionsweremoststableincpDNA,followedbysmallsinglecopy(SSC)andlargesinglecopy
(LSC). The cpSSRs within codingregions were more stable than those within non-coding regions, and the muta-
tionsofcpSSRshappenedmostlywithinnon-codingregions.Theaccuracyofphylogenetictreeobtainedfromthe
cpSSRs within coding regions was higher than that obtained from non-coding regions. The cpSSRs within non-
codingregionscouldbringerrorswhentheywereusedtobuildphylogenetictreeatthelevelhigherthansub-family.
Keywords Sugarcane,Poaceae,Chloroplast,cpSSR,Evolution
基金项目:本研究由广西自然科学基金项目(0991183,2011GXNSFF018002)、现代农业产业技术体系项目(CARS-20-3)和广西
农业科学院基金项目(G2009004,2007005)共同资助
甘蔗(Saccharumspp.)是我国重要的糖料和能源
作物。甘蔗是异缘多倍体作物,在分类上属于禾本科
(Poaceae),蔗茎具有积累糖分的特性。大多数陆生植
物的叶绿体DNA是环形双链结构,大小为110~180kb
(Calsaetal.,2004)。叶绿体基因组(chloroplastDNA,
cpDNA)通常为一环状四组分结构,小单拷贝(small
singlecopy,SSC)和大单拷贝(largesinglecopy,LSC)
被2个片段的反向重复序列(invertedrepeat,IR)隔开。
2004年巴西和日本分别报道完成了甘蔗叶绿体基因
组的测序工作,GenBank登记号码分别为NC005878
(Calsa et al., 2004)和 AP00671 (Asano et al., 2004)。
巴西使用的材料为商业栽培品种SP80-3280,日本
使用的材料为商业栽培品种NCo310。这两个甘蔗
叶绿体基因组的大小都为141 182 bp,包含LSC区
(83048bp)、SSC区(SP80-3280: 12 546 bp; NCo310:
12 544 bp)和一对反向重复序列 IR区(SP80-3280:
22794bp;NCo310:22795bp)。
叶绿体等原生质体通常被广泛地应用于不同分
类水平中的植物系统进化研究(Rajendrakumaretal.,
2007;Tambarussietal.,2009),主要原因是由于其进化
速度较核基因组慢(Wolfeetal.,1987;Cleggetal.,1994)
且通常不发生遗传重组(Clegg,1993)。在cpDNA中
存在大量由1~6个碱基串联组成的微卫星,也称为
简单重复序列(simplesequencerepeat,SSR)。叶绿体
微卫星(chloroplastsimplesequencerepeat,cpSSR)具有
微卫星标记的共显性、高多态性、分布广泛性等优点,
又兼顾到叶绿体基因组结构简单、相对保守、单亲遗
传等特点,cpSSRs技术于近年得到快速的发展,成
为一种新的分子标记技术,并在植物遗传和育种中
得到广泛的应用。cpSSRs可提供足够的变异信息进
行物种的地理生殖隔离研究或鉴定亲缘关系很近的
种(DickandHeuertz,2008)。叶绿体DNA由于遗传
重组的缺乏可降低物种间cpDNA的相似性,这有助
于提高物种间系统进化分析结果的准确性(Marshall
etal.,2001)。
目前,大多数的cpSSRs的应用研究报道主要集
中在基因编码区或者富含基因的区域(Rajendraku-
mar et al., 2007)。然而,目前已经有大量植物的
cpDNA完成了测序工作,这使得从整个cpDNA的
水平上研究cpSSRs的动态变化成为可能。甘蔗及其
所属的禾本科已有很多植物完成了cpDNA的测序,
其中包括禾本科早期重要的分化物种 Anomochloa
marantoideaL.(MorrisandDuvall,2010)和2个竹亚科
物种绿竹(Bambusa oldhamiiL.)和麻竹(Dendrocalamus
latiflorusL.)的cpDNA的测序完成(Wuetal.,2009),
可以更加系统地分析禾本科植物cpDNA的进化以
及探讨cpSSRs在禾本科的动态变化。
本研究的目的是以甘蔗cpSSRs为参照,研究其
在禾本科水平上的进化,特别是在其所属的黍亚科
水平上的动态变化,为甘蔗属内及其近缘属间的
cpSSRs分子标记的开发利用提供理论指导。
1结果与分析
1.1 cpSSRs频率和分布
根据本研究设定的搜索标准,应用BLAST程序
对 18种禾本科植物进行多序列比对,分析甘蔗
cpSSR在禾本科中的进化,结果表明,18种禾本科植
物cpSSRs数量分布范围为150~191,不同亚科植物
cpSSRs数量分布范围呈现一定的规律性(表1)。18种
禾本科植物的叶绿体基因组大小合计为2479518bp,
共计找到3193个cpSSRs,平均cpSSR分布密度为
1.29个/kb。18种禾本科植物来自4个不同的亚科及
一个禾本科早期分化种 A. marantoidea,cpSSRs的数
量分布也表现为不同的分布范围,其中稻亚科3种
植物的cpSSRs数量最少分别为150、152和153个,
平均151.7个,平均cpSSR分布密度为1.13个/kb;
竹亚科2种植物的cpSSRs数量为160和164个,平
均162个,平均cpSSR为分布密度1.16个/kb;早熟
禾亚科6种植物的cpSSRs数量为177~190个,平均
183.5个,平均cpSSR为分布密度1.35个/kb;黍亚科
6种植物的cpSSRs数量为184~191个,平均189.3个,
平均 cpSSR分布密度为 1.34个 /kb;A. marantoidea
的cpSSRs数量为 177个,平均 cpSSR分布密度为
1.28个/kb。近缘科植物香蒲的cpSSRs数量为257,平
均cpSSR分布密度为1.59个/kb,显著高于禾本科。
在单、二、三、四、五和六碱基重复中,单碱基重
复cpSSRs数量最多,在18种禾本科植物中的平均
比例为65.7%,三碱基重复次之,平均比例为25.5%,
其它四碱基重复比例为5.5%,二碱基重复比例为2.8%,
五碱基重复比例为0.4%,六碱基重复比例为0.1%。
单碱基重复cpSSRs在18种禾本科植物中的数
量为93~133个,平均116.6个,而近缘科植物香蒲的
数量为143,高于禾本科的平均水平。在禾本科中,
cpSSRs数量最多的单碱基重复中 A/T重复单元占
94.8%,G/C重复单元占5.2%;在单碱基重复次数≥10
的cpSSRs中,A/T重复单元占20.6%,G/C重复单元
占1.0%,这表明在单碱基重复≥8的cpSSRs中,8和
9碱基重复单元所占比例较高。
二碱基重复cpSSRs在18种禾本科植物中的数量
为4~7个,平均5个,而近缘科香蒲的数量高达36个,
远高于禾本科的平均水平。在禾本科二碱基重复单
元中,AT/TA重复单元数量最多,总体比例高达
71.1%,其次为TC/CT,其所占比例为24.4%。在香蒲
中AT/TA重复单元数量则高达86.1%。
三碱基重复cpSSRs在18种禾本科植物中的数
量为38~57个,平均45.2个,而近缘科香蒲的数量为
甘蔗叶绿体DNA微卫星在禾本科中的进化分析
EvolutionAnalysisofSugarcaneChloroplastDNAMicrosatellitesinPoaceae
625
基因组学与应用生物学
GenomicsandAppliedBiology
四碱基重复cpSSRs在18种禾本科植物中的数
量为5~15个,平均9.7个,而近缘科香蒲的数量为
15个,高于禾本科的平均水平。在禾本科四碱基重复
单元中,AATA/TATT和AGAA/TTCT重复单元出现
频率较高,分别为14.3%和10.9%。在香蒲中TTAA
61个,高于禾本科的平均水平。在禾本科三碱基重复
单元中,GAA/TTC、AAC/GTT、AGA/TCT和AAG/CTT
重复单元出现频率较高,分别为17.6%、15.5%、13.5%
和12.5%。在香蒲中ATA/TAT和GAA/TTC重复单
元出现频率较高,分别为18.0%和16.4%。
表119种植物中cpSSRs的分布
Table1DistributionofcpSSRsin19selectedplants
植物名称
Plantsname
甘蔗 NCo310
Saccharum hybridcultivar
NCo310
甘蔗SP80-3280
Saccharum hybridcultivar
SP80-3280
高粱
Sorghum bicolor
玉米
Zea mays
玉米B73
Zea mayscultivarB73
薏苡
Coix lacryma-jobi
水稻
Oryza nivara
水稻
Oryza sativa Indica
水稻
Oryza sativa Japonica
剪股颖
Agrostis stolonifera
短柄草
Brachypodium distachyon
羊茅
Festuca arundinacea
大麦
Hordeum vulgare
黑麦草
Lolium perenne
小麦
Triticum aestivum
绿竹
Bambusa oldhamii
麻竹
Dendrocalamus latiflorus
Anomochloa marantoidea
香蒲
Typha latifolia
总计
Total
190
190
184
191
190
191
150
153
152
180
190
183
181
190
177
160
164
177
257
cpSSRs密度(s/kb)
cpSSRs(s/kb)
1.35
1.35
1.31
1.36
1.35
1.36
1.12
1.14
1.13
1.32
1.41
1.35
1.33
1.40
1.32
1.15
1.18
1.28
1.59
单碱基(个)
Mono G
≥
1
0
G
≥
8
C≥
1
0
C≥
8
T≥
1
0
T≥
8
A
≥
1
0
A
≥
8
57
57
54
56
57
59
48
49
49
62
66
64
65
70
57
50
51
54
54
9
9
7
16
17
8
5
5
6
13
6
12
12
16
10
15
13
17
13
66
66
61
60
62
64
39
40
41
53
50
55
52
55
55
47
50
48
85
22
22
13
16
14
17
6
5
6
11
6
12
11
14
13
16
15
17
25
2
2
4
3
3
2
4
4
4
5
2
2
3
5
4
2
2
4
2
0
0
2
0
0
0
0
0
0
1
0
0
0
3
1
0
0
0
0
3
3
3
3
3
3
2
3
2
5
3
4
2
3
1
2
3
5
2
1
1
3
2
2
1
0
0
0
1
1
0
0
1
0
0
0
1
0
二碱基
(个)
Di
5
5
6
6
5
5
4
4
4
4
7
5
6
5
7
4
4
4
36
三碱基
(个)
Tri
47
47
47
52
50
47
42
42
42
40
52
45
42
42
42
40
38
57
61
四碱基
(个)
Tetra
9
9
8
11
10
9
10
10
9
10
10
8
10
9
8
15
15
5
15
五碱基
(个)
Penta
1
1
0
0
0
1
1
1
0
1
0
0
1
1
3
0
1
0
2
六碱基
(个)
Hexa
0
0
1
0
0
1
0
0
1
0
0
0
0
0
0
0
0
0
0
626
重复单元出现频率较高,为20.0%。
五、六碱基重复cpSSRs出现的频率比较低,在
12种禾本科植物中查找到五碱基或者六碱基重复
cpSSRs,分别为甘蔗中的TATAA/TTATA,高粱中的
ATTAGT/ACTAAT,薏苡中的TAAAA/TTTTA和T
ATTTT/AAAATA,水稻中的AAAGT/ACTTT和A
TAGAA/TTCTAT,剪股颖中的CTTAT/ATAAG,大
麦中的CCATA/TATGG,黑麦草中的TATAG/CTAT
A,小麦中的 ATAGA/TCTAT、CCATA/TATGG和
TTTAT/ATAAA,以及麻竹中的TTTTA/TAAAA。在
香蒲中也查找到2个五碱基重复cpSSRs,即AATA
A/TTATT和TATAT/ATATA。
1.2甘蔗 cpSSRs在禾本科中的进化
以甘蔗栽培品种NCo310中cpSSRs为参照,分
析甘蔗cpSSRs在禾本科的进化情况,结果见表2。
NCo310叶绿体基因组大小为141182 bp,共含有
190个cpSSRs,平均每kb中含1.35个;其中LSC长
度为83048bp,共含有145个cpSSRs,平均每kb中
含 1.75个;SSC长度为 12 544 bp,共含有 17个
cpSSRs,平均每kb中含1.36个;IR长度为22795bp,
共含有14个cpSSRs,平均每kb中含0.61个;结果
表明甘蔗叶绿体基因组中LSC中cpSSRs含量最为
丰富,而IR中则较低。
除NCo310外其它17个禾本科植物中,早期分
化种 A. marantoidea与NCo310中cpSSRs位点在进
化中保持一致的比例最低,为25.3%;另外一个甘蔗
品种SP80-3280保持一致的比例最高,为99.5%;黍
亚科中与 NCo310中 cpSSRs位点在进化中保持一
致的比例都在64.2%以上;其它稻亚科、早熟禾亚科和
竹亚科中保持一致比例较为接近,为28.4%~38.4%。这
说明cpSSRs在进化过程中可以发生突变生成新的
cpSSR位点或者使某个已存在的cpSSR位点消失,但
cpSSRs总体数量在亚科水平上保持动态的平衡。
在叶绿体基因组不同结构片段中,IR中cpSSRs
在进化中的稳定性最好,在黍亚科中与NCo310保
持一致的比例都在85.7%以上,在稻亚科、早熟禾亚
科和竹亚科中保持一致比例也较高(57.1%~78.6%),
在早期分化种 A. marantoidea 中保持一致的比例也
达到42.9%;SSC中cpSSRs在进化中的稳定性略低
于LSC,在黍亚科中与NCo310保持一致的比例都
在76.5%以上,在稻亚科、早熟禾亚科和竹亚科中保
持一致比例为41.2%~47.1%,在早期分化种 A. maran-
toidea中保持一致的比例为35.3%;LSC中cpSSRs在
进化中的稳定性最差,在黍亚科中与NCo310保持
一致的比例最低的降至57.2%,在稻亚科、早熟禾亚
科和竹亚科中保持一致比例也降低至30%以下,在
早期分化种 A. marantoidea 中保持一致的比例只有
20.7%。从禾本科或者黍亚科总体来看,在LSC、SSC
和IR中保持一致的cpSSRs的比例在18种禾本科
植物在的比例分别为9.0%、29.4%和21.4%,在6种
黍亚科植物中的比例分别为37.9%、70.6%和78.6%。
叶绿体基因组不同结构位置的cpSSRs的变化分析
表明,IR中的cpSSRs在进化过程中稳定程度最高,
SSC中的 cpSSRs稳定程度次之,LSC中的 cpSSRs
稳定程度最低。
从cpSSRs在叶绿体基因组中的编码区和非编码
区(含基因间隔区和内含子)的变化情况来看,在18种
禾本科植物中编码区保持一致性的cpSSRs的比例
为26.0%,而在非编码区的比例仅有3.5%;在6种黍
亚科的编码区中保持一致性的cpSSRs的比例则高
达89.6%,在非编码区的比例也达到17.7%。从LSC、
SSC和IR等不同叶绿体基因组结构位置的编码区
和非编码区比较来看也表现出类似的结果,特别是
LSC非编码区的99个cpSSRs中仅有1个在18个
禾本科中保持一致。分析结果表明叶绿体基因组中
cpSSRs的稳定性在编码区远远高于非编码区,非编
码区为cpSSRs发生突变的主要区域。
1.3系统进化分析
以甘蔗的cpDNA编码区cpSSRs作为参照,将
BLAST分析得到的18种禾本科植物编码区cpSSRs
序列或者对应位置的序列串联组合起来构建系统进
化树(图1)。图1中的系统进化树以禾本科早期分化
种 A. marantoidea为外类群,其余17种禾本科植物
可清晰地分为2支进化枝,即BEP(Bambusoideae,
Ehrhartoideae,Pooideae)进化枝和 ACMAD(Panicoi-
deae,Arundinoideae,Chloridoideae,Micrairoideae,Ar-
istidoideae, Danthonioideae)进化枝(Grass Phylogeny
WorkingGroup,2001;Sánchen-Kenetal.,2007;Bouch-
enak-Khelladietal.,2008)。两个甘蔗栽培种、薏苡、高
粱和两个玉米材料属于PACMAD进化枝内的黍亚
科(Panicoideae)。BEP进化枝内,则可从亚科水平清
晰地分为 3个类群,其中绿竹和麻竹属于竹亚科
(Bambusoideae),3种水稻植物属于稻亚科(Ehrhar-
toideae),羊茅、大麦、小麦、短柄草、黑麦草和剪股颖
等则属于早熟禾亚科(Pooideae)。从系统进化分析结
果来看,BEP进化枝中竹亚科和稻亚科在亲缘关系
方面较近,其次才是早熟禾亚科。本研究系统进化树
所显示的禾本科物种亲缘进化关系与GrassPhylogeny
甘蔗叶绿体DNA微卫星在禾本科中的进化分析
EvolutionAnalysisofSugarcaneChloroplastDNAMicrosatellitesinPoaceae
627
基因组学与应用生物学
GenomicsandAppliedBiology
合
计
T
ot
al
D
10
0.
0
10
0.
0
85
.7
10
0.
0
92
.9
85
.7
64
.3
64
.3
64
.3
71
.4
57
.1
78
.6
57
.1
64
.3
57
.1
78
.6
78
.6
42
.9
78
.6
21
.4
C 14 14 12 14 13 12 9 9 9 10 8 11 8 9 8 11 11 6 11 3
B
A 77 76 73 75 76 75 48 49 49 45 41 46 44 51 41 52 52 35 69 20
B
1
94 94 45 40 45 41 19 19 18 14 14 15 9 17 14 18 20 11 17 4
B
2
19 19 4 10 9 8 1 1 1 3 2 2 1 1 0 1 1 2 3 0
C 19
0
18
9
12
2
12
5
13
0
12
4
68 69 68 62 57 63 54 69 55 71 73 48 89 24
D
10
0.
0
99
.5
64
.2
65
.8
68
.4
65
.3
35
.8
36
.3
35
.8
32
.6
30
.0
33
.2
28
.4
36
.3
28
.9
37
.4
38
.4
25
.3
46
.8
12
.6
B
1 81 81 37 30 37 35 13 13 12 8 8 9 5 13 8 12 14 6 12 1
表
2
以
甘
蔗
栽
培
品
种
N
C
o3
10
中
cp
SS
R
s
为
参
照
的
cp
SS
R
s
在
禾
本
科
中
的
变
化
T
ab
le
2
V
ar
ia
tio
ns
of
cp
SS
R
s
in
fa
m
ily
of
po
ac
ea
e
by
co
m
pa
ri
ng
w
ith
cp
SS
R
s
of
su
ga
rc
an
e
cu
lti
va
r
N
C
o3
10
植
物
名
称
Pl
an
tn
am
e
甘
蔗
N
C
o3
10
甘
蔗
SP
80
-3
28
0
高
粱
薏
苡
玉
米
B
73
玉
米
水
稻
水
稻
籼
稻
水
稻
粳
稻
小
麦
黑
麦
草
大
麦
剪
股
颖
短
柄
草
羊
茅
绿
竹
麻
竹
黍
亚
科
禾
本
科
大
单
拷
贝
L
SC
小
单
拷
贝
SS
C
反
向
重
复
序
列
IR
D
10
0.
0
99
.3
58
.6
57
.2
62
.1
59
.3
29
.0
29
.7
29
.0
23
.4
22
.8
22
.8
20
.7
29
.7
22
.1
28
.3
29
.7
20
.7
37
.9
9.
0
C 14
5
14
4
85 83 90 86 42 43 42 34 33 33 30 43 32 41 43 30 55 13
B
D
10
0.
0
10
0.
0
76
.5
82
.4
82
.4
82
.4
47
.1
47
.1
47
.1
47
.1
47
.1
47
.1
47
.1
47
.1
41
.2
47
.1
47
.1
35
.3
70
.6
29
.4
A 7 7 7 7 7 7 4 4 4 4 4 4 4 4 3 4 4 3 7 2
B
A 46 45 44 44 45 44 28 29 29 23 23 22 24 29 24 28 28 22 40 12
B
2
18 18 4 9 8 7 1 1 1 3 2 2 1 1 0 1 1 2 3 0
B
1 9 9 6 6 6 6 4 4 4 4 4 4 4 4 4 4 4 3 5 3
B
2 1 1 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
C 17 17 13 14 14 14 8 8 8 8 8 8 8 8 7 8 8 6 12 5
B
A 12 12 11 12 12 12 8 8 8 9 7 10 8 9 7 10 10 5 11 3
B
1 2 2 1 2 1 0 1 1 1 1 1 1 0 0 1 1 1 1 0 0
B
2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
拉
丁
名
称
L
at
in
na
m
e
Sa
cc
ha
ru
m
hy
br
id
cu
lti
va
r
N
C
o3
10
Sa
cc
ha
ru
m
hy
br
id
cu
lti
va
rS
P8
0-
32
80
So
rg
hu
m
bi
co
lo
r
Co
ix
la
cr
ym
a-
jo
bi
Ze
a
m
ay
sc
ul
tiv
ar
B
73
Ze
a
m
ay
s
Or
yz
a
ni
va
ra
Or
yz
a
sa
tiv
a
In
di
ca
Or
yz
a
sa
tiv
a
Ja
po
ni
ca
Tr
iti
cu
m
ae
sti
vu
m
Lo
liu
m
pe
re
nn
e
H
or
de
um
vu
lg
ar
e
Ag
ro
sti
s
sto
lo
ni
fe
ra
Br
ac
hy
po
di
um
di
sta
ch
yo
n
Fe
stu
ca
ar
un
di
na
ce
a
Ba
m
bu
sa
ol
dh
am
ii
De
nd
ro
ca
la
m
us
la
tif
lo
ru
s
An
om
oc
hl
oa
m
ar
an
to
id
ea
Pa
ni
co
id
ea
e
Po
ac
ea
e
注
:A
:编
码
区
;B
:非
编
码
区
;C
:合
计
;D
:与
参
照
cp
SS
R
一
致
的
比
例
(%
);
b1
:基
因
间
隔
区
;b
2:
内
含
子
N
ot
e:
A
:C
od
in
g
re
gi
on
;B
:N
on
-c
od
in
g
re
gi
on
;C
:T
ot
al
;D
:P
ro
po
rt
io
n
of
co
ns
en
su
s
(%
);
b1
:I
nt
er
ge
ni
c;
b2
:I
nt
ro
n
628
图1基于叶绿体基因组编码区cpSSRs构建的系统进化树(以Anomochloa marantoidea为外类群,数字表示bootstrap百分比>50%)
Figure1PhylogenetictreeobtainedfromcpSSRswithincodingregionsofcpDNA(OutgroupisAnomochloa marantoidea;Numbe sin-
dicatebootstrappercentage>50%)
WorkingGroup(2001)报道的结果基本吻合。
2 讨论
本研究中禾本科 cpSSRs的平均分布密度为
1.29个/kb,高于桉属(Eucalyptus)ESTs(expressedse-
quencetags)(0.37SSR/kb)(Ceresinietal.,2005)和柑桔
属(Citrus) ESTs (0.5 SSR/kb) (Palmieri et al., 2007),
这可能与ESTs中SSR重复单元特别是非三碱基重
复的单元容易引起较高的移码突变的风险有关(Met-
zgaretal.,2000)。另外,有时不同的SSR定义标准也
会影响不同研究报道之间的比较。本研究发现单碱
基重复cpSSRs含量最为丰富,这与在水稻(Rajendrak-
umar et al., 2007)、Nuphar advena、Ranunculus macra-
nthus和其它 24种植物(Raubeson et al., 2007)中的
cpSSRs分析结果一致。但在核基因组中SSR的主要
类型却与cpSSR有所不同,如在拟南芥基因组中二
碱基重复SSR最为丰富(Cardleetal.,2000),在水稻、
玉米、大麦、小麦和燕麦等ESTs中则是三碱基重复
SSR居多,二碱基重复次之(Varshneyetal.,2002)。在
甘蔗ESTs中也是以二碱基重复和三碱基重复SSR
为主(Silva,2001)。何种SSR的重复单元或者重复次
数在植物中占主要地位还没有定论(Ellegren,2004)。
但是,一般来说用于开发cpSSR分子标记的最短单
核苷酸重复序列至少为8~10个碱基,因为SSR大于
8个碱基才有可能产生滑链错配(slip-strandmispair-
ing,SSM),SSM被认为是影响SSR突变机制的主要
因素,而小于 8个碱基 SSR不能产生 SSM突变
(RoseandFalush,1998)。Jakobsson等(2007)和其他学
者通过对不同植物cpSSRs的研究也都得到了相同的
结论(Nishikawaetal.,2005;EbertandPeakall,2009),认
为具有种内变异的cpSSRs分子标记的最短单核苷
酸重复序列数的变化范围为8~10个碱基。
本研究中cpSSRs在非编码区的含量高于编码区,
且非编码区cpSSRs的变化也是高于编码区,这与大
多数植物中 cpSSRs分布变化规律相同,如 Aster
aceae(Timmeetal.,2007),Fabaceae(Saskietal.,2005)
和 Solanaceae (Daniell et al., 2006)等。Takahashi等
(2005)认为在cpSSRs内或者两侧邻近序列发生突变
的几率增大。本研究中也发现在cpSSRs两侧存在大
量突变位点(表3),在18种禾本科植物中平均每个甘
蔗cpSSR两侧100bp和50bp内分别存在33.9个和
23.3个突变位点,50bp内的突变位点数占100bp的
68.7%;而在在 6种黍亚科植物中平均每个甘蔗
cpSSR两侧100bp和50bp内只有4.5个和3.4个突
变位点,50bp内的突变位点数占100bp的75.9%。
因此我们在分析开发cpSSRs标记引物时不仅要研
究cpSSRs本身,还有关注其两侧翼的序列变化。
在植物系统进化研究中,构建系统进化树一般
都使用蛋白序列(Saskietal.,2007)。Wu等(20 9)利用
61个叶绿体蛋白序列进行系统分析时发现,稻亚科
与竹亚科表现出较近的亲缘关系,组成与早熟禾亚科
并列的姐妹群。而Zhang等(2011)、唐萍等(2011)等研
究则发现竹亚科与早熟禾亚科的亲缘关系较近。在
本研究中我们使用编码区cpSSRs序列构建系统进
化树的结果与Wu等(2009)分析的结果一致。不同的
报道结果表明在一些近缘物种中进行系统进化分析
甘蔗叶绿体DNA微卫星在禾本科中的进化分析
EvolutionAnalysisofSugarcaneChloroplastDNAMicrosatellitesinPoaceae
629
基因组学与应用生物学
GenomicsandAppliedBiology
时,由于使用的蛋白序列(或者基因组中编码区序列)
具有较高的保守性,在物种间差异不大,容易造成分
析结果有一定的误差,要得到更准确的结论则需要
更多的相关信息。
另外,本研究在系统进化分析时还发现,如果我
们使用非编码区、编码区+非编码区、编码区+内含子
等不同来源的cpSSRs序列信息构建的系统进化树
都不能准确的区分 BEP进化枝和 PACMAD进化
枝,甚至我们使用cpDNA的全序列进行分析也存在
同样的问题,只有单独使用编码区的cpSSRs序列才
能得到准确的结果。造成这个结果的原因我们认为
编码区的保守性高于非编码区,非编码区提供的信
息量远远高于编码区,而编码区对植物进化的影响
却远远大于非编码区,因此,在涉及亚科以上水平的
进化分析时使用非编码区的信息可能会造成结果有
误差,但在亚科以内水平属、种间的系统进化分析
时,非编码区将发挥重要作用。
通过分析甘蔗cpSSRs在禾本科的进化表明,不
同的cpSSRs及其两侧序列的进化情况都有所不同。
针对我们研究开发甘蔗及其近缘属的cpSSR分子标
记的目的来说,那些在黍亚科水平表现出较高长度
多态性及两侧突变位点丰富的cpSSRs将是我们重
点研究的目标。根据这个指导原则我们搜索到25个
cpSSRs区域,其中5个位于基因内含子中,包括trnK
[3753bp,目标区域中心位置以NCo310叶绿体基因
组(GenBank ID: AP006714)中的位置为参考,下同]、
ycf3(46623bp)、petB (73 930 bp)和 rpl16 (81 144 bp,
81612bp),其他20个则都位于基因间隔区,其中心
位置分别为4115bp、6113bp、6600bp、13375bp、
16552bp、17686bp、19197bp、21040bp、34083bp、
37055bp、38836bp、44274bp、50221bp、53191 bp、
56731bp、59032bp、60122bp、78437bp、108516bp
和109275bp。我们将以这25个突变热点区域为基
础设计引物进行下一步相关研究。
3材料与方法
3.1数据收集
研究选择了甘蔗等18种禾本科植物和近缘科
的香蒲的叶绿体基因组为基础数据(表4),并从Gen-
Bank(http://www.ncbi.nlm.nih.gov)下载这19种植物
的叶绿体基因组序列。
3.2数据分析方法
本研究中的cpSSRs包括6种类型,分别为单
(mono-)、二(di-)、三(tri-)、四(tetra-)、五(penta-)和六
(hex-)碱基重复,所有cpSSRs均为连续串联重复,不
考虑含间断重复的cpSSR。单碱基cpSSRs位点的搜
寻使用直接MicrosoftWord的查找功能直接进行查
找,分别搜索重复次数≥8和≥10的cpSSRs;利用SS-
RIT软件(http://www.gramene.org/gramene/searches/ss-
rtool)查找二、三、四、五、六碱基5种类型的cpSSRs,
查找条件为二碱基重复次数≥5,三碱基以上重复次
数≥3次。以甘蔗栽培品种NCo310叶绿体基因组中
含有的cpSSRs位点为参照,取cpSSRs序列及两侧
翼各100bp序列应用BLAST(http://blast.ncbi.nlm.nih.
gov/Blast.cgi#)软件在18种禾本科植物中进行多序列
比对分析,分析甘蔗cpSSRs位点在禾本科中的变
化,并分别统计cpSSRs位点两侧各100bp和50bp内
的突变位点数(多碱基连续突变的只计算为一个突变
位点数)。cpSSRs在编码区和非编码区的定位通过
GenBank数据库中甘蔗叶绿体基因组的注释信息来
确定。将以甘蔗cpSSRs为参照进行BLAST分析得
到的18种植物的cpSSRs序列或者对应位置的序列
表3甘蔗cpSSRs两侧100bp和50bp内突变位点统计
Table3Statisticsofmutationsiteswithin100bpand50bpadjacenttosugarcanecpSSRs
位置
Location
cpDNA
LSC
SSC
IR
cpSSR数量
NumberofcpSSR
190
145
17
14
A
100bp
6440
5374
684
191
50bp
4427
3783
414
115
B
100bp
33.9
37.1
40.2
13.6
50bp
23.3
26.1
24.4
8.2
C
68.7
70.4
60.5
60.2
注:A:禾本科总突变位点数;B:禾本科平均突变位点数;C:50bp/100bp突变比例(%);D:黍亚科内总突变位点数;E:黍亚科内
平均突变位点数
Note:A:Mutationsitesinpoaceae;B:Averagemutationsitesinpoaceae;C:Ratioof50bp/100bp(%);D:Mutationsitesinpanicoideae;
E:AveragemutationsitesinPanicoideae
D E
100bp
863
748
77
19
50bp
655
575
52
14
100bp
4.5
5.2
4.5
1.4
50bp
3.4
4.0
3.1
1.0
C
(%)
75.9
76.9
67.5
73.7
630
串联组合,使用CLUSTALX(Thompsonetal.,1994)
程序进行多序列比对,选择默认参数,应用 neigh-
bor-joining(NJ)算法构建系统进化树,进行1000次
重复。使用iTOL(LetunicandBork,2006,2011)编辑
绘制系统进化树。
作者贡献
吴杨在论文资料收集、数据分析和论文写作等
方面做了大量工作;周会在数据分析方法、论文写作
指导和修改等方面做大量工作;李杨瑞对英文摘要
和标题进行修改,并对论文内容提出修改意见。
致谢
本研究由广西自然科学基金项目(0991183,2011
GXNSFF018002)、现代农业产业技术体系项目(CARS-
20-3)及广西农业科学院基金项目(G2009004,2007005)
共同资助。
参考文献
AsanoT.,TsudzukiT.,TakahashiS.,ShimadaH.,andKadowaki
K., 2004, Complete nucleotide sequence of the sugarcane
(Saccharum officinarum) chloroplast genome: A compara-
表419种植物叶绿体基因组
Table4Chloroplastgenomesofnineteenplants
禾本科
Poaceae
香蒲科
Typhaceae
黍亚科
Panicoideae
稻亚科
Ehrhartoideae
早熟禾亚科
Pooideae
竹亚科
Bambusoideae
植物名称
Plantsname
GenBank编号
GenBankAcc.No.
AP006714
AE009947
EF115542
FJ261955
X86563
AY928077
AP006728
AY522329
AY522331
EF115543
EU325680
FJ466687
EF115541
AM777385
AB042240
FJ970915
FJ970916
GQ329703
GU195652
基因组大小(bp)
Genesize(bp)
141182
141182
140754
140745
140384
140454
134494
134496
134551
136584
135199
136048
136462
135282
134545
139350
139394
138412
161572
甘蔗
甘蔗
高粱
薏苡
玉米
玉米
水稻
水稻
水稻
剪股颖
短柄草
羊茅
大麦
黑麦草
小麦
绿竹
麻竹
香蒲
Saccharum hybrid cultivarNCo310
Saccharum hybrid cultivarSP80-3280
Sorghum bicolor cultivarBTx623
Coix lacryma-jobi
Zea mays
Zea mays cultivarB73
Oryza nivara
Oryza sativa IndicaGroupisolate9-11
Oryza sativa JaponicaGroupisolatePA64S
Agrostis stolonifera cultivarPennA-4
Brachypodium distachyon cultivarBd21
FestucaarundinaceacultivarKY-31
Hordeum vulgare subsp vulgare cultivarMorex
Lolium perenne
Triticum aestivum
Bambusa oldhamii
Dendrocalamus latiflorus
Anomochloa marantoidea
Typha latifolia
拉丁名称
Latinname
tive analysis of four monocot chloroplast genomes, DNA
Res.,11(2):93-99
Bouchenak-Khelladi Y., Salamin N., Savolainen V., Forest F.,
Bank M., Chase M., and Hodkinson T., 2008, Large mul-
ti-genephylogenetictreesofthegrasses(Poaceae):Progress
towrds complete tribal and generic level sampling, Mol.
Phylogenet.Evol.,47(2):488-505
CalsaJ.T.,CarraroD.M.,BenattiM.R.,BarbosaA.C.,KitajimaJ.
P., and Carrer H., 2004, Structural features and transcript-
editinganalysisofsugarcane (Saccharum officinarum L.)ch-
loroplastgenome,Curr.Genet.,46(6):366-373
Cardle L., Ramsay L., Milbourne D., Macaulaya M., Marshalla
D., and Waugha R., 2000, Computational and experimental
characterization of physically clustered simple sequence re-
peatsinplants,Genetics,156(2):847-854
CeresiniP.C.,SilvaC.L.S.P.,MissioR.F.,SouzaE.C.,FischerC.
N., Guillherme I.R., Gregorio I., da Silva E.H.T., Cicarelli
R.M.B., da Silva M.T.A., Garcia J.F., Avelar G.A., Neto L.
R.P., Mar揶on A.R., Junior M.B., and Marini D.C., 2005,
Satellypus: Analysis and database of microsatellites from
ESTsofEucalyptus,Genet.Mol.Biol.,28(3):589-600
Clegg M.T., Gaut B.S., Learn G.H., Jr, and Morton B.R., 1994,
Ratesandpatter sofchloroplastDNAevolution,Proc.Natl.
Acad.S i.,USA.,91(15):6795-6801
Cl gg M.T., 1993, Chloroplast gene sequences and the study of
甘蔗叶绿体DNA微卫星在禾本科中的进化分析
EvolutionAnalysisofSugarcaneChloroplastDNAMicrosatellitesinPoaceae
631
基因组学与应用生物学
GenomicsandAppliedBiology
plantevolution,Proc.Natl.Acad.Sci.,USA.,90(2):363-367
Daniell H., Lee S.B., Grevich J., Saski C., Quesada-Vargas T.,
Guda C., Tomkins J., and Jansen R.K., 2006, Complete
chloroplast genome sequences ofSolanum bulbocastanum,
Solanum lycopersicum and comparative analyses with other
Solanaceaegenomes,Theor.Appl.Genet.,112(8):1503-1518
Dick C.W., and Heuertz M., 2008, The complex biogeographic
history of a widespread tropical tree species, Evolution, 62
(11):2760-2774
Ebert D., and Peakall R., 2009, A new set of universal de novo
sequencing primers for extensive coverage of non-coding
chloroplast DNA: New opportunities for phylogenetic stud-
ies and cpSSR discovery, Molecular Ecology Resources, 9
(3):777-783
Ellegren H., 2004, Microsatellites: Simple sequences with com-
plexevolution,Nat.Rev.Genet.,5:435-445
GrassPhylogenyWorkingGroup,2001,Phylogenyandsubfamil-
ialclassificationofthegrasses(Poaceae),Ann.Mo.Bot.Gard.,
88(3):373-457
Jakobsson M., S覿ll T Lind-Halldén C., and Halldén C., 2007,
Evolution of chloroplast mononucleotide microsatellites in
Arabidopsis thaliana,Theor.Appl.Genet.,114(2):223-235
LetunicI.,andBorkP.,2006,Interactivetreeoflife(iTOL):Anon-
linetoolforphylogenetictreedisplayandannotation,Bioin-
formatics,23(1):127-128
Letunic I., and Bork P., 2011, Interactive tree of life v2: Online
annotationanddisplayofphylogenetictreesmadeeasy,Nu-
cleicAcidsRes.,39(2):475-478
Marshall H.D., Newton C., and Ritland K., 2001, Sequence-
repeat polymorphisms exhibit the signature of recombina-
tion in lodgepole pine chloroplast DNA, Mol. Biol. Evol.,
18(11):2136-2138
Metzgar D., Bytof J., and Wills C., 2000, Selection against
frameshift mutations limits microsatellite expansion in cod-
ingDNA,GenomeRes.,10:72-80
MorrisL.M.,andDuvallM.R., 2010, The chloroplastgenome of
Anomochloa marantoidea (Anomochlooideae;Poaceae)com-
prises a mixture of grass-like and unique features, Am. J.
Bot.,97(4):620-627
Nishikawa T., Vaughan D.A., Kadowaki K., 2005, Phylogenetic
analysisofOryza pecies, based on simple sequence repeats
and their flanking nucleotide sequences from the mitochon-
drialandchloroplastgenomes,Theor.Appl.Genet.,110(4):
696-705
Palmieri D.A., Novelli V.M., Bastianel M., Cristofani-Yaly M.,
Astúa-MongeG.,CarlosE.F.,deOliveiraA.C.,andMacha-
doM.A.,2007,Frequencyanddistributionofmicrosatellites
fromESTsofcitrus,Genet.Mol.Biol.,30(3):1009-1018
RajendrakumarP.,BiswalA.K.,BalachandranS.M.,Srinivasarao
K., and Sundaram R.M., 2007, Simple sequence repeats in
organellar g nomes of rice: Frequency and distribution in
genicandintergenicregions,Bioinformatics,23(1):1-4
Raubeson L.A., Peery R., Chumley T.W., Dziubek C., Fourcade
H.Matthew., Boore J.L., and Jansen R.K., 2007, Compara-
tivechloroplastgenomics:Analysesincludingnewsequences
fromthe angiospermsNuphar advena andRanunculus mac-
ranthus,BMCG nomics,8(1):174
RoseO.,andFalushD., 1998, Athreshold size formicrosatellite
expansion,Mol.Biol.Evol.,15:613-615
Sánchez-Ken J.G., Clark L.G., Kellogg E.A., and Kay E.E., 2007,
Reinstatement and emendation of subfamily Micrairoideae
(Poaceae),Syst.Bot.,32(1):71-80
Saski C., Lee S.B., Fjellheim S., Guda C., Jansen R.K., Luo H.,
TomkinsJ.,RognliO.A., DaniellH., and Clarke J.L., 2007,
CompletechloroplastgenomesequencesofHordeum vulgare,
Sorghum bicolor andAgrostis stolonifera, and comparative
analyseswithothergrassgenomes,Theor.Appl.Genet.,115
(4):571-590
SaskiC.,LeeS.B.,DaniellH.,WoodT.C.,TomkinsJ.,KimH.G.,
and Jansen R.K., 2005, Complete chloroplast genome se-
quenceofGlycine maxandcomparativeanalyseswithother
legumegenomes,PlantMol.Biol.,59(2):309-322
SilvaJ.A.F.,2001,Preliminaryanalysisofmicrosatellite markers
derived from sugarcane expressed sequence tags (ESTs),
Genet.Mol.Biol.,24:155-159
Takahashi S., Furukawa T., Asano T., Terajima Y., Shimada H.,
Sugimoto A., and Kadowaki K., 2005, Very close relation-
ship of the chloroplast genomes amongSaccharum speci ,
Theor.Appl.Genet.,110(8):1523-1529
Tambarussi E.V., Melotto-Passarin D.M., Barbosa A.L., Brigati
J.B., de Jesus F.A., Barbosa A.L., Dressano K., and Carrer
H.,2009.,In silicoanalysisofsimplesequencerepeatsfrom
chloroplastgenomesofSolanaceaesp cies,CropBreed.Appl.
Biotech.,9:344-352
Tang P., Ruan Q.Y., and Peng C., 2011, Phylogeny in structure
alterations of poaceae cpDNA, Zhongguo Nongxue Tong-
bao(ChineseAgriculturalScienceBulletin),27(30):171-176
(唐萍,阮秋燕 彭程,2011,禾本科植物叶绿体基因组结
构的系统进化研究,中国农学通报,27(30):171-176)
ThompsonJ.D.,HigginsD.G.,andGibsonT.J.,1994,CLUSTAL
W: Improving the sensitivity of progressive multiple se-
quence alignment through sequence weighting, positions-
specific gap penalties nd weight matrix choice, Nucleic
AcidsResearch,22:4673-4680
Timme R., Kuehl E.J., Boore J.L., and Jansen R.K., 2007, A
comparative analysis of theLactuca andHelianthus (Aster-
aceae) pl stid genomes: Identification of divergent regions
632
甘蔗叶绿体DNA微卫星在禾本科中的进化分析
EvolutionAnalysisofSugarcaneChloroplastDNAMicrosatellitesinPoaceae
and categorization of shared repeats, Am. J. Bot., 94(3):
302-312
Varshney R.K., Thiel T., Stein N., Langridge P., and Graner A.,
2002,In silicoanalysisonfrequencyanddistributionofmi-
crosatellitesinESTsofsomecerealspecies,CellMol.Biol.
Lett.,7:537-546
WolfeK.H.,LiW.H.,andSharpP.M.,1987,Ratesofnucleotide
substitutionvarygreatlyamongplantMitochondrial,Chloro-
plast, and Nuclear DNAs, Proc. Natl. Acad. Sci., USA., 84
(24):9054-9058
Wu F.H., Kan D.P., Lee S.B., Daniell H., Lee Y.W., Lin C.C.,
LinN.S.,andLinC.S.,2009, Completenucleotidesequence
ofDendrocalamus latiflorus a dBambusa oldhamii chloro-
plastgenomes,TreePhysiol.,29(6):847-856
Zhang Y.J., Ma P.F., and Li D.Z., 2011, High-throughput se-
quencing of six bamboo chloroplast genomes: Phylogenetic
implicati ns for temperate woodybamboos (Poaceae: Bam-
busoide e),PLOSONE,6(5):20596
633