免费文献传递   相关文献

棉属四倍体AD_1与二倍体A_2、D_5基因组的同源SSR分析



全 文 :遗传 Hereditas (Beijing) 2015年 2月, 37(2): 192―203
www.chinagene.cn 研究报告

收稿日期: 20140815; 修回日期: 20140924
基金项目: “十二五”国家支撑计划项目(编号:2013BAD01B03)和科技部、财政部国家科技基础条件平台项目(编号:2012-014)资助
作者简介: 孙高飞,博士,副教授,研究方向:棉花生物信息学。E-mail: sungaofei@sina.com
何守朴,硕士,助理研究员,研究方向:棉花种质资源学。E-mail: zephyr0911@126.com
孙高飞和何守朴并列第一作者。
通讯作者: 杜雄明,博士,研究员,研究方向:棉花种质资源学。E-mail: dujeffrey8848@hotmail.com
DOI: 10.16288/j.yczz.14-274
网络出版时间: 2014-12-15 8:49:34
URL: http://www.cnki.net/kcms/detail/11.1913.R.20141215.0849.001.html

棉属四倍体 AD1与二倍体 A2、D5基因组的同源 SSR分析
孙高飞 1,2,何守朴 1,潘兆娥 1,杜雄明 1
1. 中国农业科学院棉花研究所,棉花生物学国家重点实验室,安阳 455000;
2. 安阳工学院计算机科学与信息工程学院,安阳 455000
摘要: SSRs(Simple sequence repeats)是一类广泛存在于动植物基因组的 DNA短串联重复序列,是重要的基因组分子标记。
比较不同基因组同源 SSR的差异,有利于了解相近物种间的进化过程。文章使用雷蒙德氏棉基因组(D5)、亚洲棉基因组(A2)
全基因组序列和陆地棉(AD1)的限制性酶切基因组测序数据,进行全基因组 SSR扫描,比较了 A组和 D组的 SSR分布情况,
通过识别 3个基因组之间的同源 SSR,比较它们之间同源 SSR重复序列的差异。结果发现,A组和 D组同源 SSR的分布规
律非常相似,但 A 组与 AD 组的同源 SSR 保守性比 D 组与 AD 组同源 SSR 的保守性强。与 AD 组同源 SSR 相比,A 组中
重复序列长度增长的 SSR数量约为长度缩短的 SSR数量的 5倍,在 D组中这一比值约为 3倍。可以推测,四倍体 AD组在
与 A组、D组的平行进化过程中,由于基因组融合,导致 SSR的重复序列长度变化速率与二倍体 A、D组有差异,同时这
种差异可能导致了 AD 组 SSR 重复序列长度在进化过程中与二倍体相比有变短的趋势。文章首次对 3 个棉花基因组的同源
SSR 进行了系统地比较,发现了同源 SSR 在棉属四倍体基因组和二倍体基因组中的显著差异,为进一步揭示棉属基因组的
进化规律提供了基础。
关键词: SSR;棉花基因组;同源 SSR;进化
Homologous simple sequence repeats (SSRs) analysis in tetraploid
(AD1) and diploid (A2, D5) genomes of Gossypium
Gaofei Sun1,2, Shoupu He1, Zhaoe Pan, Xiongming Du1
1. State Key Laboratory of Cotton Biology, Institute of Cotton Research, Chinese Academy of Agricultural Sciences, Anyang 455000,
China;
2. School of Computer Science and Information Engineering, Anyang Institute of Technology, Anyang 455000, China
Abstract: Simple sequence repeats (SSRs)are a class of repetitive DNA sequences, which are commonly used for
genome analysis. Comparison of the homologous SSRs among different genomes is helpful to understand the evolu-
tionary process in relative species. In this study, SSR scanning was performed to investigate their distribution and
length variation among the genomes of G. raimondii (D5), G. arboretum (A2) and G. hirsutum (AD1). The results
demonstrated that the distribution of SSRs in A genome was very similar with that in D genome, while the length
variation of homologous SSRs between A and AD genome was more conserved than that between D and AD genome.
Compared with SSRs in AD genome, the number of SSRs with longer motif length in A genome was about five times
of those with shorter motif length, while it was about three times in D genome. This implied that the length variation
rates of homologous SSRs between diploid cotton and tetraploid cotton were different during the parallel evolution
第 2期 孙高飞等: 棉属四倍体 AD1与二倍体 A2、D5基因组的同源 SSR分析 193


due to the subgenome fusion, and the motif length of most SSRs in tetraoploid genome tended to become shorter than
homologous SSRs in diploid genome during the process of evolution. This study comprehensively compared the SSRs
in three cotton genomes and revealed the significant difference among them, providing a foundation for further evo-
lutionary study of Gossypium genome.
Keywords: SSR; cotton genome; homologous SSR; evolution
简单序列重复(Simple sequence repeats, SSRs)
又称微卫星(Microsatellites),是一类由几个碱基组成
的基序串联重复而成的 DNA序列,基序长度一般为
1~6 bp,总长一般大于或等于 10 bp,广泛分布于动
植物基因组,是重要的基因组分子标记。SSR 具有
多态性强、长度小、易于快速检测等特点,主要应
用于动植物的分子标记开发、遗传图谱构建、基因
定位等理论和应用研究[1,2]。
SSR 在生物进化研究中也扮演着重要角色,在
大规模基因组测序开始之前,对于 SSR的研究是通
过 PCR等实验方法获得同源位点 SSR,通过检测序
列长度的差异来分析物种间的遗传关系,研究范围
覆盖动物[3~6]和植物[7~10]。随着测序技术的发展,完
整测序的基因组越来越多,对于 SSR的研究也就更
加的全面和深入,基于物种之间、群体之间的 SSR
的比较研究不断涌现[11~16]。
棉花 SSR分子标记的开发在近年获得了快速进
步[17~19],成为棉花分子生物学研究中应用最为成功
的分子标记之一,广泛地应用于棉花种质资源的遗传
多样性[20~22]、重要农艺性状的 QTL定位[23~25]和全基
因组关联分析等领域[26~28]。然而由于缺乏参考基因
组,同时已开发的 SSR标记来源相对单一(大多数来
源于纤维 EST 库),因而对于棉花 SSR 在整个基因
组上的分布和变化规律依然缺乏宏观的认识和研究。
通常认为,现在栽培上所用的异源四倍体陆地
棉(AD1)的两个亚基因组供体种为二倍体亚洲棉(A2)
和雷蒙德氏棉(D5)[29]。近年来随着这两个二倍体基
因组草图[30,31]和部分陆地棉基因组测序原始序列的
公布[32],人们对这 3 个基因组的结构了解地更加深
入,但作为序列变异重要来源之一的 SSR,特别是
同源 SSR在 3个基因组之间的比较尚未见报道。本
研究利用生物信息学方法,对亚洲棉、雷蒙德氏棉
和陆地棉 3个基因组同源 SSR进行系统的比较和分
析,重点探讨了 3 个基因组之间同源 SSR 的差异,
以及产生这些差异的可能原因。
1 材料和方法
1.1 数据来源
雷蒙德氏棉基因组序列(以下简称 D 组)以及相
关注释下载自 NCBI (http://www.ncbi.nlm.nih.gov/
assembly/519268/),亚洲棉基因组(以下简称 A 组)
序列以及相关注释信息下载自 http://cgp.genomics.
org.cn/。由于之前报道的陆地棉遗传图谱编号和两
个二倍体全基因组测序编号存在差异,为了更直观
分析 SSR的同源性,本文首先根据相关文献对这些
编号进行了整合[33](表 1)。陆地棉基因组(以下简称 AD
组)测序数据来源于NCBI中 http://www.ncbi.nlm.nih.
gov/bioproject/168346。该基因组测序使用 6 种不同
的陆地棉品种和两种不同的酶切方法,形成 12个不
同的测序序列样本,在本文中以下划线连接样本名
称和内切酶名称做为陆地棉序列库的名称。
另外根据全基因组测序的染色体和基因注释信
息,本文将基因组上的基因区域划分为外显子区
(CDS)、内含子区(intron)、5UTR区、3UTR区、
基因上游 1000 bp(1 K)、基因下游 1000 bp(1K)和非
编码区(由于注释的原因,A 组没有 5UTR 区、
3UTR区)。使用 perl语言编程,定位每个 SSR在
A 组和 D 组上所在的基因区域,以便对各基因区域
内包含的 SSR数量进行比较。
1.2 全基因组 SSR扫描
基于 Perl 的 MISA 程序(http://pgrc.ipk-gater-
sleben.de/misa/)对 A组、D组和 AD组的基因组序列
进行扫描,按照默认参数,识别最少为 10次的单碱


19






1.3
使






D





(A




AD
4


1 本研究使
遗传图谱编
Chr.1
Chr.2
Chr.3
Chr.4
Chr.5
Chr.6
Chr.7
LGA02/Chr.8
Chr.9
Chr.10
LGA03/Chr.
Chr.12
LGA01/Chr.

重复和最少
为一个 SSR
过 100 bp。
同源 SSR
将 MISA扫
用 perl编写
各 100 bp碱
别序列。利用
列映射到目标
算法会产生不
有匹配长度达
序列是同源
组到 AD组的
10 bp为区间
见,匹配长度
虑到侧翼序列
时序列匹配度
SSR识别序
_SSR)识别序
序列是 A_SS
果该同源匹配
认为 A_SSR
识别同源 SS
组识别同源
用的棉花染
号 全基

11
13
5次的 2、3、
认定的两个
识别
描获得的数
脚本分别提取
基序列,形成
BLAST 工
基因组进行
同长度的比
到一定的长
的。对于 A组
匹配记录,
,分别计算
在 190 bp位
有 200 bp,
可达 95%,
列同源的阈
列和 D 组
R 识别序列
序列中同时
和 D_SSR为
Rs,以及从
SSRs,均采
色体编号与遗
因组测序编号
Ca1
Ca2
Ca3
Ca4
Ca5
Ca6
Ca7
Ca8
Ca9
Ca10
Ca11
Ca12
Ca13
4、5、6碱基重
重复序列之间
据分别建立
A组、D组
长度超过 2
具[34],将同
匹配。由于
对结果,在
度才能认为
到 D组、A组
以匹配长度为
匹配长度的
置的分布数
取 190 bp作
因此选择 1
值。如果 A组
的一段序列同
在 D 组的同
也存在一个
同源 SSRs
A 组到 AD
用这一标准
Hereditas
传图谱和基
本研究编
A01
A02
A03
A04
A05
A06
A07
A08
A09
A10
A11
A12
A13
复为 SSR。
的碱基数不
SSR序列库
SSR基序两
10 bp的 SS
源 SSR 识别
BLAST的比
这些结果中
两个 SSR识
到 AD组、
观察参数,
分布(图 1),
量迅速上升
为匹配长度
90 bp作为认
的一个 SS
源,则称这
源匹配序列,
SSR(D_SSR)
。从 A组到 D
组、D 组到

(Beijing) 20
因组测序的染
号 遗
C
C
C
C
LG
C
C
LG
C
C
LG
C
C

R



R

1.4 同


图 1

p1,p2
SSR,即
重复序
的 SSR
型 SSR
次重复
数,例

类型不
两种不
15
色体编号对
传图谱编号
hr.15
hr.14
hr.17
hr.22
D02/Chr.19
hr.25
hr.16
D03/Chr.24
hr.23
hr.20
D02/Chr.21
hr.26
hr.18
源 SSR的重
过MISA扫描
3个基因组之
匹配长度的数
,p3,p4,
由两个或两
列之间没有
重复序列之
,简单类型
形成的重复
如 p2值基序
源 SSR中的
同和重复类
同的情况分

全基因组测
Chr
Chr
Chr
Chr
Chr
Chr
Chr
Chr
Chr
Chr
Chr
Chr
Chr
复序列比对
获得的SSR
间 SSR识别
量分布
p5,p6。其
个以上的重
或只有一个
间包含若干
SSR是指由
序列,pn中
为 2 bp的重
重复序列总
型相同两种
别进行分析
序编号 本
02
05
03
12
09
10
01
04
06
11
07
08
13

重复类型有8
序列 Blast结
中 c 和 c*是
复序列组成
其它碱基,而
个碱基。相
一个重复基
的 n是指基
复序列。
体上可以分
情况。本文

第 37卷
研究编号
D01
D02
D03
D04
D05
D06
D07
D08
D09
D10
D11
D12
D13
种:c,c*,

果中不同
组合型的
。其中 c*
c 类型
对于组合
序经过多
序的碱基
为:重复
将针对这
第 2期 孙高飞等: 棉属四倍体 AD1与二倍体 A2、D5基因组的同源 SSR分析 195


1.5 同源 SSR类型差异统计
SSR 变化的过程和机制目前还不清楚,因此,
本文对于基因组之间同源 SSR类型的差异情况只通
过比较不同位置的 SSR类型差异数量进行统计分析。
1.6 同源 SSR类型相同的情况
对于类型相同的同源 SSR,本文对匹配序列的
A组和 D组的 SSR进行了分析,将两个 SSR序列进
行如下的分类:(1) 两个 SSR的基序没有发生变化,
只是重复基序的次数有变化;(2) 两个 SSR 的基序
不同,但是这个不同是由于重复序列的起始位置的
若干个碱基发生突变,导致重复基序产生了碱基的
滑动,这种情况本文定义为基序移位,例如 AGC和
GCA,这种基序移位在比较和统计中认定为是基序
相同;(3) 两个 SSR的基序完全不同,例如 AAT和
GTC。
由于 BLAST 比对时,主要是以 SSR 两端的侧
翼序列为识别序列,序列比对时已经确定了两个同
源序列的匹配方向,因此 SSR的方向应该和同源序
列的方向是一致的。如果匹配序列的方向是反向的,
则需将其中一个 SSR 基序的互补序列与另外一个
SSR 基序进行比较。例如基序为 AAG 和 CTT 的两
个 SSR,如果两翼序列匹配方向是反向的,则是完
全相同的基序序列,如果两翼序列是正向匹配,则
这两个 SSR基序是完全不同的。在对同源 SSR进行
长度对比时,将基序不同的记录剔除,因为这样的
记录中的两个 SSR不是真正同源的 SSR,很可能是
在同源位点分别进化的 SSR。
2 结果与分析
2.1 A基因组和 D基因组 SSR分布
以 1Mb 长度作为区间来研究 SSR 在 A 组和 D
组中的分布情况,同时根据两个基因组的注释,研
究同区间的基因分布。结果发现,SSR 和注释基因
无论在位置还是数量上均高度一致,并且单位区间
内 SSR数量和基因数量高度相关(图 2),相关系数分
别为 A (r=0.913***) 和 D (r=0.939***)。
本文在A组中定位到326664个SSR (平均~4.69 kb
一个),在D组中定位到191377个SSR (平均约~3.92 kb
一个)。每条染色体中 SSR的数量和其所在区域的长
度高度相关(表 2)。结果显示,外显子区的 SSR数量
明显低于其他区域,A组中的数量为 2141个,而 D
组中 SSR 数量为 2326 个,但在与外显子区长度相
当的内含子区域,却有将近 10 倍数量的 SSR(A 组
为 26 231个,D组为 23 892个)。由于 A组的 UTR


图 2 A组、D组 SSR分布图
A:A组 SSR和基因在染色体上的分布;B:D组 SSR和基因在
染色体上的分布;C:A组单位区间内 SSR数量和基因数量的相
关性;D:D组单位区间内 SSR数量和基因数量的相关性。

区未注释,在进行比较时,将 D组的 5 UTR数据合
并至基因上游 1 K,将 3 UTR数据合并至基因下游
1 K。
由于 SSR的数量和所在区域的长度有密切关系,
为了更准确地了解 SSR的分布规律,本文计算了 A
组、D 组各基因区域的长度,SSR 的数量和分布密
度(表 2)。由表 2 可知,CDS 区 SSR 的密度最小,
而在其他区域中,上游 1 K的 SSR密度最高,基因
内含子和下游 1 K的 SSR密度也较高,这很可能是
与 SSR参与基因区域的转录调控有关[35]。
为了进一步了解不同基序类型 SSR在基因组不
同区域的分布特点,本文对 A 组、D 组在各区域内
不同基序类型 SSR 的数量所占比例进行了比较(图
3)。A组、D组在基因上游 1 K、基因下游 1 K、基
因内含子和非编码区的 SSR类型分布非常一致,不
同类型 SSR 所占比例从高到低依次是 p1、p2、c、
p3、p4、c*、p5和 p6。CDS区的类型分布则和其他
区域完全不同,p3类型占据了绝对的优势,这是因
为在 SSR的多态性类型中最常见的是重复序列的扩
增和缩减,在 CDS中除了 p3和 p6外,其他类型 SSR
的基序重复次数的变化,都可能导致基因阅读框的
变化,从而改变基因翻译后的蛋白结构,因此会受
19






p2
2.2
2.2
60




(图

SS








6


进化选择的
现的概率明显
2 A组、D
基因相关区
基因外显子
基因内含子
基因上游 1
基因下游 1
非编码区
3 不同基序
基因外显子;
类型的比例
A、D两个
.1 A、D基
通过同源
037个同源 S
D组的两个
位在组装的染
)。根据同源
关系,本文构
4)。
由于 SSR
翼序列可以
R 的对应关
反映两个基
出,在 A 组
SSR分布于
同源染色体是
染色体之间有
D01的同源
SSR的数量
SSR 发生了
限制。而且
小于 p3,
组各基因区域

4
5
K 4
K 4
135
类型 SSR在
基因上游 1k
比其他区域
基因组中同
因组同源 S
SSR识别方
SR记录,每
同源 SSR,
色体上(部分
记录在两个
建了 A组和
在染色体上
看成基因组
系和其在两
因组中染色体
和 D 组的 1
相应的同源
可靠的。但
较大的同源
SSR数量(17
(1015),这说
大量的移位
由于基序长度
所以 p3在 C
SSR的数量
区域长度(
A组
3703865
3177480
0134000
0134000
4888248
A组、D组各
; 基因内含
略高。
源 SSR的分
SR的染色体
法,在 A组和
个记录都包
其中 57275个
定位在未组
基因组染色体
D组 SSR分
的分布相对均
序列的部分
个基因组上的
的同源性。
3 个染色体中
染色体上,说
是 A01、A0
SSR交换
09)超过了 A
明染色体 A
,从而使其
Hereditas
的限制,p
DS区的比例
与密度
bp)
D组
41536944
49745507
43532929
47744978
549835825
基因区域的分
子; 基因下游

分布
D组中获得
含来自 A组
同源记录都
装的 scaffol
上的数量对
布的关联图
匀,SSR及
抽样,同源
分布能够部
从图 4 可以
,大部分同
明先前认定
3、D01、D03
,尤其是 A0
03和 D03同
03与 D01之
同源性更高
(Beijing) 20
6 最大。
SS
A组
2141
26231
22364
17977
282562



1k; 非编

d
4
3

这 4条
2.2.2

对的重
组之间
类:一是
重复类
型变化

不同的
可以看
单型 S
越大。
高于 D
例均高

行了统
明显偏

A 组和
49134
余的 4
15
另外一个略
R数量
D组
2326
23892
21299
17747
128160
码区。
染色体的同
A、D基因
A组和 D组
复类型不同
的 SSR的差
同源 SSR重
型相同的情况
的数量,在后
10903个同
重复类型数
到组合型 S
SR基序碱基
A基因组中
组,而 D组
于 A组。
文将基因组
计(表 4),C
低,不足其
据上述获得
D 组 SSR
条,去掉其
6693条基序
为突出的现
A
4
49
55
44
20
源关系还有
组同源 SSR
60037对同
。为了比较
异,本文将
复类型不同
。在前者中
者中重点比
源 SSR记录
量,比较重复
SR的重复类
数量越大,
组合型 SSR
的简单型 SS
不同位置的
DS 区 SSR
他区域类型
同源 SSR的
同源且类
中基序不同的
相同的同源
象就是在非
SSR密度(个/M

9.0
3.3
7.2
7.9
8.6

待进一步确认
的比较
源 SSR中,
清晰地比较
同源 SSR记
的情况,一
重点比较 SS
较基序的长
中,根据两
类型差异比
型差异比例
重复类型差
的重复类型
R的重复类
SSR重复类
重复类型差
差异比例的一
方法和基序
型相同的同
2441条记
SSR记录进
第 37卷
编码区,
b)
D组
56.0
480.3
489.3
371.7
233.1

有 10903
A 组和 D
录分为两
种是 SSR
R不同类
度比较。
个基因组
例(表 3),
最大,简
异的比例
差异比例
型差异比
型差异进
异的比例
半。
比较方法,
源记录有
录,对剩
行重复序
第 2期 孙高飞等: 棉属四倍体 AD1与二倍体 A2、D5基因组的同源 SSR分析 197


列长度的比较(表 5)。比对 A 组和 D 组各基因区域 同源 SSR的重复序列长度,可以发现,在 CDS区的


图 4 A组和 D组 SSR分布关联图

表 3 A组和 D组重复类型差异的同源 SSR统计
SSR类型
A组 D组
同源 SSR数量 重复类型差异数量 重复类型差异比例(%) 同源 SSR数量 重复类型差异数量 重复类型差异比例(%)
c 6951 4598 66.10 5943 3590 60.40
c* 284 263 92.60 187 166 88.80
p1 35374 3583 10.10 35854 4063 11.30
p2 11172 1283 11.50 11558 1669 14.40
p3 5125 863 16.80 5218 956 18.30
p4 844 203 24.10 889 248 27.90
p5 203 72 35.50 291 160 55.00
p6 84 38 45.20 97 51 52.60
19



CD


非编

5U
3U








SS











S
8


4 A组和 D
位置 重
S
因下游 1 K
因内含子
码区
因上游 1 K
TR
TR
5 A组与 D
A组位置
因外显子
因内含子
因上游 1 K
因下游 1 K
编码区
注:*表中长
R重复序列长
其他的位置,
复序列的数量
为了解基序
复类型是否存
重复类型基序
类型(表 6)。组
他类型,这说
化很大。在简
复序列长度大
(41.02%:28
6 A组与 D
SR类型

c
c*
p1 8
p2 3
p3 1
p4
p5
p6
组各基因区
复类型差异数量
123
930
1798
6492
1560
组各基因区
A
数量
310
3165
1772
1373
8140
度差为均值。
度相等的比
A组 SSR重
,要比小于
相同的同源
在关系,本
相同的同源
合型的 SS
明组合型类
单型 SSR
于 D组的
.52%),其他
组各重复类
A组小
量 长度
572 8
4 5
759 2
846 7
384 8
154 8
29 12
12 16
域重复类型差
A组
同源 SSR数
1362
5164
11526
34713
7272
域的基序相同
组小于 D组
长度差* 比
5.67
4.67
4.68
4.68
4.32
例是最大的
复序列长度大
D组的比例
SSR的重复
研究比较了
SSR重复序
R长度相等的
型 SSR在两
中,A 组中
数量远超过长
类型在 A组
型的基序相同
于 D组
差 比例
.67 43
.75 26
.38 28
.13 39
.19 33
.00 25
.07 23
.50 32
Hereditas
异的同源 S
量 重复类型差
9
18
15
18
21
的同源 SSR
例(%) 数
26.5 5
33.7 20
33.1 13
33.8 8
30.5 86
,达到 48.8%
于 D组 SS
多 10%左右
序列长度和
A组和 D组
列长度和重
比例远低于
个基因组间
p1 类型 SS
度小于的数
SSR重复序
的同源 SSR
(%) 数量
.60 84
.67 1
.52 9354
.48 2073
.45 1628
.16 259
.39 74
.43 11
(Beijing) 20
SR分布
异比例(%) 重
.0
.0
.6
.7
.5
重复序列长
相等
量 比例(
71 48.
79 22.
33 24.
95 22.
06 32.

R

R
列长度
于 D组
表现的
2.3 A
2.3.1

别序列
进行了
长度比较
相等
比例(%
6.40
6.67
30.46
21.28
39.34
42.32
59.68
29.73
15
复类型差异数量
163
688
2014
5913
1143
603
379
度比较
%) 数量
8 290
1 4147
9 2242
0 1795
2 9975
大于 D 组 S
,在比例上
重复长度差
组、D组和
总体比较
研究使用 A
,分别对陆地
匹配定位,
) 数量
656
10
12600
3823
1126
199
21
14
D组
同源 SSR数量
1479
3778
12312
31968
5335
2700
2465
A组大于 D组
长度差
5.40
4.62
4.31
4.33
4.04
SR 和 A 组
总体相当。
异没有明显
AD组 SSR
组 SSR 识别
棉(AD组)
确定 A 组、
A组大于 D
长度差
11.21
6.10
2.85
6.63
7.33
6.09
6.19
12.86

重复类型差
11
18
16
18
21
22
15

比例(%)
24.8
44.2
41.9
44.2
37.3 2
SSR 重复序
不同重复类型
的规律。
同源关系比
序列和 D 组
12个样本的
D 组和 AD

比例(%)
50.00
66.67
41.02
39.24
27.21
32.52
16.94
37.84
第 37卷
异比例(%)
.0
.2
.4
.5
.4
.3
.4
总数量
1171
9391
5347
4063
6721
列长度小
SSR所

SSR 识
测序序列
组的同源
总数
1312
15
30713
9742
4138
612
124
37



SS



SS







+共



A
JK
JK
JK
JK
JK
JK
JK
JK
LR
LR
MC

2期

R。由于 12
其他样本数量
异,因此在进
数据。
为了便于说
R关系绘制成
为 A-AD同源
为 D-AD 同
SSR,称为
的 SSR,称为
将 AD 组
源的,称为
源的,称为
SSR的称为
AD-A同源
有同源 AD

5 3个基因
7 A组、D
D组样本名称
C_703_claI
C_703_HpaII
C_725_claI
C_725_HpaII
C_737_claI
C_737_HpaII
C_770_claI
C_770_HpaII
A_5166_claI
A_5166_HpaII
U_5_claI


个样本中的
的 1/3,导
行统计时,剔
明,本文将
图(图 5),
SSR;D组
源 SSR。同理
AD-A 同源
AD-D同源
SSR 分成 3
AD-A特有同
AD-D 特有
共有同源 A
SSR数量=
组 SSR数量

组 SSR同源
组和 AD组同
A-AD D-
18825 7
14139 53
22505 88
17229 52
23099 87
16362 55
18749 67
15600 6
18857 67
18399 74
14230 45
高飞等: 棉属
MCU_5_Hpa
致与其他数据
除了样本M
3 个基因组
A组中和 AD
中和 AD组同
,AD 组中
SSR,AD 组
SSR。
个部分:只
源 SSR;只
SSR;和 A、
D组 SSR。
AD-A特有同

关系图
源 SSR数量
AD A-AD/D-
109 2.65
50 2.64
50 2.54
99 3.25
99 2.63
25 2.96
64 2.77
145 2.54
38 2.8
94 2.46
04 3.16
2.76
四倍体 AD1与
II 读段数量不
比较有较大
CU_5_Hpa
之间的同源
同源的 SS
源的 SSR,
和 A 组同源
中和 D 组同
和 A 组 SS
和 D组 SS
D 组均有同
源 SSR数量

统计
AD AD-A A
6242
4826
7939
4817
8201
4513
6268
4882
5966
6249
3536
二倍体 A2、D
II
R
R
R
A
共有同

D-AD
数量平
有 SSR
2.3.2

同的同
比较后
大于 A
计算了

度差异
度做了
60036
SSR长
组的 S
著(表
A
量高于
同时,
的长度
不同时

源 SSR
D-A AD-A/A
4660 1.34
4083 1.18
5822 1.36
3784 1.27
6063 1.35
3547 1.27
4744 1.32
3820 1.28
4629 1.29
5004 1.25
2649 1.33
1.3
5基因组的同源
D-D同源 SS
源 AD组 S
据以上的定
同源 SSR数量
均是 AD-D组
的数量平均
3个基因组
别对 A 组和
源 SSR的重
A组、D组
D组同源 S
同源 SSR之
验证 3个基
是否显著,
t检验,其中
对,t检验 P
度差异极为
SR长度差异
8)。
组和 AD组
D组和AD组
A组和 AD
差小于 D组
的长度差。
文对 A、D
的重复序列
D-D AD共有
2413
2229
2860
2066
2952
1723
2276
1971
2348
2643
1431
SSR分析
R数量=AD-D
SR数量;
义,A-AD 同
的 2.76倍,
同源 SSR数
是AD-D特有
基序相同的
AD 组、D
复序列长度
SSR重复序
SR记录的数
间的重复序
因组之间基
分别对 3个
A组和 D
值为 3.97E
显著,A组和
的显著性检
同源 SSR重
同源 SSR长
组同源 SSR
和 AD组同

组各基因区
长度比较结果
AD-A特有
3829
2597
5079
2751
5249
2790
3992
2911
3618
3606
2105
特有同源 S
源 SSR 数
而 AD-A同
量的 1.3倍,
SSR数量的
同源 SSR长度
组和 AD 组
进行了比较
列长度小于
量比例(表 8
列长度差的
序相同的同源
基因组之间的
组的同源 SS
-20,说明两
AD组、D
验结果同样
复序列长度
度相等的数
重复序列长
源 SSR重复
域的 SSR和
进行分别统
AD-D特有 A
2247
1854
2962
1718
3111
1824
2468
1849
2281
2361
1218
199
SR数量+
量平均是
源 SSR的
AD-A特
1.61倍。
比较
的基序相
,计算了
、等于和
),并分别
平均值。
SSR长
SSR长
R数量为
个基因组
组和 AD
是极为显
相等的数
量比例,
度不同时
序列长度
AD组同
计(图 6)。
D-A/AD-D
1.70
1.40
1.71
1.60
1.69
1.53
1.62
1.57
1.59
1.53
1.73
1.61
20



A
JK
JK
JK
JK
JK
JK
JK
JK
LR
LR
MC
平均






D


SS
3



0


8 基序相同
D组样本名称
C_703_claI
C_703_HpaII
C_725_claI
C_725_HpaII
C_737_claI
C_737_HpaII
C_770_claI
C_770_HpaII
A_5166_claI
A_5166_HpaII
U_5_claI

6 A组、D
先,无论 A
源 SSR的数
同源 SSR 的
组和 AD 组重
,说明 SSR
守;最后,A
R的数量在各
讨 论
本研究中
因组大小上有
法与 A 组、
基因组间的
的同源 SSR
同源
SSR数
t
P
15845 1.1
12076 2.9
19149 7.5
14874 6.7
19434 9.5
13906 4.9
15904 3.1
13175 5.0
16222 8.9
15071 1.7
11959 1.9
15238
组和 AD组各
组和 D组,
量比例,远超
数量比例;其
复序列长度
在外显子区
、D组重复
基因区域都
3 个基因组
较大的差异
D 组的测序
SSR能够进
长度比较
A-AD同源 S
检验

平均长度
AE-113 4.6
E-76 4.31
E-72 4.36
E-95 3.18
E-92 4.62
E-88 4.39
E-82 4.02
E-89 4.19
E-103 3.85
E-86 4.06
E-22 4.06
4.15
基因区域同
重复序列长度
过重复序列
次,在外显
相等的同源
域在 3个棉种
序列长度小于
比较接近。
虽然同属于棉
,且 AD 基
方法有所不
行可信的比较
Hereditas
SR长度比较
差(bp) 百
A>AD A6.36 9.8
5.96 10.4
7.99 11.2
5.89 14.6
6.04 10.8
7.06 8.1
6.65 10.8
6.35 9.4
5.83 11.0
5.86 10.8
6.44 11.0
6.4 10.7
源 SSR重复
大于 AD组
长度小于 AD
子区域,A、
SSR比例最
之间都非常
AD组同源

属,但是在
因组的测序
同。要保证
,需要选取
(Beijing) 20
分比(%)
=AD A>AD
41.0 49.2
43.6 45.9
43.0 45.7
40.4 45.1
44.6 44.6
42.3 49.4
40.0 49.2
39.0 51.6
43.4 45.6
38.0 51.0
44.2 44.8
41.8 47.5

序列长度对比
3
3个基

识别序
大于等
使用的
条件的
匹配到
序列,
序列。
免基因
结果的

先对 S
SSR记
15
同源
SSR数
t检验P
5844 1.1E-2
4384 3.2E-2
7104 8.2E-4
4325 3.0E-2
7196 1.2E-3
4348 1.7E-2
5573 3.2E-2
4872 2.9E-2
5563 1.3E-2
6021 1.7E-3
3592 3.4E-
5347

因组中高度
研究使用 S
列到目标基
于 190 bp,
PCR 引物长
两个识别序
的同源序列
这进一步保
由于比较只
组大小、染
影响,最大
对同源 SSR
SR基序进行
录,因此,
D-AD同源 SSR
值平均长度差(b
DA
9 5.01 7.7
0 5.39 7.5
2 4.63 7.8
1 4.97 7.7
5 4.36 7.9
8 5.11 9.3
9 4.72 7.2
6 4.81 7.5
2 4.74 7.2
1 4.65 7.2
19 4.57 7.4
4.81 7.7
同源的 SSR
SR及两侧侧
因组进行匹
这一匹配要求
度一般为 2
列具有高度
,要求其必
证了匹配序
在同源 SSR
色体倍数和
限度保证了
记录进行重
了比对,剔
最后进行 SS
长度比较
p) 百分
D D2 15.9 36
9 17.6 36
8 15.5 37
9 15.8 39
6 15.3 37
4 17.1 35
2 14.9 37
1 16.8 37
4 17.3 37
5 16.1 37
3 16.2 40
2 16.2 37
记录。
翼序列各 10
配,并要求
是非常严格
0~30 bp),
的同源性。
须同样具有
列为高度同源
间进行,因
测序手段差
研究结果的可
复序列长度
除了基序不
R重复序列
第 37卷
比(%)
AD D>AD
.9 47.3
.6 45.8
.6 46.9
.0 45.2
.1 47.6
.7 47.2
.5 47.6
.4 45.8
.6 45.1
.1 46.7
.0 43.8
.5 46.3

0 bp作为
匹配长度
的(实验
满足匹配
同时对于
SSR重复
的 SSR
此能够避
异对研究
靠性。
比较之前,
同的同源
长度比较
第 2期 孙高飞等: 棉属四倍体 AD1与二倍体 A2、D5基因组的同源 SSR分析 201


的同源 SSR记录,其最主要差异就是重复序列长度
的差异,这部分同源记录中的 SSR重复序列长度的
变化保留了 3个基因组在进化过程中留下的 SSR重
复序列长度变化的痕迹。
3.1 3个基因组 CDS区的 SSR非常保守
比较 A组和 D组 SSR发现,无论在不同基因区
域的 SSR密度,还是不同重复类型 SSR在基因区域
所占的比例都非常接近。A组和 D组 CDS区重复类
型有差异的 SSR比例不到其他基因区域比例的一半
(表 4),在基序相同的同源 SSR 中,CDS 区域长度
相等的比例是其他区域的两倍多(表 5),这些数据均
说明 A组和 D组在 CDS区域的同源 SSR比其他区
域保守得多。
A 组和 AD 组比较,CDS 区域长度相等的 SSR
所占比例为 63.6%,D组和 AD组比较,同源长度相
等 SSR所占比例为 57.8%,约是其他区域的两倍(图
6)。这也说明,3个基因组 CDS区域 SSR的保守型
都要远高于其他区域。
同时,各基因组 CDS区域的 SSR数量明显小于
其他区域。以上现象可能是因为 SSR的高度可变性
容易导致外显子区阅读框的改变,从而影响基因的功
能,由于进化的选择,大量 CDS 区域的 SSR 被淘汰
并趋于稳定,从而导致外显子区SSR的高度保守[36,37],
这与已有研究的结果是相符的[8,38]。
3.2 就同源 SSR 数量和长度变化而言, A 组在同
源性上比 D组更接近 AD组
A组的 SSR数量约是 D组 SSR数量的 1.8倍(表
2),A-AD 同源 SSR数量约是 D-AD 同源 SSR 数量
的 2.76 倍(表 7),这说明和 D 组相比,A 组中 SSR
中有更高的比例与 AD组同源的 SSR。
同样,AD-A组同源 SSR是 AD-D同源 SSR的
1.3倍,而特有的 AD-A同源 SSR是特有 AD-D同源
SSR的 1.6倍(表 7),这说明 AD组和 A组同源的 SSR
数量明显高于和 D组同源 SSR数量。A组和 D组的
SSR 的分布规律是非常相似的,因此,如果把 SSR
所在序列看成基因组的抽样,可以推测,A组和 AD
组的 SSR同源性高于 D组和 AD组的 SSR同源性。
另外,在同源且类型相同的 SSR记录中,A组和 AD
组同源 SSR 长度相同的比例(41.8%)要高于 D 组和
AD组同源 SSR长度相同的比例(37.5%)(表 8),这说
明 A组和 AD组的同源 SSR保守性比 D组和 AD组
的同源 SSR保守性更高,这从另一个方面也印证了
上述结论。
A组小于 AD组同源 SSR的平均长度差为4.15,
而 D组小于 AD组同源 SSR的平均长度差为4.81;
A组大于 AD组同源 SSR的平均长度差为 6.4,而 D
组大于 AD 组同源 SSR的平均长度差为 7.72(表 8)。
D组与 AD组的同源 SSR长度差均大于 A组和 AD组
同源 SSR的长度差,这也是 A 组与 AD 组的 SSR同
源性高于D组与AD组的 SSR同源性的又一个佐证。
3.3 AD组和 A、D组相同基序的同源 SSR长度变
化的数量差异
A组和 D组来自共同的祖先,而 AD组是 A组
和D组融合加倍而成,3个基因组是平行进化的[30]。
根据同源 SSR的长度比较,A组小于 D组和 A组大
于 D组的 SSR数量比例基本是相等的(表 6),但是,
A组 SSR长度大于AD组同源 SSR长度的 SSR数量,
约是 A组 SSR长度小于 AD组同源 SSR长度的 SSR
数量的 5倍,D组和 AD组比较的结果约为 3倍(表
8)。产生这种情况,有两种可能:一种情况是 A 组
和 D组相对于 AD组,大量 SSR的长度增长了;另
一种是 AD组和 A组、D组相比,大量 SSR的长度
缩短了。无论是哪一种情况,都可以认为,AD组的
SSR 长度变化速率与 A、D 组是不同的,而且,这
种变化具有倾向性(多数 SSR倾向于增长,或者缩短),
因为只有这种倾向性,才有可能导致目前本文获得
的 3个基因组之间 SSR长度差异情况。
关于人和黑猩猩[39]、羊和牛[3]的相近物种 SSR
长度差异现象很早就被提出,之后这种差异被解释
为是由于测量偏差(Ascertainment bias)而导致的,同
时也有观点认为测量偏差不能完全解释人和黑猩猩
之间 SSR的长度差异[40]。后来又有研究发现,人类
除了两碱基重复的 SSR的长度明显长于黑猩猩之外,
其他重复类型的 SSR没有发现明显的差异,而单碱
基重复还发现了相反的趋势[4]。上述研究从不同的
角度研究了相近物种之间的同源 SSR长度差异,认
为相近物种之间导致 SSR长度差异的原因很可能是
因为突变速率存在差异[11]。
由于本研究直接使用 SSR侧翼序列匹配来获得
同源 SSR,侧翼两端序列长度取值达到 200 bp,匹
配长度不小于 190 bp,因此获得的同源 SSR序列的
同源碱基比例超过 95%。同时,本研究是使用统一
20










A、
A、



D






[1
[2
[3
[4
[5
[6
2


条件来获得
抽样调查,
源的 SSR对
相比,变长
虑到 A、D组
,而且它们都
和 A、D组最
化在数量的差
D基因组是
D 基因组的
度变化速率
变化的倾向性
而形成了现有
组同源 SSR
在进化过程
突变等多因素
对于 AD 组同
分 SSR的长
体的棉花 AD
SSR具有长
考文献
] Ellegren H.
plex evolutio
] Morgante M
as markers i
Ellegren H,
Sheldon BC
repeat length
Biol Evol, 19
] Webster MT
lution inferr
alignments.
8753.
] Bowcock A
Kidd JR, C
evolutionary
ture, 1994, 3
] 杨弘, 李大宇
分析罗非鱼群
] Peakall R, G
Cross-specie
simple seque
legume gen
SSRs in plan
3 个基因组
因此本身可以
比中,AD组
的 SSR 数量
的 SSR长
是二倍体,
为明显的差
异,很有可
二倍体有关
融合,而这
的差异,而且
(大部分的
的AD组中
的现象。
中,SSR
影响[41,42],
源 SSR 同
度缩短的概
组 SSR相
度变短的倾
Microsatellites
n. Nat Rev Ge
, Olivieri AM.
n plant genetic
Moore S, Ro
. Microsatellite
s at homologo
97, 14(8): 854
, Smith NGC,
ed from human
Proc Natl Acad
M, Ruiz-Linar
avalli-Sforza L
trees with po
68(6470): 455–
, 曹祥, 邹芝
体的遗传潜力
ilmore S, Key
s amplificatio
nce repeats (S
era: implicatio
ts. Mol Biol Ev
内所有的同源
排除测量偏
的 SSR长度
远低于变短
度差异的数量
而 AD 组是
异。因此这
能与 AD 组
。本文推测
种融合过程
这种差异导
SSR倾向于增
大量的 SSR
的长度受复制
因此 A、D组
步增长的概率
率小,因此本
对于二倍体的
向性。
: simple seque
net, 2004, 5(6)
PCR-amplifie
s. Plant J, 1993
binson N, Byr
evolution-a re
us loci in cattle
–860.
Ellegren H. Mi
-chimpanzee ge
Sci USA, 200
es A, Tomfohr
L. High resol
lymorphic mic
457.
英, 肖炜, 祝璟
. 遗传, 2011,
s W, Morgante
n of soybean
SRs) within the
ns for the tr
ol, 1998, 15(1
Hereditas
SSR,不属
差。在高度
与 A组、D
的 SSR 数量
比例比较接
四倍体,这
种 SSR长度
是四倍体而
由于 AD组是
导致了 SS
致了 SSR长
长或缩短)
长度小于A
滑动事件和
中大量 SS
要比 AD 组
文推测,四
A、D 组同
nces with com
: 435–445.
d microsatellite
, 3(1): 175–18
ne K, Ward W
ciprocal study o
and sheep. M
crosatellite evo
nomic sequenc
2, 99(13): 8748
de J, Minch E
ution of huma
rosatellites. Na
琳. 微卫星标记
33(7): 768–775
M, Rafalski A
(Glycine max
genus and oth
ansferability o
0): 1275–1287.
(Beijing) 20

R


R
-

s
2.
,
f
ol
-
e

,
n
-
.
.
)
er
f

[7] M
pr
ge
[8] Te
tin
an
qu
ne
[9] 谢

[10] Vo
sp
pa
Ev
[11] Ke
Th
mi
Ch
tel
an
ge
[12] La
di
mi
Ge
[13] Li
Ra
va
sh
Sc
[14] So
Ga
no
in
po
[15] W
Co
se
20
W
de
ES
11
[16] W
de
lit
20
[17] La
cro
as
15
organte M, Ha
eferentially ass
nomes. Nat Ge
mnykh S, DeC
hour S, McCo
alysis of micro
ency, length va
tic marker poten
文刚 , 张新全
异及亲缘关系的
wles EJ, Amo
ecies-specific
nzee microsate
ol, 2006, 23(3)
lkar YD, Tyek
e genome-wid
crosatellite evo
istiakov DA,
lites and their
d applications:
netics. Aquacu
Rota M, Kant
stribution and
crosatellite ma
nomics, 2005,
JZ, Absher D
machandran S
lli-Sforza LL,
ips inferred fr
ience, 2008, 31
nah H, Deshmu
cche RN, Ra
me-wide distri
plants: an insi
dium. PLoS On
ang HT, Li XM
mparison and
quencing librar
14, 198(2): 277
Z, Gou ZY, Li
velopment and
T-SSRs in allo
2(3): 430–439.
ang CB, Guo W
velopment and
es in Gossypi
06, 51(5): 557–
cape JM, Dess
satellite diver
sembling a hig
nafey M, Pow
ociated with n
net, 2002, 30(2
lerck G, Lukas
uch S. Compu
satellites in ri
riation, transp
tial. Genome Re
, 马啸 , 彭燕 ,
SSR分析. 遗
s W. Quantifyi
length differen
llites using gen
: 598–607.
ucheva S, Chi
e determinants
lution. Genom
Hellemans B,
genomic distrib
a review with
lture, 2006, 255
ety RV, Yu JK
frequencies of
rkers in rice,
6(1): 23.
M, Tang H, So
, Cann HM, B
Myers RM. W
om genome-w
9(5866): 1100–
kh RK, Sharm
na JC, Singh
bution and orga
ght into marke
e, 2011, 6(6): e
, Gao WH, J
development o
ies of Gossypiu
–288. Han ZG
CH, Chen XY,
mapping of Go
tetraploid cotton

Z, Cai CP, Zh
exploitation o
um raimondii
561.
auw D, Rajab
sity in tetraplo
hly informativ
ell W. Micros
onrepetitive DN
): 194–200.
hova A, Lipov
tational and e
ce (Oryza sati
oson associatio
s, 2001, 11(8):
黄琳凯 . 鸭茅
传, 2009, 31(6
ng ascertainme
ces in human
ome sequence
aromonte F, M
of human and
e Res, 2008, 18
Volckaert FAM
ution, evolutio
special refere
(1–4): 1–29.
, Sorrells ME.
genomic and E
wheat, and b
uthwick AM,
arsh GS, Feldm
orldwide hum
ide patterns o
1104.
a A, Singh VP,
NK, Sharma
nization of mic
r development
21298.
in X, Zhang X
f EST-SSRs fro
m barbadense
, Wang CB, So
Zhang TZ. Cha
ssypium hirsu
. Theor Appl G
ang TZ. Chara
f EST-derived
Ulbrich. Chin
M, Noyer JL,
id Gossypium
e genotyping s
第 37卷
atellites are
A in plant

ich L, Car-
xperimental
va L.): fre-
ns, and ge-
1441–1452.
种质遗传
): 654–662.
nt bias and
and chim-
s. Mol Biol
akova KD.
chimpanzee
(1): 30–38.
. Microsa-
n, function
nce to fish

Nonrandom
ST-derived
arley. BMC
Casto AM,
an M, Ca-
an relation-
f variation.
Gupta DK,
TR. Ge-
rosatellites
in Brachy-
L, Lin ZX.
m two 454
. Euphytica,
ng XL, Guo
racteristics,
tum derived
enet, 2006,
cterization,
microsatel-
Sci Bull,
Hau B. Mi-
germplasm:
et of cotton
第 2期 孙高飞等: 棉属四倍体 AD1与二倍体 A2、D5基因组的同源 SSR分析 203


SSRs. Mol Breeding, 2007, 19(1): 45–58.
[18] Alves MF, Barroso PA, Ciampi AY, Hoffmann LV, Azeve-
do VC, Cavalcante U. Diversity and genetic structure
among subpopulations of Gossypium mustelinum (Malva-
ceae). Genet Mol Res, 2013, 12(1): 597–609.
[19] Liu DQ, Guo XP, Lin ZX, Nie YC, Zhang XL. Genetic
diversity of Asian cotton (Gossypium arboreum L.) in
China evaluated by microsatellite analysis. Genet Resour
Crop Ev, 2006, 53(6): 1145–1152.
[20] Shen XL, Zhang TZ, Guo WZ, Zhu XF, Zhang XY. Map-
ping fiber and yield QTLs with main, epistatic, and QTL×
environment interaction effects in recombinant inbred
lines of upland cotton. Crop Sci, 2006, 46(1): 61–66.
[21] Mei M, Syed NH, Gao W, Thaxton PM, Smith CW, Stelly
DM, Chen ZJ. Genetic mapping and QTL analysis of fi-
ber-related traits in cotton (Gossypium). Theor Appl Genet,
2004, 108(2): 280–291.
[22] Jiang CX, Wright RJ, Woo SS, DelMonte TA, Paterson AH.
QTL analysis of leaf morphology in tetraploid Gossypium
(cotton). Theor Appl Genet, 2000, 100(3–4): 409–418.
[23] Jia YX, Sun XW, Sun JL, Pan Z, Wang XW, He SP, Xiao
SH, Shi WJ, Zhou ZL, Pang BY, Wang LR, Liu JG, Ma J,
Du XM, Zhu J. Association mapping for epistasis and en-
vironmental interaction of yield traits in 323 cotton culti-
vars under 9 different environments. PLoS One, 2014, 9(5):
e95882.
[24] Abdurakhmonov IY, Kohel RJ, Yu JZ, Pepper AE, Abdul-
laev AA, Kushanov FN, Salakhutdinov IB, Buriev ZT,
Saha S, Scheffler BE, Jenkins JN, Abdukarimov A. Mole-
cular diversity and association mapping of fiber quality
traits in exotic G. hirsutum L. germplasm. Genomics, 2008,
92(6): 478–487.
[25] Kantartzi SK, Stewart JM. Association analysis of fibre
traits in Gossypium arboreum accessions. Plant Breeding,
2008, 127(2): 173–179.
[26] Wendel JF, Brubaker C, Alvarez I, Cronn R, Stewart JM.
Evolution and natural history of the cotton genus. In: Pa-
terson AH, ed. Genetics and Genomics of Cotton. US:
Springer, 2009: 3–22.
[27] Li FG, Fan GY, Wang KB, Sun FM, Yuan YL, Song GL, Li
Q, Ma ZY, Lu CR, Zou CS, Chen WB, Liang XM, Shang
HH, Liu WQ, Shi CC, Xiao GH, Gou CY, Ye WW, Xu X,
Zhang XY, Wei HL, Li ZF, Zhang GY, Wang JY, Liu K,
Kohel RJ, Percy RG, Yu JZ, Zhu YX, Wang J, Yu SS. Ge-
nome sequence of the cultivated cotton Gossypium arbo-
reum. Nat Genet, 2014, 46(6): 567–572.
[28] Wang KB, Wang ZW, Li FG, Ye WW, Wang JY, Song GL,
Yue Z, Cong L, Shang HH, Zhu SL, Zou CS, Li Q, Yuan
YL, Lu CR, Wei HL, Gou CY, Zheng ZQ, Yin Y, Zhang
XY, Liu K, Wang B, Song C, Shi N, Kohel RJ, Percy RG,
Yu JZ, Zhu YX, Wang J, Yu SX. The draft genome of a
diploid cotton Gossypium raimondii. Nat Genet, 2012,
44(10): 1098–1103.
[29] Rai KM, Singh SK, Bhardwaj A, Kumar V, Lakhwani D,
Srivastava A, Jena SN, Yadav HK, Bag SK, Sawant SV.
Large-scale resource development in Gossypium hirsutum
L. by 454 sequencing of genic-enriched libraries from six
diverse genotypes. Plant Biotechnol J, 2013, 11(8): 953–963.
[30] Wang K, Song XL, Han ZG, Guo WZ, Yu JZ, Sun J, Pan JJ,
Kohel RJ, Zhang TZ. Complete assignment of the chro-
mosomes of Gossypium hirsutum L. by translocation and
fluorescence in situ hybridization mapping. Theor Appl
Genet, 2006, 113(1): 73–80. McGinnis S, Madden TL.
BLAST: at the core of a powerful and diverse set of se-
quence analysis tools. Nucleic Acids Res, 2004, 32(Web
Server issue): W20–W25.
[31] Sawaya S, Bagshaw A, Buschiazzo E, Kumar P, Chowd-
hury S, Black MA, Gemmell N. Microsatellite tandem re-
peats are abundant in human promoters and are associated
with regulatory elements. PLoS One, 2013, 8(2): e54710.
[32] Tóth G, Gáspári Z, Jurka J. Microsatellites in different
eukaryotic genomes: survey and analysis. Genome Res,
2000, 10(7): 967–981.
[33] Loire E, Higuet D, Netter P, Achaz G. Evolution of coding
microsatellites in primate genomes. Genome Biol Evol,
2013, 5(2): 283–295.
[34] Li YC, Korol AB, Fahima T, Nevo E. Microsatellites
within genes: structure, function, and evolution. Mol Biol
Evol, 2004, 21(6): 991–1007.
[35] Garza JC, Slatkin M, Freimer NB. Microsatellite allele
frequencies in humans and chimpanzees, with implications
for constraints on allele size. Mol Biol Evol, 1995,
12(4): 594–603.
[36] Cooper G, Rubinsztein DC, Amos W. Ascertainment bi-
as cannot entirely account for human microsatellites being
longer than their chimpanzee homologues. Hum Mol Ge-
net, 1998, 7(9): 1425–1429.
[37] Kruglyak S, Durrett RT, Schug MD, Aquadro CF. Equili-
brium distributions of microsatellite repeat length result-
ing from a balance between slippage events and point mu-
tations. Proc Natl Acad Sci USA, 1998, 95(18): 10774–10778.
[38] Santibáñez-Koref MF, Gangeswaran R, Hancock JM. A
relationship between lengths of microsatellites and nearby
substitution rates in mammalian genomes. Mol Biol Evol,
2001, 18(11): 2119–2123.

(责任编委: 刘宝)