免费文献传递   相关文献

Development and Evaluation of New Non-Redundant EST-SSR Markers from Gossypium

棉花非冗余性EST-SSR新标记的开发及其评价



全 文 :作物学报 ACTA AGRONOMICA SINICA 2012, 38(8): 1443−1451 http://www.chinacrops.org/zwxb/
ISSN 0496-3490; CODEN TSHPA9 E-mail: xbzw@chinajournal.net.cn

本研究由国家重点基础研究发展计划项目(973计划) (2010CB126000), 中央级公益性科研院所基本科研业务专项(SJB1105), 国家自然
科学基金项目(30900911, 31000729), 江苏省科技支撑计划项目(BE2011304), 江苏省农业科技自主创新基金(自由探索类), 江苏沿海
所所长基金项目(YHS201103)和山西省基础研究计划项目(2009021032-1)。
* 通讯作者(Corresponding author): 王坤波, E-mail: wkbcri@163.com, wkbcri@cricaas.com.cn
第一作者联系方式: E-mail: ww462@126.com ** 同等贡献(Contributed equally to this work)
Received(收稿日期): 2011-12-30; Accepted(接受日期): 2012-04-20; Published online(网络出版日期): 2012-06-04.
URL: http://www.cnki.net/kcms/detail/11.1809.S.20120604.1010.013.html
DOI: 10.3724/SP.J.1006.2012.01443
棉花非冗余性 EST-SSR新标记的开发及其评价
王 为 1,2,** 王长彪 3,** 刘 方 1 陈浩东 1,4 王 琳 1 王春英 1
张香娣 1 王玉红 1 王坤波 1,*
1中国农业科学院棉花研究所 / 棉花生物学国家重点实验室, 河南安阳 455000; 2江苏沿海地区农业科学研究所 / 农业部沿海盐碱地
科学观测实验站, 江苏盐城 224002; 3山西省农业科学院棉花研究所, 山西运城, 044000; 4湖南省棉花科学研究所 / 国家杂交棉研究推
广中心, 湖南常德 415101
摘 要: 利用 ClustalX等软件对公共数据库现有的 393 753条棉花 EST序列分析, 得到 349 815条非冗余 EST序列,
借助自主开发的 SSRmine软件共发掘 SSR位点 11 372个, 分布于 10 507条 EST中, EST-SSR的频率是 3%, 平均相
隔 21 kb出现一个 SSR。在 2~6 bp的重复基元中, 三核苷酸和六核苷酸分别占 34.1%、40.6%, 二、三、四、五和六
核苷酸基序分别以 AG/CT、AAG/CTT、AAAT/ATTT、AAAAG/CTTTT 和 AAAAAG/CTTTTT 的类型最多。利用去
冗余的且在亚洲棉、陆地棉、海岛棉中没有被开发过的 410条 EST序列设计开发了 200对非冗余性 SSR引物, 利用
自主开发的 SSRD 软件通过 SSR 引物序列下载、预处理、Blastn、提取相似性分值≥81%的引物编号、提取引物冗
余对、冗余引物写成一行 6 个步骤去除来源于自身部分同源序列以及与 CMD 释放的不同棉种相似性 SSR 引物, 得
到了非相似性引物, 定名为 CRIXXX (CRI即 Cotton Research Institute)。并分别选用棉花 12个种的代表性材料对其
中 100对进行引物功效评价, 包括多态信息含量(polymorphism information content, PIC)及引物通用性研究。结果显
示, 从自主开发的 100对 SSR引物筛选出 56对均能在 12份材料间扩增出稳定明显的条带, 其中多态性引物 35对, 多
态率占 35%。引物的 PIC变幅为 0.097~0.888, 平均为 0.482; 1对海岛棉 EST-SSR引物在 12份材料间的通用性为 100%,
25对亚洲棉引物通用性为 81%, 74对陆地棉引物通用性为 80.1%。
关键词: 棉花; EST-SSR标记; 冗余性; 多态性; 通用性
Development and Evaluation of New Non-Redundant EST-SSR Markers from
Gossypium
WANG Wei1,2,**, WANG Chang-Biao3,**, LIU Fang1, CHEN Hao-Dong1,4, WANG Lin1, WANG Chun-Ying1,
ZHANG Xiang-Di1, WANG Yu-Hong1, and WANG Kun-Bo1,*
1 Cotton Research Institute, Chinese Academy of Agricultural Sciences / State Key Laboratoy of Cotton Biology, Anyang 455000, China;
2 Agricultural Sciences Institute of Coastal Area of Jiangsu / Observation and Experimental Station of Saline Land of Coastal Area, Ministry of Agri-
culture, Yancheng 224002, China; 3 Cotton Research Institute, Shanxi Academy of Agricultural Sciences, Yuncheng 044000, China; 4 Hunan Cotton
Research Institute / National Hybrid Cotton Research Promotion Center, Changde 415101, China
Abstract: A software Clustal X was used to analyse the redundancy of 393 753 ESTs of Gossypium available in public database.
By mining 349 815 non-redundant ESTs, a total of 11 372 SSR loci derived from 10 507 ESTs using a software SSRmine devel-
oped by ourselves were observed. The frequency of ESTs containing SSRs was 3%, with an average of one SSR in every 21 kb of
EST sequence. Besides, trinucleotide and hexanucleotide repeats were found to be the most abundant among 2–6-nucleotide re-
peat types, accounting for 34.1% and 40.6% respectively. In dinucleotide repeats, trinucleotide repeats, tetranucleotide repeats,
pentanucleotide repeats and hexanucleotide repeats, AG/CT, AAG/CTT, AAAT/ATTT, AAAAG/CTTTT, AAAAAG/CTTTTT
1444 作 物 学 报 第 38卷

motifs accounted for the highest proportions, respectively. Two hundred pairs of new non-redundant EST-SSR primers were de-
veloped based on 410 EST sequences removed the redundancy which have not been developed so far in Gossypium arboreum, G.
hirsutum, and G. barbadense. We used a software SSRmine developed by ourselves to obtain non-similarity primers, designated
CRI (Cotton Research Institute) XXX through six steps, including SSR primer sequences download, pretreatment, Blastn, extrac-
tion of primer numbers of similarity score more than 81%, extraction of redundant primers pairs and making redundant primers in
a line, to remove homologous sequences from themselves and similar primers released in CMD from different cotton species.
Among them, 100 primers were evaluated in polymorphism information content (PIC) and transferability using 12 cotton species
including seven representative diploids species and five tetraploid species. The results showed that a total of 56 from the 100 pairs
of SSR primers could be amplified the stable and clear polymorphic bands in the 12 accessions mentioned above, moreover, 35
out of 56 pairs of primers were polymorphic, with the primer polymorphism ratio of 35%. PIC of these primers ranged from 0.097
to 0.888, with the average of 0.482. Totally, the transferability among the 12 cotton species was 100% for a pair of EST-SSR
primers from Gossypium barbadense L., 81% for 25 primers from G. arboreum, and 80.1% for 74 primers from G. hirsutum, re-
spectively.
Keywords: Gossypium; EST-SSR marker; Redundancy; Polymorphism; Transferability
近年来, 棉花基因组研究迅猛发展, 尤其是在
棉花分子遗传图谱 [1-2]的构建和重要性状的分子定
位[3-9]等方面。在众多分子标记中, 以 PCR为基础的
SSR 标记以其信息量高、易操作、呈共显性遗传等
特性被广泛开发利用, 且 SSR 位点既存在于基因非
编码区, 也广泛分布于基因编码区[10]。自 2000年起,
已经在葡萄(V. vinifera)[11]、甘蔗(Saccharum spp.)[12]、
硬粒小麦 (Triticum durum)[13]、黑麦 (Secale ce-
reale)[14]、大麦(Hordeum vulgare)[13]、小麦(Triticum
L.)[16]、马铃薯(Solanum tuberosum)[17]、大豆(Glycine
max)[18]、橡胶(Hevea brasiliensis Muell-Arg)[19]、芝
麻 (Sesamum indicum)[20]、耐盐作物 [21]、亚洲棉
(Gossypium arboreum) [22]、陆地棉(G. hirsutum) [23]、
雷蒙德氏棉(G. raimondii) [24]、非洲棉(G. herbaceum) [25]、
海岛棉(G. arbadense) [26]等作物开展了 EST-SSR 标
记的开发并广泛用于基因组研究和分子标记辅助选
择育种。另外, 不同棉种大规模的 EST 测序和公开
释放, 为棉花 EST-SSR 标记的开发提供了大量的信
息资源。截至 2012 年 2 月 22 日, 收录在 GenBank
(http://www.ncbi.nlm.nih.gov/dbEST/)中的5个棉种的
棉属 EST序列共 41 7433条。其中陆地棉为 297 214
条, 随后是雷蒙德氏棉 63 577 条, 亚洲棉 41 781
条, 而海岛棉为 11 446条, 非洲棉仅为 1 280条。从
2009 年 2 月到 2012 年 2 月过去的 3 年陆地棉 EST
增加了 28 435条 , 海岛棉增加了 10 423条 , 非洲棉
增加 1 033条 , 亚洲棉增加 13条 , 雷蒙德氏棉没有
增加。
但是 CMD (http://www.cottonmarker.org/)上公
布的引物存在冗余性(冗余性 14.28%), 冗余性引物
是指 2对引物其中的 1条或 2条序列相似性较高(一
般认为超过 81%), 导致重复扩增, 引物功效降低,
也即本文提到的相似性引物。相似引物有两种情况,
一种是正式匹配即 1对引物和另外 1对引物正向序列
匹配, 另一种反式匹配就是 1对引物的正向和另外一
对引物的反向序列匹配。 Blastclust (Blast 包 ,
http://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&
PAGE_TYPE=BlastDocs&DOC_TYPE=Download)、
CD-HIT (http://www.bioinformatics.org/project/filelist.
php?group_id=350)和 seqmatchall (EMBOSS包, http://
emboss.sourceforge.net/)等程序只能分析 1 对引物的
正向或反向引物, 不能同时分析 1 对引物是否冗余,
而 seqmatchall 不能分析序列的反向互补序列, 还未
见有合适的软件同时分析 1 对引物的冗余性。为此,
我们开发了 SSR位点发掘、标记冗余性大规模分析 2
个软件, 方便研究者充分利用网络资源, 同时分析 1
对引物的冗余性, 提高工作效率, 为进一步生物学研
究奠定基础。
为系统、集成研究棉花 EST 资源, 开发非冗余
的功能标记, 并为基因组测序、转录组测序产生的
海量信息积累技术资料。本研究利用去冗余的且在
亚洲棉、陆地棉、海岛棉中没有被开发的 EST序列
设计开发了 200 对 SSR 引物(已将该批引物与 CMD
释放的引物比对分析, 得到了非相似性引物, 定名
为CRIXXX), 并分别选用棉花 12个种的代表性材料
对其中 100 对进行引物功效评价, 还对这 200 对引
物进行了定位, 以期为标记开发功效的提高、遗传
多样性分析、饱和棉花遗传图谱等研究打下良好的
基础。
1 材料与方法
1.1 试验材料
选取 12个棉种的代表种共 12份材料, 包括 7个
二倍体和 5个四倍体(表 1)。材料样品全部保存在位
于海南三亚的国家野生棉种质圃。
第 8期 王 为等: 棉花非冗余性 EST-SSR新标记的开发及其评价 1445


表 1 来自 12个棉种的试验材料
Table 1 Experimental materials from 12 cotton species
序号
No.
种名
Species name
染色体组
Chromosome group
1 亚洲棉(石系亚 1号) G. arboreum A2
2 异常棉 G. anomalum B1
3 斯特提棉 G. sturtianum C1
4 雷蒙德氏棉 G. raimondii D5
5 索马里棉 G. somalense E2
6 长萼棉 G. longicalyx F1
7 比克氏棉 G. bickii G1
8 陆地棉(TM-1) G. hirsutum (AD)1
9 海岛棉(海 7124) G. barbadense (AD)2
10 毛棉 G. tomentosum (AD)3
11 达尔文氏棉 G. darwinii (AD)5
12 黄褐棉 G. mustelinum (AD)4

1.2 EST序列来源
2011年 5月 1日从 dbEST/GenBank数据库 (http://
www. ncbi.nlm.nih/entrez)中以 FASTA格式下载了所
有 393 753条棉花 EST序列, 共得到 349 815非冗余序
列用来研究EST分布特征; 重点从2009年2月到2011
年 5月增加的 EST序列中选取引物设计所用序列。
1.3 EST-SSR的发掘
采用 ClustalX 1.81 (http://www.digitalgene.net/
Soft/Sequences/lignment/200409/0.html) Treeview (ver
1.61) (http://www.taxonomy.zool-ogy.gla.ac.nkrod/od.
html和Genedoc (ver2.6.02) http://www.psc.edu/biomed/
genedoc/gddl.htm)软件对 393 753条 EST序列进行冗
余性查找 , 然后利用自主开发的软件 SSRmine1.0
(国家版权局登记号:2011SR015269)在非冗余序列
中查找 SSR。利用该软件查找二、三、四、五、六
核苷酸 5 种类型的 SSR。SSR 的查找标准为二核苷
酸重复次数≥9, 三核苷酸重复次数≥6, 四核苷酸
重复次数≥5, 五核苷酸重复次数≥4, 六核苷酸重
复次数≥3, 复合型的SSR整体长度不小于24 bp[24,27]。
1.4 非冗余性 EST-SSR引物开发
利用去冗余的且在亚洲棉、陆地棉、海岛棉中
没有开发过的 EST 序列设计开发引物, 借助自主开
发的 SSRD1.0 软件 (国家版权局登记号:2011S-
R001433)通过 SSR引物序列下载、预处理、Blastn、
提取相似性分值≥81%的引物编号、提取引物冗余
对、冗余引物写成一行等 6 个步骤去除来源于自身
部分同源序列以及与 CMD 释放的不同棉种相似性
SSR引物, 得到了非相似性引物, 定名为 CRIXXX。
EST-SSR 引物设计由 primer3 程序完成。设计的主
要参数是, 引物长 18~20 bp, 最适为 20 bp; PCR产
物长 100~250 bp; 最适 Tm 值为 57℃; GC 含量为
35%~65%, 最适 50%[23]。引物由上海英骏生物技术
有限公司合成, Taq DNA聚合酶和 dNTPs均购自河
南普金生物技术有限公司。
1.5 DNA提取、PCR扩增和电泳检测
采用改良的 CTAB[28]法提取各材料基因组
DNA。PCR含总体积为 10 μL, 10×Reaction buffer (含
Mg2+) 1.0 μL, 10 mmol L–1 dNTPs 0.5 μL, 每对引物
的正反向引物(10 μmol L–1)各 1 μL, 2.5 U μL–1 Taq
DNA 聚合酶 0.2 μL, 50 ng μL–1 模板 DNA 1 μL,
ddH2O 5.3 μL。PCR程序为, 95 2 min; 94 40 s, ℃ ℃
57 45 s, 72 60 s, ℃ ℃ 共 30个循环; 72 7 min, ℃ 最后
温度设定为 15℃。采用 Bio-Rad 公司 PowerPac
HCTM电泳仪、北京六一仪器厂 DYCZ-30电泳槽装
置及 8%的聚丙烯酰胺凝胶, 电泳缓冲液为 1×TBE,
在扩增产物中加入 1.5 μL溴酚蓝上样缓冲液, 混匀,
取 1.8 μL加入点样孔, 190 V恒压电泳 45 min。参照
张军等[29]和 Bassam[30]的方法银染。
1.6 多态信息含量和引物通用性分析
Simpson 多样性指数即多态信息含量 PIC=1–
ΣPi2, Pi为第 i个等位基因变异出现的频率[9]; Shannon-
Weaver多样性指数也称基因型多样性 H′ = –ΣPi ln
Pi; 每个位点的有效等位基因数为 Ne=1/ΣPi2, Pi 为
第 i个等位基因变异出现的频率[1]。
引物通用性用总扩增率来衡量[30]。
100
SSR-EST
%
××
=
待测棉种数)引物对数总的重组子(
总的被扩增数
)总扩增率(

1.7 染色体定位
利用本实验室前期构建的鲁棉研15的 F2群体进
行染色体初步定位 , 群体大小为 558; 采用 Join-
Map3.0 软件构建分子遗传连锁图谱(LOD 值≥7), 其
作图函数为Kosambi函数; 采用MapChart2.2绘图软
件绘制遗传图谱[31]。
2 结果与分析
2.1 EST-SSR的发掘与特征分布
采用 ClustalX 1.81、 Treeview (ver 1.61)和
Genedoc (ver 2.6.02)软件, 在所有的 393 753条棉花
EST序列(共 233.4 Mb, 约相当于棉花基因组的 9%)
中共得到 349 815 条非冗余 EST 序列, 然后利用软
件 SSRmine1.0 在非冗余序列中共发现 SSR 位点
1446 作 物 学 报 第 38卷

11 372, 分布于 10 507条EST中, 在研究的所有EST
序列中含有 SSR序列的频率为 3%, 平均每隔 21 kb
出现一个 SSR。在 2~6 bp的重复基元中, 三核苷酸
和六核苷酸分别占 34.2%、40.7%, 二、三、四、五、
六核苷酸分别以 AG/CT、AAG/CTT、AAAT/ATTT、
AAAAG/CTTTT、AAAAAG/CTTTTT的类型最多(图
1和表 2), 其他类型达到了 39.1%。2~6 bp的各种重
复基元的 SSR数目、丰度及在各重复类型中分布频
率如表 2 所示。其中复合型 SSR 位点共 282 个, 占
2.5%。



图 1 各种重复基元的 EST-SSR所占比例
Fig. 1 Proportions with SSR of various motifs

表 2 各种重复基元 SSR数目、丰度及各重复类型中分布频率
Table 2 SSR number, abundance and distribution frequency of various motifs
重复类型
Repeat type
数目
Number
频率
Frequency (%)
最多的重复基元
The most SSR motif
在各重复类型中分布频率
Frequency in every repeat type (%)
二核苷酸重复 Dinucleotide repeats 1467 12.9 AG/CT 44.0
三核苷酸重复 Trinucleotide repeats 3885 34.2 AAG/CTT 26.8
四核苷酸重复 Tetranucleotide repeats 525 4.6 AAAT/ATTT 28.3
五核苷酸重复 Pentanucleotide repeats 585 5.1 AAAAG/CTTTT 14.3
六核苷酸重复 Hexanucleotide repeats 4628 40.7 AAAAAG/CTTTTT 7.4
复合型 Compound type 282 2.5 — —
总数 Total 11372 100.0 — —

2.2 非冗余 EST-SSR新标记开发
得到 200 对非相似性引物 , 定名为 CRIXXX
(CRI 即 Cotton Research Institute, 编号为 CRI1-
CRI200)。SSRD1.0软件涉及到的新开发引物和已释
放的引物相似性检测过程如下。
(1) SSR分子标记的获得及预处理。分别从CMD
网上下载棉花分子标记, 再把下载到的引物转换成
“ID forword_primer reverse_prmer”格式 , 然后执行
pre_fasta2.pl 脚本(自编程序, 原理是: 读取文件的
每行$1 为引物编号, $2 为正向引物, 同时计算其长
度$lf, $3为正向引物同时计算其长度$lr, 然后输出),
转化成 FASTA格式(图 2)。
(2) SSR 分子标记相似性检索及相关信息提取,
把处理好的 FASTA 文件备份一个文件, 后缀名为
“.bk”, 利用 Blast (2.2.24-win版)软件(ftp://ftp.ncbi.nih.
gov/blast/executables/blast+/2.2.24/) 对 各 个 物 种 的
SSR分子标记分别比对, 查询相似性序列。所用的主
要参数为-p blastn -a 2 -F F -m 8。从得到的结果中按
照相似匹配分值不低于 81%同时没有 gap过滤 1对引
物, 然后提取相似引物编号, 匹配分值 S=a÷l×100+
[m×(–3)]为查询序列和目标序列匹配上的序列长度
(bp); l为目标序列长度(bp); m为错配个数。
第 8期 王 为等: 棉花非冗余性 EST-SSR新标记的开发及其评价 1447


通过上述方法把正式匹配(图3-A)和反式匹配(图
3-B) 2种情况提取出来得到冗余引物, 但是存在编号
相同而顺序相反的情况。
(3)为了解决这种问题, 我们执行下一步, 得到
没有重复行的结果文件“renum.2”。利用该软件定义
哈希表同时进行排序, 取出这种交叉重复, 最后实
现相似引物写入一行的功能。把所有相似引物写入
一行, 输出最终结果文件 out.list (图 2)。
2.3 多态信息含量和引物通用性分析
用棉花 12个种的代表性材料对 200对引物中的
100 对进行引物功效评价, 包括引物的多态信息含
量(PIC)及引物通用性研究(图 4), 扩增片段在 150~
350 bp之间, 这 12份材料有丰富的遗传多样性。结
果表明, 从自主开发的 100对 SSR引物筛选出的 56
对均能在 12份材料间扩增出稳定明显的条带, 其中
多态性引物 35 对, 多态率占 35.0%, 共检测出 137
个片段, 其中多态性片段 114个, 占 88.5%。每个位
点的等位基因为 1~12个, 平均每对引物 3.91个。PIC
的变幅为 0.097~0.888, 平均为 0.482; 基因多样性
(H′)的变幅为 0.451~2.451, 有效等位基因数(Ne)在
1.385~10.490之间变动(表 3)。
1对海岛棉 EST-SSR引物在 12份材料间的通用
性为 100%, 25对亚洲棉 EST-SSR引物在上述材料通
用性为 81.0%, 74 对陆地棉 EST-SSR 引物在上述材
料通用性为 80.1%。
2.4 在陆×陆群体上的多态性及染色体初步定位
将 200对 EST-SSR标记在鲁棉研 15的 2个亲本
613 和 R55 进行多态性筛选, 共获得 4 对多态引物,



图 2 SSR分子标记冗余性分析流程图及程序执行命令
Fig. 2 Flow chart and program executive order of SSR molecular marker redundancy analysis



图 3 2种冗余引物
Fig. 3 Two kinds of redundant primers
A:正式匹配; B:反式匹配。A: forward match; B: reverse match.
1448 作 物 学 报 第 38卷



图 4 8对引物在 12份棉种材料上的扩增电泳图
Fig. 4 PCR results of eight pairs of primers amplified with 12 cotton materials
从引物为 CRI8(I)、CRI46(II)、CRI50(III)、CRI52(IV)、CRI56(V)、CRI59(VI)、CRI71(VII)、CRI94(VIII), 12个一组,
1~12代表 1中的材料 1~12。
Primers are CRI8(I), CRI46(II), CRI50(III), CRI52(IV), CRI56(V), CRI59(VI), CRI71(VII), and CCRI94(VIII)
with 12 bands in one group. The lanes 1–12 stand for the mate.

表 3 35对多态性 EST-SSR 标记的扩增
Table 3 Results of amplification of 35 pairs of polymorphic
primers
引物
Primer
PIC值
PIC-value
有效等位基因数 Ne
Effective number of
alleles
基因型多样性 H′
Shannon-Weaver
diversity index
CRI1 0.653 2.880 0.730
CRI2 0.389 1.636 1.282
CRI8 0.681 3.130 0.900
CRI11 0.236 1.309 1.171
CRI15 0.167 1.200 2.483
CRI16 0.667 3.000 1.107
CRI17 0.153 1.180 0.287
CRI18 0.757 4.114 1.376
CRI19 0.851 0.862 1.863
CRI21 0.618 2.618 1.247
CRI22 0.653 2.880 0.730
CRI23 0.111 1.125 0.541
CRI31 0.243 1.321 0.499
CRI33 0.306 1.440 0.152
CRI34 0.146 1.171 0.494
CRI35 0.306 1.440 0.617
CRI36 0.528 2.118 0.569
CRI38 0.153 1.180 0.287
CRI41 0.097 1.108 0.530
CRI46 0.646 2.824 1.742
CRI49 0.542 2.182 0.888
CRI57 0.486 1.946 0.679
CRI58 0.215 1.274 0.585
CRI61 0.889 9.000 1.266
CRI63 0.750 0.800 0.347
CRI64 0.667 3.000 1.651
CRI65 0.472 1.895 0.992
CRI66 0.368 1.582 0.769
CRI71 0.278 1.385 0.451
CRI81 0.542 2.182 0.684
CRI84 0.688 3.200 0.693
CRI87 0.799 4.966 0.663
CRI88 0.632 2.717 0.920
CRI94 0.486 1.946 0.679
CRI95 0.688 3.200 1.030
多态率为 2%。将这 4对多态性引物在本实验室构建
的陆地棉鲁棉研 15的 F2群体进行基因型分析。图 5
是开发的标记在该群体上扩增结果, 上图为 CRI81
显性标记, 在 F2群体有 2种表现型; 下图为 CRI184
共显性标记, 在 F2群体中有 3 种表现型。扩增产物
片段在 250~300 bp之间。将其中的 CRI002、CRI081
和 CRI151 标记定位在图谱上(群体大小 558, 共有
116个位点分布于 25个连锁群, 覆盖 892.25 cM, 总
图谱略)。对比前人图谱将 CRI151定位在 A5染色体
上[1,31], CRI002定位在 A10染色体上[32], 而 CRI081所
在的连锁图谱 LG01没有找到对应的染色体(图 6)。
3 讨论
3.1 引物冗余性研究意义与通用性原因及 EST-
SSR特征分布
引物冗余性(相似性)是标记开发过程中一个重
要问题, 但相关报道较少。CMD上公布的引物存在
冗余性(冗余性 14.28%), 至今没有合适的软件同时
分析一对引物的冗余性, 造成不同研究者开发研究
的重复性, 浪费时间和成本。本研究自主开发了 SSR
位点发掘软件 SSRmine1.0及能同时分析 1对引物和
已释放的引物间是否冗余的软件 SSRD1.0, 来开发
设计非冗余性 SSR 标记, 减少了盲目性和重复性,
节约了成本, 提高了效率。
棉属不同棉种的基因组内涉及许多类型的重复
基因, 如直系同源基因(orthologous loci), 旁系同源
基因(paralogous loci), 生物同源位点(homologous
loci)等[33]。Orthologs和 Paralogs是同源序列的两种
类型, Orthology 描述在不同物种中来自共同祖先的
基因, Orthologous基因可能有相同的功能。Paralogy
第 8期 王 为等: 棉花非冗余性 EST-SSR新标记的开发及其评价 1449




图 5 开发的标记在鲁棉研 15的 F2群体上的基因型分析
Fig. 5 Genotype analysis of Lumianyan 15 F2 population with CRI markers developed
上图的第 4泳道、下图的第 2泳道为分子量 Marker, 其他均为 F2群体株系。
The fourth lane band in the upper figure and the second lane band in the lower figure stand for molecular weight marker in the photo, others
are F2 population lines.



图 6 多态性标记的染色体初步定位
Fig. 6 Preliminary chromosome mapping of polymorphic
markers

描述在同一物种内由于基因复制而分离的同源基因,
功能可能有所改变。这些位点均存在引物的通用性。
本文提及的引物通用性遗传原因应该包括以上 3 种
类型, 一种是同一基因由于生殖隔离等原因分布在
两个物种内(如亚洲棉 A基因组和陆地棉、海岛棉中
的 A 亚组); 另一种是同一基因由于基因复制(gene
duplication)或基因组倍增(genome duplication)等分
子事件在同一物种内分离成结构不同的功能基因 ,
但有共同起源关系; 第 3种是 A基因组和 D基因组
的部分同源关系(homoelogous)。
与 Cardle 等[35]的分类标准相比, 本研究搜索单
四核苷酸重复基元重复次数的标准提高, 增加了对
六核苷酸重复基元的筛选。结果显示, 在棉花中每
21 kb的 EST出现 1个 SSR, 丰度和 Cardle等[35]的
结果接近。Clemson 大学基因组研究所 (Clemson
University Genomics Institute, CUGI)对不同来源的
EST数据分析发现, 包含 SSR的 EST频率亚洲棉为
2.73%, 陆地棉为 2.16%[24]。Wang 等[24]研究发现雷
蒙德氏棉包含 SSR的的 EST频率是 4.45%, 本研究
基于目前所有的棉花 EST 序列综合分析 , 得出
EST-SSRs 的频率是 3%, 该结果为“平均”数值, 更
具有代表性。在 2~6 bp的重复基元中, 三核苷酸和
六核苷酸分别占 34.1%、40.6%, 三核苷酸重复出现
频率高是与其编码区三联体密码子相对应的, 非三
核苷酸重复面临移码突变的选择压[36], 而六核苷酸
可能为 2个串联的三联体密码子。
3.2 对开发的新引物的评价与利用
PIC 值可用来估计每对扩增引物的等位基因的
变异, 其大小基于所检测到的等位基因的数目及分
布频率[36], 所以在一定意义上, PIC也是引物检测多
态性的能力的一种度量。引物的 PIC 值越高, 它揭
示等位基因变异的能力就越强。本文 PIC 的变幅为
0.097~0.888, 平均为 0.482。表明所设计引物可以用
于遗传多样性、植物遗传和进化等研究。本文 1 对
海岛棉 EST-SSR 引物在 12 份材料间的通用性为
100%, 25对亚洲棉 EST-SSR引物在上述材料通用性
为 81.0%, 74 对陆地棉 EST-SSR 引物在上述材料通
用性为 80.1%, 低于 Guo 等[31]的 96.5% (选用 60 对
亚洲棉 EST-SSR引物)以及俞渝等[24]报道的 88% (22
对草棉 EST-SSR引物)相比有点低。本研究同时选用
12个棉种的代表种共 12份材料, 包括 7个二倍体和
5个四倍体, 推测可能是引物通用性稍低的原因。从
进化的角度, 所有的棉种来源于二倍体棉种, 大约
在 750 万年前由共同的祖先分化而来 [38], 大约
110~190 万年前[39]A 和 D 基因组杂交后经过多倍化
过程形成异源四倍体。由于 EST为编码 DNA, 其序
列保守程度较高, 因而从中发掘的 SSR 标记有较高
的通用性(本研究均大于 80%)。
在 EST-SSR 标记的有效扩增率研究方面, 前人
1450 作 物 学 报 第 38卷

所设计引物的有效扩增率应在 60%~90%之间, 且可
能因所设引物跨越 mRNA剪切位点以及扩增产物包
含的内含子太大, 造成一部分引物不能扩增出产物[20]。
本文自主开发的 100 对 SSR 引物有 56 对均能在 12
份材料间扩增出稳定明显的条带。本实验室前期构
建的鲁棉研 15 的 F2群体所用引物(来自 CMD 网站
SSR 引物)多态性为 1.25% (陆陆群体由于遗传基础
狭窄, 多态性率相对很低), 本研究开发的标记在该
群体上引物多态率为 2%, 高于前者, 表明这些新标
记的功效尚可。最终将其中 CRI002、CRI081、CRI151
三个标记定位在图谱上, CRI151 定位在 A5 染色体,
CRI002 定位在 A10 染色体上。由于 EST 数据与转
录基因相关, 基于 EST-SSR 的染色体定位可用于相
关基因表达和基因功能的关联分析。
4 结论
利用自主开发的 SSR位点发掘、标记冗余性分
析两个软件进行 SSR引物设计开发、评价可以更好、
更高效利用公共数据平台资源, 提高研究者的工作
效率, 具有一定的可行性。这种新开发的非冗余性
棉花 EST-SSR 标记功效尚可, 下一步研究需要扩大
标记数量以获得更多标记, 为遗传多样性分析、加
密棉花遗传图谱等研究奠定了基础。
References
[1] Guo W Z, Cai C P, Wang C B, Han Z G, Song X L, Wang K, Niu
X W, Wang C, Lu K Y, Shi B, Zhang T Z. A microsatellite-based,
gene-rich linkage map reveals genome structure, function and
evolution in Gossypium. Genetics, 2007, 176: 527–541
[2] Yu Y, Yuan D J, Liang S G, Li X M, Wang X Q, Lin Z X, Zhang
X L. Genome structure of cotton revealed by a genome-wide SSR
genetic map constructed from a BC1 population between Gos-
sypium hirsutum and G. barbadense. BMC Genomics, 2011, 12:
15
[3] Shen X L, Guo W Z, Zhu X F, Yuan Y L, Kohel R J, Zhang
T Z. Molecular mapping of QTLs for qualities in three diverse
lines in Upland cotton using SSR markers. Mol Breed, 2005, 15:
169–181
[4] Liu R Z, Wang B H, Guo W Z, Qin Y S, Wang L G, Zhang Y M,
Zhang T Z. Quantitative trait loci mapping for yield and its com-
ponents by using two immortalized populations of a heterotic hy-
brid in Gossypium hirsutum L. Mol Breed, 2011, 29: 297−311
[5] Song X L, Zhang T Z. Identification of quantitative trait loci con-
trolling seed physical and nutrient traits in cotton. Seed Sci Res,
2007, 17: 243–251
[6] Yang C, GuoW Z, Li G Y, Gao F, Lin S S, Zhang T Z. QTLs
mapping for verticillium wilt resistance at seedling and maturity
stages in Gossypium barbadense L. Plant Sci, 2008, 174: 290–298
[7] Dong C G, Ding Y Z, Guo W Z, Zhang T Z. Fine mapping of the
dominant glandless gene G l 2e in Sea island cotton (Gossypium
barbadense L.). Chin Sci Bull, 2007, 52: 3105–3109
[8] Qian N, Zhang X W, Guo W Z, Zhan T Z. Fine mapping of open
bud duplicate genes in homoelogous chromosomes of tetraploid
cotton. Euphytica, 2009, 165: 325–331
[9] Zhao L, Cai C P, Zhang T Z, Guo W Z. Fine mapping of the red
plant gene R1 in upland cotton (Gossypium hirsutum). Chin Sci
Bull, 2009, 54(9): 1529–1533
[10] Gao W(高伟), Liu F(刘方), Li S-H(黎绍惠), Wang C-Y(王春英),
Zhang X-D(张香娣), Wang Y-H(王玉红), Wang K-B(王坤波).
Genetic diversity of allotetraploid cotton based on SSR markers.
Acta Agron Sin (作物学报), 2010, 36(11): 1902−1909 (in Chi-
nese with English abstract)
[11] Scott K D, Eggler P, Seaton G, Rossetto M, Ablett E M, Lee S L,
Henry R J. Analysis of SSRs derived from grape ESTs. Theor
Appl Genet, 2000, 100: 723–726
[12] Cordeiro G M, Casu R, McIntyre C L, Manners J M, Henry R J.
Microsatellite markers from sugarcane (Saccharum spp.) ESTs
cross transferable to erianthus and sorghum. Plant Sci, 2001, 160:
1115–1123
[13] Eujayl I, Sorrells M E, Baum M. Isolation of EST-derived mi-
crosatellite markers for genotyping the A and B genomes of
wheat. Theor Appl Genet, 2002, 104: 399–407
[14] Hackauf B, Wehling P. Identification of microsatellite polymor-
phisms in an expressed portion of the rye genome. Plant Breed,
2002, 121: 17–25
[15] Thiel T, Michalek W, Varshney R K. Exploiting EST databases
for the development and characterization of gene-derived
SSR-markers in barley (Hordeum vulgare L). Theor Appl Genet,
2003, 106: 411–422
[16] Peng J H, Nore L, Lapitan V. Characterization of EST-derived
microsatellites in the wheat genome and development of eSSR
markers. Funct Integr Genom, 2005, 5: 80–96
[17] Feingold S, Lloyd J, Norero N. Mapping and characterization of
new EST-derived microsatellites for potato (Solanum tuberosum
L.). Theor Appl Genet, 2005, 111: 456–466
[18] Chen X-Y(陈相艳), Li W(李伟), Dai H-Y(戴海英), Zhang
L-F(张礼凤). Analysis of SSR Information in EST resource of
soybean (Glycine max). Soybean Sci (大豆科学), 2009, 28(3):
394–399 (in Chinese with English abstract)
[19] An Z-W(安泽伟 ), Zhao Y-H(赵彦宏), Cheng H(程汉), Li
W-G(李维国), Huang H-S(黄华孙). Development and applica-
tion of EST-SSR markers in Hevea brasiliensis Muell. Arg. He-
reditas (遗传), 2009, 31(3): 311–319 (in Chinese with English
abstract)
[20] Wei L-B(魏利斌), Zhang H-Y(张海洋), Zheng Y-Z(郑永战),
Guo W-Z(郭旺珍), Zhang T-Z(张天真). Development and utili-
zation of EST-derived microsatellites in sesame (Sesamum indi-
cum L.). Acta Agron Sin (作物学报), 2008, 34(12): 2077–2084
(in Chinese with English abstract)
[21] Xu Z-L(徐照龙), Yi J-X(易金鑫), Yu G-H(余桂红), Zhang
第 8期 王 为等: 棉花非冗余性 EST-SSR新标记的开发及其评价 1451


D-Y(张大勇), He X-L(何晓兰), Wang X-E(王秀娥), Ma H-X(马
鸿翔). EST-SSR based genetic diversity analysis on salt tolerant
plants from six species in Chenopodiaceae. J Plant Genet Resour
(植物遗传资源学报), 2011, 12(1): 113–120 (in Chinese with
English abstract)
[22] Han Z G, Guo W Z, Song X L, Zhang T Z. Genetic mapping of
EST-derived microsatellites from the diploid Gossypium ar-
boreum in allotetraploid cotton. Mol Genet Genom, 2004, 272:
308–327
[23] Han Z, Wang C, Song X, Guo W, Gou J, Li C, Chen X, Zhang T.
Characteristics, development and mapping of Gossypium hirsu-
tum derived EST-SSRs in allotetraploid cotton. Theor Appl Genet,
2006, 112: 430–439
[24] Wang C B, Guo W Z, Cai C P, Zhang T Z. Characterization, de-
velopment and exploitation of EST-derived microsatellites in
Gossypium raimondii Ulbrich. Chin Sci Bull, 2006, 21(3):
316–320
[25] Yu Y(余渝), Wang Z-W(王志伟), Feng C-H(冯常辉), Zhang
Y-X(张艳欣), Lin Z-X(林忠旭), Zhang X-L(张献龙). Genetic
Evaluation of EST-SSRs Derived from Gossypium herbaceum.
Acta Agron Sin (作物学报), 2008, 34(12): 2085–2091 (in Chi-
nese with English abstract)
[26] Zhang P-P(张培培), Wang X-Q(王夏青), Yu Y(余杨), Yu Y(余
渝), Lin Z-X(林忠旭), Zhang X-L(张献龙). Isolation, charac-
terization, and mapping of genomic microsatellite markers for the
first time in sea-island cotton (Gossypium barbadense). Acta
Agron Sin (作物学报), 2009, 35(6): 1013−1020 (in Chinese with
English abstract)
[27] Lü Y D, Cai C P, Wang L, Lin S Y, Zhao L, Tian L L, Lü J H,
Zhang T Z, Guo W Z. Mining, characterization and exploitation
of EST-derived microsatellites in Gossypium barbadense. Chin
Sci Bull, 2010, 55, 1889−1893
[28] Song G-L(宋国立), Cui R-X(崔荣霞), Wang K-B(王坤波), Guo
L-P(郭立平), Li S-H(黎绍惠), Wang C-Y(王春英), Zhang
X-D(张香娣). A rapid improved CTAB method for extraction of
cotton genomic. Acta Gossypii Sin (棉花学报), 1998, 10(5)
273−275 (in Chinese with English abstract)
[29] Zhang J(张军), Wu Y-T(武耀廷), Guo W-Z(郭旺珍), Zhang
T-Z(张天真). Fast screening of microsatellite markers in cotton
with PAGE/silver staining. Acta Gossypii Sin (棉花学报), 2000,
12(5): 267–269 (in Chinese with English abstract)
[30] Bassam B J, Caetano-Anoles G, Gresshoff P M. Fast and sensi-
tive silver staining of DNA in polyacrylamide gels. Anal Biochem,
1991, 196: 80–83
[31] GuoW Z, Wang W, Zhou B L, Zhang T Z. Cross-species trans-
ferability of G. arboreum-derived EST-SSRs in the diploid spe-
cies of Gossypium. Theor Appl Genet, 2006, 112: 1573–1581
[32] Zhang W(张伟), Liu F(刘方), Li S-H(黎绍惠), Wang W(王为),
Wang C-Y(王春英), Zhang X-D(张香娣), Wang Y-H(王玉红),
Song G-L(宋国立), Wang K-B(王坤波). QTL analysis on yield
and its components in upland cotton RIL. Acta Agron Sin (作物
学报), 2011, 37(3): 433−442 (in Chinese with English abstract)
[33] Qin H D, Guo W Z, Zhang Y M, Zhang T Z. QTL mapping of
yield and fiber traits based on a four-way cross population in
Gossypium hirsutum L. Theor Appl Genet, 2008, 117: 883–894
[34] Zhu H Y, Han X Y, Lü J H, Zhao L, Xu X Y, Zhang T Z, Guo W
Z. Structure, expression differentiation and evolution of dupli-
cated fiber developmental genes in Gossypium barbadense and G.
hirsutum. BMC Plant Biol, 2011, 11: 40
[35] Cardle L, Ratnsay L, Milbourne D. Computational and experi-
mental characterization of physically clustered simple sequence
repeats in plants. Genetics, 2000, 156: 847–854
[36] Metzgar D, Bytof J, Wills C. Selection against frameshift muta-
tions limits microsatellite expansion in coding DNA. Genome Res,
2000, 10: 72–80
[37] Botstein D, White R L, Skolnick M. Construction of a genetic
linkage map in man using restriction fragment length polymor-
phisms. Am J Human Genet, 1980, 32: 314–331
[38] Adams K L, Cronn R, Percifield R. Genes duplicated by poly-
ploidy show unequal contributions to the transcriptome and or-
gan-specific reciprocal silencing. Proc Natl Acad Sci USA, 2003,
100: 4649–4654
[39] Wendel J F. New world cottons contain old world cytoplasm.
Proc Natl Acad Sci USA, 1989, 86: 4132–4136