免费文献传递   相关文献

Content and Characteristics of Microsatellites Detected in Expressed Sequence Tag Sequences in Eucalyptus

桉树EST序列中微卫星含量及相关特征



全 文 :植物学报 Chinese Bulletin of Botany 2010, 45 (3): 363–371, www.chinbullbotany.com
doi: 10.3969/j.issn.1674-3466.2010.03.008

——————————————————
收稿日期: 2009-05-11; 接受日期: 2009-08-02
基金项目: 国家自然科学基金(No.30971609)和林业公益性行业科研专项(No.200904002)
† 共同第一作者。
* 通讯作者。E-mail: tmyin@njfu.com.cn
桉树EST序列中微卫星含量及相关特征
李淑娴1†, 张新叶2†, 王英亚1, 尹佟明1*
1南京林业大学森林遗传与生物技术省部共建重点实验室, 南京 210037; 2湖北省林业科学研究院, 武汉 430079
摘要 通过对桉树属(Eucalyptus)的10 000条EST序列进行分析, 在其中的1 499条序列上共发现1 775个微卫星重复序列。
含有微卫星的EST序列约占序列总数的15%。此外, 还发现桉树EST序列所含微卫星长度的变异速率与重复单元长度呈负
相关; 微卫星的丰度与重复单元长度也呈负相关(三碱基重复微卫星除外)。在桉树EST序列中, 重复单元长度为三碱基的
微卫星最为丰富。三碱基重复单元微卫星的过度富集可能是由于遗传密码选择所致。在微卫星的丰度及长度变异方面, 桉
树EST序列与杨树(Populus trichocarpa)基因组注释的转录序列随重复单元长度的变化呈现出相同的规律, 但桉树EST序
列中微卫星频率及三碱基重复微卫星的含量显著偏低, 推测含微卫星的基因表达丰度极有可能低于不含微卫星的基因。通
过对发现的所有微卫星位点进行引物设计, 并对设计的引物进行PCR检测, 结果表明所设计的引物具有极高的扩增成功
率。
关键词 桉树, 微卫星重复序列, 微卫星丰度, 微卫星长度变异, 微卫星引物设计
李淑娴, 张新叶, 王英亚, 尹佟明 (2010). 桉树EST序列中微卫星含量及相关特征. 植物学报 45, 363–371.
桉树是桃金娘科 (Myrtaceae)桉树属 (Eucaly-
ptus)树种的总称。在已知的700多种桉树中, 绝大多
数原产于澳洲大陆, 少部分生长于邻近的新几内亚岛
和印度尼西亚, 以及较远的菲律宾群岛。桉树与杨树
和松树一起被称为世界三大速生树种。我国引种桉树
已有一百多年的历史, 目前我国桉树人工林面积达
170 hm2, 桉树已成为我国南方重要的速生丰产林造
林树种之一。近十几年来, 我国开展了大量的桉树遗
传改良研究, 包括种源试验、无性系选育、抗风、抗
寒和抗青枯病等诸多内容。桉树在许多国家的林业生
产中占有重要地位, 然而桉树与其它远交物种一样,
存在一些固有的生物学特性, 如世代周期长、个体高
大、遗传负荷高和近交衰退等, 极大地限制了通过常
规改良技术培育桉树新品种的进程。现代分子生物学
的发展为加快桉树的遗传改良提供了有效手段, 利用
生物技术进行分子育种已在多种重要作物上取得了
显著的经济效益。林木相对于作物而言, 分子育种研
究还相对落后, 这主要是由于缺少相应的基因组信息
和遗传工具。因此开发桉树的基因组资源是利用现代
生物技术进行桉树遗传改良的基础和前提。目前, 桉
树的全基因组测序工作已经开展, 桉树全基因组测序
完成后, 如何将测序个体的基因组信息应用于桉树不
同个体及种的研究也是一个亟待解决的问题。遗传图
谱是基因组序列组装、比较基因组研究、重要基因定
位与克隆的有效遗传平台(Yin et al., 2008)。桉树具
有适于开展林木功能基因组研究的许多生物学特点,
是林木遗传图谱构建研究的核心树种之一(Gan et
al., 2004)。近20年来, 国内外发表了多张桉树的遗传
图谱 , 涉及多个不同的桉树树种(Grattapaglia and
Sederoff, 1994; Gan et al., 2004)。但已发表的桉树
图谱主要以随机匿名标记为主, 并仅定位了少量的微
卫星标记。利用随机匿名标记, 如AFLP和RAPD等,
虽然可以快速构建遗传图谱, 但是根据这些标记不能
进行不同遗传图谱的比较及遗传信息的整合, 也无法
根据这些标记从测序个体的基因组中找出对应于遗
传图谱上某一区间所含的DNA序列。微卫星标记则是
用于整合不同个体遗传信息的最为有效的遗传工具
(李孟军等, 2008), 微卫星(microsatellite)是指以少数
几个核苷酸(多数为2–4个)为单位, 多次串联重复的
DNA序列(何平, 1998)。根据微卫星标记的引物序列,
·研究报告·
364 植物学报 45(3) 2010
我们可以查找其在基因组序列中的位置, 一旦有了全
基因组序列信息, 我们就可以确定微卫星标记区间所
含的基因组序列和基因, 这就为我们在数量性状基因
位点(quantitative trait loci, QTL)分析的基础上, 通过
生物信息学手段发现目的基因提供了一条捷径。微卫
星标记是在不同基因组间进行遗传信息通讯的最为
有效的遗传工具之一(Li and Yin, 2007), 已成为不同
物种遗传研究中使用最为广泛的分子标记技术。微卫
星标记广泛应用于不同物种的指纹鉴定(Schlotterer,
2001)、亲子谱系分析(Powell et al., 1996)、群体遗
传结构分析(Wyman, 2003)、遗传图谱的构建(Labbé
et al., 2008)、比较基因组(Yin et al., 2008)及分子标
记辅助育种(Biradar et al., 2004)等诸多研究领域。微
卫星序列是基因组中变异最为快速的DNA序列, 因
此微卫星标记具有较高的遗传多态性; 同时微卫星
标记的引物序列一般保守性很高, 故可以用于近缘
物种同源位点的扩增。研究表明, 微卫星标记在种的
分类水平上具有很高的保守性, 在属的分类水平上
也具有一定的保守性。这样利用微卫星标记就可以建
立种(甚至属)级分类水平上的大遗传系统(Yin et al.,
2009)。在此基础上, 我们可以将种内不同个体(或近
缘物种)的基因组作为一个大遗传系统进行研究。然
而传统的微卫星标记开发是一个较为复杂的过程,
不仅耗时而且需要大量的资金投入, 必须进行随机
DNA片段文库的构建、利用探针杂交筛选阳性克隆
以及DNA测序等一系列前期工作, 然后才能进行引
物设计和标记开发(何平, 1998)。目前, 可以利用的
具有较为丰富的微卫星标记资源的物种, 主要集中
于具有较好基因组研究基础的物种中。在GenBank
数据库中已发表了大量的桉树EST序列, 这些序列
为直接开发桉树的微卫星标记提供了序列资源。对其
它物种的研究表明, 利用基因转录区序列开发的微
卫星标记具有更好的通用性(Yin et al., 2009), 并且
这些标记与功能基因直接相关。本研究利用
GenBank数据库中桉树的EST序列, 查找这些序列
所含的微卫星, 并在对找出的微卫星重复序列进行
分析的基础上, 了解桉树基因组中基因转录序列所
含微卫星重复序列的特征和组成情况, 然后根据所
发现的微卫星位点设计SSR引物, 以期为桉树及其
近缘物种的研究提供有价值的遗传工具和分子标记
资源。
1 材料与方法
桉树属(Eucalyptus LHérit.)EST序列从GenBank数
据库中下载。微卫星序列的查找采用C语言编辑的
Sputnik程序(C. Abajian, University of Washington)。
我们查找了所有重复单元长度为2–5个碱基的微卫
星。查找过程采用程序默认阈值。SSR引物设计采用
Primer3 程 序 (http://frodo.wi.mit.edu/cgi-bin/primer3/
primer3_www.cgi)。SSR引物设计采用位于微卫星上
游和下游各150个碱基范围内的序列, 序列确定利用
BIOEDIT软件。对微卫星序列长度的分布情况进行
Anderson-darling检验, 标准正态分布的CDF Φ利用
下式计算:
)))(ln()()(ln( in
n
1i
i
2 YΦ1YΦ1i2A 1+
=
+
n
1
n = ∑
式中, Yi是观测变量Xi标准化后的数值, 计算公式为:
s
XX
Y ii

= , 为变量均值, s为变量标准差。本研究
中发现的微卫星数量很大(为大样本), 因此采用调整
的A*2进行检验, 公式为:
)
..
(* 2
22
n
252
n
750
1AA ++=
根据上式, 若A*2值超过0.752, 则观测变量为正
态分布的假设在5%显著水平上不成立。本研究中引
物测试的PCR扩增反应条件参照Yin等(2009)。
2 结果与讨论
2.1 桉树EST序列所含微卫星的组成和相关特征
本研究共分析了10 000条桉树的EST序列。利用
Sputnik程序我们对这些序列进行了微卫星查找, 结
果在其中的1 499条序列上共发现了1 775个微卫星
重复序列。因此, 含有微卫星的EST序列约占序列总
数的15%。本研究查找的微卫星包括重复单元为二碱
基、三碱基、四碱基和五碱基的重复序列, 这些微卫
星按照丰度比例排序为: 三碱基重复微卫星(39.2%)>
二碱基重复微卫星 (27.2%)>四碱基重复微卫星
(26.1%) >五碱基重复微卫星(7.5%)(图1)。从图1可以
看出, 重复单元为三碱基的微卫星数量最多。除三碱
基重复微卫星外, 其它3种重复单元的微卫星丰度与
重复单元的长度呈负相关。
由重复单元的重复次数不同所造成的多态性常
李淑娴等: 桉树 EST 序列中微卫星含量及相关特征 365


图1 桉树属EST序列中不同长度重复单元微卫星所占的比例

Figure 1 The proportions of microsatellites consisted of
different repeat motif lengths in the EST sequences of Euca-
lyptus genome


常表现为复等位性, 在不同的基因型间存在广泛的多
态性。多数研究者认为这种多态性起因于复制过程中
的滑动(Schlotterer and Tautz,1992)。因此, 微卫星
长度变化的情况反映了微卫星位点获得(或失去)重复
单元的活跃程度。我们对所发现的1 775个微卫星长
度的变化进行了分析, 结果发现桉树EST序列所含微
卫星在长度上存在极显著变异, 发现的微卫星序列长
度从12–64个碱基不等。微卫星序列平均长度为18.5
个碱基。 如果微卫星获得(或损失)重复单元是随机发
生的事件, 则经过漫长的进化过程, 微卫星序列长度
的分布会慢慢接近正态分布。然而, 桉树EST序列所
含微卫星序列长度的分布表明, 检测到的微卫星序列
长度变化严重偏离正态分布(图2)。观察数据的A*2值
为81.5, 远大于0.752显著性检测阈值(95%显著性水
平)。在正态分布的情况下, 图中的散点应分布在图中
3条直线相交限定的范围内。由于严重地偏离正态分
布, 造成3条直线相交限定的范围在现有比例下近乎
重合, 所以桉树EST序列所含的微卫星长度分布严重
偏离正态。柱状图分析显示, 这些微卫星多为长度较
短的序列, 而长序列则相对缺乏。由于微卫星序列越
长, 其稳定性越差, 尤其在基因区, 微卫星序列越长
则基因越不稳定。根据这一分析, 我们判断桉树表达
基因所含的微卫星可能会受到强烈趋同选择的压力,
从而使这些微卫星序列富集在较短的序列范围内。


图2 桉树属EST序列中微卫星序列长度的分布检测

Figure 2 Normality test for the length diversification of the
microsatellite sequences in the EST sequences of Eucalyptus
genome

微卫星序列长度的分化情况反映了微卫星序列
获得(或失去)重复单元的速率, 这一特征与微卫星位
点的多态性直接相关。我们对含不同长度重复单元的
微卫星的长度变异情况进行了分析。结果(图3)显示,
这些微卫星的长度变异与所含重复单元的长度成反
比。故总体而言, 在所发现的微卫星中, 五碱基重复
微卫星理论多态性最低, 而二碱基重复微卫星理论多
态性最高。
微卫星是广泛散布于基因组中的由较短重复单
元所组成的重复序列。由于微卫星序列与基因组中的
其它序列相比变异频率很高, 所以微卫星被认为是在
基因组进化过程中导致并维持数量性状变异的重要
因素之一(Tautz et al.,1986; Kashi et al.,1997)。尽管
微卫星主要存在于受选择影响较小的内含子及基因
间隔区, 但最近的一些研究发现微卫星有许多不同的
功能。有证据表明, 微卫星可影响基因的表达、调控
及功能(Jewell et al., 2006)。例如, 有直接证据表明
微卫星可作为转录激活因子(Li et al., 2002); 也有证
据证明即使位于非编码区的微卫星也有其功能上的
重要性(Kashi et al.,1997)。因此, 研究基因组中的微
卫星特征对于了解所研究物种的基因组具有重要意
义。随着测序技术的飞速发展, 公共数据库中的基因
组序列信息在近十几年呈现出指数增长。目前已完
成了4种植物(拟南芥(Arabidopsis thaliana)、水稻
366 植物学报 45(3) 2010


图3 桉树EST序列中含不同长度重复单元的微卫星长度变异情况
饼图每一扇区对应不同长度的微卫星。若对应长度微卫星频率≤0.01, 则一起合并在黑色扇区内。

Figure 3 Length diversification of the microsatellites in EST sequences of Eucalyptus genome
Microsatellites in different lengths are demonstrated in separate slices. If the corresponding percentage ≤0.01 (white slices),
slices were combined for percentages (black slices).


(Oryza sativa)、杨树和葡萄(Vitis vinifera))的全基因
组测序, 还有多个植物的基因组测序工作正在进行
(Lyons and Freeling, 2008)。然而, 由于所研究的物
种不同, 可用的基因组信息也不一样, 一些物种相对
丰富, 而另一些物种则相对贫乏。与大规模的全基因
组测序相比, EST测序是以功能基因研究为主的较为
经济的方法。EST序列是通过对随机分离的转录序列
逆转录为cDNA后, 进行基因局部测序而得到的(Ad-
ams et al., 1991)。相对于基因组测序, EST测序的开
展更为广泛。同时, 这些序列也为微卫星标记的直接
开发提供了序列来源。对基因转录序列的微卫星含量
进行研究, 将为我们了解基因的稳定性提供参考。我
们对杨树基因组全部转录序列的研究表明, 约有20%
的基因含有微卫星序列(Li and Yin, 2007)。本研究中
我们发现, 桉树基因组中含有微卫星的EST序列约占
总数的15%, 与杨树相比, 桉树的转录序列中出现微
卫星的频率较低。但杨树微卫星研究一文(Li and Yin,
2007)中的转录序列是基于基因组注释的结果, 而不
是根据表达基因的直接测序, 本文对桉树的研究则是
根据EST序列得到的结果。EST序列对基因的覆盖程
度取决于构建文库的材料来源, 基因在不同的组织器
官中表达有差异, 同时EST序列中又有较多的重复累
赘, 某一基因序列被测到的几率与基因的表达量直接
相关。表达量高的基因, 会被反复测到, 而表达量低
的基因, 则可能会被错过。例如, 根据网上的交流信
息, 近20万条杨树的EST序列也仅能覆盖基因总数
的16.8%, 而拟南芥现有的EST序列也仅可覆盖基因
总数的40%–50%。所以上述结果可能不是由于物种
差异造成的, 而可能由于含有微卫星的基因具有较低
的表达丰度, 故导致了EST序列中微卫星出现频率偏
低。转录区序列所含微卫星数量远低于内含子区及基
因间隔区。根据上述分析可知, 含有微卫星的基因在
李淑娴等: 桉树 EST 序列中微卫星含量及相关特征 367
表1 设计的部分SSR引物序列及其相关的PCR扩增参数
Table 1 A partial list of the SSR primer pairs and relating parameters for microsatellite loci amplification
EST se-
quence
Repeat
motif
length
Repeat
sequence
Left primer
sequence
Tm
(°C)
GC
(%)
Right primer
sequence
Tm
(°C)
GC
(%)
Expected
size (bp)
EW688276 Di- [AG]13 5’-GTTTCCCTCGGTCTT
CACCT-3’
60.49 55 5’-TCTGCATGACAGTTG
GGTGT-3’
60.16 50 167
EW688301 Tri- [CTG]9 5’-ACCGCAATATTCCTC
CTCCT-3’
59.92 50 5’-TGAAACCGCCCTTAT
CTTCA-3’
60.58 45 170
EW688298 Di- [CT]5 5’-TCTCTATCTCTCTCT
GCGTCCA-3’
59.33 50 5’-CCATCAGCACCACCA
TCAT-3’
60.36 52.6
3
150
EW688258 Tri- [GGC]5 5’-CAGGAACCCAATCGA
CAACT-3’
59.97 50 5’-GGCTTAGGGTAGAG
GGGGTA-3’
59.44 60 169
EW688241 Tetra- [ATCC]6 5’-CCCCATCTGGTTGGT
TCTAA-3’
59.78 50 5’-AGATCGACCCTGACG
AACAC-3’
60.12 55 170
EW688235 Di- [CT]5 5’-CTGCCCAAACCATCA
TCTCT-3’
60.07 50 5’-CTCCTCCTCACCGAT
CTTCA-3’
60.34 55 189
EW688227 Tri- [CGG]4 5’-CCCGCTCCTCTCCTT
CTACT-3’
59.97 60 5’-CCAAGCACGGTATGA
AATCC-3’
60.33 50 185
EW688224 Penta- [GCCTG]4 5’-CAGTGATGTGGGTTG
GACTG-3’
60.00 55 5’-TCACTTCCCCGAAGA
TTTCA-3’
60.57 45 193
EW688223 Di- [CT]6 5’-GTCATCAGGGGCAG
ATTCAT-3’
59.89 50 5’-GACGCCCACATTGAA
GAGTT-3’
60.12 50 150
EW688219 Di- [AG]18 5’-TTTCTCGCTTTCGCT
TCTTC-3’
59.85 45 5’-GATGAACAGCATCAG
GAGCA-3’
59.95 50 176
EW688546 Tri- [AGA]4 5’-GGAATACGAGGGGA
AAAAGC-3’
59.91 50 5’-ATATTGGCAGTCCAC
CCGTA-3’
60.21 50 228
EW688537 Tri- [TCC]4 5’-CCCACTTCACCCAAA
CAAAG-3’
60.38 50 5’-ACGAGGCCTTGATGA
AGTTG-3’
60.25 50 165
EW688530 Tri- [TTC]6 5’-GCTTTTGCTCTCGCT
CTTCT-3’
59.10 50 5’-GGCTGGTAGAGCTC
CTCAAA-3’
59.57 55 151
EW688521 Di- [CT]7 5’-CTCTCTCCTTTCCCC
TCTGC-3’
60.47 60 5’-CATTGCCGTTGGAGG
AAG-3’
60.19 55.5
6
189
EW688458 Penta- [TTCCC]2 5’-GCACTTTCTCGGCTT
CAGTC-3’
60.14 55 5’-CTTCCAGTCGATCCT
CGTGT-3’
60.26 55 233
EY195989 Di- [AG]28 5’-TTTCTCGCTTTCGCT
TCTTC-3’
59.85 45 5’-GATGAACAGCATCAG
GAGCA-3’
59.95 50 196
EW688437 Tri- [GAG]7 5’-GAGAGAACCCAGCG
ACTTTG-3’
59.99 55 5’-AGCAGCTTCCAACGA
TGACT-3’
60.02 50 185
EW688430 Di- [AG]12 5’-TCTTGGTTCATCAGC
AGCAG-3’
60.14 50 5’-CGCACTTAGAGAGG
GTCCTG-3’
60.01 60 179
EW688418 Di- [CT]9 5’-CTCATTTCATTTGCC
CTCGT-3’
60.07 45 5’-GTTGCTGTGGAGAAC
AGGAT-3’
57.71 50 222
EW688397 Di- [TC]6 5’-TCCGGTTATGGAATA
TGGTGA-3’
60.02 43 5’-GAATGTGGTGCTCAG
CAATG-3’
60.27 50 207
EW688396 Penta- [CTTCG]2 5’-CTCGCTCTTCTTCCT
TCTGC-3’
59.45 55 5’-ATGCAGAGGGCCTC
GATCT-3’
62.26 57.8
9
189
EW688395 Penta- [TTTCC]3 5’-GGTCGTTGGTTGGTT
GTTCT-3’
59.87 50 5’-ACGGGTAATAGGCAT
TGCAG-3’
59.98 50 173
EW688389 Tri- [GAA]4 5’-AGGTGCGGACGGTG
AGAG-3’
62.49 67 5’-AACAATCGAAAGGCT
TGGTG-3’
60.11 45 168
EW688379 Tri- [CGC]4 5’-GCGACGATACTGTC
GGATCT-3’
60.25 55 5’-TGTGGTCGTTGATGT
TCTCC-3’
59.53 50 205
EW688365 Tri- [CTG]4 5’-ACCCCCTACCAAGCT
GAGAT-3’
59.96 55 5’-CTGCTCGAGTCTTGC
ATACG-3’
59.76 55 235
EW688344 Di- [TC]7 5’-CTTCCCCATTCCTTC
TCACA-3’
60.04 50 5’-TGTCCCTTCTCGAAG
TCCTC-3’
59.38 55 189

368 植物学报 45(3) 2010
表1 (续) Table 1 (continued)
EST se-
quence
Repeat
motif
length
Repeat
sequence
Left primer
sequence
Tm
(°C)
GC
(%)
Right primer
sequence
Tm
(°C)
GC
(%)
Expected
size (bp)
EW688338 Di- [CT]22 5’-GCAAGCATCATCTTC
CACATT-3’
60.10 43 5’-TCGGGGTATGGTTTT
TGTTC-3’
59.66 45 214
EW688334 Tri- [AGG]4 5’-ATGGGGAAGAAGAA
GGAGGA-3’
60.01 50 5’-CGGTGGAGTTTCTCC
AAGAG-3’
59.84 55 152
EW688321 Tri- [GCG]6 5’-GCGAATTGGCTGATC
TTCTC-3’
59.92 50 5’-TCGAAGACGATCAAG
TCGTG-3’
59.98 50 152
EW688312 Penta- [TTGGG]4 5’-CGGTCACGACGAGT
ACATTG-3’
60.18 55 5’-ACTTCGCTTCAGCCA
GAGAA-3’
60.28 50 155
EW688215 Di- [CT]10 5’-GCAGGTCATGATCCC
AAGTT-3’
59.93 50 5’-AGGGATGTATGCCCT
GTGAG-3’
59.95 55 157
EW688213 Di- [TC]11 5’-CCTAGTTCCCTCTCC
CGTTT-3’
59.57 55 5’-AGGAAGCTACTCGCA
AGCTG-3’
59.92 55 157
CU397519 Di- [GA]21 5’-CCGGGACACAAGAG
TCATC-3’
59.03 58 5’-CAAAGAAGCCCCAAT
TTTCA-3’
60.05 40 182
CU397516 Di- [AG]9 5’-GAGGACGCGAGCGA
GAAG-3’
62.40 67 5’-CCTTTCTCGACGGTG
TGG-3’
60.24 61.1
1
168
CU397513 Tetra- [AGTG]6 5’-GAAAACCCCGTTCAA
TTCC-3’
59.21 47 5’-CACCTGGTTGCACTT
CTCCT-3’
60.30 55 187
CU397488 Di- [GA]6 5’-GATTGGAGAAGGCA
CCATCA-3’
61.02 50 5’-CGAAGGTGTAGGGC
GAGAT-3’
60.23 57.8
9
227
CU397480 Tri- [GCT]4 5’-GAACGAAGCTGTCCA
GAAGG-3’
59.99 55 5’-TTCAATGGTCTGAGG
GAAGG-3’
60.04 50 154
CU397477 Tetra- [AGTG]7 5’-GATCGAAAACCCCGT
TCAAT-3’
61.05 45 5’-CACCTGGTTGCACTT
CTCCT-3’
60.30 55 191
CU397475 Tetra- [AGTG]7 5’-GATCGAAAACCCCGT
TCAAT-3’
61.05 45 5’-CACCTGGTTGCACTT
CTCCT-3’
60.30 55 191
CU395394 Tri- [AGA]4 5’-GCTCCACTAAAGCCC
CTTTG-3’
61.11 55 5’-CCTGATGTGCTAAGG
CTGGT-3’
60.28 55 172
CU395392 Tetra- [AGTG]7 5’-GATCGAAAACCCCGT
TCAAT-3’
61.05 45 5’-CACCTGGTTGCACTT
CTCCT-3’
60.30 55 191
CU395349 Tetra- [AGTG]7 5’-GATCGAAAACCCCGT
TCAAT-3’
61.05 45 5’-CACCTGGTTGCACTT
CTCCT-3’
60.30 55 191
CU395348 Tetra- [GTGA]4 5’-GATCGAAAACCCCGT
TCAAT-3’
61.05 45 5’-CTCCTGAGTCTGGCC
CTTG-3’
60.95 63.1
6
168
CU395336 Di- [TC]9 5’-CTGGATCGTTGGGTA
CGTTT-3’
59.85 50 5’-GAAGCAGGGGCATAT
CAGAG-3’
59.80 55 163
CU401692 Tetra- [AGTG]7 5’-GATCGAAAACCCCGT
TCAAT-3’
61.05 45 5’-CACCTGGTTGCACTT
CTCCT-3’
60.30 55 191
CU396219 Di- [AG]13 5’-CGCACTCGATTTTTC
GATTT-3’
60.21 40 5’-GCAGCGTTATCTTCC
TCGAC-3’
59.98 55 206
引物测试过程中, 在尾叶桉中成功扩增了46对引物。Tm: 溶解温度
The 46 SSR primer pairs listed in Table 1 were successfully amplified in Eucalyptus urophylla. Tm: Melting temperature


表达丰度上也极有可能低于不含微卫星的基因。
桉树EST序列中由不同长度重复单元组成的微
卫星含量与重复单元的长度呈负相关(三碱基重复微
卫星除外), 这与我们对杨树的研究结果相一致(Li
and Yin, 2007)。所以重复单元越长的微卫星在基因
序列中出现的频率也越低。但三碱基重复微卫星发生
的频率则明显高于其它长度重复单元的微卫星。这可
能是由于密码子选择所致, 因为遗传密码仅能允许三
碱基重复的突变。在其它物种中, 三碱基重复微卫星
在转录序列中出现的频率也明显偏高, 如在杨树中约
为65%(外显子区与UTR序列区的均值)(Li and Yin,
2007), 在其它植物中则达70%以上 (Toth et al.,
李淑娴等: 桉树 EST 序列中微卫星含量及相关特征 369
2000)。虽然三碱基重复微卫星在桉树EST序列中的
发生频率明显高于其它长度重复单元的微卫星, 但其
出现频率仍远低于其它植物, 仅为39.2%。根据前面
的分析, 我们认为这一结果也不能反映桉树基因序列
的整体情况, 而可能由于含三碱基微卫星的基因具有
较低的表达丰度。含三碱基重复微卫星的基因在生物
学上具有重要意义, 根据对人类基因组的研究结果,
Reddy和Housman(1997)认为这些微卫星与疾病的
发生相关, 如某些癌症的发生与这类微卫星重复单元
的扩展有关(Lothe, 1997; Toth et al., 2000)。我们认
为阐明桉树基因组中含三碱基重复微卫星基因的功
能是一个有意义的研究方向。
本研究发现, 桉树EST序列所含微卫星的长度分
化情况也与微卫星序列重复单元的长度呈负相关。由
短重复单元组成的微卫星其获得(或失去)重复单元的
速率比长重复单元组成的微卫星快, 总体而言, 将具
有更高的多态性。这一结果与对杨树转录序列所含微
卫星的分析结果相同。这一规律的发现, 为我们选择
多态性高的微卫星位点提供了借鉴。由于微卫星查找
的结果取决于所采用的分析条件和软件, 不同研究结
果往往难以直接比较。因此本研究结果在与其它物种
的结果进行比较时, 我们仅选择了杨树转录序列的微
卫星研究结果(Li and Yin, 2007), 因为这2项研究均
使用了相同的分析软件, 并且是在相同的分析条件下
获得的结果。从本文的分析发现, 桉树与杨树基因区
微卫星出现频率及微卫星长度的变化呈现相同的规
律, 即总体上与微卫星重复单元的长度呈负相关。与
杨树不同之处, 一是桉树EST序列微卫星的出现频率
明显低于杨树, 二是三碱基重复微卫星所占比例也明
显偏低。我们认为这2个差异可能是由于含有微卫星
的基因表达丰度偏低所致。然而这一推测的验证还需
要桉树全基因组测序及注释完成后, 才能最终确定。
若这些差异与基因表达丰度无关, 则说明桉树的基因
更为稳定, 这些现象的发现对于基因组进化研究具有
重要的生物学意义。
2.2 SSR引物设计及PCR检测
对检测到的微卫星位点, 我们进行了引物设计, 共设
计了1 338对SSR引物。由于引物根据EST序列设计,
故引物的结合位点均位于基因的转录表达区。另外的
437个(占24.6%)微卫星位点无合适的引物设计序列。
设计的部分引物序列见表1。
为验证设计的引物在实际扩增反应中的成功率,
我们合成了48对引物。以2株尾叶桉(Eucalyptus uro-
phylla)的DNA为模板进行了PCR扩增, 部分引物扩
增指纹见图4。扩增结果显示 , 仅有2对引物 (即
SSR_EW688247和SSR_EW688455)未获得扩增产
物, 扩增成功率为95.8%。我们对未获得扩增产物的
引物进行了重新合成和重复实验, 均未获得扩增产





图4 利用本研究设计的部分SSR引物对尾叶桉进行PCR扩增
产生的基因型谱带
图中显示了3对引物对2株尾叶桉进行PCR扩增产生的基因型
谱带。第1行与第2行对应引物SSR_EW688397; 第3行与第4
行对应引物SSR_EW688418; 第5行与第6行对应引物SSR_
EW688395。第1、3和5行对应尾叶桉DNA样品1, 第2、4和6
行对应尾叶桉DNA样品2。引物SSR_EW688397产生的谱带具
多态性, 其它2个引物产生的谱带则无多态性。图中数值所示为
扩增片段长度(bp)

Figure 4 The genotyping profiles revealed in PCR amplifi-
cation of Eucalyptus urophylla by a part of SSR primer pairs
developed in this study
This figure displays the genotyping profiles of three SSR
primers amplifying in two Eucalyptus urophylla individuals.
Row 1 and 2 correspond to SSR_EW688397; Row 3 and 4
correspond to SSR_EW688418; Row 5 and 6 correspond to
SSR_EW688395. Row 1, 3 and 5 are profiles amplified in
DNA sample 1, and row 2, 4 and 6 are profiles amplified in
DNA sample 2. Profile of primer pair SSR_EW688397 dis-
plays polymorphism in the two tested samples, and no poly-
morphism is observed in profiles generated by the other two
primer pairs. The data in this figure indicate the lengths of
amplification fragments (bp)
370 植物学报 45(3) 2010
物。这2个引物是利用在巨桉(Eucalyptus grandis)木
质部中表达的EST序列进行设计的, 表明在巨桉和尾
叶桉中 , 这2个引物的引物结合序列可能发生了突
变。
根据我们对杨树转录序列开发的微卫星研究结
果, 外显子区的微卫星在不同种间的通用性达90%以
上。本文的研究结果显示, 利用桉树EST开发的微卫
星在另一桉树种中具有极高的扩增成功率。研究表明,
利用桉树随机基因组序列设计的SSR引物, 在桉树
属不同种间通用性约为78%(Marques et al., 2002),
在桃金娘科不同属间仍具有30%以上的通用性(Yas-
odha et al., 2005)。SSR引物的通用性取决于引物结
合序列的保守性, 利用基因转录序列设计的引物比使
用随机序列设计的引物具有更高的保守性。因此本研
究开发的微卫星在桉树的比较基因组研究中将具有
重要的应用价值。
参考文献
何平 (1998). 真核生物中的微卫星及其应用 . 遗传 20(4),
42–47.
李孟军, 肖寒, 卢金东, 王兴军 (2008). 花生微卫星标记的研
究进展. 植物学通报 25, 373–380.
Adams MD, Kelley JM, Gocayne JD, Polymeropoulos
MH, Xiao H, Merril CR, Wu A, Olde B, Moreno RF
(1991). Complementary DNA sequencing: expressed
sequence tags and human genome project. Science 252,
1651–1656.
Biradar SK, Sundaram RM, Thirumurugan T, Bentur JS,
Amudhan S, Shenoy VV, Mishra B, Bennett J, Sarma
NP (2004). Identification of flanking SSR markers for a
major rice gall midge resistance gene Gm1 and their
validation. Theor Appl Genet 109, 1468–1473.
Gan SM, Shi JS, Li M, Wu KM, Wu JY, Bai JY (2004).
Moderate-density molecular maps of Eucalyptus urophylla
S. T. Blake and E. tereticornis Smith genomes based on
RAPD markers. Genetica 118, 59–67.
Grattapaglia D, Sederoff R (1994). Genetic linkage maps
of Eucalyptus grandis and Eucalyptus urophylla using a
pseudo-testcross: mapping strategy and RAPD markers.
Genetics 137, 1121–1137.
Jewell E, Robinson A, Savage D, Erwin T, Love CG, Lim
GA, Li X, Batley J, Spangenberg GC, Edwards D
(2006). SSR primer and SSR taxonomy tree: biome SSR
discovery. Nucleic Acids Res 34, 656–659.
Kashi Y, King D, Soller M (1997). Simple sequence repeats
as a source of quantitative genetic variation. Trends
Genet 13, 74–78.
Labbé J, Zhang XY, Yin TM, Schmutz J, Grimwood J,
Martin F, Tuskan GA, Tacon FL (2008). A genetic link-
age map for the ectomycorrhizal fungus Laccaria bicolor
and its alignment to the whole-genome sequence as-
semblies. New Phytol 180, 316–328.
Li S, Yin TM (2007). Map and analysis of microsatellites in
genome of Populus: the first sequenced perennial plant.
Sci China C Life Sci 50, 690–699.
Li YC, Korol AB, Beiles A, Nevo E (2002). Microsatellites:
genomic distribution, putative functions and mutational
mechanisms: a review. Mol Ecol 11, 2453–2465.
Lothe RA (1997). Microsatellite instability in human solid
tumors. Mol Med Today 3, 61–68.
Lyons E, Freeling M (2008). How to usefully compare ho-
mologous plant genes and chromosomes as DNA se-
quences. Plant J 53, 661–673.
Marques CM, Brondani RPV, Grattapaglia D, Sederoff R
(2002). Conservation and synteny of SSR loci and QTLs
for vegetative propagation in four Eucalyptus species.
Theor Appl Genet 105, 474–478.
Powell W, Machray GC, Provan J (1996). Polymorphism
revealed by simple sequence repeats. Trends Plant Sci 1,
215–222.
Reddy PS, Housman DE (1997). The complex pathology of
trinucleotide repeats. Curr Opin Cell Biol 9, 364–372.
Schlotterer C, Tautz D (1992). Slippage synthesis of simple
sequence DNA. Nucleic Acids Res 20, 211–215.
Schlotterer C (2001). Genealogical inference of closely
related species based on microsatellites. Genet Res 78,
209–212.
Tautz D, Trick M, Dover GA (1986). Cryptic simplicity in
DNA is a major source of genetic variation. Nature 322,
652–656.
Toth G, Gaspari Z, Jurka J (2000). Microsatellites in dif-
ferent eukaryotic genomes: survey and analysis. Genome
Res 10, 967–981.
Wyman J, Bruneau A, Tremblay MF (2003). Microsatellite
analysis of genetic diversity in four populations of Populus
tremuloides in Quebec. Can J Bot 81, 360–367.
Yasodha R, Ghosh M, Sumathi R, Gurumurthi K (2005).
Cross-species amplification of Eucalyptus SSR markers in
Casuarinaceae. Acta Bot Croat 64, 115–120.
Yin TM, Difazio SP, Gunter LE, Zhang XY, Sewell MM,
Woolbright SA, Allan GJ, Kelleher CT, Douglas CJ,
李淑娴等: 桉树 EST 序列中微卫星含量及相关特征 371
Wang MX, Tuskan GA (2008). Genome structure and
emerging evidence of an incipient sex chromosome in
Populus. Genome Res 18, 422–430.
Yin TM, Zhang XY, Gunter LE, Li SX, Wullschleger SD,
Huang MR, Tuskan GA (2009). Microsatellite primers
resource developed from the mapped sequence scaf-
folds of Nisqually-1 genome. New Phytol 181, 498–
503.

Content and Characteristics of Microsatellites Detected in Ex-
pressed Sequence Tag Sequences in Eucalyptus
Shuxian Li1†, Xinye Zhang2†, Yingya Wang1, Tongming Yin1*
1The Key Laboratory of Forest Genetics and Biotechnology, Nanjing Forestry University, Nanjing 210037, China; 2Hubei
Academy of Forestry, Wuhan 430079, China
Abstract We analyzed 10 000 expressed sequence tags (ESTs) of Eucalyptus deposited in GenBank and detected
1 775 microsatellites distributed in 1 499 EST sequences. Thus, about 15% of the EST sequences contain one or more
microsatellites in the genome of Eucalyptus. Diversification of microsatellite lengths was negatively correlated with their
repeat motif lengths. Apart from the triplet repeats, the abundance of the other three classes of microsatellites was also
negatively correlated with their repeat motif lengths. Triplet repeats are the most abundant microsatellites in the EST
sequences of Eucalyptus. The overabundance of triplet repeats might result from genetic code selection. A comparison of
microsatellites in the EST sequences of Eucalyptus and the transcript sequences annotated from poplar genome
sequences revealed similar variation trends in microsatellite lengths and abundance with their repeat motif lengths.
However, the microsatellite content and frequency of triplet repeats were significantly lower in Eucalyptus than in poplar.
This might relate to the lower expression of microsatellite-containing genes. We subsequently designed simple sequence
repeat (SSR) primers and successfully detected microsatellite loci.
Key words Eucalyptus, microsatellite repeat sequence, microsatellite richness, microsatellite length variation, SSR
primer design
Li SX, Zhang XY, Wang YY, Yin TM (2010). Content and characteristics of microsatellites detected in expressed se-
quence tag sequences in Eucalyptus. Chin Bull Bot 45, 363–371.
———————————————
† These authors contributed equally to this work.
* Author for correspondence. E-mail: tmyin@njfu.com.cn
(责任编辑: 孙冬花)