全 文 :文章编号:1001-4829(2004)01-0065-06
收稿日期:2003-12-08
基金项目:云南省农业生物技术重点实验室开放基金资助
作者简介:易芍文(1964-),女 ,助研 ,现从事果树科学研究。
梨属植物收录序列中简单重复序列的分析
易芍文 ,胡忠荣 ,陈 伟 ,高正清 ,李坤明
(云南省农业科学院园艺作物研究所 ,云南 昆明 650205)
摘 要:植物基因组计划使模式植物和许多重要农作物的基因组序列 、表达序列数据迅速增加。利用基因库中果树表达序列标签
(EST)既可用于结构 、功能的分析 ,又可用于简单重复序列(SSR)标记的开发。本文根据目前基因库中梨的 DNA收录序列 ,共挖
掘出 300个简单重复序列。其中 231个是从以 EST 为主的收录序列中挖掘的。这些分析为梨属资源的遗传变异 、品种鉴别 、基因
标记及进化研究提供了重要的信息依据。
关键词:梨;简单重复序列;基因库;收录序列
中图分类号:S661.2.035.3 文献标识码:A
Data mining for simple sequence repeats in GeneBank sequence of
pear(Pyrus pyrifolia)
YI Shao-w en , HU Zhong-rong , CHEN Wei , GAO Zheng-qing , LI Kun-ming
(Hort icultu ral Crop Research Insti tute , Yunnan Academy of Agricul tural S ciences , Kunming 650205 , C hina)
Abstract:Plant genomics p roject s involving in model species and many agriculturally important crops are result ing in a rapidly increasing
database of genomic and expressed DNA sequences.The publicly available collection of exp ressed sequence tags(ESTs)in GeneBank from
fruit t rees can be used in the analysis of both structural and functional potential used in developing simple sequences repeat(SSR)markers.
Three hundred SSRs w ere mined f rom GeneBank Sequence.Of them , 231 SSRs w ere mined f rom non-microsatellite accession sequence.
The results can be used for genet ic variation , variety discrimination , gene tagging and evolution research of pear resources.
Key words:pear;simple sequence repeat (SSR);GeneBank;accession sequence
简单重复序列(simple sequence repeats , SSR),
也称微卫星序列(microsatellite)是真核生物基因组
中分布广 、变异丰富的序列 ,在编码区和非编码区都
有公布 。根据其两侧的保守序列设计引物后 ,可通
过 PCR反应进行快速检测 ,并具有较好的稳定性和
灵敏性。因此成为遗传变异 、群体结构 、连锁分析中
使用十分广泛的分子标记 。尤其是在基因组计划迅
速发展的今天 ,通过在 GeneBank 收录的序列中查
找简单重复 SSR序列 ,可以很快得到大量有用的序
列信息[ 1 ~ 3] 。从而加快简单重复序列分子标记体
系的建立和成本的降低。
梨是我国果树主要树种之一 ,栽培面积和产量
都居世界首位。同时我国又是梨的原产地之一 ,资
源十分丰富 ,世界梨属植物约有 30 种 ,原产我国的
就有 13种 ,占世界总数的 43 %以上 ,全国各地均有
梨树分布和栽培。果树资源工作者通过调查发现了
许多地方优良品种 ,这些品种目前已成为我国许多
地区生产上大量栽培的品种 ,或是育种中有重要价
值的亲本材料。云南已经收集到的梨属植物资源就
达 154份 ,涉及 6个种 ,30余个类型 ,50多个品种和
3个野生近缘属(种)。其中的文山红梨 、砚山红香
酥 、巍山红雪梨 、玉香梨等品种的皮色鲜艳夺目 ,风
味浓厚 ,是优良的地方梨品种 ,为我国十分珍贵的种
质资源 ,不论在生产上或育种上都具有重大的利用
价值。但是梨为多年生木本植物 ,生命周期长 ,树体
高大 ,占地广 ,遗传上高度杂合。许多重要的经济性
状是受多基因控制的数量性状 ,受环境条件的影响
较大 ,常规方法评价的周期长 ,所以现阶段我国对梨
种质资源的研究评价还仅停留在性状鉴定和细胞学
水平上。本研究就是通过检索收录序列 ,挖掘其中
的 SSR序列 ,并进行归类 、分析 ,为梨属资源的分子
65
2004年 17卷 1期
Vol.17 No.1
西 南 农 业 学 报
S outhwest China Jou rnal of Agricultu ral Sciences
DOI :10.16213/j.cnki .scjas.2004.01.017
标记研究提供依据。
1 材料与方法
本研究的材料是通过生物技术信息中心(CN-
BI)网站检索梨的收录数据库 ,将迄今(2003 年 11
月 30日)所有收录的梨(Pyrus pyrifolia)DNA序列
下载后 ,进行简单重复序列的计算机分析。本研究
利用 Gary Benson 编写的专门程序 ,以大于 15 bp ,
匹配值为 80 %(指前后两个重复单元中相匹配的碱
基数在 80 %)以上的标准进行查找后 ,除去冗余的
部分 ,并对错误的地方进行人工校正 。
2 结果与分析
通过分析 ,在微卫星序列中发现简单重复序列
65个 。每个收录的微卫星序列中至少含有一个简单
重复序列 ,多的含有 7个简单重复序列(表 1)。在以
其它记录进行收录的 142序列(简称非微卫星序列 ,
下同)中 ,共发现长度大于 12 bp的 231个SSR序列。
表 1 生物技术中心(CNBI)网络中收录的 29个微卫星序列中的简单重复序列分布
Table 1 Simple sequence repeats in microsatellit e sequence of GeneBank
收录号
Accession number
简单重复序列的基序长度 Moti f length of SSR
1 2 3 4 5 6 8 9 10
简单重复序列数量
Number of SSR
AB0613581 1 1
AB0613591 1 1 2
AB0613601 1 1 2
AB0613611 1 1 2
AB0613621 1 1 2
AB0613631 2 2
AB0613641 2 2
AB0613651 2 2 1 5
AB0613661 1 1
AB0613671 2 2
AB0613681 1 1
AB0613691 1 1
AB0613701 1 1
BD1073761 4 1 2 7
BD1073791 2 1 1 4
BD1073921 2 1 3
BD1073931 1 1
BD1073941 2 1 3
BD1073951 2 2
BD1073961 2 2
BD1073971 2 2
BD1073981 2 1 3
BD1073991 2 1 3
BD1074171 2 1 3
BD1075921 1 1 2
BD1075931 1 1
BD1075941 1 1
BD1075951 1 1 1 3
BD1075961 1 1
总计 Total 1 43 2 1 1 13 2 1 1 65
66 西 南 农 业 学 报 17卷
通过数据库的检索 ,共得到 171 条梨的收录
DNA 序列 ,分别来自 31个不同的品种。来自品种
Whangkeumbae的有 29 条 ,来自丰水(Hosui),幸水
(Kousui),二十世纪(Nijisseiki)各有 2条 ,还有 27条
各自分别来自一个品种。其余序列的品种来源不
祥。在 171条收录序列中 ,29 条是以微卫星序列进
行收录的(简称微卫星序列 ,下同),两条是以 5`端
区域及部分编码序列收录的 , 其余全是编码序列
(expressed sequence tags , EST ,即表达序列标签)。
63条为完整的编码序列 ,其余只是部分序列。出现
频率较多的是18S核糖体 RNA基因 、RNA酶基因 、
PPFRU 基因(一组与蛋白质和氨基酸代谢相关的基
因)等 ,其它基因则较为分散 。
在微卫星收录序列中 ,共发现 65个 SSR序列 ,
最多的为 BD1073761 ,达 7个 ,多数含有 1 ~ 3 个。
其中以 2碱基重复的数量最多 ,达 43 个 ,其次为 6
碱基重复 ,为 13个 。由于 2碱基重复如位于蛋白质
编码区内 ,其长度变化可能导致开放阅读框架的改
变 ,所以含有 2碱基重复序列的收录序列位于编码
区内的可能性以 2碱基重复的数量最多 ,达 43个 ,
表 2 微卫星收录序列中出现两次以上的基序
Table 2 Mot ifs in microsatellit e sequences of GeneBank
收录号
Accession number
AG 类基序 Moti f
AG GA CT TC
AC类基序 Motif
AC CA GT TG
AB0613581 1
AB0613591 1
AB0613601
AB0613611 1
AB0613621 1
AB0613631 1 1
AB0613641 1
AB0613651 2
AB0613661 1
AB0613671 2
AB0613681 1
AB0613691 1
AB0613701 1
BD1073761 1 1 1 1
BD1073791 1 1
BD1073921 1 1
BD1073931 1
BD1073941 1 1
BD1073951 1 1
BD1073961 1 1
BD1073971 1 1
BD1073981 1 1
BD1073991 1 1
BD1074171 1 1
BD1075921 1
BD1075931 1
BD1075941 1
BD1075951 1
BD1075961
合计 Total 12 9 3 6 2 3 3 4
671期 易芍文等:梨属植物收录序列中简单重复序列的分析
其次有 6碱基重复 ,为 13个。由于 2碱基重复如果
位于蛋白质编码区内 ,其长度变化可能导致开放阅
读框架的改变。所以含有 2碱基重复序列的收录序
列位于编码区内的可能性较小。从表 2 可以看出 ,
其中 2碱基重复序列的基序仅有 AG 和 AC 两类 ,
缺乏 AT 和 CG类 SSR。这可能与筛选 SSR的方法
有关。即以 AG 和 AC 的重复序列为探针 ,通过杂
交得到的 SSR序列 ,就只可能是这两类 SSR。在 29
个收录序列中 ,除了 AB0613601和 BD1075961外 ,
都含有 2碱基重复序列。这就是使用分子杂交方法
筛选 SSR的局限所在 。
除了上述 2碱基重复序列外 ,其余基序的 SSR
都只出现了1次 。这些基序包括 AAGGCA ,ACAA ,
ACATCG , ACCAAA , AGAGGA , ATGCAT ,
ATTTTT , CCACAC , CTTTGC , GAGAGAAA ,
GCAATA , GCTT T , GGT , T , TA , TCAAATT T 和
T TGCTG 。
与上述微卫星收录序列相比 ,非卫星收录序列
中简单重复序列中的基序长度变化及基序组成就较
为复杂 。如表 3所示。在该部分序列中共发现 231
个简单重复序列 。数量最多的是 6 碱基重复序列 ,
达 74个 ,其次分别为 7碱基重复序列(55个),单碱
基重复序列(24个),4碱基重复序列(22个),2碱基
重复序列(15个),和 9 碱基重复序列(10 个)。10
碱基重复序列和 5碱基重复序列最少 ,仅分别为 6
个和 7个。
表 3 基因库中收录的非微卫星序列中所含 SSR的分析
Table 3 Distribution of simple sequence repeats in non-microsatellit e sequences drive f rom GeneBank
重复次数
Repeat number
基序长度(bp)Motif length
1 2 3 4 5 6 7 8 9 10
2 64 55 7 10 6
3 17 3 8 2
4 3 4 3 1
5 5 1 1
6 2
7 7 1
12 2
13 2 1
14 2
15 1 1
16 1
17 2 2
18 1
19 3
20 1
21 1
22 2
24 2
27 1
28 1
31 1 1
32 1
33 1
41 1
总计 Total 24 15 9 22 7 74 55 9 10 6
68 西 南 农 业 学 报 17卷
表 4 在非微卫星收录序列中发现的长度大于 20bp的 SSR
Table 4 Simple sequence repeats longer than the 20 bp in non-microsatellite accession sequence
收录号
Accession
number
起始位置
Start codon
终止位置
Stop codon
重复次数
Repeat
number
基序大小
Mot if size
匹配值
Percent
match
SSR长度
SSR length
(bp)
基序
Mot if
AB014072.1 3898 3917 20 1 100 20 T
AB002139.1 762 781 5 4 100 20 ACAT
AB014073.1 1232 1251 4 5 80 20 AAAGA
D67038.1 1098 1117 4 5 83 20 TTTAT
AY158069.1 418 437 4 5 84 20 AAATA
AB014456.1 638 657 2 10 90 20 GTGGAAGAGT
AB080677.1 726 745 2 10 90 20 AT TTTCATTA
AB046543.1 2624 2644 21 1 100 21 A
AB027617.1 1943 1963 7 3 100 21 TCT
AB014072.1 2866 2887 22 1 80 22 T
AB009385.1 2668 2689 22 1 80 22 T
AB014073.1 1028 1049 2 10 91 22 CGAAGGGATC
AB046543.1 214 235 2 12 81 22 TTCTGCATTGTT
AB036069.1 3744 3767 24 1 82 24 T
AF195210 253 276 24 1 100 24 A
AB080648.1 682 705 4 6 85 24 C TTTAT
AB080678.1 128 151 3 8 80 24 AAACTCTC
AB073311 119 142 3 8 87 24 TTGGAGAC
AB104909.1 325 348 2 11 93 24 TGGCGTAAACA
AF195216 305 328 2 12 92 24 GCTGGCCTTCCT
AB025421.1 1155 1178 2 12 100 24 TCGGCCGAGGAG
AB036069.1 3745 3769 5 5 85 25 TTT TA
AB002139.1 738 763 13 2 100 26 AC
AB036069.1 170 195 2 12 92 26 TTAAAATCCTAA
AF195234 462 488 27 1 100 27 A
AF195205 218 245 28 1 100 28 A
AB080677.1 1107 1137 31 1 80 31 A
AB014072.1 3219 3252 17 2 100 34 TG
AB009385.1 3021 3054 17 2 100 34 TG
AB014073.1 1631 1670 2 20 80 40 TAAAATT TAAGACATT TTCA
AB045711.1 1918 1958 41 1 80 41 A
AB009385.1 2304 2365 31 2 93 62 GT
PYPRBL2 789 852 32 2 93 64 GT
AB014072.1 2498 2563 33 2 93 66 GT
AY158069.1 804 893 15 6 89 90 TATACA
AGTTTAGAAAATAGTGACAATA
AB014073.1 1359 1451 3 31 81 93 CCAGTG TTT
ACCTACGAGCGTAGAAGGAAC
CAAAGACTTGCTCGTGGGTCG
AACAATGGTCAGGCACTCT TTT
AF195227 84 245 2 81 98 162 GAGATCTT TCTTCGGCA
691期 易芍文等:梨属植物收录序列中简单重复序列的分析
图 1 在基因库中非微卫星序列中 SSR的主要基序
Fig.1 Main mot ifs in non-microsatellit e sequence of GeneBank of pear
表 4中所列长度大于 20bp的 SSR存在多态性
的可能性较大 ,在以后的研究中可作为首选标记使
用。
主要基序及其出现频率如图 1 所示 , 基序为
GGTGACG , A , T , AATT TAA , G T 的出现次数较
多。
3 讨 论
与水稻 、小麦 、蕃茄等作物相比 ,果树的基因组
研究开展得较少。因此 ,果树基因组中的分子标记
研究也较少 。尽管对于梨的简单重复序列的研究 ,
已经有所报道[ 1~ 2] 。笔者及其它一些研究者的试
验表明苹果(Malus domestica)中 SSR也可用于梨
的研究[ 4] 。在基因库中 ,作为微卫星收录的序列达
到 29条。但是这些简单重复序列的数量 ,仍然不能
满足分子标记的需要 ,通过试验验证的基序 ,也基本
只限于 AG 一个种类 。利用基因库中收录的 DNA
序列 ,作为筛选 SSR标记的途径 ,是一种简单 、快速
的方法 。本研究就是利用这一途径 ,对目前基因库
中所有梨的 DNA 序列进行了分析 。结果发现长度
大于 12bp的简单重复序列共 300 外。其中 231 个
是从以编码序列为主的序列中新发现的 。大于
20bp的序列 37条 。这就为梨的分子标记研究提供
了更广泛的来源 。更多的信息 ,为选择 、利用提供了
更多的依据 。无论是 SSR基序的长度和 SSR的类
型 ,都有了很大的扩展。但是 ,也应该看到 ,目前基
因库的收录序列还是十分有限的。而且本研究使用
的序列除了以微卫星收录的序列以外 ,多数为编码
序列。因此所提出的简单重复序列并不能代表梨基
因组中 SSR的分布特点 。其多态性如何 ,也还有待
于进一步的研究。但位于编码序列中的 SSR序列 ,
还可能为这些 SSR序列所在位点的多样性研究和
功能研究提供有用的信息 。即这些 SSR的变化 ,是
否会影响它们所在位点的功能差异? 也是值得深入
研究的课题 。因为在人类的 SSR研究中已经发现。
一些位于编码区的 SSR的变化 ,会导致个体的遗传
病变。在水稻中 ,共发现 27个基因的基因编码区 、
内含子或是上下游的调控区域中含有 SSR ,而且已
经知道SSR的变化会导致水稻淀粉酶基因活性的
变化。微生物中 ,也已经有类似的研究结果。因此 ,
很有必要在梨中开展这些研究。
参考文献:
[ 1] Gianfranceschi L , Seglias N , Tarchini R , et al.S imple sequence re-
peats for the genetic analysis of apple [ J] .Theor Appl Genet , 1998 ,
96:1069-1076.
[ 2] Guiltord P , Prakash S , Zhu J M , et al.Microsatelli tes in Ma lus X do-
mestica(apple):abundance , polymorphism and cult ivar identif ication
[ J] .Theor Appl Genet , 1997 , 94:249-254.
[ 3] Kantety R V , Rota M L , Mathew s D V , et al.Data mining for simple
sequence repeats in expressed sequence tags f rom barley , maize , rice ,
sorghum and w heat [ J] .Plant Molecular biology , 2002 , 48:501-
510.
[ 4] Yamamoto T , Kimura T ,S aw amura Y ,et al.SSRs isolated f rom ap-
ple can ident ify polymorphism and genet ic diversity in pear[ J] .The-
or Appl Genet , 2001 , 102:865-870.
(责任编辑 王家银)
70 西 南 农 业 学 报 17卷