全 文 :·研究报告·
生物技术通报
B IO TECHNOLOGY BULL ETIN 2009年第 7期
烟草 ESTs资源的 SSR信息分析
胡重怡 蔡刘体 陈兴江
(贵州省烟草科学研究所 ,贵阳 550003)
摘 要 : 烟草 ESTs数量迅速增加为开发新的 SSR标记提供了宝贵的资源。经过软件分析 ,对 242 683条烟草 ESTs序
列剔除冗余序列 ,在 211 728条非冗余烟草 ESTs序列中 ,共检索出 9 339个 SSR, SSR之间的距离约为 14121 kb,检出率为
4141% ,包括 216种重复基元。其中三核苷酸重复类型的 SSR占主导地位 ,占总 SSR的 50134% ,其次为二核苷酸和单核苷
酸 ,分别为 23100% , 16148% ,其余重复类型所占比例均不足 5%。在所有重复基元中 , A /T重复为主要类型 ,占所有重复
14168% ,其次为 AT/TA、AG/TC、AAG/TTC,分别为 10149%、9148%、6185%。随机设计 10对 EST2SSR引物 ,对 6个品种烟草
进行扩增 , 10对 EST2SSR引物均能扩增出产物 ,其中 1对引物在 6个品种有多态性。本研究为烟草 EST2SSR标记的建立和进
一步应用奠定了基础。
关键词 : 烟草 EST2SSR 重复基元
Analysis of SSR Information in ESTs Resource of
Tobacco ( N icotiana tabacum )
Hu Zhongyi Cai L iuti Chen Xingjiang
( Tobacco Science Resource Institute of Guizhou Province, Guiyang 550003)
Abs trac t: In this research, 242 683 exp ressed sequence tags ( ESTs) were analyzed by software, indicating that 9 339 SSR were
found in 211 728 non2redundant tobacco ESTs, and the average distance between SSR was app roximately 14121 kb, accounting for
4141% of ESTs, including 216 kinds of repeat motifs were m ined out1 Trimeric repeats, accounting for 50134% , was dom inant in all
SSR, followed by dimeric and mono2meric repeats, 23100% and 16148% , while the frequency for other repeat type was below 5%
each1 The most abundant motif was A /T, accounting for 14168% in all repeat types, followed by AT/TA, AG/TC, AAG/TTC, ac2
counting for 10149% , 9148% , 6185% , respectively110 pairs of p rimers for EST2SSR random ly designed were subjected to PCR for
DNA s from six tobacco varieties and one pair of p rimers showed polymorphism s1 The result p rovided a base for the development and ap2
p lication of EST2SSR markers in tobacco1
Key wo rds: Tobacco EST2SSR Motif
收稿日期 : 2009203213
基金项目 :贵州省烟草专卖局项目 (黔烟科 2007203)
作者简介 :胡重怡 (19822) ,女 ,硕士 ,研究方向 :分子生物学 ; E2mail: rebeccahu0801@1261com
通讯作者 :蔡刘体 (19742) ,男 ,博士 ,研究方向 :分子生物学 ; E2mail: cailiuti01@1631com 烟草是重要的经济作物。目前 ,世界上已有多个实验室以 DNA多态性为基础的分子标记的开发和应用 ,为烟草遗传图谱构建、品种纯度检测、遗传多态性分析、分子标记辅助选择育种和基因定位等研究提供了发展机遇 [ 1~7 ]。然而由于对烟草全基因组序列知之甚少 ,目前应用于烟草遗传育种研究上的分子标记还主要局限于随机扩增长度多态性( random amp lified polymorphic DNA , RAPD )和扩增 片段长度多态性 ( amp lified fragment length polymor2phic, AFLP )。但这两种标记手段都各有欠缺 :RAPD技术简单 ,费用低 ,但 RAPD是显性标记 ,可重复性不高 ,需要大量引物 ; AFLP标记多态性高 ,结果稳定可靠 ,但需要经过酶切和连接的过程 ,技术难度和费用也相对较高。在众多分子标记类型中 , SSR ( simp le sequencerepeat)分子标记以多态性高、共显性、重复性好、操
© 1994-2011 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
2009年第 7期 胡重怡等 :烟草 ESTs资源的 SSR信息分析
作简单、易检测、数量丰富和对基因组覆盖范围广等
特点 ,从实用性和有效性均优越于其他标记类型而
广泛应用于各类作物上 [ 8 ]。近年来 ,许多作物大规
模的 cDNA单边测序并在网上公开释放 ,使得基于
ESTs( exp ressed sequence tags)的 SSR标记开发能力
大大增强 ,并且由于可以直接获得基因表达的信息 ,
节省了 SSR引物开发过程中的克隆和测序步骤 ,减
低了引物开发成本。自 2000 年起 ,已相继在葡
萄 [ 9 ]、甘蔗 [ 10 ]、硬粒小麦 [ 11 ]、黑麦 [ 12 ]、大麦 [ 13 ]、小
麦 [ 14 ]和马铃薯 [ 15 ]等作物开展了 EST2SSR标记的开
发并广泛用于基因组研究和分子育种。截止到
2008年 9月 ,烟草公布的 ESTs序列已有 242 683
条 ,烟草 ESTs序列以爆炸速度递增。
本研究对已有烟草 ESTs中 SSR信息进行了全
面的分析 ,并建立烟草 EST2SSR体系 ,以期更多的
了解烟草 ESTs资源的特性 ,并为利用烟草 ESTs建
立 SSR标记和探索其在烟草遗传育种中的应用奠
定基础。
1 材料与方法
111 烟草 ESTs序列的来源
截止 2008 年 9 月 2 日 ,在 GenBank ( http: / /
www. ncbi. nlm. nih. gov/dbEST/dbEST_ summary. ht2
m l) 中释放有烟草 ESTs共 242 683条 ,以 FASTA格
式下载这些序列。
112 烟草 EST2SSR开发
采用 EST2trimmer软件 ( http: / /pgrc. ipk2gater2
sleben. de) 除去 5′端或 3′端的 poly T或 poly A,并剔
除长度小于 100 bp 的 ESTs序列。通过软件采用
Clastal X 1181 ( http: / /www. digitalgene. net/Soft/Se2
quences/ lignment/200409 /0. htm l )、 Treeview ( ver
1161) ( http: / /www. taxonomy. zool2ogy. gla. ac. nkrod /
od. htm l和 Genedoc ( ver 216102) ( http: / /www. p sc.
edu /biomed /genedoc /gddl. htm ) 软件对 242 683 条
ESTs序列进行冗余性查找。剔除冗余序列 ,然后利
用在线软件 SSR IT ( http: / / arsgenome. cornell. edu /
cgibin / rice / ssrtool. p l)在非冗余序列中查找 SSR。利
用该软件查找了二、三、四、五、六核苷酸 5种类型的
SSR, 利用 TRF ( tandem repeats finder, http: / / tan2
dem. bu. edu / trf / trf. htm l)查找单核苷酸类型的 SSR。
SSR的查找标准 :单核苷酸重复 ≥25 bp,二核苷酸重
复≥14 bp,三核苷酸重复≥15 bp,四核苷酸重复≥16
bp,五核苷酸重复≥20 bp,六核苷酸重复≥24 bp。
113 烟草 EST2SSR的引物开发
随机抽取 12条包含有 SSR的 ESTs序列 ,利用
Primer 310 ( http: / / frodo1wi1m it1edu /cgi2bin /p rimer3 /
p rimer3 _www1cgi)进行引物设计 ,共设计了 10对
EST2SSR引物。引物设计的主要参数是 :引物长 18~
20 bp,最适为 20 bp; PCR产物长 100~250 bp;最适
Tm值为 57℃; GC含量为 35%~65% ,最适 50%。引
物合成由上海生工生物工程技术服务有限公司完成。
114 DNA 提取、SSR扩增和电泳
本研究用了 6个烟草品种 :红花大金元、云烟
85、K326、NC82、心叶烟、N icotiana tabacum L. xan2
thin。用 Q IAGEN公司 DNeasy PlantM ini Kit试剂盒
提取 DNA。EST2SSR扩增条件 : 94℃ 5 m in; 94℃ 30
s, 53℃ 40 s, 72℃ 40 s, 35 个循环 ; 72℃ 10 m in。
PCR产物在 8%的聚丙烯胺凝胶垂直电泳中进行电
泳分离 ,在 25℃, 120 V恒压下电泳 210 h, 通过银
染法显影 [ 16 ]。
2 结果与分析
211 烟草 ESTs的 SSR出现频率
用 EST2trimmer、ClastalX 1181、Treeview 和
Genedoc软件对 242 683条 ESTs序列比较分析 ,剔
除冗余的序列 ,得到 211 728条非冗余 ESTs序列 ,
SSR IT查找获得 9 339条 EST2SSR,分布于 8 764条
ESTs序列中 ,出现 SSR s的频率是 4141%。在 211
728条烟草非冗余 ESTs序列中 ,拼接总长度为 132
744127 kb,平均相隔 14121 kb就出现一个 SSR。各
重复类型出现频率见表 1。
表 1 烟草 ESTs序列 SSR出现的频率
类型 数目 类型的比例 ( % ) 频率 ( % ) 平均距离 ( kb)
单核苷酸 1 539 16148 0173 86125
二核苷酸 2 148 23100 1101 61180
三核苷酸 4 701 50134 2122 28124
四核苷酸 444 4175 0121 298197
五核苷酸 214 2129 0110 620130
六核苷酸 293 3114 0114 453105
总计 9 339 100 4141 14121
212 烟草 EST2SSR的分布特征
9 339个 SSR中共有 216种重复基元 (motif)。
38
© 1994-2011 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
生物技术通报 B iotechnology B u lle tin 2009年第 7期
根据 W eber[ 17 ]的分类标准可将 9 339个 EST2SSR分
成精密型 (perfect)、非精密型 ( imperfect)和复合型
( compound) 3种类型 ,其中精密型 SSR有 8 867个
(94195% ) ,非精密型 SSR有 306个 (3128% ) ,复合
型 SSR有 166个 (1178% )。在精密型 SSR中 ,三核
苷酸重复基元类型的 SSR出现频率最多 ,而在非精
密性 SSR中 ,以二核苷酸重复基元类型的 SSR出现
频率最多。在精密型和非精密型 SSR 中 ,单、二、
三、四、五和六碱基重复基元中出现频率最多的重复
基元分别是 (A /T) n, (AT/TA ) n, (AAG/TTC ) n,
(AGAA /TCTT) n , (AAAAT/TTTTA ) n和 (AAAAAT/
TTTTTA) n。它们在各自重复基元类型中的比例分
别是 89121% , 38103% , 11135% , 6131% , 4167%和
4144%。在所有类型的重复基元中 ,三核苷酸重复
基元出现的频率最高为 50134% ,其次分别为二、 单、四、六和五核苷酸重复基元。在复合型 SSR中 , 至少每一串联重复基元的长度大于 10 bp。根据串联重复基元的不同长度把SSR分成 11种类型 ,即 m1∶222 (两核苷酸和两核苷酸重复基元串联 ,依此类推 ) , m2∶223, m3∶323,m4∶422, m5∶522, m6∶324, m7∶623, m8∶424, m9∶122, m10∶626和 m11∶524。在烟草中出现频率最高的是 m3,即在复合型 SSR中出现频率最高的是三核苷酸串联三核苷酸的 SSR ,有 88个复合型 SSR是 m3型 ,频率为 53101% ;其次是 m1型 ,有 60个复合型 SSR为 m1型 ,频率为 39176%。在检测到的 216种 SSR 重复基元中 ,所占比例最高的是 A /T ( 14168% ) , 其次分别是 AT/TA(10149% ) 、AG/TC ( 9148% )、AAG/TTC ( 6185% )等。不同类型重复基元的 EST2SSR分布见图 1。
11 A /T; 21 AT/TA; 31 AG/TC; 41 AAG/TTC; 51 AGA /TCT; 61 CTT/GAA; 71 C /G; 81 CA /GT; 91 AC /TG;
101 AAC / TTG; 111 CTG/GAC; 121 CAA /GTT; 131 AAT/ TTA; 141频率小于 2100%的重复基元类型
图 1 基于重复基元类型的 EST2SSR分布
213 烟草 EST2SSR标记的多态性
利用随机抽取包含 SSR的 ESTs序列 ,设计 10
对引物 (表 2) ,对不同烟草品种进行多态性筛选 , 10
对 EST2SSR引物均能扩增出目标条带 (图 2) ,其中
有 1对引物在不同烟草品种中扩增出多态性 (图
3)。
表 2 10对烟草 EST2SSR引物信息
引物编号 重复基元 来源 EST编号 产物大小 ( bp) 引物序列 (5′→3′)
ES01 ( cccagt) 4 123225916 203 CATGAGGTGCAGCAGTCTACGCGTCTGTAAGCCCTGTATT
ES02 ( ct) 19 123225877 194 AGCTTCATTTTGCTGCTTCTGGCTTGGACCTGAGTTCTTA
ES03 ( ga) 16 123225720 188 CCACTAGGGTTAAGCTTCCACAGGATTCATAGCAACACCA
ES04 ( aca) 5 123225563 215 ACGACGACAACAACAACAACGACATTAGTGGAGGGTCAGG
ES05 ( aagag) 5 94325445 195 CACCATACCAGAGGGTTTTCGCCTCCTGTCAAGACAAAGT
ES06 ( gtatt) 5 123225429 174 TGCAGCAAATGTCCTAAATGGCCTCCTGTCAAGACAAAGT
ES07 ( tc) 13 + ( ca) 15 94325043 226 CACACACACACACACAGAGCGCTTCGCGTGAAGATAGAAT
ES08 ( tcgcag) 5 94324527 199 ACAATGCTGCTGATGAGAAATTGCTGAAGTTTGTTCCAGA
ES09 ( tccaac) 7 123225111 189 AACAGAAGTGTTCCGGTAGCAGTTGGAGTTGGAAGAGTCG
ES10 ( tgg) 7 94324021 209 GCCTTTTCTCGTTCAACAATGAGAAGAGACGGACCTTGAA
48
© 1994-2011 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
2009年第 7期 胡重怡等 :烟草 ESTs资源的 SSR信息分析
11DL2000 Marker; 21红花大金元 ; 31云烟 85;
41K326; 51NC82; 61心叶烟 ; 71L1xanthin
图 2 引物 ES01扩增的条带
11DL2000 Maker; 21红花大金元 ; 31云烟 85;
41K326; 51NC82; 61心叶烟 ; 71L1xanthin
图 3 引物 ES06在不同品种中的多态性
3 讨论
Morgante等 [ 18 ]研究指出 ,植物基因组中 SSR出
现的频率与该物种基因组大小和重复 DNA序列所
占的比例成负相关 ,而与基因组中转录部分的比例
和低拷贝序列出现的频率成显著正相关。一般来说
SSR出现频率是通过搜索数据库序列估计得出 ,但
是不同学者搜索的标准 (如 SSR 重复类型 , 长度
等 )、分析方法不尽相同、分析数据多少不一 ,因此
各自的结果有很大的不同。按照 Cardle[ 19 ]的统计
标准 ,在拟南芥的 EST序列中 ,平均每 1318 kb出现
1个 SSR,水稻中则为每 314 kb出现 1个。而 Mor2
gante等 [ 18 ]将 EST2SSR的统计标准定为 1~5碱基
重复至少 3次 ,总长度为 12个碱基 ,结果显示 ,在拟
南芥中每 211 kb就出现一个 SSR。Gao等 [ 20 ]将不
同重复基元的总长度定为 18 bp以上 ,得出水稻中
每 11181 kb出现 1个 SSR的结果。不同研究结果
的差异主要归因于发掘 EST2SSR时所采用的标准
不一样。2007年张俊娥针对当时公布的 133 523条
烟草 ESTs数据 ,通过 M ISA软件进行分析 ,用 Mor2
gante的方法 [ 18 ] ,以重复基元总长度定为 12 bp 以
上 ,共获得 81 757条 SSR序列 , SSR出现频率高达
61109% ,每 0192 kb出现 1个 SSR[ 23 ]。在本研究
中 ,主要采用了改进的 Cardle分类标准 [ 19 ] ,与 Car2
dle等人的分类标准相比 ,提高搜索单、四、五、六核
苷酸重复基元重复次数的标准 ,结果显示在烟草中
每 14121 kb的 ESTs出现 1个 SSR,频率为 4141% ,
所获得的 SSR位点更具有实用性。
虽然在不同作物的 EST2SSR序列分布特征研
究中 ,不同学者搜索 SSR采用的标准不同。但对大
部分植物的 EST2SSR序列综合调查 ,均表明重复基
元为三核苷酸的 EST2SSR出现频率最高 [ 19, 20 ] ,其次
为二核苷酸重复类型 [ 21, 22 ] ,本研究也表明在烟草
里 ,以三核苷酸出现频率最高 ,达到 50134% ,其次
为二核苷酸和单核苷酸 ,分别为 23100%、16148% ,
与张俊娥得出的六核苷酸重复类型最高有所偏差 ,
原因可能是所用分析软件和重复次数参数的设定不
同而导致的 [ 23 ]。在拟南芥 ESTs中 , AAG/TTC重复
基元在三核苷酸重复中所占比例最大 ,为 45% [ 19 ]。
而在大麦、玉米、高粱、水稻、小麦和黑麦中则以
CCG/GGC重复基元最丰富 , ATT/TAA重复基元最
少 [ 13, 21, 24 ]。在本研究中三核苷酸重复基元出现频
率最多依次是 AAG/TTC、ACA /TCT和 CTT/CAA,
ATT/TAA也为最少 ,估计 TAA编码终止子会影响
烟草蛋白合成。在小麦、水稻、玉米、大豆中二核苷
酸重复基元出现频率最多的是 AG/TC[ 13, 21, 24 ] ,而本
研究中二核苷酸重复以 AT/TA和 AG/TC两种重复
基元为主 ,两种重复基元所占比例相差不大。
烟草作为模式作物 ,在分子标记发展上却远落后
于其他作物。从 ESTs数据库中开发 SSR标记 ,成本相
对较低 ,并且 EST2SSR标记理论上可为功能基因提供
“绝对”的标记 ,直接用于功能基因的研究。现阶段烟
草 ESTs数量迅猛增加 ,为 EST2SSR标记的开发提供了
信息 , EST2SSR标记可有效应用于烟草遗传作图、资源
多样性、功能基因等育种研究。 (下转第 93页 )
58
© 1994-2011 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
2009年第 7期 马月萍等 :高盐沉淀 CTAB法提取温室菊花基因组 DNA
液均无色或略带黄色。而对于多酚含量不高的植
物 ,可用维生素 C替代β2Me。
参 考 文 献
1 Ma YP, Fang XH, Chen F, et al1 Plant Cell Rep, 2008, 27 ( 4) :
647~6541
2 Jaime A1B iotechnology Advances, 2003, 21: 715~7661
3 W ang W K, Dai SL, L i MX1 Cellular & Molecular B iology Letters,
2002, (7) : 911~9141
4 W ang W K, L i MX, Xu YX, Dai SL1 Forestry Study in China, 2003, 5 (2) : 30~3415 Dai SL, W ang W K, L i MX1 Journal of Integrative Plant B iology12005, 47 (7) : 783~79116 李辛雷 ,陈发棣 1植物学通报 , 2004, (21) 4: 392~40117 戴思兰 ,陈俊愉 ,高荣孚 ,等 1园艺学报 , 1996, 23 (2) : 169~17418 蒋细旺 ,包满珠 ,李智崎 ,等 1江汉大学学报 (自然科学版 ) ,2002, 19 (3) : 42~4419 Doyle JJ , Doyle JL1 Phytochem ical Bulletin, 1987, 19: 11~15110 彭锐 ,宋洪元 ,李泉森 ,等 1中国中药杂志 , 2003, 12: 1129~1131111 张海泉 1现代农业科技 , 2006, (13) : 82~841
(上接第 85页 )
致谢 :本研究部分工作在贵州大学贵州省农业生物工程
重点实验室完成 ,在此表示感谢。
参 考 文 献
1 汪安云 ,肖炳光 ,等 1中国烟草学报 , 2000, (4) : 7~111
2 王志德 ,牟建民 ,等 1中国烟草学报 , 2003, (4) : 20~251
3 N ishi T, Tajima T, et al1Theor App l Genet, 2003, (4) : 765~701
4 郭生云 ,何川生 ,等 1海南师范学院学报 , 2001, (2) : 10~131
5 何川生 ,何兴金 ,等 1植物学报 , 2001, 6: 610~6141
6 胡重怡 ,蔡刘体 ,等 1 安徽农业科学 , 2007, 5 ( 25 ) : 7871 ~
7872, 79111
7 杨本超 ,肖炳光 ,等 1遗传 , 2005, 27 (5) : 753~7581
8 PowellW,Machray GC, et al1Trends Plant Science, 1996, 1: 215~2221
9 Scott KD, Eggler P, et al1Theor App l Genet, 2000, 100: 723~7261
10 Cordeiro GM, Casu R, et al1 Plant Sci, 2001, 160: 1115~11231 11 Eujayl I, SorrellsME, et al1Theor Appl Genet, 2002, 104: 399~407112 Hackauf B , W ehling P1Plant B reed, 2002, 121: 17~25113 Thiel T, M ichalek W , et al1Theor App l Genet, 2003, 106: 411~422114 Peng JH, Nore L, et al1Genom ics, 2005, 5: 80~96115 Feingold S, L loyd J, et al1Theor App l Genet, 2005, 111: 456~466116 张志峰 ,史洪才 ,等 1生物技术 , 2005, 15 (3) : 51~53117 W eber JL1 Genom ics, 1990, 7: 524~530118 Morgante M, HanafeyM, et al1 Nat Genet, 2002, 30: 194~200119 Cardle L, Ratnsay L, et al1Genetics, 2000, 156: 847~854120 Gao LF, Tang J F, et al1 Mol B reed, 2003, 12: 245~261121 Kantety RV, La Rota M, et al1 Plant Mol B iol, 2002, 48 ( 5~6) :501~510122 Kota R,Varshney RK, et al1Hereditas, 2001, 135 (2~3) : 145~151123 张俊娥 ,李芬 ,等 1武汉植物学研究 , 2007, 25 (5) : 427~431124 Chin ECL1Genome, 1996, 39: 866~8731
中国典型半荒漠与荒漠区啮齿动物研究
武晓东 付和平 杨泽龙 著
97827203202328029 88. 00 2009年 6月出版
本书对我国典型半荒漠与荒漠生态系统中啮齿动物分类、啮齿动物地理分布、啮齿动物种群、群落及其在不同干扰和尺
度下的生态学、啮齿动物的危害与防治理论进行了系统的研究。研究方法方面 ,在传统的动物分类学、动物地理学和动物种
群和群落生态学的基础上 ,融合了景观生态学、恢复生态学、干扰生态学、保护生物学、遥感和地理信息系统等多个新兴学科
门类的基本原理和方法 ,着重强调在大尺度下对生态科学问题的综合思考。分析方法方面 ,既有传统线性方法 ,也应用了分
形分析、小波分析等非线性方法。
本书可供从事草业科学、动物生态学、野生动物管理学、保护生物学、植物保护学等专业领域的研究、教学、生产部门的科
技人员和相关专业的研究生参考。
欢迎各界人士邮购科学出版社各类图书 (免邮费 )
邮购地址 :北京东黄城根北街 16号 科学出版社 科学出版中心 生命科学分社
邮 编 : 100717 联系人 :周文宇 李韶文 联系电话 : 010 - 64031535, 64000849
更多精彩图书请登陆网站 http: / /www. lifescience. com. cn,欢迎致电索要书目
39
© 1994-2011 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net