采用MISA软件挖掘比较各1/4个454高通量测序反应获得的普通油茶、浙江红山茶和短柱茶EST序列及普通油茶基因组序列中的微卫星信息。结果显示: 3个种的EST序列微卫星出现频率大小相近,普通油茶EST序列的微卫星出现频率高于其基因组序列的; 在所有被检索序列的二至六碱基微卫星中,均以二碱基微卫星最多(>55%),并以(AG)n类型为主,但三碱基微卫星在所有EST序列中以(AAG)n类型最多,而在普通油茶基因组序列中则以(AAT)n最多; 除六碱基微卫星外,二至五碱基微卫星均表现为不同微卫星重复单元的丰度随着微卫星碱基长度增加而减少。在转录组序列中,除六碱基微卫星之外,不同微卫星单元重复数的变异与重复单元长度呈负相关,推测二碱基微卫星理论多态性最高,而五碱基微卫星理论多态性最低; 对在无冗余独立基因各区域中的微卫星进行统计,显示分布比例依次为3‘UTR >CDS>5‘UTR,在相同区域内比较,UTR区域中二碱基微卫星占总数量比例最大,CDS区域内三碱基微卫星的比例最高,此外5‘UTR区域的三碱基微卫星的分布比例均高于3‘UTR,初步推断5‘UTR区域的微卫星相对3‘UTR要保守些。
Abstract: By using 454 pyrosequencing, the simple sequence repeats (SSRs) from DNA sequences in three Camellia species, including C. oleifera, C. brevistyla and C. chekiangoleosa, were tapped with repeats of 2 to 6 bp by MISA. In all cases, the frequency of repeat motifs in the EST was similar, while the proportion in the EST of C. oleifera was higher than that of its genome. Comparisons of all SSRs, the dinucleotide repeat microsatellites (DNRs) were most dominant (>55%) and the most common DNRs was (AG)n. The most common trinucleotide repeat microsatellites (TNRs) was (AAG)n in EST, while the most common TNRs was (AAT)n in the genome of C. oleifera. Apart from the hexaucleotide repeat microsatellites (HXNRs), the abundance of the other four classes of microsatellites was negatively correlated with their repeat motif lengths. In the EST, apart from the HXNRs, diversification of microsatellite lengths (repeat number variation) was also negatively correlated with their repeat motif lengths, and we predicted that DNRs was the highest polymorphism and pentaucleotide repeat microsatellites (PTNRs) was the lowest. Subsequently, statistical analysis on SSRs within coding regions (CDS) and untranslated regions (UTR) in the Unigene showed that the ratio of motifs distribution was ranked as the following: 3‘UTR>CDS>5‘UTR. The DNRs were the dominant microsatellite in UTR, while the TNRs were dominant in CDS. The proportion of TNRs in the 5‘UTR was higher than that in the 3‘UTR, indicating that the SSRs in the 5‘UTR were more conservative.
全 文 :第 !" 卷 第 # 期
$ % & ’ 年 # 月
林 业 科 学
()*+,-*. (*/0.+ (*,*).+
0123!"!,13#
.456!$ % & ’
718" &%6&&9%9:;6&%%&<9!##6$%&’%#%9
收稿日期" $%&’ =%’ =& 修回日期" $%&’ =%! =$’$
基金项目" 国家自然科学基金项目%’&$>%!& # 江西省自然科学基金项目%$%%"fJ,%%!9& # 江西省科技支撑项目%$%&$$??@>%&$A& $
!徐立安为通讯作者$
基于 !A! 测序的油茶 g,.序列微卫星观察与分析!
温B强&!$B徐林初$B江香梅$B李B江$B顾胤聪&B徐立安&B黄敏仁&
%&3南京林业大学林木遗传与生物技术省部共建教育部重点实验室B南京 $&%%’9# $3江西省林业科学院B南昌 ’’%%’$&
摘B要! B采用 ]*(.软件挖掘比较各 &:! 个 !A! 高通量测序反应获得的普通油茶(浙江红山茶和短柱茶 +(-序
列及普通油茶基因组序列中的微卫星信息$ 结果显示" ’ 个种的 +(-序列微卫星出现频率大小相近!普通油茶
+(-序列的微卫星出现频率高于其基因组序列的# 在所有被检索序列的二至六碱基微卫星中!均以二碱基微卫星
最多% nAAc&!并以%.f& (类型为主!但三碱基微卫星在所有 +(-序列中以%..f& (类型最多!而在普通油茶基因
组序列中则以%..-& (最多# 除六碱基微卫星外!二至五碱基微卫星均表现为不同微卫星重复单元的丰度随着微卫
星碱基长度增加而减少$ 在转录组序列中!除六碱基微卫星之外!不同微卫星单元重复数的变异与重复单元长度
呈负相关!推测二碱基微卫星理论多态性最高!而五碱基微卫星理论多态性最低# 对在无冗余独立基因各区域中的
微卫星进行统计!显示分布比例依次为 ’si-C n)g( nAsi-C!在相同区域内比较!i-C区域中二碱基微卫星占总
数量比例最大!)g( 区域内三碱基微卫星的比例最高!此外 Asi-C区域的三碱基微卫星的分布比例均高于 ’si-C!
初步推断 Asi-C区域的微卫星相对 ’si-C要保守些$
关键词" B山茶属# !A! 高通量测序# 微卫星
中图分类号! (9!>BBB文献标识码! .BBB文章编号! &%%& =9!###$%&’$%# =%%!’ =%#
,&*V(> ".@;."K>-$-14!$7*1-"+(K$+(-4*1%RU;,(Z&(.7(-$.
4)5#0*) ,)(7$(-H-$.3 G8G P>*1-(Z&(.7$.3
KFL J8OL5&!$Bk4 /8LVN4$B 8^OL5k8OL5WF8$B/8^8OL5$Bf4 R8LV1L5&Bk4 /8pOL&BD4OL5]8LTFL&
%&3J$7K.L"+.-"+7"&>"+$1-]$($-*31.(/ ;*"-$39("#"%7"&5*(*1-+7"&’/23.-*"(B:.(<*(% >"+$1-+76(*)$+1*-7B:.(<*(% $&%%’9#
$3V*.(%@*>"+$1-+7N3./$,7B:.(39.(% ’’%%’$&
;<-+*"7+" B.YGETOVE" ?P4G8L5!A! UPT1GFu4FLV8L5! ENFG8WU2FGFu4FLVFTFUFOEG%((CG& ST1Wg,.GFu4FLVFG8L ENTFF
!.,$#*. GUFV8FG! 8LV2478L5!="#$*&$+.! !=L+$)*1-7#. OL7 !=39$C*.(%"#$"1.! XFTFEOUUF7 X8EN TFUFOEG1S$ E1> YU YP
]*(.6*L O2VOGFG! ENFSTFu4FLVP1STFUFOEW1E8SG8L ENF+(-XOGG8W82OT! XN82FENFUT1U1TE81L 8L ENF+(-1S!="#$*&$+.
XOGN85NFTENOL ENOE1S8EG5FL1WF6)1WUOT8G1LG1SO2((CG! ENF78L4V2F1E87FTFUFOEW8VT1GOEF28EFG%g,CG& XFTFW1GE
71W8LOLE% nAAc& OL7 ENFW1GEV1WW1L g,CGXOG%.f& (6-NFW1GEV1WW1L ET8L4V2F1E87FTFUFOEW8VT1GOEF28EFG
%-,CG& XOG%..f& ( 8L +(-! XN82FENFW1GEV1WW1L -,CGXOG%..-& ( 8L ENF5FL1WF1S!="#$*&$+.6.UOTEST1WENF
NFQO4V2F1E87FTFUFOEW8VT1GOEF28EFG%Dk,CG&! ENFOY4L7OLVF1SENF1ENFTS14TV2OGGFG1SW8VT1GOEF28EFGXOGLF5OE8ZF2P
V1TTF2OEF7 X8EN ENF8TTFUFOEW1E8S2FL5ENG6*L ENF+(-! OUOTEST1WENFDk,CG! 78ZFTG8S8VOE81L 1SW8VT1GOEF28EF2FL5ENG
%TFUFOEL4WYFTZOT8OE81L& XOGO2G1LF5OE8ZF2PV1TTF2OEF7 X8EN ENF8TTFUFOEW1E8S2FL5ENG! OL7 XFUTF78VEF7 ENOEg,CGXOG
ENFN85NFGEU12PW1TUN8GWOL7 UFLEO4V2F1E87FTFUFOEW8VT1GOEF28EFG%I-,CG& XOGENF21XFGE6(4YGFu4FLE2P! GEOE8GE8VO2
OLO2PG8G1L ((CGX8EN8L V178L5TF581LG%)g(& OL7 4LETOLG2OEF7 TF581LG%i-C& 8L ENFiL85FLFGN1XF7 ENOEENFTOE811S
W1E8SG78GET8Y4E81L XOGTOL‘F7 OGENFS121X8L5" ’si-Cn)g( nAsi-C6-NFg,CGXFTFENF71W8LOLEW8VT1GOEF28EF8L
i-C! XN82FENF-,CGXFTF71W8LOLE8L )g(6-NFUT1U1TE81L 1S-,CG8L ENFAsi-CXOGN85NFTENOL ENOE8L ENF’si-C!
8L78VOE8L5ENOEENF((CG8L ENFAsi-CXFTFW1TFV1LGFTZOE8ZF6
=(> ?1*@-" B!.,$#*.# !A! UPT1GFu4FLV8L5# W8VT1GOEF28EFG
BB山茶属%!.,$#*.&植物绝大部分都具有重要的
经济价值与观赏价值!其中重要的油用物种如油茶
%!.,$#*. "#$*&$+.&称之为.东方的橄榄树/而闻名于
世%MNOL5$-.#=! $%%#&$ 目前在生产上通称的油茶
林 业 科 学 !" 卷B
是指种子含油率较高(有栽培及食用价值的山茶属
多个种的总 称! 包括 如油茶( 浙江红山茶 %!=
39$C*.(%"#$"1.&(短柱茶 %!=L+$)*1-7#.&等$ 当前全
国油茶选育工作已进入新品种选育及种质创新阶段
%庄瑞林! $%&%&!从大量的油茶遗传资源中选育并
丰富油茶良种迫在眉睫!因而研究油茶遗传变异规
律(开展油茶分子标记辅助育种势在必行$
微卫星标记作为共显性分子标记!具有稳定(高
效的特点!正被广泛运用于林木遗传变异分析(遗传
连锁图谱构建以及遗传育种等研究中$ 该标记来源
于广泛散布于基因组中的较短重复单元组成的微卫
星序列!有研究认为这些序列是在基因组进化过程
中导致并维持数量性状变异的重要因素 %eOGN8$-
.#=! $%%>&!同时是基因组中变异率相对较高的一类
g,.序列%)NT8GE8OL! $%%%&$ 微卫星的密度与分布
特点在不同物种的整个基因组序列中呈现丰富多样
性%g8FT8L5FT$-.#=! $%%’&!其中分布于 g,.序列的
编码区域微卫星重复单位的类型及微卫星长度的变
异影响不同调节蛋白在翻译过程中的相互关系
%/4F$-.#=! &"#"&!甚至可能影响上游激活序列的
转录活力%]OTE8FLGGFL $-.#=! $%%&&$ 微卫星重复单
位的高度变异表现为微卫星数目的整倍性变异或重
复单元序列中的不完全相同序列 %f1X! $%%A&!从
而造成多个位点的多态性!使得利用微卫星开发的
((C%G8WU2FGFu4FLVFTFUFOE&标记具有较高的遗传多
态性$ 同时!从在植物组织中直接参与功能表达的
编码序列中开发的 ((C标记!与其他标记相比!可
更多地 将 标 记 与 表 型 相 关 联 %0OTGNLFP$-.#=!
$%%A&!势必包含更加丰富的生物学信息$
山茶属中茶%!=1*($(1*1&的 ((C分析报道较多
%金基强等! $%%9# (NOTWO$-.#=! $%%"&!而山茶属中
重要油用物种的 ((C分析仅见史洁等%$%&$&对浙江
红山茶基因组开展的 ((C研究$ 近年来!!A! 测序技
术引领的高通量测序为在大量 g,.序列基础上开展
多物种的微卫星比较分析乃至大量 ((C标记的开发
成为可能$ 基于前述!本研究在对普通油茶(浙江红
山茶(短柱茶 ’ 个典型油茶树种 !A! 高通量深度测序
获得的大量基因组与转录组序列的基础上!充分发掘
微卫星信息!分析比较油茶 g,.序列中微卫星重复
序列的组成与分布特征!为山茶属不同树种基因组的
分化提供重要参数!同时也为油茶多态性高的微卫星
标记的开发提供生物信息学参考$
&B材料与方法
CBCD基因组及转录组序列来源
普通油茶(浙江红山茶与短柱茶转录组序列及
普通油茶基因组序列来源于各 &:! 个 !A! f( @/k
高通量测序反应的结果$ 其中普通油茶花芽总基因
组经纯化后直接上机测序!测序得到的基因组序列
用 !A! 测序仪自带的 ,FXY2FT软件进行处理和拼
接# 其他转录组序列的获得及拼接处理参见陈英等
%$%&&&的报道$
CBADG8G 序列中微卫星的挖掘与统计
采用 ]*(.软件%-N8F2$-.#=! $%%’&对 !A! 序列
中的 $ h> 核苷酸重复类型 ((C进行检索!检索标
准同时包括精确型 % UFTSFVE&及复合型 %V1WU14L7&
((C重复单元 %KFYFT! &""% &!含二 % 78L4V2F1E87F
TFUFOEW8VT1GOEF28EFG!g,CG&(三 %ET8L4V2F1E87FTFUFOE
W8VT1GOEF28EFG! -,CG&( 四 % EFETOL4V2F1E87F TFUFOE
W8VT1GOEF28EFG! --,CG&( 五 % UFLEOL4V2F1E87FTFUFOE
W8VT1GOEF28EFG!I-,CG&和六核苷酸重复微卫星类型
%NFQOL4V2F1E87FTFUFOEW8VT1GOEF28EFG!Dk,CG& 的基
序%W1E8S&!检索标准依据 ?FT4YF等%$%%9&的方法!
最小长度为 YU!最小重复数分别为 "!>!A!A!
! 次$
+QVF2软件统计检索数据!包括微卫星各种重复
单元所占百分比含量(微卫星的平均跨度和发生频
率%含有微卫星的 g,.序列与分析的独立序列总
数之比&$ 在统计重复基序类型时!将基序的所有
可能的 _& 移码及其互补序列都视为同一个基序类
型$ 如对于二核苷酸重复基序 .)而言!.)b
).b-fbf-!将这 ! 种二核苷酸重复类型出现的
次数之和作为重复基序 .)出现的次数$ 按照这种
方法!二核苷酸重复基序只有 ! 种类型!三核苷酸重
复基序只有 &% 种类型% 4^T‘O$-.#=! &""A# )OT72F$-
.#=! $%%%&$
CBED/,’序列中不同长度微卫星的分布及变异
统计油茶 ’ 树种 +(-序列中长度% YU 的
((C!利用 +k)+/的作图功能对不同长度重复单元
构成的相同类型的微卫星分别绘制饼图!图中每一
扇区对应不同长度的微卫星及其在同类型微卫星中
的出现频率!扇区的多少反映了微卫星长度的变异
情况!扇区越多说明对应类型的微卫星获得或失去
重复单元的速率越快!因此对应类型的微卫星总体
上会有更高的多态性$
CBGD微卫星在 H.$3(.(上的分布
采用 +(-GVOL 软件%*GF28$-.#=! &"""&以拟南芥
%N+.L*/"O1*1-9.#*.(.&转录组数据库为参照+参数设
置插入与缺失%8L7F2&罚值为 &A,!获取 +(-序列的
)g( 区域!分析微卫星在无冗余独立基因% 4L85FLF&
序列的编码 %)g(&及非编码区域 %i-C&的分布规
!!
B第 # 期 温B强等" 基于 !A! 测序的油茶 g,.序列微卫星观察与分析
律!同 时 结 果 采 用 ,)?*的 [C@ @8L7FT软 件
%NEU"::XXX6LVY86L2W6L8N651Z:51TS:51TS6NEW2&进行
验证!数据结果采用 +QVF2软件进行统计并绘制饼
图$ 此外!以精确型 ]1E8S为检索标准!进一步统计编
码区域及非编码区域中 $ h> 核苷酸的组成情况$
$B结果与分析
ABCD油茶 G8G 序列微卫星分布的基本特征
经 ]*(.软件发掘 ! 种序列来源的微卫星 %表
&&$ 比较微卫星分布频率与跨度!转录组序列微卫
星发生频率依次为" 短柱茶%%3%A>& n浙江红山茶
%%3%AA& n普通油茶%%3%!9&!而普通油茶转录组序
列比其基因组序列具有较高相对含量的微卫星$ 在
所检索序列的所有微卫星重复单元中!二核苷酸均
为主要的重复类型!所占比例依次为普通油茶基因
组序列%>$3!%c& n短柱茶 +(-序列 %A#399c& n
浙江红山茶 +(-序列%AA3A’c& n普通油茶 +(-序
列%AA3!’c 除六核苷酸重复单元外!其他 ! 种核
苷酸重复单元表现为重复单元的碱基长度与不同类
型重复单元的丰度呈负相关# 在所检测重复单元类
型中!转录组序列中三(六核苷酸重复单元百分含量
明显高于普通油茶基因组序列中的$ 几种主要的核
苷酸重复单元占总量的百分含量见表 $$ 在二核苷
酸重复基序类型中!以 .f类型最多!而 )f重复仅
在普通油茶基因组序列及浙江红山茶转录组序列中
极少量出现# 而对于三核苷酸重复基序类型!在 ’
树种转录组序列中以 ..f类型最多!普通油茶基因
组序列中三核苷酸序列则以 ..-类型数量最多#
另外在所有序列中四核苷酸重复类型所占比例均表
现出 ...-类型含量最高$
表 CD油茶 E 树种 G8G 序列中微卫星的数量及发生频率!
’"<\CDU&%<(*".@@$-+*$<&+$1.14,,2-$.4)5#0*) G8G -(Z&(.7(-
特征 )NOTOVEFTG
序列来源 (Fu4FLVFTFG14TVF
转录组序列
-TOLGVT8UEGFu4FLVF
基因组序列
fFL1WFGFu4FLVF
普通油茶
!="#$*&$+.
浙江红山茶
!=39$C*.(%"#$"1.
短柱茶
!=L+$)*1-7#.
普通油茶
!="#$*&$+.
检测序列总数 -1EO2L4WYFT1SGFu4FLVFGFQOW8LF7 ’> ’’" !> $9" !% &># "# 9A>
检测序列总长度
-1EO2G8\FV1ZFTF7 YPFQOW8LF7 GFu4FLVFG:YU
&$ #>9 AA9 &9 %>A !9# &A "A9 "%$ ’% 99’ >&%
检测到的 ((CG总数量
-1EO2L4WYFT1S((CG87FLE8S8F7
& #&A $ 9’% $ !&& ’ $$"
复合型重复单元数量
,4WYFT1SV1WU14L7 W8VT1GOEF28EFG
#! &$9 & &$%
包含有微卫星重复单元的序列数量
,4WYFT1S((C
总的微卫星序列发生频率 -1EO2TF2OE8ZFOY4L7OLVF %3%!9 %3%AA %3%A> %3%’&
微卫星序列平均跨度 .ZFTO5F78GEOLVF:YU 9 %#"3A> > $A&3%" > >'" " A’%3’#
二核苷酸重复 g8L4V2F1E87FTFUFOE & %%>%AA3!’& & A&>%AA3A’& & !&9%A#399& $ %&A%>$3!%&
三核苷酸重复 -T8L4V2F1E87FTFUFOE !#!%$>3>9& 9$9%$>3>’& >’%%$>3&’& A">%!>&
四核苷酸重复 -FETOL4V2F1E87FTFUFOE &%’%A3>9& &’’%!3#9& &%$%!3$’& $>#%#3’%&
五核苷酸重复 IFLEOL4V2F1E87FTFUFOE ’’%&3#$& !>%&3>#& ’>%&3!"& 9#%$3!$&
六核苷酸重复 DFQOL4V2F1E87FTFUFOE "%&%3!&& ’%#%&&3$#& $$>%"3’9& &>’%A3%A&
BB" 括号前数值为各 ((C重复类型的数量!括号内数值为对应的百分比含量%c& $ -NFZO24F8L ST1LE1SUOTFLENFGFG8GENFL4WYFT1SFOVN ((C
EPUF! L4WYFTG8L UOTFLENFGFGGN1XUFTVFLEO5F1SE1EO2((CV1LEFLE%c&6
ABAD/,’序列中微卫星长度分布及变异分析
微卫星 g,.的多态性主要来源于串联数目的
不同!因而了解序列中不同长度微卫星的分布及
变化对于今后有针对性地开发高多态性的 ((C标
记意义重大$ 统计显示普通油茶(浙江红山茶(短
柱茶的 +(-序列所含微卫星长度上存在较为丰富
的变化!其中检索出来的重复基元序列长度大小
不等!普通油茶为 h9% 个碱基!浙江红山茶为
h9$ 个碱基!短柱茶为 h&9% 个碱基!其中
&9% 个碱基长度的微卫星仅出现了 & 次# ’ 树种微
卫星序列平均长度大致相同!依次分别为 $’3$9$!
$’3%A! 及 $’3&$’ 个碱基$ 此外!对 +(-序列所含
不同长度重复单元的微卫星的长度变异情况进行
了分析!结果%图 &&显示!’ 树种存在相似的规律!
即对于 $ hA 核苷酸重复单元!这些微卫星的长度
变异与对应的重复单元类型的碱基长度呈反比!
而六核苷酸重复单元则有别于前者!表现为相反
的趋势$
A!
林 业 科 学 !" 卷B
表 AD主要的核苷酸重复单元在 G 种序列中的百分比
’"<\AD2(K"+$V()(*7(.+"3(14,,2-$.4)5#0*) G8G -(Z&(.7(-
主要的重复单元类型
CFUFOEV1WU1G8E81L
在不同序列类型中所占百分比 CF2OE8ZFUFTVFLEO5F1S((CG%c&
普通油茶基因组
fFL1WF1S!="#$*&$+.
普通油茶 +(-
+(-1S!="#$*&$+.
浙江红山茶 +(-
+(-1S!=39$C*.(%"#$"1.
短柱茶 +(-
+(-1S!=L+$)*1-7#.
二核苷酸 g,CG
.) ’3"% ’3>! ’3>’ !3$9
.f ’$3$9 !!3’% !$3$9 !!39A
.- $>3&! 93!" "3>% "39A
)f %3%" % %3%! %
三核苷酸 -,CG
..) &3"# $3A’ $3!" $39!
..f ’3A" #3&% 93’’ >3AA
..- 93># !3&’ !3’> ’3#$
.)) &39’ !3$! !3’$ ’3"#
.)f %3’9 &39> &3’" &39%
.)- $3A& ’3>" !3#9 !3!!
.ff %3!> &3#9 &3A! $3!"
))f %3&$ %3’’ %3’’ %3!&
四核苷酸 --,CG
...) %3!> &3&% %3!! %3$"
...f %3!’ %39$ %3’’ %3’9
...- A3%A $3’& &3"! &39!
..)- %3$# %3A% %3!! %3!&
..)f %3%> %3%> %3%! %3&9
..ff %3%> %3%> %3&& %3$&
..f- &3%# %3’" %3AA %3!&
..-- %3$# %3%% %3%! %3%#
..)) %3%% %3&& %3&& %3%!
.))) %3%> %3%% %3%! %3%#
.))f %3%> %3%> %3&& %3%!
.)ff %3%’ %3%> %3%! %
.fff %3%" %3&& %3 %3%#
.ff- %3%% %3%% %3%% %
.-)) %3$$ %3&9 %3$$ %3$&
.-)f %3&$ %3%> %3$" %3%#
ABED微卫星在 H.$3(.(上的分布分析
油茶 ’ 树种 iL85FLF上的 ((C经 +(-GVOL 软件
检索确定其分区情况!数据利用 +QVF2软件绘制饼
图%图 $&!’ 树种中除浙江红山茶有 &>3#’c(短柱
茶有 &’3A$c(普通油茶有 &>3A$c的 ((C不能确定
其在 iL85FLF上的位置之外!其余的 ((C均能明确
其在 i-C区域或者 )g( 区上的分布!并具有较为
相似的分布规律$ 总水平上!’ 树种表现为分布于
i-C区域的 ((C所占比例均高于分布于 )g( 区域
的!而各分部区域比例总的表现为 ’si-Cn)g( n
Asi-C$
此外!排除未知及横跨在 i-C与 )g( 区域%文
中称之为兼有&的微卫星重复单元!以精确型 ]1E8S
为检索标准!进一步统计仅落在 )g( 及 i-C区域
中 $ h> 核苷酸重复单元的组成情况$ 图 ’ 显示 ’
树种不同长度重复单元的分布规律基本一致!在
i-C区域!重复单元主要以二核苷酸重复单元为
主!占分布其上的重复单元总数的 9%c以上!除六
碱基重复单元其他 A 种重复单元呈现依次减少的趋
势!同时!数据显示 ’ 树种分布于 Asi-C区域的三
碱基微卫星的比例均高于 ’si-C的# 而在 )g( 区
域!重复单元则以三核苷酸重复单元为主!占分布其
上重复单元总数的 A%c以上!其次为六核苷酸重复
单元!占总数的 $Ac以上$
’B讨论
EBCD总的微卫星重复类型分布特征
本研究 g,.序列来自山茶属分属油茶组(红山
茶组(短柱茶组的 ’ 个油用代表树种!同时在各 &:!
个 !A! 测序反应的结果中既包括了 ’ 树种的 +(-序
列!又具有普通油茶基因组序列!检索结果较能全面
地反映油茶 g,.序列中微卫星的分布特征$ 从
]*(.软件总的检索结果来看!所有序列中 ((C的
发生 频 率 在 %3%’& h%3%>9 之 间! 出 现 跨 度 在
>!
B第 # 期 温B强等" 基于 !A! 测序的油茶 g,.序列微卫星观察与分析
图 &B油茶 ’ 树种 +(-序列不同长度重复单元微卫星变异
@856&B/FL5EN 78ZFTG8S8VOE81L 1SENFW8VT1GOEF28EFG8L !A!<+(-GFu4FLVFG1S!.,$#*.
对频率#&c的微卫星进行了合并!每一扇区对应不同长度的微卫星!而该长度微卫星所占的比例用连线标注在对应的扇区一侧!除合
并的扇区之外!括号内为其对应的微卫星长度$ -NFW8VT1GOEF28EFGX8EN UFTVFLEO5F2FGGENOL # &c OTFV1WY8LF7 OL7 GN1XL 8L ENFY2OV‘
G28VF6-NFG28VFG8\FG8L FOVN U8FVNOTEOTFGVO2F7 OVV1T78L5E1ENFUFTVFLEO5F1SW8VT1GOEF28EFG8L 78SFTFLE2FL5ENG! L4WYFTG8L UOTFLENFGFGGN1X
ENF2FL5EN 1SENFW8VT1GOEF28EFFQVFUEENFY2OV‘ G28VF6
> $A&3%" h" A’%3’# YU 之 间! 约 小 于 eOLEFEP等
%$%%$&禾谷类作物 ((C发生频率%%3%9 h%3&%&!在
许玉兰等%$%&$&统计的近年来文献报道的 &’ 种林
木中 +(-序列的发生频率%%3%&A " h%3&!A "&范围
之内$ 短柱茶与浙江红山茶的微卫星频率与跨度较
为接近!均高于普通油茶基因组及转录组序列的观
测值!造成这一结果的主要原因可能在于前二者为
二倍体!而普通油茶为六倍体!多倍体植物核中存在
的重复基因及重复基因组使测序效率下降!同时多
倍体基因组重组过程中重复序列易出现基因入侵现
象%杨继! $%%&&!这也降低了重复序列的复杂性$
同时!油茶 !A! 序列检索显示!油茶 ’ 树种的 +(-序
列与普通油茶基因组序列相比!后者微卫星含量相
对最少!]1T5OLEF等%$%%$&和/OXG1L 等%$%%>&对基
9!
林 业 科 学 !" 卷B
图 $B油茶 ’ 树种转录组微卫星的分布区域
@856$B-NF78GET8Y4E81L 1S((C21V8ST1W’ GUFV8FG1S!.,$#*. 1L iL85FLFG
图 ’B油茶 ’ 树种不同长度微卫星在 iL85FLF上的分布
@856’Bg8GET8Y4E81L 1S78SFTFLEG8\FW1E8SGS1T
+(-<((C8L ENTFFGUFV8FG1S!.,$#*.
因组全序列的分析和比较发现拟南芥等植物的基因
组 g,.比 +(-中的微卫星分布密度要低!这与本
文的结果一致$ 在所观测的序列中微卫星重复单元
中二(三核苷酸重复单元居多!其中以二核苷酸重复
单元最为丰富!这与 eOLEFEP等%$%%$&(0OTGNLFP等
%$%%$&对禾谷类作物中的微卫星研究结果三核苷
酸类型最多不同$ 从近年来林木微卫星研究报道来
看!模式树种杨树%D"O2#21&基因组中三核苷酸重复
类型含量最多%/8$-.#=! $%%9&!但在其他树种如麻
疯树%V.-+"O9. 32+3.1& %RO7OZ$-.#=! $%&&&(橡胶树
%8$)$. L+.1*#*$(1*1&%@FL5$-.#=! $%%"&(银杏%]*(C%"
L*#"L.&%樊洪泓等! $%%"&(北美鹅掌楸% K*+*"/$(/+"(
-2#*O*&$+.&%胥猛等! $%%#&+(-序列中重复单元则是
以二核苷酸重复单元最多!可见油茶的这一特点非
特例现象$
此外!油茶 !A! 序列的二核苷酸重复单元类型
中均以%.f& (类型为最多!而%.)& (相对稀少!四核
苷酸以%...-& (类型最多!而检索到三核苷酸重复
类型 在 油 茶 ’ 树 种 的 +(-序 列 中 最 多 的 为
%..f& (!这与杨树(桉树%’23.#7O-21&+(-序列检索
结果一致%阎毛毛等! $%&&&!同时也与山茶属茶树
+(-序列中微卫星的分布特征 %金基强等! $%%9#
(NOTWO$-.#=! $%%"&相一致$ /8等%$%%!&认为 ..f
重复是植物微卫星中最主要的三核苷酸重复单元!
但本研究检索到三核苷酸重复类型在普通油茶基因
组序列中则以 %..-& (最多!而史洁等%$%&$&检索
基因覆盖度在 &%c的浙江红山茶基因组序列微卫
星分布中三核苷酸重复类型也以%..-& (最多!初步
推断这是山茶属树种基因组序列微卫星有别于其
+(-序列的主要特点$ 另外!]1T5OLEF等%$%%$&研
究了单子叶植物中的%)f& (重复单元!认为这些基
序增加了微卫星序列中 f)含量的同时也可能是某
#!
B第 # 期 温B强等" 基于 !A! 测序的油茶 g,.序列微卫星观察与分析
些特定的氨基酸序列# /8等 %$%%9&在对杨树基因
组微卫星的研究中也提到!((C序列中的 f)含量
显著相关于微卫星的功能$ 本研究中普通油茶基因
组序列与浙江红山茶转录组序列中也同样包含极个
别的%)f& (重复单元!而在三核苷酸重复中也存在
少量的%))f& (类型!这些序列是否与某些特定功能
相关有待今后进一步研究$
EBAD微卫星长度变异及在 H.$3(.(的分布
((C虽然是一些简单序列的重复!但它却有着
复杂的进化机制%+2F5TFL! $%%!&$ 在对 ((C的研
究中!提出了很多解释 ((C进化或突变的模型!但
这些模型都具有一定的局限性!不能完全解释 ((C
的特征$ 从油茶 ’ 树种 +(-序列检索的微卫星长
度的分布来看!长度% YU 的微卫星其序列长短
不一!但平均值均在 $’ YU 左右!显示短序列的重复
单元占多数且相对集中!而长序列则分散而稀疏$
由于微卫星序列越长!其稳定性越差!尤其在基因
区!微卫星序列越长则基因越不稳定 %李淑娴等!
$%&%&$ 根据这一分析! 判断油茶表达基因所含的
微卫星可能会受到强烈趋同选择的压力!从而使这
些重复序列向较短的序列进化$ 另外!微卫星重复
单元长度的变化情况可以反映微卫星位点获得%或
失去&重复单元的活跃程度$ 本研究通过对 +(-不
同长度重复单元的微卫星长度进行分析!结果显示
除六核苷酸重复微卫星之外!这些微卫星的长度变
异与所含重复单元的长度变化呈反比$ 故总体而
言! 除六核苷酸微卫星外!五核苷酸重复微卫星理
论多态性最低!而二核苷酸重复微卫星理论多态性
最高$
目前的研究已经表明!((C偏向分布于转录区!
其在转录区的分布密度要比非转录区高得多!即使
在转录区 ((C的分布也不是均匀的随机分布!其在
i-C的密度要显著高于 )g( 区 %/8$-.#=! $%%$ &$
本研究中转录组的微卫星无论是频度还是跨度均高
于基因组区域!也显示 ((C共同的分布规律$ ((C
位点在 iL85FLF的位置会决定或者影响到其功能和
变异$ 通常位于 )g( 区的 ((C!当其长度发生变异
时会影响到蛋白质的翻译!甚至产生新的表型性状!
这使得位于 )g( 区的 ((C比位于 i-C区的 ((C面
临着更大的选择压力%/8$-.#=! $%%!&!而油茶 +(-
序列的 ((C位点!位于 )g( 区的数量要少于 i-C
区总的数量!这与前述事实相符$ 此外!对 iL85FLF
上的精确型不同类型重复单元在各自分布区域的分
布含量进行统计的结果显示!i-C区域的二核苷酸
重复单元数量占相当高比例!而 )g( 区域内三核苷
酸重复单元的比例远远高于其他重复单元类型!这
一结果与 ]1T5OLEF等%$%%$&和 /8等%$%%!&的研究
结果一致$ 另外!本研究中油茶 ’ 树种 Asi-C区域
的三核苷酸微卫星的分布均高于 ’si-C!这一结果
与拟南芥的相关研究 %]1T5OLEF$-.#=! $%%$&一致$
部分 Asi-C区域内的某些 ((C发生变异时!该特定
变异区域会通过影响转录和翻译来调控基因的表
达!即在基因表达过程中起到一定的辅助作用
%eO28O$-.#=! $%&&&!而基因内的 ((C比基因组其他
区域的 ((C面临着更大的选择压力!因而可以预计
Asi-C区域的 ((C相对 ’si-C要保守些$
参 考 文 献
陈B英!江香梅!张B露! 等6$%&&6基于油茶 A9 万条 +(-序列的转
录组学研究6林业科学! !9%$& " &>& =&>’6
樊洪泓!李廷春!李正鹏!等6$%%"6银杏 +(-序列中微卫星的分布特
征6基因组学与应用生物学! $#%A& " #>" =#9’6
金基强! 崔海瑞! 龚晓春! 等6$%%96用 +(-<((C标记对茶树种质资
源的研究6遗传! $"%&& " &%’ =&%#6
李淑娴! 张新叶! 王英亚! 等6$%&%6桉树 +(-序列中微卫星含量及
相关特征6植物学报! !A %’& " ’>’ =’9&6
史B洁!尹佟明!管宏伟!等6$%&$6油茶基因组微卫星特征分析6南京
林业大学学报"自然科学版! ’>%$& " !9 =A&6
许玉兰!蔡年辉!康向阳!等6$%&$6+(-<((C标记的开发及其在木本
植物中的分布特点6中国农学通报!$#%!& " & =96
胥B猛! 李火根6$%%#6鹅掌楸 +(-<((C引物开发及通用性分析6分
子植物育种! >%’& " >&A =>
阎毛毛! 戴晓港! 李淑娴! 等6$%&&6松树(杨树及桉树表达基因序
列微 卫 星 比 对 分 析6 基 因 组 学 与 应 用 生 物 学! ’%
%&& " &%’ =&%"6
杨B继6$%%&6植物多倍体基因组的形成与进化6植物分类学报! ’"
%!& " ’A9 =’9&6
庄瑞林6$%&%6我国油茶育种选育工作的历史回顾与展望6林业科
技开发! $!%>& " & =A6
?FT4YFR! MN4OL5 !^ C4L58Gg! $-.#=$%%96)NOTOVEFT8\OE81L 1S+(-<
((CG8L 21Y212PU8LFOL7 GUT4VF6-TFFfFLFE8VGzfFL1WFG! ’%’& "
$A& =$A"6
)OT72F/! COWGOP/! ]82Y14TLFg! $-.#=$%%%6)1WU4EOE81LO2OL7
FQUFT8WFLEO2VNOTOVEFT8\OE81L 1SUNPG8VO2PV24GEFTF7 G8WU2FGFu4FLVF
TFUFOEG8L U2OLEG6fFLFE8VG! &A>%$& " #!9 =#A!6
)NT8GE8OL (6 $%%%6 +Z124E81LOTP 7PLOW8VG1SW8VT1GOEF28EF g,.6
)NT1W1G1WO! &%"%>& " ’>A =’9&6
g8FT8L5FTg! (VN2{EFTFT)6$%%’6-X178GE8LVEW17FG1SW8VT1GOEF28EF
W4EOE81L UT1VFGGFG" FZ87FLVFST1WENFV1WU2FEF5FL1W8VGFu4FLVFG
1SL8LFGUFV8FG6fFL1WFCFGFOTVN! &’%&%& " $$!$ =$$A&6
+2F5TFL D6$%%!6 ]8VT1GOEF28EFG" G8WU2FGFu4FLVFGX8EN V1WU2FQ
FZ124E81L6,OE4TFCFZ8FXGfFLFE8VG! A %>& " !’A =!!A6
@FL5( I! /8K f! D4OL5D(! $-.#=$%%"6gFZF21UWFLE! OUU28VOE81L
OL7 VT1GG
"96
"!
林 业 科 学 !" 卷B
f1X^/6$%%A6. N85N 8LV87FLVF1SV24GEFTF7 W8VT1GOEF28EFW4EOE81LG
TFZFO2F7 YPUOTFLE<1SGUT8L5OLO2PG8G8L ENF.ST8VOL STFGNXOEFTGLO82
?428L4G S1TG‘O28 % ].1-+"O"/. O2#,"(.-. &6 fFLFE8VO! &$!
%&& " 99 =#’6
*GF28)! 1^L5FLFF2)0! ?4VNFTI6&"""6+(-(VOL" OUT15TOW S1T
7FEFVE8L5! FZO24OE8L5! OL7 TFV1LGET4VE8L5U1EFLE8O2V178L5TF581LG8L
+(-GFu4FLVFG6IT1VFF78L5G1SENF*LEFTLOE81LO2)1LSFTFLVF1L
*LEF285FLE(PGEFWG]12FV42OT?81215P! &’# =&!#6
4^T‘O !^ IFEN8PO517O)6&""A6(8WU2FTFUFE8E8ZFg,.GFu4FLVFST1W
UT8WOEFG" V1WU82OE81L OL7 OLO2PG8G6 1^4TLO21S]12FV42OT+Z124E81L!
!%%$& " &$% =&$>6
eO28OCe! CO8]e! eO28O(! $-.#=$%&&6]8VT1GOEF28EFWOT‘FTG" OL
1ZFTZ8FX 1SENF TFVFLE UT15TFGG 8L U2OLEG6 +4UNPE8VO! &99
%’& " ’%" =’’!6
eOLEFEPC0! /OC]! ]OENFXGg+! $-.#=$%%$6gOEOW8L8L5S1T
G8WU2FGFu4FLVFTFUFOEG8L FQUTFGGF7 GFu4FLVFEO5GST1W YOT2FP!
WO8\F! T8VF! G1T5N4W OL7 XNFOE6 I2OLE]12FV42OT?81215P!
!#%A :>& " A%& =A&%6
eOGN8R! e8L5gf6$%%>6(8WU2FGFu4FLVFTFUFOEGOGO7ZOLEO5F14G
W4EOE1TG8L FZ124E81L6-TFL7G8L fFLFE8VG! $$%A& " $A’ =$A"6
/OXG1L ] !^ MNOL5/6$%%>6g8GE8LVEUOEFTLG1S((C78GET8Y4E81L 8L ENF
N+.L*/"O1*1-9.#*.(. OL7 T8VF5FL1WFG6fFL1WF?81215P! 9 % $ & "
C&!B718" &%3&> :5Y<$%%><9<$
ENF5FL1WF1SD"O2#21" ENFS8TGEGFu4FLVF7 UFTFLL8O2U2OLE6(V8FLVF
8L )N8LO(FT8FG)" /8SF(V8FLVFG! A%%A& " >"% =>""6
/8R)! .YTONOW?! @ON8WOe-! $-.#=$%%!6]8VT1GOEF28EFGX8EN8L
5FLFG" GET4VE4TF! S4LVE81L! OL7 FZ124E81L6 ]12FV42OT?81215P
+Z124E81L! $&%>& " ""& =&%%96
/8R)! e1T12.?! @ON8WO-! $-.#=$%%$6]8VT1GOEF28EFG" 5FL1W8V
78GET8Y4E81L! U4EOE8ZFS4LVE81LGOL7 W4EOE81LO2WFVNOL8GWG" O
TFZ8FX6]12FV42OT+V1215P! &&%&$& " $!A’ =$!>A6
/4F,@! ?4VNWOL .C! e1TLYFT5Cg6&"#"6.VE8ZOE81L 1SPFOGEC,.
U12PWFTOGF**ETOLGVT8UE81L YPOENPW878LF
%$& " !#> =!"%6
]OTE8FLGGFL C .! )121E06$%%&6g,. WFENP2OE81L OL7 FU85FLFE8V
8LNFT8EOLVF8L U2OLEGOL7 S82OWFLE14GS4L586(V8FLVF! $"’ %AA$’& "
&%9% =&%9!6
]1T5OLEF]! DOLOSFP ]! I1XF2 K6 $%%$6 ]8VT1GOEF28EFG OTF
UTFSFTFLE8O2POGG1V8OEF7 X8EN L1LTFUFE8E8ZFg,.8L U2OLE5FL1WFG6
,OE4TFfFLFE8VG! ’%%$& " &"! =$%%6
(NOTWOC e! ?NOT7XO;I! ,F58C! $-.#= $%%"6 *7FLE8S8VOE81L!
VNOTOVEFT8\OE81L OL7 4E828\OE81L 1S4L85FLF 7FT8ZF7 W8VT1GOEF28EF
WOT‘FTG8L EFO%!.,$#*. 1*($(1*1/6&6?])I2OLE?81215P! "%&& "
A’6
-N8F2-! ]8VNO2F‘ K! 0OTGNLFPC e! $-.#=$%%’6+QU218E8L5+(-
7OEOYOGFGS1TENF 7FZF21UWFLE1SVg,. 7FT8ZF7 W8VT1GOEF28EF
WOT‘FTG8L YOT2FP%8"+/$2,)2#%.+$/6&6-NF1TFE8VO2OL7 .UU28F7
fFLFE8VG! &%>%’& " !&& =!$$6
0OTGNLFPCe! -N8F2-! (EF8L ,! $-.#=$%%$6*L G828V1OLO2PG8G1L
STFu4FLVPOL7 78GET8Y4E81L 1SW8VT1GOEF28EFG8L +(-G1SG1WFVFTFO2
GUFV8FG6)F2]12FV42OT?81215P/FEFT! 9%$.& " A’9 =A!>6
0OTGNLFPC e! fTOLFT.! (1TTF2G] +6$%%A6fFL8VW8VT1GOEF28EF
WOT‘FTG 8L U2OLEG" SFOE4TFG OL7 OUU28VOE81LG6 -TFL7G 8L
?81EFVNL1215P! $’%&& " !# =AA6
KFYFT^ /6&""%6*LS1TWOE8ZFLFGG1SN4WOL % 7)<7.& (0% 7f<7-& (
U12PW1TUN8GWG6fFL1W8VG! 9%!& " A$! =A’%6
RO7OZD e! COL;OL .! .G8S] D! $-.#=$%&&6+(-<7FT8ZF7 ((C
WOT‘FTG8L V.-+"O9. 32+3.1/6" 7FZF21UWFLE! VNOTOVEFT8\OE81L!
U12PW1TUN8GW! OL7 ETOLGSFTOY828EPOVT1GGENFGUFV8FG5FLFTO6-TFF
fFLFE8VGzfFL1WFG! 9%&& " $%9 =$&"6
MNOL5g/! (EOV‘ /! MNOL5CJ! $-.#=$%%#6-FO182VOWF28O’FOGEFTL
.128ZF/ S1TENFX1T276.VEOD1TE8V42E4TOF! 9>"" !’ =!#6
!责任编辑B徐B红"
%A