全 文 :HEREDITAS (Beijing) 2009年 2月, 31(2): 186―198
ISSN 0253-9772 www.chinagene.cn 研究报告
收稿日期: 2008−08−11; 修回日期: 2008−10−21
基金项目: 国家高技术研究发展计划(863 计划)项目(编号:2006AA02Z190)和上海市重点学科建设项目(编号:J50101)资助
作者简介: 张亮生(1983−), 男, 硕士研究生, 研究方向:基因家族进化和表达分析。Tel: 13585718642; E-mail: zls111@126.com
通讯作者: 王翼飞(1948−), 男, 教授, 博士生导师, 研究方向:生物信息学。Tel: 021-66134331; E-mail: yifei_wang@staff.shu.edu.cn
致 谢: 感谢张振国博士、雷栗博士对本文的修改意见
DOI: 10.3724/SP.J.1005.2009.00186
拟南芥和水稻 SET结构域基因家族全基因组鉴定、分
类和表达
张亮生 1, 马成荣 1, 3, 戢茜 2, 王翼飞 1
1. 上海大学数学系, 上海 200444;
2. 上海大学生命科学学院, 上海 200444;
3. 浙江工业职业技术学院数学系, 绍兴 312000
摘要: SET(Su(var), Enhancer of zeste (E(z)), and Trithorax)结构域基因家族是一组含有保守 SET结构域的蛋白的
统称, 它们参与蛋白甲基化, 影响染色体结构, 并且调控基因表达, 在植物发育中起着重要的作用。分析拟南芥
和水稻中 SET结构域基因家族进化关系, 对研究这一基因家族中各成员的功能有着重要的意义。我们系统地鉴
定了 47个拟南芥(Arabidopsis thaliana)和 43个水稻(Orysa sativa japonica cultivar Nipponbare)的 SET结构域基
因, 染色体定位和基因复制分析表明 SET结构域基因扩增是由片段复制和反转录引起的, 根据这些结构域差异
和系统发育分析把拟南芥和水稻的 SET 结构域基因划分成 5 个亚家族。通过分析 SET 结构域基因家族在拟南
芥和水稻各个发育阶段的表达谱, 发现 SET结构域基因绝大部分至少在一个组织中表达; 大部分在花和花粉中
高表达; 一些 SET结构域基因在某些组织中有特异的表达模式, 表明与组织发育有密切的关系。在拟南芥和水
稻中分别找到了 4个差异表达基因。拟南芥 4个差异基因都在花粉管高表达, 水稻 4个差异基因有 3个在雄性
花蕊中高表达, 另一个在幼穗中高表达。
关键词: 拟南芥; 水稻; SET结构域基因; 进化分析
Genome-wide identification, classification and expression analy-
ses of SET domain gene family in Arabidopsis and rice
ZHANG Liang-Sheng1, MA Cheng-Rong1, 3, JI Qian2, WANG Yi-Fei1
1. Department of Mathematics, Shanghai University, Shanghai 200444, China;
2. School of Life Sciences, Shanghai University, Shanghai 200444, China;
3. Department of Mathematics, Zhejiang Industry Polytechnic College, Shaoxing 312000, China
Abstract: SET(Su(var), Enhancer of zeste (E(z)), and Trithorax) domain protein family members share the conserved SET
domain. They participate in protein methylation, chromosome structure adjustment, and gene expression regulation, and
play important roles in plant development. In this study, bioinformatics analysis identified 47 and 43 SET domain genes in
Arabidopsis and rice, respectively. A comprehensive overview of this gene family was presented, including the gene struc-
ture, phylogeny, chromosome distribution, and conserved motifs. As a result, the SET domain genes were organized into 5
subfamilies on basis of phylogenetic relationship. Chromosome localization and gene duplication analysis showed that
第 2期 张亮生等: 拟南芥和水稻 SET结构域基因家族全基因组鉴定、分类和表达 187
segmental and retrotransposition-like event may result in the SET domain gene expansion. By analyzing the developmental
expression pattern of SET domain genes in Arabidopsis and rice, most of the SET domain genes were shown to be expressed
in at least one tissue with the most expression in flower and pollen. Some genes showed specific expression patterns in cer-
tain tissues at certain stages, suggesting that they were closely related to tissue development. Differentially expressed genes
were discovered in Arabidopsis and rice. All of the 4 differentially expressed genes in Arabidopsis were highly expressed in
mature pollen. Three of the 4 differentially expressed genes in rice were highly expressed in stamen and the remaining one
in young panicle.
Keywords: rice; Arabidopsis thaliana; SET domain gene; phylogenetic analysis
SET(Su(var), Enhancer of zeste (E(z)), and
Trithorax)结构域蛋白广泛分布于各个真核生物基因
组中, 最初在果蝇中发现[1], 在植物中含有 SET 结
构域蛋白明显多于动物。SET 结构域蛋白称为赖氨
酸转移酶, 与甲基化密切相关。SET结构域基因都含
有标志性的 SET 结构域, 该结构域由 120~150 个氨
基酸残基组成, 包括两个不连续的 N端(SET-N)和 C
端(SET-C), 有些 SET 结构域蛋白 N 端和 C 端中间
还插入序列 SET-I。SET-C 一般有个“假结”样结构,
形成假结结构非常保守[2]。SET 结构域蛋白可以特
异性的修饰组蛋白的不同位点, 这些位点由高度保
守的 SET结构域催化。SET结构域蛋白能使蛋白质
甲基化影响染色体的结构 , 调控基因的表达 , 故
SET蛋白表达失调, 会引起细胞恶性转化、增生, 导
致肿瘤的发生[3~5]。植物 SET 结构域基因功能复杂,
参与了染色体的浓缩和分离, 基因的转录调节, 以
及DNA的复制和修复等众多的细胞反应过程, 对植
物的发育起着重要的作用[6~8]。
在拟南芥中, Baumbusch 等[8]报道了 39 个 SET
结构域基因, 其中至少有 29 个是表达的, 根据与动
物 SET结构域基因的相似性把 SET结构域基因划分
成 4个亚家族。Springer等[7]鉴定了 32个拟南芥 SET
结构域基因和 22个小麦 SET结构域基因, 并根据系
统发育和结构域特征把 SET结构域基因划分为 5 个
亚家族, 并发现 SET 结构域基因在单子叶和双子叶
植物分化前已存在广泛复制现象。Ng等[6]根据 Pfam
和ChromDB注释, 推测至少在拟南芥中有 47个 SET
结构域基因, 水稻中有 37个 SET结构域基因, 小麦
中有 35个 SET结构域基因, 根据序列的同源性和系
统发育关系把这些 SET 结构域基因划分成 7 个亚
家族。
一些 SET结构域基因在植物发育过程中发挥重
要的作用[8], 比如拟南芥 CLF 影响花的形态和开花
时间[9], MEA与胚芽分化有关[10], ATX1影响开花期
器官的形成[11], SDG8/EFS抑制从营养生长到生殖生
长的转变[12, 13], SDG4促进花粉管发育的表观遗传调
节, 从而影响受精[14], SUVH2 过度表达会导致矮型
拟南芥。在烟草(Nicotiana tabacum L.)中过度表达
SET1 会抑制根和叶子的生长[15]。在水稻中 SET1 抑
制植株生长, 水稻 SET1基因在拟南芥中过度表达会
抑制植株生长[16]。
SET 结构域基因与染色体甲基化及植物发育有
密切关系, 拟南芥和水稻基因组测序已经完成, 系
统和全面地鉴定水稻和拟南芥 SET 结构域基因对研
究 SET 结构域基因在发育过程中调节作用和甲基化
有着重要的意义。利用现有的芯片数据对 SET 结构
域基因在各个发育阶段的表达分析 , 有利于揭示
SET 结构域基因在发育过程中的作用机制, 也有利
于对该基因家族进行深入的功能性研究。
1 材料和方法
1.1 SET 结构域基因家族成员识别, 保守结构域预
测和基因结构分析
Pfam 数据库中[17]标号为 PF00856 的结构域是
SET 结构域蛋白的特征结构域, 首先从 TIGR 水稻
数据库 (http://rice.plantbiology.msu.edu, The TIGR
Rice Database release 5.0) [18,19]和拟南芥信息资源数
据库 TAIR(http://www.arabidopsis.org, The Arabi-
dopsis Information Resource, release 7.0)[20]分别下载
了水稻和拟南芥全基因组序列。然后利用基于隐马
尔科夫模型的 HMMER 程序(版本 2.3.2)[21]来搜索
两种模式植物中的含有 SET结构域的候选序列。再
188 HEREDITAS (Beijing) 2009 第 31卷
利用 SMART[22, 23]在线工具分析结构域, 把没有显
示 SET 结构域蛋白除掉, 最后得到拟南芥和水稻的
SET 结构域基因, 并且得到 SET 结构域蛋白除了含
有 SET结构域的其他结构域。同时获得了这些基因
的染色体位置信息, 在染色体上具有相同位置的序
列只保留一条, 其余的从候选序列中删除, 以得到
非冗余的序列数据集。
在得到每个基因信息的同时得到了基因的
DNA 序列, 包括基因的 cDNA 序列, 再用在线工具
(http://gsds.cbi.pku.edu.cn/index.php)[24]得到基因结
构图。
1.2 多序列联配和构建系统发育树
利用 Clustal W[25]对预测出的 SET 蛋白序列集
进行多序列联配分析。以序列联配的结果为基础, 用
MEGA (版本 4.0)(http://www.megasoftware.net/)[26]程
序生成水稻和拟南芥中 SET结构域基因的系统进化
树。进化树生成采用邻接方法(N J method), 使用如
下参数 : Method:Poisson correction, Gaps: Pairwise
Deletion, Test of inferred phylogeny: Bootstrap, Rep-
lications: 1000, Random seed, 其他参数默认。
1.3 SET 结构域基因在染色体组上的定位和基因
复制
在对拟南芥和水稻 SET结构域基因序列去冗余
的过程中, 已经得到各 SET 结构域基因在染色体组
中的位置信息。再用 MapInspect(http://www.dpw.wau.
nl/pv/PUB/MapComp/)标出每个 SET 结构域基因在
染色体组上的位置, 从而得到各个 SET 结构域基因
在基因组中的分布状况。
基于 TIGR 数据库水稻和拟南芥基因组片段复
制信息 (http://www.tigr.org/tdb/e2k1/ath1/Arabidopsis_
genome_duplication.shtml, http://www.tigr.org/tdb/e2k1/
osa1/segmental_dup/index.shtml), 对拟南芥和水稻染
色体片段复制情况进行分析, 在染色体上标出了属
于片段复制的基因对。
1.4 SET结构域基因表达
从 TIGR 和 TAIR 上收集与拟南芥和水稻 SET
结构域基因匹配的 ESTs数据。对拟南芥 SET结构域
基因使用拟南芥发育芯片数据(http://jsp.Weigelworld.
org/expviz/expviz.jsp)[27], 总共有 79个器官生长和发
育阶段。对于水稻 SET 结构域基因使用水稻发育芯
片数据 CREP database (http://crep.ncpgr.cn/), 包括了
29个器官生长和发育阶段。对于与多个探针号对应
的基因取其平均值作为该基因的表达值。使用 K均
值聚类方法对这些基因表达值进行处理, 在聚类前
对这些表达值以 2 作为底数做标准化处理。鉴定差
异表达基因, 我们参考了 Jain 等[28]的方法, 即要求
目标基因在某个组织的表达值达到在其它组织的表
达值的两倍以上。
2 结果和分析
2.1 水稻, 拟南芥 SET结构域基因家族成员的确定
利用 HMMER程序在本地搜索水稻和拟南芥的
全基因组蛋白质序列 , 将得到的候选序列用
SMART 工具预测保守结构域, 把明显不含有 SET
保守结构域蛋白剔除。最后分别得到 47 条拟南芥
SET 结构域基因和 43 条水稻 SET 结构域基因, 以
SET 结构域基因在染色体上的位置顺序命名, 列于
表 1和表 2。
基于本研究中的全基因组 SET结构域基因家族
成员预测及综合序列分析、验证, 结合基因组的详
细注释, 以在这两个物种中得到的 SET 结构域基因
为代表, 来研究它们的进化关系以及表达调控。
2.2 水稻, 拟南芥 SET结构域基因家族成员的序列
和结构域分析
大部分 SET 结构域位于 SET 结构域蛋白末端,
少数位于 SET结构域蛋白的中部或前端。拟南芥和
水稻最长 SET结构域蛋白分别有 2 326和 1 292个
氨基酸残基, 最短的分别有 312和 230个氨基酸们
残基。
对 SET结构域蛋白结构域分析, 每个 SET结构
域蛋白除了含有 SET结构域, 还含有其他的结构域,
这些结构域分别是 : SRA(Pfam:YDG_SRA), Pre-
SET(Pfam:Pre-SET), PostSET, AT_hook, ZnF_C2H2,
AWS, Pfam: Zf-CW, PHD, PWWP(Pfam: PWWP),
FYRN, FYRRC, TUDOR, Pfam: SAND, SANT, Pfam:
CXC, TPR, Pfam: TPR_1, Pfam: TPR_2, Pfam: Rubis-
subs-bind。其中 ZnF_C2H2 和 Pfam: SAND 是拟南
芥 SET结构域基因特有的; TUDOR、Pfam: CXC和
TPR是水稻 SET结构域基因特有的, 如图 1。
第 2期 张亮生等: 拟南芥和水稻 SET结构域基因家族全基因组鉴定、分类和表达 189
表 1 拟南芥 SET 结构域基因信息
基因名称 蛋白质序列长度(aa) 基因座 其他名字 亚家族 内含子数目 EST 数目
AtSET01 572 AT1G01920 E 15 20
AtSET02 689 AT1G02580 FIS1, MEA D 15 0
AtSET03 630 AT1G04050 SUVR1 A 7 2
AtSET04 1 056 AT1G05830 C 22 16
AtSET05 482 AT1G14030 E 5 20
AtSET06 693 AT1G17770 SUVH7 A 0 2
AtSET07 476 AT1G24610 E 3 35
AtSET08 967 AT1G26760 E 1 33
AtSET09 669 AT1G73100 SUVH3 A 0 20
AtSET10 492 AT1G76710 ASHH1 B 8 18
AtSET11 1 763 AT1G77300 SDG8, EFS B 14 16
AtSET12 312 AT2G05900 A 0 1
AtSET13 480 AT2G17900 SDG37 E 13 5
AtSET14 543 AT2G18850 E 10 22
AtSET15 341 AT2G19640 ASHR2 E 1 16
AtSET16 790 AT2G22740 SUVH6 A 0 6
AtSET17 902 AT2G23380 ICU1, CLF D 16 13
AtSET18 1 375 AT2G23740 A 10 27
AtSET19 755 AT2G24740 SUVH8, SDG21 A 0 2
AtSET20 1 062 AT2G31650 ATX1 C 23 7
AtSET21 651 AT2G33290 SUVH2 A 0 2
AtSET22 794 AT2G35160 SUVH5 A 0 5
AtSET23 363 AT2G44150 ASHH3 B 10 27
AtSET24 338 AT3G03750 A 1 16
AtSET25 492 AT3G04380 SUVR4 A 7 0
AtSET26 504 AT3G07670 E 11 30
AtSET27 473 AT3G21820 ATXR2 E 13 15
AtSET28 463 AT3G55080 E 14 7
AtSET29 531 AT3G56570 E 3 2
AtSET30 352 AT3G59960 ASHH4 B 9 0
AtSET31 1 018 AT3G61740 C 19 12
AtSET32 856 AT4G02020 SWN, EZA1 D 16 10
AtSET33 650 AT4G13460 SUVH9 A 0 26
AtSET34 2 326 AT4G15180 E 19 15
AtSET35 483 AT4G20130 PTAC14 E 11 27
AtSET36 1 027 AT4G27910 C 21 7
AtSET37 497 AT4G30860 B 10 11
AtSET38 670 AT5G04940 SUVH1 A 0 9
AtSET39 325 AT5G06620 E 6 3
AtSET40 352 AT5G09790 ATXR5 C 4 6
AtSET41 624 AT5G13960 KYP, SUVH4 A 13 8
AtSET42 514 AT5G14260 E 10 93
AtSET43 491 AT5G17240 SDG40 E 5 8
AtSET44 349 AT5G24330 ATXR6 C 5 7
AtSET45 1 423 AT5G42400 B 16 6
AtSET46 717 AT5G43990 SUVR2 A 9 10
AtSET47 1 043 AT5G53430 SDG29 C 22 9
190 HEREDITAS (Beijing) 2009 第 31卷
表 2 水稻 SET 结构域基因信息
基因名称 蛋白质序列长度(aa) 基因座 亚家族 内含子数目 EST 数目
OsSET01 991 LOC_Os01g11952 C 22 11
OsSET02 1 015 LOC_Os01g46700 C 22 9
OsSET03 736 LOC_Os01g59620 A 0 26
OsSET04 495 LOC_Os01g65730 E 5 2
OsSET05 663 LOC_Os01g70220 A 13 10
OsSET06 385 LOC_Os01g73460 C 5 6
OsSET07 361 LOC_Os02g03030 C 3 1
OsSET08 711 LOC_Os02g34850 B 13 2
OsSET09 230 LOC_Os02g39800 B 6 0
OsSET10 741 LOC_Os02g40770 A 8 8
OsSET11 531 LOC_Os02g47900 A 6 10
OsSET12 502 LOC_Os02g49326 E 11 31
OsSET13 486 LOC_Os02g50100 E 4 25
OsSET14 536 LOC_Os03g07260 E 0 0
OsSET15 895 LOC_Os03g19480 D 16 18
OsSET16 534 LOC_Os03g20430 A 1 2
OsSET17 502 LOC_Os03g49730 E 13 14
OsSET18 518 LOC_Os04g34976 B 8 23
OsSET19 841 LOC_Os04g45990 A 0 3
OsSET20 517 LOC_Os04g53700 E 15 15
OsSET21 672 LOC_Os05g41172 A 0 120
OsSET22 470 LOC_Os05g50980 E 10 13
OsSET23 556 LOC_Os06g03676 E 15 4
OsSET24 896 LOC_Os06g16390 D 14 11
OsSET25 684 LOC_Os07g25450 A 0 35
OsSET26 479 LOC_Os07g28840 E 5 25
OsSET27 935 LOC_Os08g08210 E 15 38
OsSET28 392 LOC_Os08g10470 E 0 15
OsSET29 484 LOC_Os08g14660 E 8 0
OsSET30 1 292 LOC_Os08g30910 A 1 1
OsSET31 523 LOC_Os08g34370 B 11 0
OsSET32 594 LOC_Os08g45130 A 0 4
OsSET33 1 022 LOC_Os09g04890 C 23 34
OsSET34 394 LOC_Os09g13740 B 10 16
OsSET35 1 201 LOC_Os09g19830 A 1 12
OsSET36 495 LOC_Os09g24530 E 4 18
OsSET37 710 LOC_Os09g38440 C 12 23
OsSET38 298 LOC_Os10g27060 E 7 13
OsSET39 793 LOC_Os10g36250 E 14 28
OsSET40 633 LOC_Os11g03700 A 0 0
OsSET41 813 LOC_Os11g38900 A 3 30
OsSET42 509 LOC_Os12g13460 E 12 17
OsSET43 1 212 LOC_Os12g41900 B 16 23
第 2期 张亮生等: 拟南芥和水稻 SET结构域基因家族全基因组鉴定、分类和表达 191
图 1 拟南芥和水稻 SET 结构域基因的邻接法系统树
由 MEGA4.0 构建出的无根进化树, 是利用全长的拟南芥和水稻的 SET 结构域蛋白氨基酸序列的联配结果计算得到。进化树结果显示出 5 个
亚家族(A、B、C、D、E), 亚家族的划分根据进化关系和结构域分布。右边是每个亚家庭主要成员包含的结构域。
192 HEREDITAS (Beijing) 2009 第 31卷
2.3 拟南芥、水稻 SET 结构域基因家族系统发育
分析
基于联配好的蛋白序列, 利用 MEGA4 软件用
邻接法生成系统发育树(图 1), 其中包括 43 条水稻
和 47 条拟南芥 SET 结构域蛋白序列。根据系统发
育树和结构域保守特征把拟南芥和水稻 SET 结构域
基因划分为 A、B、C、D和 E 5个亚家族, 每个亚
家族都含有拟南芥和水稻成员。保守结构域分析显
示每个亚家族除了标志性的 SET 结构域外, 还含有
其他的标志性结构域。A 亚家族中其他保守的结构
域有 SRA、PreSET和 PostSET结构域; B亚家族中
其他保守的结构域有 AWS和 PostSET结构域; C亚
家族中其他结构域有 PHD和 PostSET标志性结构域,
D亚家族含有特有的标志性 SANT结构域, E亚家族
中一部分成员只含有 SET结构域, 但有 10个成员含
有 Pfam:Rubis-subs-bind结构域, 这个结构域是 E亚
家族特有的。C亚家族含有的其他结构域最多, 其中
除了 OsSET37只含有 3个结构域外, 其他 SET结构
域基因至少含有 5个结构域, 提示 C亚家族 SET 结
构域基因功能比较复杂。
2.4 拟南芥、水稻 SET结构域基因家族在染色体上
的分布及其复制情况
根据各个 SET 结构域基因家族成员的基因组位
置信息, 将这 90个 SET结构域基因在染色体上标示
出来(图 2)。从图中可以看出, 拟南芥和水稻的 SET
结构域基因在染色体上并非均匀分布, 某些区域的
分布密度很大, 比如, 拟南芥的 2 号染色体的下半
部聚集 10个基因, 1、5号染色体的上半部分分别聚
集 6、7个基因; 而 4号染色体总共也只分布 6个基
因。在水稻基因组中, 1、2号染色体分别有 7个 SET
结构域基因, 而 5、6、7、10、11、12 号染色体分
别只含有 2个 SET结构域基因。
利用 TIGR 上已有的染色体片段, 基因组区域
复制信息, 在拟南芥片段复制区域找到 6 对旁系同
源基因, 分别是 1号染色体上的 AtSET02、AtSET03、
AtSET04、AtSET06与 4号染色体上的 AtSET32, 5号
染色体上的 AtSET46, 2号染色体上的 AtSET20, 1号
染色体上的 AtSET09; 2号染色体上的 AtSET23与 3
号染色体上的 AtSET30; 4号染色体上的 AtSET36与
5号染色体上的 AtSET47。水稻中找到 6对旁系同源
基因, 分别是 OsSET03 与 OsSET16 和 OsSET21 与
OsSET40; OsSET16 与 OsSET21 与 OsSET40; Os-
SET30 与 OsSET35。这些同源对在图 2中用直线连
接, 它们序列同源性高, 且都分别处于已经发现的
染色体复制区段。
2.5 拟南芥和水稻 SET结构域基因家族表达分析
通过搜索 TIGR 水稻数据库和拟南芥信息资源
数据库 TAIR, 得到 SET 结构域基因的 ESTs 序列。
拟南芥中 AtSET02、AtSET25和 AtSET30没有匹配的
ESTs 序列, 其中 AtSET25 有 cDNA 与之匹配, 水稻
中 OsSET09、OsSET14、OsSET29、OsSET31 和
OsSET40没有匹配的 ESTs序列。约有 79%的拟南芥
SET 结构域基因有 5 条以上的 EST 记录, 水稻中约
有 70%的结构域基因有 5条以上的 EST记录。其中
的AtSET42匹配到 93条ESTs, AtSET12只有一条 EST
与之匹配; 水稻中的 OsSET21 匹配到 120 条 EST 序
列, 仅对应一条 EST的是 OsEST07和 OsSET30。
水稻各个组织中的 EST数据表明水稻 SET结构
域基因在各个组织中都有表达, 说明水稻 SET 结构
基因参与到比较广泛的生理过程。EST 表达数据组
织分布分析显示水稻 SET 结构基因在愈伤组织中表
达最丰富, 其次是在芽组织中, 这说明 SET 结构域
基因可能与发育有很密切的关系。
拟南芥和水稻中分别有 39个和 41个 SET结构
域基因对应上探针号, AtSET04、AtSET06、AtSET20、
AtSET25、AtSET27、AtSET29、AtSET30、AtSET39、
OsSET09和 OsSET18没有匹配的探针号。在拟南芥
和水稻中找到了 4 个差异表达基因 , 分别是
AtSET11、AtSET12、AtSET31、AtSET37、OsSET06、
OsSET16、OsSET35 和 OsSET36。它们的表达谱如
图 3 所示。拟南芥基因都是在花粉管这个组织中表
达量高, 而水稻中有 3 个基因在雄性花蕊中表达量
高, 一个基因在幼穗中表达量高。
另外用 K聚类方法对拟南芥和水稻 SET结构域
基因进行分析, K值选择 6, 根据芯片表达谱把拟南
芥和水稻 SET结构域基因分成 6类, 如图 4。在聚类
图中, 拟南芥 A 亚家族成员分布在 3 个子图中, 它
们在花粉管和种子中有较高的表达量, 在雌蕊、叶
中表达量急剧降低; 水稻 A 亚家族成员在雄性花蕊
表达量高。水稻和拟南芥 E 亚家族成员分成了两个
第 2期 张亮生等: 拟南芥和水稻 SET结构域基因家族全基因组鉴定、分类和表达 193
图 2 拟南芥和水稻 SET 结构域基因染色体定位及片段复制基因分布图
每个数字代表一个 SET结构域基因, 如表 1和表 2 所示, 染色体片段复制关系用直线连接表示。
表达模式, 对于拟南芥, 一部分成员在叶和植物体
所有组织中表达量高, 在顶端、花、种子中表达量
低, 这些成员含有 Pfam:Rubis-subs-bind 结构域; 另
外一部分成员表达模式与此几乎相反。在水稻中也
是如此, 含有 Pfam:Rubis-subs-bind结构域的成员在
叶子中表达量高, 在幼穗和胚乳中表达量低; 不含
有 Pfam: Rubis-subs-bind 结构域的大部分成员在幼
穗时期表达量高。B、C 和 D 亚家族成员大部分在
顶端, 幼穗和胚乳中表达量高, 而在叶子中表达量低。
在同一个子图中具有相似的表达谱, 不同子图的
拟南芥和水稻 SET结构域基因表达谱不同。总体来说,
拟南芥大部分 SET结构域基因在顶端有较高的表达量,
水稻 SET 结构域基因在幼穗中有较高的表达量, 可见
SET结构域基因在这些发育阶段有着重要的功能。
194 HEREDITAS (Beijing) 2009 第 31卷
图 3 拟南芥和水稻在器官生长和发育阶段中的差异表达基因
X轴表示器官生长和发育阶段, Y轴表示从芯片得到的原始表达值。
在某些发育阶段 SET 结构域基因呈现反向表达
趋势, 如在拟南芥中, 在顶端发育阶段大部分基因
是上调的, 但有部分基因是下调的, 如 AtSET05、
AtSET07、AtSET26、AtSET28、AtSET35和 AtSET42。
在水稻中也有这种现象, 水稻幼穗发育阶段大部分
基因是上调, 但是 OsSET12、OsSET13、OsSET22、
OsSET36和 OsSET42等基因却是下调的。这些拟南
芥和水稻 SET结构域基因都位于 E家族一超亚家族
分支中, 除了 AtSET28 和 AtSET35 它们共同含有另
外一个结构域 Pfam:Rubis-subs-bind, 其中 AtSET28
没有下调的现象, 如图 4所示。
在拟南芥中, AtSET11、AtSET12、AtSET31 和
AtSET37是差异表达基因。在聚类结果中 AtSET10、
AtSET11、AtSET31、AtSET36、AtSET37、AtSET40
和 AtSET47 被聚在一起, 它们有相似的表达模式,
在顶端有较高的表达量, 在花粉管中表达量达到最
高, 这些基因都位于 B、C亚家族中。除了 AtSET10
和 AtSET11外, 其他都含有 PHD结构域。在水稻中
也有类似现象 , OsSET33、OsSET40、OsSET06、
OsSET10、OsSET16、OsSET19 和 OsSET35 被聚在
一起, 包括了 4个差异表达基因中的 3个, 这些基因
在雄性花蕊中有较高的表达量。
第 2期 张亮生等: 拟南芥和水稻 SET结构域基因家族全基因组鉴定、分类和表达 195
图 4 拟南芥和水稻 SET 结构域基因的基因组芯片表达值 K 均值聚类结果图
X轴表示器官生长和发育阶段, 同图 3; Y轴表示以底数为 2 对芯片的原始表达值取值, 每个表达模式右方的数字表示是基因; A、B、 C、D、
E代表图 1 中的 5 个超亚家族。
196 HEREDITAS (Beijing) 2009 第 31卷
3 讨 论
3.1 拟南芥和水稻 SET结构域基因家族成员分析
本文全面和系统地鉴定出 47 个拟南芥和 43 个
水稻 SET 结构域基因, 这些基因都含有明显的 SET
结构域特征。预测 SET 结构域基因后 , 还使用
SMART 工具对每条 SET结构域蛋白序列进行检验,
其中 AT1G43245 和 LOC_Os01g56540 不含有 SET
结构域而被剔除。
拟南芥 SET 结构域基因有 4 个不含有内含子
(8.5%), 它们全部位于 A亚家族。水稻 SET 结构域基
因中有 4 个不含有内含子(9.3%), 其中 3 个位于 A 亚
家族, 1个位于 E亚家族。Jain等[29]预测拟南芥和水稻
分别有 5、846 (21.7%)和 11、109 (19.9%)个基因不含
有内含子, 而 SET结构域基因则低于这一水平。
3.2 SET结构域基因系统发育分析
把拟南芥和水稻 SET结构域基因划分为 A、B、
C、D和 E 5个亚家族, 每个亚家族都包含拟南芥和
水稻 SET 结构域基因, 大部分 SET 结构基因都有直
系同源 , 但在某些超亚家族中 , 拟南芥和水稻的
SET 结构域基因发生了分化, 这可能是单双子叶植
物分化后发生了基因丢失。如图 1 中的 A、B 和 C
超亚家族, A超亚家族中的 AtSET16和 AtSET22与水
稻同源的祖先基因在单双子叶分化后丢失了; B 超
亚家族中的 OsSET10与拟南芥同源的祖先基因在单
双子叶分化后丢失了, C 超亚家族中的 OsSET34 与
AtSET30 和 AtSET23 是直系同源基因, AtSET30 与
AtSET23位于片段复制区域。
SET 结构域基因家族划分为 5 个亚家族, 相应
的亚家族基因成员具有相似结构域, 但有些亚家族
基因成员却具有独特的结构域, 比如 B 亚家族中的
AtSET11和OsSET08含有独特的Pfam:zf-CW结构域,
而其他成员则不含有这个结构域。这说明这些基因
在复制以后, 结构域发生变化, 对基因产物的功能
产生影响, 逐渐形成一些特有的功能, 这对蛋白质
组多样性有重要意义。
3.3 SET结构域基因家族扩增及其多样性
基因复制主要有片段复制、随机复制和反转录,
使基因扩增。植物多倍化使基因组中保留了大量的
染色体片段, 因而由染色体片段复制造成的基因复
制在基因组中最为常见[30]。在拟南芥和水稻基因组
找到了至少 6 对片段复制现象, 分别位于 A、B、C
和 D 亚家族中。AtSET06与 AtSET09是一对片段复
制, 与它们旁系同源的还有 AtSET38、AtSET12 和
AtSET19, 其中 AtSET38、 AtSET12、 AtSET19 和
AtSET06 没有内含子 , 并且都位于一个分支内。
AtSET38、AtSET12和 AtSET19可能是由于反转录造
成的, 它们都位于 A 亚家族超亚家族中。很明显
AtSET06可能是在后来的进化过程中丢失了内含子。
水稻中 6 对复制都位于 A 亚家族, 5 对位于一
个超亚家族内。OsSET30与 OsSET35是处于片段复
制区域, OsSET30、OsSET35和 OsSET19是旁系同
源, 而 OsSET19不含有内含子, OsSET19可能是反
转录造成的。
90个 SET结构域基因在染色体中的相对位置都
比较远, 未发现随机复制现象, 因此 SET 结构域基
因扩增主要是由于基因片段复制和反转录。
3.4 SET结构域基因的功能与表达分析
基因的表达模式与其功能密切相关。已有研究
对拟南芥 SET 结构域家族基因表达进行了分析, 37
个基因中有 29个已有表达证据, 大部分在芽、花和
种子表达[8]。拟南芥和水稻分别有 44 和 39 个基因
有 EST表达数据, 大部分(93.62%, 90.70%)SET结构
域基因是表达的, 与之对应的 EST 数据变化范围很
大(1~90, 1~120), 表明 SET 结构域基因表达有很大
的差异性。
综合 SET 结构域基因芯片表达谱数据和
ESTs/cDNA, 拟南芥和水稻分别有 AtSET30 和
OsSET09没有表达数据。AtSET30 和 OsSET09位于
B亚家族同一分支内。
拟南芥和水稻中 SET 结构域基因发育表达数据
显示 SET 结构域基因至少在一个组织表达。拟南芥
差异表达基因都在成熟花粉管中表达量高, 特别是
AtSET37 在花粉管中表达量比它在其它组织中表达
量要高 4 倍以上, 其他 3 个差异表达基因也具有
AtSET37相似的表达谱, AtSET37(SDG4)[14]促进花粉
管发育的调节 , AtSET11(SDG8)与生殖有关系 , At-
SET12和 AtSET31极有可能促进花粉管发育的调节,
第 2期 张亮生等: 拟南芥和水稻 SET结构域基因家族全基因组鉴定、分类和表达 197
与生殖密切相关, 可能与减数分裂有关。水稻的雄
性花蕊表达芯片数据显示 4 个表达差异基因中有 3
个在雄性花蕊中表达量很高, 它们可能促进花粉管
的发育。AtSET37与 OsSET06具有相似的结构域, 它
们都含有一个 PHD结构域, 这两个基因可能具有相
似的功能。
AtSET11(SDG8)和 AtSET37(SDG4)与生殖有关,
与它们芯片表达谱相似的基因还有 AtSET10、
AtSET31、AtSET36、AtSET40和 AtSET47, 其中从它
们相似的表达谱推测这些基因与拟南芥生殖有密切
的关系。这些基因都位于 B、C亚家族中, 说明 B、
C 亚家族成员影响拟南芥的生殖。在水稻中与这些基
因对应的是 OsSET33、OsSET40、OsSET06、OsSET10、
OsSET16、OsSET19 和 OsSET35, 其中 OsSET06、
OsSET16、OsSET35是在雄性花蕊特异表达的, 它们可
能也与生殖有关, 有待进一步试验验证。
AtSET05、AtSET07、AtSET26、AtSET28、AtSET35
和 AtSET42 与 OsSET12、OsSET13、OsSET22、
OsSET36和 OsSET42位于 E亚家族同一分支内, 并
且在苗端和幼穗中下调, 而其他基因大部分是上调
的, 它们含有另外一个结构域 Pfam:Rubis-subs-bind,
从图 4 中可以发现这些基因的表达模式与其他 SET
结构域基因有明显不同, 推测可能是 Pfam: Rubis-
subs-bind 导致了这些 SET 结构域基因功能的改变,
Pfam: Rubis-subs-bind 结构域使 SET 结构域基因具
有特殊功能。其中只有 AtSET35(PTAC14)[31]对其功
能进行过研究, 它与染色质沉默有关系, 根据它们
的相似的表达模式, 推测这个超亚家族成员可能与
染色质沉默有密切关系, 但是 AtSET35不含有 Pfam:
Rubis-subs-bind结构域。
除了 E 亚家族部分成员, 拟南芥和水稻大部分
SET 结构域基因在芽, 花和种子高表达, 说明 SET
结构域基因在调节植物发育, 生长发挥重要作用。
本文结合拟南芥和水稻基因芯片表达谱和先前对拟
南芥一些 SET 结构域基因功能的研究对水稻和拟南
芥 SET结构域基因进行了综合的分析, 对 SET结构
域基因可能的功能进行预测, 为后续功能研究提供
有利的基础。
参考文献(References):
[1] Tschiersch B, Hofmann A, Krauss V, Dorn R, Korge G,
Reuter G. The protein encoded by the Drosophila posi-
tion-effect variegation suppressor gene Su(var)3-9 com-
bines domains of antagonistic regulators of homeotic gene
complexes. EMBO J, 1994, 13(16): 3822−3831.
[2] Tripoulas N, Lajeunesse D, Gildea J, Shearn A. The Dro-
sophila ash1 gene product, which is localized at specific
sites on polytene chromosomes, contains a SET domain
and a PHD finger. Genetics, 1996, 143(2): 913−928.
[3] 杜婷婷, 黄秋花. 组蛋白赖氨酸甲基化在表观遗传调控
中的作用. 遗传, 2007, 29(4): 387−392.
[4] 张丽丽, 吴建新. DNA 甲基化—— 肿瘤产生的一种表观
遗传学机制. 遗传, 2006, 28(7): 880−885.
[5] Schneider R, Bannister AJ, Kouzarides T. Unsafe SETs:
histone lysine methyltransferases and cancer. Trends Bio-
chem Sci, 2002, 27(8): 396−402.
[6] Ng DW, Wang T, Chandrasekharan MB, Aramayo R,
Kertbundit S, Hall TC. Plant SET domain-containing pro-
teins: structure, function and regulation. Biochim Biophys
Acta, 2007, 1769(5−6): 316−329.
[7] Springer NM, Napoli CA, Selinger DA, Pandey R, Cone
KC, Chandler VL, Kaeppler HF, Kaeppler SM. Compara-
tive analysis of SET domain proteins in maize and Arabi-
dopsis reveals multiple duplications preceding the diver-
gence of monocots and dicots. Plant Physiol, 2003, 132(2):
907−925.
[8] Baumbusch LO, Thorstensen T, Krauss V, Fischer A,
Naumann K, Assalkhou R, Schulz I, Reuter G, Aalen RB.
The Arabidopsis thaliana genome contains at least 29 ac-
tive genes encoding SET domain proteins that can be as-
signed to four evolutionarily conserved classes. Nucleic
Acids Res, 2001, 29(21): 4319−4333.
[9] Goodrich J, Puangsomlee P, Martin M, Long D, Mey-
erowitz EM, Coupland G. A polycomb-group gene regu-
lates homeotic gene expression in Arabidopsis. Nature,
1997, 386(6620): 44−51.
[10] Grossniklaus U, Vielle-Calzada JP, Hoeppner MA, Gagli-
ano WB. Maternal control of embryogenesis by MEDEA,
a polycomb group gene in Arabidopsis. Science, 1998,
280(5362): 446−450.
[11] Alvarez-Venegas R, Pien S, Sadder M, Witmer X, Gross-
niklaus U, Avramova Z. ATX-1, an Arabidopsis homolog
of trithorax, activates flower homeotic genes. Curr Biol,
2003, 13(8): 627−637.
[12] Zhao Z, Yu Y, Meyer D, Wu C, Shen WH. Prevention of
early flowering by expression of flowering locus C re-
198 HEREDITAS (Beijing) 2009 第 31卷
quires methylation of histone H3 K36. Nat Cell Biol, 2005,
7(12): 1256−1260.
[13] Kim SY, He Y, Jacob Y, Noh YS, Michaels S, Amasino R.
Establishment of the vernalization-responsive, win-
ter-annual habit in Arabidopsis requires a putative histone
H3 methyl transferase. Plant Cell, 2005, 17(12):
3301−3310.
[14] Cartagena JA, Matsunaga S, Seki M, Kurihara D, Yoko-
yama M, Shinozaki K, Fujimoto S, Azumi Y, Uchiyama S,
Fukui K. The Arabidopsis SDG4 contributes to the regula-
tion of pollen tube growth by methylation of histone H3
lysines 4 and 36 in mature pollen. Dev Biol, 2008, 315(2):
355−368.
[15] Shen WH, Meyer D. Ectopic expression of the NtSET1
histone methyltransferase inhibits cell expansion, and af-
fects cell division and differentiation in tobacco plants.
Plant Cell Physiol, 2004, 45(11): 1715−1719.
[16] Liang YK, Wang Y, Zhang Y, Li SG, Lu XC, Li H, Zou C,
Xu ZH, Bai SN. OsSET1, a novel SET-domain-containing
gene from rice. J Exp Bot, 2003, 54(389): 1995−1996.
[17] Finn RD, Mistry J, Schuster-Bockler B, Griffiths-Jones S,
Hollich V, Lassmann T, Moxon S, Marshall M, Khanna A,
Durbin R, Eddy SR, Sonnhammer EL, Bateman A. Pfam:
clans, web tools and services. Nucleic Acids Res, 2006, 34
(Database issue): D247−251.
[18] Ouyang S, Zhu W, Hamilton J, Lin H, Campbell M, Childs
K, Thibaud-Nissen F, Malek RL, Lee Y, Zheng L, Orvis J,
Haas B, Wortman J, Buell CR. The TIGR rice genome
annotation resource: improvements and new features. Nu-
cleic Acids Res, 2007, 35(Database issue): D883−887.
[19] Yuan Q, Ouyang S, Liu J, Suh B, Cheung F, Sultana R,
Lee D, Quackenbush J, Buell CR. The TIGR rice genome
annotation resource: annotating the rice genome and cre-
ating resources for plant biologists. Nucleic Acids Res,
2003, 31(1): 229−233.
[20] Huala E, Dickerman AW, Garcia-Hernandez M, Weems D,
Reiser L, Lafond F, Hanley D, Kiphart D, Zhuang M,
Huang W, Mueller LA, Bhattacharyya D, Bhaya D, Sobral
BW, Beavis W, Meinke DW, Town CD, Somerville C,
Rhee SY. The Arabidopsis information resource (TAIR): a
comprehensive database and web-based information re-
trieval, analysis, and visualization system for a model
plant. Nucleic Acids Res, 2001, 29(1): 102−105.
[21] Eddy SR. Profile hidden Markov models. Bioinformatics,
1998, 14(9): 755−763.
[22] Letunic I, Copley RR, Pils B, Pinkert S, Schultz J, Bork P.
SMART 5: domains in the context of genomes and net-
works. Nucleic Acids Res, 2006, 34 (Database issue):
D257−260.
[23] Schultz J, Milpetz F, Bork P, Ponting CP. SMART, a sim-
ple modular architecture research tool: identification of
signaling domains. Proc Natl Acad Sci USA, 1998, 95(11):
5857−5864.
[24] 郭安源 , 朱其慧 , 陈新 , 罗静初. GSDS: 基因结构显示
系统. 遗传, 2007, 29(8): 1023−1026.
[25] Larkin MA, Blackshields G, Brown NP, Chenna R, Mcget-
tigan PA, Mcwilliam H, Valentin F, Wallace IM, Wilm A,
Lopez R, Thompson JD, Gibson TJ, Higgins DG. Clustal
W and Clustal X version 2.0. Bioinformatics, 2007, 23(21):
2947−2948.
[26] Tamura K, Dudley J, Nei M, Kumar S. MEGA4: molecular
evolutionary genetics analysis (MEGA) software version
4.0. Mol Biol Evol, 2007, 24(8): 1596−1599.
[27] Schmid M, Davison TS, Henz SR, Pape UJ, Demar M,
Vingron M, Scholkopf B, Weigel D, Lohmann JU. A gene
expression map of Arabidopsis thaliana development. Nat
Genet, 2005, 37(5): 501−506.
[28] Jain M, Nijhawan A, Arora R, Agarwal P, Ray S, Sharma P,
Kapoor S, Tyagia K, Khurana JP. F-box proteins in rice.
Genome-wide analysis, classification, temporal and spatial
gene expression during panicle and seed development, and
regulation by light and abiotic stress. Plant Physiol, 2007,
143(4): 1467−1483.
[29] Jain M, Khurana P, Tyagi AK, Khurana JP. Genome-wide
analysis of intronless genes in rice and Arabidopsis. Funct
Integr Genomics, 2008, 8(1): 69−78.
[30] Adams KL, Wendel JF. Polyploidy and genome evolution
in plants. Curr Opin Plant Biol, 2005, 8(2): 135−141.
[31] Pfalz J, Liere K, Kandlbinder A, Dietz KJ, Oelmuller R.
pTAC2, -6, and -12 are components of the transcription-
ally active plastid chromosome that are required for plas-
tid gene expression. Plant Cell, 2006, 18(1): 176–197.