全 文 :云南农业大学学报 (自然科学),2016,31 (3) :450 - 461 http: / /xb. ynau. edu. cn
Journal of Yunnan Agricultural University (Natural Science) E-mail:xb@ ynau. edu. cn
收稿日期:2016 - 03 - 21 修回日期:2016 - 03 - 28 网络出版时间:2016 - 05 - 16 14:53
作者简介:田洋 (1982—),男,辽宁北镇人,博士,副教授,主要从事药用植物基因组解析研究。
E-mail:tianyang1208@ 163. com
* 通信作者Corresponding author:段胜常 (1989—),男,云南腾冲人,硕士,主要从事生物信息研究。
E-mail:duanshengchang@ 163. com
网络出版地址:http:/ /www. cnki. net /kcms /detail /53. 1044. S. 20160516. 1453. 013. html
DOI:10. 16211 / j. issn. 1004 - 390X(n). 2016. 03. 012
辣木转录因子家族初步鉴定与分析*
田 洋1,2,董 扬3,盛 军1,2,段胜常3**
(1. 吉林大学 生命科学学院,吉林 长春 130012;2. 云南农业大学,普洱茶学教育部重点实验室,云南 昆明 650201;
3. 昆明理工大学 生命科学与技术学院,云南 昆明 650500)
摘要:转录因子在转录水平上激活或抑制基因的表达,在植物生长发育、维持正常生理活动和响应内外部刺
激等方面具有重要作用。随着辣木基因组组装的完成,本研究通过生物信息学的方法,对辣木中转录因子家
族进行鉴定与初步分析,结果共筛选到 1 502 个转录因子,分属 86 个家族。同时以拟南芥为参照,鉴定了 43
个受正选择作用的转录因子,这些正选择基因涉及植物生长发育的各个时期,与植物抗病、环境胁迫密切相
关。对辣木 HSF蛋白研究表明大部分蛋白的 Hsf 结构域相对保守,与拟南芥 HSF 家族蛋白构建系统发育树,
发现辣木 Hsf基因的分类与进化在一定程度上具有相关性。研究结果将为辣木的生长发育及环境胁迫应答机
制提供分子基础。
关键词:转录因子;辣木;正选择;热激转录因子家族 (HSF)
中图分类号:S 794 文献标志码:A 文章编号:1004 - 390X (2016)03 - 0450 - 12
Preliminary Identification and Analysis of Transcription
Factor Families in Moringa oleifera Lam.
TIAN Yang1,2,DONG Yang3,SHENG Jun1,2,DUAN Shengchang3
(1. College of Life Sciences,Jilin University,Jilin 130012,China;
2. Key Laboratory of Puer Tea Science,Ministry of Education,Yunnan Agricultural University,Kunming 650201,China;
3. Faculty of Life Science and Technology,Kunming University of Science and Technology,Kunming 650500,China)
Abstract:Transcription factors play an important role in plant growth and development by means
of activating or inhibiting the expression of genes at the level of transcription,and maintain normal
physiological activity that response to the internal and external stimulus. Based on published ge-
nome analyses of the Moringa oleifera Lam. ,1 502 identified transcription factors of M. oleifera
in this study belong to 86 families,and 43 factors were under positive selection in comparison with
Arabidopsis thaliana. Plus,these genes involve in plant growth and development in different peri-
ods,and are closely related to plant disease resistance,environmental stress during these times.
Herein our results have shown the Hsf domain of most HSF proteins in M. oleifera is a highly con-
servative region,and the phylogeny of HSF proteins in A. thaliana and M. oleifera could demon-
strate its evolutionary history. These results could provide a solid foundation for responding to
stress of drought,high salt,high temperature,pathogen invasion,and the expression of growth-re-
lated gene at the molecular level.
Keywords:transcription factors;Moringa oleifera Lam.;positive selection;heat shock transcription
factors (HSF)
转录因子 (transcription factors,TFs),也称
为反式作用因子 (trans-acting factor),是指能够
与真核基因的顺式作用元件 (cis acting element)
发生特异性相互作用并对转录有激活或抑制作用
的 DNA结合蛋白[1]。植物转录因子的研究是目前
功能基因组学研究的一个重要方面,在模式植物
拟南芥基因组中,超过了 5%的基因为转录因子,
而在植物特异蛋白中,转录因子占到 13%。随着
越来越多的植物基因组测序的完成,相应的转录
因子家族的鉴定、进化及功能分析研究也取得重
要进展。VELASCO 等[2]鉴定了苹果中的转录因
子家族,与拟南芥、水稻、葡萄等对比发现在已
完成基因组测序的植物中苹果转录因子的数量是
比较高的。LIN 等[3]利用比较基因组的方法对比
研究玉米和粟中的转录因子家族,发现了许多新
的转录因子家族,并对其中 9 个新家族的进化与
功能进行研究,对现有的玉米及粟中转录因子家
族的研究进行了扩充。
目前各个模式生物都有相应的转录因子数据
库,并且存在许多综合性的数据库,但是由于依
据的鉴定及分类标准不同,各个数据库的结果存
在一定程度上的差异,给转录因子的比较分析带
来很大困难。比如拟南芥转录因子数据库参照标
准为 DAVULURI 等[4]和 PALANISWAMY 等[5]的
分类标准,而 PlnTFDB 则使用 PEREZ-RODRIGU-
EZ等[6]和 JIN等[7]的分类标准。随着研究的不断
深入,转录因子的分类与鉴定也随之变化。一些
转录因子中由于含有排除结构域 (forbidden do-
main)而不具有转录活性,即使含有该家族特征
的 DNA 结合结构域和辅助结构域 (auxiliary do-
main),这类蛋白也应从相应的家族中去掉。因
此,数据库的及时更新显得更具有参考意义,比
如新发现的转录因子如 FARl、LSD、NF-X1 和
STAT等已被添加到 PlnTFDB数据库。
辣木 (Moringa oleifera Lam.)为辣木科辣木
属多年生热带落叶乔木。M. oleifera Lam. 是主要
的栽培种,是辣木属的代表物种。由于其树木生长
迅速、生物量大,加之在特有的气候条件下,可以
四季采摘鲜叶,具备良好的经济价值,目前在全世
界范围内广泛种植。随着辣木基因组测序工作的完
成,对辣木转录因子家族进行鉴定分类,并进一步
分析辣木转录因子家族的结构与功能特征,对揭示
辣木迅速生长及进行育种改良具有特殊意义。本研
究采用 PlnTFDB 分类标准,对辣木的转录因子家
族进行分析鉴定。通过与拟南芥相比,筛选出辣木
中受到正选择的转录因子基因。同时,对辣木中的
热激转录因子 (heat stress transcription factor,HSF)
进行分析,以期为后续研究提供帮助。
1 材料与方法
1. 1 转录因子家族鉴定
使用 blastp工具将辣木全基因组蛋白序列[8]
与植物转录因子数据库 PlnTFDB 收录的所有转录
因子序列进行相似性比对,设置 e-value 参数为
10 -20,得到初步的辣木转录因子候选基因。通过
iTAK v1. 5 程序进一步对这些候选基因进行鉴定
和分类,得到最终的转录因子和转录调控因子基
因集。iTAK首先根据各转录因子家族的隐马尔可
夫模型进行检索,然后对鉴定的各个基序进行重
排,并依据 PlnTFDB的分类标准对候选蛋白进一
步鉴定并分类。番木瓜、葡萄、苹果、水稻和拟
南芥转录因子家族数据下载于 iTAK数据库。
1. 2 正选择基因筛选
首先使用 Blast工具对辣木及拟南芥转录因
子家族 CDS 序列进行互相比对,设置 e-value
为 10 - 5,筛选出比对结果最好的基因对。然后
用 Lastz再次进行比对,最后使用 KaKs_Calcu-
lator[9]计 算 非 同 义 替 换 值 (nonsynonymous,
K a)、同义替换 (synonymous,K s)值及其比
值 (K a /K s),筛选出 K a /K s > 1 的基因,这些
基因即为正选择基因。蛋白结构域预测使用在
线工具 SMART 来实现。
1. 3 HSF家族研究
使用 ProtParam 在线工具估算辣木 HSF 蛋白
的分子量及等电点。拟南芥 HSF 转录因子蛋白序
列通过 iTAK数据库下载,其中 A、B、C 三类分
类依据参考拟南芥数据库中转录因子家族的分类
结果 (https: / /www. arabidopsis. org / index. jsp)。
辣木及拟南芥 HSF 家族蛋白的多重比对采用 Bi-
oedit中的 ClustalW[10]程序来进行,比对结果使用
154第 3 期 田 洋,等:辣木转录因子家族初步鉴定与分析
MEGA[11]来构建系统发育树。发育树构建采用邻
接法 (Neighbor-Joining,NJ),校验参数 Bootstrap
重复 1 000 次。
2 结果与分析
2. 1 转录因子家族鉴定
通过鉴定和分类,从辣木中共筛选到 1 502个转
录因子,包含 1 229个通用转录因子 (表 1)和 273
个转录调节因子 (表 2),分属 62和 24个家族。
从预测结果来看,辣木基因组中转录因子数量
相对较少,与葡萄 (1 691)和番木瓜 (1 726)中
的数量比较接近。其中,数量较丰富的通用转录因
子家族为 bHLH (96)、C2H2 (90)、MYB-related
(83)、ERF (77)、HB (68)、NAC (62)、WRKY
(55),转录调节因子中 SNF2 (33)、PHD (32)、
SET (29)、GNAT (28)、mTERF (28)、AUX/
IAA (23)家族成员较多。在植物特有转录因子家
族中,B3、NAC、SBP、WRKY、C2C2-Dof、HSF、
TCP、ERF家族基因数量明显低于拟南芥、苹果、
水稻中的基因数目,而与葡萄和番木瓜相近,只有
GRAS家族基因数量比拟南芥稍多。作为植物最大
的转录因子家族,辣木中 MYB 家族成员也相对较
少。此外,在辣木中没有鉴定到 FAR1、NF-X1 和
MED6转录因子家族基因。
表 1 辣木通用转录因子家族
Tab. 1 Common transcription factors families in M. oleifera
转录因子家族
transcription
factors families
辣木
M. oleifera
番木瓜
Carica
papaya
葡萄
Vitis
vinifera
拟南芥
Arabidopsis
thaliana
苹果
Malus
domestica
亚洲稻
Oryza
sativa
转录因子家族
transcription
factors families
辣木
M. oleifera
番木瓜
Carica
papaya
葡萄
Vitis
vinifera
拟南芥
Arabidopsis
thaliana
苹果
Malus
domestica
亚洲稻
Oryza
sativa
AP2 15 12 15 18 31 20
ARF 18 10 17 37 30 48
ARR-B 9 8 11 17 15 8
Alfin-like 6 4 6 10 8 11
B3 28 34 29 78 78 65
BBR-BPC 5 3 5 17 7 7
BES1 7 6 6 14 29 6
BSD 1 1 1 2 2 1
C2C2-CO-like 6 3 3 18 14 11
C2C2-Dof 24 20 22 47 60 37
C2C2-GATA 24 23 19 41 36 32
C2C2-LSD 3 2 3 12 5 11
C2C2-YABBY 7 9 7 8 13 15
C2H2 90 86 79 125 194 157
C3H 49 39 50 78 136 85
CAMTA 4 2 4 10 10 7
CPP 6 4 6 9 15 20
CSD 2 3 2 4 8 2
DBB 2 7 6 9 8 5
DBP 2 1 4 2 5 6
E2F-DP 7 6 7 16 15 9
EIL 4 4 2 6 16 11
ERF 77 82 85 151 230 166
FAR1 0 19 18 26 70 6
G2-like 30 37 39 61 70 57
GRAS 41 42 43 37 127 69
GRF 10 7 8 9 12 19
GeBP 5 4 1 23 14 13
HB 68 57 73 118 160 133
HRT 1 2 1 2 2 1
HSF 18 18 19 25 48 38
LFY 1 1 1 1 3 2
LOB 34 35 44 50 80 39
M-type 17 233 18 74 92 37
MIKC 8 16 36 72 49 58
MYB 48 97 138 160 232 124
MYB-related 83 48 52 99 134 91
NAC 62 82 71 137 253 169
NF-X1 0 0 1 1 2 2
NF-YA 6 5 7 21 18 25
NF-YB 13 10 15 27 34 16
NF-YC 8 4 5 21 24 19
NOZZLE 2 1 1 1 1 0
OFP 14 10 8 17 34 31
Orphans 35 50 51 99 110 91
PLATZ 12 9 13 15 12 21
RAV 3 2 1 7 11 4
RWP-RK 8 5 8 17 17 15
S1Fa-like 1 1 2 4 4 2
SAP 1 1 1 1 4 0
SBP 16 11 19 30 42 29
SRS 6 4 5 16 9 6
STAT 1 1 1 4 1 1
TCP 19 22 15 33 59 22
TUB 8 6 13 19 10 28
Tify 10 12 15 27 30 23
Trihelix 30 26 23 31 63 35
ULT 1 3 1 3 7 2
VOZ 2 2 2 3 4 2
WRKY 55 49 59 90 139 120
Whirly 1 2 2 4 3 2
bHLH 96 84 102 189 190 181
bZIP 48 46 47 124 112 134
zf-HD 11 10 10 18 28 14
total 1 229 1 443 1 378 2 445 3 279 2 421
254 云南农业大学学报 第 31 卷
表 2 辣木转录调节因子家族
Tab. 2 Transcription regulatory factor families of M. oleifera
转录因子家族
transcription
factors families
辣木
M. oleifera
番木瓜
C. papaya
葡萄
V. vinifera
拟南芥
A.
thaliana
苹果
M. domestica
亚洲稻
O. sativa
转录因子家族
transcription
factors families
辣木
M. oleifera
番木瓜
C. papaya
葡萄
V. vinifera
拟南芥
A. thaliana
苹果
M. domestica
亚洲稻
O. sativa
ARID 8 8 10 13 24 13
AUX/IAA 23 26 26 40 52 61
Coactivator p15 2 3 2 7 5 3
DDT 3 7 4 6 7 10
GNAT 28 29 30 44 62 38
HMG 9 8 9 23 23 14
IWS1 7 7 11 12 13 21
Jumonji 13 16 17 22 26 16
LIM 9 8 10 21 23 16
LUG 4 5 3 9 6 12
MBF1 2 2 2 4 18 4
MED6 0 1 1 2 3 1
MED7 1 1 1 4 2 3
PHD 32 32 36 56 60 51
Pseudo ARR-B 6 4 4 7 8 14
RB 1 1 2 2 3 4
Rcd1-like 2 2 2 3 10 5
SET 29 25 39 55 60 46
SNF2 33 31 38 59 4 4
SOH1 1 1 1 2 0 3
SWI /SNF-BAF60b 10 11 15 19 26 10
SWI /SNF-SWI3 4 6 5 4 15 4
TAZ 3 6 3 11 11 12
TRAF 15 18 17 30 45 61
mTERF 28 25 25 40 62 39
total 273 283 313 495 568 465
2. 2 正选择基因
通过与拟南芥转录因子家族比对,以 Ka /Ks >
1 为条件,最终在辣木中筛选到 43 个正选择基
因,分属 15 个普通转录因子家族和 6 个转录调节
因子家族 (表 3)。转录调节因子家族 (6 /24)
所占比重稍大于普通转录因子家族 (15 /62),其
中 C2H2 (6)、 HB (4)、MYB-related (4)、
SNF2 (3)家族正选择基因数量相对较多。
由表 4 可知:这些辣木中受正选择的基因涉
及植物生长发育的各个时期,从分子水平调节到
器官发育相关的转录因子家族都有相关成员受到
正选择作用。
在当前研究中共筛选到 6个受正选择作用的辣
木 C2H2 转录因子 (表 5)。前 4个基因预测出的第
1个 C2H2 锌指都包含 23 个氨基酸,第 3 个锌指包
含 21个氨基酸,第 2个锌指分别包含 33、31 个氨
基酸,其余 2 个基因都只包含两个锌指结构。
lamu_GLEAN_10005673基因中的锌指分别包含 23、
21个氨基酸,与前述 4 个基因的第 1、3 锌指所含
氨基酸数目一致,而 lamu_ GLEAN_10003432 基因
的锌指数目具有差异 (分别为 21aa、34aa)。所有
基因预测的第 2、3锌指的 e-value偏大。
表 3 辣木正选择转录因子基因统计表
Tab. 3 Statistics of positively selected genes in M. oleifera
辣木基因 ID
M. oleifera gene ID
拟南芥基因 ID
A. thaliana gene ID
Ka Ks Ka /Ks P-value
lamu_GLEAN_10000923 AT4G15 180. 1 0. 422 619 0. 230 87 1. 830 55 7. 92E - 30
lamu_GLEAN_10002428 AT5G19 330. 1 0. 480 271 0. 202 461 2. 372 17 2. 73E - 15
lamu_GLEAN_10002852 AT1G76 880. 1 0. 805 451 0. 686 824 1. 172 72 0. 413 028
lamu_GLEAN_10003224 AT3G48 160. 1 0. 478 326 0. 259 513 1. 843 17 1. 18E - 06
lamu_GLEAN_10003432 AT3G57 670. 1 0. 416 051 0. 203 374 2. 045 75 3. 33E - 06
lamu_GLEAN_10004082 AT3G23 690. 1 0. 480 145 0. 226 803 2. 117 01 1. 61E - 06
lamu_GLEAN_10004652 AT2G47 850. 1 0. 310 376 0. 143 601 2. 161 38 2. 15E - 06
lamu_GLEAN_10005063 AT2G17 820. 1 0. 396 697 0. 129 843 3. 055 2 4. 48E - 30
lamu_GLEAN_10005064 AT5G49 620. 1 0. 514 798 0. 251 609 2. 046 02 0. 013 499
lamu_GLEAN_10005277 AT5G61 420. 1 0. 393 402 0. 364 633 1. 078 9 0. 797 333
lamu_GLEAN_10005647 AT3G56 660. 1 0. 421 25 0. 316 033 1. 332 93 0. 005 925
lamu_GLEAN_10005673 AT1G08 290. 1 0. 437 469 0. 107 358 4. 074 86 1. 25E - 08
lamu_GLEAN_10007065 AT3G12 680. 1 0. 358 166 0. 218 197 1. 641 48 0. 522 515
354第 3 期 田 洋,等:辣木转录因子家族初步鉴定与分析
表 3 (续)
辣木基因 ID
M. oleifera gene ID
拟南芥基因 ID
A. thaliana gene ID
Ka Ks Ka /Ks P-value
lamu_GLEAN_10007181 AT1G08 620. 1 0. 548 996 0. 271 343 2. 023 25 9. 50E - 12
lamu_GLEAN_10007413 AT5G65 670. 1 0. 465 966 0. 196 094 2. 376 23 2. 47E - 09
lamu_GLEAN_10008699 AT4G35 270. 1 0. 448 325 0. 201 768 2. 221 98 3. 68E - 18
lamu_GLEAN_10009618 AT1G51 220. 1 0. 439 947 0. 136 759 3. 216 96 8. 45E - 07
lamu_GLEAN_10009833 AT4G11 080. 1 0. 473 144 0. 099 15 4. 772 01 6. 80E - 19
lamu_GLEAN_10010176 AT4G26 640. 2 0. 419 508 0. 208 259 2. 014 35 3. 59E - 08
lamu_GLEAN_10010297 AT3G13 810. 1 0. 357 182 0. 304 933 1. 171 34 0. 184 163
lamu_GLEAN_10011840 AT2G41 070. 1 0. 563 583 0. 238 834 2. 359 73 0. 002 056
lamu_GLEAN_10012106 AT4G00 940. 1 0. 446 603 0. 066 754 6. 690 27 1. 29E - 05
lamu_GLEAN_10012793 AT2G16 280. 1 0. 451 431 0. 171 364 2. 634 34 4. 22E - 16
lamu_GLEAN_10013262 AT5G59 780. 1 0. 630 228 0. 194 09 3. 247 09 0. 006 029
lamu_GLEAN_10013655 AT2G23 760. 1 0. 349 48 0. 298 339 1. 171 42 0. 191 02
lamu_GLEAN_10014348 AT2G45 160. 1 0. 509 181 0. 315 685 1. 612 94 6. 45E - 08
lamu_GLEAN_10014506 AT3G57 670. 1 0. 404 635 0. 080 924 5. 000 17 2. 76E - 08
lamu_GLEAN_10014921 AT1G51 190. 1 0. 412 546 0. 073 08 5. 645 17 2. 87E - 13
lamu_GLEAN_10015212 AT3G53 680. 1 0. 457 664 0. 258 547 1. 770 14 1. 37E - 12
lamu_GLEAN_10015396 AT1G10 450. 1 0. 518 259 0. 238 19 2. 175 82 4. 04E - 05
lamu_GLEAN_10016224 AT1G64 620. 1 0. 368 306 0. 362 209 1. 016 83 0. 878 615
lamu_GLEAN_10016559 AT1G59 750. 1 0. 364 049 0. 162 445 2. 241 06 2. 96E - 12
lamu_GLEAN_10016931 AT5G25 220. 2 0. 332 672 0. 272 128 1. 222 48 0. 100 001
lamu_GLEAN_10016935 AT5G25 260. 1 0. 358 9 0. 267 168 1. 343 35 0. 011 165
lamu_GLEAN_10017121 AT1G52 150. 3 0. 394 194 0. 124 362 3. 169 73 3. 44E - 29
lamu_GLEAN_10017203 AT2G26 140. 1 0. 451 995 0. 052 144 8. 668 24 8. 42E - 46
lamu_GLEAN_10017705 AT3G20 910. 1 0. 341 512 0. 318 799 1. 071 25 0. 684 427
lamu_GLEAN_10017855 AT5G13 080. 1 0. 409 995 0. 168 199 2. 437 56 0. 002 689
lamu_GLEAN_10018588 AT3G15 540. 1 0. 620 551 0. 390 07 1. 590 87 0. 001 722
lamu_GLEAN_10018703 AT3G06 010. 1 0. 392 619 0. 156 089 2. 515 35 8. 18E - 28
lamu_GLEAN_10018815 AT3G06 400. 1 0. 261 248 0. 057 201 4. 567 23 1. 10E - 27
lamu_GLEAN_10019426 AT5G44 180. 2 0. 445 184 0. 393 72 1. 130 71 0. 048 038
lamu_GLEAN_10019453 AT1G03 750. 1 0. 365 113 0. 306 892 1. 189 71 0. 043 655
表 4 辣木正选择基因家族及其功能
Tab. 4 The positively selected gene families in M. oleifera and their functions
基因 ID gene ID 家族 families 功能 function
lamu_GLEAN_10004082
lamu_GLEAN_10000923
bHLH 花青素合成,光敏色素信号,球蛋白表达,果实开裂,心皮和表皮发育[12]
lamu_GLEAN_10014921 AP2 贯穿植物生命周期:如花特征决定,叶表皮细胞决定,环境胁迫等[13]
lamu_GLEAN_10016559 ARF 植物激素调节基因表达的主要响应基因[14]
lamu_GLEAN_10007413 AUX /IAA
短寿命的细胞核蛋白,原生质转染实验发现其抑制早期的植物激素响应基
因表达[15]
lamu_GLEAN_10018588
lamu_GLEAN_10005647
bZIP 病原菌防御,光和压力信号,种子成熟和花发育[16]
lamu_GLEAN_10011840
lamu_GLEAN_10012106
C2C2-Dof 植物生长发育的转录调控[17]
lamu_GLEAN_10016224
lamu_GLEAN_10003432
C2H2
功能广泛,从 DNA或 RNA结合到参与蛋白质相互作用,不仅具有转录调控
作用,还参与特异性位点修正、核染色质调控、RNA 代谢和其他细胞
功能[18]
454 云南农业大学学报 第 31 卷
表 4 (续)
基因 ID gene ID 家族 families 功能 function
lamu_GLEAN_10005673
lamu_GLEAN_10009618
lamu_GLEAN_10010297
lamu_GLEAN_10014506
lamu_GLEAN_10017203
lamu_GLEAN_10004652
C3H 参与重大的生物过程[19]
lamu_GLEAN_10007065
lamu_GLEAN_10003224
E2F-DP
细胞周期素代谢的关键组件,调节 G1 /S 转变和 S - phase 所需的基因
表达[20]
lamu_GLEAN_10014348 GRAS
在植物生长发育中具有不同作用,如赤霉素信号转导、辐射状根生成、分
生组织形成、植物色素 A信号转导、配子发育[21]
lamu_GLEAN_10013655 HB 参与细胞分化,控制细胞生长[22]
lamu_GLEAN_10016931
lamu_GLEAN_10017121
lamu_GLEAN_10019426
lamu_GLEAN_10009833
HMG 在发育过程中作为其他转录因子的协作蛋白完成其基本功能[23]
lamu_GLEAN_10007181 Jumonji 植物开花[24]
lamu_GLEAN_10005064 MYB-related 光敏色素调节[25]
lamu_GLEAN_10005277
lamu_GLEAN_10012793
lamu_GLEAN_10013262
lamu_GLEAN_10017705
NF-YA 生长发育,过表达导致生长迟缓和发育受阻[26]
lamu_GLEAN_10005063 Orphans 与环境压力响应、物种特性或调节方式相关[27]
lamu_GLEAN_10015396
lamu_GLEAN_10015212
PHD 染色质或转录控制[28]
lamu_GLEAN_10008699 RWP-RK 氮利用调节,配子体发育[29]
lamu_GLEAN_10016935 SET 组蛋白尾部赖氨酸残基甲基化[30]
lamu_GLEAN_10018703 SNF2 转录调节,染色体稳定性维持,DNA损伤修复[31]
lamu_GLEAN_10018815
lamu_GLEAN_10019453
lamu_GLEAN_10002428
TRAF 转录调节,细胞骨架动力,离子通道组装与通道控制,泛素化标靶蛋白[32]
lamu_GLEAN_10002852 Trihelix 果实 /种子发育[33]
lamu_GLEAN_10010176
lamu_GLEAN_10017855
WRKY 在发育、生物或非生物胁迫应答中具有重要作用[34]
对于锌指间距来说,前 4 个蛋白第 1、2 锌
指间距从 18 到 25 个氨基酸不等,第 2、3 锌指
间距很短,都只有 4 个氨基酸。而 lamu _
GLEAN_10005673 基因的 2 个锌指间距最长,
为 61 个氨基酸。 lamu_GLEAN_10003432 基因
的锌指间距最短,只有 5 个氨基酸。除基因
lamu _ GLEAN _ 10010297 的 K a /K s 值 较 小 外
(1. 171 34)(表 3) ,其他几个基因的 K a /K s 值
都相对较高,最高的 lamu _GLEAN_10017203
基因达到了 8. 668 24。
554第 3 期 田 洋,等:辣木转录因子家族初步鉴定与分析
表 5 辣木正选择 C2H2 蛋白结构域预测
Tab. 5 Domain prediction of zinc finger of positively selected C2H2 proteins in M. oleifera
基因 ID
gene ID
ZnF_C2H2 起止位点
zinc finger position
E-value
ZnF_C2H2 起止位点
zinc finger position
E-value
ZnF_C2H2 起止位点
zinc finger position
E-value
lamu_GLEAN_10009618 138 ~ 160 0. 066 7 186 ~ 218 220 223 ~ 243 51. 2
lamu_GLEAN_10014506 182 ~ 204 0. 108 229 ~ 261 161 266 ~ 286 30. 5
lamu_GLEAN_10010297 87 ~ 109 0. 014 5 128 ~ 158 178 163 ~ 183 127
lamu_GLEAN_10017203 88 ~ 110 0. 022 129 ~ 159 214 164 ~ 184 112
lamu_GLEAN_10005673 198 ~ 220 0. 498 282 ~ 302 42. 7
lamu_GLEAN_10003432 308 ~ 328 42. 7 334 ~ 357 106
2. 3 HSF家族研究
通过鉴定,在辣木中共获得 18 个 HSF 基因
(表 6),这些基因编码蛋白的氨基酸数目介于
233 (lamu_GLEAN_10002489)到 552 (lamu _
GLEAN_10017427)之间,理论等电点范围为
4. 7 (lamu_GLEAN_10002179)到 9. 62 (lamu_
GLEAN_10016253)。
表 6 辣木中的 HSF基因家族
Tab. 6 HSF gene family in M. oleifera
基因 ID
gene ID
氨基酸数目
number of
amino acid
分子量
molecular
weight
理论等
电点 pI
lamu_GLEAN_10001336 397 45 557. 9 5. 84
lamu_GLEAN_10002179 392 44 720. 2 4. 7
lamu_GLEAN_10002489 233 26 759. 2 8. 31
lamu_GLEAN_10004094 482 54 618. 5 6. 24
lamu_GLEAN_10005771 367 40 780. 1 8. 39
lamu_GLEAN_10006251 524 57 080. 6 4. 9
lamu_GLEAN_10007523 362 41 582. 6 5
lamu_GLEAN_10009994 317 34 983. 9 4. 81
lamu_GLEAN_10011019 307 35 142. 6 5. 79
lamu_GLEAN_10012018 481 53 440. 9 5. 52
lamu_GLEAN_10012296 320 35 479. 6 5. 14
lamu_GLEAN_10013583 291 32 104. 5 5. 55
lamu_GLEAN_10014628 549 60 893 5. 11
lamu_GLEAN_10016082 398 undefined undefined
lamu_GLEAN_10016253 204 23 935. 6 9. 62
lamu_GLEAN_10017207 383 43 075. 7 4. 84
lamu_GLEAN_10017427 552 62 168. 8 5. 18
lamu_GLEAN_10018624 411 47 301. 4 5. 76
辣木 HSF 蛋白多重序列比对结果表明 (图
1):除了 lamu _ GLEAN _ 10014628、 lamu _ GLE
AN_10018624 基因的 Hsf 结构域中具有长片段插
入和 lamu_GLEAN_100116253 基因中插入了一个
短片段,其他基因的 Hsf结构域相对保守。
与拟南芥 HSF蛋白构建进化树发现辣木 HSF
蛋白也可以分为 A、B、C 三个大类 (图 2);其
中 A类 HSF蛋白可以进一步划分为 9 个亚类,B
类包含 4 个亚类,C 类仅有 1 个基因。此外,两
个 A6 基因并没有划分到同一枝上。3 个拟南芥基
因 AT4G18870. 1、AT4G19630. 1 和 AT1G75770. 1
(图 2 中 X分类)在拟南芥数据库中没有明确的
转录因子家族分类,但是在 iTAK 数据库中被鉴
定为 HSF转录因子,在辣木中也没有发现这 3 个
拟南芥基因的同源基因。对转录因子家族的研究
还有待进一步深入。
3 讨论
在进化历程中,植物体内演化出了一系列
复杂的调控机制以响应各种刺激,包括相关的
基因表达及多种蛋白的合成。近年来,众多转
录因子的鉴定对植物压力响应机制研究是一个
热点,这可能是寻找增强植物疾病和环境耐受
性的一条重要途径[35]。相当一部分的植物特
有的逆境相关转录调控者已被证实与植物抗
病、环境胁迫和生长发育密切相关。目前发现
的植物抗胁迫有关的转录因子家族主要有 bZ-
IP、MYB、 AP2 /EREBP、 Orphans、WRKY 和
NAC 等。通过对辣木中转录因子家族的鉴定与
分类,发现相比较已研究的模式植物而言,辣
木中的转录因子家族数量相对较少,其中大多
数植物特有转录因子家族基因数量明显低于拟
南芥、苹果、水稻中的基因数目,这可能与这
些植物的人工驯化时间及种植规模有关。
654 云南农业大学学报 第 31 卷
754第 3 期 田 洋,等:辣木转录因子家族初步鉴定与分析
在当前研究中,辣木基因组中并没有鉴定
出 far1 基因,相比表 1 中的其他物种,最少的
水稻中都有 6 个该家族基因成员。光调节许多
植物早期发育阶段的发育历程,比如种子萌发、
抑制下胚轴伸长和幼苗破土变绿等[36]。在拟南
芥中具有 5 种独特的光敏色素,光敏色素 A
(phyA) -光敏色素 E (phyE),phyA 稍微不稳
定,是最主要的光感受器,负责应答远红外光
(far-red light)的光形态发生,从细胞质进入细
胞核,从而诱导远红外光应答基因表达[37]。遗
传研究发现 FAR1 (far-red-impaired response 1)
和 FHY3 (far-red-elongated hypocotyl 3)分别编
码两个增变基因相关转座酶蛋白,通过直接激
活 FHY1 (far-red-elongated hypocotyl 1)和 FHL
(FHY1-like)的转录来共同调节 phyA 信号途
径,FHY1 和 FHL 转录对光诱导的 phyA 细胞核
产物积累和随后的光应答是必不可少的。FHY3
和 FAR1 的表达被 phyA 信号负调控,在高等植
物中其所代表的转录因子在 phyA 信号平衡调节
中具有重要功能[38]。phyA 主要控制远红外光对
幼苗下胚轴的伸长作用。在辣木中并未发现 far1
基因,一方面可能是由于辣木基因组没有组装
得到完整的 far1 基因,也有可能在辣木中不存
在 far1 基因,进一步的研究将有助于揭示辣木
迅速生长的生物学特性。
在分子进化中,Ka 和 K s 作为评估不同进化
距离物种的直系同源基因之间或者同一物种内
的旁系同源基因之间选择压力的基本进化动力
学参数,对于理解 DNA 序列水平的进化分歧和
达尔文自然选择的作用具有重要意义。本研究
通过与拟南芥相比较,筛选到的 43 个辣木正选
择转录因子基因涉及植物生长发育的各个时期,
854 云南农业大学学报 第 31 卷
从分子水平调节到器官发育相关的转录因子家
族都有成员受到正选择作用。这些基因已被证
实与植物抗病、环境胁迫和生长发育密切相关,
其在辣木进化过程中对压力的响应应该具有重
要意义。HUANG等[39]在黄岑的花蓓蕾中筛选出
2 个与花青素合成相关的正选择 R2R3-MYB 基因
(MYB11、MYB16),结果表明物种多样化可能
受到转录水平调控的影响,而不是在翻译水平
上。对辣木而言,受到正选择作用的这些转录
因子在转录水平上的调控对物种多样化影响深
远。另外,WU 等[40]研究拟南芥、短柄草、水
稻、大豆、江南卷柏和小立豌藓 6 个物种中的
GARS家族基因,构造进化树发现其中两个
GARS基因集进化速率的变化主要是由于功能分
歧造成,推测辣木中正选择转录因子功能可能
发生了一定分歧。
C2H2 型锌指蛋白主要涉及植物的生长发育
和对环境胁迫的应答反应,该类锌指蛋白大部
分在锌指区具有植物中特有的 QALGGH 保守结
构,可能涉及调控植物特有的生物学功能。在
辣木中筛选到 6 个受正选择的 C2H2 型锌指蛋
白,前 4 个蛋白第 1、2 锌指间距从 18 到 25 个
氨基酸不等,与所报道的植物锌指蛋白相邻锌
指结构间的间隔比较长,而且变化较大的结论
所一致。大多数动物的 C2H2 型锌指蛋白锌指间
的距离很短,一般只有 7 个氨基酸,称为 HC 连
接肽。辣木中受正选择的 6 个 C2H2 蛋白中有 4
个蛋白第 2、3 锌指间隔只有 4 个氨基酸,这点
很值得进一步研究。辣木中 6 个受正选择的
C2H2 蛋白中并没有发现植物锌指蛋白所特有的
QALGGH高度保守序列[41],但在其他预测的
C2H2 蛋白中却有发现。这种保守基序的变化可
能是由于生长环境特殊的选择压力所致,进一
步研究有助于更加清晰的了解其在辣木生长发
育过程中所扮演的角色。
辣木主要分布于热带、亚热带地区,因此
研究辣木 HSF 转录因子家族对揭示辣木耐热机
制具有重要作用。HSF 转录因子是存在于生物
体细胞内调节热激反应的一类主要转录因子,
在热胁迫下与热激元件 (heat shock element,
HSE)识别并特异结合,从而激活下游热激蛋白
基因的转录和表达,对植物抵抗高温逆境伤害
和其他生命活动具有关键作用[42]。多序列比对
结果发现大部分的辣木 HSF 蛋白的 Hsf 结构域
相对保守,但是其中两个基因具有长片段插入,
一个基因插入了短片段,与以前所报道的 21 个
或 7 个氨基酸的插入与缺失有差异[43],这种差
异可能对辣木响应热胁迫具有特殊意义,有待
进一步研究。此外,与拟南芥 HSF 蛋白构建进
化树发现这些基因的分类与进化关系在一定程
度上具有相关性。
4 结论
本研究通过生物信息学方法,对辣木转录
因子家族进行了鉴定和分类,共鉴定出 1 502 个
转录因子基因,但是并没有发现 far1 基因。通
过与拟南芥转录因子比较,在辣木中共筛选到
43 个受正选择作用的转录因子,这些基因参与
辣木各个时期的生长发育,涉及不同层面的生
物学进程,对揭示辣木生长迅速、生物量高具
有特殊意义。随着辣木转录因子家族分子结构
及其功能的进一步深入研究,将有助于研究者
更清晰的认识这些基因的作用机制、表达模式,
并揭示这些基因在辣木生长发育及进化历程中
所饰演的生理学功能。
[参考文献]
[1] BOGGON T J,SHAN W S,SANTAGATA S,et al. Im-
plication of tubby proteins as transcription factors by
structure-based functional analysis [J]. Science,1999,
286 (5447):2119.
[2] VELASCO R,ZHARKIKH A,AFFOURTIT J,et al. The
genome of the domesticated apple (Malus × domestica
Borkh.) [J]. Nature Genetics,2010,42 (10) :833.
[3] LIN J J,YU C P,CHANG Y M,et al. Maize and millet
transcription factors annotated using comparative genomic
and transcriptomic data [J]. BMC Genomics,2014,
15:818.
[4] DAVULURI R V,SUN H,PALANISWAMY S K,et al.
AGRIS:Arabidopsis gene regulatory information server,
an information resource of Arabidopsis cis-regulatory ele-
ments and transcription factors [J]. BMC Bioinformat-
ics,2003,4:25.
[5] PALANISWAMY S K,JAMES S,SUN H,et al. AGRIS
and AtRegNet. a platform to link cis-regulatory elements
and transcription factors into regulatory networks [J].
Plant Physiology,2006,140 (3) :818.
[6] PAULINO P R,DIEGO M R P ,LUIZ G G C,et al.
954第 3 期 田 洋,等:辣木转录因子家族初步鉴定与分析
PlnTFDB:updated content and new features of the plant
transcription factor database [J]. Nucleic Acids Re-
serch,2010,38 (Database issue):D822.
[7] JIN J,ZHANG H,KONG L,et al. PlantTFDB 3. 0:a
portal for the functional and evolutionary study of plant
transcription factors [J]. Nucleic Acids Research,
2014,42 (Database issue) :D1182.
[8] TIAN Y,ZENG Y,ZHANG J,et al. High quality refer-
ence genome of drumstick tree (Moringa oleifera Lam.) ,
a potential perennial crop [J]. Science China Life Sci-
ences,2015,58 (7) :627.
[9] ZHANG Z,LI J,ZHAO X Q,et al. KaKs_Calculator:
calculating Ka and Ks through model selection and model
averaging [J]. Genomics Proteomics Bioinformatics,
2006,4 (4) :259.
[10] CHENNA R,SUGAWARA H,KOIKE T,et al. Multi-
ple sequence alignment with the Clustal series of pro-
grams [J]. Nucleic Acids Reserch, 2003, 31
(13) :3497.
[11] TAMURA K,PETERSON D,PETERSON N,et al.
MEGA5:molecular evolutionary genetics analysis using
maximum likelihood,evolutionary distance,and maxi-
mum parsimony methods [J]. Molecular Biology and
Evolution,2011,28 (10) :2731.
[12] BUCK M J,ATCHLEY W R. Phylogenetic analysis of
plant basic helix-loop-helix proteins [J]. Journal of
Molecular Evolution,2003,56 (6) :742.
[13] RIECHMANN J L,MEYEROWITZ E M. The AP2 /
EREBP family of plant transcription factors [J]. Bio-
logical Chemistry,1998,379 (6) :633.
[14] GUILFOYLE T J,ULMASOV T,HAGEN G. The ARF
family of transcription factors and their role in plant hor-
mone-responsive transcription [J]. Cellular and Molec-
ular Life Sciences,1998,54 (7) :619.
[15] TIWARI S B,WANG X J,HAGEN G,et al. AUX /
IAA proteins are active repressors,and their stability
and activity are modulated by auxin [J]. Plant Cell,
2001,13 (12) :2809.
[16] JAKOBYA M,WEISSHAARA B,DRGE-LASERB
W,et al. bZIP transcription factors in Arabidopsis [J].
Trends in Plant Science,2002,7 (3) :106.
[17] YANAGISAWA S. Dof domain proteins:plant-specific
transcription factors associated with diverse phenomena
unique to plants [J]. Plant and Cell Physiology,2004,
45 (4) :386.
[18] ENGLBRECHT C C,SCHOOF H,BHM S. Conserva-
tion,diversification and expansion of C2H2 zinc finger
proteins in the Arabidopsis thaliana genome [J]. BMC
Genomics,2004,5 (1) :39.
[19] LI Z,THOMAS T L. PEI1,an embryo-specific zinc
finger protein gene required for heart-stage embryo for-
mation in Arabidopsis [J]. Plant Cell,1998,10
(3) :383. DOI:10. 1105 / tpc. 10. 3. 383.
[20] JAGER S M D,MENGES M,BAUER U M,et al. Ara-
bidopsis E2F1 binds a sequence present in the promoter
of S-phase-regulated gene AtCDC6 and is a member of a
multigene family with differential activities [J]. Plant
Molecular Biology,2001,47 (4) :555.
[21] BOLLE C. The role of GRAS proteins in plant signal
transduction and development [J]. Planta,2004,218
(5) :683.
[22] KAPPEN C. The homeodomain:an ancient evolutionary
motif in animals and plants [J]. Computers and Chem-
istry,2000,24 (1) :95.
[23] WISSMüLLER S,KOSIAN T,WOLF M,et al. The
high-mobility-group domain of Sox proteins interacts with
DNA-binding domains of many transcription factors
[J]. Nucleic Acids Reserch,2006,34 (6) :1735.
[24] NOH B,LEE S H,KIM H J,et al. Divergent roles of a
pair of homologous jumonji / zinc-finger-class transcrip-
tion factor proteins in the regulation of Arabidopsis flow-
ering time [J]. Plant Cell,2004,16 (10) :2601.
[25] WANG Z Y,KENIGSBUCH D,SUN L,et al. A Myb-
related transcription factor is involved in the phyto-
chrome regulation of an Arabidopsis Lhcb gene [J].
Plant Cell,1997,9 (4) :491.
[26] SIRIWARDANA C L,KUMIMOTO R W,JONES D S,
et al. Gene family analysis of the transcription factors
reveals opposing abscisic acid responses during seed ger-
mination [J]. Plant Molecular Biology Reporter,
2014,32 (5) :971.
[27] ARENDSEE Z W,LI L,WURTELE E S. Coming of
age:orphan genes in plants [J]. Trends in Plant Sci-
ence,2014,19 (11) :698.
[28] BIENZ M. The PHD finger,a nuclear protein-interac-
tion domain [J]. Trends Biochemical Science,2006,
31 (1) :35.
[29] CHARDIN C,GIRIN T,ROUDIER F,et al. The plant
RWP-RK transcription factors:key regulators of nitrogen
responses and of gametophyte development [J]. Journal
of Experimental Botany,2014,65 (19) :5577.
[30] MARMORSTEIN R. Structure of SET domain proteins:
a new twist on histone methylation [J]. Trends Bio-
chemical Science,2003,28 (2) :59.
064 云南农业大学学报 第 31 卷
[31] EISEN J A,SWEDER K S,HANAWALT P C. Evolu-
tion of the SNF2 family of proteins:subfamilies with dis-
tinct sequences and functions [J]. Nucleic Acids Re-
serch,1995,23 (14):2715.
[32] STOGIOS P J,DOWNS G S,JAUHAL J J,et al. Se-
quence and structural analysis of BTB domain proteins
[J]. Genome Biology,2005,6 (10) :R82.
[33] SMALLE J,KUREPA J,HAEGMAN M,et al. The tri-
helix DNA-binding motif in higher plants is not restrict-
ed to the transcription factors GT-1 and GT-2 [J]. Pro-
ceedings of the National Academy of Sciences of the U-
nited States of America,1998,95 (6) :3318.
[34] WU K L,GUO Z J,WANG H H,et al. The WRKY
family of transcription factors in rice and Arabidopsis and
their origins [J]. DNA Research,2005,12 (1) :9.
DOI:10. 1093 /dnares /12. 1. 9.
[35] SINGH K B,FOLEY R C,O N
~
ATE-SNCHEZ L. Tran-
scription factors in plant defense and stress responses
[J]. Current Opinion in Plant Biology, 2002, 5
(5):430.
[36] QUAIL P H. Phytochrome photosensory signalling net-
works [J]. Nature Reviews Molecular Cell Biology,
2002,3 (2) :85.
[37] WANG H,DENG X W. Phytochrome signaling mecha-
nism,the Arabidopsis book [M]. American :American
Society of Plant Biologists,2004:e0148.
[38] SIDDIQUI H,KHAN S,RHODES B M,et al. FHY3
and FAR1 act downstream of light stable phytochromes
[J]. Frontiers in Plant Science,2016,7:175.
[39] HUANG B H,PANG E,CHEN Y W,et al. Positive
selection and functional divergence of R2R3-MYB paral-
ogous genes expressed in inflorescence buds of Scutellar-
ia species (Labiatae) [J]. International Journal of
Molecular Sciences,2015,16 (3) :5900.
[40] WU N N,ZHU Y,SONG W L,et al. Unusual tandem
expansion and positive selection in subgroups of the
plant GRAS transcription factor superfamily [J]. BMC
Plant Biology,2014,14:373.
[41] TAKATSUJI H. Zinc-finger proteins:the classical zinc
finger emerges in contemporary plant science [J].
Plant Molecular Biology,1999,39 (6) :1073.
[42] BANIWAL S K,BHARTI K,CHAN K Y,et al. Heat
stress response in plants:a complex game with chaper-
ones and more than twenty heat stress transcription factors
[J]. Journal of Biosciences,2004,29 (4) :471.
[43] DAMBERGER F F,PELTON J G,HARRISON C J,et
al. Solution structure of the DNA-binding domain of the
heat shock transcription factor determined by multidi-
mensional heteronuclear magnetic resonance spectrosco-
py [J]. Protein Science,1994,3 (10) :1806.
164第 3 期 田 洋,等:辣木转录因子家族初步鉴定与分析