免费文献传递   相关文献

香蕉MADS-Box基因家族的生物信息学分析



全 文 :植物生理学报 Plant Physiology Journal 2013, 49 (10): 1030~10401030
收稿 2013-04-09  修定 2013-08-08
资助 云南省昆明理工大学人才培养项目(14118480)。
* 通讯作者(E-mail: enyiyang@gmail.com; Tel: 0871-65930207)。
香蕉MADS-Box基因家族的生物信息学分析
张远森, 秦晓萌, 严金平, 张昆林, 杨恩*
昆明理工大学生命科学与技术学院, 昆明650500
摘要: MADS-box基因家族是具有多种生物功能的转录因子, 广泛参与植物的生长发育过程以及逆境应答。为了探索
MADS-box基因家族在香蕉果实发育到后熟衰老过程中的功能, 本文对71个香蕉MADS-box基因家族基因结构、蛋白的基
本理化性质、二级结构预测、亚细胞定位、保守基序等方面进行初步生物信息学分析, 结果显示: 13个香蕉MADS-box基
因没有内含子, 5个有较长的上游序列; 71个香蕉MADS-box蛋白中有52个偏碱性或者强碱性, 8个显中性, 11个偏酸性; 除5
个以无规则卷曲为主要构成元件外, 香蕉MADS-box蛋白主要以α-螺旋为主要构成元件; 大多数MADS-box蛋白定位于细
胞核和线粒体基质, 少许分布在其他细胞器; 基序1 (MADS domain)是该家族的保守基序; 此外, 进化分析发现, 香蕉
MADS-box基因家族基因主要是II型, I型仅有6个。另外, 现有香蕉MADS-box基因家族中, 只有37个可查EST序列。
关键词: 香蕉; MADS-box基因家族; 生物信息学
Bioinformatics Analysis of the MADS-Box Gene Family in Banana
ZHANG Yuan-Sen, QING Xiao-Meng, Yan Jin-Ping, ZHANG Kun-Lin, YANG En*
Faculty of Life Science and Technology, Kunming University of Science and Technology, Kunming 650500, China
Abstract: The MADS-box gene family is a mulit-functional transcriptional factor. It is widely involved in plant
growth and developmental processes and stress responses. In older to study the function of MADS-box gene in
banana fruit from growth to senescence, the gene structure, EST, physicochemical property, secondary structure,
subcellular location, conserved motif and other basic properties of banana MADS-box gene family were
analyzed by the bioinformatics methods. The results showed that 13 members of MADS family genes had no
intron and 5 members just had a upstream. There were 52 alkalinity or alkali proteins, 8 neuter proteins and 11
acidic proteins in the MADS family. And most of MADS-box proteins located in nucleus and mitochondrial
matrix. The secondary structure of most MADS-box proteins was Alpha helix; only 5 of them was random coil.
The analysis of motifs predicted that motif 1 (MADS domain) is the conserved motif of banana MADS-box
gene family. Furthermore, from the phylogenetic analysis found that only 6 genes belongs to type I, other genes
belongs to type II. Moreover, only 37 members of MADS gene family can inquiry the EST sequences.
Key words: banana; MADS-box gene family; bioinformatics
香蕉(Musa spp.)是重要的热带水果, 世界第四
大粮食作物(Moffat 1999)。它富含丰富的矿质营
养元素和维生素A、C和B6等, 并具有一定的医
用护肤功能, 因此具有较高的工业和经济价值。
香蕉有11条染色体, 二倍体基因组大小为500~600
Mb, 仅为水稻的1/4 (Bartoš等2005), 是植物基因组
学研究的最佳模式之一。早在2001年就有科学家
开始对香蕉基因组进行测序, 2009年9月8日全球
香蕉基因组联盟中的法国Genoscope和法国发展中
国家农业研究中心CIRAD正式开始了香蕉全基因
组的测序工作(刘菊华等2012)。2012年7月由法国
研究人员领导的一个国际小组在Nature杂志上首
次发表了名为DH-Pahang的双单倍体香蕉(通过培
育来自malaccensis亚物种的野生M. acuminata而生
成)的全基因组测序结果(D’Hont等2012)。从此,
展开了香蕉基因组研究的新篇章。香蕉是呼吸跃
变型果实, 研究表明, 一旦内源乙烯的浓度达到生
理需要的阂值 , 就会引起连锁的成熟、后熟反
应。果实分子生物学研究中一个重要特点就是大
多数成熟相关基因是由多基因家族编码。
研究报告 Original Papers
张远森等: 香蕉MADS-Box基因家族的生物信息学分析 1031
MADS-box基因家族基因是一类广泛存在于
植物中, 序列特异的同源异型基因, 它所编码的
MADS-box蛋白质是一种转录因子(曾英等2001)。
典型的植物MADS-box基因具有相似的内含子和
外显子结构 , 一般包括6个内含子和7个外显子
(Theiβen等1995)。高等植物MADS基因由4个保守
程度不一的区域组成 , 分别是M A D S区、 I
(intervening)区、K (keratin-like)区和C末端。大部
分的MADS-box基因的上游有一段称为CArG盒
(CC-A-rich-GC)的特异序列(Jack等1992)。MADS
盒结构域由外显子1编码, 有56~58个氨基酸组成,
保守性最强(Purugganan等1995)。其主要功能是结
合特异的DNA序列, 起调节DNA表达的作用, 此外
还可以与辅助因子结合(Münster等1997)。I区是非
保守区域, 位于MADS区和K区之间, 由31~35个氨
基酸残基组成(含有较多亲水残基)。其C端有一个
带电荷的残基簇生构型, 对二聚体与DNA结合形
成复合体起辅助作用(Pelaz 2000)。K区保守的结
构域是植物MADS-box转录因子的特征序列, 约有
70个氨基酸残基形成螺旋结构, 是发生二聚体化
的结构单元 , 可形成类似于角蛋白的卷曲螺旋
(coiled coil) (Wu等2006)。C-区域的序列和长度变
化较大, 其功能还不清楚, 可能参与调节转录活
性或与转录因子复合体形成有关(Wilkinson和
Haughn 1995)。
Alvarez-Buylla等(2000)根据系统进化把
MADS-box分为两类 : I型和II型。大多数植物
MADS基因, 包括所有功能特异的真核生物MADS
基因和动物MEF2-like序列命名为II型。一些与动
物SRF-like基因更相似的拟南芥MADS基因序列
被命名为I型。K结构域只存在于II型植物MADS
基因中。植物界中I型和II型基因的区别主要是
MADS结构域不同。 I型MADS结构域主要是
MADS SRT型, II型MADS结构域主要是MADS
MEF2型, II型的MADS域比I型的MADS域更保
守。Henschel等(2002)把在Physcomitrella patens上
高表达的MADS基因分为两类 : 一类是典型的
MIKC型, 命名为MIKCc型基因; 另一类是I结构域
和K结构域不同于M I K C c型的基因 , 命名为
MIKC*。MIKC*型蛋白质的I结构域比MIKCc的
长。MIKC*和MIKCc型蛋白K结构域都有有规律
排列的疏水氨基酸, 不同的是MIKC*型蛋白质有
1~2个疏水氨基酸会被转移或保守性更低。此外,
MIKC*和MIKCc基因的外显子不同, MIKCc型编码I
结构域的外显子只有一个, 而MIKC*有4~5个外显
子编码其I结构域。2003年Paenicová等对拟南芥
MADS-box蛋白保守结构域进行进化分析, 将拟南
芥MADS-box蛋白分为5类, 命名为Mα、Mβ、
Mγ、Mδ和MIKC。Mα类和Mγ类没有内含子而Mβ
类有一个内含子。Mα类有2个保守基序MADS-
box和pink基序, Mβ类MADS-box基因的N末端非
保守, 含有与高度保守的MADS-box序列无关的序
列(Shore和Sharrocks 1995), Mγ类蛋白N末端在150
氨基酸区域较保守。
MADS转录因子除在植物营养生长(Carmona
等1998; Kang和Hannapel 1995)、种子和种皮发育
(Buchner和Boutin 1998)、根的形成(Heck等
1995)、胚形态建成(王光清等1997)、花的发育
(Becker和Theißen 2003)、信号转导(Messenguy和
Dubois 2003)等方面发挥作用外, 在果实发育和成
熟中发挥重要作用。有关MADS-box转录因子对
果实发育和成熟的作用的报道目前主要集中在拟
南芥、番茄、香蕉、矮牵牛、金鱼草、桃、水
稻、菠萝、葡萄等物种上(刘菊华等2010)。在香
蕉MADS-box基因研究中 , Inaba等(2007)发现
MADS-box基因MaMADS2作为转录因子在调节跃
变型果实成熟过程中扮演着重要角色。类似的结
果在Liu等(2009)研究中也得到了证实, 他们发现
MADS-box基因MuMADS1在香蕉的雄蕊、雌蕊和
根茎中表达, 贯穿整个香蕉的果实发育过程。对
香蕉果实采后进行乙烯催熟处理和1-MCP抑制处
理, 发现该基因的表达明显受外源乙稀和乙稀生
物合成的诱导, 与果实成熟密切相关。另外, Elit-
z u r等 ( 2 0 1 0 )从香蕉中克隆了6个M A D S基因
MaMADS1~MaMADS6, 就这6个基因作用的研究
结果表明香蕉果皮和果肉中发生的是两个相对独
立的成熟过程。MaMADS1和3的转录激活与果皮
的发生相关。而果肉的发生 , 主要是与M a -
MADS2、4和5以及后期的MaMADS1激活有关,
MaMADS2 (SEP3同源基因)在果肉中乙烯生物合
成增加的上游起作用。截止目前, 对香蕉MADS-
box基因家族基因的报道, 多为单基因的研究, 但
植物生理学报1032
基于全基因组数据的香蕉MADS-box基因家族研
究鲜有报道。本文利用在线工具和生物信息相关
软件对香蕉MADS-box基因家族初步进行生物
信息学研究, 旨在为果实生长后熟衰老研究奠定
基础。
材料与方法
1 香蕉MADS-box基因数据来源
香蕉MADS-box基因、蛋白和CDS数据来源
于Banana Genome Hub数据库(http://banana-ge-
nome.cirad.fr/)的香蕉种小果野蕉(Musa accuminata
Colla)全基因组数据。对于所得的香蕉MADS-box
基因数据用GeneScan (ht tp: / /genes .mit .edu/
GENSCAN.html)进行预测, 选择玉米为参照物种,
其他参数设置为默认值。水稻的MADS-box基因
和蛋白数据来源于Rice Genome Annotation Project
数据库(http://rice.plantbiology.msu.edu/)。香蕉
MADS-box蛋白同源的拟南芥蛋白序列来源于Tair
(http://www.arabidopsis.org/index.jsp)网站。
2 香蕉MADS-box蛋白生物信息学分析
香蕉MADS-box蛋白进行亚细胞定位分析, 采
用在线分析软件PSORT Prediction (http://psort.ims.
u-tokyo.ac.jp/form.html)。香蕉MADS-box蛋白氨
基酸序列基本性质, 如氨基酸数目、分子量、等
电点、不稳定指数和脂肪指数采用在线分析工具
ProtParam (http://expasy.org./tools/protparam.html)
分析。二级结构分析采用在线SOPMA程序(http://
npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_
sopma.html)分析。用CBS (http://www.cbs.dtu.dk/
index.shtml)在线工具对香蕉MADS-box信号肽进
行分析。所有参数均为默认值。
3 香蕉MADS-box基因EST序列分析
利用NCBI nucleotide blast工具选择Expressed
Sequence Tags (EST)数据库(http://blast.ncbi.nlm.
nih.gov/Blast.cgi?PROGRAM=blastn&BLAST_
P R O G R A M S = m e g a B l a s t & PA G E _ T Y P E =
BlastSearch&SHOW_DEFAULTS=on&LINK_
LOC=blasthome)分别对香蕉71条MADS-box
cDNA进行比对。参数设置为默认值。在输出结果
中选择Max ident≥80%、Max score>100和E值≤
10-10的作为EST序列。
4 香蕉MADS-box基因结构分析
将从Banana Genome Hub得到的香蕉MADS-
box的基因序列和cDNA序列, 利用Gene Structure
Display Server (http://gsds.cbi.pku.edu.cn/index.php)
分析内含子和外显子组成。
5 香蕉MADS-box蛋白的结构和保守基序查找与
注释
香蕉MADS-box蛋白家族蛋白的保守基序采
用MEME4.0 (http://meme.nbcr.net/meme/)分析, 基
序的最大数目设置为10, 基序长度设为6~200个氨
基酸。对得到的保守基序运用SMART (http://
smart.embl-heidelberg.de/)在线工具进行功能注释,
并且参照拟南芥和水稻的命名模式进行命名。
6 香蕉MADS-box进化树构建
将香蕉MADS-box蛋白和水稻MADS-box蛋
白一起采用MEGA5.1构建系统进化树。参数设
置: 使用neighbor-joining法则的P-距离(P-distance)
模型构建, 选择了成对删除(paiwise deletion)空位
(gap)的选项, Bootstrap method取值1 000。
实验结果
1 香蕉MADS-box基因家族成员数据库信息
从香蕉基因组数据库中收集到香蕉MADS-
box基因家族成员共74个基因。经完整性分析以
及基因预测有71条完整的香蕉MADS-box基因家
族基因, 在11条染色体中均有分布。1号染色体上
有4个, 2号染色体10个, 3号染色体上有11个, 4号和
6号染色体上各有3个, 5号和9号染色上各有8个, 7
号和8号染色体上各有5个, 10号染色体上有6个, 11
号染色体上有7个, 另有一个蛋白没有确定所在位
置, 详见表1。
2 香蕉MADS-box蛋白家族的生物信息学分析
由表1可见, 171个MADS-box蛋白的氨基酸数
目有很大的差距, 大多数香蕉MADS-box蛋白长度
在200~300个氨基酸之间, 8个在100~200个氨基酸
之间, 4个蛋白质长度小于100, 其中最小的BAM-
ADS0210只有41个氨基酸, 另有4个蛋白质长度大
于300, 最大的BAMADS0905有636个氨基酸。相
对应的香蕉MADS-box蛋白分子量在4 838.1
(BAMADS0210)~71 394.6 (BAMADS0905) Da之
间。等电点分析发现: 大部分香蕉MADS-box蛋白
张远森等: 香蕉MADS-Box基因家族的生物信息学分析 1033
表1 香蕉MADS-box基因家族成员的基本信息
Table 1 the basic information of banana MADS-box gene family
位置ID 名称 AA数目 分子量/Da 等电点
不稳定 脂溶
EST ID
EST组织 最同源的拟
指数 指数 来源 南芥蛋白ID
*Un_random17230# ^0001 233 27 168.4 8.54 61.19 75.32 – – AT5G48670.1
*1P00750# ^0102 242 27 650.4 9.28 51.03 74.59 ES433050.1 叶和果实 AT2G45650.1
*1P03630# ^0103 211 23 812.1 8.99 59.60 87.44 ES433801.1 叶和果实 AT2G45660.1
*1P24060# ^0104 244 28 118.9 8.76 51.00 77.54 – – AT2G45650.1
*1P24070# ^0105 212 24 176.6 6.79 56.99 88.82 JK539504.1 – AT2G45660.1
*2P01740# ^0201 341 38 527.9 5.43 45.27 75.48 – – AT1G18750.1
*2P02660# ^0202 240 27 979.6 6.18 58.37 83.25 – – AT5G48670.1
*2P04340# ^0203 213 24 504.1 8.88 52.19 88.31 ES431671.1 叶和果实 AT5G62165.3
*2P04350# ^0204 240 27 854.5 7.77 61.52 77.29 FL662208.1 – AT2G45650.1
*2P10250# ^0205 242 27 790.7 9.16 45.85 80.25 ES433050.1 叶和果实 AT2G45650.1
*2P06250# ^0206 226 25 766.1 6.20 59.31 84.12 CO732062.1 果实 AT1G24260.3
*2P11820# ^0207 139 15 867.1 9.12 35.45 84.24 FL830094.1 花和种子 AT2G45660.1
*2P13650# ^0208 246 28 274.5 9.27 55.04 86.50 DY385570.1 嫩叶 AT1G69120.1
*2P18400# ^0209 232 26 479.4 8.64 72.77 76.21 – – AT5G48670.1
*2P18410# ^0210 41 4 838.1 11.64 39.56 83.41 – – AT5G06500.1
*3P02280# ^0301 263 30 061.5 9.18 55.53 80.53 – – AT5G60910.1
*3P04450# ^0302 345 38 575.6 5.70 50.66 79.97 – – AT1G22130.1
*3P05500# ^0303 221 25 601.7 9.11 50.08 74.66 – – AT5G48670.1
*3P06800# ^0304 229 25 726.2 8.66 43.06 81.75 – – AT2G22540.1
*3P07310# ^0305 244 28 028.8 8.58 49.22 85.08 JK538420.1 – AT3G57230.1
*3P20280# ^0306 236 26 993.9 8.97 47.02 90.08 – – AT3G57230.1
*3P15930# ^0307 240 27 284.2 8.18 56.13 89.79 – – AT1G24260.1
*3P30440# ^0308 230 26 303.1 9.69 52.50 82.26 EL685812.1 多组织 AT1G69120.1
*3P23580# ^0309 241 28 262.1 6.67 58.16 86.18 EL690590.1 多组织 AT5G23260.2
*3P24170# ^0310 357 40 358.2 6.46 54.10 77.59 FE512870.1 根和茎 AT1G18750.1
*3P25280# ^0311 266 30 634.2 9.05 55.36 88.80 – – AT5G60910.1
*4P14460# ^0401 240 27 282.1 8.58 60.27 86.21 – – AT3G02310.1
*4P30120# ^0402 235 26 772.4 8.99 50.15 76.00 ES431586.1 叶和果实 AT2G45650.1
*4P23540# ^0403 248 28 374.4 9.28 55.31 81.85 ES433050.1 叶和果实 AT5G60910.1
*5P01230# ^0501 211 24 540.1 9.13 57.82 84.60 FF557530.1 叶和根 AT5G20240.1
*5P01940# ^0502 244 26 808.5 9.04 55.97 75.57 – – AT2G24840.1
*5P10250# ^0503 216 24 468.8 6.13 51.21 91.25 ES433801.1 – AT2G45660.1
*5P06580# ^0504 78 9 422.5 4.95 76.46 58.72 DT769324.1 – AT4G09960.4
*5P20280# ^0505 63 7 207.4 10.14 55.62 77.30 DV270719.1 果实 AT4G11880.1
*5P16870# ^0506 284 32 577.9 9.79 73.17 79.79 ES433853.1 叶和果实 AT4G18960.1
*5P24560# ^0507 236 27 208.1 9.30 43.29 84.70 BE354988.1 幼苗 AT3G57230.1
*5P26530# ^0508 225 24 463.2 9.22 46.16 93.24 – – AT5G60440.1
*6P00050# ^0601 242 27 946.9 9.48 51.38 81.03 DY356542.1 – AT5G60910.1
*6P06040# ^0602 236 26 721.4 5.84 59.31 82.75 – – AT1G24260.1
*6P18670# ^0603 211 24 560.1 7.06 57.88 79.95 – – AT5G20240.1
*7P00460# ^0701 250 28 487.6 9.18 45.95 91.72 BI956235.1 花轴 AT5G60910.1
*7P02960# ^0702 237 26 635.9 6.79 48.63 92.19 – – AT1G71692.1
*7P12610# ^0703 235 27 130.0 9.44 45.39 92.94 – – AT3G57230.1
*7P23690# ^0704 239 27 692.2 9.07 54.31 80.88 ES273970.1 多组织 AT4G18960.1
*7P26700# ^0705 238 27 251.7 6.91 70.16 79.50 – – AT2G03710.1
*8P04330# ^0801 245 27 874.7 7.71 52.63 88.82 – – AT1G69120.1
*8P07230# ^0802 236 25 754.5 9.46 62.63 80.34 BF729500.1 – AT2G24840.1
*8P12280# ^0803 193 21 914.0 9.15 54.50 73.78 ES436120.1 叶和果实 AT5G62165.3
植物生理学报1034
续表

位置ID 名称 AA数目 分子量/Da 等电点
不稳定 脂溶
EST ID
EST组织 最同源的拟
指数 指数 来源 南芥蛋白ID
*8P28100# ^0804 240 27 514.2 8.62 58.56 88.17 – – AT2G03710.2
*8P28220# ^0805 169 19 555.2 8.36 46.82 86.51 – – AT1G26310.1
*9P01370# ^0901 243 27 687.6 8.81 53.54 83.58 CO731391.1 果实 AT1G24260.1
*9P05780# ^0902 214 24 576.0 8.39 36.46 83.41 – – AT1G26310.1
*9P20940# ^0903 102 11 729.4 9.30 32.36 64.02 DN238872.1 叶 AT3G54340.1
*9P20950# ^0904 225 26 092.5 9.39 34.81 71.07 ES432015.1 叶和果实 AT3G54340.1
*9P13010# ^0905 636 71 394.6 6.81 45.03 96.90 ES432015.1 叶和果实 AT1G22130.1
*9P15180# ^0906 294 32 862.5 6.76 48.98 90.85 ES432015.1 叶和果实 AT2G22540.1
*9P15540# ^0907 245 28 244.2 9.38 49.63 87.18 – – AT3G57230.1
*9P29310# ^0908 164 18 528.8 6.74 72.59 75.73 ES431388.1 叶和果实 AT1G24260.2
*10P06580# ^1001 202 23 157.9 9.35 46.90 87.92 ES431671.1 叶和果实 AT2G45660.1
*10P14160# ^1002 229 26 465.2 9.41 60.39 81.35 – – AT4G18960.1
*10P18600# ^1003 285 32 630.2 9.08 54.47 80.77 EL690590.1 多组织 AT5G60910.1
*10P19290# ^1004 228 26 030.6 5.85 56.25 89.82 – – AT2G22540.1
*10P30030# ^1005 125 14 578.3 5.96 19.69 82.72 – – AT3G57230.2
*10P30040# ^1006 118 13 640.6 9.88 41.87 85.08 AJ612484.1 – AT4G37940.1
*11P02770# ^1101 159 18 068.4 6.33 52.30 84.03 DY344924.1 – AT5G62165.3
*11P02790/80# ^1102 98 11 139.7 9.84 67.61 67.65 – – AT5G62165.3
*11P21460/70/80# ^1103 298 31 935.3 9.45 46.69 81.11 ES436120.1 叶和果实 AT2G45660.1
*11P07760# ^1104 208 23 952.5 9.22 59.03 83.51 – – AT2G45660.1
*11P14240# ^1105 228 25 971.7 8.69 41.18 89.30 – – AT1G18750.1
*11P19350# ^1106 224 25 851.8 6.26 55.87 80.98 – – AT1G71692.1
*11P19540# ^1107 235 26 920.6 8.93 64.07 78.47 – – AT1G24260.1
  位置ID序列前面的“*”代表“GSMUA_Achr”, 后面的“#”代表“001”。名称序号前面的“^”代表“BAMADS”。
显碱性等电点大于7.5, 最大的是BAMADS0210为
11.64; 11个蛋白等电点小于6.5, 显酸性 , 其中
BAMADS0504最小, 为4.95; 另8个蛋白等电点在
6.5~7.5之间。脂溶指数分析表明, 所有蛋白的脂
溶指数均小于100, 说明香蕉MADS-box蛋白均为
亲水性蛋白。不稳定指数分析发现香蕉MADS-
box蛋白只有BAMADS0207、BAMADS0210、
B A M A D S 0 9 0 2、B A M A D S 0 9 0 3、B A M -
ADS0904、BAMADS1005这6个蛋白的不稳定指
数小于40, 为稳定蛋白, 其余的均大于40, 为不稳
定蛋白(孔建强等2007)。
对香蕉MADS-box的71个蛋白二级结构分析
(表2)发现: 香蕉MADS-box蛋白二级结构均由α-螺
旋、扩展链结构、β-转角和无规则卷曲4种形式组
成。在BAMADS0201、BAMADS0302、BAM-
ADS0310、BAMADS1103中各组成的百分比为无
规则卷曲>α-螺旋>扩展链结构>β-转角, BAM-
ADS1102组成的百分比为无规则卷曲>扩展链结
构>α-螺旋>β-转角, BAMADS0504组成的百分比
为扩展链结构>α-螺旋>无规则卷曲=β-转角。其余
的65个蛋白组成的百分比均为α-螺旋>无规则卷曲>
扩展链结构>β-转角。
用PSORT Prediction对香蕉MADS-box基因家
族的蛋白质进行亚细胞定位分析, 绝大多数的蛋
白定位于细胞核中 , 其他细胞器中只有少许的
MADS-box蛋白。定位于线粒体基质的概率最大
的有BAMADS0001、BAMADS0105、BAM-
ADS0203、BAMADS0209、BAMADS0305、
BAMADS0306、BAMADS0703、BAMADS1006
和BAMADS1104。定位于细胞质细胞浆概率最大
的有BAMADS0602、BAMADS1005和BAM-
ADS1101蛋白。定位于线粒体内膜概率最大的只
有BAMADS0805蛋白。定位于线粒体膜间空间概
率最大的只有BAMADS0210蛋白。定位于质膜概
率最大的有BAMADS0207、BAMADS0503、
BAMADS0507、BAMADS0905、BAMADS1102
和BAMADS1103蛋白。其余的51个蛋白都是定位
于细胞核的概率最大(表2)。
张远森等: 香蕉MADS-Box基因家族的生物信息学分析 1035
利用CBS在线分析软件分析香蕉MADS-box
基因家族蛋白信号肽, 香蕉MADS-box基因家族中
没有信号肽位置。
3 香蕉MADS-box基因EST序列分析
通过对71个香蕉MADS-box基因进行EST检
索, 发现37个基因可以查询相应EST序列来源, 其
中14个来源于叶和果实、3个来源于果实、4个来
源于多个组织中, 来源于叶、嫩叶、幼苗和花轴
中分别有1个, 同时来源于花和种子、根和茎、叶
和根中也只有一个。此外, 有9个基因不能确定其
EST组织来源(表1)。
4 MADS-box基因内含子和外显子组成分析
香蕉71条MADS-box基因内含子和外显子组
成如图1所示。大部分基因, 由外显子和内含子组
成。有15条符合6个内含子和7个外显子的植物
MADS-box基因典型结构, 香蕉MADS-box基因中
更多的是7个内含和8个外显子的结构, 外显子数
目最多的是BAMADS0905, 达17个。13个基因不含
表2 香蕉MADS-box蛋白家族二级结构及亚细胞定位
Table 2 The secondary structure and subcellular location of banana MADS-box gene family

蛋白名称 α-螺旋
扩展链 无规则
蛋白名称 α-螺旋
扩展链 无规则
结构
β-转角
卷曲
亚细胞定位
结构
β-转角
卷曲
亚细胞定位
BAMADS0001 129 13 6 85 线粒体基质 BAMADS0507 131 30 8 67 质膜
BAMADS0102 133 19 11 79 细胞核 BAMADS0508 108 37 17 63 细胞核
BAMADS0103 199 26 7 59 细胞核 BANADS0601 134 24 8 76 细胞核
BAMADS0104 130 26 11 77 细胞核 BANADS0602 134 22 7 73 细胞质细胞浆
BAMADS0105 137 21 9 45 线粒体基质 BANADS0603 116 26 10 59 细胞核
BAMADS0201 133 39 10 159 细胞核 BAMADS0701 141 24 11 74 细胞核
BAMADS0202 139 21 11 69 细胞核 BAMADS0702 133 30 11 63 细胞核
BAMADS0203 131 18 7 57 线粒体基质 BAMADS0703 124 29 12 70 线粒体基质
BAMADS0204 131 27 10 72 细胞核 BAMADS0704 150 22 11 56 细胞核
BAMADS0205 136 24 6 76 细胞核 BAMADS0705 135 21 11 71 细胞核
BAMADS0206 146 20 9 51 细胞核 BAMADS0801 145 25 11 64 细胞核
BAMADS0207 86 18 8 27 质膜 BAMADS0802 119 38 15 64 细胞核
BAMADS0208 132 24 8 82 细胞核 BAMADS0803 122 18 7 46 细胞核
BAMADS0209 136 16 5 75 线粒体基质 BAMADS0804 137 23 11 69 细胞核
BAMADS0210 19 12 4 6 线粒体膜间 BAMADS0805 101 22 11 35 线粒体内膜
 空间 BAMADS0901 127 20 12 84 细胞核
BAMADS0301 148 32 8 75 细胞核 BAMADS0902 141 20 9 44 细胞核
BAMADS0302 121 36 14 174 细胞核 BAMADS0903 41 28 10 23 细胞核
BAMADS0303 136 11 6 68 细胞核 BAMADS0904 140 24 13 48 细胞核
BAMADS0304 161 16 11 41 细胞核 BAMADS0905 252 125 51 208 质膜
BAMADS0305 125 29 10 80 线粒体基质 BAMADS0906 144 46 18 86 细胞核
BAMADS0306 128 27 11 70 线粒体基质 BAMADS0907 128 30 9 78 细胞核
BAMADS0307 136 21 12 71 细胞核 BAMADS0908 96 8 1 59 细胞核
BAMADS0308 132 20 14 64 细胞核 BAMADS1001 135 24 6 37 细胞核
BAMADS0309 133 22 7 79 细胞核 BAMADS1002 142 22 10 55 细胞核
BAMADS0310 132 42 14 169 细胞核 BAMADS1003 157 29 18 81 细胞核
BAMADS0311 138 35 12 81 细胞核 BAMADS1004 133 23 5 67 细胞核
BAMADS0401 135 20 10 75 细胞核 BAMADS1005 71 6 1 47 细胞质细胞浆
BAMADS0402 132 31 9 63 细胞核 BAMADS1006 64 20 8 26 线粒体基质
BAMADS0403 138 23 8 79 细胞核 BAMADS1101 106 2 1 50 细胞质细胞浆
BAMADS0501 115 28 11 57 细胞核 BAMADS1102 20 23 11 44 质膜
BAMADS0502 115 34 12 83 细胞核 BAMADS1103 80 54 22 99 质膜
BAMADS0503 124 24 8 60 质膜 BAMADS1104 131 21 7 49 线粒体基质
BAMADS0504 16 21 12 12 细胞核 BAMADS1105 112 28 12 76 细胞核
BAMADS0505 25 15 6 17 细胞核 BAMADS1106 128 24 9 63 细胞核
BAMADS0506 143 33 8 100 细胞核 BAMADS1107 125 19 10 81 细胞核

植物生理学报1036
图1 香蕉MADS-box基因外显子和内含子组成分析
Fig.1 Analysis of introns and exons of the banana MADS-box gene
张远森等: 香蕉MADS-Box基因家族的生物信息学分析 1037
内含子, 它们是: BAMADS0001、BAMADS0105、
BAMADS0201、BAMADS0205、BAMADS0209、
BAMADS0210、BAMADS0303、BAMADS0502、
BAMADS0503、BAMADS0504、BAMADS0505、
B A M A D S 0 5 0 8和 B A M A D S 0 8 0 2。其中
BAMADS0105、BAMADS0201、BAMADS0205、
BAMADS0503和BAMADS0504有较长的上游序列
并且其外显子区靠近3端, 其余8个只有外显子结
构。另外BAMADS0507和BAMADS1103 5端有一
段上游序列, 而BAMADS1102 3末端有一段下游
序列。
5 香蕉MADS-box蛋白的结构和保守基序分析
通过MEME软件预测香蕉MADS-box蛋白的
保守基序, 结果如图2所示; 之后用SMART软件对
预测的保守基序进行命名结果见表5所示。结果显
示, 大部分的香蕉MADS-box蛋白中都存在基序
1~6, 可见这些基序是MADS-box的保守基序; 其中
基序1属于MADS结构域 , 存在于绝大多数的
MADS-box蛋白家族成员里, 是MADS非常重要的
保守基序。MADS-box蛋白家族中有6个蛋白拥有
9个基序(基序1~8和基序10)分别是BAMADS-
0601、BAMADS0701、BAMADS1003、BAMADS-
图2 香蕉MADS-box基因家族保守基序
Fig.2 Conserved motifs of banana MADS-box genes
植物生理学报1038
0208和BAMADS0403, BAMADS1103也拥有9个基
序, 分别是基序1~9。而BAMADS0210只有基序3。
在基序分析中, 通过SMART在线工具进行基
序命名。在本次研究的香蕉MADS-box基因家族
中只能对3个基序进行命名, 他们是基序1、基序2
和基序9, 见表3。
6 香蕉MADS-box基因的进化分析
采用邻接法对来源于香蕉和水稻的MADS蛋
白质进行了系统进化分析, 结果如图3。该家族的
基因主要可以分为I型和II型两大类(Alvarez-Buylla
等2000)。在香蕉和水稻中, 属于I型的基因分别有
6个和28个, 属于II型的基因分别有60个和40个。I
型基因可根据I区序列的不同分为Mα、Mβ和Mγ
三个亚类, II型基因也可以进一步分为MIKCc和
MIKC*两个亚家族(Henschel等2002)。香蕉中有
Mα、Mβ、Mγ、MIKCc和MIKC*的蛋白质数目分别
是3、0、3、55和5条, 水稻中分别有10、8、10、35和
5条。由此可以看出香蕉和水稻的MADS-box基因
变化趋势是一致的。香蕉MADS基因家族中没有Mβ
亚类基因, 而香蕉和水稻中MADS-box的MIKC*亚
类的基因数目是相同的, 都有5条。表明MIKCc在
两类基因组比较保守, 而I型基因进化较快。
表3 香蕉MADS-box基因保守基序的序列和命名
Table 3 The sequence and name of banana MADS-box conserved motifs
基序 基序序列 基序功能名称
1 MGRGKIEIKRIENTTNRQVTFCKRRNGLLKKAYELSVLCDAEVALIVFSS MADS域
2 EAAKLRHQIQILQNANKHLMGESLSSLSVKELKQLENRLERGITRIRSKK Pfam:K-box
3 GKLYEYATDSC 未知
4 TQLMLDQMEELRKKERHLGEIN 未知
5 SKTLERYQRCCYTSQ 未知
6 MDREPTLQIGYHQFVP 未知
7 ALMSSDQDYQGNWCQ 未知
8 RLPVRISNSLLPPWM 未知
9 ELHKKVNLVRQENMELHKKVYETRGTTGSDGGSIIPYGFSF 卷曲螺旋
10 KTLEQELMEKQKIKAITQQAHWEQAQTSS 未知

图3 香蕉和水稻MADS-box基因系统进化树
Fig.3 Phylogenetic analysis of banana and rice MADS-box genes
张远森等: 香蕉MADS-Box基因家族的生物信息学分析 1039
讨  论
随着测序技术的不断发展, 涌现了大量生物
数据。利用生物信息学对基因编码蛋白进行物理
特性、序列结构和功能进行预测的必要性越高,
重要性越大(张春华等2011)。对香蕉MADS-box基
因家族进行系统进化分析, 76个水稻MADS-box蛋
白中有8个蛋白序列差异比较大, 而香蕉中有5个
蛋白进行Clustal W比对时氨基酸序列太短, 所以
删除之后再用剩下的水稻(68条)和香蕉(66条)
MADS蛋白构建系统进化树。发现香蕉MADS-
box中没有Mβ亚家族基因, 这与香蕉MADS-box基
因结构分析结果相吻合, 并没有发现只含有1个内
含子的基因。另外, 系统进化分析和基因结构分
析表明属于Mα和Mγ类的6个基因都不含有内含
子, 这也与Paenicová等(2003)分类结果相一致, 并
且这6个不含内含子的基因都属于I型基因。在II
型基因中, 只有MIKC*亚型BAMADS0201基因没有
内含子, 说明I型香蕉MADS-box基因表达丰度较II
型香蕉MADS-box基因高。此外, 还发现I型和II型
基因在香蕉和水稻中的数目存在相当大的差异,
香蕉II型基因数量约是I型基因的6倍, 水稻II型基
因数量约是I型基因的2倍。II型基因中水稻的数
量约是香蕉的三分之二, 香蕉I型基因和水稻的I型
基因差异巨大, 水稻的基因数量大约是香蕉的5倍,
说明植物I型基因呈现动态进化特征(De Bodt等
2003), 与II型基因进化特征不同。
EST分析中只有37个基因可比对到香蕉已有
的EST序列, 有15个基因的EST来源于其他植物(菠
萝、油棕、高粱、小麦、姜、菠萝和玉米)组织,
另有9个基因不能确定EST的组织来源, 这表明香
蕉MADS-box基因家族的EST分析还不成熟。本
研究基序分析中, 通过MEME设定10条待测定的
基序, 得到7条不能命名或未知功能的基序, 仅能
命名3条基序。但若设定5条待测基序, 同样有2条
基序因为序列太短而不能对其进行功能命名。另
外, 一些较长的蛋白质如BAMADS0508和BAM-
ADS1102只有两个基序, 而在系统进化树中独立为
一个分支的BAMADS0902蛋白有基序1、基序2、
基序3和基序5。
通过基序分析推测BAMADS0210、GSMUA_
Achr5P06580_001(BAMADS0504)、BAM-
ADS0602、BAMADS0908、BAMADS1005、
BAMADS1101、GSMUA_Achr11P02780_001、
GSMUA_Achr11P02790_001、GSMUA_Achr11
P21460_001、GSMUA_Achr11P21470_001、
GSMUA_Achr11P21480_001这11条蛋白的完整性
存在一定的风险, 需进一步确定完整性。搜索原
始基因组序列, 通过NCBI blast比对和GeneScan预
测 , 结果表明GSMUA_Achr11P02780_001和
GSMUA_Achr11P02790_001为一条完整的序列,
命名为: BAMADS1102, 而GSMUA_Achr11P-
21460_001、GSMUA_Achr11P21470_001和
GSMUA_Achr11P21480_001为一条完整的序列,
命名为: BAMADS1103。另有GSMUA_Achr5P-
06580_001和GSMUA_Achr5P06590_001为一条完
整的MADS-box序列, 命名为BAMADS0504。
目前MADS-box基因的功能研究, 在单子叶植
物(例如水稻)中远没有在双子叶植物(例如拟南芥)
研究得清楚和深入(崔荣峰和孟征2007)。本研究
对香蕉MADS-box基因家族进行了初步分析, 为深
入研究该基因家族的表达调控、结构和功能等提
供参考数据; 为从整体水平上弄清MADS-box转录
因子调控机制, 寻找MADS-box上游关键调控因子
奠定基础, 通过调控它们的表达来达到控制香蕉
果实成熟, 延缓香蕉采后衰老的目的。
参考文献
崔荣峰, 孟征(2007). 花同源异型MADS-box基因在被子植物中的
功能保守性和多样性. 植物学通报, 24 (1): 31~41
孔建强, 王伟, 郑晓东, 朱平, 程克棣(2007). 青蒿P450 cDNA基因的
克隆及生物信息学分析. 中国中药杂志, 32 (21): 2227~2231
刘菊华, 徐碧玉, 张建平, 贾彩红, 王甲水, 张建斌, 金志强(2012). 香
蕉基因组测序及胁迫相关功能基因研究进展. 中国生物工程
杂志, 32 (3): 110~114
刘菊华, 徐碧玉, 张静, 金志强(2010). MADS-box 转录因子的相互
作用及对果实发育和成熟的调控. 遗传, 32 (9): 893~902
王光清, 胡建广, 赵相山, 程宁辉, 钱晓茵, 杨金水(1997). 水稻愈伤
组织形态发生中的MADS盒基因的差异表达. 植物学报, 39
(11): 1035~1041
曾英, 胡金勇, 李志坚(2001). 植物MADS盒基因与花器官的进化发
育. 植物生理学通讯, 37: 281~287
张春华, 刘洪, 俞明亮, 葛安静, 董清华(2011). 草莓NAC基因家族
生物信息学分析. 基因组学与应用生物学, 30: 1261~1271
Alvarez-Buylla ER, Pelaz S, Liljegren SJ, Gold SE, Burgeff C, Ditta
GS, Pouplana LR, Martinez-Castilla L, Yanofsky MF (2000).
An ancestral MADS-box gene duplication occurred before the
divergence of plants and animals. Proc Natl Acad Sci USA, 97:
5328~5333
植物生理学报1040
Bartoš J, Alkhimova O, Doleželová M, De Langhe E, Doležel J
(2005). Nuclear genome size and genomic distribution of ribo-
somal DNA in Musa and Ensete (Musaceae): taxonomic implica-
tions. Cytogenet Genome Res, 109: 50~57
Becker A, Theißen G (2003). The major clades of MADS-box genes
and their role in the development and evolution of flowering
Plants. Mol Phylogenet Evol, 29: 464~489
Buchner P, Boutin JP (1998). A MADS-box transcription factor of the
AP1/AGL9 subfamily is also expressed in the seed coat of pea
(Pisum sativum) during development. Plant Mol Biol, 38 (6):
1253~1255
Carmona MJ, Ortega N, Garcia-Maroto F (1998). Isolation and mo-
lecular characterization of a new vegetative MADS-box gene
from Solanum tuberosum L. Planta, 207 (2): 181~188
D’Hont A, Denoeud F, Aury JM, Baurens FC, Carreel F, Garsmeur
O, Noel B, Bocs S, Droc G, Rouard M et al (2012). The banana
(Musa acuminata) genome and the evolution of monocotyledon-
ous plants. Nature, 488: 213~217
De Bodt S, Raes J, Florquin K, Rombauts S, Rouzé P, Theißen G, Van
de Peer Y (2003). Genomewide structural annotation and evolu-
tionary analysis of the Type I MADS-box genes in plants. Mol
Evol, 56: 573~586
Elitzur T, Vrebalov J, Giovannoni JJ, Goldschmidt EE, Friedman H
(2010). The regulation of MADS-box gene expression during
ripening of banana and their regulatory interaction with ethylene.
J Exp Bot, 61 (5): 1523~1535
Heck GR, Perry SE, Nichols KW, Fernandez DE (1995). AGL15, a
MADS domain protein expressed in developing embryos. Plant
Cell, 7 (8): 1271~1282
Henschel K, Kofuji R, Hasebe M, Saedler H, Munster T, Theien G
(2002). Two ancient classes of MIKC-type MADS-box genes are
present in the moss Physcomitrella patens. Mol Biol Evol, 19 (6):
801~814
Inaba A, Liu X, Yokotani N, Yamane M, Lu WJ, Nakano R, Kubo Y
(2007). Differential feedback regulation of ethylene biosynthe-
sis in pulp and peel tissues of banana fruit. J Exp Bot, 58 (5):
1047~1057
Jack T, Brockman LL, Meyerowitz EM (1992). The homeotic gene
APETALA3 of Arabidopsis thaliana encodes a MADS-box and
is expressed in petals and stamens. Cell, 68 (4): 683~697
Kang SG, Hannapel DJ (1995). Nucleotide sequences of novel potato
(Solanum tuberosum L.) MADS-box cDNAs and their expression
in vegetative organs. Gene, 166 (2): 329~330
Liu J, Xu B, Hu L, Su W, Wu J, Li M, Yang J, Jin Z (2009). Involve-
ment of a banana MADS-box transcription factor gene in ethyl-
ene-induced fruit ripening. Plant Cell Rep, 28 (1): 103~111
Messenguy F, Dubois E (2003). Role of MADS box proteins and their
cofactors in combinatorial control of gene expression and cell
development. Gene, 316: 1~21
Moffat AS (1999). Crop engineering goes south. Science, 285 (5426):
370~371
Münster T, Pahnke J, Di Rosa A, Kim JT, Martin W, Saedler H, Theis-
sen G (1997). Floral homeotic genes were recruited from homolo-
gous MADS-box genes preexisting in the common ancestor of ferns
and seed plants. Proc Natl Acad Sci USA, 94 (6): 2415~2420
Paenicová L, de Folter S, Kieffer M, Horner DS, Favalli C, Busscher
J, Cook HE, Ingram RM, Kater MM, Davies B et al (2003). Mo-
lecular and phylogenetic analyses of the complete MADS-box
transcription factor family in Arabidopsis: new openings to the
MADS world. Plant Cell, 15: 1538~1551
Pelaz S, Ditta GS, Baumann E, Wisman E, Yanofsky MF (2000).
B and C floral organ identity functions require SEPALLATA
MADS-box genes. Nature, 405: 200~203
Purugganan MD, Rounsley SD, Schmidt RJ, Yanofsky MF (1995).
Molecular evolution of flower development: diversification of
the plant MADS-box regulatory gene family. Genetics, 140:
345~356
Shore P, Sharrocks AD (1995). The MADS-box family of transcription
factors. Eur J Biochem, 229: 1~13
Theiβen G, Strater T, Fischer A, Saedler H (1995). Structural
characterization, chromosomal localization and phylogenetic
evaluation of two pairs of AGAMOUS-like MADS-box genes
from maize. Gene, 156: 155~166
Wilkinson MD, Haughn GW (1995). UNUSUAL FLORAL ORGANS
controls meristem identity and organ primordia fate in
Arabidopsis. Plant Cell, 7: 1485~1499
Wu C, Ma Q, Yam KM, Cheung MY, Xu Y, Han T, Lam HM,
Chong K (2006). In situ expression of the GmNMH7 gene is
photoperiod-dependent in a unique soybean (Glycine max [L.]
Merr.) flowering reversion system. Planta, 223: 725~735