免费文献传递   相关文献

Cloning and Bioinformatical Analysis of Dihydroflavonol 4-reductase Gene(DFR)from Petunia hybrida with Different Color

不同色彩矮牵牛DFR基因的克隆与生物信息学分析



全 文 :·研究报告·
生物技术通报
BIOTECHNOLOGY BULLETIN 2013年第9期
矮牵牛(Petunia hybrid)又名碧冬茄、番薯花、
收稿日期 : 2013-03-25
基金项目 : 中国科学院新疆理化技术研究所博士启动资金项目,中国科学院“西部之光”项目(Y12S221401),转基因特色专用棉新品种
培育(2011ZX08005-005)项目,新疆兵团博士资金项目(2012BB007)
作者简介 :朱奇朗,硕士研究生,E-mail :xiaoboli@ms.xjb.ac.cn
通讯作者 :李晓波,博士,副研究员,研究方向 :分子生物学 ;E-mail :xiaoboli@ms.xjb.ac.cn
不同色彩矮牵牛 DFR 基因的克隆与生物信息学分析
   朱奇朗1  李晓波1  肖向文1  李雪源2  黄先忠3  郑巨云2  艾先涛2
(1. 中国科学院新疆理化技术研究所 干旱区植物资源化学重点实验室,乌鲁木齐 830011 ;2. 新疆农业科学院经济作物研究所,
乌鲁木齐 830091 ;3. 石河子大学生命科学学院 农业生物技术重点实验室,石河子 832003)
摘 要 : 二氢黄酮醇 4-还原酶基因(DFR)是花色素合成途径中的一个关键基因。以新疆种植的白、红和蓝色矮牵牛为试
验材料,通过同源克隆的方法从花中克隆到 3 个完整的 DFR 基因的全长编码序列(CDS),与已知的矮牵牛 DFR 基因(GenBank
登录号 :X15537)序列的相似性分别为 97.79 %、96.59% 和 97.99%,分别命名为 PhDFR1,PhDFR2 和 PhDFR3 ;3 个基因编码
380 个氨基酸,同已知矮牵牛 DFR 基因编码的蛋白(GenBank 登录号 :CAA33544)的同源性分别是 95.53%、94.21% 和 95.79% ;
生物信息学分析表明,3 个蛋白均具有 NADB- Rossmann 家族中高度保守的 NADPH 结合位点、底物特异性结合位点。3 个矮牵牛
品种 DFR 都不具有信号肽,为亲水蛋白,定位于细胞质的可能性最高 ;均具有两个跨膜结构,α-螺旋和 β-折叠是 3 个 DFR 的主要
二级结构元件,并且形成了 β-α-β-α-β 的 Rossmann 折叠,整本上呈对称分布。利用同源建模分析 3 个 DFR 蛋白与已知葡萄的 DFR
晶体结构有很高的相似性。系统进化树分析表明,PhDFR1、PhDFR2、PhDFR3 与已知矮牵牛 DFR 蛋白亲缘关系最近。
关键词 : 矮牵牛 二氢黄酮醇 4-还原酶 同源克隆 生物信息学分析
Cloning and Bioinformatical Analysis of Dihydroflavonol 4-reductase
Gene(DFR)from Petunia hybrida with Different Color
Zhu Qilang1 Li Xiaobo1 Xiao Xiangwen1 Li Xueyuan 2 Huang Xianzhong3 Zheng Juyun 2 Ai Xiantao 2
(1. Key Laboratory of Chemistry of Plant Resources in Arid Regions,Xinjiang Technical Institute of Physics and Chemistry,Chinese Academy of
Sciences,Urumqi 830011 ;2 .Economic Crop Research Institute,Xinjiang Academy of Agricultural Sciences,Urumqi 830091 ;
3. Key Laboratory of Agrobiotechnology,College of Life Sciences,Shihezi University,Shihezi 832003)
Abstract:  In this study, through homologous gene cloning technology, three complete CDSs encoding dihydroflavonol 4-reductase(DFR),
a key enzyme in the pathway of anthocyanin biosynthesis, were cloned from the corolla with white, red and blue color of petunia hybrid planted
in Xinjiang respectively, and named PhDFR1, PhDFR2 and PhDFR3. Homology alignment indicated that the nucleotide similarity of the three
DFRs is 97.79 %、96.59% and 97.99% with another DFRA gene from Petunia hybrida(GenBank access number :X15537). All these DFR
CDSs encoded a polypeptide composed of 380 amino acid residues. The amino acid residues similarity of the three DFRs is 95.53 %、94.21%
and 95.79% with DFRA protein(GenBank access number :CAA33544). DFRs of the three Petunia hybrida strains with different flower color
contain a highly conserved NADP(H)-binding site and substrate specificity site which belong to NADB-Rossmann superfamily. They are
stable proteins without signal peptide and are hydrophilic proteins probably located in cytoplasm. All of them have two transmembrane domains.
α-helix and β-sheet are primary secondary structural components of DFR. The β-α-β-α-β structures forming Rossmann folding are symmetrically
distributed on the whole. The phylogenyetic analysis of DFR proteins from different species revealed that three DFRs have closer relationship
with the DFR from Dianthus caryophyllus than from the other plant species.
Key words:  Petunia hybrida Dihydroflavonol 4-reductase Homologous gene cloning Bioinformatical analysis
洋牡丹,为茄科碧冬茄属植物。自 1803 年 Jusseau
2013年第9期 69朱奇朗等 :不同色彩矮牵牛 DFR 基因的克隆与生物信息学分析
确定矮牵牛属以来,已发现 30 多种矮牵牛。矮牵牛
花朵硕大,色彩丰富,花型变化颇多,已成为重要
的园艺花卉植物,在世界各地广泛栽培。此外,矮
牵牛植株易再生,遗传背景清楚,是研究植物花色
的模式植物。
植物呈现不同的花色,主要由植物次生代谢产
物——花色素决定,它是由苯丙氨酸为起始化合物,
通过类黄酮合成途径中的一系列酶作用下,合成包
括天竺葵色素、矢车菊色素、飞燕草色素、芍药色
素、牵牛色素、锦葵色素及其衍生物[1],积累在维
管植物液泡中,不同的花色素形成了从红色到紫色
等各种不同的颜色[2]。目前,通过拟南芥、金鱼
草和矮牵牛等模式植物,克隆了合成花色素的关键
酶,包括查尔酮合成酶(chalcone synthase,CHS)、
查尔酮黄烷酮异构酶(chalcone flavanone isomerase,
CHI)、黄烷酮 -3-羟化酶(flavanone 3-hydroxylase,
F3 H)、 二 氢 黄 酮 醇 -4 还 原 酶(dihydroflavonol 4-
reduc -tase,DFR)、 花 青 素 合 成 酶(anthocyanidin
synthase,ANS)、类黄酮 -3,5-羟基化酶(Flavono
-id-3,5- hydroxylase,F3 5H)、类黄酮 -3-O-糖基
转移酶(Flavonoid-3-O-glucosyltransferas,3GT)等(图
1)。其中,DFR 是最终形成色素的关键酶[3]。
与金鱼草的 DFR 基因有较高的同源性。通过与基
因 组 杂 交, 获 得 3 个 DFR 基 因,DFRA(GenBank
登 录 号 :X15537.1),DFRB(GenBank 登 录 号 :
EU189078.1),DFRC(GenBank 登录号 :S44589.1),
分别定位到矮牵牛的第 4、第 2 和第 6 染色体上,
并对 DFRA 基因做了表达特性及初步的蛋白功能研
究。此外,相关研究从蓝紫色的矮牵牛中克隆得到
了 DFR 基因(GenBank 登录号 :AF233639)全长编
码序列(CDS);司爱君等[5]也用同一颜色的矮牵
牛克隆得到与之同源性很高的 DFR 基因,并构建载
体进行遗传转化。
花色素合成途径中将二氢黄酮醇转化成为花色
素是最复杂的一步,而 DFR 在不同的物种间,甚至
同一物种间,基因序列及蛋白功能有一定的差异。
本试验利用同源克隆技术,从白色、红色和蓝色的
矮牵牛花中克隆了 DFR 基因,进一步利用生物信息
学技术对蛋白进行分析,为该基因表达和功能研究
奠定基础,也为更多物种的色彩改良提供基因资源。
1 材料与方法
1.1 材料
矮牵牛的 3 个品种的颜色见图 2。分别取新鲜
的 3 种花瓣迅速放入液氮中,-80℃保存。
ഋ㗏สḕቄ䞞
щҼ䞠CoA
㣩㨌㍐ ḊⳞ㍐
CHS
CHI
FNS
F3H FLS
DFR DFR
ANSANS
GT
AT
GT
AT
DFR
ANS
FLSFLS
F3˃ 5˃ H
F3˃ 5˃ H
F3˃ 5˃ H
F3˃ 5˃ H
F3˃ H
F3˃ H
GT
AT
ኡླྀ䞊
Ҽ≒ኡླྀ䞊
ཙㄪ㪥㢢㍐
ཙㄪ㪥㍐㌆㤧
⸒䖖㧺㢢㍐ 伎⠅㥹㢢㍐
伎⠅㥹㍐㌆㤧⸒䖖㧺㍐㌆㤧
Ҽ≒•Ⳟ㍐ Ҽ≒ᶘẵ㍐
ᶘẵ㍐•Ⳟ㍐
4俉䉶䞠CoA 4俉䉶䞨 㚹Ṳ䞨 㤟щ≘䞨4CL CH4 PAL
PAL :苯丙氨酸脱氨酶 ;CH4 :肉桂酸羧化酶 ;4CL :4- 香豆酰 CoA 连接酶 ;
CHS :查尔酮合成酶 ;CHI ;查尔酮黄烷酮异构酶 ;F3H :黄酮 3- 羟基化酶 ;
FNS :黄酮合成酶 ;FLS :黄酮醇合成酶 ;F3 H :类黄酮 -3- 羟基酶 ;F3 5
H :类黄酮 3,5 羟基化酶 ;DFR :二氢黄酮醇 -4- 还原酶 ;3GT :类黄酮 -3,
O- 糖基转移酶 ;ANS :花色素苷合成酶
图 1 花色素合成途径
Marcel 等[4]以矮牵牛 V30 系为材料,利用矮牵
牛花冠 cDNA 文库筛选到了一个近乎全长的 cDNA,
A B C
图 2 白色(A)、红色(B)和蓝色(C)矮牵牛
1.2 方法
1.2.1 RNA 的提取与反转录 矮牵牛花瓣总 RNA
的提取采用热硼酸 / 蛋白酶 K 法[6,7]。总 RNA 提取后,
DNase Ⅰ处理,除去 gDNA。按照 TIANGEN 公司的
FastQuant cDNA 快速反转录试剂盒使用方法进行合
成 cDNA 第一条链,20 μL PCR 反应体系含有 :模板
总 RNA 量为 1 μg ;2 μL 的 dNTP(20 mmol/L);5 μL
的 5 × RT buffer ;1 μL 的 RNase 抑制剂(40 U/μL);
1 μL 的 M-MLV 反转录酶(200 U/μL);Oligo(dT)18
引 物 2 μL ;利 用 RNase -Free ddH2O 补 足 至 20 μL。
生物技术通报 Biotechnology Bulletin 2013年第9期70
PCR 反应程序:37℃ 10 min,42℃ 1 h,99℃ 5 min,4℃
10 min。合成后的第一链 cDNA 保存在 -20℃,备用。
1.2.2 引 物 的 设 计 与 3 种 矮 牵 牛 花 的 DFR 的 克
隆 与 测 序 根 据 NCBI 上 的 已 知 序 列( 登 录 号 :
X15537)由 Primer5.0 软件设计一对引物,序列为
M-F1 :GGATCCTTAAGTCCGACTTTCCAACTTCC 与
M-R1 :TCTAGAGCTGCCCGTAA TTT AGCAAGAC。
以反转录获得的 cDNA 为模板进行 PCR 扩增,体系
为 20 μL,包括 10 × PCR Buffer,2 mmol/L dNTP,
1.5 mmol/L MgCl2, 上 下 游 引 物 各 0.2 μmol/L,1 U
Taq DNA 聚合酶(鼎国)扩增程序 :95℃ 预变性 3
min ;94℃ 45 s,55℃ 30 s,72℃ 95 s,35 个循环 ;
72℃延伸 10 min。PCR 产物经 2% 琼脂糖凝胶电泳
后,用鼎国公司的胶回收试剂盒回收 DNA,连入
Promega 公司 pGEM-T Easy 载体,转化到大肠杆菌
DH5α 的感受态细胞中,通过蓝白斑筛选获得阳性
株后,进行菌液 PCR 验证,最后提取质粒鉴定后送
TaKaRa 公司测序。
1.2.3 生 物 信 息 学 分 析 DNAMAN software 分 析
DNA 序列,在 NCBI 数据库中的 BLAST 进行核苷酸
与蛋白质序列比对。NCBI 的 CDD 软件分析蛋白的
保守区域。利用 http ://www.expasy.org/tools/ 网站中
的相关软件进行蛋白质的性质分析。ProtParam 分
析蛋白分子量、等电点、氨基酸的组成 ;SignalP4.1
Server 分 析 信 号 肽 ;ProtScale 分 析 亲 水 性 / 疏 水
性。PSORT Ⅱ Prediction 对两品种进行亚细胞定位。
TMHMM 软件分析蛋白的跨膜结构预测。CFSSP 软
件进行二级结构的预测。NetNGlyc 1. 0 Server 软件
分析蛋白的糖基化位点。Netphos 2.0 server 分析蛋白
的磷酸化位点。Clustalx 1.83 软件构建 DFR 的进化
树。提交 PhDFR2 基因所编码的蛋白序列到 SWISS-
MODEL 服务器(http ://swissmodel.expasy.org/)进行
自动建模(Automated Mode),得到蛋白的三维结构。
2 结果
2.1 DFR基因的克隆与测序
根据设计的引物,分别以 3 种矮牵牛的花瓣
cDNA 为模板进行扩增,获得约为 1 500 bp 的目标片
段,电泳检测结果如图 3。将片段回收后,分别测序,
得到白色的目的基因片段长为 1 337 bp,红色的目
的基因片段长为 1 414 bp,蓝色的目的基因片段长
度为 1 435 bp。
1500
1500
bp M 1 2 3
900
700
M :1500 maker 2 ;1 :白色矮牵牛 ;2 :红色矮牵牛 ;3 :蓝色矮牵牛
图 3 三种色彩品种矮牵牛 DFR 的扩增结果
2.2 序列分析
测序结果表明,3 个目的基因片段均具有完整
的 CDS 区, 长 度 均 为 1 142 bp。3 个 序 列 在 NCBI
上进行 BLAST 比对,结果(图 4)显示同已知的
矮 牵 牛 DFR 基 因(GenBank 登 录 号 :X15537 和
AF233639)有较高的相似性。
3 个目的基因都比 X15537 的 CDS 序列在起始
多出了 19 个碱基,在 40 位和 47 位上有 G、C 两个
碱基插入,在其它位点还有单碱基差异。白色和蓝
色的序列与 X15537 相似性均为 99.3% ;红色的序
列与 X15537 相似性为 96.59%。将所克隆得到的序
列提交 GenBank,并将白色矮牵牛基因序列命名为
PhDFR1(GenBank 登录号 :KC464483)、红色命名
为 PhDFR2(GenBank 登录号 :KC464 484)、蓝色命
名为 PhDFR3(GenBank 登录号 :KC464485)。
序列分析表明,克隆得到的 3 个基因 CDS 编码
380 个氨基酸,见图 5。白色、红色和蓝色分别与已
知的 DFR 基因所编码的蛋白(登录号 CAA33544)
的同源性为 95.53%、94.21% 和 95.79% ;
DFR 蛋白属于 SDR 蛋白家族,是 NADB-Rossm-
ann 超 基 因 家 族(NADB-Rossmann super-family) 中
的一个,该基因家族有两个高度保守功能结构域—
NADP 的结合功能域和底物特异结合功能域。利用
NCBI 的 CDD 在线分析克隆得到的 3 个基因所编码
蛋白的功能结构域(图 6),3 个基因编码的蛋白在
N 端 20 到 40 位的氨基酸处有 NADP 的结合功能域
“VTGAVGFIGS WIVMRLLERGY ”,以及 126 到 186
位的氨基酸处有底物特异结合功能域“KANTVKRLV
2013年第9期 71朱奇朗等 :不同色彩矮牵牛 DFR 基因的克隆与生物信息学分析
79AF233639.txt
79X15537CDS.txt
100PhDFR1.txt
100PhDFR2.txt
100PhDFR3.txt
Consensus
.
.
A
A
A
.
.
T
T
T
.
.
G
G
G
.
.
G
G
G
.
.
C
C
C
.
.
A
A
A
.
.
A
A
A
.
.
G
G
G
.
.
T
T
T
.
.
G
G
G
.
.
A
A
A
.
.
A
A
A
.
.
G
G
G
.
.
C
C
C
.
.
A
A
A
.
.
G
G
G
.
.
T
T
T
.
.
T
T
T
.
.
C
C
C
a
A
A
A
A
A
t
T
T
T
T
T
g
G
G
G
G
G
c
C
C
C
C
C
c
C
C
C
C
C
c
C
C
C
C
C
c
C
C
C
C
C
t
T
T
T
T
T
t
T
T
T
T
T
c
C
C
C
C
C
A
A
A
T
A
c
C
C
C
C
C
c
C
C
C
C
C
t
T
T
T
T
T
c
C
C
C
C
C
c
C
C
C
C
C
G
G
G
A
G
g
G
G
G
G
G
t
T
T
T
T
T
g
G
G
G
G
G
.
.
G
G
G
c
C
C
C
C
C
a
A
A
A
A
A
g
G
G
G
G
G
t
T
T
T
T
T
g
G
G
G
G
G
c
C
C
C
C
C
.
.
C
C
C
g
G
G
G
G
G
a
A
A
A
A
A
c
C
C
C
C
C
a
A
A
A
A
A
g
G
G
G
G
G
t
T
T
T
T
T
t
T
T
T
T
T
t
T
T
T
T
T
g
G
G
G
G
G
c
C
C
C
C
C
g
G
G
G
G
G
t
T
T
T
T
T
c
C
C
C
C
C
a
A
A
A
A
A
c
C
C
C
C
C
t
T
T
T
T
T
g
G
G
G
G
G
g
G
G
G
G
G
a
A
A
A
A
A
g
G
G
G
G
G
c
C
C
C
C
C
t
T
T
T
T
T
g
G
G
G
G
G
c
C
C
C
C
C
t
T
T
T
T
T
g
G
G
G
G
G
g
G
G
G
G
G
a
A
A
A
A
A
t
T
T
T
T
T
t
T
T
T
T
T
t
T
T
T
T
T
a
A
A
A
A
A
t
T
T
T
T
T
t
T
T
T
T
T
g
G
G
G
G
G
g
G
G
G
G
G
c
C
C
C
C
C
t
T
T
T
T
T
c
C
C
C
C
C
t
T
T
T
T
T
t
T
T
T
T
T
g
G
G
G
G
G
g
G
G
G
G
G
c
C
C
C
C
C
t
T
T
T
T
T
t
T
T
T
T
T
g
G
G
G
G
G
t
T
T
T
T
T
c
C
C
C
C
C
a
A
A
A
A
A
t
T
T
T
T
T
g
G
G
G
G
G
a
A
A
A
A
A
179AF233639.txt
179X15537CDS.txt
200PhDFR1.txt
200PhDFR2.txt
200PhDFR3.txt
Consensus g
G
G
G
G
G
a
A
A
A
A
A
c
C
C
C
C
C
t
T
T
T
T
T
c
C
C
C
C
C
c
C
C
C
C
C
t
T
T
T
T
T
t
T
T
T
T
T
g
G
G
G
G
G
a
A
A
A
A
A
a
A
A
A
A
A
c
C
C
C
C
C
g
G
G
G
G
G
c
C
C
C
C
C
g
G
G
G
G
G
g
G
G
G
G
G
T
T
T
C
T
t
T
T
T
T
T
a
A
A
A
A
A
c
C
C
C
C
C
a
A
A
A
A
A
a
A
A
A
A
A
t
T
T
T
T
T
g
G
G
G
G
G
t
T
T
T
T
T
t
T
T
T
T
T
c
C
C
C
C
C
a
A
A
A
A
A
c
C
C
C
C
C
g
G
G
G
G
G
c
C
C
C
C
C
t
T
T
T
T
T
a
A
A
A
A
A
c
C
C
C
C
C
t
T
T
T
T
T
g
G
G
G
G
G
t
T
T
T
T
T
t
T
T
T
T
T
c
C
C
C
C
C
g
G
G
G
G
G
t
T
T
T
T
T
g
G
G
G
G
G
a
A
A
A
A
A
t
T
T
T
T
T
c
C
C
C
C
C
c
C
C
C
C
C
t
T
T
T
T
T
g
G
G
G
G
G
a
A
A
A
A
A
g
G
G
G
G
G
a
A
A
A
A
A
a
A
A
A
A
A
c
C
C
C
C
C
a
A
A
A
A
A
a
A
A
A
A
A
g
G
G
G
G
G
a
A
A
A
A
A
a
A
A
A
A
A
g
G
G
G
G
G
a
A
A
A
A
A
a
A
A
A
A
A
g
G
G
G
G
G
g
G
G
G
G
G
t
T
T
T
T
T
g
G
G
G
G
G
a
A
A
A
A
A
a
A
A
A
A
A
a
A
A
A
A
A
c
C
C
C
C
C
a
A
A
A
A
A
t
T
T
T
T
T
c
C
C
C
C
C
t
T
T
T
T
T
g
G
G
G
G
G
c
C
C
C
C
C
t
T
T
T
T
T
g
G
G
G
G
G
g
G
G
G
G
G
a
A
A
A
A
A
a
A
A
A
A
A
C
C
C
T
C
t
T
T
T
T
T
g
G
G
G
G
G
c
C
C
C
C
C
c
C
C
C
C
C
a
A
A
A
A
A
a
A
A
A
A
A
a
A
A
A
A
A
g
G
G
G
G
G
g
G
G
G
G
G
c
C
C
C
C
C
t
T
T
T
T
T
g
G
G
G
G
G
a
A
A
A
A
A
t
T
T
T
T
T
a
A
A
A
A
A
c
C
C
C
C
C
g
G
G
G
G
G
a
A
A
A
A
A
a
A
A
A
A
A
279AF233639.txt
279X15537CDS.txt
300PhDFR1.txt
300PhDFR2.txt
300PhDFR3.txt
Consensus c
C
C
C
C
C
t
T
T
T
T
T
t
T
T
T
T
T
a
A
A
A
A
A
a
A
A
A
A
A
c
C
C
C
C
C
a
A
A
A
A
A
c
C
C
C
C
C
t
T
T
T
T
T
g
G
G
G
G
G
t
T
T
T
T
T
G
T
G
G
G
g
G
G
G
G
G
a
A
A
A
A
A
a
A
A
A
A
A
a
A
A
A
A
A
g
G
G
G
G
G
c
C
C
C
C
C
g
G
G
G
G
G
g
G
G
G
G
G
a
A
A
A
A
A
c
C
C
C
C
C
t
T
T
T
T
T
t
T
T
T
T
T
g
G
G
G
G
G
a
A
A
A
A
A
c
C
C
C
C
C
a
A
A
A
A
A
g
G
G
G
G
G
t
T
T
T
T
T
a
A
A
A
A
A
g
G
G
G
G
G
a
A
A
A
A
A
a
A
A
A
A
A
g
G
G
G
G
G
g
G
G
G
G
G
a
A
A
A
A
A
a
A
A
A
A
A
g
G
G
G
G
G
c
C
C
C
C
C
t
T
T
T
T
T
t
T
T
T
T
T
t
T
T
T
T
T
g
G
G
G
G
G
a
A
A
A
A
A
c
C
C
C
C
C
g
G
G
G
G
G
a
A
A
A
A
A
g
G
G
G
G
G
g
G
G
G
G
G
c
C
C
C
C
C
c
C
C
C
C
C
a
A
A
A
A
A
t
T
T
T
T
T
t
T
T
T
T
T
c
C
C
C
C
C
a
A
A
A
A
A
a
A
A
A
A
A
g
G
G
G
G
G
g
G
G
G
G
G
c
C
C
C
C
C
t
T
T
T
T
T
g
G
G
G
G
G
t
T
T
T
T
T
c
C
C
C
C
C
a
A
A
A
A
A
a
A
A
A
A
A
g
G
G
G
G
G
g
G
G
G
G
G
a
A
A
A
A
A
g
G
G
G
G
G
t
T
T
T
T
T
a
A
A
A
A
A
t
T
T
T
T
T
t
T
T
T
T
T
t
T
T
T
T
T
c
C
C
C
C
C
a
A
A
A
A
A
t
T
T
T
T
T
g
G
G
G
G
G
t
T
T
T
T
T
a
A
A
A
A
A
g
G
G
G
G
G
c
C
C
C
C
C
a
A
A
A
A
A
a
A
A
A
A
A
c
C
C
C
C
C
a
A
A
A
A
A
c
C
C
C
C
C
c
C
C
C
C
C
t
T
T
T
T
T
a
A
A
A
A
A
t
T
T
T
T
T
g
G
G
G
G
G
g
G
G
G
G
G
a
A
A
A
A
A
t
T
T
T
T
T
t
T
T
T
T
T
t
T
T
T
T
T
c
C
C
C
C
C
379AF233639.txt
379X15537CDS.txt
400PhDFR1.txt
400PhDFR2.txt
400PhDFR3.txt
Consensus g
G
G
G
G
G
a
A
A
A
A
A
g
G
G
G
G
G
t
T
T
T
T
T
c
C
C
C
C
C
c
C
C
C
C
C
a
A
A
A
A
A
a
A
A
A
A
A
a
A
A
A
A
A
g
G
G
G
G
G
a
A
A
A
A
A
c
C
C
C
C
C
c
C
C
C
C
C
c
C
C
C
C
C
t
T
T
T
T
T
g
G
G
G
G
G
a
A
A
A
A
A
g
G
G
G
G
G
a
A
A
A
A
A
a
A
A
A
A
A
t
T
T
T
T
T
g
G
G
G
G
G
a
A
A
A
A
A
a
A
A
A
A
A
g
G
G
G
G
G
t
T
T
T
T
T
G
A
A
A
A
a
A
A
A
A
A
t
T
T
T
T
T
c
C
C
C
C
C
a
A
A
A
A
A
a
A
A
A
A
A
g
G
G
G
G
G
c
C
C
C
C
C
c
C
C
C
C
C
a
A
A
A
A
A
a
A
A
A
A
A
c
C
C
C
C
C
a
A
A
A
A
A
g
G
G
G
G
G
t
T
T
T
T
T
c
C
C
C
C
C
c
C
C
C
C
C
g
G
G
G
G
G
g
G
G
G
G
G
g
G
G
G
G
G
g
G
G
G
G
G
a
A
A
A
A
A
a
A
A
A
A
A
t
T
T
T
T
T
g
G
G
G
G
G
c
C
C
C
C
C
t
T
T
T
T
T
a
A
A
A
A
A
a
A
A
A
A
A
g
G
G
G
G
G
c
C
C
C
C
C
a
A
A
A
A
A
t
T
T
T
T
T
c
C
C
C
C
C
a
A
A
A
A
A
t
T
T
T
T
T
t
T
T
T
T
T
g
G
G
G
G
G
a
A
A
A
A
A
a
A
A
A
A
A
t
T
T
T
T
T
c
C
C
C
C
C
a
A
A
A
A
A
t
T
T
T
T
T
g
G
G
G
G
G
t
T
T
T
T
T
g
G
G
G
G
G
c
C
C
C
C
C
t
T
T
T
T
T
a
A
A
A
A
A
a
A
A
A
A
A
a
A
A
A
A
A
g
G
G
G
G
G
c
C
C
C
C
C
a
A
A
A
A
A
a
A
A
A
A
A
a
A
A
A
A
A
c
C
C
C
C
C
a
A
A
A
A
A
c
C
C
C
C
C
a
A
A
A
A
A
g
G
G
G
G
G
t
T
T
T
T
T
g
G
G
G
G
G
a
A
A
A
A
A
a
A
A
A
A
A
g
G
G
G
G
G
a
A
A
A
A
A
g
G
G
G
G
G
g
G
G
G
G
G
c
C
C
C
C
C
t
T
T
T
T
T
g
G
G
G
G
G
g
G
G
G
G
G
479AF233639.txt
479X15537CDS.txt
500PhDFR1.txt
500PhDFR2.txt
500PhDFR3.txt
Consensus t
T
T
T
T
T
t
T
T
T
T
T
t
T
T
T
T
T
t
T
T
T
T
T
c
C
C
C
C
C
a
A
A
A
A
A
c
C
C
C
C
C
t
T
T
T
T
T
t
T
T
T
T
T
c
C
C
C
C
C
a
A
A
A
A
A
t
T
T
T
T
T
c
C
C
C
C
C
t
T
T
T
T
T
g
G
G
G
G
G
c
C
C
C
C
C
t
T
T
T
T
T
g
G
G
G
G
G
g
G
G
G
G
G
a
A
A
A
A
A
a
A
A
A
A
A
c
C
C
C
C
C
t
T
T
T
T
T
c
C
C
C
C
C
t
T
T
T
T
T
c
C
C
C
C
C
g
G
G
G
G
G
a
A
A
A
A
A
t
T
T
T
T
T
g
G
G
G
G
G
t
T
T
T
T
T
g
G
G
G
G
G
c
C
C
C
C
C
a
A
A
A
A
A
a
A
A
A
A
A
g
G
G
G
G
G
a
A
A
A
A
A
g
G
G
G
G
G
c
C
C
C
C
C
a
A
A
A
A
A
a
A
A
A
A
A
c
C
C
C
C
C
a
A
A
A
A
A
a
A
A
A
A
A
a
A
A
A
A
A
a
A
A
A
A
A
a
A
A
A
A
A
c
C
C
C
C
C
t
T
T
T
T
T
t
T
T
T
T
T
t
T
T
T
T
T
t
T
T
T
T
T
c
C
C
C
C
C
t
T
T
T
T
T
a
A
A
A
A
A
t
T
T
T
T
T
g
G
G
G
G
G
a
A
A
A
A
A
c
C
C
C
C
C
c
C
C
C
C
C
a
A
A
A
A
A
g
G
G
G
G
G
a
A
A
A
A
A
c
C
C
C
C
C
c
C
C
C
C
C
a
A
A
A
A
A
g
G
G
G
G
G
c
C
C
C
C
C
t
T
T
T
T
T
g
G
G
G
G
G
g
G
G
G
G
G
a
A
A
A
A
A
g
G
G
G
G
G
c
C
C
C
C
C
g
G
G
G
G
G
a
A
A
A
A
A
c
C
C
C
C
C
t
T
T
T
T
T
t
T
T
T
T
T
g
G
G
G
G
G
g
G
G
G
G
G
a
A
A
A
A
A
c
C
C
C
C
C
t
T
T
T
T
T
t
T
T
T
T
T
c
C
C
C
C
C
a
A
A
A
A
A
t
T
T
T
T
T
a
A
A
A
A
A
t
T
T
T
T
T
a
A
A
A
A
A
t
T
T
T
T
T
g
G
G
G
G
G
c
C
C
C
C
C
t
T
T
T
T
T
a
A
A
A
A
A
a
A
A
A
A
A
g
G
G
G
G
G
a
A
A
A
A
A
a
A
A
A
A
A
579AF233639.txt
579X15537CDS.txt
600PhDFR1.txt
600PhDFR2.txt
600PhDFR3.txt
Consensus g
G
G
G
G
G
a
A
A
A
A
A
t
T
T
T
T
T
g
G
G
G
G
G
a
A
A
A
A
A
c
C
C
C
C
C
a
A
A
A
A
A
g
G
G
G
G
G
g
G
G
G
G
G
a
A
A
A
A
A
t
T
T
T
T
T
g
G
G
G
G
G
g
G
G
G
G
G
a
A
A
A
A
A
t
T
T
T
T
T
g
G
G
G
G
G
t
T
T
T
T
T
a
A
A
A
A
A
t
T
T
T
T
T
t
T
T
T
T
T
t
T
T
T
T
T
t
T
T
T
T
T
g
G
G
G
G
G
C
C
C
T
C
t
T
T
T
T
T
t
T
T
T
T
T
c
C
C
C
C
C
c
C
C
C
C
C
a
A
A
A
A
A
a
A
A
A
A
A
g
G
G
G
G
G
a
A
A
A
A
A
t
T
T
T
T
T
a
A
A
A
A
A
c
C
C
C
C
C
T
T
C
T
T
g
G
G
G
G
G
g
G
G
G
G
G
c
C
C
C
C
C
A
A
A
A
G
g
G
G
G
G
G
a
A
A
A
A
A
g
G
G
G
G
G
a
A
A
A
A
A
a
A
A
A
A
A
a
A
A
A
A
A
G
G
G
T
G
c
C
C
C
C
C
c
C
C
C
C
C
g
G
G
G
G
G
c
C
C
C
C
C
a
A
A
A
A
A
a
A
A
A
A
A
t
T
T
T
T
T
g
G
G
G
G
G
g
G
G
G
G
G
a
A
A
A
A
A
a
A
A
A
A
A
g
G
G
G
G
G
a
A
A
A
A
A
a
A
A
A
A
A
G
G
G
A
G
c
C
C
C
C
C
t
T
T
T
T
T
a
A
A
A
A
A
a
A
A
A
A
A
a
A
A
A
A
A
a
A
A
A
A
A
a
A
A
A
A
A
g
G
G
G
G
G
a
A
A
A
A
A
a
A
A
A
A
A
g
G
G
G
G
G
a
A
A
A
A
A
a
A
A
A
A
A
c
C
C
C
C
C
a
A
A
A
A
A
t
T
T
T
T
T
t
T
T
T
T
T
g
G
G
G
G
G
a
A
A
A
A
A
t
T
T
T
T
T
t
T
T
T
T
T
t
T
T
T
T
T
c
C
C
C
C
C
a
A
A
A
A
A
t
T
T
T
T
T
t
T
T
T
T
T
a
A
A
A
A
A
g
G
G
G
G
G
c
C
C
C
C
C
a
A
A
A
A
A
t
T
T
T
T
T
c
C
C
C
C
C
a
A
A
A
A
A
t
T
T
T
T
T
a
A
A
A
A
A
c
C
C
C
C
C
c
C
C
C
C
C
a
A
A
A
A
A
679AF233639.txt
679X15537CDS.txt
700PhDFR1.txt
700PhDFR2.txt
700PhDFR3.txt
Consensus c
C
C
C
C
C
c
C
C
C
C
C
a
A
A
A
A
A
c
C
C
C
C
C
t
T
T
T
T
T
g
G
G
G
G
G
g
G
G
G
G
G
t
T
T
T
T
T
t
T
T
T
T
T
g
G
G
G
G
G
t
T
T
T
T
T
t
T
T
T
T
T
g
G
G
G
G
G
g
G
G
G
G
G
t
T
T
T
T
T
c
C
C
C
C
C
c
C
C
C
C
C
a
A
A
A
A
A
t
T
T
T
T
T
t
T
T
T
T
T
c
C
C
C
C
C
a
A
A
A
A
A
t
T
T
T
T
T
c
C
C
C
C
C
a
A
A
A
A
A
c
C
C
C
C
C
a
A
A
A
A
A
c
C
C
C
C
C
c
C
C
C
C
C
t
T
T
T
T
T
a
A
A
A
A
A
c
C
C
C
C
C
a
A
A
A
A
A
t
T
T
T
T
T
t
T
T
T
T
T
t
T
T
T
T
T
c
C
C
C
C
C
c
C
C
C
C
C
C
C
C
A
C
c
C
C
C
C
C
c
C
C
C
C
C
t
T
T
T
T
T
a
A
A
A
A
A
g
G
G
G
G
G
t
T
T
T
T
T
t
T
T
T
T
T
t
T
T
T
T
T
a
A
A
A
A
A
a
A
A
A
A
A
t
T
T
T
T
T
c
C
C
C
C
C
a
A
A
A
A
A
c
C
C
C
C
C
t
T
T
T
T
T
g
G
G
G
G
G
c
C
C
C
C
C
c
C
C
C
C
C
c
C
C
C
C
C
t
T
T
T
T
T
t
T
T
T
T
T
t
T
T
T
T
T
c
C
C
C
C
C
a
A
A
A
A
A
c
C
C
C
C
C
t
T
T
T
T
T
a
A
A
A
A
A
a
A
A
A
A
A
t
T
T
T
T
T
t
T
T
T
T
T
a
A
A
A
A
A
c
C
C
C
C
C
t
T
T
T
T
T
g
G
G
G
G
G
g
G
G
G
G
G
g
G
G
G
G
G
a
A
A
A
A
A
a
A
A
A
A
A
t
T
T
T
T
T
g
G
G
G
G
G
a
A
A
A
A
A
a
A
A
A
A
A
g
G
G
G
G
G
c
C
C
C
C
C
t
T
T
T
T
T
c
C
C
C
C
C
a
A
A
A
A
A
t
T
T
T
T
T
t
T
T
T
T
T
a
A
A
A
A
A
c
C
C
C
C
C
t
T
T
T
T
T
g
G
G
G
G
G
c
C
C
C
C
C
a
A
A
A
A
A
t
T
T
T
T
T
c
C
C
C
C
C
a
A
A
A
A
A
t
T
T
T
T
T
t
T
T
T
T
T
a
A
A
A
A
A
779AF233639.txt
779X15537CDS.txt
800PhDFR1.txt
800PhDFR2.txt
800PhDFR3.txt
Consensus a
A
A
A
A
A
a
A
A
A
A
A
c
C
C
C
C
C
a
A
A
A
A
A
a
A
A
A
A
A
g
G
G
G
G
G
g
G
G
G
G
G
t
T
T
T
T
T
c
C
C
C
C
C
a
A
A
A
A
A
a
A
A
A
A
A
t
T
T
T
T
T
a
A
A
A
A
A
t
T
T
T
T
T
g
G
G
G
G
G
t
T
T
T
T
T
g
G
G
G
G
G
c
C
C
C
C
C
a
A
A
A
A
A
t
T
T
T
T
T
t
T
T
T
T
T
t
T
T
T
T
T
g
G
G
G
G
G
g
G
G
G
G
G
a
A
A
A
A
A
t
T
T
T
T
T
g
G
G
G
G
G
a
A
A
A
A
A
t
T
T
T
T
T
c
C
C
C
C
C
t
T
T
T
T
T
t
T
T
T
T
T
t
T
T
T
T
T
g
G
G
G
G
G
t
T
T
T
T
T
g
G
G
G
G
G
a
A
A
A
A
A
g
G
G
G
G
G
g
G
G
G
G
G
c
C
C
C
C
C
t
T
T
T
T
T
c
C
C
C
C
C
a
A
A
A
A
A
c
C
C
C
C
C
a
A
A
A
A
A
t
T
T
T
T
T
a
A
A
A
A
A
t
T
T
T
T
T
t
T
T
T
T
T
c
C
C
C
C
C
c
C
C
C
C
C
t
T
T
T
T
T
g
G
G
G
G
G
t
T
T
T
T
T
a
A
A
A
A
A
t
T
T
T
T
T
g
G
G
G
G
G
a
A
A
A
A
A
g
G
G
G
G
G
c
C
C
C
C
C
a
A
A
A
A
A
c
C
C
C
C
C
c
C
C
C
C
C
c
C
C
C
C
C
c
C
C
C
C
C
a
A
A
A
A
A
a
A
A
A
A
A
g
G
G
G
G
G
g
G
G
G
G
G
c
C
C
C
C
C
a
A
A
A
A
A
g
G
G
G
G
G
a
A
A
A
A
A
t
T
T
T
T
T
g
G
G
G
G
G
g
G
G
G
G
G
a
A
A
A
A
A
a
A
A
A
A
A
g
G
G
G
G
G
a
A
A
A
A
A
t
T
T
T
T
T
t
T
T
T
T
T
c
C
C
C
C
C
a
A
A
A
A
A
t
T
T
T
T
T
t
T
T
T
T
T
t
T
T
T
T
T
g
G
G
G
G
G
c
C
C
C
C
C
t
T
T
T
T
T
c
C
C
C
C
C
g
G
G
G
G
G
t
T
T
T
T
T
c
C
C
C
C
C
c
C
C
C
C
C
c
C
C
C
C
C
a
A
A
A
A
A
c
C
C
C
C
C
c
C
C
C
C
C
a
A
A
A
A
A
879AF233639.txt
879X15537CDS.txt
900PhDFR1.txt
900PhDFR2.txt
900PhDFR3.txt
Consensus t
T
T
T
T
T
g
G
G
G
G
G
c
C
C
C
C
C
t
T
T
T
T
T
a
A
A
A
A
A
t
T
T
T
T
T
c
C
C
C
C
C
a
A
A
A
A
A
t
T
T
T
T
T
c
C
C
C
C
C
t
T
T
T
T
T
a
A
A
A
A
A
c
C
C
C
C
C
g
G
G
G
G
G
a
A
A
A
A
A
t
T
T
T
T
T
g
G
G
G
G
G
t
T
T
T
T
T
g
G
G
G
G
G
g
G
G
G
G
G
c
C
C
C
C
C
t
T
T
T
T
T
a
A
A
A
A
A
a
A
A
A
A
A
g
G
G
G
G
G
a
A
A
A
A
A
t
T
T
T
T
T
g
G
G
G
G
G
g
G
G
G
G
G
t
T
T
T
T
T
c
C
C
C
C
C
C
C
C
A
C
g
G
G
G
G
G
a
A
A
A
A
A
g
G
G
G
G
G
a
A
A
A
A
A
g
G
G
G
G
G
a
A
A
A
A
A
a
A
A
A
A
A
a
A
A
A
A
A
t
T
T
T
T
T
g
G
G
G
G
G
g
G
G
G
G
G
c
C
C
C
C
C
c
C
C
C
C
C
a
A
A
A
A
A
g
G
G
G
G
G
a
A
A
A
A
A
g
G
G
G
G
G
t
T
T
T
T
T
a
A
A
A
A
A
c
C
C
C
C
C
t
T
T
T
T
T
a
A
A
A
A
A
t
T
T
T
T
T
g
G
G
G
G
G
t
T
T
T
T
T
T
T
T
A
T
c
C
C
C
C
C
c
C
C
C
C
C
t
T
T
T
T
T
a
A
A
A
A
A
c
C
C
C
C
C
t
T
T
T
T
T
g
G
G
G
G
G
a
A
A
A
A
A
g
G
G
G
G
G
t
T
T
T
T
T
t
T
T
T
T
T
t
T
T
T
T
T
a
A
A
A
A
A
a
A
A
A
A
A
a
A
A
A
A
A
g
G
G
G
G
G
g
G
G
G
G
G
G
G
G
C
G
a
A
A
A
A
A
t
T
T
T
T
T
c
C
C
C
C
C
g
G
G
G
G
G
a
A
A
A
A
A
t
T
T
T
T
T
a
A
A
A
A
A
a
A
A
A
A
A
a
A
A
A
A
A
g
G
G
G
G
G
a
A
A
A
A
A
c
C
C
C
C
C
c
C
C
C
C
C
t
T
T
T
T
T
g
G
G
G
G
G
c
C
C
C
C
C
c
C
C
C
C
C
a
A
A
A
A
A
g
G
G
G
G
G
t
T
T
T
T
T
g
G
G
G
G
G
g
G
G
G
G
G
t
T
T
T
T
T
g
G
G
G
G
G
979AF233639.txt
979X15537CDS.txt
1000PhDFR1.txt
1000PhDFR2.txt
1000PhDFR3.txt
Consensus t
T
T
T
T
T
c
C
C
C
C
C
t
T
T
T
T
T
t
T
T
T
T
T
t
T
T
T
T
T
t
T
T
T
T
T
t
T
T
T
T
T
c
C
C
C
C
C
a
A
A
A
A
A
t
T
T
T
T
T
c
C
C
C
C
C
a
A
A
A
A
A
a
A
A
A
A
A
a
A
A
A
A
A
g
G
G
G
G
G
a
A
A
A
A
A
a
A
A
A
A
A
g
G
G
G
G
G
c
C
C
C
C
C
t
T
T
T
T
T
g
G
G
G
G
G
a
A
A
A
A
A
c
C
C
C
C
C
A
A
A
G
A
g
G
G
G
G
G
a
A
A
A
A
A
t
T
T
T
T
T
a
A
A
A
A
A
t
T
T
T
T
T
g
G
G
G
G
G
g
G
G
G
G
G
g
G
G
G
G
G
t
T
T
T
T
T
t
T
T
T
T
T
t
T
T
T
T
T
t
T
T
T
T
T
c
C
C
C
C
C
a
A
A
A
A
A
g
G
G
G
G
G
t
T
T
T
T
T
t
T
T
T
T
T
c
C
C
C
C
C
a
A
A
A
A
A
a
A
A
A
A
A
g
G
G
G
G
G
t
T
T
T
T
T
a
A
A
A
A
A
c
C
C
C
C
C
a
A
A
A
A
A
c
C
C
C
C
C
t
T
T
T
T
T
t
T
T
T
T
T
t
T
T
T
T
T
g
G
G
G
G
G
g
G
G
G
G
G
a
A
A
A
A
A
g
G
G
G
G
G
g
G
G
G
G
G
a
A
A
A
A
A
t
T
T
T
T
T
a
A
A
A
A
A
t
T
T
T
T
T
g
G
G
G
G
G
t
T
T
T
T
T
a
A
A
A
A
A
t
T
T
T
T
T
a
A
A
A
A
A
a
A
A
A
A
A
a
A
A
A
A
A
g
G
G
G
G
G
g
G
G
G
G
G
G
G
G
C
G
g
G
G
G
G
G
c
C
C
C
C
C
c
C
C
C
C
C
a
A
A
A
A
A
t
T
T
T
T
T
c
C
C
C
C
C
g
G
G
G
G
G
a
A
A
A
A
A
T
T
T
G
T
a
A
A
A
A
A
c
C
C
C
C
C
t
T
T
T
T
T
t
T
T
T
T
T
g
G
G
G
G
G
t
T
T
T
T
T
c
C
C
C
C
C
g
G
G
G
G
G
a
A
A
A
A
A
c
C
C
C
C
C
a
A
A
A
A
A
g
G
G
G
G
G
a
A
A
A
A
A
a
A
A
A
A
A
g
G
G
G
G
G
c
C
C
C
C
C
a
A
A
A
A
A
g
G
G
G
G
G
c
C
C
C
C
C
1079AF233639.txt
1079X15537CDS.txt
1100PhDFR1.txt
1100PhDFR2.txt
1100PhDFR3.txt
Consensus t
T
T
T
T
T
g
G
G
G
G
G
c
C
C
C
C
C
t
T
T
T
T
T
t
T
T
T
T
T
c
C
C
C
C
C
c
C
C
C
C
C
c
C
C
C
C
C
t
T
T
T
T
T
t
T
T
T
T
T
t
T
T
T
T
T
t
T
T
T
T
T
c
C
C
C
C
C
t
T
T
T
T
T
C
A
A
A
A
c
C
C
C
C
C
c
C
C
C
C
C
c
C
C
C
C
C
g
G
G
G
G
G
a
A
A
A
A
A
a
A
A
A
A
A
g
G
G
G
G
G
t
T
T
T
T
T
g
G
G
G
G
G
c
C
C
C
C
C
t
T
T
T
T
T
g
G
G
G
G
G
A
A
A
C
A
a
A
A
A
A
A
g
G
G
G
G
G
a
A
A
A
A
A
c
C
C
C
C
C
a
A
A
A
A
A
a
A
A
A
A
A
t
T
T
T
T
T
g
G
G
G
G
G
g
G
G
G
G
G
a
A
A
A
A
A
c
C
C
C
C
C
a
A
A
A
A
A
t
T
T
T
T
T
a
A
A
A
A
A
a
A
A
A
A
A
c
C
C
C
C
C
C
C
C
A
C
g
G
G
G
G
G
a
A
A
A
A
A
g
G
G
G
G
G
a
A
A
A
A
A
a
A
A
A
A
A
g
G
G
G
G
G
c
C
C
C
C
C
c
C
C
C
C
C
a
A
A
A
A
A
t
T
T
T
T
T
t
T
T
T
T
T
g
G
G
G
G
G
c
C
C
C
C
C
c
C
C
C
C
C
a
A
A
A
A
A
t
T
T
T
T
T
t
T
T
T
T
T
t
T
T
T
T
T
c
C
C
C
C
C
t
T
T
T
T
T
g
G
G
G
G
G
c
C
C
C
C
C
t
T
T
T
T
T
c
C
C
C
C
C
a
A
A
A
A
A
a
A
A
A
A
A
a
A
A
A
A
A
a
A
A
A
A
A
c
C
C
C
C
C
t
T
T
T
T
T
a
A
A
A
A
A
t
T
T
T
T
T
g
G
G
G
G
G
c
C
C
C
C
C
a
A
A
A
A
A
a
A
A
A
A
A
g
G
G
G
G
G
t
T
T
T
T
T
g
G
G
G
G
G
g
G
G
G
G
G
c
C
C
C
C
C
a
A
A
A
A
A
a
A
A
A
A
A
a
A
A
A
A
A
g
G
G
G
G
G
a
A
A
A
A
A
g
G
G
G
G
G
a
A
A
A
A
A
a
A
A
A
A
A
t
T
T
T
T
T
g
G
G
G
G
G
c
C
C
C
C
C
a
A
A
A
A
A
c
C
C
C
C
C
c
C
C
C
C
C
1121AF233639.txt
1121X15537CDS.txt
1142PhDFR1.txt
1142PhDFR2.txt
1142PhDFR3.txt
Consensus a
A
A
A
A
A
g
G
G
G
G
G
t
T
T
T
T
T
t
T
T
T
T
T
g
G
G
G
G
G
c
C
C
C
C
C
a
A
A
A
A
A
a
A
A
A
A
A
a
A
A
A
A
A
t
T
T
T
T
T
c
C
C
C
C
C
a
A
A
A
A
A
t
T
T
T
T
T
a
A
A
A
A
A
c
C
C
C
C
C
a
A
A
A
A
A
g
G
G
G
G
G
a
A
A
A
A
A
a
A
A
A
A
A
a
A
A
A
A
A
t
T
T
T
T
T
g
G
G
G
G
G
t
T
T
T
T
T
t
T
T
T
T
T
a
A
A
A
A
A
a
A
A
A
A
A
G
G
G
C
G
c
C
C
C
C
C
a
A
A
A
A
A
a
A
A
A
A
A
t
T
T
T
T
T
g
G
G
G
G
G
t
T
T
T
T
T
t
T
T
T
T
T
g
G
G
G
G
G
a
A
A
A
A
A
a
A
A
A
A
A
g
G
G
G
G
G
t
T
T
T
T
T
c
C
C
C
C
C
t
T
T
T
T
T
a
A
A
A
A
A
图 4 三个矮牵牛品种的 DFR CDS 序列的多重比对
生物技术通报 Biotechnology Bulletin 2013年第9期72
AF60298.txt
CAA33544.txt
PhDFR1.txt
PhDFR2.txt
PhDFR3.txt
Consensus
AF60298.txt
CAA33544.txt
PhDFR1.txt
PhDFR2.txt
PhDFR3.txt
Consensus
AF60298.txt
CAA33544.txt
PhDFR1.txt
PhDFR2.txt
PhDFR3.txt
Consensus
AF60298.txt
CAA33544.txt
PhDFR1.txt
PhDFR2.txt
PhDFR3.txt
Consensus
93
93
100
100
100
193
193
200
200
200
293
293
300
300
300
373
373
380
380
380
下划线部分代表 NADP 的结合功能域 ;方框代表底物特异结合功能域
图 5 五个 DFR 全长氨基酸序列的多重比对分析及 NADP 的结合功能域和底物特异结合功能域
FTSSAGTLDVQEQQKLFYDQTSWSDLDFIYAKKMTGW
MYFASKIL AEKAAME”。如图 6 所示,3 个基因在这
两个功能域上是高度保守的。此外,3 个蛋白在 143
1 50
Query seq.
NADP binding site
Specific hits
Superfamilies
Multi-domains
swbstrqte binding site
active site
NADB_Rossmann superfamily
PLN02650
FR_SDR_e
100 150 200 250 300 350 380
位有 DFR 蛋白高度保守的 D、Q 位点 ;而在 175 位
点,PhDFR2 是 V,其它 4 个蛋白在此位点为 A ;在
179 位,PhDFR1 是 P,其它 4 个蛋白为 L,在 183 位
点,PhDFR2 是 S,而其它位点是 A。
2.3 蛋白的理化性质
利 用 ProtParam 分 析 矮 牵 牛 的 5 个 DFR 蛋 白
的 理 化 性 质。 结 果( 表 1) 表 明, 矮 牵 牛 的 5 个
DFR 的理化性质较接近。PhDFR2 的分子量最大为
42.48,PhDFR1 和 PhDFR3 理论等电点最低为 5.97 ;
CAA33544 的 分 子 量 最 小 为 41.83,CAA33544 和
AAF60298 理论等电点最大为 6.19。氨基酸序列中
含量最高的均为 Ala,PhDFR1、PhDFR2 和 PhDFR3
中含量丰富的氨基酸还包括 Lys,而 CAA33544 为
Val,AAF60298 为 Leu 和 Lys。5 个蛋白的不稳定指
数均低于 40,推测这 5 种蛋白均为稳定蛋白。5 个
蛋白疏水值为负,均为亲水蛋白。
2.4 DFR的亲水性/疏水性、跨膜结构域与亚细胞
定位
通过利用 SignalP4.1 Server 信号肽预测软件得
图 6 CDD 预测白色矮牵牛品种 DFR 蛋白的结构域
出,5 个 DFR 蛋白均不具有信号肽,因此这 5 个蛋
白都不属于分泌蛋白。
蛋白质的亲水性 / 疏水性的预测是蛋白质二级
结构以及功能域的一个重要过程。ProtScal 的分析
表明(图 7),白色矮牵牛 DFR 中多肽链第 50 位的
Glu 最低分值 -2.678,亲水性最强 ;而第 200 位的
Pro 具有最高分值 2.411,疏水性最强。整体而言,
亲水氨基酸分布比较均匀,且数量大于疏水氨基酸,
故推测 DFR 蛋白为亲水性蛋白。这与根据平均疏
水值预测的结果一致。对其它 4 个蛋白序列的疏水
性 / 亲水性进行预测分析也得到相似结果,即 DFR
整条多肽链表现为亲水性,但没有明显的亲水区,
可以推断,DFR 蛋白为亲水性蛋白。
PSORT Ⅱ Prediction 对 PhDFR1、PhDFR2 和
PhDFR3 进行亚细胞定位,结果表明这 3 个蛋白定
位于细胞质的可能性最高,为 69.6%,其次分别为
2013年第9期 73朱奇朗等 :不同色彩矮牵牛 DFR 基因的克隆与生物信息学分析
和 PtDFR3 蛋白都具有两个跨膜结构(图 8-B),蛋
白的 1-9 氨基酸位于膜外,10-32 氨基酸为第一个
跨膜结构,33-194 氨基酸位于膜内,195-217 氨基
酸为第 2 个跨膜结构,218-380 氨基酸位于膜外。
表 1 矮牵牛不同品种的 DFR 的理化性质
理化性质 PhDFR1 PhDFR2 PhDFR3 CAA33544 AAF60298
氨基酸残基 380 380 380 373 373
分子量(kD) 42.42 42.48 42.43 41.83 41.90
理论等电点 pI 5.97 6.08 5.97 6.19 6.19
蛋白质不稳定指数 37.47 37.98 37.55 34.29 36.13
含量最丰富的氨基酸(%)
Ala 8.9% Ala 8.4% Ala 8.9% Ala 8.3% Ala 8.3%
Lys 7.9% Lys 7.9% Lys 7.9% Val 8.3% Leu/ Lys8.0%
含量最少的氨基酸(%)
Cys 1.8% Cys 1.8% Cys 1.8% Cys 2.1% Cys 2.1%
Trp 1.3% Trp 1.3% Trp 1.3% Trp 1.1% Trp 1.3%
疏水性氨基酸的残基数 171 170 171 164 175
平均疏水值 -0.196 -0.175 -0.182 -0.182 -0.197
疏水性 / 亲水性蛋白 亲水性蛋白 亲水性蛋白 亲水性蛋白 亲水性蛋白 亲水性蛋白
3
2
1
0
Sc
or
e
-1
-2
-3
50 100 150 200 250 300 350
Position
图 7 白色矮牵牛 DFR 蛋白的亲水性 / 疏水性分析
细胞核 13.0% 和线粒体 13.0%,最低的为分泌的囊
泡中仅为 4.3%。对 CAA33544 和 AAF60298 进行亚
细胞定位,结果表明定位于细胞质的可能性最大为
52.2%,其次为细胞核中的 17.4%,第三是细胞膜外
及细胞壁上的 8.7% 和线粒体中的 8.7%,最低的是
位于液泡、分泌的囊泡和细胞骨架中的各为 4.3%。
推测 5 个蛋白可能均定位在细胞质中。
通过 TMHMM 软件进行跨膜结构的预测得到这
5 个蛋白都属于跨膜蛋白。与 PSORT Ⅱ Prediction
的软件的共同分析预测得出 5 个蛋白最可能是跨细
胞膜的蛋白。
进一步应用 TMHMM 软件进行跨膜结构的预测。
CAA33544 和 AAF60298 仅有一个跨膜结构(图 8-A),
第一个氨基酸位于膜外,2-6 氨基酸位于膜内,7-26
为 跨 膜 结 构,27-373 位 于 膜 外。PtDFR1、PtDFR2
红线代表跨膜 ;白色代表膜内 ;紫色代表膜外(颜色标识见电子版)
图 8 AAF60298 的跨膜结构预测(A),以及白色矮牵牛
DFR 的跨膜结构预测(B)
1.2
1.0
0.8
0.6
0.4
0.2
0
50 100 150 250 350300200
Pr
ob
ab
ili
ty
transmembrane inside outside
A
1.2
1.0
0.8
0.6
0.4
0.2
0
50 100 150 250 350300200
Pr
ob
ab
ili
ty
transmembrane inside outside
B
2.5 DFR二级结构及拓扑结构的预测
通 过 CFSSP 软 件 预 测 DFR 蛋 白 的 二 级 结 构,
预测结果见图 9。纵观蛋白的整体结构,α-螺旋和 β-
折叠(β-sheet)是 DFR 最主要的二级结构元件,α-
螺旋和 β-折叠呈间隔分布,而 β-转角和无规则卷曲
则散布于整个蛋白质中。对其他 4 个 DFR 氨基酸序
生物技术通报 Biotechnology Bulletin 2013年第9期74
列的二级结构进行分析也得到相似的结果。
2.6 DFR蛋白的三级结构
利 用 SWISS-MODEL 中 自 动 建 模(Automated
Mode)功能,预测得到 PhDFR2 蛋白的三维结构,
图 10-A。同已知的葡萄的 DFR 晶体结构相比(图
10-B),三级结构有较高的相似性。
DFR 的 Rossmann 折叠和对面的 C 端形成一个
缝隙,在此缝隙里,有辅酶 NADP+ 及 DFR 底物的
结合位点。在空间上,两个结合位点是非常接近的,
有利于底物进行反应。Asp134 是底物结合中心所必
需的,该位点的突变会引起蛋白功能缺失或者功能
降低。目前,对其它位点进行突变进行蛋白功能的
研究仍然进行。本研究中,3 种 DFR 基本的结构相
似,在 175 位点,PhDFR2 是缬氨酸,而 PhDFR1 和
PhDFR3 的是丙氨酸,均为疏水氨基酸 ;在 183 位,
PhDFR1 和 PhDFR3 是丙氨酸,而 PhDFR2 是丝氨酸,
为亲水性氨基酸。这两个差异位点均位于 Rossmann
折叠中,175 较接近底物的结合中心位点,在蛋白
的内侧,而 183 则稍远,在蛋白的外侧。
2.7 DFR系统进化分析
应用 Clustalx1.83 软件将编码的氨基酸序列及
从 GenBank 获取的其它植物的 DFR 推导的氨基酸序
列进行进化树分析,结果如图 11,共有两个分支,
Helix
Sheet
Turn
Coil
3800
竖线由长及短分别为 Helix、Sheet、Turn、Coil
图 9 葡萄 DFR 蛋白的二级结构
玉米、小麦和粳稻为一支,其余的为另一支。克隆
得到的 PhDFR1、PhDFR3 和已得到的 AAF60298 和
CAA33544 的亲缘关系最近,其次是 PhDFR2,矮牵
牛 DFR 蛋白与烟草的亲缘关系最近。说明矮牵牛的
DFR 蛋白是非常保守的。
3 讨论
被子植物经过漫长的进化,形成形状各异,色
彩鲜艳的花器官,吸引昆虫及鸟类进行授粉,达到
繁育后代的目的[8],因此,花色的形成对于植物的
生存具有重要意义。自从 19 世纪孟德尔利用豌豆
研究花色以来,经过 1 个多世纪,研究人员通过大
量的研究,对花色素的合成以及合成途径的调控进
行了解析。目前,普遍的认为,CHS 是花色素合成
A B
A :预测得到的 DFR 结构 ;B :葡萄的 DFR 晶体结构
图 10 DFR 的三级结构
NP_001152467
0.02
AAQ77347
BAA36183
PhDFR3
PhDFR1
CAA33544
AAF60298
PhDFR2
ACS12834
AEG64707
AEN69002
ABU93477
CAA91924
AEI59122
NP_001238612
ABM64800
ACP30362
CAA53578
AAX53572
NP_199094
标尺长度代表同源性 ;CAA53578 :葡萄 ;NP_199094 :拟南芥 ;ACP30362 :
苹果 ;CAA91924 :康乃馨 ;ABU93477 :向日葵 ; ACS12834 :烟草 ; BAA-
36183 :粳稻 ;AAF60298 :矮牵牛 ;AAQ77347 :小麦 ;ABM64800 :棕色棉 ;
NP_001238612 :大豆 ;AEN69002 :菊花 ;1 AEI59122 :苜蓿 ; NP_001152-
467 :玉米 ;AEG64707 :马铃薯栽培种 ;AAX53572 :白菜
图 11 DFR 的系统进化分析
2013年第9期 75朱奇朗等 :不同色彩矮牵牛 DFR 基因的克隆与生物信息学分析
途径中的“入口”调节关键酶,而 DFR 是该途径的
“出口”调节关键酶。因此,近些年国内外的研究主
要集中在对不同的物种进行 DFR 基因的克隆、结构
鉴定、表达及其相关功能分析,进而描绘出花色素
合成过程中更加精细的调控模式。
本研究从新疆当地种植的白色、红色和蓝色
的 矮 牵 牛 花 中 克 隆 得 到 了 PhDFR1、PhDFR2 和
PhDFR3 基因,将 CDS 进行 BLAST 比对,发现三者
与已知的 DFR 基因的序列 X15537 和 AF233639 有
较高的相似性 ;3 个序列均比 X15537 基因在起始多
了 19 个碱基,在同样的两个位点有 G、C 碱基插入,
这可能是由于品种及环境的引起的变异。
利用软件对克隆得到的 3 个基因所编码的蛋白
进行功能结构域预测,均具有 NADP 的结合位点[9]
和底物特异性结合位点[10],且在这两个功能域上都
是高度的保守,属于 NADB 超基因家族。通过对 3
个蛋白的理化性质、亲水性 / 疏水性、跨膜结构域
与亚细胞定位、二级结构和功能结构域及蛋白的修
饰进行预测,结果表明得到白色与红色的 DFR 蛋
白性质是完全相同的,同蓝色的、以及已知的两个
DFR 蛋白也有较高的相似性。5 个蛋白预测均不具
有信号肽,定位于细胞质膜上,这与其它实验室预
测 CAA33544 得到的含有信号肽和定位于线粒体中
有不同[11],这可能与使用不同的预测软件有关。3
个蛋白均具有有两个跨膜结构,已知的两个 DFR 蛋
白则只有一个跨膜结构。白色和红色蛋白的糖基化
与磷酸化位点与数目相同,蓝色蛋白的磷酸化位点
增多,这可能是不同的颜色的 DFR 所催化的底物
不同。
自然界中没有天然的蓝色玫瑰,而通过遗传工
程培育出蓝色玫瑰是花色改良的里程碑式的进展。
其主要的一步是将红色玫瑰中内源的 DFR 基因进行
抑制,而将蓝色的 DFR 外源基因导入。日本三德利
公司克隆了 13 个物种的蓝色花瓣的 DFR 基因,只
有将蓝色鸢尾的花瓣 DFR 基因导入后成功获得了蓝
色玫瑰[12]。这表明 DFR 有非常严格的底物专一性。
DFR 能选择性地催化二氢槲皮素(hydroquer-
cetin,DHQ)、二氢山奈酚(hydrokaempferol,DHK)、
二氢杨梅素(dihydromyricetin,DHM)转化成花色
素的前体物[13],进而通过 3-GT 或 5-GT 形成糖苷类
的不同种类的花色素。DFR 的底物结合区域是由一
段保守序列决定的,在矮牵牛中 134 位天冬氨酸残
基(Asp)是控制 DFR 底物结合特性最为保守的氨
基酸[10]。矮牵牛的 DFR 只以 DHQ 和 DHM 为底物,
不能以 DHK 为底物,而且 DFR 与 DHQ 的反应水平
比 DHM 低,因此自然界中是没有橙色系列的矮牵牛。
Petit 等[14]将葡萄的 DFR(Swiss-Prot Accession
Number P93799_VITVI)基因构建到大肠杆菌中,在
体外纯化 DFR 蛋白,测定了其晶体结构。葡萄的
DFR 的拓扑结构(图 12)表明,在蛋白的 N 端,7
图 12 葡萄的 DFR 拓扑结构
322C 307
210 215 219 224
256 259
260
128 132
3a
141
271
291
142 292
149157225
192194
230
94
231
99
831015364162
58
50
31 28 7
76
80
118
244 122
182
185 249 300
294
253190160126
N
5357
203 210 216 218
α7a α7b α8
α12
α10
α5
α6
α11
α9α4α3
71
α1α2 β2 β1 β4 β5 β6 β7
β2˃
β3˃
β4˃
α4˃
α2˃
β3
3b
生物技术通报 Biotechnology Bulletin 2013年第9期76
个 β 链形成了一个大的平行的 β-折叠,构成了这个
功能域的憎水核心区 ;每个 β-折叠旁边是一个 α-螺
旋,形成了 β-α-β-α-β 的 Rossmann 折叠,且整本上
呈对称分布。进一步对葡萄的 DFR 基因进行点突
变[14],研究了突变后蛋白的结构变化与功能的关系,
表明除了 134 位点的 Asp 以外,蛋白 Rossmann 折叠
中的 S128、Y163 和 K167 是催化活性所需要的,而
其它氨基酸突变后对蛋白功能的影响的研究正在进
行中。本研究中克隆得到的 3 个 DFR 基因编码的蛋
白,在 Rossmann 折叠中有细微的差异,推测这些差
异对蛋白的底物结合特性及催化活性有一定的影响。
4 结论
从白、红和蓝色的矮牵牛品种中克隆得到 3
个 DFR 基 因, 分 别 命 名 为 PhDFR1、PhDFR2 和
PhDFR3。这 3 个基因在核苷酸序列及蛋白序列上均
与已知的矮牵牛的 DFR 基因有较高的同源性。功能
结构域分析表明 PhDFR1、PhDFR2 和 PhDFR3 都属
于 NADB- Rossmann 家族,都具有高度保守的结构
域。5 个 DFR 基因在理化性质、跨膜结构、二级和
三级结构中都有非常相似的特点。3 种蛋白与已知
的矮牵牛 DFR 蛋白同源性较高。3 个基因在核苷酸
起始序列、蛋白的三级结构仍然有细微的差异,而
这些差异很可能在蛋白的分子识别功能及催化作用
有关。
参 考 文 献
[1] Holton TA, Cornish EC. Genetics and biochemistry of anthocyanin
biosynthesis[J]. The Plant Cell, 19957 :1071-1083.
[2] Wagner GJ. Content and vacuole/extravacuole distribution of neutral
sugars, free amino acids, and anthocyanin in protoplasts[J]. Plant
Physiology, 1979, 64 :88-93.
[3] 李春雷 , 崔国新 , 许志茹 , 李玉花 . 植物二氢黄酮醇 4- 还原酶
基因的研究进展[J]. 生物技术通讯 , 2009, 20(3):442-445.
[4] Beld M, Martin C, Huits H, et al. Flavonoid synthesis in Petunia
hybrida :partial characterization of dihydroflavonol-4-reductase
genes[J]. Plant Molecular Biology, 1989, 13 :491-502.
[5] 司爱君 , 祝建波 , 李吉莲 , 邓福军 . F3’5’H 基因克隆、表达
载体构建与矮牵牛遗传转化[J]. 西北农业学报 , 2008, 17(5):
306-309.
[6] Wan CY, Wilkin TA. A modified hot borate method significantly
enhances the yield of high-quality RNA from cotton(Gossypium
hirsutum L.)[J]. Analytical Biochemistry, 1994, 223 :7-12.
[7] 宋洋 , 吴巧雯 , 郭三堆 . 制备棉花幼蕾高质量总 RNA 的方法比
较[J]. 棉花学报 , 2008, 20(3):231-234.
[8] Huits HSM, Gerats AGM, Kreike MM, et al. Genetic control of di-
hydroflavonol 4 reductase gene expression in Petunia hybrida[J].
Plant J, 1994, 6(3):295-310.
[9] Johnson ET, Yi H, Shin B, et al. Cymbidium hybrida dihydroflavonol
4-reductase does not efficiently reduce dihydrokaempferol to produce
orange pelargonidin-type anthocyanins[J]. The Plant Journal,
2002, 19 :81-85.
[10] Polashock JJ, Griesbach RJ, Sullivan RF, Vorsa N. Cloning of a
cDNA encoding the cranberry dihydroflavonol-4-reductase(DFR)
and expression in transgenic tobacco[J]. Plant Science, 2002,
163 :241-251.
[11] 陈大志 , 周嘉裕 , 李萍 . 二氢黄酮醇 4-还原酶的生物信息学分
析[J]. 生物技术通报 , 2010(12):206-212.
[12] Katsumoto Y, Fukuchi-Mizutani M, Fukui Y, et al. Engineering
of the rose flavonoid biosynthetic pathway successfully generated
blue-hued flowers accumulating delphinidin[J]. Plant Cell
Physiol, 2007, 48(11):1589-1600.
[13] Johnson ET, Ryu S, Yi H, et al. Alteration of a single amino acid
changes the substrate specificity of dihydroflavonol 4-reductase[J].
The Plant Journal, 2001, 25(3), 325-333.
[14] Petit P, Granier T, dEstaintot BL, et al. Crystal structure of grape
dihydroflavonol 4-reductase, a key enzyme in flavonoid biosyn-
thesis[J]. J Mol Biol, 2007, 368 :1345-1357.
(责任编辑 李楠)