免费文献传递   相关文献

大豆BAC克隆基因注释



全 文 :研究报告
生物技术通报
BIOTECHNOLOGY BULLETIN 2010年第 12期
大豆 BAC克隆基因注释
王囡囡
(黑龙江省农业科学院佳木斯分院, 佳木斯 154007)
  摘  要:  根据来源于大豆 BAC克隆库中的基因组序列, 与其比对的基因或蛋白质序列可以从一些数据库中搜索, 如
GenBank序列数据库、EMBL数据库、PDB数据库等, 然后利用 NCBI的 En trz程序在数据库中搜索大豆基因类似物,获取其登
录号及核苷酸序列, 以及这些基因编码的氨基酸序列, 通过 GENSCAN等软件分析, 得出的是与拟南芥等物种序列比对的结
果, 根据 GENSCAN的预测结果,可以初步得知序列长度、基因数目及具有编码某种功能蛋白的基因存在的可能性, 进而对预
测出的氨基酸或核苷酸序列利用数据库 NCB I中的 BLAST进行序列的相似性搜索及比对分析,寻找其保守区域。最后对其功
能基因进行注释。
关键词:  大豆 BAC克隆  序列比对  基因注释
Gene Annotation of Soybean BAC Cloning
W angNannan
( J iamusiBranch of H eilongjiang A cademy of A gricultural Sciences, J iamusi 154007)
  Abstrac:t  M ateria l o f th is exper imentation is from genom e sequence o f soybean BAC bank. The gene o r prote in sequence wh ich
contrasts w ith sequence o f soybean can search from som e databanks, such as GenB ank、EMBL、PDB and so on. W e search ana log of soy
bean gene from da tabank w ith Entrz program of NCB I, then obta in num ber of logg ing in, sequence o f nuc leotide or am ino ac id. Som e
softw are such as GENSCA is used to analyze sequence contrasting. Th is exper im enta tion ge ts the result o f co strstingw hich is a contrast
to orther spec ies such asA rab idop sis thaliana. A cco rd ing to resu lt o f forecast, w e can obta in the leng th of sequence, numbers of gene and
ex istent probability of genewh ich can code certa in functional prote in. Then, search ing com parab ility of am ino acid w ith NCB I of BLAST
and look ing for conserva tive dom ain. A t last, annotating the func tion.
Key words:  Soybean BAC c loning Contrasting of sequence Gene anno tation
收稿日期: 20100513
基金项目:国家 863!计划 ( 2006AA10Z1F4)
作者简介:王囡囡,女,硕士研究生,研究方向:生物技术; Em ai:l w angnann an_1787@ 163 com
大豆是自花授粉植物且花形特殊因而在育种中
难以利用杂种优势。目前我国大豆生产中品质与产
量都有待提高,大豆基因组的研究能帮助解决大豆
生产中的一些问题。传统的生物信息学方法大多局
限于序列同源方法 [ 1, 2] , 但是根据蛋白质的氨基酸
序列推测其三维结构, 和基于结构的同源蛋白预测
方法出现,对蛋白质功能识别的能力大大增强,为科
研人员提供了更准确的参考信息 [ 3, 4]。
大豆 (细菌人工染色体 bacteria l artif icial chro
mosom e, BAC)克隆基因注释就是通过从 BAC库中
挑取克隆并进行序列比对等步骤而对控制大豆性状
的基因功能的研究。
1 材料与方法
1. 1 材料
源于大豆 BAC克隆库中全长 109 763 bp的核
酸序列。所使用的数据库有美国的 NCBI( http: / /
www. ncb.i nlm. n ih. gov / )、EMBL ( http: / /www. eb.i
ac. uk /emb l/ )和 GenBank ( h ttp: / /www. ncb.i nlm.
n ih. gov /w eb /search / index)。所使用的软件有 Gen
scan、BLASTn和 BLASTp。
1. 2 BAC序列的基因预测
利用 Genscan预测基因,寻找 ORF,初步确定功
能基因的位置。
2010年第 12期 王囡囡:大豆 BAC克隆基因注释
1. 3 基因功能注释
对所得到的 ORF, 利用 NCB I的 BLASTn 和
BLASTp进行分析,寻找同源序列。根据所寻找到的
已知功能的同源序列,确定 BAC中的 ORF的功能。
1. 3. 1 进入相似性搜索界面  利用序列相似性搜
索工具 BLAST搜索数据库中的某个序列或它的一
部分与被检索序列的相关性。
1. 3. 2 相似性检索  将所要查询的序列放到查询
文本框 (以 FASTA格式输入 ), 选择所要检索的数
据库 (如 GenBank) , 单击 BLSATp!或 BLASTn!按
钮,提交请求进行相似性检索。
1. 3. 3 查看相似性结果  结果输出可分为两大部
分,即图形化结果和文字化结果。
1. 3. 4 对结果进行分析  找出同源性较高的序列,
对这些同源性较高的序列进行进一步分析, 首先查
看基因注释确定其来源物种及功能, 其次整理分析
结果,列于表中。
2 结果与分析
2. 1基因 ORF预测结果
使用 GENSCAN软件 ( http: / /genes. m i.t edu /
GENSCAN. htm l)预测基因序列和外显子,以下结果
为大豆 BAC克隆库部分基因序列与拟南芥比较的
基因注释。
根据 GENSCAN的预测结果, 可以初步得知序
列长度为 109 763 bp, 在其正链共预测出 9个基因
(图 1)。第一个基因 (表 1, 图 2)包含了 5个可能
图 1 GENSCAN的图形化输出结果
的外显子,组成一个长为 669 bp的完整 ORF,编码
一个长为 222 aa的蛋白。 I/Ac表示剪切起始信号
的分数, Do /T表示剪切终止信号的分数。分数在
50- 100之间为中度可能, 而在 0- 50之间的可能
性非常小,从统计结果中可以看出,最后一个外显子
的可能性较小。另外一个就是关于该外显子真
实性的概率大小的 P 值。此 P 值是根据一个外
显子与相邻外显子的匹配程度来估计的。 0. 5<
P < 0. 99意味着中等可能性的外显子, 统计结果
中的外显子 P值均在此范围内, 表示结果在大多
数情况下与实际吻合。
表 1 GENSCAN预测基因和外显子的
统计结果 (第一个基因 )
Gn. E xType S Beg in End Len Fr Ph I/Ac Do /T CodRg P Tscr
1. 04 Term  362 136 227 0 2 30 39 188 0. 698 9. 06
1. 03 Intr 557 489 69 0 0 62 86 23 0. 810 2. 74
1. 02 Intr 698 672 27 0 0 98 95 12 0. 905 5. 07
1. 01 Intr 1 244 899 346 2 1 63 94 136 0. 87313. 57
1. 00 Prom  1 367 1 328 40 - 6. 85
2. 2 基因序列比对结果
利用 NCB I中的 BLAST搜索工具, 对基因序列
进行相似性搜索, 是基于对核苷酸序列和氨基酸序
列的相似性搜索,所以使用的是 BLASTn和 BLASTp
111
生物技术通报 B iotechnology  Bulletin 2010年第 12期
两个基本程序,其中, BLASTn用来搜索核苷酸序列,
BLASTp用于氨基酸序列的搜索。根据上述 GEN
SCAN预测的结果, 图 2是对预测出来的第一个基
因序列进行相似性搜索的结果。
图 2 GEN SCAN预测基因的 ORF序列 ( A)
和编码氨基酸序列 ( B)
2. 2. 1 BLASTp比对结果  图形结果主要是按照
搜索最后的命中率 b its值从高到低、以不同的区域
来表示,即 b it值∀ 200分为一个区域,其他 80- 200
分, 50- 80分, 40- 50分, < 40分各划分一个区域。
表示序列的相似性从高到低, 即∀ 200分的序列与
查询序列的相似性最高,而 < 40分的序列与查询序
列的相似性最低。
从图 3可以看到, 最开始顶端的∀ 200分条形
线就是查询氨基酸序列本身, 相似性为 100%。除
此外, 没有任何其他的∀ 200分条形线,即没有找到
具有最高相似性的序列。但是在查询序列的某些区
域与其他的序列仍旧存在较高的相似性, 即 80 -
200分之间的条形线。
图 3 peptide_1的比对结果
2. 2. 2 BLASTn比对结果  从图 4可以看到,最开
始顶端的∀ 200分条形线是查询核苷酸序列本身,
查询序列的某些区域与其他序列的相似性都较低,
只存在 50- 80分线条和 40- 50分线条。
图 4 CDS_1的比对结果
2. 3 分析比对结果进行基因功能注释
利用 NCB I的 BLAST对基因序列进行相似性搜
索, 结果输出可以分为两大部分, 即图形化结果和文
字化结果, 以上显示的是 BLAST的图形化结果, 点
击比对结果中的线条即可链接到相应的文字化结
果, 可以通过这两部分比对结果寻找同源序列,并根
据寻找到的这些已知的同源序列进一步分析和总
结,即可对大豆基因的潜在功能进行注释。此表说
明, 结果中查询序列某一结构域与其相关物种的相
似性越高,大豆基因序列的这一结构域具有此功能
的可能性越大。
3 结论与讨论
根据来源于大豆 BAC库中的基因序列, 使用
GENSCAN软件预测基因序列和外显子,分析外显子
的潜在功能。在其正链共预测出 9个基因,第一个基
因包含了 5个可能的外显子,组成一个长为 669 bp的
完整 ORF,编码一个长为 222 aa的蛋白。并利用搜索
工具 BLAST对预测出来的基因序列进行相似性搜
索,寻找同源序列,将搜索到的结果进行分析,并对大
豆 BAC基因序列的功能基因进行注释。查询序列某
一结构域与其相关物种的相似性越高,大豆基因序列
的这一结构域具有此功能的可能性越大。
利用生物信息学知识, 可以通过 GENSCAN、
BLAST等软件分析以及 GenBank数据库查询对得
到的核酸序列进行了序列初步分析,包括 DNA至氨
基酸转换、ORF分析 [ 5, 6] ;进一步对从大豆 BAC克
隆库中得到的基因序列进行了保守序列比较、各
组序列同已知基因核苷酸多序列同源性比较、各
组的氨基酸序列同已知基因氨基酸序列同源性比
较等综合性分析, 可预测出大豆基因序列的基因功
(下转第 117页 )
112
2010年第 12期  陈佰鸿等:特异性启动子调控甜瓜 ACC氧化酶反义基因载体构建及对烟草的转化
[ 13 ] Pogson B J, Dow n CG, Dav iesKM. D ifferent ial expression tw o 1a
m inocyclopropanelcarboxy lic acid oxidase gen es in broccoli after
harvest. P lan t Phys io,l 1995, 108 ( 2) : 651 657.
[ 14 ] 丁群英,张瑞,廖新福,郭蔼光. 哈密瓜 ACC合成酶基因 cDNA
的克隆及全序列分析.园艺学报, 2009, 36 ( 8) : 11771183.
[ 15 ] 黄永红,陶兴林,陆璐,赵长增.甜瓜 ACC氧化酶反义基因植物
表达载体的构建及转化烟草的研究. 西北植物学报, 2005, 25
( 2 ): 262268.
[ 16 ] 郭庆勋,秦智伟,丁国华,周秀艳.甜瓜 ACC氧化酶反义基因植
物表达载体的构建及对烟草的转化.中国农学通报, 2006, 22
( 1) : 3437.
[ 17] 罗云波,申琳.番茄中反义 ACC合成酶基因的导入与乙烯生物
合成的控制.农业生物技术学报, 1995, 3( 2) : 38 44.
[ 18] 刘传银,田颖川.番茄 ACC合成酶 cDNA克隆及其对果实成熟
的反义抑制.生物工程学报, 1998, 14( 2 ) : 139146.
[ 19] 魏兵强,赵长增,陆璐, 等.无选择标记的甜瓜 aACO1基因植
物表达载体的构建及对烟草的共转化效果. 甘肃农业大学学
报, 2007, 42 ( 5) : 6872.
(上接第 112页 )
能。为指导染色体结构的深入研究, 以及实际的转
基因应用提供理论依据。
参 考 文 献
[ 1] Th omp son JD, G ibson T J, Plew niak F. The clustal X w indow s in ter
face: f lex ible strategies for m u ltip le sequ ence alignmen t aided by
qual ity ana lysistools. Nu cleic Acid sResearch, 1997, 24: 48764882.
[ 2] A ttword TK. Genom ics. Th e Babel of b ioin form atics. Sceince, 2000,
290( 5491) : 471473.
[ 3] 陈英,彭心昭,补英杰.自噬基因 APG5基因结构的生物信息学
分析.遗传学报, 2001, 28( 11) : 10771084.
[ 4] 徐建华.生物信息学在蛋白质结构与功能预测中的应用.医学分
子生物学杂志, 2005, 2( 3 ) : 227232.
[ 5 ] 韦宇拓,杨登峰,黄日波.大肠杆菌 K12中 PFL家族基因的生物
信息学分析.广西农业生物科学, 2005, 24 ( 1) : 1822.
[ 6] 金谷雷,汪旭升,朱军. 水稻 1433蛋白家族的生物信息学分
析.遗传学报, 2005, 32 ( 7 ) : 726732.
117