免费文献传递   相关文献

利用表达序列标签电子克隆cDNA全序列的策略



全 文 :综述与专论
生物技术通报
BIOTECHNOLOGY BULLETIN 2010年第 1期
利用表达序列标签电子克隆 cDNA全序列的策略
孙淼 1 赵茂林 2
( 1首都师范大学生命科学学院,北京 100048; 2北京市农林科学院农业生物技术研究中心,北京 100097)
  摘  要:  基因组计划的进展及表达序列标签数据的迅速扩增使得电子克隆方法孕育而生, 为进行基因克隆开辟了一条
新的路径。介绍了表达序列标签和电子克隆的原理及过程,重点分析电子克隆过程中遇到的问题及解决方法 ,展望其在新基
因功能研究中的作用。
关键词:  表达序列标签 电子克隆 聚类 叠连群
Strategies for in Silico Cloning cDNA Sequences Based on EST
Sun M iao
1
ZhaoM aolin
2
(
1
College of Life Science, Cap italN ormal University, Beijing 100048;
2
B eijing Agriculture B io technology Research Center,
Beijing A cademy of Agriculture and Forestry Science, Beij ing 100097)
  Abstrac:t  The progress o f genom e project and the rap id expansion of expressed sequence tags( EST s), m ake in silico c lon ing
brought on, wh ich for us has opened a new path to gene c lon ing. In th is artic le, an overv iew of EST, the princ iple and m ethod o f in silico
clon ing were discussed, focusing on analysis o f problem s and so lutions dur ing in silico clon ing process, a lso, it pro spected the ro les in
the study of the new gene function.
Key words:  Expressed sequence tag s In silico c lon ing C lustering Contig
收稿日期: 20090914
基金项目:国家自然科学基金 ( 30370905, 30571135 ),北京市自然科学基金 ( 5032009 )
作者简介:孙淼,女,在读硕士,主要从事分子与细胞遗传学方面的研究; Em ai:l sunm iao1106@ sin a. com
通讯作者:赵茂林,男,研究员,研究生导师,主要从事植物分子细胞遗传学与育种学方面的研究; Em ai:l zhaom aolin@ baafs. net. cn
随着基因组计划的深入进行, 很多实验室采用
cDNA文库大规模测序、差异显示 PCR( d ifferent d is
play PCR, DDRTPCR)、代表性差异分析 ( representa
t ion difference analysis, RDA )及抑制性消减杂交
( suppression subtractive hybrid iza tion, SSH )等技术发
现了大量具有潜在应用价值的新基因片段。然而,
试验获得的大多只是 ESTs或者较长的 cDNA序列,
全长 cDNA序列的获得一直是制约新基因发展的瓶
颈。目前,许多公共数据库已经拥有了大量的表达
序列标签。因而从生物信息学的原理出发, 基于公
共数据库中的 EST序列或者较长 cDNA序列对新获
得的 EST序列进行电子延伸,就成为很多研究者关
注的焦点 [ 1]。
1 表达序列标签概述
表达序列标签 ( expressed sequence tags, ESTs)
是将 cDNA库中随机挑出的一个克隆,从 5 末端或
3 末端对插入的 cDNA片段进行一次单向测序所
获得的部分 cDNA序列。其长度一般为 300- 500
bp, 一个 EST代表生物体某种组织某时期的表达情
况, 是一个完整基因的一小部分。
1991年, Adams[ 2]首次利用人脑组织 cDNA得
到表达序列标签以寻找新基因。至今 ESTs已经在
分子遗传学标记、分离鉴定新基因、基因表达谱分
析、基因组功能注释、基因的电子克隆、DNA芯片制
备、RNA i技术研究以及寻找其他序列特征等方面得
到了广泛应用。
2 电子克隆概述
2. 1 电子克隆的基本原理
电子克隆 [ 3] ( in silico clon ing或 electron ic c lo
n ing)又称 !电子 cDNA文库筛选∀ [ 4] ( e lectron ic cD
NA library screening )或 !虚拟克隆 ∀ ( v irtual c lo
n ing) ,是指利用计算机技术和网络资源 ( ESTs数据
生物技术通报 B iotechnology  Bulletin 2010年第 1期
库、核苷酸数据库、蛋白质数据库、基因组数据库
等 ) ,采用生物信息学方法 (同源检索、聚类分析、序
列拼接等 )延伸 ESTs序列,以期获得部分乃至全长
cDNA序列的方法。
国际上 Bogusk i等 [ 5]学者在 1994年开始利用
电子克隆方法发现新基因, 中国科学院生物物理研
究所陈润生研究组在 1996年也开始了对电子克隆
的研究。在人类基因组计划图谱公布之后, 越来越
多的学者利用电子克隆的方法获得基因,目前已获得
了众多人的功能基因,如 SR相关剪切调控蛋白 508
( SRrp508)基因 [ 6]和人类 TECTB基因 [ 7]。由于受到
序列资源的限制,植物基因的电子克隆还鲜有报道。
2. 2 电子克隆的方法步骤
2. 2. 1 感兴趣 EST s的获得 实施电子克隆首先
要获得感兴趣并可能具有潜在功能位点的 ESTs,获
得这些 ESTs的方法主要有定位候选克隆策略 [ 8 ]、
模型基因组研究 [ 9]以及差异表达或协同表达基因
分析 [ 10, 11]等。
2. 2. 2 ESTs的查询 首先以感兴趣的 ESTs为种
子序列选择适当的目标数据库进行同源性搜索,以期
获得有片段重叠、同源性高的 ESTs。目前, BLAST是
应用最广泛的序列相似性搜索工具,可以从美国国家
生物技术信息中心 NCBI等文件服务器上下载并安
装在本地计算机上, 也可以通过 NCB I( h ttp: / /b las.t
ncb.i nlm. n ih. gov /B las.t cgi)在线比对。这样可得
到 EST的同源序列,选取其中相似性高, E值 (相关
参数 E代表随机比对分值不低于实际比对分值的
概率 ) [ 12 ]小的 EST以进行下一步的分析。另外,还
有一些 EST数据库也常用来进行同源性搜索 (表
1)。
表 1 常用的 EST数据库
常用数据库 网站 备注
dbE ST
http: / /wwwncb i
nlmn ih gov /db
EST / indexh tm l
G enB ank的一部分,包含不
同生物的 EST序列数据及
相关信息
Un iGene
http: / /wwwncb .i
nlm. n ih. gov / s ites /
en trez? db= un igene
把 G enB ank中属于同一条
基因的所有片段拼接成完
整的基因进行收录
续表
常用数据库 网站 备注
T IGR Gene
Ind ices
h ttp: / /www t igr
org / tdb / tgi /
美国国家遗传所建立的涉
及各个物种的 EST序列数
据及相关信息的综合性数
据库
当查询后得到大量的 ESTs序列时,就有必要进
行聚类分析。EST 聚类 ( c lustering )分析 [ 13 ]是通过
序列同源比较或其他注释信息, 把属于同一基因的
EST聚合成一簇,以减少数据冗余程度,提高表达序
列的数据质量。常用的聚类分析软件有 NCB I的
UN IGENE、STACKPACK、T IGR Gene Indices等。此
外, 张利达等 [ 14 ]开发了一个新的聚类分析软件 ES
Tclustering并对 112 256条拟南芥 ESTs和 147 191
条水稻 ESTs进行聚类测试, 发现它能够更好地反映
表达序列的多样性。
在实际应用时, 同源性搜索和聚类分析两种方
式可以交错灵活使用,以确保用于拼接的 ESTs的全
面性和可靠性。
2. 2. 3 ESTs的拼接 得到种子 ESTs的相应同源
序列后,需要通过拼接把它们组装成一调和序列即
重叠连续群 ( cont ig )简称叠连群, 它是两个或两个
以上 EST序列或转录序列组成的调和序列 [ 15]。这
些 EST序列之间至少有 40个碱基的重叠并且序列
中 95%以上的碱基是确定的, 而不是未知碱基或其
他模糊碱基。
目前, 国际和国内的一些生物信息中心都提供
相应的服务,可直接在网上完成相应的拼接工作,许
多免费的分子生物学软件也都提供类似功能。常用
的拼接程序及其评价如 CAP3( http: / /pbi.l un ivly
on1. fr/ cap3. php)是一个应用于序列组装的程序,
属第三代的 CAP组装软件, 较以前的版本有了一些
改进。这种多序列比对的方法在 contig覆盖率较高
时比较有效,单一反应采用这样的方法并不十分精
确。DNASTAR的 SeqM an程序在拼接前,可以修整
质量差的序列以及从序列中清除污染数据; 在拼接
后, 能够图形化的显示每个序列片段在 cont ig中的
位置和方向,查看其中的矛盾碱基的数量和序列的
覆盖程度,然后对其进行完善的编辑。
50
2010年第 1期 孙淼等 :利用表达序列标签电子克隆 cDNA全序列的策略
还有一些综合性的生物学软件都具有拼接功
能,如 DNAMAN、SequencherTM等,但不同的网站、不
同的软件采用的算法不同,得到的结果也不同,操作
者应根据个人的需求、经验以及所获得的 EST数目
和质量,酌情考虑。
2. 2. 4 contig的分析及再延伸 当一次拼接完成
后,需要对该 contig进行分析。为了防止拼接错误
的产生,可以采用以下两种分析方式: 将组成 con tig
的每一条 EST序列都与该 contig进行比较, 那些不
是完全比对上的 EST有可能是错误拼接的 EST,也
有可能是选择性剪切所造成的结果。与已知核苷酸
和蛋白质数据库进行 B lastn /B lastx比对, 如果出现
同一个 contig比对上两个不相关的基因的结果,很
有可能表明该 contig是错误拼接的结果,相反如果
不同的 contig比对上同一个基因, 则说明很有可能
这些 EST是可以聚在一起的。
另外, 判断原序列是否有所延伸也是非常必要
的,方法是将拼接后的新生序列与种子 EST进行两
序列比对。分析后, 以新生序列为种子序列重复进
行上述步骤,至不能获得延伸为止。
2. 2. 5 全长 cDNA的判断 完成拼接后, 需要判断
全长 cDNA的完整性和进行结构功能预测,可以从
以下几个方面加以分析:
( 1)开放读码框架 ( ORF)的分析: 目前普遍应
用 NCB IORF Finder( h ttp: / /www. ncb .i nlm. nih. go#
v /go rf /gor.f htm l)进行开放读码框架分析。一些综
合性的软件也包含 ORF F inder程序, 如 B ioEdit、
DNAMAN、Sequencher等。大部分拼接出的序列尤
其是属于未知基因的 EST拼接序列都是包含了完
整阅读框架的非全长 mRNA,也就是说没有包含 5
端的帽子结构而只包含 5 UTR区 ( untranslated re
gion)的少量部分 [ 16] , 这是电子克隆中遇到的主要
问题。可以根据 Kozak规则 [ 17 ]和经验加以判定
ORF的 5 端完整性, 一般有以下几条原则 [ 9] : 参考
5 端的起始密码子 AUG的周围序列 ( GCC ) GCCA /
GCCAUGG规则;在起始密码子上游的同阅读框序
列中是否存在终止密码子; 据已有的其他物种该类
基因的 5 端序列与预测物种 5 端的序列一致性比
较;根据 Northen杂交的结果判断该基因转录本的
大小。
( 2)基因结构分析: 基因结构分析主要包括启
动子预测、转录起始因子结合位点预测、内含子和外
显子预测、蛋白质基本性质、功能和结构分析预测等
(表 2)。
表 2 基因结构分析常用软件
数据库 网址 备注
Prom oter
Scan
h ttp: / /wwwb im as. cit. n ih. gov /m ol
b io /proscan /
启动子
预测
TFSEARCH
h ttp: / /m bs. cb rc. jp / research /db /TF
SEARCH. h tm l
转录子
结合位
点预测
CDD
h ttp: / /www. ncb .i n lm. n ih. gov /Stru c
tu re/ cdd /cdd. shtm l
蛋白质
功能保
守区域
预测
ScanPros ite
h ttp: / /www. expasy. ch / tools/ scanpro
site/
蛋白质
分析
T argetP
h ttp: / /www cbsdtudk /services /
T argetP /
蛋白质
亚细胞
定位
( 3)基因的表达谱分析及电子定位: 基因的表
达谱是指细胞中所有基因表达的格局。通过分析基
因表达谱可从整体水平研究代谢机制,认识基因相
互作用的网络关系, 发现重要基因。利用 Un iG ene
数据库可以进行电子表达谱分析, 先获得待分析序
列的 Un iG ene编号后, 通过参与形成 Un iGene C lus
ter的序列的组织 /细胞来源间接地反映待分析序列
在何种组织中表达,体现在字段 ! cDNA sources∀。
基因的电子定位是通过序列标签位点 ( se
quence tagged site, STS)进行电子 PCR反应即登录
UniSTS( h ttp: / /www. ncb.i nlm. n ih. gov /sites/entrez?
db= un ists)或者通过 U niGene / RH技术进行定位。
2. 2. 6 试验验证 根据拼接好的完整序列设计
PCR引物进行试验, 通过 RTPCR反应获得克隆片
段, 然后采用 RACE方法继续步移, 最终获得全长
cDNA序列。测序后将新基因对数据库进行搜索,
以证明这是一个全新基因。将新基因注册, 获取注
51
生物技术通报 B iotechnology  Bulletin 2010年第 1期
册号。
3 电子克隆的优缺点讨论
电子克隆与传统的采用克隆原位杂交方法筛选
cDNA文库或是利用基因特异引物进行 cDNA末端
快速扩增相比,主要的优势在于节省时间和节约经
费,能够起到事半功倍的效果。但是数据库中的
EST数据最高精确度为 97% [ 18 ] ,这意味着获得的是
模拟序列,最终仍要通过试验验证。而且很多植物
物种的 ESTs数据库还没有建立起来,实现电子全长
cDNA的克隆还有一定的难度。
4 展望
电子克隆技术的产生从此改变了今后基因研究
的策略,人们关注的焦点将更多集中于克隆基因的
功能研究。在很多规模较小的实验室, 可以轻易的
建立起基因克隆到转基因功能研究的试验体系,使
得基因工程的内部联系更加紧密。除此之外, 还可
以利用电子克隆技术在基因水平上研究某些复杂事
件或途径的机制。因此, 电子克隆在未来的基因克
隆中将占有独特的地位,也必将大大加速基因结构、
功能研究的进程,推动比较基因组学的发展和基因
的进化、起源方面的研究。
参 考 文 献
[ 1] 张成岗,贺福初. 生物信息学方法与实践. 北京: 科学出版社,
2002, 7276.
[ 2] Adam sMD, K el ley JM, Cocayne JD, et a.l C om plem entary DNA se
quencing: exp ressed sequence tags and hum an genom e project. Sci
en ce, 1991, 252 ( 5013 ) : 16511656.
[ 3] G ill RW, S anseau P. R ap id in sil ico clon ing of gen es us ing expressed
sequen ce tags( ESTs) . B iotechnolAnnu Rev, 2000, 5: 2544.
[ 4] B anf iS, Guffan tiA, Borsan iG. H ow to get the bes t of dbEST. Trends
Genet, 1998, 14( 2 ) : 8081.
[ 5 ] Bogusk i MS, Tolstosh ev CM, Bassett DE Jr. Gen e discovery in
dbEST. S cience, 1994, 265( 5181 ) : 19931994.
[ 6] 张德礼,孙晓静,凌伦奖,陈润生, 马大龙. 人类 SR蛋白超家族
新成员 ∃ SFRS12 ( SR rp508 )的基因克隆和特征分析.遗传学报,
2002, 29( 5 ): 377383.
[ 7] 张华莉,邓昊,张瑞芳,夏昆,夏家辉.人类 TECTB基因的电子克
隆.遗传学报, 2003, 30 ( 4) : 317320.
[ 8] 林慧贤,刘莜斌,李发强,罗文永,刘良式. 水稻小 GTP蛋白基因
Ostab5B基因的克隆和鉴定.高技术通讯, 2001( 3 ) : 914.
[ 9] 黄骥,张红生,曹雅君,钱晓茵,杨金水.水稻功能基因的电子克
隆策略.中国水稻科学, 2002, 16 ( 4) : 295298.
[ 10] 黄新杰,郭军,屈志鹏,黄丽丽, 康振生.小麦 T aLSD1锌指蛋白
基因的电子克隆及序列分析. 西北植物学报, 2007, 27 ( 11 ):
21472152.
[ 11] 何亮,李富华,莎莉娜,付凤玲,李晚忱.玉米 2C型丝氨酸 /苏氨
酸蛋白磷酸酶 ( PP2C )活性与耐旱性的关系.作物学报, 2008, 34
( 5) : 899903.
[ 12] 王禄山,高培基.生物信息学应用技术 [M ] .北京:化学工业出
版社, 2008, 70.
[ 13] H ideW, M iller R, PtitsynA, Kelso J, Gopallak rihnan C, Ch ristoffels
A. EST C lu stering Tutoria.l ISM B inH eid elberg, G erm any, 1999, 6.
[ 14] 张利达,袁德军, 张建伟, 王石平,张启发.一种新的 EST聚类
方法.遗传学报, 2003, 30 ( 2) : 147153.
[ 15] A ttw ood TK, ParrySm ith D J著,罗静初译.生物信息学概论.北
京:北京大学出版社, 2002, 118.
[ 16] Sa lam ov AA, N ish ikaw a T, Sw indellsMB. Assess ing p rotein coding
reg ion in tegrity in cDNA sequ encing pro jects. B ioin form atics, 1998,
14 ( 5) : 384390.
[ 17] Kozak M. An analysis of 5 non cod ing sequences from 699 verte
b rate m essenger RNA s. Nucle ic A cids Res, 1987, 15 ( 20 ):
81258148.
[ 18] 何志颖,姚玉成综述,胡以平审校. E ST技术及其在基因全长
cDNA克隆上的应用策略. 国外医学遗传分册, 2002, 25 ( 2 ):
6769.
52