免费文献传递   相关文献

From bioethics to bio-law

解读生命密码的基本手段——DNA测序技术的前世今生



DNA( 脱氧核糖核酸) 和RNA( 核糖核酸) 是生命体的两种最基本组成物质,其序列的组成和变化造就了形形色色的生命世界。这两种承担了生命体遗传信息载体功能的物质,一方面在生命的不断繁衍中保持了各个物种的独特面目,另一方面又通过不断的演变改变着自身性状,同时又影响着与之相关的物种,这一规律在生命科学领域被归纳为“中心法则”。笼统而言,几乎全部的生命现象均来源于A、T、C、G 这四种碱基的排列顺序( 在RNA序列中,U 取代了DNA 序列中的T) 及其变化,并且,这种排列并非无序的随机组合,而是具有相当丰富的信息含量、生命内涵和变化规律性。所以,DNA 和RNA 序列被称之为生命密码是完全合情合理的,有效而准确地获取这些密码,成为生命科学研究的基本信息获得手段和赖以发展的根本基础。


    

收稿时间:2012-10-26
基金项目:中国科学院重大科研装备研制项目(YZ200823)
*通信作者:E-mail: junyu@big.ac.cn


全 文 :第24卷 第12期
2012年12月
Vol. 24, No. 12
Dec., 2012
生命科学
Chinese Bulletin of Life Sciences
文章编号:1004-0374(2012)12-1357-06
解读生命密码的基本手段
——DNA测序技术的前世今生
任鲁风,于 军*
(中国科学院北京基因组研究所DNA序列测定技术研究开发中心,中国科学院基因组科学及信息重点实验室,北京 100029)
收稿时间:2012-10-26
基金项目:中国科学院重大科研装备研制项目(YZ
200823)
*通信作者:E-mail: junyu@big.ac.cn
DNA(脱氧核糖核酸 )和 RNA(核糖核酸 )是
生命体的两种最基本组成物质,其序列的组成和变
化造就了形形色色的生命世界。这两种承担了生命
体遗传信息载体功能的物质,一方面在生命的不断
繁衍中保持了各个物种的独特面目,另一方面又通
过不断的演变改变着自身性状,同时又影响着与之
相关的物种,这一规律在生命科学领域被归纳为“中
心法则”。笼统而言,几乎全部的生命现象均来源
于 A、T、C、G这四种碱基的排列顺序 (在 RNA
序列中,U取代了 DNA序列中的 T)及其变化,并
且,这种排列并非无序的随机组合,而是具有相当
丰富的信息含量、生命内涵和变化规律性。所以,
DNA和 RNA序列被称之为生命密码是完全合情合
理的,有效而准确地获取这些密码,成为生命科学
研究的基本信息获得手段和赖以发展的根本基础。
1 DNA序列是如何测定的?
1975年英国生化学家 Frederick Sanger发明了
末端终止法 DNA测序技术,打开了我们解读生命
天书的大门,人们第一次真正看到了生命的最基本
信息是什么样子,所谓的基因到底包含了哪些内容。
随着了解的信息逐渐积累,量变产生了质变,我们
得到了一些规律,而随之而来的却是更多的问题和
困惑,研究工作愈加深入,我们就会发现自己的了
解愈加贫乏。这就像战争催生技术革命一样,需求
总是技术发展的源动力,从而日新月异的信息获取
手段——测序技术——获得了长久不衰的发展,
其过程就是序列获得→原理发现→了解深入→
疑问产生→寻求答案→更多的序列获得需求→
新技术产生→更多序列的获得→更深入的了解和
更深入的疑问,正是这样周而复始的螺旋上升过程,
推动了生命科学进入高速发展的轨道。
在这样的科学技术发展过程中,我们对序列获
取的需求从最初对某一个基因的解析逐渐演化成对
全部基因的解析、对基因组的解析、对转录组的解
析、对 DNA修饰的解析、对转录调控的解析、对
RNA修饰的解析等方方面面的需求和实践。应运
而生的是自动化测序、高通量测序、RNA测序、
甲基化测序等等技术变革甚至革命。其中最显著的
就是测序设备通量的飞速发展,至今为止每天每台
能够产生的测序数量已经从最初的几千个碱基
(1985年 )达到了 50~60Gb(1G=109),特别是近 5年
的进展,几乎可以用 IT行业的摩尔定律来进行描述。
可以说,目前对于最基本的 DNA和 RNA测序,除
了价格因素外,基本可以满足科学研究的需要了。
既然说需求已经可以满足了,为什么还要发展
测序技术呢?
2 能够测什么,还需要测什么?
经过几十年来的研究和积淀,人们对生命信息
的理解从最初认识到的 DNA和 RNA,不断地进行
丰富。20世纪 80年代启动人类基因组计划之际,
人们还在认为拿到人类的全部基因组序列就可以解
读这部天书,但实际上这仅仅是一个开始,在这个
当时比肩于阿波罗登月计划的项目进行中,我们就
发现生命的信息远远超出当时的认知范围。占基因
组多达 1%的多态性位点、基因组中的非编码序列、
种类繁多的各类不同功能的 RNA、不同基因序列
上的甲基化位点、DNA和蛋白质相互作用的调控
机制等等,诸如此类庞杂的信息以及深深隐遁其中
∙ 特约综述 ∙
生命科学 第24卷1358
的生命规律远不是测定一个基因组就可以解决的问
题。
为了发现多态性位点和性状表现之间的关系,
需要对大量样本进行重测序,才能从中总结规律;
为了发现不同基因的不同甲基化程度,需要进行甲
基化测序 (通过亚硫酸氢钠处理 DNA,使非甲基化
的 C变成 U,测得序列中的 C就是甲基化位点 );
为了发现不同组织中基因的转录水平,需要进行转
录组测序 (mRNA逆转录成 cDNA,再进行测序 )。
从表面上看我们已经找到了应对各种需要的测序技
术,实际上却不尽然。
对于 DNA测序而言,目前的高通量测序技术
在满足通量的同时,由于技术本身的限制,读取的
单一序列长度一般介于 75~100 bp (Life Tech nologies
公司的 5500xL SOLiD 测序仪和 Illumina公司的
HiSeq2000测序仪 ),Roche公司的 454 GS FLX+
测序仪可以达到 700 bp的读长,相应的其通量仅仅
为 0.7 Gb,通量价格比远低于前两者 (通量分别为
180 Gb和 600 Gb)。这样就形成了一个瓶颈,通量
高的读长短,读长长的通量低。
为什么我们要追求通量和读长?通量高可以让
我们用更少的时间和更低的价格获得更多的数据;
而读长则决定了对获得的序列片段进行拼接的难
度。对于人类基因组重测序这样的工作,因为我们
已经有了绝大部分都一致的参考序列,短读长片段
可以很容易的通过比对找到相应的位置,但对于一
个从来没有测过序列的物种,只能通过片段之间的
相同序列来排定顺序,短读长就力不从心了。虽然
我们开发了无数算法和软件来进行这项工作,但读
长的局限性依然很大程度上存在。
另外,由于基因组中还存在有大量的特殊结构,
比如重复序列,这种序列可能延续很长,造成我们
只能得到这个片段两端的序列和不精确的中间距
离,因为读长的限制,没办法发现中间的内容,就
像是一条 100 km的高速公路,而我们手中只有能
跑 20 km的汽车,我们就没办法发现这条路中间位
置是否有美丽的风景。所以我们需要能够突破现有
读长的技术出现 (即使是传统的毛细管测序仪,读
长最大也只能达到 900 bp)。
目前的测序技术还有一个相当大的问题,就是
现有测序反应的模板都是通过对原始样品的核酸进
行扩增后的产物,特别是对于 RNA还需要先进行
一步逆转录反应。我们知道首先扩增反应不可避免
地会产生扩增的偏向性,例如在原始样品中的两个
片段,一个有 1000个拷贝,另一个只有 10个拷贝,
在扩增过程中并不会按照这个比例同步反应,很可
能在扩增后拷贝多的片段变成了 10万个,而少的
变成 100个,这样一部分片段就被自然地湮没了,
造成的后果就是我们丢失掉了这部分信息,而恰恰
这部分信息可能才是某个机制的决定性因素。举一
个典型的例子,肿瘤发生的早期就是几个细胞的基
因发生突变,而在基因扩增过程中这样微弱的变化
就会被掩盖在占绝对优势的正常基因中。同时,这
种技术还造成了另外一个问题,就是我们最终都是
对扩增后的人工产物进行测序,而对于原始序列中
存在的诸如修饰之类的信息也在扩增过程中被抹杀
掉了。
由此可见,目前的测序技术一定程度上满足了
现阶段研究的需要,但随着研究的深入和研究对象
的复杂性提高,会有更多的需求被提出,如前文所
述,新的技术需要应运而生了。
3 何为第三代测序技术?
从前文中可以发现,为了实现更深入的研究,
技术的变革已经逐渐浮出水面了。首先需要回顾一
下此前的技术发展历程,也就是说为什么有所谓下
一代测序技术和第三代测序技术之分。
测序技术发明之初是通过在聚合酶、DNA模
板、引物、dNTP和 ddNTP的作用下发生延伸反应。
由于 ddNTP的存在,形成长度不等的延伸片段,
根据不同碱基的末端终止片段长度,可以按顺序读
出相应的序列。其后在此技术原理的基础上产生了
几次变革,包括用四色荧光取代了放射性同位素标
记和用毛细管电泳取代了平板凝胶电泳等。这一代
测序技术统治市场多达 30年之久,其中最出色的
产品是 ABi公司的 3730xL测序仪,可以在 2~3 hr
内进行 96个测序反应,读长最多可达 900 bp。因
为这一代技术是对测序模板分别单独进行反应,通
量已经达到了极限,而且单价远高于后来推出的高
通量测序技术,因此在 2005年后,基本上除了病
毒外的基因组测序工作均已不再适用。但是这种技
术可以对相对少量的特定位点、克隆产物和 PCR
产物的序列进行测定,仍然具有其细分市场定位。
2005年对于测序技术而言是一个转折点,因
为在这一年高通量测序技术进入了市场,彻底改变
了测序的规模化进程。Roche、Illumina、ABi都推
出了各自的新一代测序仪,因为在当时的背景下,
高通量测序技术属于一个突破性的进展,业界并未
任鲁风,等:解读生命密码的基本手段——DNA测序技术的前世今生第12期 1359
预料到其后续发展的速度之快,所以笼统的将之称
为下一代测序技术,直到 2009年更新的技术展示
在世人面前的时候,大家才回想起来当时的短见,
所以又有了“下下代测序技术”之说。我们在这里
将 2005年出现的“下一代测序技术”称为第二代
测序技术,而此前的特定克隆测序则称为第一代测
序技术。
第二代测序技术的技术特征是不再区分单一模
板,而是将模板变成了“库”,里面包括了我们希
望测序的所有模板,同样是根据模板序列合成或者
杂交形成互补链,通过互补链的延伸过程中引入的
荧光标记来识别每个碱基。当然,这次是同时识别
数百万个平行进行的测序反应了。因为这一代技术
还都是通过荧光来进行识别检测,受限于光学检测
灵敏度,测序模板实际上还是扩增产物,而另一个
技术标志就是单分子的原始模板在固相 (微球或芯
片表面 )上进行扩增反应,这却恰恰是第二代测序
技术中最容易产生人为干扰的部分,因为操作水平
的不同,这一代测序仪在不同的实验室性能表现参
差不齐。
第二代测序技术的产生极大地推进了相关研究
的进展和突破,让以前遥不可及的基因组测序工作
简单到一个实验室都可以进行。但是,虽然满足了
现阶段大部分工作需要,其技术瓶颈是难以克服的,
尤其是模板扩增和序列读长,成为最集中的矛盾所
在。这样就对测序技术提出了不经过扩增的单分子
测序、读长超过以往技术和通量需要达到一定的规
模等新的挑战。
正如“下下代测序技术”的称谓一样,技术的
变革出乎所有人的意料。随着物理、化学、材料等
学科的不断发展及其与生命科学的不断融合,在某
种程度上可以解决更新一代测序技术的技术难题,
这就催化了第三代测序技术的产生。相应地,第三
代测序技术的技术标志就是单分子测序和长读长。
目前上市的第三代测序仪仅有 Helicos公司和 Pacific
Biosciences公司两款产品,Helicos公司的 Heliscope
是最先上市的单分子测序仪,但因为当时其采取的
技术策略具有的局限性 (通过聚合酶进行单分子聚
合延伸,加入一个碱基,拍照,去保护,再延伸下
一个碱基,周而复始。因为生化反应的效率不可能
达到 100%,对于单分子只要出现一次错误就会导
致反应终止或错读,造成读长只能达到 20 bp左右 ),
目前已经基本淡出市场,最受业界看好的还是
PacBio公司的 RS System测序仪,其平均读长可以
达到 3.2 kb,通量 2 Gb/d (每个芯片运行 90 min,
平均产生 70~140 Mb数据 ),而且还有进一步提升
的空间。但是,因为是单分子测序,测序反应中产
生的每个错误都会被忠实地记录下来难以分辨,这
就形成了目前此款测序仪最致命的问题,其准确性
仅有 85%,虽然可以通过重复测序进行一定程度的
纠正,但相较于第二代测序技术动辄 99.5%以上的
准确性,确实是其最大的短板。当然,我们相信这
一代测序技术还是可以在不断的成熟过程中最大程
度克服其技术劣势的。
目前还有很多概念性测序技术的研究,主要技
术特点是抛弃了在复杂的酶促生化反应中进行序列
读取,而更多的利用碱基的电学特异性差异,通过
纳米孔、石墨烯、半导体或者微电极等直接对碱基
穿过电极时的电流差变进行测量。通常这种电流变
化都是 nA甚至 pA级别的,从目前的进展来看,
很难在短时间内实现高通量并行化上的突破。我们
并不否认今后会有其他领域的技术飞跃给这一类测
序技术提供技术实现的可能,至少从现在的研究结
果来看,还有很长的路要走。我们把这一类不需要
生化反应伴随、不需要化学试剂产生反应的测序技
术归纳为第四代测序技术。
4 理想而完美的测序技术是什么样子
由此我们可以看到,测序技术的发展呈现着一
种层出不穷的态势,而到底有没有一项能够满足我
们所有需求、真正理想和完美的测序技术呢?
我们知道人类探求生命奥秘的需求是随着研究
的深入而不断扩张的,但现在仅仅就目前的研究现
状而言,探索通向理想而完美测序技术的路上,有
如下几个一定要解决的关键问题。第一,可以完整
地解读每个 DNA分子或称染色体的序列信息。它
们的长度范围在几千个核苷酸到几亿个核苷酸之
间,显然我们目前的测序技术距离这个目标还有很
远的距离,使之成为可望而不可及的终极目标。第
二,如果我们不得不将 DNA分解成不同片段来解
读的话,我们必须要有高覆盖 (一般在十倍到百倍
之间 )的重叠群序列,才能利用重叠的信息将测定
的片段连接起来。序列读取质量 (帮助我们精确判
定片段之间的重叠 )和序列读出长度 (保证长距离
的连续性 )就成为两个不可或缺的重要参数。而且,
理想状态下,DNA测序仪的一次性序列读长决定
了DNA序列组装的连续性 (Lander-Waterman定律 )。
第三,不同物种和每个物种的基因组序列都有不同
生命科学 第24卷1360
程度的变化,从百分之几到千分之几,我们必须要
测定成千上万的个体所具有的序列,才能充分发现
这些基因组的多态性,因此通量和工作效率成为测
序技术的永久需求,就像电脑的运算速度一样永远
不会得到人们的满足。第四,在实际生命中,DNA
分子并不是仅仅由简单的四种碱基组成,还至少有
另外三种修饰:甲基化、羟甲基化和糖羟甲基化,
而且它们在 DNA分子上还表现出很大的不均一性,
目前的测序技术还不能直接测定这些修饰的存在。
另外,我们现在只能通过测定 DNA序列的技术来
间接地测定各种活性 RNA分子的序列,但是 RNA
序列不仅有逾百种化学修饰,而且在不同种类的细
胞、不同状态的细胞,乃至每个细胞中都有所不同。
可见对测序技术的需求是无止境的。因此,单分子
水平的 DNA和 RNA序列的测定成为基因组学研究
和分子生物学研究的新需求。第五,由于实际需求
的完美性和现有技术的局限性,部分满足不同需求
的 DNA测序仪 (如第一代和第二代测序仪 )有长
期存在的可能性。这种可能性使对下游配套技术 (如
数据处理和分析等 )的需求增加。
所以说,就像我们在追求笔记本电脑的完美性
一样,既需要运算速度快,又希望轻便省电,同时
还要价格低廉,但没有任何一台电脑能够同时满足
所有的需求,测序技术也是如此。因此,不同代次
的测序技术依然会长期共存和继续发展,力求达到
各自的性能极限甚至冲破各自特有的技术瓶颈。另
一方面,新的测序原理和技术也将不断产生出来,
以满足不同层次的应用需求。而这一切,则依赖于
也同样驱动着今后众多相关技术的发展和进步。
5 一年、两年、五年、十年后的测序技术发展
趋势
期待理想而完美的测序技术出现,必然需要在
现有的技术体系上实现突破,这就意味着测序技术
的发展必然是由一系列技术革命催生而来的。这一
系列技术革命远远不止于生命科学本身的范畴,而
更多地需要依赖于众多学科专业的进步及其与生命
科学的融合。
目前上市的测序系统,包括第一代和第二代测
序仪,绝大多数是依赖于在生化反应 (聚合反应和
连接反应 )过程中通过特定碱基产生的荧光来进行
识别,也就是说信号获取是通过光学检测来实现的。
这也是第二代测序仪此前不能实现单分子测序的主
要原因之一,因为单分子荧光检测对于光学器件的
灵敏度和视场背景干扰的消除等技术要求非常苛
刻。近年来光学技术的发展及其与生命科学的融会
贯通给这一难题提供了有力的解决方案,如 Helicos
的 Heliscope测序仪采用了全内反射式显微镜对单
分子荧光进行获取,PacBio的 RS系统利用了物理
学的零模波导原理消除背景。
第二代测序仪队伍中刚刚加入了一个技术上的
另类,当然也可以说成一次技术上的飞跃,就是
Life Technologies在 2010年收购的 Ion Torrent公司
发明的 PGM测序仪,这是第一种商品化的不通过
荧光观测进行测序的设备,其利用每个碱基的聚合
反应中都会产生一个质子,从而改变了测序池体中
的 pH值,而每个池体底部则由集成电路构成专一
的 pH传感器装置来进行检测。目前已经在国内上
市的 Ion 314芯片具有 130万个传感器,已在美国
上市的 Ion 316芯片具有 600万个传感器,更大规
模的 Ion 318芯片则达到了 1100万个传感器,计划
于 2012年上市的升级机型 Ion Proton测序仪所配套
的 Ion PI芯片据称集成了 1.65亿个传感器,开发中
的 Ion PII芯片将达到 6.6亿个传感器 (该公司称应
用这一芯片能够在 2 h内完成一个人的基因组测
序 )。而这一切则需要归功于半导体芯片技术的发
展和应用,难怪 Ion Torrent公司声称其技术基础依
赖于半导体工业 40年来高达 1兆美元的前期投入
和积累。
不同领域技术融合的特征还表现在另外一个方
面,即材料的微纳加工上。第一代测序仪的革新之
一就是将大体积的平板胶电泳变成了纤细的毛细管
电泳,除了设备体积得到优化外还使每个测序过程
单独封闭,避免了相互间的干扰。到第二代测序技
术出现后,其中结合有核酸分子的微球目前据称最
低已经达到了几百纳米的直径,特别是 Roche公司
的 454测序仪应用的测序芯片,是由数百万根 30
μm直径的光纤构成的,而且每根光纤一端的芯层
还被腐蚀出 40 μm深的池体作为单个测序反应的独
立空间。第三代测序仪在这方面就更加突出,
PacBio的 RS系统测序芯片因为应用零模波导原理
的原因,其芯片是在玻璃上方用铝加工出一系列直
径 50 nm、深 100 nm的池体,目前这种工艺还只能
通过高分辨率的电子束曝光技术来实现,因为电子
束曝光工艺处理的面积有限,造成这一设备的单次
运行通量和单位时间运行通量现阶段还不能达到第
二代测序仪的高度。
从这里我们可以看到一个测序仪技术组成的发
任鲁风,等:解读生命密码的基本手段——DNA测序技术的前世今生第12期 1361
展趋势,就是随着测序仪代次的更迭,实现测序目
的的技术权重已经逐渐由偏重生化反应转向偏重物
理学、材料科学等非生物学科。第一代测序仪仅仅
是提供一个电泳和电泳后分析的平台;第二代测序
仪则利用微加工处理和光电子成像技术实现边反应
边测序;第三代测序仪则将反应体系进一步缩小到
了微纳米量级的尺度,同时利用物理原理实现了单
分子识别;而目前正在进行概念研究的第四代测序
技术几乎完全抛弃了生化反应,通过力学、电学等
对 DNA分子中的碱基直接判读。所以说,未来的
测序技术发展将主要依靠微纳加工技术来实现测序
微环境的结构形成,依靠物理学手段来进行识别,
生物学范畴的内容也许还会存在,但只能起到辅助
功能,而技术革命必将来源于其他学科在这一领域
的应用。换言之,更全面的实现跨学科跨专业的交
叉和融合,是测序技术发展的必由之路。
第二代测序技术自 2005年实现至今仅仅 7年
的时间,但给我们的感觉就像是飞跃了一个世纪。
未来的几年这种发展是会陷入技术的瓶颈还是继续
甚至更迅猛地实现突破?人们对生命科学的探知欲
望是与日俱增的,对于测序技术这一获取生命信息
的直接手段将会更加地倚仗,需求只会不断增长,
这也将给技术发展以更强有力的推动。
从目前普遍应用的第二代测序技术来看,受技
术本身的限制,通量和读长可能还会继续增长,但
增速可能很难达到之前如此陡直的斜率,我们大胆
地预测,当 Roche的 454达到读长 1 kb、通量 1
Gb,SOLiD和 Hiseq达到通量 1Tb,可能就会进入
平台期,这是目前采用的测序原理技术本身可能达
到的极限,世界上没有永动机,也没有无限增长的
测序通量。从发展速度来看,乐观估计 2013年就
有可能达到这一目标了。对于目前研究界所热衷的
工作,诸如人类基因组重测序、转录组、新物种基
因组框架图、宏基因组、泛基因组等等研究,大部
分都可以满足需要,但对于一些目前只能通过间接
手段开展的工作,如表观遗传学等,期望用第二代
测序技术大批量进行则因为技术原理的局限而力有
不逮了。
第三代单分子测序技术为发现基因组中此前未
阐明的内容提供了技术手段,但即使是一枝独秀的
PacBio仍然有很多问题需要解决,但是其最主要的
关隘已经获得了突破,所以我们有理由相信,也许
2013年就是第三代测序技术全面应用的元年。有人
认为,当第三代测序技术发展成熟之后,也许之前
所有曾经完成测序的工作都要重新来过一次,虽然
并不能全部推翻此前的工作结论,但是可能发现和
修正很多我们之前认为已经证据确凿的研究内容。
科学实际就是在这样的反反复复中不断成熟和深入
的。
在现阶段看来,还没有一种第四代测序技术真
正具有实用性价值,但不得不说,已有的概念性研
究给我们展示了一幅美好的未来前景,无论是纳米
孔、纳米管、石墨烯、纳米电极这类穿孔测序,亦
或是电子显微镜这种直接观测的形式,也许在今后
不远的一天,我们会突然发现,测序已经远远突破
了所谓 “百美元一个基因组 ”的期望,甚至实现零
成本。我们还是来进行一次假设,根据技术发展的
规律和测序技术本身的进化特点,具有实用价值的
第四代测序技术和测序仪概念机可能会在 5年后崭
露头角,而真正可以形成市场估计至少还要让我们
再等 5年。当然,测序的需求不会在这 10年间有
所降低,相反可能会有更大的空间和更高难度的技
术要求,比如全面解析 DNA的三种修饰 (也许会
发现更多种的修饰 )和 RNA的上百种修饰的生物
学意义,或是可以快速对普通疾病的核酸标记进行
检测的家庭化测序分析系统。在 2000年的时候谁
又想到了如今我们已经获得了近 2 000个物种 (不
包括已经完成基因组测序的近 2 600种病毒 )的基
因组呢?
6 我们该做点什么?
此前我们一直忽略了一个对于测序技术非常关
键的因素,那就是价格问题。人类基因组计划开展
伊始阶段,计划用 30亿美元完成人的基因组测序
工作,相当于每个碱基需要花费 1美元,而现在的
主流测序设备完成一个人的基因组测序工作只需要
一万美元甚至更少 (当然,对测序数据进行处理和
分析的成本还至少需要几十万美元 )。可以看到,
在测序成本方面已经比十几年前降低了6个数量级,
而随着第二代测序技术的进一步发展和第三代、第
四代测序技术的崛起,实现“千美元一个基因组”
和“百美元一个基因组”已经不是一个遥不可及的
梦想。
虽然测序成本的降低是大家都乐于看到的,但
当我们从整个市场来看,现阶段几乎所有的生命科
学研究都需要应用到测序技术。就中国而言,在
2011年的测序市场就达到了 5亿美元,其中小部分
会用于测序仪设备的购置,而大部分则消耗在测序
生命科学 第24卷1362
试剂上。按照普遍的市场规律,当一代技术成熟和
下一代技术即将推出之际,将产生市场价格的回落,
但是目前来看,市场价格呈现一种不降反升的态势,
又是什么原因导致这种违反市场规律的情形出现的
呢?
目前包括第一代和第二代测序仪均出自三个主
要厂商:Roche、Illumina和 Life Technologies。我
国市场上的设备和试剂均来源于这三个厂商的进
口,研究者不得不承受比厂商所在国家更高的设备
购置和应用费用,而国内的测序服务业的成本甚至
会高于国外服务商的市场报价。结合我国的测序市
场需求,相信仅仅从科研的应用成本上而言,受制
于人这个词汇不可谓不贴切。
而从以往经验来看,往往国外设备试剂的更新
换代首先会满足本国的需求,这样就造成了我国总
是比国外滞后半年甚至一年的时间应用更高效的研
究工具。以 PacBio的 RS系统为例,在 2010年该
公司提供了 10台设备在研究机构中试用,没有 1
家中国科研机构获得这样的机会,种种这样的原因
造成我国的科研水平难以与国际高端竞争。就在
2011年 1月 6日,第一篇应用该设备的论文发表在
国际顶级刊物《新英格兰医学杂志》上,而这个时候,
几乎没有几位中国科学家见过这台测序仪的真实样
子。另一个例子,Life Technologies公司的 Ion Tor-
rent PGM测序仪 2010年底就在美国上市了,在
2011年 2月召开的基因组学顶级学术活动 AGBT
会议上,多个机构的学者就发表了他们应用这一设
备所开展的研究工作。但对于中国用户,到 2011
年 3月才能够开始下达订单,这就造成了我国在技
术能力上至少半年以上的滞后。当时,该设备在美
国的售价大约为每台 5万美元,而据 LifeTech的市
场人员介绍,在中国的报价大约为 20万美元,即
使成交价能够打个对折,还是要比美国本土翻了一
番,哪怕是今天这一设备国内售价还至少要 7~8万
美元,这又让我国的科学家情何以堪。为什么会造
成这样的局面,归根结底是我们缺乏自有设备给予
其市场竞争压力,而不得不接受这样的现实。
我国缺乏大型高端科研设备的研发经验和综合
能力,这是现阶段一个不争的事实。但对于中国这
样一个经济、科技高速发展的国家,恰恰需要将此
前展现出来的劣势进行弥补和突破,才能符合现实
的需求。在这里还要插播一个小故事,前文中提及
的 Ion Torrent PGM测序仪,其发明人 Jonathan M.
Rothberg恰恰是 Roche公司 454测序仪的发明者。
454的测序原理是通过聚合反应中释放出来的焦磷
酸来进行碱基的识别,而 PGM则是检测聚合反应
中释放出来的质子,大家都在期望 Rothberg的下一
个发明又会利用释放出来的什么物质来测序。这个
故事非常明确地告诉我们创新能力对应抢占科学制
高点和建立产业优势的重要性,而创新能力、交叉
学科水平、工业设计能力也是体现一个国家综合科
技水平的重要方面。近年来我国也在这些方向开始
进行大规模投入,对于测序仪的自主研发而言,正
是提升这一水准和解决应用瓶颈的重要举措。
目前国内开展测序仪研发的机构主要有三个,
中科院北京基因组研究所和中科院半导体所联合研
制的第二代测序仪 (焦磷酸测序原理 )、无锡艾吉
因生物信息技术有限公司 (连接酶测序原理 )和深
圳华因康基因科技有限公司 (连接酶测序原理 )。
近两年,北京大学和清华大学等单位也有项目组正
在开展新一代测序技术的研发工作,但尚未有正式
报道公布。虽然我国在这个领域已经开始起步,但
很大程度上还是属于引进吸收,缺乏原始创新。国
际上日益激烈的第三代和第四代测序技术的研发给
我国一个追赶和超越的机会。在获得前期积累的实
战经验基础之上,加大投入支持力度,充分开展跨
学科跨专业的合作,积极开展原始创新,建立自主
的知识产权体系,才能在这样一个关键节点上真正
实现质的突破,从根本上实现我国生命科学事业从
追随到超越的跨跃式发展,从而在世界科学舞台上,
发出中国科学家自己的声音。
致谢:本文的撰写获得了中国科学院北京基因组研
究所杨卫平书记、李俊雄副所长、张玉琪老师,以
及中国科学院半导体研究所俞育德副所长、李运涛
副研究员的倾力相助,在此一并致谢。
(注:本文转载自 http://blog.sciencenet.cn/blog-620603-
622152.html。原文写于 2011年 4月 5日,在本刊
发表前作者对文章部分内容进行了更新 )