全 文 :生命科学
Chinese Bulletin of Life Sciences
第 19卷 第 3期
2007年 6月
Vol. 19, No. 3
Jun., 2007
启动以细胞为基本功能单元的系统人类基因转录组研究
于 军
(中国科学院北京基因组研究所基因组科学与信息重点实验室,北京 101300)
摘 要:基因组学、分子生物学和细胞生物学等基础生命科学领域前沿的概念和技术都在高速形成和
发展,这些领域和新概念、新技术的不断融合推动生命科学研究从一个生长点到又一个新的生长点。
人类基因组研究将在未来的五到十年里,从以一个基因组为对象的研究进入到以每个体基因组为对象的
研究。基因功能和功能相关性的研究也将进入到以细胞为单元的研究,转录组研究必将成为这一研究
的基础和出发点。转录组研究包括转录组的构成、调控和与蛋白质组的关联等基本部分,以及在临床
诊断和药物研发中的应用。在生理状态下,每一种细胞中基因的共有和特异功能最终构成物种的生长、
发育和演化。在病理状态下,每一种细胞中基因的变异和失控最终导致器官、组织、乃至个体的衰
亡。人类转录组研究是基因功能研究的最基本层次之一,作为基因产物的 RNA和蛋白质在这个层次上
的存在、变化、关联和在细胞间的差异构成转录组研究的基本内容。
关键词:基因组学;转录组;细胞;基因功能
中图分类号:Q78; Q2 文献标识码:A
On the initiation of cell-based human transcriptome study
YU Jun
(Key Laboratory of Genome Sciences and Information, Beijing Institute of Genomics,
Chinese Academy of Sciences, Beijing 101300, China)
Abstract: New concepts and technologies at the leading edge of basic research fields, including genomics,
molecular biology and cell biology, are being developed very rapidly. Human genomics will shift its research
emphasis from a few genomes to everyone’s genome. Studies on gene functions will enter a new phase where
transcriptomes are analyzed on a single-cell basis. Transcriptomics not only includes studies on transcripts,
proteins and their regulatory mechanisms but also the application of its knowledge on diagnostics and drug
screening. Gene expression governs growth and development of an organism under physiological conditions
and leads to diseases when out of control. Human transcriptomics is to study the presence, variation, and
relatedness of all gene products of the human genome.
Key words: genomics; transcriptome; cell-based; gene function
收稿日期:2007-02-08
基金项目:科技部重大研究计划
作者简介:于 军(1956—),男,博士,研究员,博士生导师,E-mail: junyu@genomics.org.cn
文章编号 :1004-0374(2007)03-0264-08
1 基因组、转录组和蛋白质组
基因组是生命蓝图的全部编码,它的基本信
息元素(informational elements)是四种脱氧核糖核酸
(即 A、T、G和 C),它的信息单元(informational
unit)(图 1)是编码于染色体上的基因,它的功能单元
(functional unit)是在特定细胞中、特定环境下和特
定基因关联(途径或网络)中定义的基因和基因的产物
(RNA和蛋白质)。因此,生命的功能单元比信息单
265第3期 于 军 :启动以细胞为基本功能单元的系统人类基因转录组研究
元要复杂,其研究也是如此。基因组从简单到复杂
与生命从简单到复杂相一致,都是生命进化过程的
产物。人类基因组与其他动物基因组一样,90%左
右的DNA序列是用来编码基因信息单元的(这里包
括了外显子和内含子,但不包括调控区),而植物
基因的分布则视基因组的大小和结构而异,一般占
基因组总长度的 10%- 50%[1-3]。显而易见,动物
基因组几乎与转录组的信息单元在长度上是相等
的。这些信息单元的最终编码不仅包括蛋白质(编
码蛋白质部分仅占基因组总长度的 2%左右),也包
括 RNA。
人类染色体载有逾三万个基因的信息单元[4]。
启动现代基因组学研究的国际计划——人类基因组
计划的基本使命就是解码这些基因的信息单元;人
类基因组单倍体型图计划,则是揭示基因信息单元
在群体背景下的多样性(包括群体内部的不同和群体
之间的不同)[5]。人类基因组研究主要有一个主流和
两个基本分支(或简称为三个基本方向)(图 2) :(1)从
一个人的基因组到每个人的基因组,从而解码每一
个人的基因组信息;(2)从人类基因组到每一个相关
模式物种的基因组,从而注释每一个人类基因的基
本功能;(3)从正常人的多样性到与疾病相关基因的
变化,从而找到基因、基因变化与疾病的对应关
系。目前,人类基因组研究正在进入一个新的阶
段:解码每一个人的基因组,或称“个体基因组
研究时代”。达到这一目的的技术壁垒正在被打
破,预计在未来的五到十年里“一千美元测定一个
人的基因组序列”的目标会最终实现。不过,个
体基因组是相对于群体基因组而言,解析每个人的
基因组信息,也就是解析个体之间、群体之内和群
图 1 基因、基因的信息和功能单元
图2 基因组学研究的三个基本发展方向
266 生命科学 第19卷
体之间的基因组信息。当这个雄心勃勃的计划实现
的时候,基因组学研究乃至生命科学研究的概念和
方法将再会发生一个质的飞跃。
基因的功能单元包括两类基本生物化学分子:
RNA(包括 mR NA、rRN A、tR NA、snoR NA、
snRNA、miRNA、siRNA、piRNA和其他 ncRNA)
和蛋白质(包括蛋白质前体和修饰产物)。RNA又可
以按功能分为传递信息的“信使分子”,也可以是
行使功能的“执行分子”。编码蛋白质的信使 RNA
或称mRNA与蛋白质组研究的相关性在于它们共同
在一个细胞里存在,具有存在和定量的关系。比如,
某一个mRNA的存在预示其编码蛋白质的存在。非
编码RNA分子除了参与细胞基本机制(如染色体复制
和蛋白质翻译)外,也部分参与基因产物的功能网
络或调节细胞的生命过程。目前能够识别的人类
mRNA种类(包括可翻译成蛋白质的基因选择性剪切
产物)据估计逾 10万[4],而能够在细胞水平被鉴定出
来的蛋白质基本种类则应该大大超过这个数字。因
为由mRNA编码的蛋白质还有成熟和化学修饰过
程,所以转录组水平的信息只是和蛋白质组学的一
个基本而重要的部分重叠。科学家对人类基因组中
非编码和非结构RNA种类的估计差距比较大,在几
千个和数万个之间,具体理由和验证方法还在争议
和探讨之中,在界定这些功能不是非常清楚的RNA
问题上,争议和新思路都非常必要[7-9]。尽管已经
有人估计mRNA在典型体细胞中的种类约为一万
余,而总数约为几十万,但是用培养后的癌细胞、
粗略的杂交方法或系统错误率较高的技术等得出的
结论可信程度仍不高[10-11]。所以,我们根据目前的
数据重新建立了较可信的数学模型,并估计每个细
胞表达的mRNA转录本种类应该在 30 000- 80 000
之间,每细胞总数应在 500 000- 1 000 000个RNA
分子,其中低表达的基因(每细胞的含量为每种小
于或等于一个拷贝)占一半以上。如果人类有约 30
种不同组织和 300种不同细胞的话,我们至少要从
头(de novo)建立上百个成体细胞基因表达谱,以及
至少上百个从胚胎干细胞和组织特异性干细胞而来
的基因表达库来研究基因在正常细胞中的基本功能
和它们之间的关系。这样的研究无疑是一个较长期
和非常必要的研究工作。如果将细胞的分化、被侵
染、凋亡和病变等不同生理和病理状态都算上的
话,转录组研究将是一个重大科学的工程。它的研
究规模、内容和难度都不会低于蛋白质组研究,而
且成为蛋白质研究的信息和分子基础。
2 转录组与转录组研究
广义转录组是指生命单元(通常是一种细胞)中所
有按基因信息单元转录和加工的RNA分子(包括编码
和非编码 RNA功能单元),或说是一个特定细胞所
有转录本的总和。它的研究对象就是这些RNA与蛋
白质分子和它们所组成的基因功能网络和它们与细胞
功能的关系。而狭义转录组是指可直接参与翻译蛋
白质的mRNA总和[12-13]。不仅狭义转录组是蛋白质
组研究的基础,而且广义转录组也与蛋白质组和细
胞学研究密切相关[14]。这些转录本和所编码的蛋白
质在不同细胞生理状态下(如干细胞和分化细胞)和不
同病理状态下(如癌细胞和病毒感染细胞)的分布和功
能的关联性是基因调控和功能研究的重要基础。
转录组成为目前生命科学研究热点的原因很
多,至少包括下列几个基本方面:(1 )蛋白质组和
基因功能的系统性研究对转录组信息的需求不断增
加:因为蛋白质组可鉴定和研究的基因数量有限,
仅仅在四位数上,单纯蛋白质组数据不足以给出清
楚的基因与功能的基本图像或结论。转录组和蛋白
质组的数据和研究结果应该互为印证。(2)作为广义
转录组重要组成部分的非编码转录单元研究不断发
展,其概念和分子机制都在不断更新,使基因网络
调控的研究进一步复杂化。(3)局限于技术障碍(主要
是DNA测序),转录组的深度挖掘进展缓慢,过去
常用的取样量(一万左右)仅仅是期待值(50万到 100
万)的 1%- 2%(待发表),一直没有形成主流发展方
向和凝练出重要科学问题。但是,最近两年崛起的
规模化的新DNA测序技术将一改目前局面,被价格
限制的取样量将不成为问题。随之而来的将是更加
深入的转录组研究,科学命题将会非常之多,比如
对操纵子结构的认识,对选择剪切的认识,对剪切
增强信号的认识,对内涵子大小的认识,对以基因
信息单元DNA组分变化的认识,对 RNA转运机制
与RNA结构关系的认识等。(4)以细胞为主体的转录
组研究将取代粗框架的以组织或器官为主体的研
究,而且会细化到不同的生理和病理状态。单个细
胞转录组研究的概念和技术也在不断地发展。这里
主要是要解决很多技术问题,比如如何得到较纯的
细胞,如何获取全长 cDNA而不改变RNA的原始分
布等。( 5 )转录组是系统生物学研究的一个基本部
分,它上承基因组,下接蛋白质组,最后又与细
胞的功能和代谢过程息息相关。
267第3期 于 军 :启动以细胞为基本功能单元的系统人类基因转录组研究
以细胞为单元的转录组研究包括六个基本部
分。( 1 )转录本的深度挖掘,也就是说,我们至少
要知道每一个或每一种细胞到底有多少个基因在转
录和它们在生理和病理状态下的定量关系。单个转
录本的拷贝数在这个框架下的变化范围大约不超过
106,也就是说,拷贝数的基本变化范围在六个数
量级左右,这样的变化范围给实验技术的选择和数
据处理造成很多尚未解决的困难[15]。转录组深度挖
掘产出的主要数据是以单细胞真核模式生物酵母基
因组为出发点[16-17],这些研究不仅测定转录本的合
成速率,而且也测定它们的降解速率。酵母基因转
录本定量研究的经验和结果仍然非常重要,比如许
多调控基因的表达量都很低,可以低到每细胞仅有
千分之一个拷贝,或一千个细胞才有一个拷贝。最
近几年胚胎干细胞的转录组研究成为新的热点,数
据量有增加的趋势[18-19],预计未来的研究会更加深
入到不同分化程度的干细胞,甚至到从体内组织分
离的干细胞。这些研究将推动微量和定量研究方法
的建立和成熟,最终建立研究单个细胞的技术和能
力[20]。(2)转录组差异预览研究。差异预览和深度挖
掘之间在技术上有差别,在理论上是没有差别的,
而技术上的差别仅仅体现在实验的设计和价格上。
预览是要获得多种细胞状态的样本,而不仅仅是转
录本的种类。比如,跟踪分化或癌变细胞在一系列
高密度取样时间间区转录水平的变化,我们必须要
用DNA微阵列或同类技术来研究,而不能用DNA
测序的方法,后者目前不仅价格太贵,而且每种状
态下发生变化的基因也不会很多,用DNA测序的方
法来研究有“高射炮打蚊子”之嫌。不过随着技
术的进步,这些差距有可能会很快消失。(3)转录组
操纵子(或称 cis-elements)、调控因子(或称 trans-
elements)和调控机制的研究。这类研究既可以以一
类转录因子为出发点[21],也可以以调控序列为出发
点[22]。前者多依赖或以实验为开端;后者多依赖
或以信息分析为开端[23]。(4)转录组与蛋白质组的关
联性研究。两者之间的相关性就高、中表达的基因
来说具有很好的相关性,但是对于低表达基因而言
还有很多未知数。但是哪一个水平为主,在哪一个
水平限速,都是重要的研究命题。目前难度比较大
的研究是微量表达的基因,而这些基因往往是重要
的调控基因,如磷酸化和去磷酸化酶体系的成员。
(5)非编码小 RNA在基因表达和调控方面作用的研
究。小 RNA是一类功能正在被深入挖掘和研究的
RNA分子,含有 20- 30个核糖核酸分子。它们的
调控功能广普,调控层次多,是转录组研究的基本
内容之一。(6)转录组调控网络与生命现象关系的研
究[24],此类研究不仅需要数据的综合性和建立理论
模型,也需要真正实验数据的支持和最终的验证,
同时整合基因组、转录组、蛋白质组和代谢组研究
的结果。
转录组研究的复杂性决定了它对技术、资源和
内容整合的依赖性。技术整合包括将不同层次的实
验技术规模化、局部更新,甚至自主研发。资源
的整合包括信息和细胞资源库的建立。资源的共享
使信息和数据可以互相验证,形成稳定可靠的数据
集。比如,用于细胞学研究的干细胞株也可以用来
做遗传多态性与基因调控关系的研究。内容的整合
是利用不同技术和资源,解答具有综合性和关联性
的科学问题。比如,将干细胞与癌细胞研究结合,
寻找恶性肿瘤的“干细胞”,并利用微量 RNA扩
增技术研究不同分化细胞基因表达的差异。达到整
合目的的基础是共享资源库和数据库。
3 研究转录组的基本技术和方法
转录组研究就研究目的而言可分为两个基本阶
段:第一阶段是细胞内基因转录本的发现
(discovery,也称表达 expression) ;第二个阶段是
细胞间和细胞在不同状态下已知转录本表达差异的
研究。基因转录本的发现对于基因组序列未知的物
种来说是必不可少的,而对基因组序列已知的物种
来说是次要的,但是却是必要的。对一个未知物种
而言,转录组研究的第一步就是发现基因(实际上
是发现基因序列),然后再用代表基因的寡聚核苷
酸微阵列来研究表达的差异。尽管人类基因组的序
列已知,理论上是可以用基因组序列(如所有外显
子的代表序列)来刺探基因表达和绘制基因表达谱,
但实际上低表达基因的研究还是受到基因微阵列方
法的限制,很难得到可信的结果,而且很多基因还
没有很好的功能注释。因此,理解各种用于转录组
研究的技术和方法(如主要优点和局限性)对转录组数
据的理解是十分必要的。
发现和鉴定转录本并研究其表达规律的技术主
要有三类:(1)基于DNA测序技术衍生的各种定性
或定量方法;(2)基于 DNA杂交技术衍生的各种半
定量或相对定量的方法;(3)基于PCR技术而衍生出
来的各种半定量或定性的方法。尽管基于PCR技术
的种种方法还不能很好地用于规模化研究,但是乳
268 生命科学 第19卷
液 PCR(Emulsion PCR)的方法使扩增微量甚至单个
DNA分子成为稳定而有效的技术。DNA测序和以
其为基础的各类方法有SAGE (Serial Analysis of Gene
Expression)、MPSS (Massively Parallel Signature
Sequencing)、EST (Expressed Sequence Tag)、
CAGE (Cap Analysis of Gene Expression)、ChIP-
SAGE (Chromatin Immunoprecipitation-Serial Analysis
of Gene Expression)、ChIP-PET(Chromatin Immuno-
precipitation Paired-End Tag)等,还包括在基因组水
平的非编码 RNA(包括各类小 RNA)分离和测序。
DNA测序技术经历了至少三次革命性的更新换代。
如果说从最初的放射性标记法到荧光标记法算作第
一次革命的话,那么第二次革命就是从平板电泳仪
到毛细管电泳仪的变迁。第三次革命才刚刚开始,
是一个崭新的阶段,它以样品的微量化、操作的规
模化和平台的多样化为标志。这里平台的多样化其
实包括了两个内容,其一是化学部分(包括酶和其
他化学试剂),其二是机械部分。也就是说,这些
新方法不仅改变了测序的形式而且有些还改变了测
序的原理。桑格法(酶法)已经不再“主宰”DNA
测序技术了。比如,有两个公司开发的 DNA测序
技术非常看好,其一为 454 Bioscience(罗氏公司代
销)利用 Pyrosequencing(利用DNA合成时所释放焦
磷酸的能量)技术所开发的GS20;其二是 Solexa的
原位扩增技术。当然,Agencourt(利用连接酶而不
是DNA合成酶)和George M. Church实验室开发的
Polony[25]技术也有很好的前景。由于目前新DNA测
序技术已经在世界主要实验室做前期市场或市场前
期实验,所以预计在不久的将来即可以规模化地推
向广大市场。这些技术可以一次性测定 100 Mb个
核苷酸以上,是最好的毛细管测序仪通量的 20到
100倍。在序列读长(或长度)的限制下(约在 30到
200nt;对于毛细管电泳仪而言为 1000nt),这些技
术虽然目前还不能单独用来从头测定大型基因组的
全部序列,但可以用来测定mRNA表达标签从而可
以用来进行转录组研究。这些新一代的仪器可以一
次性取样逾百万个序列标签。另外一类重要技术是
寡聚核苷酸微阵列(Oligo-MicroArray, OMA)。这类
技术的平台变化比较多,有基于原位合成技术、不
同点样技术、荧光微颗粒方法等不同的方法。这些
技术虽然用于临床检测有不成熟的方面,但是用于
转录组学研究还是非常有效的,尤其是用于重复性
高的系列取样研究。比如不同发育时期、不同分化
阶段和不同样品处理等。最近基于基因组序列制成
的“基因组序列版块矩阵”(Genomic DNA Tilling
Array)也发展得非常迅速,已经应用到人、小鼠和
水稻等物种。除了实验技术外,转录组研究的计算
工具、取样模型和分析方法也至关重要。DNA测
序和微阵列技术的可靠性和可比性都在不断地增
加。对于较富集的转录本而言,两个技术的相关性
可以超过 70%。目前用来分析不同转录组数据的计
算模型和方法还在不断发展,主要是建立可靠的分
析方法和整合不同层次的基因组学信息,包括:转
录组动态模型、基因(基因组序列)调控序列分析,
比较基因组分析(如脊椎动物),以及 EST/SAGE/
PMSS数据和基因注释数据(如 GO)的管理和整合。
目前规模化转录组研究实验技术的共同瓶颈是微量转
录本(每细胞量小于0.001到1.0个拷贝)的定量分析。
转录组研究的基本价值在于它能够识别比目前
蛋白质组研究水平高一到两个数量级的基因。对于
一个特定细胞而言,后者目前仅仅能识别 4 000-
5 000个蛋白质左右。因此,转录组研究可以作为
蛋白质组研究的基础,识别表达丰度比较低的RNA
和蛋白质,从而组建完整的基因表达谱和蛋白质相
互作用网络。目前科学界对转录组研究的重要性认
识越来越清楚,对每个细胞种类的取样量已经增加
到数十万个序列标签水平。比如,在公共数据库里
胚胎干细胞转录组研究就有数个这样的数据集。过
去的几年里,人类和小鼠转录组的系统研究主要由
日本RIKEN科学家牵头的FANTOM协作组领导[26],
由于他们是利用毛细管 DNA测序仪(Sanger法)和
EST取样方法,所以在取样的数量上受到诸多的限
制,单一细胞种类基因个数在转录组水平的分辨率
为 70 000- 80 000(胚胎干细胞)。现在的测序技术
和价格指标是要达到“一千美元测定一个人的基因
组序列”的水平,而通量或时间消耗也应该在一天
之内。总之,如果我们可以充分利用 DNA测序技
术高速发展的契机,就可以将转录组研究推向一个
新的高潮,推向一个新的境界。
4 转录组研究的内容和基本科学问题
基因组学是以规模化产出和疏导基本生物学信
息为目的,以系统地研究基因、基因产物和基因产
物相互作用规律为内容的科学研究体系。基因组学
基本信息在基因组、转录组和蛋白质组层面上的研
究可以归结为如下几个基本(但不限于这些)图谱:
(1)以基因组DNA序列为基础的基因(信息单元)在染
269第3期 于 军 :启动以细胞为基本功能单元的系统人类基因转录组研究
色体上的分布图,简称为基因(物理)图。物理图谱
不仅可以用来定位基因,也可以用来研究基因在染
色体上的分布规律。比如,转录是否受到染色体水
平(通常是细胞学和Epigenetics)的调控?这些调控的
普遍规律是什么?哪些染色体上的哪些基因表达遵
从这些规律?(2)物种基因产物(包括基因的功能单元
RNA与蛋白质)在个体从受精卵到胚胎干细胞再到组
织分化等发育过程的定性和定量分布(表达)图。这
张图是由RNA和蛋白质的存在、分布和相互关系共
同组成的。它和下一张图(3)基因产物在成熟个体不
同细胞从组织特异干细胞到分化细胞定性和定量的
表达分布图在形式上几乎是同样的,只是目的不同
而已。这些图谱的重要性是不用强调的,它还可以
扩展到病理状态下的变化,从而可以用来诊断疾病
和作为用药的依据。(4)基因产物在分子机制、细胞
生理和病理过程中的相关图(或称基因功能网络)。
比如,DNA复制就是一种分子机制,那么对于一
个特定细胞而言,有哪些基因和基因的产物参与
DNA的复制呢?在不同的细胞里,这个机制有不同
吗?细胞过程也是很容易定义的,比如,有氧呼吸
是一个细胞过程,它的组织和细胞特异性是如何
呢?(5)基因变化在物种群体背景下的分布和与不同
性状的关联图,即经典遗传图谱的延伸。遗传图谱
与基因表达原本是不发生关系的,曾经属于遗传学
研究的范畴。然而,基因组学使现代遗传学不得不
考虑基因和变异的关系,变异和基因功能的关系。
比如,发现一个与疾病相关的变异后,人们还必须
找到变异的基因或蛋白质,最好还能用实验来验证
这个变异导致蛋白质缺失的功能性意义。另外,当
传统的定位克隆技术如果能与基因表达数据结合的
话,会更容易排除非相关的基因。( 6 )基因存在、
基因调控和其组成的分子机制在环境变化下形成的
表型可塑性。哺乳动物的冬眠是一种典型的表型可
塑性。人类其实也具有和冬眠动物同样数量的基
因,为什么人类丢掉了这样的能力?人类的妊娠 -
哺乳期、更年期等也是一种广义的表型可塑性问
题,我们的基因是如何改变表型性状的?我们的基
因是如何把我们引向衰老之路?
最终,这些利用不同技术和手段分别绘制的图
谱会整合在一起,而成为人类在基因组科学框架下
对生命系统的概览和本质的理解。要走到这样的科
学前沿,我们必须要积极参与制作这样的宏伟巨
作,需要及早起步,需要积蓄人才,需要整合资
源和信息,需要足够的资金投入。提升我国综合国
力也好,让科学发现面向我国经济、社会、国家
安全和科学技术自身发展也好,最根本的是我们的
科学研究能不能走在科学的前沿并领导科学前沿。
因为当前的转录组和蛋白质组研究已经不再是孤立
地去研究某个或某些蛋白质了,它正在成为一个像
人类基因组计划那样的系统工程,有计划地、系统
地和大规模地研究RNA和蛋白质的结构、功能和相
互作用网络。只有这样的研究思路和规模才能保证
这些研究将为疾病的诊疗、创新药物研发、中医药
的现代化研究提供理论依据和技术支持。
5 转录组研究在基因组学研究框架下的定位和实
施
如果我们不是将基因组学研究简单地割裂为信
息(或结构)和功能基因组研究,而是将基因信息单
元和功能单元的研究视为统一体的话,以细胞为研
究对象的基因组学研究主体对象应该包括四个基本
组成:基因组、转录组、蛋白质组和细胞生理组
(细胞生理生化过程系统研究或称广义代谢组研究)。
这四个基本组成不仅描述了遗传信息的流向,同时
也揭示了基因组学的基本研究对象和内容(表 1)。
在人类基因组序列图谱完成的基础上,基因(产物)
表达研究和基因(产物)结构研究共同构成了基因功能
的研究,尤其是蛋白质科学[27],成为新的突破点。
由于基因参与生命活动的部分是RNA和蛋白质,所
以研究基因表达(主要是转录组,其次是蛋白质和
代谢物)是揭示基因的相关性,而研究基因结构(主
要是蛋白质)是揭示基因的内在生理生化性质。基
因功能研究的方式包括生理和生化手段、比较和分
析方法以及细胞和动物模型,涉及到资源的整合、
不同新技术和新方法的建立、信息的产出和解释
等。基因功能研究的重要目的是为治疗人类的疾病
和保证人类的健康。人类疾病的发生不仅涉及到基
因的变异,基因表达的错位和不协调,也涉及到蛋
白质及其复合物由复杂时空关系建立起来的功能。
因此,基因组学研究首先是一个系统工程,是需要
建立系统技术平台和强势科研团队的;其次是需要
可持续性和特殊支持的,没有这样的支持技术就无
法更新,研究不能形成系统和规模。
科学家们会常常问自己:我们能走到科学的前
沿吗?我们能领导某个科学前沿吗?我们怎样才能
走在科学的前沿并领导科学前沿呢?就科学而言,
我们的突破点在那里?2006年公布的《国家中长期
270 生命科学 第19卷
科学和技术发展规划纲要》(2006- 2020年)将蛋白
质研究列为四项重大基础科学研究计划之一。《纲
要》并具体指出“对蛋白质复杂多样的结构功能、
相互作用和动态变化的深入研究,将在分子、细胞
和生物体等多个层次上全面揭示生命现象的本质,
是后基因组时代的主要任务。同时,蛋白质科学研
究成果将催生一系列新的生物技术,带动医药、农
业和绿色产业的发展,引领未来生物经济。因此,
蛋白质科学是目前发达国家激烈争夺的生命科学制
高点。重点研究重要生物体系的转录组学、蛋白质
组学、代谢组学、结构生物学、蛋白质生物学功
能及其相互作用、蛋白质相关的计算生物学与系统
生物学,蛋白质研究的方法学,相关应用基础研究
等。” 当蛋白质研究成为我国生命科学和生物技术
发展突破点之一的时候,转录组学必然成为各类
“组学”研究之首要。转录组研究相对于基因组和
蛋白质组研究不仅要先行,而且价格也会相对低
廉,适合于“劳动力密集型”的研究形式。未来
基因组学研究的主体将是基因组、转录组、蛋白质
组和(广义)代谢组四大相关性最强的体系在信息和资
源上的全面整合。这里的成功在于国家层面的统筹
安排和相对项目的确立,还包括资助的相对集中和
稳定。
在蛋白质科学框架下的转录组研究可以专注哪
些科学问题来研究呢?首先是研究对象问题,我们
可以选择在转录组和蛋白质组范围内都呈低表达状
态的基因。由于转录组水平研究的取样量可以高达
百万,可识别的基因产物也会数万,所以对这些基
因的特异识别和研究可以在转录组基础上进行。这
些基因至少在转录组水平上是主要的一类,因细胞
种类而异,估计占总表达基因数量的40%到60%左
右。在研究对象的选择上我们不一定要求全,而是
要求是,可以针对某一类相关基因进行彻底性的研
究,比如线粒体相关基因,甚至某类 RNA基因,
如 tRNA基因[28]。其次是研究材料问题,微量细胞
(如单个或数个细胞)的转录组研究很有潜力,因为
mRNA可以通过逆转录而转化为 cDNA,后者可以
用PCR方法有限扩增。如果我们可以建立稳定的微
量研究体系的话,可用来研究通常以微量存在的干
细胞和癌细胞转录组。第三,任何一个研究领域的
创新都依赖于基本技术和方法的创新,转录组研究
也不能例外,创新的突破点也很多。第四是信息的
整合问题,基因表达为 RNA、RNA再翻译成蛋白
质,功能性蛋白质会催化某种化学反应或传导某种
信号,这些过程最后反映为某种生命现象或某种生
物功能,可见没有信息的整合,基因就成为孤立或
抽象存在DNA序列了。信息的整合要求国家必须建
立国有信息获取、研究和服务于民的事业性非赢利
的组织实体。否则,人才会很快流失,信息的利
用率就会很低,科学发展就必然会落后。第五,转
录组研究的应用问题。目前转录组研究技术和成果
不仅可以用来做临床诊断,还可以用来做药物筛选
的标记。总之,继基因组研究之后,转录组研究
将会和蛋白质组和广义代谢组研究并列为细胞水平
生物学研究的三个重要环节之一。
致谢:感谢朱江、和夫红的工作成果和胡松年博士、
王晶博士的合作研究。
[参 考 文 献]
[1] Wong G K S, Passey D A, Huang Y Z, et al. Is “junk” DNA
mostly intron DNA? Genome Res, 2000, 11: 1672-1678
表1 各种组学研究的基本对象与内容
组学 研究对象 研究内容
基因组 DNA 基因的信息单元(如DNA复制、修饰与修复)
转录组 RNA 基因的功能单元(如转录与选择剪切)
蛋白质组 蛋白质 基因的功能单元(如翻译、蛋白质运输和修饰)
RNA<>蛋白质 基因功能单元的相互作用(如端粒的合成)
RNA<>蛋白质结构团 基因功能单元组成的结构与功能团(如核糖体)
亚细胞结构 亚细胞结构下基因功能单元组成的结构团和功能团(线粒体)
广义代谢组 细胞 细胞过程和功能属性(分化、调亡、癌变等)
个体<>器官 生理和病理现象的分子基础(免疫、凋亡、癌变等)
药物基因组 个体<>群体 基因型与表现型的遗传学关系
个体<>群体 表型可塑性与环境的作用(生物节律、冬眠)
271第3期 于 军 :启动以细胞为基本功能单元的系统人类基因转录组研究
[2] Wong G K S, Passey D A, Yu J. Most of the human genome
is transcribed. Genome Res, 2001, 11: 1975-1977
[3] Yu J, Yang Z Y, Kibukawa M, et al. Minimal introns are not
“junk”. Genome Res, 2002, 12:1185-1189
[4] Ewing B, Green P. Analysis of expressed sequence tags
indicates35,000 human genes. Nat Genet, 2000, 25: 232-
234
[5] The International HapMap Consortium. A haplotype map
of the human genome. Nature, 2005, 437: 1299-1320
[6] Fields C, Adams M D, White O, et al. How many genes in
the human genome? Nat Genet, 1994, 7: 345-346
[7] Okazaki Y, Furuno M, Kasukawa T, et al. Analysis of the
mouse transcriptome based on functional annotation of 60,
770 full-length cDNAs. Nature, 2002, 420: 563-573
[8] Wang J, Zhang J, Zheng H, et al. Mouse transcriptome:
neutral evolution of ‘non-coding’ complementary DNAs.
Nature, 2004,431, 7010: 1
[9] Tomas Babak T, Benjamin J, Blencowe B J, et al. Hughes
TRA systematic search for new mammalian noncoding
RNAs indicates little conserved intergenic transcription.
BMC Genomics, 2005, 6: 104
[10] Bishop J O, Morton J G, Rosbash M, et al. Three abun-
dance classes in HELA Cell messager RNA. Nature, 1974,
250: 199-204
[11] Jongeneel C V, Iseli C, Stevenson B J, et al. Comprehensive
sampling of gene expression in human cell lines with mas-
sively parallel signature sequencing. Proc Nat Aca Sci USA,
2003, 100: 4703-4705
[12] Pillai R S. MicroRNA function: Multiple mechanisms for a
tiny RNA? RNA, 2005, 11: 1753-1761
[13] Aravin A, Tuschl T. Identification and characterization of
small RNAs involved in RNA silencing. FEBS Lett, 2005,
579: 5830-5840
[14] Eddy S R. Non-coding RNA genes and the modern RNA
world. Nat Rev Genet, 2001, 2: 919-929
[15] Holland M J. Transcript abundance in yeast varies over six
orders of magnitude. J Biol Chem, 2002, 277: 14363-14366
[16] Velculescu V E, Zhang L, Zhou W, et al. Characterization of
the yeast transcriptome. Cell, 1997, 88: 243-251
[17] Garcia-Martżnez J, Aranda A, Perez-Ortin J E. Genomic run-
on evaluates transcription rates for all yeast genes and
identifies gene regulatory mechanisms. Mole Cell, 2004, 15:
303-313
[18] Boyer L A, Lee T I, Cole M F, et al. Core transcriptional
regulatory circuitry in human embryonic stem cells. Cell,
2005, 122: 947-956
[19] Wei C L, Miura T, Robson P, et al. Transcriptome profiling
of human and murine ESCs identifies divergent paths re-
quired to maintain the stem cell state. Stem Cells, 2005, 23:
166-185
[20] Hesse J, Jacak J, Kasper M, et al. RNA expression profiling
at the single molecule level. Genome Res, 2006, 16:1041-
1045
[21] Wei C, Wu Q, Vega V, et al. Global map of p53 transcrip-
tion-factor binding sites in the human genome. Cell, 2006,
124: 207-219
[22] Gao F, Foat B C, Bussemaker H J. Defining transcriptional
networks through integrative modeling of mRNA expres-
sion and t ranscription factor binding data. BMC
Bioinformatics, 2004, 5: 31
[23] Siggia E D. Computational methods for transcriptional
regulation. Curr Opin Genet Dev, 2005, 15: 214-221
[24] Bar-Joseph Z, Gerber G K, Lee T I, et al. Computational
discovery of gene modules and regulatory networks. Nat
Biotechnol, 2003, 21: 1337-1342
[25] Shendure J, Porreca G J, Reppas N B, et al. Accurate multi-
plex polony sequencing of an evolved bacterial genome.
Science, 2005, 309: 1728-1732
[26] FANTOM Consortium and RIKEN Genome Exploration
Research Group and Genome Science Group. Genome net-
work project core group. the transcriptional landscape of
the mammalian genome. Science, 2005, 309: 1559-1563
[27] Orchard S, Hermjakob H, Apweiler R. Annotating the hu-
man proteome. Mol Cell Proteomics, 2005, 4: 435-440
[28] Dittmar K A, Goodenbour J M, Pan T. Tissue-specific dif-
ferences in human transfer RNA expression. PLoS Genet,
2006, 2(12): e221