全 文 :生命科学
Chinese Bulletin of Life Sciences
第 19卷 第 3期
2007年 6月
Vol. 19, No. 3
Jun., 2007
系统生物学中建模方法的研究现状及展望
罗若愚1,2,李亦学1,2*
(1 中国科学院上海生命科学研究院系统生物重点实验室,上海 200031;
2上海生物信息技术研究中心,上海 200235)
文章编号 :1004-0374(2007)03-0301-05
摘 要:系统生物学倡导利用系统论的思想和方法,从整体的高度分析、研究生命的复杂特性。这一
点与实验生物学仅关注某一个或者某一些生物大分子是迥然不同的。系统生物学既要同时考虑多个层
次、多种类型的生物信息,还要考虑时间因素。由于系统特性是由于不同组成部分、不同层次间相
互作用而“涌现”出的新性质,因此,如果只是针对组成部分或单一层次的分析并不能真正准确地
预测整体或高层次的行为。如何通过研究和整合去发现和理解“涌现”出的新的系统性质,是系统
生物学面临的一个根本性的挑战。为了应对这一挑战,系统生物学,特别是计算系统生物学必须建立
有效的方法,通过整合系统各个层次的信息,建立可反映该系统目前已知或已可测量的性质的物理、
数学模型,并通过这样的模型来研究或预测目前还未知晓的系统性状。可以说:建模是系统生物学的
最重要的研究手段之一。目前,生命科学的研究正逐步由对单一现象、单一过程的机械论式的描述型
研究转向运用高通量实验技术获取海量生物信息,并在这些生物信息基础上建立物理、数学模型,最
终通过建模与实验相接合的研究手段来定量阐述生命现象的本质规律。由于建模方法在系统生物学研究
中的重要性,本文将对一些主要的建模类型,如定性建模方法;基于约束的建模方法;基于常微分 /
偏微分方程的定量建模和基于随机微分方程的定量建模方法等等分别予以简要介绍。
关键词:系统生物学;建模方法;模拟
中图分类号:Q1-0; Q-31 文献标识码:A
Modeling and simulation methods for systems biology
LUO Ruoyu1,2, LI Yixue1,2*
(1 Key Laboratory of Systems Biology, Shanghai Institutes for Biological Sciences, Chinese Academy of Sciences,
Shanghai 200031, China; 2 Shanghai Center for Bioinformation Technology, Shanghai 200235, China)
Abstract: Systems biology is the study of a complex biological system, viewed as an integrated and interacting
network of genes, proteins and biochemical reactions which give rise to life. Instead of analyzing individual
genes, proteins, components or aspects of complex biological system, systems biology focuses on all the
information from different level of system even together with the factor of time. Because the form and functions
of a system result from interactions among all the components of system, we call these properties and functions
that arise from the interacting parts in a system “emergent properties”. The concept of emergent properties is
central to the study of systems. Any function performed by a system that is not the result of a single part in the
system, but rather is the result of interacting parts in the system, is an emergent property. Currently, finding new
methods, which can integrate whole information of all individual components or aspects of complex biological
system, to study the “emergent properties” of a complex biological system effectively is still a big challenge.
Systems biology or computational systems biology should integrate all information from different system levels
and base on it to set up modeling and simulation methods to demonstrate the known functions and predict
unknown properties of system. From this point of view, modeling and simulation methods and tools play a
central role and shall be the focus of systems biology studies. Because of its essentiality, the main methodologies
收稿日期:2007-05-21
作者简介:罗若愚( 1 9 7 4 —),男,博士;李亦学( 1 9 5 5 —),男,博士,研究员,博士生导师,* 通讯作者,
E-mail: yxli@sibs.ac.cn
302 生命科学 第19卷
系统生物学倡导利用系统论的思想和方法,从
整体的高度分析、研究生命的复杂特性。事实上,
这种观点并非刚刚才提出,早在 20世纪 30年代就
出现了类似的研究,也就是所谓的理论生物学。到
了 20世纪 70年代由奥地利生物学家贝塔朗菲(L.
Bertalanffy)提出了一般系统论思想[1]。然而,由于
当时生物学知识还不十分丰富,人们对生命现象的
认识还很不够,导致这方面的研究没有取得太大的
进展。另一方面,在 20世纪,众多的生物学家通
过多个层面的深入研究使人们对生命本质的认识和
理解逐步精确和全面,例如:从物种的分类到生物
体内结构和功能的研究,再到分子层次的相互作用
研究,甚至于分子内部原子间的相互作用研究。尤
其是1953年年轻的英国科学家弗朗西斯·克里克和
詹姆斯·沃森发现了 DNA双螺旋结构,这一重大
发现不仅标志着分子生物学的诞生,而且标志着信
息化从此被引入了生物学研究[2]。
系统生物学 (systems biology)中“systems”使
用的是复数形式,这种表达是有其深刻涵义的。首
先,生物体是一个复杂系统,是由若干个子系统构
成。每个子系统中又涉及到不同种类的生物大分
子,如基因、蛋白质和代谢产物等。系统生物学
就是要将所有的这些子系统放入整个生物系统的大
环境中考察其所有的相互关系。这一点与实验生物
学仅关注某一个或者某一些生物大分子是迥然不同
的。其次,与基因组学和蛋白质组学不同,系统
生物学不是用单一的方法同时研究成千上万个基因
或蛋白质的“水平”研究,而是要将“水平”研
究和“垂直”研究统一起来,成为一种“高维”
的研究,既要同时考虑多个层次、多种类型的生物
信息,还要考虑时间因素。此外,“部分之和大
于整体”是系统科学的核心思想。事实上,系统
特性是由于不同组成部分、不同层次间相互作用而
“涌现”的新性质,如果只是针对组成部分或低层
次的分析并不能真正准确地预测高层次的行为。如
何通过研究和整合去发现和理解“涌现”的系统性
质,是系统生物学面临的一个根本性的挑战[3]。
为了应对这一挑战,系统生物学,特别是计
算系统生物学有这样一个特点:整合系统各个层次
的信息,站在系统整体的高度建立可反映该系统目
前已知或已可测量的物理、数学模型,并通过这样
一个模型来研究或预测目前还未知晓的系统性状。
可以说:建模是系统生物学的主要研究手段之一。
当然,系统生物学并不是为了建模而刻意地堆砌数
学原理,建模只是系统生物学了解生物复杂系统本
质的手段而已。通过建立定量的模型,可以得到一
些生物复杂现象的解释,进而推出生命系统更有普
遍意义的本质规律。
目前,在传统生物学界已经出现了由分子生物
学向系统生物学演进的倾向。由于生命系统是极其
复杂的非线性、非平衡系统,生命科学的研究正逐
步由对单一现象、单一过程的机械论式的描述型研
究转向运用高通量实验技术获取海量生物信息,并
在这些生物信息基础上建立物理、数学模型,最终
通过建模与实验相接合的研究手段来定量阐述生命
现象的本质规律的定量型研究方法。正因为如此,
大量的建模方法被提出,其中主要可分为以下类
型:(1)定性建模;(2)基于约束的建模方法;(3)基
于常微分 /偏微分方程的定量建模;(4)基于随机微
分方程的定量建模方法等等。以下将分别简要介
绍。
1 定性建模方法
目前,绝大多数生物学数据包括高通量的数据
是定性的或半定量的,而且还有一些很重要的信息
和现象是以文本方式给出的定性描述,所以如何把
这些定性的数据或描述整合起来,建立可行、可信
的定性模型是目前传统生物学家向计算系统生物学
提出的现实而又具有挑战性的课题。同时,系统科
学家也认为:目前,系统科学界存在盲目追求所谓
精确定量的倾向,实际上制约了系统生物学的发
展。系统科学要求重新评价定性方法,反对在系统
研究中片面地不切实际地追求精确数量化[4]。一般
认为,那些不能反映系统真实特性的定量方法不是
科学的方法必须摈弃。由庞加莱(H.Poincare)开创的
定性数学是描述系统定性性质的有力工具。目前,
以定性数学为基础的定性推理在系统生物学研究中
逐渐得到了采用、推广和承认。定性推理是建立在
整合大量的与系统有关的定性数据的基础上,通过
构建定性微方程或定性布尔逻辑方程来进行定性机
器推理的数学方法。如图 1 所示。
在图1中a基因和b基因分别表达为A蛋白和B
蛋白,A蛋白和 B蛋白都有抑制 a基因和 b基因表
of modeling and simulation methods in systems biology, such as Qualitative models, Constrained models,
Deterministic ODE/PDE models and Stochastic Differential Equations Models, are introduced in this review
article.
Key words: systems biology; modeling; simulation
303第3期 罗若愚,等:系统生物学中建模方法的研究现状及展望
达的能力。如果A蛋白对 b基因的抑制能力和对 a
基因的抑制能力分别在A蛋白浓度的第一个阈值和
第二个阈值处起作用,而 B蛋白的两种抑制能力分
别在 B蛋白浓度的第二个阈值和第一个阈值处起作
用,那么描述A蛋白和B蛋白浓度随时间变化的定
性微分方程为:
xa = κa s-(xa , θa2) s-(xb , θb1 ) – γa xa
xb = κb s-(xa , θa1) s-(xb , θb2 ) – γb xb
目前,由 Jong等[5]发展的定性推理方法和工
具,已经成功的运用到模拟枯草芽孢杆菌的孢子出
芽过程的模拟中。但是这种方法也有其不足之处,
主要是在定性推理过程中,对存在的很多中间状
态,需要分析判断它们是否是系统的合理解,而且
这些可能的中间状态的数量会随系统维数的线性增
加而呈指数级上升,使得搜索和计算量十分巨大,
对于更为复杂一点地生命体系,比如涉及的基因数
量超过四个,计算量过大可能导致计算系统崩溃。
虽然存在这样的不足,但是相对于那些盲目追求精
确定量的研究,这里定性推理得到的结果其实更为
可信,这是由复杂系统不确定性的本质规律和目前
获得定量数据的实验技术不够成熟的原因造成的。
定性推理技术,作为对定性空间一种比较可行的模
拟手段,肯定会在相当长的一段时期内,在系统生
物学研究中占有一席之地。
2 基于约束的建模方法
相对于完全定性的生物学信息或描述,目前有
相当一部分信息是以半定量的方式定量提供的,比
如某些重要代谢网络中若干关键酶的催化能力参
数,以及若干反应物和底物的浓度数据等等。由于
存在这种特点的数据,系统生物学家已经发展出多
种基于有限定量信息的建模方法,其中以被广泛采
用的流平衡分析(flux balance analysis, FBA)方法最具
代表性[6],该方法主要用于对代谢网络动力学行为
进行模拟。在运用FBA方法模拟代谢网络动力学行
为时,因为提供的数据不全或不够精确,所以导致
问题的解被约束在一个被各种数据限制的空间中,
如图 2所示。为了获得此空间的唯一解或有限个数
解,就必须对此空间描述的生命系统确立一个正确
而有效的目标函数,依据这个目标函数就有可能在
此空间中获得系统的有限个数解。见式 2。
1
max
n
j j
j
z c x
=
=∑
1
0
n
j j
i
j
P x b
x
st
=
=
≥
∑
(2)
在(2)式中st所代表的约束部分使系统的解被限
制在了一定的解空间中,如果我们设立的目标函数
符合生物系统的基本规律,那么我们将有可能在这
一空间内获得正确的并且是有限个数的解。
可见,在使用此方法时,最为关键的是:找
到系统最终可以达到的有效和正确的“目标”。生
命系统经过缓慢而艰辛的进化,为了在进化中生存
下来,可以认为生物体体内系统的结构对于功能已
经是最优的了。所以,在使用基于约束的建模方法
时,寻找最优的目标函数的过程,同时也是一个发
现生物体行使其基本功能所必须遵循的客观规律和
探索生命进化规律的过程。流平衡分析方法的研究
出发点是基于“代谢系统结构最优”的代谢系统结
构最优化基本假设,而在动态流平衡分析研究中,
基本假设则是:“代谢系统是结构最优化基础上的
过程最优化”。同时,针对扰动情况下的代谢系统
动力学问题,一些学者认为:在扰动条件下,代
谢系统的状态改变,并不保证像正常情况下,以结
构最优化作为系统的最优抉择,而是选择一种与正
常条件下的状态相比,改变尽可能小的当前状态。
基于这种假设,人们建立了最小代谢调整分析[7],
和动态最小代谢调整分析[8]方法,研究外界扰动情
况下代谢系统动力学的问题。目前,在代谢工程
上,基于约束的建模方法被广泛的采用,并已获得
了良好的科研价值及经济效益。
图1 由两个基因组成的简单基因调控网络
图2 在不完整约束下不定系统的值域范围示意图
304 生命科学 第19卷
3 基于常微分方程(ODE)和偏微分方程(PDE)的定
量建模
对于极个别的生物系统,假如其中全部的系统
要素都已知或可测,且不考虑其分布特性,在这种
情况可以采用常微分方程对系统建模。但是这只是
极其罕见的情况。大多数情况下,对于存在时间、
空间效应的系统则必须建偏微分方程模型,研究系
统的复杂特性。这种情况下,基于ODE/PDE的方
法,成为最为普遍的建模方法。只要系统中参数都
已知或可测就可以使用这种方法。如图 3 所示。
在代谢网络建模中常用的代谢控制分析
(metabolism control analysis,MCA)就是针对目标网
络中每一代谢物建立其浓度与时间关系的微分方程
模型,利用这种模型可以定量的分析每一条代谢通
路的动力学行为。在心肌细胞电生理系统建模中,
1976年由 Luo和 Rudy[9]建立的 LUO模型由 76个常
微分方程组成,该模型将心肌细胞以细胞器为单位
分成了若干个部分,对每一部分假设其包含的带电
离子在其内部浓度均匀,这样就避免了使用比较复
杂的偏微分方程来模拟系统;但是,在对体积更大
的系统建模时,如建立模型来描述心脏表面的电脉
冲信号的传递过程时就必须使用能描述系统时空特
性的偏微分方程,如加州大学洛杉矶分校推出的
SMB模型,就是针对脑皮层的电信号的传递过程建
立的偏微分方程模型。该模型成功地模拟了大脑皮
层钙离子信号的传播(即所谓钙波)。
在基于ODE/PDE的建模研究中,只要建立的
模型反映了已知的现象和规律,就可以进一步使用
更有力的数学工具来研究系统,比如,分歧分析和
微分流形分析等等。使用这些分析方法可以更加深
刻地了解系统运行的规律和关键所在,也可以发现
和揭示系统中各变量之间的协同关系[10]。同时,对
于那些难以获得数值解的模型,可以采用微分方程
定性理论进行分析,发现其相应的解空间的结构和
特性及其稳定性质。
对于很多生物系统,其中若干要素之间的相互
作用存在时间延迟。如在基因转录为 mRN A 后,
mRNA不会立刻翻译为蛋白,而是存在一段时间的
延迟。因此利用ODE/PDE来描述这一过程时就必
须考虑这一因素,使得方程式成为延迟方程。延迟
方程相当于无穷阶自治方程式或多变量自治方程。
这就使得其解比非延迟方程的解具有多样性或不确
定性。目前,在系统生物学建模实践中,有很多
研究采用了延迟方程。著名的麦基-格拉斯方程,
就是利用延迟方程来描述血液细胞中粒细胞对骨髓
干细胞生成的反馈的延迟效应[11]。
基于ODE/PDE的方法,虽然是普适的方法,但
普适性也是其缺点的源泉。由于生物学实验技术和
实验仪器所限,目前绝大多数生物系统的系统参数
未知,这就极大地限制了这种方法的使用。但是,
随着实验水平的提高和数据的积累,可以预见,
ODE/PDE方法作为一种最基本的描述生物复杂系统
的方法,将在系统生物学研究中起到巨大的作用。
4 基于随机微方程的定量建模方法
虽然ODE方程是最基本且使用最为普遍的复杂
系统建模方法,但ODE方程只是真实系统的一个确
定性近似。在实际情况下,随机性贯穿了系统发生
和演化的始终。随机性毫无疑义是复杂系统的最重
要特征之一。系统演化在开放条件下,除了可以用
非线性ODE方程描述外,还常常采用非确定性方程
予以描述。复杂生命体系的进化过程,必然性和偶
然性,渐进和突变,始终交织在一起,现实需要
理论对两者予以整体的描述。由于随机涨落在自然
界是普遍存在的,而涨落对系统结构在其临界点的
演化方向起着关键的作用,系统结构的功能性、稳
定性和可靠性是随机涨落的主要作用的适应性结
果。在生命系统中,与生命的进化历程相伴随的随
机涨落,是生命体适应自然环境的基本驱动力。涨
落驱使系统去探索新的状态。如果没有涨落,系统
决不会认识到还有更加合适的状态。细微涨落的放
大还可以通过分岔引起稳定性交换。正常情况下,
涨落对于统计均值是一个小量,不影响系统结构的
稳定。但在临界点处,由于系统内的相干行为可以
使涨落急剧放大,形成巨涨落,从而改变系统结
构,导致新的体系结构的涌现。由于 ODE方程描
述的是系统确定性的成分,或者说ODE方程描述的
是系统变量的平均表现,而且ODE方程只是比较适
合描述那些在空间上比较狭小,且反应速率较高的
系统,因为只有在这样的情况下,系统变量随时间
图3 利用常微分方程组描述代谢系统和
基因调控系统的相互作用
305第3期 罗若愚,等:系统生物学中建模方法的研究现状及展望
的改变才可以近似地视为连续性的变化,可以很好
由 ODE方程予以描述。反之,对于系统内必然出
现的内在的本质上的随机性,随机微分方程就成为
研究者首选的系统建模工具。可以形象地说,如果
生命的过程是一部情节生动有趣的长篇小说的话,
ODE方程描述的只是故事的主线,而随机方法却能
给作品带来有血有肉的故事情节。
目前,主要有两种最基本的描述生物系统随机
性的方法:(1)基于朗之万方程的方法;(2)基于主
方程的方法[12]。
朗之万方程在确定性方程之后加入了随机因
素,但这是科学家人为加入的,而不能完全代表由
系统相互作用而自发产生的随机性。而对于主方程
方法而言,它可以适应不同的时间和空间跨度。在
使用主方程方法中,系统的每种分子都单独模拟;
每个反应的发生与否都依据其发生的概率分布函
数。虽然这都消耗计算能力,但这与真实系统的情
况十分逼近。
如式 4 所示。
1 1
( , ) ( , ) 1
m m
j j
j j
p X t t p X t t tα β
= =
⎛ ⎞+ ∆ = − ∆ + ∆⎜ ⎟⎝ ⎠∑ ∑
在式(4)中,系统在 t时刻的状态为 X,那么系
统在过了一段时间后仍然处于 X状态的概率为:在
这段时间内系统内发生的使系统离开 X状态的行为
的概率减去这段时间内系统内没有发生使系统离开
X状态的行为的概率。
在对生物复杂系统的模拟研究中,主方程的研
究思路如下:
(1 )先引入所研究生命系统构形的基本概念,
并建立一个系统模型;
(2)根据此模型,写出相应的运动方程,即主
方程、朗之万方程等;
(3)在研究系统的形成和演化时,不对系统的
每一个单元的特征及其与环境的相互作用进行分
析,而采用宏观量来描述系统的统计行为,因而相
应模型的运动方程具有随机性,以及整体与局部关
系上具有涌现性。
(4)基于运动方程,分别求出定态解和含时解。
主方程是一类研究离散型的随机行走问题的模
型方法,与之类似的是福克 -普朗克方程,它是一
类研究连续型随机微分方程的系统化方法。以上这
些方法在计算系统生物学的实际应用中,最大的困
难在于其求解十分困难,但有一些比较有效的近似
解法,如Gillespie提出的基于蒙特卡洛随机模拟方
法的数值方法和 Stochsim算法[13]。
5 总结
系统生物学是由系统科学、信息科学、生命
科学共同支撑起来的一门前沿交叉科学。在系统生
物学中,复杂系统科学提供的是理论指导,信息科
学提供的是工具支撑,而生命科学提供的是生物学
理论与生物学数据的支持。通过利用信息科学提供
的数据挖掘工具,可以整合有效的生物信息,构成
建立数学物理模型的数据基础,在此基础上通过物
理学的思想构建合理的物理模型,并使用数学语言
加以描述和求解。可见,建模在计算系统生物学中
起到了对生物信息的实质性整合作用:各个层次的
生物信息通过模型的数学描述建立起定量或定性的
关系。
生物学的发展正经历着早期物理学发展同样的
历程。随着我们对复杂系统的认识的不断深入,以
及获得的生物信息的不断丰富,可以预见通过数学
建模来理解复杂生命系统演化机制以及它们如何行
使功能的研究将愈来愈普遍,数学和物理学在生物
学研究中的作用将愈来愈显著,生物学从一门实验
科学转向理论科学的时代离我们越来越近了。
[参 考 文 献]
[1] Palsson B O. The challenges of in silico biology. Nat Biotech,
2000, 18: 1147-1150
[2] Hood L, Perlmutter R M. The impact of systems approaches
on biological problems in drug discovery. Nat Biotech, 2004,
22(10): 1215-1217
[3] 吴家睿. 系统生物学面面观. 科学, 2002, 6: 37-43
[4] 许国志, 顾基发, 车宏安. 系统科学[M]. 上海: 上海科技
教育出版社, 2000
[5] Jong H D, Geiselmann J, Hernandez C. Genetic network
analyzer: qualitative simulation of genetic regulatory
networks. Bioinformatics, 2003, 19: 336-344
[6] Westerhoff H V, Palsson B O. The evolution of molecular
biology into systems biology. Nat Biotech, 2004, 22: 1249-
1252
[7] Seqre D, Vitkup D, Church G M. Analysis of optimality in
natural and perturbed metabolic networks. Proc Natl Acad
Sci USA, 2002, 99: 15112-15117
[8] Luo R Y, Liao S, Tao G Y, et al. Dynamic analysis of
optimality in myocardial metabolic networks under normal
and ischemic conditions. Mol Syst Biol, 2006, E1-E7
[9] Luo C H, Rudy Y. A dynamic model of the cardiac ventricu-
lar action potential. Circulation, 1994, 74: 1071-1096
[10] Suel G M, Garcia-ojalvo J, Liberman L M, et al. An excitable
gene regu latory circuit induces transient cellu lar
differentiation. Nature, 2006, 440(23): 545-550
[11] Mackey M C, Glass L. Oscillation and chaos in physiologi-
cal control systems.Science, 1977, 197: 287-289
[12] Rao C V, Wolf D M, Arkin A P. Control, exploitation and
tolerance of intracellular noise. Nature, 2002, 420: 231-237
[13] Shimizu T S, Bray D. Computational cell biology [M] //
Kitano H. The stochastic approach in foundations of systems
biology. Cambridge: MIT Press, 2003, 213-232