全 文 :第 2 卷 第 2 期
1 9 8 9 年 4 月
林 业 科 学研 究
FO R E S T R E S E A R CH
V o l
。
2
,
N o
.
2
A Pr
。 , 1 9 8 9
基因分化值和基因调控信息量研究
陶 粮 庞广昌
(中国林业科学研究院林业研究所 )
摘要 本文通过对基 因调控、 表达 的分析 , 探讨 了个体分化 定 量 问 题 , 提 出
用 基 因 分 化值 D 。 指标 , 度量分化细胞之间的内部 差异 ; 衬调控 、 表达问题 , 用
信 息论的方法加以处理 , 得到 了基因调控墒 H r , 再从 H , 指标估算 出调控信 息量 。
D
。 具有强度性质 ; H , 具有容量性质 。 试验选用同功酶测定这两项 分化指标 。 再用
这两项指标进一步讨论分化 、 进化 、 生物信息、 群体复杂性等问题。
关健词 基因调控 ; 基因表达 ; 基 因分化 ; 生物信息 ; 生物进化
分子遗传学是生物科学的一个重要领域 。 在这个领域里 , 有关基因分化的研究 , 已取得
了较大的成绩 [’] 。 目前运用基因调控 、表达理论虽能对细胞发育过程中的一些分化机制加以说
明 , 但对这一过程中的个体分化状况 , 仅限于文字描述饰 “] , 虽能借助于统计理论对其进行处
理 , 但并未触及分化的本质 〔‘] 。在生命过程中 , 生命信息起着首要的作用。但对生命信息的研究
和生物信息量的估算进展缓慢少 3 ] 。 至于通过分析基因调控 、 表达情况来定量研究分化值及
估算基因调控的信息量间题至今未见报道。 为此 , 我们进行了这方面的探讨。
一 、 基因调控与分化
某物种细胞内一套基因中有 n 个结构基因 g , 将这 n 个基因编号 , 得结构基因位点序列
g , (i= 1
, 2 ⋯ ”) , 记为 G :
G
: 9 1 9 2 9 5. 二 9 1. · 乙
这 , 个结构基因受调控后 , 并不同时全部表达出来 , 只表达其中一部分 , 表达序列如下
(不表达为空位 ) :
g’⋯ 9 1 + 1⋯ 肠一 1 9.
Gz:l
G s :一3 : 5 2 6 4 ⋯ 6 J⋯ 占
.
. ⋯
G :
、
Gz
、
G 3 ⋯所属的细胞就成为分化细胞 , 分化细胞组成了各组织和器官。
本文于 1 9 8 8年 5 月 6 日收到 。
1 6 4 林 业 科 学 研 究 2 磅
二 、 定量化研究分化的方法
基因的各种表达 , 不仅在数 目上有差别 , 而且在位置上也有差别。 为处理间题方便 , 可
以认为在同一组织内细胞相同 。 如一个个体 , 有 m 种不同的组织 , 那么就有 爪种基因位点序
列 。 先将 。个序列两两进行同位基因比较 , 将比较值加和 , 才得出二 个组织的相互差异 。
两组基因序尹J{G : } (f= 1 , 2 ⋯ m ) 、 {G “} (i = 1 , 2 ⋯ , : ‘) , 如基因数 , 、序列数 (组织数 )二 不
同 , 则 {G ‘}中G ‘“= 1 , 2. 二 , )之间的差异难 以与{G “}中“ 尸(f= 1 , 2. 二二‘)之间差异相比较 。 基
因平均分化值为可比性的差异特征值 。 再用嫡函数描述基因表达 。
三 、 基因的平均分化值
令 :
9
.
1 二
基因表达 ‘
基因不表达 、
= 1 , 2 ⋯ 爪
二 1 , 2 ⋯ 刀
G
。 表示为 。 维空间的向量 :
,10
.
产
JL
将 G 工、 G z 、 G 3
G
, “ ( g , ; g 工
G
: = ( g
: , g :
g lj
g 之了
9 1
,
)
9 2
,
)
G
‘ = ( g ‘, g
G
。 = ( g 。 : g 。 2⋯ g , s⋯ g 。 ,
比较 G : 与 G : 的差别 , 其结果可用绝对依距离表示 :
占G : : 二 习 }g Z j 一 g : j
表示向量之间的距离有很多种 , 这里采川汉明距离较为合理。 一般 地 , G . : 与 G ‘; 之 间的汉
明距离为 :
6 G
‘, ‘
; 二工 19 ‘; , 一 g ‘: s】
i
曰 1
( 1 )
二 个向量中两两间的汉明距离共有 m ‘个 (包括 自身与 自身比 ) 。 如表
表 l m 个向量间两两比较的汉明距离
一一~一 __ 「~一一- - 一一- - -一 ~一 - - - 一- - - - 一一 . . ~ ~ ~ ~ - - ~ ~ . 口 . . . . . . . . . ~ . . . . . 口曰 . . . . . . . . ._一勺 _二⋯二 _匕二三二 二是__二二 _ _ _ _一立C , ‘ “G 】: } 6G 1 2 】 ⋯ ⋯ “G l ·亨’ { “召’‘ 1 “于” ⋯ ’ : ’ ⋯ “’犷— ‘ , , “G 二 ! 1 dG · , l ‘ ’ ‘ 1.一韶兰二一
2 期 陶 粮等 : 基因分化值和基因调控信息量研究 1 6 5
将耐个距离值之和记为 占G * :
. 月
占G ’ = 。。尧,占“‘’“(‘只户G ‘; ;’人‘:只,占G“‘, + 烈“G “
因为 6G ‘: ;彗= 占G ‘‘: , 己G “ = 0 (i = i , 2 ⋯ , ) , 所以有 :
韶 . = 气;蓦;严‘! ““ ”韶 (2 )
这里 占G G ‘: ; ;。 占G * 就是{G 、}中G ‘(f = 1 , 2. 二 m) 之 间的差异 , 即表达基因在数量和位
置上的差异 。 将 占G * 除以 矿得 :
6C
* 2 6G 2
m Z 观2 m Z (界‘绮G ‘! ‘夏 (3 )
式(3) 表示了平均每个组织的分化程度。 表示 , 个基因的平均分化程度 , 将 占‘* /淤 除以 二
即得基因的平均分化值 D 。 :
。 占G * 2 一 。。口, 二 不而可= 丽蔽 。‘启、)。。 ‘1 ‘, = n m Z 习 }g *卜 g 、: 1 (4 )习l四 、 分化的基因调控嫡和基因调控信息量
在 {G ‘}(公= 1 , 2. 二二 )中 , 第 了位上基因 g , 共表达 出习 g ‘, 二 Ai 个基因 , 这 种 表达就可能
有 C . 有 种方式。 当 Ai 接近 。 , 或接近 二时 , 则 氏石 较小 , 说明了 gi 在 {召‘}中 各 个组织
G ‘(云二 1 , 2. 二二)上表达 的差异就小 。 当 式 接近 , / 2 时 , 则 C , 才了就大 , 此时 gi 在 {G ; }中各个
G
‘
(卜 1 , 2. ·动上表达的差异就大 。 所以 C二习 的大小与基因g , 在各种组织中表达的差异有关 。
取 C 矛, 对数 , (对数的底可任意 , 一般取 2 )记为 si :
5 5 = lo g Z C
。刁了 (5 )
假定 C。川 种表达中 , 各种表达都是等概的 , 则每种表达 出现的概率为 1 / C 。刁 , , 将式 (5 )变换
得 :
: , = IO g
Z
e
。一 10 9 :示 = 一名会‘。9 2命 (6 )
这样 , 就得到了基因 gi 的分化基因调控嫡 (以下简称基因调控嫡或调控 嫡 ) , 凡 就是调控基
因在不同组织中所表现出来的嫡值。 将 n 个基因的调控嫡加和 :
月 份
S
, “ 习S s = 习 10 9 : e 二月j
i = 1
(7 )
公, 即为基因 g , (i = 1 , 2. 二n) 在 {召 ‘}(i = 1 , 2. 二 二)中的总调控嫡 , 它标志一个个体{G ‘}(f二 1 , 2. 二
m )中基因表达状况 。
某个个体有基因调控嫡 S r , 如果做基因表达试验 , 例如同功酶试验 , 可以从试验中完全
了解到基因的表达 , 也就完全知道了调控情况 , 从信息理论可知 , 在这试验中所获得的该个
1 6 6 林 业 科 学 研 究 2 卷
体基因调控的信息量 I , 为 :
I
, = S
,
(8 )
所以基因调控嫡也称为基因调控信息嫡 。 显然为估算生物的信息量提供了一条途径 。
五 、 基因平均分化值与墓因调控嫡的关系
从式 (7) 中可以看出 , S , 值随 m 、 n 的增大而增大。 只有当 二 和 力 是 个 体 的真实数时 ,
S
, 值才是这个个体基因的真实调控值 , 所以 S , 值不易求得 。 但对两个个体取 较 多且相同的
m 和 n 数时 , 所得的两个 S , 值也可进行比较 。 刀, 值具有强 度性质 , 取足够大的 二 和 : 可测
出 , 即能标志基 因的调控状况 。 D 。 和 S , 都用来描述基因的调 控情况 , 所以它们之间必有内在
的相互联系。 D 。 与 S , 之间的关系可用方程组表示 :
专几 “烈6Gi
(9 )
“r = 自‘。9 2丽黯石
户
!l
es之es
es
、
其中 占G i = 习 !g ‘; , 一 g ‘: s】笼‘: 《 11)
六 、 分化值和调控嫡值讨论
1
. 如基因全不表达 , g : , = O , 贝11占G = 0 , 所以 D . 二 0 . 又因 习 g ‘z = 0 , 所以‘一 l
S
,
= 习 5 1 = 艺 10 9 : C 。0 = 习 10 9 : 1 = 0
i 一 1
这是一种极端情况 , 表明该个体己停止生命活动 。
2
. 如基因全表达 , 9 . , = 1 (i = 1 , 2 ⋯ m , i = 1 , 2 ⋯ , ) , 则 占G = 0 , 所以 D 。 = 0 . 又因 习 g ‘,
= m (i= 1
, 2 ⋯ , )
所以 S , = 习 S , = 习 lo g Z C : = 习 10 9 2 1 = 0
j
一 1 j . l j一 I
这是一种所有结构基因全表达 , 不受任何控制的情况 , 此种现象的出现是不可能的。
3
. 如基因表达相同 , G , 二 G Z 二⋯ ‘ = ⋯G , 铸 o 则 占G 二 。, 所以 D , 二 O , 又因 叉 g 厅 = 0 或
m (j
= 1 , 2 ⋯ : ) , 所 以
S
,
= 习 5 1护一 1
二 分10 9 :嘿成 。 = 。
i
一 1
乞期 陶 粮等 : 基因分化值和基因调控信息量研究 1 6 7
此时表示分裂后的细胞与原细胞相同 , 没有分化出不同的组织。
4
. 只要有两个以上序列的基因表达不同 , G ‘: 子 G ‘: (玄: 铸动 , 则 6G > O, 所以 D 。> O。 又
因习 9 . , = A , (i = 1 , 2. 二的 , 所以 S , “ 习 S , = 习 lo g C二,
i 二 1 万= 1
> 。, 表示该生命体 已分化 。仇、
S
, 值愈大 , 分化程度愈大。
5
. 所有组织的同位基因有一半表达 , 习 g ‘, = m / 2 (护= 1 , 2. 二的 , 可证得 :
“G ·
(习 g ; s)
x
(
。 - 习 g ‘i)
·晋(二 一警)二 (晋)“ = “G , , 二二
a 二 = 习 占G i , 二。工
1 . 1
Z m 、二二 n l— I\ 2 /
2占G m 。
n m Z
=
目一鱼牛但丫= 生忿跳‘ \ 2 / 2
几标剐D所以
上式表明个体的最大分化值为 1/ 2 , 与基因数 。 、 组织数 二无关。
当 A j = 万 g ‘, = m / 2 时 , c盆’取得值最大(为了讨论问题方便 , 假定二 为偶数) , 则一个
基因数为 n 、 组织数为 m 的个体得到最大调控嫡 :
S
r , 。二 = 习 5 1 , 二一二 =
j = 1
习 lo g C二I名 = n 10 9 : C : I“
才. 1
上式说明该个体基因调控嫡达到了极限 , 如要继续增加调控信息量 , 必须增加组织数或基因
数。
以植物为例 , 大约 n = 3 x 10 心, 如 m = 40 , 那么它的最大调控嫡为 :
S
r , 二。二 = 3 x 1 0 4 10 9 : C羞卜 1 。 1 1 O l x 1 0 e (b it )
七 、 分化值D ; 的测定及举例
测定分化值刀。 , 最好是基因数和组织数 m (各种组织有特定基因表达序列 )为真实值 , 然
而真核细胞生命体的基因数约为 3 万个「。份 由于各种组织众多 , 要把这么大的 。 和 m 全部测
出来是不可能的 , 也是不必要的。 只能随机地抽取一部分组织和基因作试样。 抽样要尽可能
有代表性 , 最好多抽一些 。
要测定基因表达状况 , 应测定基因表达的产物 , 而不是它的本身。 基因指导蛋 白质的合
成 , 基因的表达能在蛋 白质上表现出来。 试验选用同功酶为试材是合适的。 其 优 点如 下 :
¹ 易测定 ; º 操作方便 ; » 用不同的底物染色可测到不同系列的基因 ; ¼灵敏度高 [”称 @ 种
1 6 8 林 业 科 学 研 究 2 卷
类多 , ¾ 代表性强 。
严格来说 , 应在各种组织 _ L取样 , 如在器官土取样 , 测出来的基因表达状祝 , 是数种不
同组织的综合表现 , 听测得的D 。值是一个比真实故妥小的近似位 。 当然这种近似仍可以 用于
比较 , 所以取样时 , 应在各个个体相同的器官上取样 , 习‘能 一沂到相对可比较的D , 位 。
对一植株 (采 自河 南南沼县的油松 ) , 毛幼叶G : 、 老叶G Z 、 根G 。、 嫩茎“ 上取样。 一可得四
个酶谱 : G l 、 G Z 、 G 3、 ‘; 。 从这四个酶谱上可得出一个基本酶谱 G 。 , 用 G ‘“ = 1 , 2 , 3 , ,J) 与
G0 相 比较 , 当G .与G 。上相应的酶带出现时 , 记为 1 ; 如不出现 , 则记为 0 , 如表 2 。
衰 2 器官醉漪 (染色底物 : H 2 0 : )
二一诱一: _片六 一丫一价、
‘ : ( 幼叶 ) ⋯。 ⋯‘ ⋯“ } 。 ‘ 。
G , ‘老叶 , } “ 1 1 ⋯’ ⋯。 l ‘
G , ‘很 , } ‘ { 1 一’ ⋯‘ } ’
G 刁‘嫩茎 , J ’ { ’ } ’ , 。 _二匕
或月j矩阵表示 :
r 0⋯o
{g
, ,
} 二
0 J
由式 (4 )得 : D 。 =
1 1
l 1
26G
n m Z
2 X 14
5 x 42
= 0 。 35 0 0
为获得较准确的 D : 值 , 可适当多取一些器官和多种染色底物 。
八 、 讨 论
1 . 分化值和调控墒值 的 本质 分化指数是通过基因产物—蛋白质的出现状况测 出 来的 , 它不涉及蛋 白质本身的结构和功能 , 只与结构墓因受控状 况有关 。
设 g J 干 为结构基因 g] 的调节墓因 , 则基因表达序列为 (示意图 ) :
G : 节,
‘ . ’
内‘glg一
血 八
g : 十 故‘ ⋯
从式 (4 , 7 ) 可知 , 如 g , (声= l , 2⋯ , : ) 在 {G . } ( i ·: i , 2⋯ m ) 中都表达或都不表达 , 则 D 。 = 0 和
S
, = 0 , 也就是说调节华因不起作用 (这 以不包J占址上的调节 ) 。 D 。 、 S , 值愈大 , 说明墓因受控
愈复杂 。 可见 D 。 、 S , 位是调 节作少日的变址 与结构华因无关 , 只是借川结构基因表现出来 。
2 . 分化 与生 长发育 细胞的分生 、分化 , 导致了生物体的生长和发育。 从单个细胞或组
织生长发育至器官健全的生物体 , 分化程度越来越大 , D 。 、 S , 值亦随之变化。 所以 , 分化值
D 。
、 调控嫡 S , 表明了生物体的 ’仁一民发 ieJ’状况 。 但其中 D 。、 S r 位随生物体生长发育遵循的变
化规律 , 还待今后进一步的探索 , 有待进行大量的 i式验 。
3 . 分 化与进化 千 经万别的生物体能够生存 , 是因为 ‘已们都适应周围的环境 。 如果对它
们进行分类的话 , 则 可以形成从简单的适应至复杂的适应一个系列 。 适应环境的复杂生物 ,
显然是从简单的发展而来 , 进化就是这种从简单到复杂的发展过程。
人比大肠杆菌进化 , 决不是说人这个物种比大肠杆菌更适应 , 而是人具有比大肠杆菌更
复杂的系统来适应环境 。
关于生命的复杂程度 , 尚未 见到一个令人满意的定量化描述形成 I川 。 也就是说无法回答
2 期 陶 粮等 : 基因分化值和基因调控信息量研究 1 6 9
“人比狗进化多少 ”这样的问题。 通过以上的分析和例子 , 我们认为 D 。值对这个问题是一个较
为合理的指标 。 对不同生物的最大(或同一个发育阶段 )的分化值进行比较 , 当然可以衡量它
们的进化程度。
另外 , 根据胚胎学证据 工‘2 1 , 生物的发育过程重演了生物的进化历程 , 所以跟踪分化值在
不同发育阶段的变化情况 , 也应能导出生物进化的历程 。
一般来说 , 同一物种的各个个体的 n 、 m 相同 , 所以不同的个体可用 D 。值表示其复杂程
度 。 利用种群群体平均分化值 :
瓦 二粤叠D 。 , 。 (K 为种群个体抽样个数 , ,丈、 自= 1
k
K
八
D g
分化值分布示意图
可导出选择压力对进化所起的作用。 设有一个生物种群 , 它们的
分化值呈常态分布(见图)。 对它们施加不同的选择压 会 产 生 什
么结果呢? 淘汰掉分化值大的还是小的个体呢 ? 这与分化值大小
无关。 可以通过对处于不同选择压下的相同种群 (如最适地 方和
不适合地方 )的种群平均分化值 D 。 进行比较 , 就可得 出 上 述 结
论 。 例如 , 山西关帝山地区为油松的中心产区 U 今〕; 河 南南沼县
的油松长势也不错 , 而辽宁建平县和青海互助县的油松处于较劣
的环境 , 其种源的选择压力大于上述两个地区 。 这四个地区油松
种群平均分化值 D 。表明选择压力可能使 D 。变小 (表 3 )。
4
. 分化值概念的扩辰—群体复杂度 分化值 D 。描述了同
表 3 油松种群 D g 值测定
地 区
}
瓦
辽 宁 建 苦号 ⋯ 。· 2 5 5 2霄 经要助 县 ⋯ ”· 2 4 4 0竺竺主竺少 ⋯ “· 3 2 “透皿 市 栩 措 县 { ”· “肋 4
一生物体不同组织之间的差异 请况 , 如果把
同一生物体上的每一个细胞都作为一个个体
来看待 的话 , 那么这个生物体就相当于一个
由无数单细胞组成的群体。 因此 , 基因表达
上不同的细胞也就相当于遗传上 不 同 的 个
体 。 由此可见分化值的计算方法也适合于对
群体复杂性的数量化描述。 对群体中不同个
体不同组织的等位基因两两进行比较 , 取其差异值之和 , 可导出群体复杂度的表达式 , 由此
证明它与群体的进化历史和选择压力有关 。
参 考 文 献
〔1 」李振 刚 , 1 9 85 , 分子 遗传学 , 安徽 科技 出版社 。
〔2 〕李士鹏 , 1 9 8 7 , LD H 同功酶 的发生遗传学探讨 , 生物科学动态 , 2 : l d 。
〔3 〕李振刚 , 1 9 85 , 发育 中的基 因控制理 论 , 生物科学动态 , 6 : 1 。
仁峨〕 K · 马瑟 , 1 97 7 (冯午, 1 9 81) , 生统遗传学导论 , 农业出版社 。
〔s 〕C . 1 . J . M . S tu a r t , 1 9 5 5 , B io 一 in fo r m a t io n a l E q u ir v a le n e e , J . T h e o r . B io l. , 1 1 3 : 6 1 1一6 3 6 .
〔6 〕权文富等, 1 9 8 5 , D N A 的信息研究与设想 , 生物科学参考资料 , 第十九梁 , 科学 出版社 。
〔了〕A n d r z e j K o n o p k a , 1 5 5 4 , Is t五e In fo r m a tio n C o n te n t o f p N A E v o lu t io n a r ily S ig n ific a n t ? ,
J
_
T h e o r
.
B io l
. ,
1 0 7
*
6 9 7一 7 0 4 .
1 7 0 林 业 科 学 研 究 2 卷
〔s 〕 V o lk e n s te in , M . 丫 . , 1 9 8 2 , Ph y s ie s a n d B io i o g y , A c a d o m ie P r e s s , N ew Y o r k .
〔9 」 I卜 史密斯 , 1 9 了了, (李锡径等 , 1 9 8 6 ) , 植物细胞 分子生物学 , 科学 出版社 。
〔1 0〕 5 te v e n D . T a n k s le y , 1 9 5 3 . Is o z y m e , i n P la n t G e n e t ie s a n d B r e e d in g , Pa r t A , E ls e v ie r
〔1 1〕 B e n d a ll, D . 5 . , 1 9 5 5 , E v o lu t io n fr o m M o le e u le s t o M e n , C a m b r id g e U n iv e r s ity Pr e s s .
〔1 2〕 李难 , 19 82 , 生物进化论 , 人 民教育出版社 。
〔1 3〕徐化 成等 , 1 98 1 , 油 松天然林的地理 分布 和种源区 的划分 , 林业科学 , 3 : 2 5 8。
ST UD Y ON TH E G EN E D !FFE R ENT !AT ION V ALU E
AND G E NE R E G ULAT OR Y !N FO RMAT旧N
T a o L ia n g Pa n g G u a n g e h a n g
(T he R e s ea r c h 1 0 5 *‘tu te o j F o r e s rr , C A F )
A b str a et T his Pa Pe r Pr o v id e s a 扭e th o d o f m e a s u ri眼 g e n e t ie d iffe r e n tia tio n
b y a n a ly z in g g e n e r eg u la tio n a nd e x P re s s io n
.
A G e n e t ie D iffe r e n t ia t io n 勺a lu e
(D
。
) w a s fo u n d
,
W h ie h c o u ld b e u se d to d e te r m in e t h e d iffe re n e e a m o n g
d iffe r e n t t is su e s
.
U s in g th e m eth o d o f t h e in fo r m a t io n th e o r y
, t h e a u th o rs
fo u nd
a fu n e t io n
, th a t 15 th e G e n e R e g u la tio n E n tr o Py (H
r
)
,
w h ie h e o u ld
d esc r ibe th e e x te n t o f d iffe r e n tia t io n
.
T h e q u a n t ity o f r馆u la t io n in fo rm a t io n
c o u ld b e e st im a ted fro m H
r .
D
:
h a s th e Pro Pe rt y o f in te n s ity a n d H
,
h a s th e
p r o p e r ty o f e o n te n t
.
T h e v a lu e o f D
。 a n d H
,
e o u ld be m e a su red b y iso z ym e s
o r o t h e r Pro te in s
.
In th e en d o f t h e p aPe r
,
h o w to u se D
。 a n d H
,
in
d iffe r e n tia tio n
,
b io lo g ie a l e v o lu tio n
,
b io lo g ie a l in fo rm a t io n
, th e e o m P le x ity
o f Po Pu la tio n and P
r a e t ie a l a PPlie a t io n in fo re s t Po P u la tio n g e n e tie s h a v e
be e n d iSC u sse d
.
K ey w or d s g en e re g u la tio n : g e n e e x P re ss io n : g e n e d iffe r e n tia tio n :
b io lo g ie a l in fo r m a tio n : b io lo g ie a l e v o lu tio n