免费文献传递   相关文献

Composition and Distribution of Pseudogenes and Their Molecular Evolution

假基因的组成、分布及其分子进化



全 文 :植物学通报 2006, 23 (4): 402~408
Chinese Bulletin of Botany
收稿日期: 2005-02-16; 接受日期: 2006-02-07
基金项目: 国家自然科学基金(39870421)和浙江重点课题(2003C22007)
* 通讯作者 Author for correspondence. E-mail: qzhxue@hotmail.com
.专题介绍.
假基因的组成、分布及其分子进化
黄志华 薛庆中*
( 浙江大学农业与生物技术学院 杭州 310029)
摘要 假基因(pseudogene)是指基因组中与正常基因序列相似, 但是缺乏功能的DNA 序列。通过序列同
源性搜索, 可以收集基因组中假基因的群体特性、染色体分布和同源家族等特性。假基因很好地保留了
数百万年前基因组中祖先基因的分子记录, 被视为“基因化石”, 因此假基因在进化和比较基因组学中
是重要的资源。应用假基因和基因比较体系, 可以探究生物基因的进化史和基因组稳定性。如: 用Ka/Ks
比值确定假基因的自然选择压、物种亲缘关系和进化距离, 分析假基因自身的进化趋势, 探讨DNA 突变
的成因等。
关键词 假基因, 基因组, 进化, 生物信息学
Composition and Distribution of Pseudogenes and
Their Molecular Evolution
Zhihua Huang, Qingzhong Xue*
(College of Agriculture and Biotechnology, Zhejiang University, Hangzhou 310029)
Abstract Pseudogenes are sequences of genomic DNA with such similarity to functional genes that
they are regarded as nonfunctional copies or close relatives of genes. Homology search of genomic
DNA can reveal pseudogene sequences, and some properties of pseudogenes such as population,
distribution, and homology family can be examined. Pseudogenes are important resources in evolu-
tionary and comparative genomics and are considered gene fossils, because they provide molecular
records of the ancient genes that existed in the genome millions of years ago. Comparison of genes
and pseudogenes offers new insights into the evolutionary history of genes and the stability of the
genome as a whole, for example, the determination of the natural selection pressure of pseudogenes
with Ka/Ks, the relation and the evolutionary distance between species and tendency of pseudogenes
and the origin of DNA mutation.
Key words pseudogene, genome, evolution, bioinformatics
1977年, Jacq 等在非洲爪蟾( Xenopus
laevis)中克隆了一个 5S rRNA 相关基因, 其与
原基因相比, 在5端有16 bp 的缺失以及14 bp
的错配, 他们将这个截短的5S rRNA 的同源物
称为假基因, 并在其同源基因的名称前加假基因
符号Ψ, 以示区别(Jacq et al., 1977)。
4032006 黄志华 等: 假基因的组成、分布及其分子进化
随着人类以及一些模式生物基因组测序的
完成, 对假基因的研究已从单个基因扩大到整个
基因组范围。同时, 人们对假基因的概念及其
意义也有了更新的思考, 并成为基因组学研究的
一个热点(Zhang et al., 2003)。由于假基因保
留了祖先功能基因的残余拷贝, 可为研究生物进
化和基因组动态变化, 分析基因复制与突变等事
件的年代以及频率, 揭示基因组DNA替换、插
入和缺失等事件的机制提供重要线索。另一
方面, 嵌合在基因组中的加工假基因, 与相应功
能基因转录物的cDNA具有高度同源性, 且片
段大小也相仿, 在分子实验中容易彼此混淆, 从
而影响新基因预测的精度, 通过确定假基因有利
于基因的正确鉴定(Zhang et al., 2003)。此外,
通过测定假基因的分布, 可以为新基因的预测以
及鉴定提供更好的帮助。
本文重点介绍了耶鲁大学Gerstein 实验室
有关假基因的分析方法及模式生物假基因的最
新研究工作, 简要综述了假基因的特性和应用前
景, 对于基因组结构、功能比较研究和生物分
子进化探讨有参考价值。
1 假基因
1.1 假基因的定义
最初认为假基因是基因组中丧失功能的
DNA 序列, 换言之, 是功能基因不具备编码能
力的多拷贝, 或是与功能基因相似的序列(Zhang
et al., 2003)。然而, 它们大多数是源自基因组
序列的突变, 不仅记录了基因突变积累的过程,
保留了基因进化的轨迹, 还与基因的表达、调
控存在一定关联(Balakirev and Ayala, 2003)。
1.2 假基因的分类
根据不同的形成机制, 假基因可分为非加
工和加工假基因(non-processed and processed
pseudogene)两类(Harrison and Gerstein, 2002)。
1.2.1 非加工假基因 此类基因通常是指在
基因的复制过程中所发生的功能缺失突变(如插
入、缺失或者移码), 这些复制后的基因片断无
法进行正常的编码, 而形成沉默的冗余片断。
这些未加工假基因多位于其同源功能基因的侧
翼。基因组中频繁发生冗余 DNA 删除事件,
使假基因的含量明显减少。
1.2.2 加工假基因 由mRNA 转录物反转录
成cDNA, 随后整合入基因组中, 也能形成假基
因, 它们被称为逆转座型假基因(retrotransposed
pseudogenes)或加工假基因。加工假基因有
以下明显的序列特征: 两末端都有很短的定向重
复序列; 3末端带有多聚腺嘌呤尾部序列; 编码
区密码子的突变和终止密码子的提前出现;
缺乏内含子和启动子区域。目前只在真核
生物中发现加工假基因, 且其形成机制多与
RNA 聚合酶Ⅱ 有关。一般而言, 加工假基
因与功能基因序列密切相关, 在揭示基因组
进化上能提供更令人信服的证据, 所以是研
究的主要对象。
1.3 假基因的确定
根据假基因序列的特征(提前的终止密码
子, 移码等), 利用序列同源性比对(BLAST等程
序), 在基因组DNA中对可能编码已知蛋白的序
列进行搜索, 测定假基因的群体分布状况。
假基因搜索的具体步骤如下(Harrison et al.,
2002): 通过GENEBANK收集和下载当前最新的
基因组序列信息, 使用Repeat Masker软件包进
行去重复序列操作。利用六框翻译BLASTX程
序(Altschul et al., 1997), 在蛋白质数据库中搜索
相似编码蛋白序列, 剔除一些冗余的序列或者过
短的序列。对获得的序列利用 FASTA程序
(Pearson, 1997)与基因组序列重新进行联配。
如发现相邻的序列可以合并。从中找到至
少存在一个功能缺失特征(移码或者提前的
终止密码子)的序列 , 作为假基因的候选。
把这些已知的假基因与以上搜索到的假基因
序列进行合并。
假基因的筛选可参考以下4个标准(Zhang
et al., 2004): (1)与编码已知蛋白质的序列高度相
似(BLAST E值<1e-10, 氨基酸相似程度大于
404 23(4)
40%); (2)与已知功能基因进行比对, 不含超过60
bp的空洞; (3)与相似基因比较, 覆盖了其70%
的编码序列区域; (4)包含功能缺失(移码或者提
前的终止密码子)以及多腺嘌呤尾部序列(多为
AATAAA)。完全符合以上 4个条件即为加工
假基因, 除(4)以外符合其他3个条件, 是一个新
形成的假基因; 除(2)以外其他条件都符合, 则可
视为一个被其他序列打断的加工假基因; 而筛
选剩余的均属未加工假基因。
2 假基因的分布
2.1 不同物种基因组的假基因数目
对基因组范围的假基因分析, 应根据不同
的实验要求, 制定相应参数和标准(比如E值等),
从中产生相应假基因的群体数据。一般与同
源基因相似程度的限制越低, 获得的假基因数目
就越多, 它们的进化年代也相对久远。
表 1 列出了线虫、酵母、果蝇和人类 4
个物种的假基因数据。由表1可见, 真核生物
不同物种间, 假基因数目存在明显的差异。
人类的假基因数最多, 而酵母和果蝇假基因数
最少, 线虫介于中间。加工假基因数也有类
似趋势。
假基因在不同染色体上的数目并不相同
(Harrison et al., 2001)。通常在基因密集区域假
基因较多。例如: 人类基因组 13号染色体中,
基因的分布比较密集, 有398个功能基因和302
个假基因, 大大高于其他染色体。
2.2 不同染色体或区域上假基因的分布
不同物种中假基因的分布明显不同。酵
母基因组共有98个假基因(Harrison and Kumar,
2002), 其中约44%分布在近端粒区域(距末端20
kb处)。而在着丝粒附近则分布很少。线虫与
酵母相似, 占总数53%的假基因集中在染色体
的短臂末端3 Mb区域, 而这个区域只有30%的
基因(Harrison and Gerstein, 2001)。然而, 果蝇
的大部分假基因分布在着丝粒附近, 这说明此区
域是一个对DNA切除不敏感的地段(Harrison
and Gerstein, 2003)。人类基因组的情况有些特
别, Zhang 等(2003) 把人类基因组先分为5 Mb
的片断, 然后统计每个片断上的假基因数目。
结果表明, 在近端粒和着丝粒处加工假基因数目
都很少, 究其原因, 前者可能与端粒附近较易发
生基因重组和DNA 置换有关, 而后者则因着丝
粒附近较低的GC 含量所致。非加工假基因则
聚集在基因组富含基因的区域(Torrents et al.,
2003)。这与我们前面提到的非加工假基因多
分布在其同源基因的两侧是一致的。此外, 线
粒体中的假基因有可能转移到核基因组
(Woischnik and Moraes 2002), 也使假基因的研
究更加复杂化。
2.3 不同物种基因组假基因的组成
Echols和Gerstein (2002)比较了上述4种真
核生物的基因, 基因间序列和假基因之间的氨基
酸组成的差异(表 2)。由表 2可见, 线虫、酵
母和人类中假基因的氨基酸组成介于基因和基
因间区域, 但是, 果蝇假基因的氨基酸组成几乎
和基因间DNA一样。这也许是由于果蝇有高
潜在的点突变率及基因组 DNA的高缺失率。
在21种氨基酸类型(包含终止密码子)中, 假基因
大致产生14种(人和酵母)或16种(线虫), 介于基
因和非编码区域。
表 1 4个物种基因组假基因和基因的数目
Table 1 Number of genes and pseudogenes in four genomes (Echols and Gerstein, 2002; Zhang et al., 2003)
种名 假基因数目 基因数目 染色体大小(Mb) 加工假基因数目
线虫 (Caenorhabditis elegans) 2 168 20 009 102.9 208
酵母 (Saccharomyces cerevisiae) 241 6 340 12.1 0
果蝇 (Drophila melanogaste) 110 14 332 128.3 34
人类 (Homo sapiens) 19 929 22 000~39 000 3 040 9 747
4052006 黄志华 等: 假基因的组成、分布及其分子进化
不同物种的基因组中假基因在氨基酸组成
上有不同的倾向, 果蝇假基因整体上是接近基因
间DNA, 而人和酵母几乎介于中间。虽然每个
生物在组成上漂流偏向非编码DNA, 但它们确
切的组成仍取决于每个种的变异年龄或数量。
假基因在基因组中并非是完全沉默的无功能序
列, 它们具有潜在编码蛋白质的可能(Balakirev
and Ayala, 2003)。
2.4 假基因分布与GC含量的关系
已知基因的分布与GC 含量有很大的关联
性。加工假基因的分布也有这种相关性。重
复序列在人类基因组中占 30%的比例, 其中
LINE 家族GC 含量较低, 而ALU 则相反, 加工
假基因的GC含量则为中等(41%~46%)(Zhang
et al., 2003)。加工假基因本身是功能基因的逆
转座产物, 但其GC 含量却与功能基因(编码区
序列GC 含量为 53%左右)存在很大的差异。
小鼠中, 加工假基因与LINE 重复序列相似,
多偏向分布于GC 含量低的区域, 而SINE则喜
好在GC 含量较高的区域, 假基因则处于LINE
和ALU 家族的中间水平, 更偏向GC低含量区
域(Zhang et al., 2004)。与小鼠相比, 人类ALU
和LINE 的分布大体相似, 而加工假基因的分布
差异明显, 这主要是因为小鼠基因组的GC分布
比较均匀, 而且突变率比较高, 而人类基因组中
则存在很多GC 含量偏离平均水平的区域。
2.5 假基因分布与同源基因编码的蛋白家
族的关系
人类和小鼠的胚胎细胞中高表达基因均拥
有大量的被加工的假基因拷贝。其中核糖体
蛋白(ribosomal-protein, RP 蛋白)是最大的亚群,
此外, 还有DNA 和RNA 绑定蛋白, 结构分子和
代谢酶等(Zhang et al., 2004)。某些基因有多
个假基因拷贝, 如: 小鼠 gapdh、cyclophilin和
cytochrome c基因分别有 186、49 和 13个拷
贝。每个RP 基因与被加工的假基因数均呈显
著相关(R=0.52, P<1e-7), 若只考虑种的谱系假基
因, 相关性仍显著(R=0.50, P<1e-5), 说明被加工
的假基因丰度除与基因表达程度有关外, 还受到
了基因长度和GC含量等因素的影响。
在酵母中, 生长抑制素GIN11和flocculins
蛋白是与假基因有关的最大蛋白质家族。果
蝇中最大的蛋白质家族丝氨酸蛋白酶及细胞色
素也有大量的加工假基因。未加工假基因则
主要与环境互作的同源蛋白有关。
3 假基因及其同源基因的比较分析
人类基因组特别是加工假基因, 与同源的
功能基因的DNA 序列一致性高达86%, 编码的
蛋白氨基酸序列一致性为75%, 而与同源基因
的编码区域存在94%的一致性。同时, 在进化
过程中, 由于假基因变异(突变、插入和缺失
等)没有受到很明显的选择压力, 使它们很好保
存了祖先基因的拷贝, 留下了祖先基因的分子记
录。因而, 假基因在进化和比较基因组学中是
重要的资源。
3.1 用Ka/Ks比值确定假基因的自然选择
压力
评估核酸序列中被替换核苷酸数量是分子
进化研究的一个重要内容。核苷酸替换发生
在基因的蛋白编码区内, 如果未引起氨基酸改
变, 称为同义替代(synonymous), 每个位点替代
表 2 4个物种假基因、基因间序列与基因氨基酸组成差异(Echols and Gerstein, 2002)
Table 2 Differences in four genome sequences among pseudogene and gene and sequences between genes
种名 基因间区氨基酸组成 (%) 假基因氨基酸组成 (%) 基因氨基酸组成 (%)
线虫 (Caenorhabditis elegans) 7.04 4.49 3.31
酵母 (Saccharomyces cerevisiae) 7.33 3.56 4.92
人类 (Homo sapiens) 6.00 2.91 4.92
果蝇 (Drophila melanogaste) 6.30 6.67 0.96
406 23(4)
数量用Ks表示; 而如果核苷酸替换导致氨基酸
变化(即被替换为另一种氨基酸密码子或终止密
码子), 则称为非同义替代(nonsynonymous), 用
Ka表示。评估这两种核苷酸替代数量, 并计算
其比值(Ka/Ks)可以反映自然选择对基因或者蛋
白的压力。当Ka/Ks 比值接近 1, 说明假基因
受到自然选择压力很小。但当细菌入侵宿主
细胞后, 引起宿主基因产物发生显著改变时, 就
会出现Ka /Ks比值远大于 1的情况。当自然
选择抑制有害突变发生时, Ka/Ks 比值则远小于
1, 这样有利于基因或者蛋白质保持稳定(Zhang
et al., 2003)。用BLAST 选择参考序列(功能基
因的编码序列), 并利用 PAML 进化软件中的
Nei-Gojobori 方法, 对人类基因组中加工假基因
的Ka/Ks 比值进行了估算, 结果表明, 大部分的
假基因该比值在0.4~0.7 之间, 其峰值在0.5 左
右。同样, 用最大似然法进行估算也得出相似
的结果。说明假基因在进化中受到选择压力
的影响很少。
3.2 确定物种亲缘关系和进化距离
根据假基因中保留的基因信息, 可以确定
物种之间的亲缘关系远近。通常采用多序列
比对工具ClustalW 程序, 比较功能基因和相近
假基因的序列, 找出假基因功能缺失的位置及终
止密码子的位置等序列特征, 进而使用N-J 方法
(Zhang and Gerstein, 2003b)来确定假基因之间
或者假基因和功能基因之间的进化距离, 从而获
得以下信息: (1) 假基因和对应基因的进化年代;
(2) 插入缺失的位置偏好; (3) 插入缺失的序列特
征; (4) 基因组中长序列删除的特性; (5) 单位点
突变频率。
在人类基因组中, 假基因、ALU 家族和
LINE 家族这3种序列都是反转座机制的产物,
但假基因分布峰值(9%左右)比ALU(7%)略高,
而LINE 则有2个峰值(4%和21%左右)(Zhang
et al., 2003)。暗示假基因在进化年代上更接近
ALU重复序列家族, 而和LINE 家族相差很远。
3.3 分析假基因自身的进化趋势
真核生物基因组中的假基因, 来源于基因
复制或者反转座, 并在进化过程中逐渐丧失功能
或沉默; 但它们仍处在不停的变化中, 也有可能
通过DNA 替换机制恢复为原来的功能基因或
者其他功能基因(Altschul et al., 1997), 继续行使
功能, 如牛基因组中与精液核糖核酸酶相关的假
基因(Trabesinger et al., 1996)和人类等多细胞动
物中的与嗅觉有关的假基因(Sharon et al., 1999),
这些假基因如同基因备份序列存在于基因组
中。在鸡基因组中, 也发现了与免疫球蛋白有
关的功能基因由假基因形成(Ota and Nei ,
1995)。
业已发现, 未加工假基因总是存在于其同
源基因的附近, 并且它们大多与环境互作的蛋白
质相关。因此, 有人推测这些重要基因的复制
备份也许有助于生物抵抗不利环境的影响。
假基因的这种特性通常造成基因组中基因的大
范围随机漂移。同时, 假基因还有可能形成新
的蛋白质折叠结构变异, 从而为新基因的产生提
供另外的途径(Harrison and Gerstein, 2002b)。
3.4 分析DNA突变的类别或成因
在人类和小鼠的基因组中RP基因都有大
量假基因拷贝存在。为分析DNA的突变机制,
科学家利用这些假基因和同源功能基因进行比
较研究。结果表明, 基因组序列转换(transition,
嘌呤←→嘌呤 , 嘧啶←→嘧啶 ) 比颠换
(transvertion, 嘌呤←→嘧啶)频繁。其中C→T
和G→A的同义变换明显占优势(分别占总替换
事件的11.4%和11.5%), 致使碱基G、C比A、
T有更高的比值(转换 /颠换)。在人类基因组
中, CpG岛中GC碱基对的C通过甲基化变成T
是非常普遍的, 这也是对基因组中高频率的C
→ T替换事件的一个解释(Bustamaute et al.,
2002; Zhang and Gerstein, 2003a)。
替换的频率不但受到GC含量的影响, 还受
到5端相邻碱基的影响(Ophir and Graur, 1997),
如: TpA中A→ C的概率比ApA中高 2倍, C
→ T、G→ A、A→ G和 T→ C的同义变换
4072006 黄志华 等: 假基因的组成、分布及其分子进化
及T→A的非同义变换明显受到5端序列的影
响。这种相邻序列可能会导致在基因组中双
碱基的丰度分布不均(CpG相对丰富, 而TpA相
对稀缺)。
在基因组研究中, 通常把插入和缺失序列
统称为插入缺失。插入缺失的长度与其比例
(占总数的比例)之间基本表现为指数关系
(Bulmer, 1986), 而与GC含量没有相关性。一
个例外是3 bp的缺失会偏离这个指数规律, 反
而大于2 bp的插入缺失比率。研究发现, 这种
缺失现象多发生在密码子第3个碱基之后的序
列中。在人类基因组中短重复序列 SSR的序
列长度分布上, 3 bp的SSR也表现出同样的异
常(即高出2 bp)。有人认为这可能和基因组的
滑动复制有关。如果在基因组复制的过程中
产生滑动, 发夹或三链体的稳定结构更容易形
成, 以保证错误复制部分的稳定。而在DNA修
复的过程中, 就可能造成3 bp的SSR(修复)和3
bp的缺失(删除)。单独就插入和缺失来说, 缺
失在基因组中显得更加频繁, 平均40个核酸序
列就会发生一次缺失, 而100次序列置换才会发
生一次插入事件(Gu and Li, 1995)。
4 展望
随着更多物种基因组测序计划的展开或完
成, 基因数据库中的序列数据正在以天文数字增
长。利用现有的分析工具, 可以从全基因组序
列中获得详细的假基因分布信息, 使假基因数据
库逐步完善。Balakirev和Ayala (2003)认为假
基因并不是基因组中的“垃圾”序列, 而是具
有潜在性新基因的DNA 序列, 因而可视为原基
因 (protogenes)。对于这一观点尚待进一步讨
论。相信通过对假基因的鉴定和分子分析可
以为生物分子进化和基因组比较研究提供更多
重要的证据。
参考文献
Altschul, S.F., Madden, T.L., Schaffer, A.A., Zhang,
J., Zhang, Z., Miller, W., and Lipman, D.J.
(1997). Gapped BLAST and PSI-BLAST: A new gen-
eration of protein database search programs. Nucleic
Acids Res. 25, 3389-3402.
Balakirev, E.S., and Ayala, F.J. (2003). Pseudogenes:
Are they “junk” or functional dna? Annu. Rev.
Genet. 37, 123-151.
Bulmer, M. (1986). Neighboring base effects on sub-
stitution rates in pseudogenes. Mol. Biol. Evol. 3,
322-329.
Bustamante, C.D., Nielsen, R., and Hartl, D.L.
(2002). A maximum likelihood method for analyzing
pseudogene evolution: Implications for silent site
evolution in humans and rodents. Mol. Biol. Evol.
19, 110-117.
Echols, N., and Gerstein, M. (2002). Comprehensive
analysis of amino acid and nucleotide composition in
e u k a r y o t i c g e n o m e s , c o m p a r i n g g e n e s a n d
pseudogenes. Nucleic Acids Res. 30, 2515-2523.
Gu, X., and Li, W.H. (1995). The size distribution of
insert ions and delet ions in human and rodent
pseudogenes suggests the logarithmic gap penalty for
sequence alignment. J. Mol. Evol. 40, 464-473.
Harrison, P., and Kumar, A. (2002). A small reser-
voir of disabled orfs in the yeast genome and its im-
plications for the dynamics of proteome evolution.
J. Mol. Biol. 316, 409-419.
Harrison, P.M., Echols, N., and Gerstein, M.B.
(2001). Digging for dead genes: An analysis of the
characteristics of the pseudogene population in the
Caenorhabditis elegansgenome. Nucleic Acids Res.
29, 818-830.
Harrison, P.M., and Gerstein, M. (2002). Studying
genomes through the aeons: Protein families,
pseudogenes and proteome evolution. J. Mol. Biol.
318, 1155-1174.
Harrison, P.M., and Gerstein, M. (2003). Identifi-
cation of pseudogenes in the drosophila melanogaster
genome. Nucleic Acids Res. 31, 1033-1037.
Harrison, P.M., Hegyi, H., Balasubramanian, S.,
Luscombe , N .M. , Bertone , P . , Echo l s , N . ,
Johnson, T., and Gerstein, M. (2002). Molecular
fossils in the human genome: Identification and analy-
408 23(4)
sis of the pseudogenes in chromosomes 21 and 22.
Genome Res. 12, 272-280.
Jacq, C., Miller, J. R., and Brownlee, G.G. (1977).
A pseudogene in 5S DNA of xenopus laevis. Cell 13,
109-120.
Ophir, R., and Graur, D. (1997). Patterns and rates
of indel evolution in processed pseudogenes from
humans and murids. Gene 205, 191-202.
Ota, T., and Nei, M. (1995). Evolution of immunoglo-
bulin VH pseudogenes in chickens. Mol. Biol. Evol.
12, 94-102.
Pearson, W.R. (1997). Comparison of DNA sequences
with protein sequences. Genomics 46, 24-36.
Sharon, D., Glusman, G., Pilpel, Y., Khen, M.,
Gruetzner, F., Haaf ,T., and Lancet, D. (1999).
Primate evolution of an olfactory receptor cluster:
Diversifi-cation by gene conversion and recent emer-
gence of pseudogenes. Genomics 61, 24-36.
Torrents, D., Suyama, M., Zdobnov, E., and Bork,
P. (2003) . A genome-wide survey of human
pseudogenes. Genome Res. 13, 559-567.
Trabesinger-Ruef, N., Jermann, T., Zankel, T.,
Durrant, B., Frank, G., and Benner, S.A. (1996).
(责任编辑: 孙冬花)
Pseudogenes in ribonuclease evolution: A source of
new biomacromolecular function? FEBS Lett. 382,
319-322.
Woischnik, M., and Moraes, C.T. (2002). Pattern of
organization of human mitochondrial pseudogenes in
the nuclear genome. Genome Res. 12, 885-893.
Zhang, Z., Carriero, N., and Gerstein, M. (2004).
Comparative analysis of processed pseudogenes in the
mouse and human genomes. Trends Genet. 20(2), 62-
67.
Zhang, Z., and Gerstein, M. (2003a). Patterns of
nucleotide substitution, insertion and deletion in the
human genome inferred from pseudogenes. Nucleic
Acids Res. 31, 5338-5348.
Zhang, Z., and Gerstein, M. (2003b). The human
genome has 49 cytochrome c pseudogenes, including
a relic of a primordial gene that still functions in
mouse. Gene 312, 61-72.
Zhang, Z., Harrison, P.M., Liu, Y., and Gerstein,
M. (2003). Millions of years of evolution preserved:
A comprehensive cata logue of the processed
pseudogenes in the human genome. Genome Res. 13,
2541-2558.