全 文 :生命科学
Chinese Bulletin of Life Sciences
第 18卷 第 4期
2006年 8月
Vol. 18, No. 4
Aug., 2006
人类基因组 SNPs的研究现状及应用前景
王 娟
(深圳大学生命科学学院,深圳 5 1 8 0 6 0)
摘 要:基因组 DNA 是生物体各种生理、病理性状的物质基础,人类 DNA 序列变异约 90%表现为
单核苷酸多态性(single nucleotide polymorphisms, SNPs),这是一种常见的遗传变异类型,在人类基因
组中广泛存在,被认为是人类疾病易感性和药物反应的决定性因素。本文主要介绍了 SNPs的分类及特
点、人类基因组 SNPs 的研究现状、SN Ps 在实践中的应用,以及 SN Ps 在遗传作图、医药、遗传易
感性、个体化医疗等方面的研究前景,并探讨了当前 SN Ps 研究中存在的问题。
关键词:人类基因组;单核苷酸多态性;遗传标记;个体化医疗
中图分类号:Q987; Q78 文献标识码:A
Prospects and progress on single nucleotide polymorphisms
in human genome
WANG Juan
(College of Life Sciences, Shenzhen University, Shenzhen 518060, China)
Abstract: DNA is the substance foundation of pathological and physiological properties of all organisms. More
than 90% of the DNA variations in genome are single nucleotide polymorphisms (SNPs), so SNP is the most
common source of variation in human genome. SNPs result from single base differences between genome
sequences, and are as the crucial factor of susceptibility and drug reaction. In this review, we focused on the
features and sorts of SNPs, introduced the progress on SNPs in human genome, and the application of SNPs in
medicine, genetic susceptibility, personalized medicines and so on. Questions relating to SNPs were discussed.
Key words: human genome; single nucleotide polymorphism; genetic marker; personalized medicines
文章编号 :1004-0374(2006)04-0397-05
人类基因组计划(human genome project, HGP)
解读了分布于22条常染色体与两条性染色体上的30
亿对碱基,涵盖了人类的所有生存信息。全人类只
有一个共同的基因组,但每个个体中所含有的某些
基因会出现细微差别,这些差别中包含了人类各种
生物学现象的奥秘,如对疾病的易感性、寿命的长
短、药物遗传多样性等。随着人类基因组研究的纵
深发展,对人类基因组多态性及变异的研究十分必
要。单核苷酸多态性(single nucleotide polymorphisms,
SNPs)是DNA多态性的一种,指DNA 序列中单碱
基的差异,由于其数目多、分布广泛且相对稳定,
成为继第一代限制性片段长度多态性标记、第二代
微卫星标记后的第三代基因遗传标记,是随着HGP
的实施而发展起来的新一代遗传标记,被认为是人
们疾病易感性和药物反应的决定性因素。因此,
SNPs已成为当前人类基因组研究的重要领域[1~2]。
1 SNPs的分类及特点
人类基因组核苷酸序列中的单个碱基变异(不包
括缺失、插入与重复)的发生频率大于 1% 时,称
为单核苷酸多态性,平均密度为 1/1000 bp。大约
收稿日期:2005-12-31;修回日期:2006-03-15
基金项目:深圳大学实验室与资产管理研究基金项目(2005-2006)
作者简介:王 娟( 1 9 7 5 -),女,博士,讲师。
398 生命科学 第18卷
25%的 SNPs位于 CpG位点,发生 C-T转换,因
CG中的 C即胞嘧啶是甲基化的,它自发脱氨基而
替换为 T。在基因组 DNA中,任何碱基均有可能
发生变异,因此,SNPs所处位置既有可能在基因
序列内,也有可能在基因以外的非编码序列上,分
别为编码区 SNPs (cSNPs)和非编码区 SNP。cSNPs
又分为两种,一种为同义 cS NPs ( synonymous
cSNPs),它所导致的编码序列改变并不影响其所翻
译的蛋白质的氨基酸序列,突变碱基与未突变碱基
的含义相同;另一种为非同义 cSNPs(non-synony-
mous cSNPs)指碱基序列的改变可使翻译的蛋白质序
列发生改变,从而影响了蛋白质的功能,这种改变
常是导致生物性状改变的直接原因。
人类DNA序列变异约 90%表现为单个核苷酸
的多态性,故 SNPs是一种常见的遗传变异类型,
其主要特性如下:(1)密度高。SNPs在人类基因组
总数超过 300万,其中约有 20万存在于编码区,其
密度比微卫星标记更高,可以在任何一个待研究基
因的内部或附近提供一系列标记。( 2 )遗传稳定性
好。SNPs 被认为是一种能稳定遗传的早期突变,
与微卫星等重复序列多态标记相比,其遗传稳定性
更好。(3)具有代表性。虽然 SNPs在编码区的分布
要低于其他位置,但某些位于基因内部的 SNPs可
以直接影响蛋白质的编码,进而影响蛋白质结构或
表达水平,因此,它们可能代表疾病遗传机理中的
某些作用因素。(4)分布不均匀。由于选择压力的存
在,SNPs在整个基因组中的分布不均匀,在 3表
达序列标签(express sequence tags,ESTs)中的分布
比在其他基因组区域中的少,在非编码区的数目远
远大于编码区。(5)分析易自动化。由于每个 SNP位
点通常仅含两个等位基因——双等位基因(biallele),
在检测时能通过一个简单的“+/−”分析进行基因型分
型,而无需分析片段的长度,因而易于自动化。
2 SNPs的检测技术
SNPs可通过电泳、PCR、酶切、直接测序、
生物信息学及DNA芯片等方法进行检测。以凝胶电
泳为基础的分析方法有单链构象多态性(SSCP)、异
源双链体迁移率测定技术;以PCR为基础的分析技
术有等位基因特异性 PCR、单核苷酸引物延伸分
析;以酶为基础的分析技术有限制性片段长度多态
性(RFLP)、甲基化修饰、连接酶链式反应;以杂
交为基础的分析技术有列阵杂交分析、等位基因特
异性寡核甘酸探针杂交。另外,针对人类 cDNA和
基因组文库,一些科学家发展了基于生物信息学的
SNPs候选位点搜索方法,例如 EST比较法[3]。
经典方法 PCR-单链构象多态性(PCR-SSCP)
分析、RFLP等,必须通过凝胶电泳等进行分析,
因此,距快速、高效、自动化的目标还相差甚远。
RFLP只能检测到 SNPs的一部分。上述方法仅能判
断 S NP s 的有无,而无法确定多态位点的碱基类
型,因此,这些方法发现的 SNPs要再进行 Sanger
测序确认。对于数据库中已有的 SNPs在特定人群
中序列的验证性分析和频率分析,使用的技术包括
位点特异性探针的应用、Tagman 实验、分子信标
(molecular beacons)技术等,但由于需要荧光标
记以及专门的分析仪器,因此价格较高,且受仪器
设备的限制。
现已出现几个相对有前景的半自动或全自动地
进行大量 SNPs检测的方法,包括小型测序、多重
反向点杂交、DNA芯片、变性高效液相层析技术
等,而且由于目前大规模 Sanger测序的技术已经相
当成熟,使采用 Sanger测序进行大规模 SNPs发现
也成为可能。
3 SNPs的研究现状
3.1 SNPs数据库 SNPs是伴随着HGP发展起来
的,HGP的迅速发展为 SNPs的应用提供了可行
性,而鉴定人类 DNA序列的差异,寻找基因组中
更多的 SNPs是HGP下一步的重要目标。 目前,不
同基因的详细 SNP图谱逐渐被完成。国际 SNPs工
作组(The SNP Consortium, TSC)及国家人类基因组
测序组织(The International Human Genome Sequenc-
ing Consortium)利用大规模基因组测序的数据,及
大片段重叠 D N A 序列比较法,鉴定了 1 4 2 万个
SNPs,使 SNPs的密度达到 1/1.9 kb[4]。
NCBI dbSNP是主要的SNPs数据库(http://www.
ncbi.nlm.nih.gov/SNP),该数据库始建立于 1998年
9月,由美国国立生物技术信息中心(NCBI)和国家
人类基因组研究所(NHGRI)共同组建。该网站信息
量大,更新快,相关链接多,运用 SNPs的 limits
功能可以将查询做多种限定。在 2001年 5月数据库
中的 SNP信息就已超过 2.84百万条,至 2005年该
数据库中超过 270万条SNPs,具有完整的基因型信
息[5]。TSC数据库(http://snp.cshl.org)由 SNP国际协
会建立,SNP国际协会是一个非营利的基金会,目
的为人们提供公共的基因组数据,这项计划开始于
1999年 4月,收录的部分 SNPs已被作图到人类的
399第4期 王 娟:人类基因组 SNP的研究现状及应用前景
各条染色体上,目前已达到 150万余条,远远超过
原来的计划,它的最终目标是建立一个高密度的人
类基因组 SNPs图谱。JSNP数据库(http://snp.ims.u-
tokyo.ac.jp/index.html)始建于 2000年 4月,是由人
类基因组中心(HGC)、医学科学研究院(IMS)、东
京大学、日本科技公司(JST)合办,目标是要鉴定
基因区的 15万个 SNPs,并建立多态性的分析工
具。截至到 2002年夏季,就已发现了 190 562个遗
传变异。我国科学家探索人类基因组序列变异的一
个重要成果:国家人类基因组南方研究中心联合国
内多家研究单位建成以中国人群为主的SNPs数据库
(http://biodb.scbit.org/redian1.html),并建立了与其
他 SNPs数据库的链接。
截至 2005年 12月份NCBI PubMed数据库中,
SNPs相关的文章数为 5 335篇,仅 2005年发表的就
为 1 215篇(占 SNP相关文章总数的 22.77%),2005
年 SNPs相关文献中与癌症有关的 194篇,占 2005
年 SNPs文献的 15.97%,说明了 SNPs在癌症等复
杂疾病研究中的重要性。
3.2 基于 SNPs研究的单倍型图谱计划 寻找标记
SNPs的国际遗传变异图谱计划,即国际单倍型图
谱计划(Haplotype Map Project)已于 2002年 10月正
式启动,2003年中国承担了“国际单倍型图谱计
划”10%的任务,这表明我国基因科学研究能力的
提高和在国际生命科学领域学术地位的提升。该计
划的启动将为人类致病基因的寻找提供一条捷径。
在DNA上位置比较接近的很多 SNPs,会组成
单倍型块并作为一个整体遗传。通过极少数的几个
标记 SNPs,可以识别出不同的单倍型块。单倍型
图谱(HapMap)被认为是DNA的基本结构单位,大
约由 5 000~20 000对碱基组成。不同种族、不同个
体之间的基因组序列大约 99.9%都具有一致性,正
是这0.1%的碱基排列顺序的差异决定了人类的遗传
多态性,即人与人之间的个体差异。HapMap计划
就是研究这 0.1%差异的排列顺序。
HapMap计划的目标在于,确定人类基因组中
普通模式的 DNA序列变异,通过测定序列变异特
征、变异频率、它们之间的关联,绘出人类基因
组的单倍型块,以及不同单倍型块的标记 SNPs[6]。
单倍型块数据库(http://www.hapmap.org)主要为基因
型数据,可供研究者使用、下载、分析数据 [ 7 ]。
在 I期计划中,从世界上 4个地区的人群中采集 269
份DNA样本,现已从中顺利测定 110多万条 SNPs
的基因型信息,11 500个错义 cSNPs被成功分型[8]。
由此获得的HapMap,也将成为利用人类基因组图
谱寻找与疾病有关的遗传变异的重要参考。通过确
定单体型,使单体型图成为用于进行关联研究的一
个工具。在关联研究中,研究人员将患者的单体型
与健康人(对照)的单体型相比较。破译人类基因组
的单倍型图,将能大规模比较不同个体的不同单倍
型图来发现与疾病相关的基因变异,为人类疾病和
遗传关联分析、致病基因和致病因子的确定,药效
和疾病风险的分析及人类起源进化、迁徙历史研究
等提供完整的人类基因信息。这将有助于更好理解
疾病发生的原因及其生理基础,从而将可能用于疾
病的早期诊断,甚至能在基因突变前预测癌症的风
险性。SNPs及HapMap策略的提出引发整个遗传学
界基因组研究的又一热潮,其研发和应用必将大大
加速人类遗传学和药物基因组学的研究。
3.3 SNPs在复杂疾病研究中的现状 SNPs由于其
分布广、密度高而被期望在诸如癌症、糖尿病、高
血压、忧郁症和哮喘等复杂疾病的研究中起重要作
用。上述疾病是多个遗传变异位点与环境因子共同
作用的结果,由于发病原因复杂,涉及的基因数量
多,已成为国际上疾病基因组学研究的重点,我国
国家基因组南方中心已对鼻咽癌等多种疾病展开深
入研究,建立了家系收集网络,取得了一定进展。
国内研究者在单个基因的SNPs与疾病相关性方面进
行了大量研究,如应用实时荧光技术分析N-乙酰基
转移酶基因多态性与肝癌易感性的关系,结果表
明,携带N-乙酰基转移酶基因慢乙酰化基因型的吸
烟者可能是肝癌的高危人群[ 9]。目前已有实验将
SNPs应用于肿瘤预后及易感性的判断。例如肺癌
致癌物的易感性存在个体差异,即肺癌的基因易感
性,研究较多的有:代谢酶基因多态性,如Ⅰ相
代谢酶人细胞色素P450~CYP450和髓过氧化酶MPO
等。法国研究者证实,MPO基因启动子(-463G>A)
多态性导致该基因较低的表达,可以降低肺癌患病
的危险性[10]。日本学者发现了HER-2基因编码区的
一个 SNP与胃癌的发展及恶性程度有关[11]。目前有
关复杂疾病与 SNPs之间关系的研究,国内外报道
均集中在单个 SNP与疾病相关性的检测方面。大规
模或全基因组范围内检测SNPs与疾病相关性的报道
较少。Zhou等[12]利用两条常染色体上的 20个 SNPs,
使用荧光定量PCR的方法,检测早期结肠癌患者的
等位位点来判断病人预后。Mohammad等[13]使用高
400 生命科学 第18卷
密度 SNP芯片(包含近 1500个 SNPs),在全基因组
范围内检测了膀胱癌患者的 SNPs发生情况,这种
全基因组范围内的SNPs分析具有潜在的预后和诊断
价值。
肿瘤等复杂疾病的早期诊断不是靠完全单一的
方法来完成的,必定是多种诊断方法的互补。在分
子生物学迅猛发展的今天,客观科学地面对基因多
态性,致力于疾病相关基因的探索研究,建立基于
遗传标记和 SNPs的诊断技术,将会促进复杂疾病
的早期诊断更早地变为现实。
4 SNPs的应用前景
DNA序列的变化对人类疾病、环境攻击、药
物和治疗的反应等产生重大影响。因此,SNPs对
生物医学研究、药物开发、医学诊断和法医学发展
有重要意义。除此以外,SNPs图谱还有望被用来
识别基因组上成千上万个附加标记,以简化HGP研
究者绘制的基因组图谱。
4.1 SNPs的主要应用 SNPs的应用主要表现在以
下几个方面:(1)制作高密度的 SNPs图谱,提高人
类遗传图的精度;( 2 )通过对比健康和患病人群
SNPs发生频率的差异,确定 SNPs与疾病之间的相
关性,或者比较高危人群与低发人群 S NP s 的差
异,寻找疾病易感性的遗传标记;(3) cSNPs往往代表
基因型和表现型的改变,利用疾病相关的 cSNPs,研
究编码区碱基变化引起的基因表达水平与表达产物
功能的改变,乃至进一步研究对疾病发生发展将产
生何种影响;(4)将 SNPs标记与癌细胞染色体缺失
以及基因杂合性缺失的研究相结合,利用 SNPs数
量多分布广的特点,对目的片段或基因作出更加精
细的标定,从而使研究不断深入;(5)药物的遗传多态
性表现为药物代谢酶的多态性、药物转运体和受体
的多态性,这些多态性的存在都可能导致药物治疗
中药效和毒副作用的个体间差异。SNP的研究为基
因诊断,尤其是疾病的早期诊断提供更多依据。
4.2 SNPs与个体化治疗 人类基因组SNPs是诸多
生物学性状差别的重要遗传学基础(例如疾病易感
性、抵抗性以及药物反应性等)[14~15]。针对 SNPs的
研究可以揭示人种、人群和个体之间DNA序列的差
异,这将对疾病的诊断、治疗和预防带来革命性的
变化,为实现个体化医疗起到关键性作用。在患者
遗传构成的基础上实现个体化医疗,从而得到最好
的效果并将副作用降至最低。人类基因组碱基序列
差异的解析,将为相关联的医药领域疾病的治疗带
来革命性飞跃,在不久的将来有望实现“量体裁
衣”式的个体化给药治疗方案[16]。
JSNP数据库建立的目的是为了根据每个患者的
遗传背景提供合适的药物与合适的剂量,即实现个
体化医疗。该数据库建立了多个分支库,包括基因
编码的各种酶、转运体、受体等,它们在代谢、
转运和药物作用方面发挥重要作用。至今,工作人
员已经检测了日本人基因组中 4 068.3 kb的区域,
鉴定了 7 552个遗传变异,包括 6 733个 SNPs,上
述工作为个体化医疗奠定了一定的基础[17]。
目前,正在兴起的药物基因组学研究遗传因素
对药物作用的影响和不同基因型个体对药物反应的
差异,从而为临床有针对性地合理用药,及根据不
同基因型群体对药物的反应来改进药物设计提供了
理论依据,促进了个体化用药的进程。
5 SNPs研究中存在的问题
多数 SNPs的发生频率较低,在不同人群中的
分布亦有较大差异。因此,研究者必须对大量人群
的 SNPs进行比较,以找出在疾病发生过程中真正
起作用的 S N P s。目前在硬皮病方面的研究也表
明,分析人群中的 SNPs时,使用的样品数少则重
复率低[18]。SNPs是在人类漫长的进化过程中基因
组与内外环境交互作用的累积结果,不同的 SNPs
位点在进化中的产生时间不同,在不同人群中的分
布频率及杂合程度也不同,在进行疾病分析时提供
的信息量可能存在较大差别[19]。耶鲁大学的人口遗
传学家Kenneth Kidd指出,任何一个有用的 SNP在
不同的特定人群之间变化巨大,大概只有三分之一
的 SNPs普遍适用于所有的人群。这意味着研究某
一特定人群的科学家需要寻找更多数量的 SNPs。
同样,由于研究条件的差异,研究对象的人
种、生活地域的不同,生活习惯的不同等因素使研
究结果存在差异。在不同的亚群中等位基因的频率
可能有差别,例如在白种人中表现多态性的标记位
点在中国人中可能没有多态性。我国幅员辽阔,民
族众多,一般采集样本的群体很难具有广泛的代表
性,应收集多地区、多民族的详细资料。构建信
息量丰富的 S NP s 图谱,建立全球性合作,共享
DNA样品和细胞标本的公共资源十分必要。
几乎所有复杂疾病均为多基因疾病,在疾病发
生过程中起作用的是一组基因。由于技术条件的限
制和认识上的差距,迄今为止,疾病的遗传研究大
多从单个基因入手,我们应该从整个基因组及其整
401第4期 王 娟:人类基因组 SNP的研究现状及应用前景
体的功能状态来考虑。少数基因的多态性不能真实
全面地反映出疾病发生的原因。有时因为经费和精
力投入等因素的制约,SNPs与疾病相关性的研究
需量力而行。Fornage和Doris[20]指出分布在人类基
因组中的 SNPs数以百万计,检测种群样本中每一
个 SNP与疾病之间的关联既不实际也无必要,可以
使用相对较少的 SNPs的集合检测其与疾病的相关
性。总之,SNPs与疾病相关性的研究要结合实际
情况制定实施方案。
SNPs领域的研究还存在许多问题,但其在基
因作图、疾病相关性分析、致病基因的搜寻、群
体遗传学及药物研究等领域已显示出诱人的前景。
发展大规模快速检测 SNPs的技术、鉴定起重要作
用的功能基因编码区域的多态性、绘制高密度的
SNPs图谱、确定 SNPs与某些恶性疾病之间的相关
性,这些都是当前 SNPs研究领域中需要迫切解决
的问题。总之,深入解读人类基因组,不但对生
物医学的研究产生重大影响,而且会促进医疗保健
事业的快速发展。
[参 考 文 献]
[1] Tolle R. Information technology tools for efficient SNP
studies. Am J Pharmacogenomics, 2001, 1(4): 303~314
[2] 顾 丰. 单核苷酸多态性及其数据库. 中华医学遗传学杂
志, 2001, 18(6): 479~481
[3] Huntley D, Baldo A, Johri S, et al. SEAN: SNP prediction
and display program utilizing EST sequence clusters.
Bioinformatics, 2006, 22(4): 495~496
[4] 生物信息学 [M]. 赵国屏主编. 北京: 科学出版社, 2002.
12
[5] Zaitlen N A, Kang H M, Feolo M L, et al. Inference and
analysis of haplotypes from combined genotyping studies
deposited in dbSNP. Genome Res, 2005, 15(11): 1594~1600
[6] The International HapMap Consortium. The International
HapMap Project. Nature, 2003, 426(6968): 789~796
[7] Thorsson G A, Smith A V, Krishnan L, et al. The Interna-
tional HapMap Project Web site. Genome Res, 2005, 15(11):
1592~1593
[8] The International HapMap Consortium. A haplotype map
of the human genome. Nature, 2005, 437(7063): 1299~1320
[9] 高建平, 黄跃东, 朱青川, 等. N-乙酰基转移酶基因多态
性与肝癌易感性的关系. 中华肝脏病杂志, 2003, 11(1):
20~22
[10] Chevrier I, Stucker I, Houllier A M, et al. Myeloperoxidase:
new polymorphisms and relation with lung cancer risk.
Pharmacogenetics, 2003, 13(12): 729~739
[11] Kuraoka K, Matsumura S, Hamai Y, et al. A single nucleotide
polymorphism in the transmembrane domain coding region
of HER-2 is associated with development and malignant
phenotype of gastric cancer. Int J Cancer, 2003, 107(4):
593~596
[12] Zhou W, Goodman S N, Galizia G, et al. Counting alleles to
predict recurrence of early-stage colorectal cancers . Lancet,
2002, 359(9302): 219~225
[13] Mohammad O H, Chyi-Chia R L, Paul C, et al. Genome-
wide genetic characterization of bladder cancer: a compari-
son of high density single nucleotide polymorphism arrays
and PCR-based microsatellite analysis. Cancer Res, 2003, 63
(9): 2216~2222
[14] Taningher M, Malacarne D, Izzotti A, et al. Drug metabo-
lism polymorphisms as modulators of cancer susceptibility.
Mutat Res, 1999, 436(3): 227~261
[15] Mohrenweiser H W, Jones I M. Variation in DNA repair is
a factor in cancer susceptibility:a paradigm for the
promises and perils of individual and population risk
estimation? Mutat Res, 1998, 400(1-2): 15~24
[16] 许 玲, 孙大志, 余志红. 肿瘤基因单核苷酸多态性研究
及个体化医疗的思考. 世界华人消化杂志, 2005, 13(5):
592~595
[17] Iida A, Saito S, Sekine A, et al. Japanese single nucleotide
polymorphism database for 267 possible drug-related genes.
Cancer Sci, 2006, 97(1): 16~24
[18] Assassi S, Tan F K. Genetics of scleroderma: update on
single nucleotide polymorphism analysis and microarrays.
Curr Opin Rheumatol, 2005, 17(6): 761~767
[19] Coddard K A, Hopkins P J, Hall J M, et al. Linkage disequi-
librium and allele-frequency distributions for 114 single-nucle-
otide polymorphisms in five population. Am J Hum Genet,
2000, 66(1): 216~234
[20] Fornage M, Doris P A. Single-nucleotide polymorphism
genotyping for disease association studies. Methods Mol
Med, 2004, 108: 159~172