免费文献传递   相关文献

Application of next-generation sequencing in rare diseases research

新一代测序技术在罕见病致病基因研究中的应用



全 文 :第27卷 第7期
2015年7月
生命科学
Chinese Bulletin of Life Sciences
Vol. 27, No. 7
Jul., 2015
文章编号:1004-0374(2015)07-0960-08
DOI: 10.13376/j.cbls/2015133
收稿日期:2015-05-05; 修回日期:2015-05-25
基金项目:上海市科学技术委员会项目 (13DZ22-
90600);科技部国家高新技术研究发展计划(863计划)
(2012AA020103)
*通信作者:E-mail: huasheng_xiao@shbiochip.com
新一代测序技术在罕见病致病基因研究中的应用
孟宪欣,肖华胜*
(上海伯豪生物技术有限公司,上海 201203)
摘 要:随着人类基因组计划的完成和 DNA测序技术的快速进步,测序成本大幅降低,速度越来越快。
因而,近几年测序技术被广泛地应用于生命科学研究和疾病与健康的检测。现就对新一代测序技术及其在
罕见病致病基因研究中的策略及应用进行综述。
关键词:罕见病;新一代测序;研究策略
中图分类号:Q75;R1  文献标志码:A
Application of next-generation sequencing in rare diseases research
MENG Xian-Xin, XIAO Hua-Sheng*
(Shanghai Biotechnology Corporation, Shanghai 201203, China)
Abstract: With the completion of the human genome project and the drop of DNA sequencing cost, next generation
sequencing (NGS) technology has been widely used to search for rare disease variants by sequencing the entire
protein-coding sequence, known as the exome, or even the entire human genome. In this review, we summarize the
technical characteristics and the performance of current NGS platforms. Then we conclude the research strategies
and applications for identifying rare disease variants with NGS.
Key words: rare diseases; next generation sequencing; strategies
罕见病,又称“孤儿病”,是指患病率极低的
疾病。按照世界卫生组织的定义,其患病率为
0.65‰ ~1‰。世界各国根据自己国家的具体情况,
对罕见病的认定标准进行了定义。目前全球共约有
7 000~8 000种罕见病,80%是由先天性遗传缺陷
所致 [1]。传统的罕见病致病基因研究主要采用连锁
分析、定位克隆以及候选基因测序等方法,十分耗
时耗力。同时,由于遗传异质性、研究家系或患者
的稀少性以及有意识的降低生育等原因,罕见病研
究进展缓慢 [2]。新一代测序技术的出现,测序成本
的大幅降低以及 2004年人类基因组图谱公布 [3],
使罕见病研究遇到了前所未有的机会。
1 新一代测序技术介绍
传统的测序技术,即第一代 DNA测序技术指
的是 1975年由 Sanger和 Coulson开创的双脱氧链
终止法 [4]或者是 1976~1977年,由Maxam 和 Gilbert
发明的化学降解法 [5]。新一代测序技术有别于传统
的测序技术,能够同时对上百万,甚至数十亿个
DNA片段进行大规模并行测序,具有通量高、速
度快、易操作、成本低等特点 [6]。2005年底,454
公司推出了革命性的基于焦磷酸测序法的超高通量
基因组测序系统 (genome sequencer system),被
Nature杂志以里程碑事件报道,开创了边合成边测
序 (sequencing-by-synthesis)的先河 [7]。而后的近 10
年间,新一代测序技术飞速发展,测序仪器不断推
陈出新。一些革命性的平台,如 Illumina公司的
GA IIx和 Life Technologies 公司的 SOLiD系列已淡
出了市场。目前,新一代测序平台以 Illumina公司
的 HiSeq X/HiSeq 2500/NextSeq 500/MiSeq、Life
孟宪欣,等:新一代测序技术在罕见病致病基因研究中的应用第7期 961
Technologies 公司的 Ion Torrent PGM/Proton、454
Life sciences公司的 GS Junior+/GS FLX+和 Pacific
Biosciences公司的 PacBio RSII为代表 [8-11]。这 4个
测序平台都采用了边合成边测序原理,但测序方法
上各有特色,其中 Pacific Biosciences平台无需对
DNA进行扩增。在读长、产量、时间及应用上,
这 4个测序平台有所不同,可根据研究需求选择适
合的测序平台 (表 1)。
2 应用新一代测序技术鉴定罕见病致病基因的研
究策略
2.1 新一代测序方法及平台的选择
新一代测序技术已广泛应用于基因组学、转录
组学及表观遗传学等领域。在罕见病致病基因研究
中,主要采用全基因组测序、外显子组测序和目标
区域测序。
全基因组测序是获得个人遗传组成的最有效手
段,它能够在一次实验中发现待测 DNA在编码区、
非编码区、调控区内发生的所有变异,可以检测单
核苷酸多态性 (SNP)、插入缺失 (InDel)和结构变异
(SV)等。由于价格以及数据分析的复杂性,目前罕
见病致病基因的发现仍以全外显子测序为主。
外显子作为蛋白质的编码区,涵盖了与个体表
型相关的大部分功能性变异。人类基因中大约有 18
万个外显子,占人类基因组的 1%,约 30 Mb[18]。
人类基因组的蛋白质编码区大约包含 85%的致病
突变,外显子组测序技术可覆盖 ~95%的外显子区
域 [19]。实际上,全外显子组测序是一种特殊的目标
区域测序。根据反应原理,目标区域测序富集方法
主要包括 DNA杂交捕获、分子倒置探针 (MIPs)和
PCR扩增富集。富集外显子主要采用 DNA杂交捕
获,包含固相杂交捕获和液相杂交捕获 [20]。由于液
相杂交捕获成本低、捕获效率高、所需样本量少和
更易于操作,目前主流的外显子富集试剂盒均采用
此种方法,如Agilent的 SureSelect、Illumina的 TruSeq
和 NimbleGen的 SeqCap EZ外显子捕获试剂盒。这
些试剂盒主要区别在于目标区域的选择以及探针的
长度、密度和类型 (Agilent为 RNA探针、Nimblegen
和 Illumina为 DNA探针 ),从而造成捕获效果略有
不同。
2011年,美国斯坦福大学医学院的研究人员
使用上述 3家公司的试剂盒和 Illumina HiSeq 2000
平台,对同一个人类血液样品进行外显子组测序分
析。结果表明,NimbleGen SeqCap EZ 外显子建库
试剂盒唯一采用高密度重叠探针设计,尽管覆盖目
标区域比较小,但在灵敏检测小的插入、缺失或变
异时所需测序量最少;在增加测序量的情况下,
Agilent、Illumina捕获试剂盒可以检测到更多的突
变位点。同时,研究人员还比较了同一样品的外显
表1 目前主流测序平台及其特征
公司 仪器 测序方法 模板制备 产量范围 最长读长 运行时间 应用
Illumina HiSeq X* 可逆末端终 桥式PCR 1.6~1.8 Tb 2×150 bp <3 d 大规模人类全基因组
止测序[12] [13-14]
HiSeq 2500 10~1 000 Gb 2×125~ 7 h~6 d 全基因组、外显子组、
2×150 bp  靶向基因表达、转
      录组、表观遗传学等
NextSeq 500 20~120 Gb 2×150 bp 12~30 h 外显子组、转录组
MiSeq 0.3~15 Gb 2×300 bp 5~65 h 靶向基因表达、宏基
 因组学、HLA分型
Life Technologies Ion Personal 半导体测 微乳滴 最长 2 Gb 35~400 bp 2.3~7.3 h 小的基因组、靶向测
(Thermo Fisher Genome  序[15]  PCR[16]  (平均 200 bp)  序、宏基因组学
Scientific) Machine
Ion Proton 最长 10 Gb 最长 200 bp 2~4 h 外显子组、转录组
454 Life sciences GS Junior+ 焦磷酸测 微乳滴 70 Mb  ~700 bp 18 h 目标序列捕获、转录
(Roche)  序[7]  PCR  组、宏基因组学
GS FLX+ 700 Mb 最长 1 000 bp 23 h
Pacific Biosciences PacBio RSII 实时单分 / 100 Mb 最长 30 kb 0.5~3 h de novo 组装、微生物
 子测序[17]  (平均4.2~  研究
            8.5 kb)
*单台HiSeq X系统的规格,只能作为HiSeq X Ten的一部分。
生命科学 第27卷962
子组测序和全基因组测序数据,结果显示外显子组
测序能够检测到全基因组测序错过的变异 [21]。近年
来,外显子捕获新产品不断推出,研究人员有了更
多的选择。
目标区域测序缩小了测序区域,又能够获得指
定目标区域的遗传信息,极大地提高了特定目标区
域的研究效率,降低了研究成本。通过目标区域测
序,可以对候选位点或候选基因进行验证,也可以
进一步找到候选区域或基因内的疾病易感位点。
Illumina测序平台目前应用最广泛。近年来通
过新一代测序发现的罕见病基因,大多数是使用该
平台。它具有通量高、仪器种类全、价格低等特点。
针对人全基因组测序,Illumina HiSeq 平台优势明
显,时间与成本方面都大大降低。在进行外显子组
测序时,美国国家癌症研究所 Boland等 [22]研究显
示,Life Technologies 的 Ion Proton 和 Illumina 的
HiSeq 2000在单核苷酸变异 (SNPs)检测方面均表
现良好,但在准确检测插入缺失时存在差异,在运
行时间方面,Ion Proton所需时间明显缩短。
2.2 测序样本的选择
仔细挑选测序样本对于研究结果及实验经费控
制至关重要。由于 80%罕见病是由先天性遗传缺
陷所致,可根据疾病表型对家系成员进行筛查,通
过家系遗传特征,初步确定该罕见病是否为遗传性
突变导致。如为遗传性突变引起的罕见病,初步确
定该家系遗传类型。对于已知的遗传罕见病,通过
查询相关疾病的研究进展,确定是否存在已知或候
选致病基因突变。再通过传统的 PCR测序方法对
受累个体进行已知或候选致病基因突变验证和初
筛,如确定受累个体中无相关的基因突变,再根据
家系遗传类型确定待测序样本。确定常染色体隐性
致病突变比较容易,需要测序的受累个体比较少,
如果有受累同胞,通过同胞对测序可大大减少候选
基因 [23],有时仅一个受累个体测序就能找到致病突
变基因 [24] (图 1-1a)。对于 X-连锁隐性遗传类型,
最佳选择是对两个亲缘关系最远的受累男性个体进
行测序分析 [2];如果谱系无法区分是 X-连锁隐性,
还是常染色体隐性遗传,可结合对不同的家系受累
代表罕见病致病基因搜寻区间
图1 确定罕见病致病基因研究策略
孟宪欣,等:新一代测序技术在罕见病致病基因研究中的应用第7期 963
成员的检测分析,确定致病基因突变 [25] (图 1-1c)。
通过新一代测序确定家族的常染色体显性突变具有
很大的挑战性,通常需要测序比较多的受累个体 [2]
(图 1-1d)。
新生 (de novo)显性突变可发生在受累父母生
殖细胞形成时和受精卵发育过程中,常显示为散发
和低繁殖,父母并无此突变。De novo显性突变通
常采用对受累个体及父母测序的方法来确定致病基
因,一般两组受累个体及父母测序数据就可能筛选
出唯一的候选致病基因 [26];无法获得充足的家系样
本时,也可以采用多个无生物学关系的受累个体测
序比较分析的方法来确定致病突变 [27] (图 1-2a)。
针对体细胞嵌合突变,一般只需对受累个体的受累
组织和正常组织测序即能发现致病突变 [28](图
1-2b)。由于散发样本遗传背景差异较大,为了得到
更准确的结果,通常散发样本测序数量要多于家系
样本测序数量。
2.3 致病突变的筛选和确定
目前外显子组测序仍是发现罕见病致病基因
最有效的工具。对于一个典型的外显子组测序样
本,通过逐步筛选,罕见致病候选突变的数量可
由 2万 ~5万个缩减至 150~500个。筛选标准主要
基于以下 4个假设:(1)致病突变为非同义突变,
发生在蛋白质编码区;(2)致病突变在人群中发生
率极低;(3)完全外显,即每个携带突变基因型的
个体都具有相应基因表型;(4)每一个具有该疾病
表型的受累个体具有相同的致病突变 [29]。致病突变
的筛选流程:测序得到的原始图像文件,经过碱基
识别及误差过滤,得到可用于分析的原始测序片段
(Reads);然后与人类基因组序列比对 (如 UCSC
hg19),去除未比对到基因组上的 Reads;再通过质
量评估去除一些假阳性的变异位点,质量评估包括
突变 Reads数量 (如至少 5个 )、突变 Reads百分比
(如杂合子突变至少 20%,纯合子突变至少 80%)等;
随后去除非编码区的突变以及同义突变,利用
PolyPhen、SIFT等软件对错义突变进行功能改变预
测,此时候选突变约降至 5 000左右;再通过与公
共数据库 ( 美国 NCBI 的 dbSNP 数据库、欧洲
HGVbase数据库、千人基因组计划、国际 HapMap
计划等 )或实验对照序列比对排除已有的突变 [30]。
逐步筛选后的 150~500个候选基因根据初步确
定的疾病类型、病例的数量及相互之间的生物学关
系,经过比对、注释筛选出候选致病基因 (图 1,
表 2)。再根据候选变异范围大小,扩大样本数量,
进行 PCR产物 Sanger测序或目标区域测序,最终
确定致病基因 (图 2)。
3 新一代测序技术在罕见病致病基因研究中
的应用实例
3.1 遗传性突变引起的罕见病
2009年 9月,美国华盛顿大学 Ng等 [18]在
Nature杂志上发表了一篇原理验证文章。研究人员
使用 Agilent定制芯片捕获外显子和 Illumina GAIIx
平台对 8例 HapMap计划中的个体和 4例弗里曼谢
尔登综合征 (Freeman-Sheldon syndrome, FSS)散发
患者进行了外显子组测序分析。测序得到的 Reads
首先使用 ELAND (Illumina)软件进行质量校准;再
用 Maq13 (Sanger)软件比对到人的参考基因组上
(UCSC hg18);比对上的 Reads使用Maq进行序列
读取,过滤掉深度 <8×,而 phread-like 15质量 < 30
的序列;然后与芯片数据、dbSNP数据库和全基
因组测序数据作比较;最后利用 PolyPhen Grid
Gateway 24软件对错义突变进行功能改变预测。对
编码区域的插入缺失 (InDel)的鉴定过程为:(1)未
比对到人参考基因组上的 Reads用 cross_match软
件进行有间隔 (gap)的比对;(2)用 Maq软件进行
无间隔 (ungap)的比对;(3)用覆盖深度和等位基因
频率过滤。经过逐层筛选,最终准确地找出 FSS是
一种由 MYH3基因突变引起的常染色体显性遗传
病,首次证明了利用少数散发病例的外显子组测序
确定罕见病致病突变基因的可行性。
2009年,该团队利用相同的实验平台及分析
策略,首次成功地从 4例散发和家系 (其中有 1对
同胞 )未知病因的米勒综合征 (Miller syndrome)病
例中鉴定出单个候选突变基因 DHODH,此基因编
码嘧啶合成中一个关键的酶。通过 Sanger测序,证
实受累个体中 DHODH复合杂合子突变的存在 [32]。
美国系统生物学研究所研究人员通过对一家四口进
行全基因组测序,进一步证实了该基因突变的存在。
该家系父母正常,一对受累子女同时患有米勒综合
征和纤毛运动障碍 (ciliary dyskinesia)。这两种疾
病都是常染色体隐性遗传病。通过比较父母和子
女的全基因组序列,研究人员精确描绘出这对受累
子女的重组图谱,最终筛选出 3个复合杂合子突变
(DHODH、DNAH5、KIAA055)和 1个候选纯合子
突变 (CES1)。他们证明了通过家系测序方法,不仅
可以校正测序本身固有的错误,还可以大大降低搜
索致病突变的范围,能更快、更准确的寻找到致病
生命科学 第27卷964
表2 确定罕见病致病基因研究策略的分类、假设、方法、特点[2,30-31]
类型 遗传特征 假设 方法 特点 文献
常染色体隐性遗传 水平遗传,男性和女性受累 复合杂合子突变 受累个体及父母 易确定,有时仅需一 [23-24,
概率相同,受累双亲为杂合 个受累个体,同胞分 32,40]
突变的携带者 析可有效减少候选突
变基因的数量
常染色体隐性遗传- 同上,在近亲婚配中,子代 纯合子突变 受累个体及父母 有时仅需一个受累个 [31]
近亲婚配 发病率增高 体,需考虑近亲系数
常染色体显性遗传 垂直方式连续传递,男性和 杂合子突变 受累个体及未受累 一般需要大量受累 [18,36-
女性受累概率相同,未受累 父亲或母亲;多个 个体 39]
双亲的后代无人发病 无生物学关系受累
个体比较分析
X连锁遗传 X连锁隐形遗传,在家系中 完全外显,与疾 受累个体及其生物 增加家族成员测序, [25]
隔代传递,无男性→男性传 病相关的突变位 学家庭成员;对于 可有效降低研究区域
递;X连锁显性遗传,在家 点呈现共分离 隐性连锁最佳策略
系中垂直连续传递,受累男 是分析两个亲缘关
性、女性都能传递,男性患 系最远的受累男性
者所有女儿都会受累,无男 个体
性→男性传递
De novo 突变 散发 单基因或很少的 受累个体及父母; 病例需求少,显性和 [26-27]
基因突变,父母 多个无生物学关系 隐性突变都可鉴定
无此突变 受累个体比较分析
体细胞嵌合突变 发生在正常机体细胞中的突 突变频率低于 受累组织和正常 低至2%的嵌合即可与 [28]
变,比如发生在皮肤或器官 50%,并具组 组织 测序错误区分
中的突变。突变不会传给 织差异性
后代
基因 [23]。
在近亲婚配的患病家系中,当出现常染色体
隐性遗传特征时,基因发生纯合子突变的可能性
比较大。荷兰莱顿大学医学中心的研究人员收集了
11个免疫缺陷、着丝粒的不稳定和面部异常
(immunodeficiency, centromeric instability, and facial
anomalies, ICF)综合征 2型家系,其中 5个已知为
近亲婚配。研究人员使用 Sentrix HumanHap-300基
因分型芯片 (Illumina)对这 5个家系纯合子定位,
但并未在所有样本中发现共同的纯合子,暗示 ICF2
具有遗传异质性。然后使用 NimbleGen 人外显子捕
获 2.1M芯片和 Illumina GAIIx平台对其中的 p3受
累个体进行了外显子组测序。测序得到的 Reads首
先使用 Bowtie 软件比对到人的参考基因组上
(UCSC hg19, NCBI build 37),然后使用 SAMtools
软件鉴定序列变异,最后在一个纯合子区域内 (5
个受累个体的 4个共享 )鉴定出 ZBTB24基因发生
了一个纯合子突变。 然后对其余 10个受累个体
PCR扩增 ZBTB24编码外显子区域后 Sanger 测序分
析,发现 4个已知近亲婚配家系的受累个体中,3
个存在 ZBTB24纯合子突变 (2个不同的碱基突变,
1个碱基缺失 ),1个未发现突变;另外 2个非近亲
婚配家系的受累个体存在相同的复合杂合子突变,
1个未知婚配情况的受累个体通过发现的纯合子突
变,确认为其家系为近亲婚配 [33]。同样使用 PCR
扩增 Sanger测序,2012年,黎巴嫩研究人员在一
个 ICF2家系中发现了 1个新的缺失 [34];2013年,
日本研究人员发现了 4个突变,其中 3个为新的突
变 (分别为纯合子突变、杂合子突变和读码框移位
突变 ),1个为荷兰研究人员已发现的突变 [35]。这
些发现充分证实了 ICF2具有遗传异质性。
Diamond-Blackfan贫血 (Diamond-Blackfan anemia,
DBA)综合征通常被认为是常染色体显性遗传。但
Sankaran等 [25]发现的一个家系中,父母造血功能
正常,3个儿子中有 2个出现 DBA症状。他们假
设此疾病完全外显,为 X- 连锁或常染色体隐性
遗传。基于此假设,使用 Agilent芯片和 Illumina
HiSeq 2000平台对 2个受累同胞进行了外显子组捕
获测序分析。所有测序得到的突变比对去除千人基
因组计划、dbSNP数据库及美国国立环境卫生科学
孟宪欣,等:新一代测序技术在罕见病致病基因研究中的应用第7期 965
在 20个常染色体显性遗传 KD受累家庭中,发现
了位于 DNAJC5基因上的 c.346_348delCTC 密码子
缺失和 c.344T>G杂合子突变,该突变导致 p.Leu-
116del缺失和 p.Leu115Arg氨基酸改变。美国华盛
顿大学医学院和美国纽约州国立发育障碍基础研究
所研究人员也分别通过家系分析,利用 Agilent
SureSelect人 50 Mb外显子组试剂盒、Illumina HiSeq
2000平台和候选基因 Sanger测序分析发现了上述
突变 [37-38]。目前确认 CLN6基因突变可导致常染色
体隐性遗传 A型 KD[39],DNAJC5基因突变可导致
常染色体显性遗传 A型 KD[36-38],CTSF基因突变可
导致常染色体隐性遗传 B型 KD[40]。
3.2 非遗传性突变引起的罕见病
2010年,Hoischen等 [27]首次证明利用外显子
组测序可有效发现罕见病 De novo突变。他们利用
Agilent SureSelect外显子捕获试剂盒和 Life Technologies
SOLiD平台对 4例 Schinzel-Giedion综合征散发婴
儿进行外显子测序分析,发现所有 4个病例都存在
SETBP1基因杂合突变。他们又利用 Sanger测序对
婴儿父母的 SETBP1基因进行验证,发现并无突变
存在,暗示 Schinzel-Giedion是一种由 De novo突
变引起的显性罕见病。同样,对 9例临床诊断为
Schinzel-Giedion综合征患者 Sanger测序,8例具有
SETBP1基因的突变并且所有突变都发生在 11 bp
内,暗示该突变有着显负性作用或功能获得的作用。
2013 年,Shirley 等 [28]在 NEJM 杂志上发表
了一篇关于斯特奇 -韦伯综合征 (Sturge-Weber
syndrome)的文章,证实 GNAQ基因上的体细胞嵌
合突变导致了斯特奇 -韦伯综合征和葡萄酒色素痣
(port-wine stains)的发病。该团队首先利用 Illumina
Hiseq 2000平台对 3名脑面血管瘤病患者的受累组
织和正常组织进行了全基因组测序分析,找到
1 294个体细胞突变,通过与正常组织比对及
VASST分析,最终确定患者染色体 9q21的 GNAQ
基因发生了错义突变。随后扩大样本 (97个样本 )
针对 GNAQ基因的外显子 4和相邻的内含子目标区
域 PCR扩增,使用 Illumina MiSeq平台测序,结果
显示在受累组织中,等位基因突变率为 1.0%~18.1%;
与千人基因组数据库比对,外显子等位基因突变率
为 1.0%~1.5%。他们使用相应的磷酸化特异性抗体
和荧光素酶报告基因检测,证实在突变体 Gαq的转
基因表达细胞中,细胞外信号调节酶活性略有升高。
近几年,通过新一代测序技术发现的罕见病基
因种类和数目呈快速上升趋势,包括了线粒体疾病、
图2 罕见病外显子组测序致病基因筛选方法
研究所启动的环境基因组计划中 95例外显子组测
序数据已有序列,筛选出 74个基因突变;然后对
母亲和 3个儿子 PCR扩增这 74个基因后 Sanger测
序分析,目标基因缩小至 31个,但没有一个符合
常染色体隐性遗传特征,只有 X染色体上的一个
GATA1基因呈现共分离,该突变发生在 GATA1外
显子 2最后一个核苷酸上,研究人员推测该突变可
能影响 GATA1剪切;通过提取受累个体和母亲的
外周血 RNA,定量 PCR 验证显示受累个体的
GATA1外显子 2表达量只有正常水平的 3%和 5%,
而母亲为 53%[25]。
借助大家系连锁分析,确定常染色体显性遗传
罕见病成功率会高很多。Kufs病 (Kufs disease, KD)
是一种罕见的成人型神经元蜡样脂褐质沉积症
(neuronal ceroid lipofuscinosis, NCL)。根据受累个体
的临床症状分为 2类:A型表现为进展性肌阵挛癫
痫和认知功能减退,B型表现为运动、行为学功能
异常和痴呆。A型多呈现为常染色体隐性遗传特征,
其中呈现为常染色体显性遗传类型尤为罕见,又被
称为 Parry病。诊断 Kufs病具有一定的挑战性,其
症状表现与多种疾病相似,病理诊断可能需要脑组
织活检。2011年,Nosková等 [36]在家系连锁分析、
拷贝数变异和基因表达谱芯片分析基础上,使用外
显子组测序和候选基因 PCR扩增 Sanger测序分析,
生命科学 第27卷966
神经系统疾病、代谢疾病、血液疾病、心血管疾病、
皮肤疾病、耳鼻喉科疾病、眼科疾病和胃肠道疾病
等类别,涉及 60多种罕见病 [1]。
4 展望
随着新一代测序技术的不断更新,罕见病研究
获得了飞速发展,涌现出很多专业的罕见病研究中
心,如美国国立卫生研究院、美国华盛顿大学、耶
鲁大学、贝勒 -约翰霍普金斯中心、杜克大学和冷
泉港实验室等。目前外显子组测序仍被认为是发现
新的致病基因变异最有效的工具。该技术在孟德尔
遗传的罕见病研究中取得了很多重大突破,但也存
在一些不足,如捕获探针覆盖差异、捕获偏差、有
些外显子捕获探针并没有全面的基因组注释信息、
非编码区无法分析等。新一代测序技术本身引入的
实验误差以及序列比对和研究策略选择也可能会造
成一定的假阳性或假阴性,对已预测的罕见病基因
仍需要基因注释及功能确认。近来研究发现,非编
码区 C15orf2、H19、Ube3a-as和 DGCR5与罕见病
有关,但人们对罕见病非编码区尚知之甚少 [41]。针
对非孟德尔遗传,表观遗传或变异在非编码区域的
罕见病,需要全基因组与转录组、蛋白质组、表观
组等相互验证,由此产生的巨额的费用、海量的数
据,将对科研人员提出很大的挑战。尽管存在这些
挑战,新一代测序为罕见病的临床诊断和个性化治
疗带来了前所未有的机遇。随着新一代测序成本的
逐步降低,研究数据的不断增长,以及研究机构之
间的数据分享,相信越来越多的罕见病致病基因将
被发现及注释,从而为后续的功能研究奠定坚实的
基础,加快罕见病研究结果临床应用的进程。
[参 考 文 献]
[1] Danielsson K, Mun LJ, Lordemann A, et al. Next-
generation sequencing applied to rare diseases genomics.
Expert Rev Mol Diagn, 2014, 14: 469-87
[2] Boycott KM, Vanstone MR, Bulman DE, et al. Rare-
disease genetics in the era of next-generation sequencing:
discovery to translation. Nat Rev Genet, 2013, 14: 681-91
[3] International Human Genome Sequencing Consortium.
Finishing the euchromatic sequence of the human genome.
Nature, 2004, 431: 931-45
[4] Sanger F, Coulson AR. A rapid method for determining
sequences in DNA by primed synthesis with DNA
polymerase. J Mol Biol, 1975, 94: 44l-8
[5] Maxam AM, Gilbert W. A new method for sequencing
DNA. Proc Natl Acad Sci USA, 1977, 74: 560-4
[6] Von Bubnoff A. Next-generation sequencing: the race is
on. Cell, 2008, 132: 721-3
[7] Margulies M, Egholm M, Altman WE, et al. Genome
sequencing in microfabricated high-density picolitre
reactors. Nature, 2005, 437: 376-80
[8] http://www.illumina.com.cn/systems/sequencing.aspx
[9] http://www.lifetechnologies.com/
[10] http://www.my454.com/
[11] http://www.pacificbiosciences.com/products/consumables/
SMRT-cells/
[12] Bentley DR, Balasubramanian S, Swerdlow HP, et al.
Accurate whole human genome sequencing using
reversible terminator chemistry. Nature, 2008, 456: 53-9
[13] Adessi C, Matton G, Ayala G, et al. Solid phase DNA
amplification: characterisation of primer attachment and
amplification mechanisms. Nucleic Acids Res, 2000, 28:
e87
[14] Turcatti G, Romieu A, Fedurco M, et al. A new class of
cleavable fluorescent nucleotides: synthesis and optimiza-
tion as reversible terminators for DNA sequencing by
synthesis. Nucleic Acids Res, 2008, 36: e25
[15] Rothberg JM, Hinz W, Rearick TM, et al. An integrated
semiconductor device enabling non-optical genome
sequencing. Nature, 2011, 475: 348-52
[16] Dressman D, Yan H, Traverso G, et al. Transforming
single DNA molecules into fluorescent magnetic particles
for detection and enumeration of genetic variations. Proc
Natl Acad Sci USA, 2003, 100: 8817-22
[17] Eid J, Fehr A, Gray J, et al. Real-time DNA sequencing
from single polymerase molecules. Science, 2009, 323:
133-8
[18] Ng SB, Turner EH, Robertson PD, et al. Targeted capture
and massively parallel sequencing of twelve human
exomes. Nature, 2009, 461: 272-6
[19] Choi M, Scholl UI, Ji W, et al. Genetic diagnosis by whole
exome capture and massively parallel DNA sequencing.
Proc Natl Acad Sci USA, 106: 19096-101
[20] Mertes F, ElSharawy A, Sauer S, et al. Targeted
enrichment of genomic DNA regions for next-generation
sequencing. Brief Funct Genomics, 2011, 10: 374-86
[21] Clark MJ, Chen R, Lam HY, et al . Performance
comparison of exome DNA sequencing technologies. Nat
Biotechnol, 2011, 29: 908-14
[22] Boland JF, Chung CC, Roberson D, et al. The new
sequencer on the block: comparison of Life Technologys
Proton sequencer to an Illumina HiSeq for whole-exome
sequencing. Hum Genet, 2013, 132: 1153-63
[23] Roach JC, Glusman G, Smit AF, et al. Analysis of genetic
inheritance in a family quartet by whole genome
sequencing. Science, 2010, 328: 636-9
[24] Walsh, T, Shahin, H, Elkan-Miller, et al. Whole exome
sequencing and homozygosity mapping identify mutation
in the cell polarity protein GPSM2 as the cause of
nonsyndromic hearing loss DFNB82. Am J Hum Genet,
2010, 87: 90-4
[25] Sankaran VG ,Ghazvinian R, Do R, et al. Exome
sequencing identifies GATA1 mutations resulting in
Diamond-Blackfan anemia. J Clin Invest, 2012, 122:
孟宪欣,等:新一代测序技术在罕见病致病基因研究中的应用第7期 967
2439-43
[26] Gibson WT, Hood RL, Zhan SH, et al. Mutations in EZH2
cause weaver syndrome. Am J Hum Genet, 2012, 90: 110-8
[27] Hoischen A, van Bon BW, Gilissen C, et al. De novo
mutations of SETBP1 cause Schinzel-Giedion syndrome.
Nat Genet. 2010, 42: 483-5
[28] Shirley MD, Tang H, Gallione CJ, et al. Sturge-Weber
syndrome and port-wine stains caused by somatic
mutation in GNAQ. N Engl J Med, 2013, 368: 1971-9
[29] Stitziel NO, Kiezun A, Sunyaev S. Computational and
statistical approaches to analyzing variants identified by
exome sequencing. Genome Biol, 2011, 12: 227
[30] Gilissen C,Hoischen A, Brunner HG, et al. Disease gene
identification strategies for exome sequencing.Eur J
Human Genet, 2012, 20: 490-7
[31] 盖莱哈特, 柯林斯, 金斯伯格. 医学遗传学原理[M]. 北
京: 科学出版社, 2001: 27-43
[32] Ng SB, Buckingham KJ, Lee C, et al. Exome sequencing
identifies the cause of a mendelian disorder. Nat Genet,
2010, 42: 30-5
[33] de Greef JC, Wang J, Balog J, et al. Mutations in ZBTB24
are associated with immunodeficiency, centromeric
instability, and facial anomalies syndrome type 2. Am J
Hum Genet, 2011, 88: 796-804
[34] Chouery E, Abou-Ghoch J, Corbani S, et al. A novel
deletion in ZBTB24 in a Lebanese family with immuno-
deficiency, centromeric instability, and facial anomalies
syndrome type 2. Clin Genet, 2012, 82: 489-93
[35] Nitta H, Unoki M, Ichiyanagi K, et al. Three novel
ZBTB24 mutations identified in Japanese and Cape
Verdean type 2 ICF syndrome patients. Am J Hum Genet,
2013, 58: 455-60
[36] Nosková L, Stránecký V, Hartmannová H, et al. Mutations
in DNAJC5, encoding cysteine-string protein α, cause
autosomal-dominant adult-onset neuronal ceroid
lipofuscinosis. Am J Hum Genet, 2011, 89: 241-52
[37] Benitez BA, Alvarado D, Cai Y, et al. Exome-sequencing
confirms DNAJC5 mutations as cause of adult neuronal
ceroid-lipofuscinosis. PLoS One, 2011, 6: e26741
[38] Velinov M, Dolzhanskaya N, Gonzalez M, et al. Mutations
in the gene DNAJC5 cause autosomal dominant Kufs
disease in a proportion of cases: study of the Parry family
and 8 other families. PLoS One, 2012, 7: e29729
[39] Arsov T, Smith KR, Damiano J, et al. Kufs Disease, the
major adult form of neuronal ceroid lipofuscinosis, caused
by mutations in CLN6. Am J Hum Gen, 2011, 88: 566-73
[40] Smith KR, Dahl HH, Canafoglia L, et al. Cathepsin F
mutations cause Type B Kufs disease, an adult-onset
neuronal ceroid lipofuscinosis. Hum Mol Genet, 2013, 22:
1417-23
[41] He JH, Han ZP, Li YG. Association between long non-
coding RNA and human rare diseases (Review). Biomed
Rep, 2014, 2: 19-23