免费文献传递   相关文献

Genome Assembly Based on Chromatin Interaction

基于染色质交互数据的基因组组装方法



全 文 :·特约综述· 2015, 31(11):43-50
生物技术通报
BIOTECHNOLOGY BULLETIN
DNA 是生物体遗传信息的主要载体,高质量的
基因组参考序列是现代遗传学、分子生物学等现代
生物学科的重要基础。因此,基因组测序对探索与
认识生命本质等基础生物科学研究、人类重要遗传
病防治及动植物遗传育种等应用性研究均具有十分
重要的意义。
1 Scaffolds 锚位逐渐成为制约高质量全基因
组序列获得的主要挑战
基于二代测序技术,又称下一代测序技术(Next
generation sequencing,NGS)的全基因组测序工程
一般包含两个部分 :拼接和组装,前者是将二代测
序技术产生的 DNA 测序片段(Reads)拼接成小的
重叠群(Contigs)的过程,后者是将拼接阶段产生
的重叠群组装成长序列片段(Scaffolds),以及将长
序列片段定位到染色体上的过程。伴随着 DNA 测序
技术的不断推陈出新[1]和单位测序成本的大幅度降
低[2],如何准确、高效、快速地将 scaffolds 定位到
染色体上逐渐成为高质量全基因组序列获得的主要
收稿日期 :2015-08-20
基金项目 :国家自然科学基金项目(31301005),中央高校基本科研业务费专项基金(2015BQ037)
作者简介 :陶婧芬,女,硕士研究生,研究方向 :生物信息学,E-mail :jingfentao@126.com ;谢婷为本文并列第一作者
通讯作者 :杨庆勇,男,副教授,研究方向 :三维基因组学及系统遗传学 ;E-mail :yqy@mail.hzau.edu.cn
张红雨,男,教授,博士生导师,研究方向 :生物信息学 ;E-mail :zhy630@mail.hzau.edu.cn
基于染色质交互数据的基因组组装方法
陶婧芬  谢婷  郑觉非  杨庆勇  张红雨
(华中农业大学信息学院,武汉 430070)
摘 要 : 伴随着高通量 DNA 测序技术的不断推陈出新和价格持续下调,如何将 scaffolds 定位于染色体逐渐成为完整参考基
因组获得的关键。高通量染色质构象捕获技术(High-throughput chromosome conformation capture,简称 Hi-C)的出现为基因组组装
过程中 scaffolds 快速锚位提供了契机。相比于传统的基因组组装方法,基于染色质交互组装基因组的策略实验操作简易、实验和
时间成本较低、正确率及分辨率高,在基因组相对复杂的多倍型和高度杂合的物种中有着更大的应用前景。但由于技术本身的限制,
该方法还存在分辨率、背景噪声等问题需要解决,有待进一步改进和提高。
关键词 : 高通量染色质构象捕获技术 ;染色质交互 ;基因组组装 ;scaffolds 锚位
DOI :10.13560/j.cnki.biotech.bull.1985.2015.11.007
Genome Assembly Based on Chromatin Interaction
Tao Jingfen Xie Ting Zheng Juefei Yang Qingyong Zhang Hongyu
(Huazhong Agricultural University Information Institute,Wuhan 430070)
Abstract: With the rapid development of sequencing technology, DNA sequencing is more efficiently and economically and in greater
depth than ever before. How to locate the scaffolds into the chromosome becomes the key of getting high-quality genome. High-throughput
chromatin conformation capture technique provides a new opportunity for scaffolds anchoring. Compared with traditional method, an assembly
method based on chromosome interaction information is simple, low cost experimentation and saving time, and more application is expected in
other relative complex polyploidy species. However, because of the limitation of the related technology, the genome assembly based on chromatin
interaction still use second-generation technology, there are still many problems to be solved, for example, the resolution and background noise. It
is expected to further improvement and enhancement. We still need to make effort to improve and optimize this method.
Key words: high-throughput chromosome conformation capture ;chromatin interaction ;genome assembly ;scaffolds anchoring
生物技术通报 Biotechnology Bulletin 2015,Vol.31,No.1144
挑战。
1.1 基因组测序现状
得益于 DNA 测序技术飞速发展,不断有新的物
种基因组被测序,继而由测序的片段组装出相对完
整的基因组序列。现有的基因组测序工程主要借助
于全基因组鸟枪法(Whole genome shotgun,WGS)
的策略[3],其原理是将基因组打断成小片段,随后
将片段克隆到载体上组建重组克隆群并测序以获得
用于组装的序列。这种方法克服了大片段克隆分别
测序(Clone-by-clone,CBC)策略难以分离并克隆
着丝粒等区域的缺陷。随着高通量测序技术的发展,
WGS 策略以更低的成本以及更高的效率成为近年来
大多数测序工程的首选。截止到现在,GenBank 中
采用 WGS 方法进行测序组装的项目已有 42 925 个
(http://www.ncbi.nlm.nih.gov/assembly/, 统 计 日 期 :
2015 年 7 月 20 日)。
尽管在测序和拼接技术日趋完善的今天,绝大
多数物种的组装结果仍然不够完整且存在不少组装
错误[4],并且很多已被测序物种的参考序列信息仍
以零散的序列片段的形式存在。NCBI 中的数据统计
显示(http://www.ncbi.nlm.nih.gov/assembly/,统计日期:
2015 年 7 月 27 日),仅有 26.6% 的植物、12.0% 的
动物和 15.4% 的真菌基因组完成了染色体水平的组
装(表 1)。由此可见,基因组组装大多仅仅停留
在长序列片段(BAC 和 / 或 scaffolds,下文统称为
scaffolds)的水平,而确定 scaffolds 在染色体上的具
体位置逐渐成为染色体水平的参考序列获得的限制
环节。
表 1 植物、动物、真菌中基因组组装情况
测序总数 Contig-level Assembly(%) Scaffold-level Assembly(%) Chromosome- level assembly(%)
植物 218 70(32.1%) 90(41.3%) 58(26.6%)
动物 709 177(25.0%) 447(63.0%) 85(12.0%)
真菌 1226 547(44.6%) 490(40.0%) 189(15.4%)
1.2 传统scaffolds锚位方法存在的主要困难
传统的 scaffolds 锚位方法主要分为两个大类,
基于物理图谱的方法和基于遗传图谱的方法。前者
是通过序列或序列特征的重叠关系来确定 DNA 片段
的位置,后者是利用减数分裂时期的姊妹染色单体
联会后不同 DNA 片段共交换的频率来判断 DNA 片
段的相对位置。由于这两类方法都包含大规模文库
或群体构建、筛选等一系列复杂的实验过程,其所
需成本、结果的精度、准确性等在很大程度取决于
实验的设计和实施,在实际的 scaffolds 锚位的过程
中主要存在以下难点。
1.2.1 大片段文库构建难度大 构建大片段的 BAC
文库是基于物理图谱锚位 scaffolds 方法的限制性环
节。而传统的基于遗传图谱锚位 scaffolds 的方法对
片段长度(如 scaffolds N50)要求较高,为了提高
scaffolds 的长度,一般需要构建大片段 mate pair 测
序文库。大片段文库构建的整个操作流程相比普通
实验更复杂且对实验经验的要求更高[5]。在文库构
建过程中将基因组片段插入载体中,不同物种基因
组的重复度高低等指标会影响大片段文库插入片段
长度的目标值 ;而插入片段越长、连接率越低、构
建成功率则越低 ;再者,随着插入片段的增大,文
库冗余率的升高等均会影响大片段文库最终有效数
据的产出。因此,对于大部分分子生物学实验室,
都不具备构建高质量、低冗余率大片段文库的技术
条件,目前该系列实验仍存在诸多困难。
1.2.2 成本较高 一方面,传统的 scaffolds 锚位方
法通常需要构建遗传群体或者基因组文库。对于植
物来说,其生长周期一般都超过 3 个月甚至更长,
并且经常受制于种植季节,构建作图群体一般就需
要 1-2 年,整个过程将会消耗更多的时间。另一方
面,传统的组装方法在前期进行大规模的实验,这
需要消耗大量的人力成本和物力成本来建立遗传分
离群体和标记基因型分析。特别是为了提高定位精
度,需要进一步提高有效标记密度时(即获得更多
的交换单株),随着作图遗传群体的扩大,需要消耗
2015,31(11) 45陶婧芬等 :基于染色质交互数据的基因组组装方法
大量的人力物力[6]。
1.2.3 误差偏高 传统的 scaffolds 锚位方法一般涉
及大规模田间种植和分子生物学实验,在复杂繁琐
的实验过程中,多个环节实验不可避免地导致实验
误差和随机偏差的积累,同时也更容易引入人为误
差和系统误差。
2 高通量染色质构象捕获技术为 scaffolds 快
速锚位提供了契机
2.1 染色质构象捕获技术
染色质构象捕获(Chromosome conformation ca-
pture,3C)技术原本用于研究基因表达时染色质的
空间构象[7]。该技术利用了连接反应倾向于发生在
物理上相互靠近的 DNA 片段之间(即邻近连接原
则),然后利用 PCR 对模板数量的敏感性,迅速准
确地抓出与目标区域相互靠近的 DNA 片段。
Hi-C(High-throughput chromosome conformation
capture)技术是由 3C[6]技术发展而来,结合了生
物素标记筛选和二代测序技术,通过交联、酶切、
连接等步骤,实现全基因组范围内染色质交互的高
通量检测。2009 年,Job Dekker 的研究小组在 3C 技
术的基础上开发出全基因组范围的染色质构象捕获
技术(Hi-C),获得了分辨率为 1 Mb 的交互图谱并
模建出核内染色质的三维立体模型[8]。研究人员通
过化学手段固定住蛋白与核酸或蛋白与蛋白之间的
接触。随后将 DNA 片段化,并将相互联系的 DNA
连接在一起。最终对所有区域间的接触次数进行统
计,绘制出交互矩阵,便可估算出三维状态下任意
两个区域相隔距离。
目前,染色质交互数据在酵母、人类、小鼠、
果蝇和拟南芥等物种中均有过报道。其中人类的染
色质交互数据达到了 1 kb 的分辨率[9],精细程度深
入到了单基因水平。
2.2 染色质构象捕获用于基因组组装研究的现状
Hi-C 技术传统应用于研究与特定蛋白质因子
作用的染色质组和全基因组范围内染色质组的互
作[10]。同时,Hi-C 产生了大量的染色质交互数据,
根据这些染色质交互数据,可以重建染色质的三维
结构[11]。真核生物的基因组在细胞核中以染色质的
形式存在,基因组的复制、转录、调控、DNA 突变、
长链非编码 RNA 的传播和胚胎发育等生物功能与其
三维结构密切相关[12]。三维结构的重建,为我们更
加系统地了解染色质的调控功能提供结构依据[13]。
此外,Hi-C 技术所揭示的染色质片段间的交互
强度呈现出随距离衰减的规律[8]。正是这一规律,
催生出了“基于 Hi-C 技术组装基因组”这一新的研
究领域。与传统的遗传定律相类似,这一规律可以
用来判断 scaffolds 的分群及相邻关系。具体而言,“染
色体内交互高于染色体间交互”可以指导核酸片段
的染色质分群,“同一染色体上近程交互高于远程交
互”则可以引导核酸片段的排序和定向。
目前 Hi-C 技术应用于基因组组装的物种主要包
括人类、小鼠、果蝇、拟南芥、酵母以及其他微生
物和微生物群落。2013 年,Job Dekker 等人[14] 通
过整合 Hi-C 数据、鸟枪法测序序列以及短序配对
(Short jump mate-pair)文库序列定位了人类基因组
中 65 个尚未锚定到染色体上的重叠群,与其他方法
得出的结果有 83.78% 相吻合。其中挂载到染色体的
准确率为 99.80%。Burton 等[15]将这种方法应用到
了人、小鼠和果蝇的全基因组 de novo 组装当中,占
人类和小鼠序列总长超过 98% 的 scaffolds 被用于分
组、排序和定向,正确率达到 90% 以上。在果蝇中,
虽然原始鸟枪法得到的 scaffolds 质量与人类和小鼠
相比较差,分组和排序的 scaffolds 利用率能达到
81.2% 和 82.0%,scaffolds 定向的正确率高达 93.9%。
Marie-Nelly 等[16]用这种方法填补酿酒酵母基因组
组装中的缺口(gap),随后又用它来组装里氏木霉
菌基因组。Burton 小组[17]将 Hi-C 技术与宏基因组
学相结合,在微生物群落的物种鉴别以及单个物种
基因组组装上都取得了很好的效果。而 Putnam 等[3]
利用体外模拟体内 DNA 互作获取的染色质信息组装
美国短吻鳄基因组,其中,在人类中 68.9% 测序读
长的比对质量超过了 20 ;在美国短吻鳄中 1 298 个
测序读长覆盖度达到 90%,一致性达到 95%,都取
得了较好的应用(表 2)。
本课题组利用此方法来组装拟南芥基因组。利
用 有 效 的 Hi-C 交 互 数 据, 将 总 长 度 为 112.61 Mb
的 1 705 个 scaffolds[18] 进 行 分 群, 其 中 1 350 个
scaffolds(占总长的 97.12%)能够被准确地分配到
其相应的染色体上。基于染色体局部交互信息,对
生物技术通报 Biotechnology Bulletin 2015,Vol.31,No.1146
表 2 Hi-C 数据从头组装基因组结果汇总
物种 组装总长 /Mb Scaffolds 数量 聚类利用率 /% 聚类正确率 /% 排序利用率 /% 排序正确率 /% 参考文献
人类 2739 18921 98.20 99.80 94.40 99.50 [15]
小鼠 2370 25964 98.00 99.76 86.70 99.50 [15]
果蝇 127 7109 81.20 96.60 82.00 95.40 [15]
拟南芥 112.61 1705 99.10 97.19 94.26 92.29 [19]
里氏木霉 33.3 77 — — — 99.80 [16]
美国短吻鳄 132 1485 — — — 95.00 [3]
551 个的 scaffolds 进行了排序和方向确定,其中 516
个(占总长的 92.29%)scaffolds 能够被准确排序和
确定方向[19]。
3 基于体内染色质交互数据组装基因组的主
要流程
3.1 实验操作
现有的获取染色质体内交互数据的技术有很多,
都是基于染色质构象捕获技术(3C)发展而来,而
应用于组装最多的是 Hi-C 技术。Hi-C 实验主要的
原理是甲醛能在常温下与氨基或羟基发生化学反应,
将蛋白与 DNA 或蛋白与蛋白之间的物理接触“固定”䞦࠷ 䘎᧕ᵛㄟ㺕喀৺⭏⢙㍐ḷ䇠 儈䙊䟿ৼᵛㄟ⍻ᒿDNA㓟ॆǃ䎵༠⌒ᢃᯝ৺⭏⢙㍐Pull-down⭢䟋Ӕ㚄
HindIII Nhel
下来。Hi-C 技术的大致流程为 :通过甲醛交联固定,
将细胞内由蛋白质介导的空间上邻近的染色质片段
进行共价连接。甲醛交联后加入特定的限制性内切
酶进行酶切。酶切后的黏性末端利用核苷酸补平,
用于补平的其中一种核苷酸(如 C)用生物素标记。
之后在非常稀释的环境中,加入连接酶连接平末端
形成分子内连接,原有的酶切位点丢失,取而代之
的是新的酶切位点。最后将连接的 DNA 进行纯化后
超声破碎,并用生物素亲和层析将生物素化的 DNA
片段分离出来,加上接头通过高通量双末端测序检
测交互的 DNA 片段[8]。
图 1 Hi-C 测定染色质交互的基本原理及技术流程[8]
3.2 数据分析
3.2.1 数据的比对、去噪和校正 Hi-C 实验得到的
原始染色体交互数据中具有大量的噪声,因此,在
基因组组装前必须对原始数据进行处理。通过测序
平台获得的原始交互数据是双端测序数据,即 pair-
end reads。与其他二代测序实验一样,必须先检测
测序的质量。因为实验操作中可能因为条件控制而
导致实验差错,对于建库测序的结果,需要用相关
的测序数据质量控制软件(如 FastQC)衡量数据的
可利用性。
在确定获取的数据质量之后,需要将双端测序
结果比对到参考基因组上。可直接使用短序列比对
软件设置相关参数进行比对,也可以运用迭代增加
mapping reads 长度的比对算法[20],以便最大限度增
加数据的利用率。
最后,Hi-C 实验的各个操作步骤会引入各种各
样的噪声,包括 PCR 重复、随机打断、自连接、随
机连接等[20-22],所以必须根据数据特征对这些噪
声进行过滤。同时,序列本身的特征如 GC 含量、
酶切位点频率[20,21]等都会对交互数据产生影响,
2015,31(11) 47陶婧芬等 :基于染色质交互数据的基因组组装方法
因此通常还要对得到的原始交互数据进行迭代校
正(Iterative correction and eigenvector decomposition,
ICE)[20]。通过上述质量控制步骤后,我们可获得
用于基因组组装的 Hi-C 交互数据。
3.2.2 构建交互矩阵和挂载 scaffolds 利用去噪校
正之后的交互数据,构建染色质交互矩阵。如果有
两个以上技术重复,还需要检验交互矩阵的皮尔森
相关性。
针对其染色质三维空间结构特征,选取合适的
聚类模型将未定位 scaffolds 锚定到染色体上,并采
用相应的排序算法确定挂载 scaffolds 的正确顺序和
方向,组装出染色体水平的全基因组序列(图 2)。
目前基于染色质交互数据进行基因组组装的几个软
件都是按染色质三维空间交互规律开发的(表 3),
每个软件在分组、排序和定向中采用的算法不同,
使得不同软件的参数设置也有所区别。研究者在基
因组组装过程中需要根据自身研究目标和数据特征
来选择不同的组装软件。
4 染色质构象捕获用于基因组组装研究的主
要优缺点
与传统的组装方法相比,基于染色质交互数据
确定 scaffolds 在染色质上的具体位置具有以下三个
方面的优势 :
(1) 利 用 染 色 质 交 互 的 reads 分 布 来 判 定
scaffolds 的相对位置,具有更高覆盖率和特异性。基
于染色质交互的组装方法的 reads 长度是一般遗传标
记的 4-5 倍,这使得其具有更高的位点特异性。此外,
利用全局染色质捕获技术能获取所有的 scaffolds 片
段的交互信息,因此绝大部分 scaffolds 都能被组装。
(2)基于单一株系染色质交互规律的组装方法,
是利用 scaffolds 在体内染色质相互作用的分布特征
来判定染色体片段之间的邻接关系,比利用亲本后
代遗传连锁交互的组装方法更为直接和可靠。同时,
它避免了繁琐的群体构建工作,在极大程度上减少
了实验误差、系统偏差及机械混杂等不可控因素的
干扰。
(3)基于染色质交互的组装方法要求的基础数
据为进行基因组测序材料的单一株系 Hi-C 交互数
据,整个过程无需构建庞大的遗传群体和进行大规
模的基因型分型工作。相比之下,Hi-C 技术实验周
期短、实验规模小,节约了时间和成本。
由于 Hi-C 技术是以二代测序为基础的,在基
于交互组装基因组的过程中,二代测序技术中存在
的偏好和问题很有可能被引入到基因组组装过程中。
首先,位于着丝粒和端粒附近的序列往往是高度重
复的,二代测序从根本上是无法确定其具体的序列
信息的,也就很难对其完成组装。也就是说基于交
互组装基因组只能在原有的基础上提高基因组组装
的正确率和完成率,而无法使其达到 100%。其次,
由于 Hi-C 技术本身分辨率的限制,使得组装无法更
加精细,这一缺点有望在原位 Hi-C 中得到改进。再
者,基于染色质交互组装基因组方法的主要理论基
础是“近程交互高于远程交互”这个一般性、全局
性的规律,而事实上在特定的小区域(如着丝粒、
㚊㊫üü⺞ᇊަᡰ኎Ⲵḃ㢢փᧂᒿüü⺞ᇊަ൘ḃ㢢փкⲴᧂࡇ亪ᒿᇊੁüü⺞ᇊަ൘ḃ㢢փкⲴᧂࡇᯩੁ
a
b
c
d
图 2 利用染色质交互组装基因组示意图(以 LACHESIS 软件
为例[15],有改动)
表 3 基因组装的相关软件对比
能否从
头组装
是否需要设定
染色体数目
是否可以评价
组装结果
文献
来源
GRAAL 能 不需要 否 [16]
danTri 能 不需要 是 [14]
Lachesis 能 需要 是 [15]
HiRISE 能 需要 是 [3]
生物技术通报 Biotechnology Bulletin 2015,Vol.31,No.1148
断 离 及 拓 扑 相 关 结 构 域(Topologically associating
domain,TAD)等,这一规律并不总是成立[23]。综
上所述,在 scaffolds 片段较小(< 5 kb)、高度重复
序列区域等因素都可能直接导致 scaffolds 锚位准确
性和覆盖率降低。
5 基于染色质交互组装基因组的应用前景和
展望
染色质构象捕获技术表明,高等生物细胞核内
染色质片段间的交互不是随机、杂乱无章的,而是
遵循着“染色体内交互高于染色体间交互,近程交
互高于远程交互”这一基本规律的。从生物学意义
上讲,这一规律反映了高等生物染色体三维结构形
成的内在模式 ;在本文中我们展现了将这一规律应
用于基因组组装的潜力。基于 Hi-C 技术进行基因组
组装的方法具有实验操作简单、周期短、成本低的
优点,能够在有限的人力物力条件下获得高覆盖率
和准确率的参考基因组。即使与目前正在兴起的三
代测序相比,该方法在成本上仍然具有相当的优势。
相比传统的基因组组装的方法,以染色质相互
作用为基础的组装拥有较高的特异性和不依赖于遗
传群体等特点,可能更适合复杂的基因组组装。同
时,Hi-C 实验简单并且有较短的时间周期和较低的
成本,这使得基于染色质交互的组装方法有望获得
更广泛的应用。因此,基于染色质交互组装的方法
在实验设计、测序策略及算法等层面都存在较大的
发展空间。
5.1 应用前景
基于染色质交互的组装方法从 DNA 片段交互频
率与染色体内部结构之间的关系出发,避免了群体
规模和交换频率这两个问题,可以与遗传图谱方法
互相补充,并且极大地节省了时间和成本。与经典
可靠的物理图谱组装方法相比,基于交互数据组装
基因组在实验规模、时间消耗和人力物力等方面均
远远小于物理图谱方法。结合该方法的优势,我们
认为基于染色质交互数据的组装方法可在以下四个
方面获得较大应用前景。
第一,测序基因组的进一步完善。目前最为常
用的是使用遗传连锁图来挂载和确定 contigs/scaffolds
的染色体位置,但受限于物种群体规模和交换频率,
仍然有许多 contigs/scaffolds 不能确定染色体位置,
因此,继续使用遗传图谱方法来确定这部分序列将
会花费巨大人力和物力。而利用基于染色质交互数
据的方法,可用于挂载未挂载到染色体上的 scaffolds
的锚位和方向确定,从而提高已测序完成的基因组
参考序列的完整性。
第二,高度杂合的植物基因组从头组装和完善。
由于多年生物种的杂合度高,群体的构建具有很大
的困难,这就限制了基于遗传连锁图谱挂载 scaffolds
的可行性、精度和准确性。而基于染色质交互组装
的方法不依赖于遗传群体,仅需测序亲本的少量组
织样品即可开展。因此,我们认为这种不依赖遗传
群体的方法能应用于杂合度较高的植物基因组组装
和完善中,并能获得更加真实和完整的参考序列。
第三,多倍体物种基因组的进一步完善。经典
的基于遗传图谱挂载染色体的方法主要是通过 SSR
或 SNP 探针等遗传标记来反映同源染色体之间的遗
传交换,然后利用标记之间的遗传连锁关系来判断
染色体片段的相邻关系。而基于 Hi-C 的方法是利
用 reads 之间交互的强弱来判断其染色体片段的相邻
关系。相比前者,基于 Hi-C 的方法的 reads 长度是
SSR、SNP 等遗传标记的 4-5 倍,这使得其具有更
高的位点特异性。因此,我们认为这种高特异性的
方法应用在基因组相对复杂,多倍体现象十分普遍
的物种、尤其是植物中具有更大的优势。
第四,具有重要科研、生态价值或区域特色的
小众物种的基因组从头组装和完善。考虑到小众物
种的科研群体较小、可用于全基因组测序的科研经
费有限,而基于染色质交互组装的方法成本较低,
该方法的应用可节约高密度遗传连锁图谱构建的
成本。
5.2 技术的优化、整合和展望
由于基于染色质交互组装基因组的研究尚处于
起步阶段,目前仅限于少数模式物种中。因此要充
分发挥该方法在基因组组装的作用,需要从以下三
个方面着手,进一步优化、整合和完善组装方法。
第一,高分辨率、高质量染色质交互数据的获
取。染色质交互数据是该组装方法的基础,其质量
的好坏、精度的高低直接制约着基因组组装的准确
2015,31(11) 49陶婧芬等 :基于染色质交互数据的基因组组装方法
性和覆盖率。因此,针对特定物种,应该在染色质
空间构象捕获实验的准确性、精度等多个层面进行
努力。如最近发表在 Cell 杂志上的通过一种名为原
位 Hi-C(in situ Hi-C)的方法,测定了人类淋巴母
细胞株(GM12878)的全局染色质交互,分辨率高
达 1 kb[9]。这种原位的方法,使 DNA 在连接期间仍
保留在细胞核内,而不是被释放到溶液中,显著降
低了 DNA 片段随机连接的可能性[9]。
第二,与传统及新兴的大片段文库构建技术、
第三代测序相结合,获取高质量的长片段 scaffolds。
这不仅能提高染色质交互数据的精度,还能提高基
因组组装的完整性,同时可减少组装错误。例如,
将基于染色质互作的组装方法与大片段文库构建的
策略,如双末端测序、最近发展的 CPT-Seq(Contiguity
preserving transposase sequencing)[24]或新的测序技
术(如第三代测序)相结合以获得高质量的组装结果。
第三,与传统遗传图谱信息相结合,相互补充。
不管是以物种染色体片段遗传交换为基础的图谱组
装法,还是以染色质交互为基础的 Hi-C 组装法,其
都可能存在系统偏好性、甚至错误。因此,在基因
组测序工作开展时,可综合两种方法进行基因组组
装,实现优势互补,从而获得更加完整准确的参考
基因组序列。
参 考 文 献
[1]https://en. wikipedia. org/wiki/DNA_sequencing. com /.
[2]http://www. genome. gov/sequencingcosts. com /.
[3]Putnam NH, O’Connell B, Stites JC, et al. Chromosome-
scale shotgun assembly using an in vitro method for long-range
linkage[J]. ArXiv, 2015, Available online at :http://arxiv.
org/abs/1502. 05331.
[4]Treangen TJ, Salzberg SL. Repetitive DNA and next-generation
sequencing :computational challenges and solutions[J]. Nature
Reviews Genetics, 2012, 13(1):36-46.
[5]马艳玲 , 邓海 , 刘中来 , 等 . 海洋放线菌 Streptomyces sp. 大片段
DNA 基因组文库的构建[J]. 生物技术 , 2010(5):1-3.
[6]Claros MG, Bautista R, Guerrero-Fernández D, et al. Why assembling
plant genome sequences is so challenging[J]. Biology, 2012, 1(2):
439-459.
[7]Dekker J, Rippe K, Dekker M, et al. Capturing chromosome
conformation[J]. Science, 2002, 295(5558):1306-1311.
[8]Lieberman-Aiden E, van Berkum NL, Williams L, et al .
Comprehensive mapping of long-range interactions reveals folding
principles of the human genome[J]. Science, 2009, 326(5950):
289-293.
[9]Rao SSP, Huntley MH, Durand NC, et al. A 3D map of the human
genome at kilobase resolution reveals principles of chromatin
looping[J]. Cell, 2014, 159(7):1665-1680.
[10]翟侃 , 武治印 , 于典科 . 染色质构象捕获及其衍生技术[J].
生物化学与生物物理进展 , 2010, 37(9):939-944.
[11]Dekker J, Marti-Renom MA, Mirny LA. Exploring the three-
dimensional organization of genomes :interpreting chromatin
interaction data[J]. Nat Rev Genet, 2013, 14 :390-403.
[12]彭城 , 李国亮 , 张红雨 , 阮一骏 . 染色质三维结构重建及其
生物学意义[J]. 中国科学 :生命科学 , 2014, 44(8):794-
802.
[13]李国亮 , 阮一骏 , 谷瑞升 , 等 . 起航三维基因组学研究[J].
科学通报 , 2014, 59 :1165-1172.
[14]Kaplan N, Dekker J. High-throughput genome scaffolding from in
vivo DNA interaction frequency[J]. Nature Biotechnology, 2013,
31(12):1143-1147.
[15]Burton JN, Adey A, Patwardhan RP, et al. Chromosome-scale
scaffolding of de novo genome assemblies based on chromatin
interactions[J]. Nature Biotechnology, 2013, 31(12):1119-
1125.
[16]Marie-Nelly H, Marbouty M, Cournac A, et al. High-quality genome
(re)assembly using chromosomal contact data[J]. Nature
Communications, 2014, 5 :5695.
[17]Burton JN, Liachko I, Dunham MJ, et al. Species-Level
deconvolution of metagenome assemblies with Hi-C Based contact
probability maps[J]. G3:Genes/Genomes/Genetics, 2014, 4(7):
1339-1346.
[18] Schneeberger K, Ossowski S, Ott F, et al. Reference-guided assem-
bly of four diverse Arabidopsis thaliana genomes[J]. Proc Natl
Acad Sci USA, 2011, 108(25):10249-10254.
[19] Xie T, Zheng JF, Liu S, et al. De novo plant genome assembly based
on chromatin interactions :A case study of Arabidopsis thaliana
[J]. Molecular Plant, 2015, 8(3):489-492.
[20] Imakaev M, Fudenberg G, McCord RP, et al. Iterative correction
of Hi-C data reveals hallmarks of chromosome organization[J].
生物技术通报 Biotechnology Bulletin 2015,Vol.31,No.1150
Nature Methods, 2012, 9(10):999-1003.
[21]Yaffe E, Tanay A. Probabilistic modeling of Hi-C contact maps
eliminates systematic biases to characterize global chromosomal
architecture[J]. Nature Genetics, 2011, 43(11):1059-1065.
[22]Xie T, Fu LY, Yang QY, et al. Spatial features for Escherichia coli
genome organization[J]. BMC Genomics, 2015, 16(1):37.
[23]Dixon JR, Selvaraj S, Yue F, et al. Topological domains in
mammalian genomes identified by analysis of chromatin
interactions[J]. Nature, 2012, 485(7398):376-380.
[24]Adey A, Kitzman JO, Burton JN, et al. In vitro, long-range
sequence information for de novo genome assembly via transposase
contiguity[J]. Genome Research, 2014, 24(12):2041-2049.
(责任编辑 马鑫)