免费文献传递   相关文献

Research Progress of the Human Long Non-coding RNA Related SNP Identification and Function Prediction

人类长链非编码RNA相关SNP鉴定与功能预测的研究进展



全 文 :·特约综述· 2015, 31(11):27-34
生物技术通报
BIOTECHNOLOGY BULLETIN
随着高通量测序技术的发展,人们发现人类基
因组中绝大部分 DNA 可转录为 RNA,但其中能够
编 码 蛋 白 质(Protein-coding) 的 DNA 仅 占 全 基 因
组很少一部分(约 2%)[1],剩余绝大部分 DNA 也
可以转录为不能翻译成蛋白质的 RNA,即非编码
RNA(Non-coding RNA,ncRNA)[2]。 根 据 RNA 长
度,非编码 RNA 又主要分为短链 RNA(small RNA,
smRNA)和长链非编码 RNA(Long non-coding RNA,
lncRNA)。smRNA 主要包括转录起始 RNA(tiRNA,
18 nt)、Piwi 蛋 白 相 互 作 用 RNA(piRNA,26-31
nt)、 微 小 RNA(microRNA,22 nt)、 小 核 仁 RNA
(snoRNA,60-300 nt)等。lncRNA 是一类长度大于
200 个核苷酸,不表现蛋白质编码潜能的 RNA[3]。
lncRNA 作为一种 ncRNA,一直被认为是基因转录“噪
音”而未受重视。然而,最近的研究表明,lncRNA
在正常发育和疾病发生发展过程中都扮演着重要的
收稿日期 :2015-06-23
作者简介 :龚静,女,博士,讲师,研究方向 :生物信息学和分子流行病学 ;E-mail :gongj@hust.edu.cn
通讯作者 :郭安源,男,博士,教授,研究方向 :生物信息学 ;E-mail :guoay@hust.edu.cn
人类长链非编码 RNA 相关 SNP 鉴定与功能预测的
研究进展
龚静1  柳纯洁2  缪小平1  郭安源2
(1. 华中科技大学公共卫生学院,武汉 430030 ;2. 华中科技大学生命科学与技术学院,武汉 430074)
摘 要: 长链非编码 RNA(lncRNA)是一类长度大于 200 个核苷酸,且不表现出任何蛋白质编码潜能的 RNA。最新研究表明,
lncRNA 广泛地参与动植物的生长发育及疾病的发生发展等各种生物学过程,具有类型多、数量大且作用范围广等特点。目前对于
lncRNA 的发现、预测方法、功能及与疾病的关系已有了一系列报道。主要对 lncRNA 相关 SNP 文献进行综述,并对 lncRNA 相关
SNP 的鉴定与功能预测方法进行介绍。对其中涉及的生物信息学方法及相应的数据库进行全面综述,旨在为 lncRNA 研究提供新的
思路,对复杂疾病的预测、诊断和治疗提供新的依据。
关键词 : 长链非编码 RNA ;生物信息学 ;单核苷酸多态性 ;数据库
DOI :10.13560/j.cnki.biotech.bull.1985.2015.11.002
Research Progress of the Human Long Non-coding RNA Related
SNP Identification and Function Prediction
Gong Jing1 Liu Chunjie2 Miao Xiaoping1 Guo Anyuan2
(1. School of Public Health,Huazhong University of Science and Technology,Wuhan 430030 ;2. College of Life Science and Technology,
Huazhong University of Science and Technology,Wuhan 430074)
Abstract: Long non-coding RNA(lncRNA)is a class of RNA, whose length is greater than 200 nucleotides and it does not show any
protein-coding potential. The latest research shows that lncRNA plays function widely in the development of plants and animals, as well as in
various diseases. There have been a series of reports on the discovery, prediction method, function study of lncRNA. Here, we reviewed the study
of lncRNA related SNPs, including their identification and functional prediction. A comprehensive review of the bioinformatics methods and
databases about the lncRNA related SNP was provided. These reviews may help to provide a new point of view for lncRNA research and a hint for
the prediction, diagnosis and treatment of complex diseases based on lncRNA.
Key words: long non-coding RNA ;bioinformatics ;single nucleotide polymorphism ;database
生物技术通报 Biotechnology Bulletin 2015,Vol.31,No.1128
角色,具有丰富的生物学功能 :参与 X 染色体的失
活[4],调控 mRNA 的降解[5],参与造血系统及免疫
应答[6,7]、构成细胞核亚结构的结构骨架[8],作为
染色质重塑(Chromatin remodeling)调控因子[9,10]等。
单 核 苷 酸 多 态 性(Single nucleotide polymorph-
ism,SNP)是指在基因组 DNA 水平上发生的单个核
苷酸变异所引起的 DNA 序列多态性[11,12]。随着人
类基因组计划和千人基因组(1 000 genome)项目的
完成[12,13],人类基因组基本趋于完善。目前已知
人类基因组大约有 30 亿对碱基,其中可能发生变异
的位点多达 88 111 767(NCBI dbSNP 142),平均每
60 个碱基就可能出现一个 SNP。研究表明健康个体
之间基因组碱基差异大约为 0.1%,即两个随机个体
中每 1 200-1 500 个碱基就会有一个差异碱基。这些
SNPs 不仅是造成健康个体间差异的重要因素,而且
大量研究还证实,有些 SNP 与疾病易感性、药物敏
感性及疾病发生发展都有关系[14,15]。随着 SNP 分
型技术的发展,SNP 标记的发现和定位越来越多。
相对于以限制性片段长度多态性为代表的第一代遗
传标记和微卫星多态性为代表的第二代遗传标记,
SNP 具有分布广泛、数量多等特点,成为了第三代
遗传标记,更加适合于基因性状及疾病的研究[16]。
既然 lncRNA 不是垃圾基因,那么 lncRNA 上
的 SNP 也有可能通过改变 lncRNA 的功能而成为功
能性 SNP。基于这个假设,很多研究者展开了一系
列工作并取得了一定的成果。本文拟对这些 lncRNA
相关 SNP 文献进行综述,介绍 lncRNA 相关 SNP 的
鉴定与功能预测方法以及相关生物信息数据库,供
相关研究者参考,以期能够为研究 lncRNA 提供新
的策略。
1 SNP 常用研究方法
目前国内外 SNP 研究方法大致有如下三种。
1.1 分子流行病学研究
可 分 为 全 基 因 组 关 联 分 析(Genome-wide
associ-ation study,GWAS) 和 候 选 基 因 策 略。 其
中,GWAS 是以全基因组 SNP 标记为研究内容进行
病例-对照关联分析,以期发现影响疾病或者复杂
性状遗传特征的一种策略,该方法在研究性状相关
SNP 方面已取得了重大成果。美国国家人类基因组
研究所(NHGRI)对所有发表的 GWAS 文献进行整
理,建立了一个在线实时更新网站(NHGRI GWAS
Catalog,https://www.genome.gov/26525384, 现 已 移
到 EBI http://www.ebi.ac.uk/gwas/), 可 以 按 照 疾 病
方便地下载 GWAS 鉴定的 SNP[17]。截止 2015 年 2
月,该数据库已收录了 15 000 多个与各种性状相关
的 SNP,这些性状既包括单基因疾病,也包括癌症、
肥胖症、糖尿病、精神分裂症、高血压、老年痴呆
症等复杂疾病[18-21]。这些 SNP 有助于确定基因多态
性与疾病的关系,解释个体间表型差异对疾病易感
程度,研究不同基因型个体对药物反应差异和指导
药物开发及临床合理用药等。然而,GWAS 也存在
一定的局限性。虽然 GWAS 成本有所下降,但仍需
耗费大量精力和经费。另外,GWAS 也并非对所有
SNP 进行研究,而是先根据单体型图谱和连锁不平
衡关系在全基因组范围内选择标签 SNP(tagSNP),
其实验所发现的疾病相关 SNP 只能代表其连锁的区
域与疾病有关系,而真正的“致病”遗传变异(Causal
genetic variants)还有待进一步精细分析。因此,仍
有很多研究者采用候选基因和候选通路策略进行分
子流行病学研究。在 GWAS 研究还未兴起时,传统
的筛选策略发挥了重要作用,发现了大量疾病相关
SNP。在后 GWAS 时代,很多研究者把 GWAS 发现
的易感区域作为候选位点,然后对该区域进行精细
定位或者功能实验,并获得了重要的研究成果。
1.2 SNP相关的生物信息学研究
生物信息学(Bioinformatics)作为一门交叉学科,
在 SNP 的鉴定、注释、储存、功能预测等各个方面
发挥重要功能。如 SAMtools[22]、GATK[23]工具可
以从全基因组 DNA 测序和外显子 DNA 测序中鉴定
SNP ;ANNOVAR[24]、SIFT[25]、SNPinfo[26] 工 具 可
以对 SNP 进行注释,寻找其潜在的功能 ;dbSNP 用
于 SNP 的储存 ;plink[27]工具用于 SNP 与疾病相关
性的分析,miRNASNP[28]、PolymiRTS[29]数据库可
以方便地搜索 miRNA 相关的数据库等。
1.3 SNP功能实验
无论是人群研究得到的疾病相关位点还是生物
信息学预测的功能性 SNP,最终都需要通过分子生
物学实验探索其具体的生物作用机制。最常用的方
2015,31(11) 29龚静等 :人类长链非编码 RNA 相关 SNP 鉴定与功能预测的研究进展
法是构建野生型和变异型载体,将其转染于细胞,
通过荧光素酶报告基因实验验证 SNP 对基因表达水
平的影响,运用 RT-PCR,Western blot 等方法检测
野生型和变异型细胞中靶基因 mRNA 和蛋白质表达
水平。同时还可以观察转染后细胞的生物学特性的
变化 :细胞生长与增殖、细胞凋亡与细胞周期分布、
细胞迁移能力等。
2 分子流行病学发现的 lncRNA 相关 SNP
H19 基因是最早被发现的有功能的 lncRNA 之
一, 位 于 人 染 色 体 11p15.5, 编 码 一 个 2.3 kb 的
lncRNA。Petry 等[30]选取了 H19 基因上的 3 个 SNP
位点,对一个出生队列中的 1 696 名儿童、822 名
母亲和 661 名父亲进行基因分型。结果显示,孩
子和母亲的 H19 2992 C>T SNP 基因型与子代出生
体重(P=0.03)相关。母亲的基因型也与脐带血
IGF-II 水平相关(P=0.0003)。Verhaegh 等[31]通过
Haploview 软件在 H19 基因和上游启动子区选择了 5
个 tagSNP,通过病例对照研究,并使用逻辑回归分
析来评估这些 SNPs 与癌症风险的关联,最终发现
rs2839698 TC(OR=0.60,95% CI=0.36-0.99) 基 因
型可以明显减少膀胱癌的发病风险。
HOX 转 录 反 义 RNA(HOX transcript antisense
RNA,HOTAIR) 是 另 一 个 研 究 较 多 的 lncRNA。
HOTAIR 定 位 于 HOXC 基 因 座 12q13.13。HOTAIR
的 5 端可招募结合多梳蛋白抑制复合物 2(polycomb
repressive complex 2,PRC2), 借 助 PRC2 上 3 个
H3K27 甲 基 转 移 酶 EZH2、SUZ12 和 EED[9], 使
另一基因座 HOXD 上长约 40 kb 序列转录沉默,从
而使乳腺上皮细胞倾向于胚胎成纤维细胞样表型。
HOTAIR 上 SNP 在不同样本中的病例 - 对照研究发
现,HOTAIR 基因上的 rs920778 与乳腺癌[32]、食管
癌[33]、胃癌[34]的发病风险都相关。在中国济南和
淮安人群中,rs920778 TT 携带者是 CC 携带者患胃
癌风险的 1.66 倍和 1.87 倍。在中国济南、石家庄、
淮安地区的人群中,rs920778 TT 携带者比 CC 携带
者患食管癌的风险高 1.37 倍、1.78 倍和 2.08 倍。
3 生物信息学在 lncRNA 相关 SNP 中的应用
lncRNA SNP 的确在疾病的发生发展中扮演重要
角色,那么如何全面地挖掘 lncRNA 相关 SNP,以
及如何在众多 lncRNA 相关的 SNP 中筛选一定数量
SNP 进行功能实验还需要借助生物信息学方法。下
面就将生物信息学在 lncRNA 相关 SNP 中的应用展
开详细综述。
3.1 lncRNA数据资源
lncRNA 数量越多,相关 SNP 数量也越多,选
择不同的 lncRNA 数据库也会影响 SNP 的鉴定数目。
因此,我们先对目前可用的 lncRNA 相关数据库进
行综述。早期发现的 lncRNA 分散在 NCBI GenBank、
UCSC、Ensembl 这些大型数据库中,RNAdb 是最早
出现的系统性收集 ncRNA 的数据库,该数据库包含
了 800 多条实验验证的 ncRNAs 以及从人和老鼠的
cDNA 中 预 测 了 20 000 多 条 ncRNA[35]。lncRNAdb
是最早从文献中人工收集真核生物中 lncRNA 信息
的数据库[36],而 GENCODE 相对来说是使用较多的
一个含有 lncRNA 数据的网站,最新的版本(v22)
已含有 15 900 条 lncRNA 基因,27 670 条长非编码
转录本[37]。另外一个常用的资源,LNCipedia 含有
32 108 条注释的人类 lncRNA 转录本[38],这个数据
库预测了每个转录本的二级结构及编码蛋白质的可
能性 ;基于蛋白组学实验,该数据库还开发了一个
流程用于预测 lncRNA 开放阅读框。NONCODE 是
中国科学院生物物理研究所和计算所开发的一个
ncRNA 在线资源,现在已更新到 V4 版本[39,40]。它
不仅提供各个转录本的序列信息,还提供了 lncRNA
在每个组织的表达量信息。目前 NONCODE V4 版
本 中, 人 类 lncRNA 基 因 数 量 已 有 54 073 条, 转
录 本 数 量 有 92 343 条, 小 鼠 的 lncRNA 数 量 已 有
46 475 条,转录本数量有 67 628 条。lncRNAMap 数
据库广泛收集了各个公共资源的 RNA-seq 数据,然
后用自主开发的流程进行 lncRNA 注释及表达量的
计算[41]。该网站提供了不同组织、细胞系和疾病
状 态 下 的 lncRNA 表 达 信 息, 以 及 miRNA-lncRNA
相互作用关系。另外两个数据库 lncRNome[42] 和
Functional lncRNA[43]数据库通过整合其他数据库资
源预测 lncRNA 功能。lncRNome 含有 18 000 个人类
的 lncRNA 转录本,提供的注释信息包括基因序列、
转录本序列、RNA 加工信息、miRNA 结合位点和
lncRNA 启动子区域的表观修饰信息。该数据库也把
生物技术通报 Biotechnology Bulletin 2015,Vol.31,No.1130
遗传变异的信息加入其中,构建了一个基因组浏览
页面。Functional lncRNA 数据库包含 3 个子数据库,
人工收集了人、小鼠、大鼠的 lncRNA 信息。除了
直接提供 lncRNA 序列信息的数据库外,许多其它
功能的 lncRNA 数据库也被随之开发出来,例如提
供表达谱信息、RNA 相互作用信息或者提供相关疾
病信息。Starbase v2.0[44](lncRNABase)通过整合大
量高通量测序数据挖掘 RNA/RNA、RNA/ 蛋白质相
互作用位点,提供了超过 10 000 条 miRNA-lncRNA
相互作用信息。NED 网站包含了 lncRNA 的基因芯
片、原位杂交表达量信息、进化保守性及二级结构
等信息[45]。
3.2 lncRNA上SNP鉴定
通 过 比 较 SNP 和 lncRNA 基 因 在 基 因 组 上 的
位置,可确定 lncRNA 上的 SNP。lncRNASNP 数据
库[46](http ://bioinfo.life.hust.edu.cn/lncRNASNP/)是
本课题组构建的一个 lncRNA 相关 SNP 及其可能功
能影响的数据库,其 lncRNA 数据来源于 LNCipedia
数据库,包括 17 436 条人类 lncRNA 基因的 32 108
条转录本(基因组版本 :GRCh37/hg19)。SNP 信息
来自 NCBI dbSNP 数据库 v138 版本。lncRNASNP 数
据库在 lncRNA 的外显子区域一共发现了 495 729 个
SNPs。
3.3 lncRNA上SNP功能预测
3.3.1 SNP 对 lncRNA 二 级 结 构 的 影 响 DNA 中
SNP 的存在导致改变 RNA 的序列,从而影响 RNA
的二级结构和高级结构。部分 lncRNAs 在生物学过
程中扮演支架的角色[3],因此形成正确的空间结构
是 lncRNAs 发挥功能的基础。有研究者推断 lncRNA
上的 SNP 可能影响 lncRNA 二级结构及其稳定性,
从而影响 lncRNA 的表达和功能[47]。常用的 RNA
二 级 结 构 预 测 软 件 有 RNAfold[48]、RNAsoft[49]、
Mfold[50]等。lncRNASNP 数据库使用 RNAfold 预测
lncRNA 外显子上所有 SNP 对 lncRNA 二级结构的影
响。对于每个 SNP,把 SNP 相应位置的碱基由参考
基因型转为另一等位基因型,得到突变型转录本。
使用 RNAfold 对野生型和突变型转录本进行二级结
构预测,得到预测的二级结构图和最小自由能(MFE,
ΔG)。ΔΔG=|ΔG 突变 -ΔG 野生 |,即为每个 SNP 造
成的能量改变。分析的结果显示,SNP 造成的平均
能量变化为(1.30±1.62)kcal/mol,前 10% 的能量
变化是 3.10 kcal/mol。
3.3.2 SNP 对 miRNAlncRNA 相互作用的影响 大
量实验证据都表明,miRNA 也可以在转录后水平
调控 lncRNA 的表达或者 lncRNA 通过与 miRNA 结
合影响 miRNA 对靶基因的调控。Starbase 数据库提
供了超过 10 000 条 miRNA-lncRNA 相互作用信息。
miRNA 能够调控 RNA 主要取决于 miRNA 5 端前 8
个碱基与靶基因结合的自由能[51]。如果 miRNA 与
靶基因结合位点上的 SNPs 能够引起自由能的显著
改变或其二级结构的改变,将会影响 miRNA 与靶序
列的有效结合。对于编码基因,已有多个数据库系
统地预测了编码基因 3 UTR 上影响 miRNA 与靶基
因结合的 SNP,如 miRNASNP[28]、MicroSNiPer[52]、
RNASNP[53]、PolymiRTS[29]、miRdSNP[54]、MirS-
NP[55],而对于非编码基因,系统性的数据库还比较少。
系统研究影响 miRNA 与靶基因结合 SNP 的方法大
致为 :(1)选取要研究的基因并获得其基因组位置
(编码基因或非编码基因),然后把 SNP 数据比对到
这些基因上。(2)对基因上的 SNP,截取 SNP 上下
游的基因序列,根据 SNP 的等位基因型,得到野生
型转录本和变异型转录本。(3)利用 miRanda[56]、
Diana-MicroT[57]、PicTar[58]、TargetScan[56]、Micr-
oInspector[59]等软件预测野生型转录本和变异型转录
本上可能存在的 miRNA 结合位点。(4)比较野生型
转录本和变异型转录本 miRNA 结合情况,得到可能
影响 miRNA 与靶基因结合的 SNP。lncRNASNP 用
miRanda 和 TargetScan 两种预测方法分别对 lncRNA
上的 SNP 及其上下游 25 bp 的序列进行 miRNA 靶
位点的分析,预测了大量可能影响 miRNA-lncRNA
结 合 的 SNP。 多 数 SNP 既 能 造 成 某 些 miRNA 与
lncRNA 的结合丧失,同时又能获得一些新的 miRNA
结合位点。lncRNASNP 一共预测 262 154 个 SNP 可
能导致 miRNA 与 lncRNA 的结合丧失,280 012 个
SNP 可能获得新的 miRNA 与 lncRNA 结合。由于预
测的功能性 SNP 众多,该数据库还对 SNP 设置了一
系列筛选条件。用户可以根据 SNP 所在序列的保守
性,miRNA 的表达量,影响的 miRNAlncRNA 结
合实验支持与否进行筛选。目前人类注释的 miRNA
2015,31(11) 31龚静等 :人类长链非编码 RNA 相关 SNP 鉴定与功能预测的研究进展
已有 2 000 多条,但是在单个样本中,每个 miRNA
的表达量高低不等,约 21% 的 miRNA 表达量占总
量的 90%。剩下的 79% 表达量很小或者只在特别的
组织或者细胞状态下才表达[60]。在研究特定组织时,
我们可以只选择该组织相对高表达的 miRNA 靶位点
上的 SNP。对于低表达或者不表达的 miRNA,即使
存在预测的功能性 SNP,在实际条件中,发挥的功
能也非常有限。
3.4 GWAS与lncRNA SNP
如 前 文 介 绍 的 美 国 国 家 人 类 基 因 组 研 究 所
(NHGRI)对所有发表的 GWAS 文献进行整理,收
集了所有基因分型分析 P<1×10-5 的 SNP,并对这
些 SNP 进行了简单分类,分析(截止到 2015 年 4
月 7 日)发现,大部分 GWAS 相关 SNP 都位于基
因间区和内含子区,只有很小一部分位于已知基因
的编码区(图 1)。如何解析这些非编码区的 SNP
功能是后 GWAS 研究的一个难点。随着被发现的
lncRNA 日益增加及其功能注释的越来越多,研究者
逐渐把目光投到 lncRNA 上。早在 2011 年,Jin 等[61]
就在 GWAS Catalog 网站整理的 1 998 个疾病易感区
域中发现 52 个易感位点是在 lncRNA 区域,风险
位点在 lncRNA 上的富集程度(lncRNA 上的风险位
点 /lncRNA 的总长度)是整个基因组(所有风险位
点 / 基因组总长度)的 1.5 倍,并且发现这种富集在
前列腺癌中更为明显。当时 GWAS Catalog 收集了 33
个前列腺癌的独立风险位点,其中有 8 个在 lncRNA
基因上。Jin 等[61]接下来在两个前列腺癌 GWAS 研
究中重新观察 lncRNA 相关的 SNP 与前列腺癌的易
感相关性,发现 93 个 lncRNA 上的 SNP 与前列腺癌
的患病风险相关(P<0.001)。其中有 60 个落在以前
报告的区域,另外 33 个 SNP 分布在 10 个 LD 区域
(Linkage disequilibrium region)。对 10 个 LD 区域中
各选择一个 SNP 进行人群验证,发现 rs3787016 与
前列腺癌的发病风险显著相关,合并人群分析的 P
值达到 7.22E-7。
lncRNASNP 利 用 GWAS Catalog 数 据( 截 止
2014 年 5 月,13 383 个疾病相关 tagSNP),发现 142
个 GWAS 鉴定的 tagSNP 是落在 lncRNA 基因上,这
些 SNP 涉及到多种疾病。同时也对 tagSNP 在不同
人种中的 LD 区域的 SNP 进行分析,发现有更多的
SNP 落在 lncRNA 区域。
3.5 疾病与lincRNA SNP
根据在基因组上与蛋白编码基因的相对位置关
系,lncRNA 又可分为不同的 5 个亚类 :正义长非
编码 RNA、反义长非编码 RNA、双向的长非编码
RNA、内含子长非编码 RNA 和基因间长链非编码
RNA。其中基因间长链非编码 RNA(Long intergenic
non-coding RNA,lincRNA) 是 研 究 得 较 多 的 一 类
lncRNA。2014 年,Li 等[62]从 6 个数据库收集了人
类 128 407 个疾病(表型)相关的 SNP,然后把这
些 SNP 比对到 5 700 条人类 lincRNA,发现 11 631
个 SNP 可以比对到 3 323 条人类的 lincRNA 上或者
其上下游 10 kb 区域。进一步把疾病相关 SNP 所在
的 LD 区域中的所有 SNP 也纳入分析,他们发现了
128 785 个在 lincRNAs 附近。他们的研究表明约 1/3
的 lincRNA 附近含有疾病相关的 SNP,有些 lincRNA
甚至包含多达 6 个疾病相关 SNP。
4 展望
目前,对于 lncRNA 相关 SNP 的研究还处于起
始阶段。虽然有一些数据库对 lncRNA 上的 SNP 进
行了系统性的挖掘,但对这些 SNP 的潜在功能分
析还非常有限。除了 SNP 对 lncRNA 基因二级结构
和 miRNAlncRNA 结 合 的 影 响 外,lncRNA 上 还
可能存在其他功能性 SNP,如 lncRNA 上游也存在
许多基因修饰位点和转录因子结合位点,这些区
域 的 SNP 也 有 可 能 影 响 lncRNA 的 基 因 转 录。 另
外,lncRNA 的功能中包括与 miRNA 相互结合和与
其它 DNA/RNA 结合,因此,理论上还会存在很多
10000 9058
7171
833 450 321 198 164 157 39 20 3 2 2
SN
Pњᮠ 80006000
4000
2000
0
int
ron
Int
erg
en
ic
mi
sse
nse
ne
arG
en
e-5
UT
R-
3
cd
s-s
yn
on
ne
arG
en
e-3
nc
RN
A
UT
R-
5
ST
OP
-G
GA
IN
Fra
me
shi
ft
spl
ice
-5
spl
ice
-3
图 1 GWAS 鉴定的 SNP 在基因组上的区域分布
生物技术通报 Biotechnology Bulletin 2015,Vol.31,No.1132
非 lncRNA 上的 SNP 可能影响 lncRNA 的功能。例
如,在 miRNA 相关 SNP 的研究中,学者不仅关注
miRNA 基因上的 SNP,miRNA 靶基因上的 SNP 常
常也是研究的重点。最后,lncRNA 上 SNP 功能的
实现主要还与 lncRNA 本身的功能有关,而 lncRNA
又具有类型多、作用模式多和数量多的特点,目
前对 lncRNA 进行完善注释的非常少。因此,研究
lncRNA 及相关 SNP 在疾病中的作用机制,是未来
的重要研究方向之一。
参 考 文 献
[1] Qi P, Du X. The long non-coding RNAs, a new cancer diagnostic and
therapeutic gold mine[J]. Modern Pathology :an Official Journal
of the United States and Canadian Academy of Pathology, Inc, 2013,
26(2):155-165.
[2] Birney E, Stamatoyannopoulos JA, Dutta A, et al. Identification and
analysis of functional elements in 1% of the human genome by the
ENCODE pilot project[J]. Nature, 2007, 447(7146):799-816.
[3] Mercer TR, Dinger ME, Mattick JS. Long non-coding RNAs :insig-
hts into functions[J]. Nature Genetics, 2009, 10(3):155-159.
[4] Wutz A, Rasmussen TP, Jaenisch R. Chromosomal silencing and
localization are mediated by different domains of Xist RNA[J].
Nature Genetics, 2002, 30(2):167-174.
[5] Gong C, Maquat LE. lncRNAs transactivate STAU1-mediated mRNA
decay by duplexing with 3 UTRs via Alu elements[J]. Nature,
2011, 470(7333):284-288.
[6] Carpenter S, Aiello D, Atianand MK, et al. A long noncoding
RNA mediates both activation and repression of immune response
genes[J]. Science, 2013, 341(6147):789-792.
[7] Han BW, Chen YQ. Potential pathological and functional links
between long noncoding RNAs and hematopoiesis[J]. Science
Signaling, 2013, 6(289):re5.
[8] Clemson CM, Hutchinson JN, Sara SA, et al. An architectural role
for a nuclear noncoding RNA :NEAT1 RNA is essential for the
structure of paraspeckles[J]. Molecular Cell, 2009, 33(6):
717-726.
[9] Gupta RA, Shah N, Wang KC, et al. Long non-coding RNA HOTAIR
reprograms chromatin state to promote cancer metastasis[J].
Nature, 2010, 464(7291):1071-1076.
[10] Tsai MC, Manor O, Wan Y, et al. Long noncoding RNA as modular
scaffold of histone modification complexes[J]. Science, 2010,
329(5992):689-693.
[11] Carlson CS, Eberle MA, Kruglyak L, et al. Mapping complex
disease loci in whole-genome association studies[J]. Nature,
2004, 429(6990):446-452.
[12] Abecasis GR, Altshuler D, Auton A, et al. A map of human genome
variation from population-scale sequencing[J]. Nature, 2010,
467(7319):1061-1073.
[13] Abecasis GR, Auton A, Brooks LD, et al. An integrated map of
genetic variation from 1, 092 human genomes[J]. Nature, 2012,
491(7422):56-65.
[14] Hovhannisyan Z, Weiss A, Martin A, et al. The role of HLA-DQ8
beta57 polymorphism in the anti-gluten T-cell response in coeliac
disease[J]. Nature, 2008, 456(7221):534-538.
[15] Hruska KS, LaMarca ME, Scott CR, et al. Gaucher disease :
mutation and polymorphism spectrum in the glucocerebrosidase
gene(GBA)[J]. Human Mutation, 2008, 29(5):567-583.
[16] Garvin MR, Saitoh K, Gharrett AJ. Application of single nucleotide
polymorphisms to non-model species :a technical review[J].
Molecular Ecology Resources, 2010, 10(6):915-934.
[17] Welter D, MacArthur J, Morales J, et al. The NHGRI GWAS
Catalog, a curated resource of SNP-trait associations[J]. Nucleic
Acids Research, 2014, 42(Database issue):D1001-1006.
[18] Todesco M, Balasubramanian S, Hu TT, et al. Natural allelic
variation underlying a major fitness trade-off in Arabidopsis
thaliana[J]. Nature, 2010, 465(7298):632-636.
[19] Bochukova EG, Huang N, Keogh J, et al. Large, rare chromosomal
deletions associated with severe early-onset obesity[J]. Nature,
2010, 463(7281):666-670.
[20] Petukhova L, Duvic M, Hordinsky M, et al. Genome-wide
association study in alopecia areata implicates both innate and
adaptive immunity[J]. Nature, 2010, 466(7302):113-117.
[21] Lango Allen H, Estrada K, Lettre G, et al. Hundreds of variants
clustered in genomic loci and biological pathways affect human
height[J]. Nature, 2010, 467(7317):832-838.
[22] Ramirez-Gonzalez RH, Bonnal R, Caccamo M, et al. Bio-samtools :
Ruby bindings for SAMtools, a library for accessing BAM files
containing high-throughput sequence alignments[J]. Source
Code for Biology and Medicine, 2012, 7(1):6.
[23] McKenna A, Hanna M, Banks E, et al. The Genome Analysis
2015,31(11) 33龚静等 :人类长链非编码 RNA 相关 SNP 鉴定与功能预测的研究进展
Toolkit :a MapReduce framework for analyzing next-generation
DNA sequencing data[J]. Genome Research, 2010, 20(9):
1297-1303.
[24] Wang K, Li M, Hakonarson H. ANNOVAR :functional annotation
of genetic variants from high-throughput sequencing data[J].
Nucleic Acids Research, 2010, 38(16):e164.
[25] Kumar P, Henikoff S, Ng PC. Predicting the effects of coding
non-synonymous variants on protein function using the SIFT
algorithm[J]. Nature Protocols, 2009, 4(7):1073-1081.
[26] Xu Z, Taylor JA. SNPinfo :integrating GWAS and candidate gene
information into functional SNP selection for genetic association
studies[J]. Nucleic Acids Research, 2009, 37(Web Server
issue):W600-605.
[27] Purcell S, Neale B, Todd-Brown K, et al. PLINK :a tool set
for whole-genome association and population-based linkage
analyses[J]. American Journal of Human Genetics, 2007, 81(3):
559-575.
[28] Gong J, Tong Y, Zhang HM, et al. Genome-wide identification of
SNPs in microRNA genes and the SNP effects on microRNA target
binding and biogenesis[J]. Human Mutation, 2012, 33(1):
254-263.
[29] Bhattacharya A, Ziebarth JD, Cui Y. PolymiRTS Database 3. 0 :
linking polymorphisms in microRNAs and their target sites with
human diseases and biological pathways[J]. Nucleic Acids
Research, 2014, 42(Database issue):D86-91.
[30] Petry CJ, Ong KK, Barratt BJ, et al. Common polymorphism in
H19 associated with birthweight and cord blood IGF-II levels in
humans[J]. BMC Genetics, 2005, 6 :22.
[31] Verhaegh GW, Verkleij L, Vermeulen SH, et al. Polymorphisms
in the H19 gene and the risk of bladder cancer[J]. European
Urology, 2008, 54(5):1118-1126.
[32] Bayram S, Sumbul AT, Batmaci CY, et al. Effect of HOTAIR
rs920778 polymorphism on breast cancer susceptibility and
clinicopathologic features in a Turkish population[J] .
Tumour Biology :the journal of the International Society for
Oncodevelopmental Biology and Medicine, 2015, 36(5):
DOI : 10. 1007/s13277-014-3028-0.
[33] Zhang X, Zhou L, Fu G, et al. The identification of an ESCC
susceptibility SNP rs920778 that regulates the expression
of lncRNA HOTAIR via a novel intronic enhancer[J].
Carcinogenesis, 2014, 35(9):2062-2067.
[34] Pan W, Liu L, Wei J, et al. A functional lncRNA HOTAIR genetic
variant contributes to gastric cancer susceptibility[J]. Molecular
Carcinogenesis, 2015 :DOI : 10. 1002/mc. 22261.
[35] Pang KC, Stephen S, Engstrom PG, et al. RNAdb--a comprehensive
mammalian noncoding RNA database[J]. Nucleic Acids
Research, 2005, 33(Database issue):D125-130.
[36] Quek XC, Thomson DW, Maag JL, et al. lncRNAdb v2. 0 :
expanding the reference database for functional long noncoding
RNAs[J]. Nucleic Acids Research, 2015, 43(Database
issue):D168-173.
[37] Derrien T, Johnson R, Bussotti G, et al. The GENCODE v7 catalog
of human long noncoding RNAs :analysis of their gene structure,
evolution, and expression[J]. Genome Research, 2012, 22(9):
1775-1789.
[38] Volders PJ, Helsens K, Wang X, et al. LNCipedia :a database
for annotated human lncRNA transcript sequences and
structures[J]. Nucleic Acids Research, 2013, 41(Database
issue):D246-251.
[39] Bu D, Yu K, Sun S, et al. NONCODE v3. 0 :integrative annotation
of long noncoding RNAs[J]. Nucleic Acids Research, 2012, 40
(Database issue):D210-215.
[40] Xie C, Yuan J, Li H, et al. NONCODEv4 :exploring the world of
long non-coding RNA genes[J]. Nucleic Acids Research, 2014,
42(Database issue):D98-103.
[41] Chan WL, Huang HD, Chang JG. lncRNAMap :a map of putative
regulatory functions in the long non-coding transcriptome[J].
Computational Biology and Chemistry, 2014, 50 :41-49.
[42] Bhartiya D, Pal K, Ghosh S, et al. lncRNome :a comprehensive
knowledgebase of human long noncoding RNAs[J]. Database :
the Journal of Biological Databases and Curation, 2013, 2013 :
bat034.
[43] Niazi F, Valadkhan S. Computational analysis of functional long
noncoding RNAs reveals lack of peptide-coding capacity and
parallels with 3’ UTRs[J]. RNA, 2012, 18(4):825-843.
[44] Li JH, Liu S, Zhou H, et al. starBase v2. 0 :decoding miRNA-
ceRNA, miRNA-ncRNA and protein-RNA interaction networks
from large-scale CLIP-Seq data[J]. Nucleic Acids Research,
2014, 42(Database issue):D92-97.
[45] Dinger ME, Pang KC, Mercer TR, et al. NRED :a database of long
生物技术通报 Biotechnology Bulletin 2015,Vol.31,No.1134
noncoding RNA expression[J]. Nucleic Acids Research, 2009,
37(Database issue):D122-126.
[46] Gong J, Liu W, Zhang J, et al. lncRNASNP :a database of SNPs in
lncRNAs and their potential functions in human and mouse[J].
Nucleic Acids Research, 2015, 43(Database issue):D181-186.
[47] Ding J, Lu Q, Ouyang Y, et al. A long noncoding RNA regulates
photoperiod-sensitive male sterility, an essential component of
hybrid rice[J]. Proceedings of the National Academy of Sciences
of the United States of America, 2012, 109(7):2654-2659.
[48] Denman RB. Using RNAFOLD to predict the activity of small
catalytic RNAs[J]. BioTechniques, 1993, 15(6):1090-1095.
[49] Andronescu M, Aguirre-Hernandez R, Condon A, et al. RNAsoft :
A suite of RNA secondary structure prediction and design software
tools[J]. Nucleic Acids Research, 2003, 31(13):3416-3422.
[50] Zuker M. Mfold web server for nucleic acid folding and
hybridization prediction[J]. Nucleic Acids Research, 2003, 31
(13):3406-3415.
[51] Doench JG, Sharp PA. Specificity of microRNA target selection in
translational repression[J]. Genes & Development, 2004, 18(5):
504-511.
[52] Barenboim M, Zoltick BJ, Guo Y, et al. MicroSNiPer :a web tool
for prediction of SNP effects on putative microRNA targets[J].
Human Mutation, 2010, 31(11):1223-1232.
[53] Sabarinathan R, Tafer H, Seemann SE, et al. The RNAsnp
web server :predicting SNP effects on local RNA secondary
structure[J]. Nucleic Acids Research, 2013, 41(Web Server
issue):W475-479.
[54] Bruno AE, Li L, Kalabus JL, et al. miRdSNP :a database of
disease-associated SNPs and microRNA target sites on 3’UTRs of
human genes[J]. BMC Genomics, 2012, 13 :44.
[55] Liu C, Zhang F, Li T, et al. MirSNP, a database of polymorphisms
altering miRNA target sites, identifies miRNA-related SNPs in
GWAS SNPs and eQTLs[J]. BMC Genomics, 2012, 13 :661.
[56] Lewis BP, Burge CB, Bartel DP. Conserved seed pairing, often
flanked by adenosines, indicates that thousands of human genes are
microRNA targets[J]. Cell, 2005, 120(1):15-20.
[57] Paraskevopoulou MD, Georgakilas G, Kostoulas N, et al. DIANA-
microT web server v5. 0 :service integration into miRNA
functional analysis workflows[J]. Nucleic Acids Research, 2013,
41(Web Server issue):W169-173.
[58] Krek A, Grun D, Poy MN, et al. Combinatorial microRNA target
predictions[J]. Nature Genetics, 2005, 37(5):495-500.
[59] Rusinov V, Baev V, Minkov IN, et al. MicroInspector :a web tool
for detection of miRNA binding sites in an RNA sequence[J].
Nucleic Acids Research, 2005, 33(Web Server issue):W696-
700.
[60] Gong J, Wu Y, Zhang X, et al. Comprehensive analysis of human
small RNA sequencing data provides insights into expression
profiles and miRNA editing[J]. RNA Biology, 2014, 11(11):
1375-1385.
[61] Jin G, Sun J, Isaacs SD, et al. Human polymorphisms at long non-
coding RNAs(lncRNAs)and association with prostate cancer
risk[J]. Carcinogenesis, 2011, 32(11):1655-1659.
[62] Ning S, Zhao Z, Ye J, et al. LincSNP :a database of linking
disease-associated SNPs to human large intergenic non-coding
RNAs[J]. BMC Bioinformatics, 2014, 15 :152.
(责任编辑 马鑫)