免费文献传递   相关文献

Bioinformatics methods of identifying and predicting long noncoding RNAs

鉴定和预测长非编码RNAs的生物信息学方法



全 文 :第27卷 第7期
2015年7月
生命科学
Chinese Bulletin of Life Sciences
Vol. 27, No. 7
Jul, 2015
文章编号:1004-0374(2015)07-0946-07
DOI: 10.13376/j.cbls/2015131
∙ 技术与应用 ∙
收稿日期:2015-01-06; 修回日期:2015-02-26
基金项目:浙江省自然科学基金项目(LQ13C060002);
国家自然科学基金项目(31301084);宁波大学王宽诚
教育基金
*通信作者:E-mail: liaoqi@nbu.edu.cn;Tel: 0574-
87609602
鉴定和预测长非编码RNAs的生物信息学方法
陈思佟1,岑 益2,柳建发1,李 洋1,廖 奇1*
(1 宁波大学医学院,宁波 315211;2 宁波市公安局鄞州分局,宁波 315100)
摘 要:越来越多的研究表明,长非编码 RNAs(long non-coding RNAs, lncRNAs)可以调节蛋白质编码基因
的表达、稳定性及亚细胞定位,参与众多重要的生物过程。由于 lncRNAs是一类新发现的非编码 RNAs,
挖掘各物种的 lncRNAs仍然是一个值得研究的问题。其中,利用生物信息学方法挖掘和鉴定 lncRNAs已经
成为当前生物信息学家研究的一个热点。现就基于生物信息学方法对 lncRNAs的鉴定研究作一综述,主要
内容分为两大类:基于测序和基于特征的计算机预测方法。基于测序又包括 EST测序、cDNA测序及二代
转录组 RNA测序;而基于特征的计算机预测则主要包含基于序列保守性、基于碱基排列顺序及基于表观
遗传修饰特征。通过以上几方面的论述,来阐明目前 lncRNAs鉴定方法的现状和进展。
关键词:长非编码 RNAs;鉴定;计算机预测,测序
中图分类号:Q522;Q612 文献标志码:A
Bioinformatics methods of identifying and predicting long noncoding RNAs
CHEN Si-Tong1, CEN Yi2, LIU Jian-Fa1, LI Yang1, LIAO Qi1*
(1 School of Medicine, Ningbo University, Ningbo 315211, China; 2 Yinzhou Branch of
Ningbo Public Security Bureau, Ningbo 315100, China)
Abstract: More and more researches show that long non-coding RNAs (lncRNAs) play an important role in a
number of biological processes through regulating the expression, stability and subcellular location of protein-
coding genes. As lncRNAs are a kind of ncRNAs recently found, identification of lncRNAs in each organism is an
emergency task. Among them, identification of lncRNAs using bioinformatics methods is a hot topic for
bioinformatists. In this review, we mainly summarize the bioinformatics approaches of lncRNAs identification and
prediction. The mothods are divided into two major parts: sequencing technology-based method and sequence
characters-based computational prediction method. Sequencing technology-based method includes EST sequencing,
cDNA sequencing and next-generation RNA-seq, while sequence characters-based computational prediction method
includes sequence conservation, nucleotide arrangement and epigenetics modifications. The review aids to clarify
the present status and progress of lncRNAs identification method.
Key words: long noncoding RNAs; identification; computational prediction; sequencing
真核生物的基因组由庞大的 DNA序列构成,
其中有 50%的 DNA可以转录成 RNA,但约有 5%
的 RNA负责翻译蛋白质,剩余的大概 95%则被称
为非编码 RNA (non-coding RNA, ncRNA)。ncRNA
即不编码蛋白质的 RNA,其种类繁多,按长度分
包含长非编码RNAs (long non-coding RNAs, lncRNAs)
以及 microRNA、siRNA和 piRNA等在内的小非编
码 RNAs。其中,lncRNAs是一类长度大于 200 nt,
特征与 mRNAs类似,如可变剪切、可带 Poly-A、
可加帽的 ncRNAs。近年来,由于 lncRNAs在众
陈思佟,等:鉴定和预测长非编码RNAs的生物信息学方法第7期 947
多生物过程中表现出对蛋白质编码基因的重要调节
作用,关于 lncRNAs的报道越来越多。lncRNAs通
过对关键蛋白质编码基因的多重调控机制,包括调
节蛋白质编码基因的表达、稳定性及亚细胞定位,
参与一些重要的生物过程,如维持剂量补偿、基因
组印记、mRNA加工、细胞分化和发育、疾病和癌
症等。有些与疾病相关的 lncRNAs甚至可以作为生
物标记用于疾病的诊断与预测 [1],如人们发现有些
lncRNAs是非常灵敏和特异的肿瘤标记物,如前列
腺癌中的 DD3,肿瘤抑制基因 p15的反义链,能通
过调控 p15基因甲基化水平促进白血病的发生 [2]。
鉴于 lncRNAs的重要调节作用,lncRNAs的
鉴定也成了科学家们首要研究的问题。从 2003年
和 2005 年 FANTOM (Functional Annotation of the
Mouse)组织在鼠 cDNA大规模测序中发现大量
lncRNAs开始 [3-4],lncRNAs的鉴定方法随着测序
技术的发展也不断更新和改进。目前,借助测序
技术已经在人、鼠等哺乳动物中发现了大量的
lncRNAs,不同的研究者也提出了各种鉴定 lncRNAs
的方法和流程。lnRNAs的鉴定方法主要分为两大
类,一类是基于测序技术,它包括早期的 cDNA文
库测序、EST片段测序以及目前发展盛行的二代转
录组 RNA-seq测序;另一类是基于特征的计算机预
测,它基于的特征主要包括序列特征、保守性和表
观遗传修饰位点特征。而有些鉴定流程结合测序和
计算机预测,结果更加可靠。本文就关于 lncRNAs
的鉴定方法上作一综述。
1 测序方法鉴定lncRNAs
1.1 基于EST鉴定lncRNAs
EST (expression sequence tag)称为表达序列标
签,是将具有 Poly-A的 RNAs反转录成 cDNA并
克隆到载体构成 cDNA文库后,随机选择 cDNA克
隆进行 5′端和 3′端单一次测序获得的短 cDNA部
分序列。由于之前对 lncRNAs认识的欠缺,科学家
们认为 cDNA只包含 mRNAs,因此,EST测序在
早期通常用于蛋白质编码基因的鉴定。然而,由于
lncRNAs序列特征与 mRNAs类似,可带 Poly-A、
可变剪切等,其实 cDNA中也包含一部分 lncRNAs。
因此,EST也可能是 lncRNAs的片段,即 EST测
序能够用于 lncRNAs的鉴定。
早在 2001年, EST序列就用于拟南芥 lncRNAs
的鉴定 [5]。2007年,Wen等 [6]同样利用 EST数据
在豆科植物苜蓿中挖掘了不具编码能力的 mRNA-
like ncRNAs,类似 mRNAs 的 ncRNAs,也就是
lncRNAs 。EST预测 lncRNAs的流程如下:(1)利
用 EST2Genome将 EST序列与基因组进行比对;(2)
去除与已知蛋白质编码基因 (或包括预测的蛋白编
码基因 )重叠较多 (如 10%以上 )的 EST序列;(3)
利用 GENEMARK.hmm[7]或其他软件预测基因;(4)
利用 EMBOSS软件中的 getORF或其他 ORF (open
reading frame,开放阅读框 )预测软件对转录本序
列进行 ORF预测,去除 ORF长度较长的转录本;(5)
利用 BLASTX软件将剩余转录本与 Swiss-Prot、
trEMBL和 GenBank等其他蛋白质数据库的蛋白
质序列进行比对,去除与蛋白质编码基因相似的
转录本。
2008年,Xue和 Li [8]提出另一种方法,在人
EST序列中鉴定出 100多条 ncRNAs。他们以 50 bp
作为窗口不重叠地扫描整个基因组,统计每个 50
bp窗口所覆盖的 EST数目,选择 EST数目大于 3
并且保守性达到一定程度 (Phastcons分值大于 0.8)[9]
的窗口作为种子序列,然后对这些种子序列进行电
子延伸,得到 contigs,进而除去与 ECgene软件注
释为可变剪切、可选转录起始或可选 Poly(A)位点
相重叠的转录本,除去 ORF长度较长 (超过 100
aa)且在基因上下游 2 000 nt内没被 promoter 2.0软
件预测有启动子的转录本。由于他们当时没有考虑
到 lncRNAs,因此,过滤掉了长度大于 1 500 nt的
转录本;如果要预测 lncRNAs,可改变长度的阈值,
如设置长度大于 200 nt即可。
尽管目前测序技术飞速发展,EST测序已经逐
渐退出舞台。然而,以往测序所得的 EST数据,仍
然保存在数据库中,对这些数据再利用和再分析,
从中挖掘有意义的信息是生物信息学家们的任务。
在没有对样本进行 cDNA或 RNA测序的时候,基
于 EST数据预测 lncRNAs仍然不失为一种较好的
方法,目前仍然在采用。如 2012年,Huang等 [10]
利用 EST序列在牛中挖掘出 449条 lncRNAs。但是,
EST只能检测到部分含 Poly-A的 lncRNAs,并且
EST只是基因的部分片段,全长序列需要进行 EST
片段拼接才能获得,有些甚至无法拼接,无法保证
lncRNAs的完整性。
1.2 cDNA测序方法鉴定lncRNAs
2003年,FANTOM组织对 RIKEN鼠全长 cDNA
进行测序,得到 60 770条转录本,经过筛选分析,
得到 4 280条 lncRNAs[3]。2004年,H-Invitational组
织对人的转录组 cDNA也进行大规模测序,发现
生命科学 第27卷948
了 21 037条转录本,其中 1 377条也被鉴定为
lncRNAs [11] 。2005年,FANTOM组织又再一次对
鼠的 cDNA进行大规模测序,检测出 102 281条转
录本,其中有 34 030条序列长度与 mRNA相当,
却没有明显的 ORF,并且也不与其他任何编码蛋白
质的 cDNA序列相似,这类转录也归为 lncRNAs[4]。
早期 cDNA技术测序的目的是为了鉴定编码蛋白质
的 mRNAs,然而,对测序片段经过分析筛选后却
发现一类不具蛋白质编码基因特性的 lncRNAs。
cDNA测序能够测得 lncRNAs序列的原因是 lncRNAs
具有与 mRNAs类似的序列特性,都有 Poly-A。在
cDNA测序技术中,首先要构建 cDNA文库,cDNA
文库的构建通常采用 Oligo(dT)作逆转录引物,且
保留长度较长 (如 400 bp以上 )的 cDNA。具有
Poly-A且长度较长的 RNAs过去均被认为是mRNAs,
其实有一部分是 lncRNAs,因此,cDNA测序可以
测得一部分 lncRNAs的序列。
由于 cDNA测序可以获得转录本全长序列,因
此,cDNA测序技术鉴定 lncRNAs的流程相对简单,
可以归纳为以下几个步骤:(1)利用 RepeatMasker
软件剔除具有重复、低复杂性的 cDNA序列;(2)
利用 BLASTN[12]或其他比对软件将剩余 cDNA序
列与基因组进行比对,根据一定的阈值 (如相似
度 >95%,覆盖率 >90%)选择与基因组匹配的
cDNA序列;(3)如果一个 cDNA序列对应多个基
因组区域,则通过其相似度、覆盖长度、外显子个
数等选择一个最好的基因组区域;(4)将与基因组
匹配的 cDNA序列与 Refseq mRNAs进行比对,选
取与 Refseq mRNAs不相似的 cDNA序列;(5)利
用 FASTY[13-14]和 BLASTX [12]预测剩余 cDNA序列
的 ORF,除去具有明显 ORF的 cDNAs。
正如 cDNA测序技术比 EST测序技术先进一
样,基于 cDNA测序鉴定 lncRNAs的准确度和精
度也要比基于 EST的方法高,在二代测序技术问世
之前,cDNA测序技术也是鉴定 lncRNAs较为可靠
的方法之一。
1.3 RNA-seq二代转录组测序技术鉴定lncRNAs
随着测序技术的发展,特别是二代转录组测序
(RNA-seq)技术的出现,越来越多的 lncRNAs在人
和其他物种的各个组织和细胞系中被发现。二代转
录组测序 (RNA-seq)技术是采用新一代的测序技术,
能够快速全面地检测特定物种的某个组织或细胞系
的几乎全部的转录本。lncRNAs的序列特征与mRNAs
类似,有些具有 Poly-A,有些则无。RNA-seq在样
品提取总 RNA后,有三种策略:(1)总 RNA去除
核糖体 RNA,以最大限度保留所有 lncRNAs;(2)
总 RNA去核糖体 RNA后再去除含 polyA的 RNA,
以去除大部分编码蛋白质序列;(3)提取 poly A+的
RNAs。由于既有 poly A+的 lncRNAs,也有 poly A–
的 lncRNAs,没特殊要求的情况下,第一种方法最
好。因此,对这些所提取的 RNAs进行 RNA-seq,
可以检测 lncRNAs序列以及它们的表达,利用测序
片段 (reads)及表达信息可以从头构建新的转录本,
通过对这些转录本进行分析筛选从而获得候选的
lncRNAs。该方法目前被广泛应用于人、鼠、寄生虫、
植物等各物种 lncRNAs的鉴定,已经在各物种的各
个组织和细胞系中找到了上万条 lncRNAs[15-18]。因
此,RNA-seq测序技术已经成为当前鉴定 lncRNAs
的主流方法。
RNA-seq测序技术鉴定 lncRNAs的流程可以
归纳如下: (1)首先,利用 cufflink 软件 [19]从 RNA-
seq的序列数据中构建转录本;(2)根据转录本的表
达情况,去除低表达的转录本 (认为是噪音所致 );
(3)对高重复或低复杂的转录本进行过滤;(4)去除
基因组上与蛋白质编码基因正向重叠的转录本,剩
下的转录本包括内含子、基因间的 ncRNAs以及蛋
白质编码基因的反义链;(5)要求 lncRNAs 长度不
小于 200 nt;(6)利用 ORF Finder[20]或其他软件寻
找转录本的 ORF 区域,要求 lncRNAs的 ORF长度
不大于 300 nt;(7)利用 BLASTX[12]将剩下的转录
本与 UniProt-TrEMBL数据库 [21]的蛋白质序列进行
比对,去除那些具有相似性蛋白质 (匹配长度大于
30aa,E-value 小于 0.01)的转录本;(8)利用 ncRNA
预测软件如 CPC(coding potential calculator)[22]或其
他软件对剩下转录本进行过滤,得到更加可信的候
选 lncRNAs。
RNA-seq测序鉴定 lncRNAs的方法虽然成本
较高,并且不同的转录本构建方法会得到不同的转
录本,对于低表达的阈值确定同样也是有争议的话
题。然而,RNA-seq检测 lncRNAs的方法基于表达
的信息,对 lncRNAs起始、终止位点以及可变剪切
位点的界定均有较强的表达依据,结果较为可信,
是目前最为准确的方法之一。
2 计算机方法预测lncRNAs
目前,关于 lncRNAs的计算机预测主要基于
lncRNAs的序列特征,包括保守性、碱基排列以及
组蛋白修饰位点。
陈思佟,等:鉴定和预测长非编码RNAs的生物信息学方法第7期 949
2.1 基于序列保守性的计算机预测方法
lncRNAs尽管某些序列特征与 mRNAs类似,
如可被剪切、具有帽子与 Poly-A,长度与 mRNAs
相当等,但仍然具有自己独特的序列特征,其中最
重要的一点是,除了外显子及特殊的功能元件外,
lncRNAs序列不具保守性,变异程度较高。科学家
们利用这点,通过计算分析已知 mRNAs和 lncRNAs
的序列保守性,构建数学模型,从而对未知序列进
行预测。最经典的是 Lin 等 [23]提出的密码子替
换频率 (codon substitute frequence, CSF)方法,即利
用CSF打分对蛋白质编码基因和ncRNAs进行鉴定。
该方法在提出的时候主要用于区分果蝇的蛋白
质编码基因和 ncRNAs,后来被 Guttman等 [24]用于
区分小鼠的 lncRNAs和蛋白质编码基因。CSF的原
理基于 ncRNAs在人与其他同源物种的密码子替换
频率不一样的假设,利用该物种与其他物种的多重
比对数据,通过计算 (训练 )已知mRNAs和 ncRNAs
的密码子替换频率,得到 mRNAs和 ncRNAs的密
码子替换矩阵,分别记为 CSMa,b
C和 CSMa,b
N (a、b为
两个密码子,表示 a替换为 b),则 CSMa,b
N/CSMa,b
C
即为 ncRNAs与 mRNAs密码子替换频率的比值。
由于多重比对中涉及多个物种,因此,每个物种都
能得到人与该物种的替换频率比值矩阵。对于一个
序列,首先可以获得该序列与其他物种的多重比对
数据,然后考察该序列的第一个 90 bp (30个密码子 )
长的序列,计算 30个密码子的替换频率比值之和,
得到一个 CSF分值。由于具有多个物种,该 90 bp
序列在每个物种中都对应一个 CSF值,取最大的
CSF值作为该段的 CSF分值。然后,窗口向前移动
3 bp (1个密码子 ),继续计算下一个 90 bp序列的
CSF分值,直到算完最后一段 90 bp的 CSF分值为
止,最终选取最大分值作为该序列的 CSF值。通过
以上的计算方法可以获得已知 mRNAs和 lncRNAs
的 CSF分值分布状况,可以发现mRNAs与 lncRNAs
的 CSF分值为两个截然不同的分布,选择一个阈值
作为两类 RNA的界限。对于未知的序列,可以通
过计算该序列的 CSF分值,从而判断该序列是否为
lncRNA。目前,利用 CSF分值判别 lncRNAs的算
法已开发成软件,名叫 PhyloCSF,可以通过网址
http://compbio.mit.edu/PhyloCSF进行访问,将源程
序下载在本地安装运行 [25]。PhyloCSF的敏感性为
90%,特异性仅为 63%;并且,PhyloCSF由于基于
多物种序列比对的特征,存在一定的缺陷,如有些
物种的序列保守性较差,即使是人类,在 8 195条
lncRNAs中,也仅有 993条在其他物种中具有同源
序列 [16]。此外,有些 lncRNAs在基因组上与蛋白
质编码基因相重叠,为蛋白质编码基因的正义链或
反义链转录本,这些转录本与其他物种的蛋白质编
码能比对上,因此,不能准确地判断为 lncRNAs,
并且由于多重比对运行时间较长,因此,PhyloCSF
软件运行的速度也较慢。
2.2 基于碱基序列特征的计算机预测方法
lncRNAs序列特征除了保守性差以外,还具有
其他特有的特征,其中最关键的是 lncRNAs通常不
具有 ORF。因此,最早对 lncRNAs进行鉴定的方
法为确定其序列有无包含较长的 ORF。ORF的预
测软件有很多,如 ORF-finder。此外,BLASTX通
过确定与已知蛋白质编码基因的序列相似性也可以
对转录本进行判定。由于一些 lncRNAs可以包含较
短的 ORF,并且有些蛋白质编码基因编码较短序列
的蛋白质,因此,仅仅依赖 ORF不能准确地预测
lncRNAs,但由于 ORF的重要性,后续的方法中
ORF仍然作为其中的一个重要特征。
由于 lncRNAs不编码蛋白质,其碱基排列也
与 mRNAs有所不同,结合多种序列特征,构建
分类器,同样也能对 lncRNAs进行预测,如 CPC
(Coding Potential Calculator)由 Kong等 [22]开发,是
一个基于转录本序列特征的 SVM 分类器。他们
利用 6 个基本的序列特征:由 ORF 预测软件
framefinder计算出来的 (1)LOG-ODDS SCORE和 (2)
COVERAGE OF THE PREDICTED ORF,这两个特
征为 ORF的指标,值越高,ORF质量越好;第三
个也是关于 ORF的特征,为 (3)INTEGRITY OF THE
PREDICTED ORF,表示 ORF是否以起始密码子开
始,终止密码子结束;第四个为 (4)NUMBER OF
HITS,即基于 BLASTX软件在 UniProt参考序列数
据库中比对寻找到的相似序列 (阈值为 E-值小于
1e-10)的数目;此外,比对结果中所有序列的 E值
进行负 Log化,求其均值,并对 3种编码形式的序
列得到的负 Log(E-value)平均值再求均值,作为第
五个特征,称为 (5)HIT SCORE;最后,将 3种编
码形式的负 Log(E-value)平均值的方差作为第六个
特征,称为 (6)FRAME SCORE,其值越高,越有
可能是蛋白质编码基因。基于已知 mRNAs和
ncRNAs的这 6个序列特征,Kong等 [22]利用 SVM
机器学习方法构建 mRNAs以及 ncRNAs的分类器,
预测准确率高达 99%。CPC同样具有在线的网上服
务,研究者可以很方便地从网址 http://cpc.cbi.pku.
生命科学 第27卷950
edu.cn中对未知序列进行预测。然而 CPC的特异性
较低,仅为 74%,并且速度较慢。
CPC软件的运行速度较慢,如 CPC需要两天
的时间计算 Cabili等 [16]鉴定的 14 353个转录本的
编码能力。随后,Wang等 [26]开发的 CPAT (Coding-
Potential Assessment Tool)软件,不仅能够快速地对
lncRNAs进行鉴定,而且克服了序列比对造成的缺
陷。CPAT基于 4个序列特征,采用逻辑回归模型
对 lncRNAs进行鉴定。这 4个序列特征如下。(1)
最大 ORF长度。(2) ORF覆盖比例,即 ORF的长
度比上转录本的整长。(3)Fickett TESTCODE分数,
与核苷酸组成和密码子使用偏倚的组合有关。首先,
计算 4个核苷酸的位置值和组成值,位置值计算为:
A1、A2、A3的最大值与 A1、A2、A3的最小值加 1
的比值。其中 A1为核苷酸 A在序列 0、3、6…..的
个数;A2为核苷酸 A在序列 1、4、7…..的个数;
A3为核苷酸 A在序列 2、5、8…..的个数。组成值
即为每个核苷酸在序列的组成比例。将这 8个值转
化为编码的概率值 P,那么 Fickett分值为概率值 P
与权重 w乘积的累加和。(4)Hexamer分值,即邻近
氨基酸使用的偏好。首先利用已有的蛋白质编码基
因和 lncRNAs分别计算邻近密码子的使用频率 (分
别用 F(Hi)和 F’(Hi)代替 );然后,计算两个频率
的 log比值,那么给定一条 DNA序列,Hexamer
分值为 F(Hi)和 F’(Hi)的 log比值的累加和的平均
值。基于以上 4个特征构建逻辑回归模型,对 ln-
cRNAs进行预测,敏感性可达 96%,特异性为 97%,
并且速度快,比 CPC和 CSF快 1万倍。该软件网址
为 http://lilab.research.bcm.edu/cpat/index.php。
另一个基于序列特征的预测软件为 Sun等 [27]开
发的 CNCI,网址为 http://www.bioinfo.org/software/
cnci。CNCI首先分别将 mRNAs与 lncRNAs的邻近
密码子 (ANT)替换频率进行统计,将两两邻近密码
子替换的频率之比的 log值用于构建 ANT分值矩
阵。对于每个转录本,按照6种编码框形式进行编码,
按照 ANT分值进行打分,在每条不同编码框序列
中选择具有最高分值的区域,而 6条序列中再进一
步选择最高分值的区域,作为最似 CDS序列 (most-
like CDS, MLCDS),然后选取MLCDS的长度、分
值作为其中的 2个特征。此外,由于一条具有编码
蛋白质能力的转录本所选取的MLCDS会与其他 5
条编码框选择出来的MLCDS具有较大的不同,因
此,进一步选择长度比例 (所选MLCDS的长度与
所有 6条MLCDS长度之和的比值 )、分值距离 (所
选MLCDS的分值与其他 5条分值距离的平均值 )
作为另外 2个特征。最后选择单核苷酸的频率作为
最后 1个特征,共 5个特征,同样利用 SVM支持
向量机的学习方法,构建了 lncRNAs的分类器。
CNCI相比其他软件,更适合用于不完整序列及反
义链的预测,具有较高的性能。
2014年,Li等 [28]新开发了一个软件,叫做 PLEK
(predictor of long non-coding RNAs and messenger
RNAs based on an improved k-mer scheme)。该方法
基于改进的 k-mer频次,采用 SVM算法对 lncRNAs
进行预测。PLEK比较适用于高插入缺失率的序列,
如 454及 PacBio测序从头预测所得的转录本。此
外,PLEK的运行速度也较快,比 CNCI快 8倍,
比 CPC快 244倍,比 PhyloCSF快 1 421倍。该软
件的下载地址为 https://sourceforge.net/projects/plek/
files/。
此外,Fan等 [29]开发了 lncRNA-MFDL软件,
基于一系列特征包括 ORF、k-mer频次、二级结构
和编码蛋白质的功能域,采用深度学习的分类算法,
准确率高达 97.1%,并且也同样适用于多物种。该
软件的网址为 http://compgenomics.utsa.edu/lncRNA_
MDFL/。
2.3 基于表观遗传修饰特征的计算机预测方法
随着对 lncRNAs序列特征和功能的进一步研
究,科学家们发现 lncRNAs在组蛋白修饰特征上具
有一定的规律性,可用于 lncRNAs的鉴定。2009年,
Guttman等 [24]发现,H3K4me3和 H3K36me3这两
种组蛋白修饰是基因表达的特征,利用组蛋白修饰
图谱鉴定 lncRNAs,他们利用这两种组蛋白修饰特
征在鼠中基因间挖掘出 1 000多处 lncRNAs区域。
如果一个基因表达,那么在其启动子区域会富集
H3K4me3修饰,而在整个基因转录区域则富集
H3K36me3修饰,因此,通过在全基因组的基因间
区域上挖掘“K4-K36域”,可以获得可能的转录本。
对这些转录本的序列特性进行分析,发现超过
97.5%的 lncRNAs与蛋白质编码基因不相似,其外
显子的保守性比蛋白质编码基因低,但却比其他基
因间区域高,与已知 lncRNAs的保守性相似,并且
包含高保守的元件。此外,其启动子区域的保守性
也极高,并富含“CAGE标签”和 RNA PolII的结
合位点。利用 CPC非编码 RNAs预测软件发现这些
转录本编码蛋白质的能力极低,因此,推断这些
转录本为基因间的 lncRNAs,简称 lincRNAs (large
intergenic non-coding RNAs)。随后,利用“K4-K36域”
陈思佟,等:鉴定和预测长非编码RNAs的生物信息学方法第7期 951
特征在人中也找到了上千条 lincRNAs[30]。
基因的表观遗传修饰除了H3K4me3、H3K36me3
外,还有 H3K9me3、H3K27me3等组蛋白修饰,以
及 DNA甲基化修饰。lncRNAs的表观遗传修饰特
征是一个巨大的信息资源,其利用价值有待挖掘,
可以进一步组合各种修饰特征构建模型,提高预测
lncRNAs的准确性和精度。现将预测 lncRNAs的计
算机方法介绍如下 (表 1)
表1 预测lncRNAs的计算机方法
预测软件 特点 网上服务或软件下载地址
PhyloCSF 基于多个物种的多重比对数据,准确率较高,适用于多个物种,但 http://compbio.mit.edu/PhyloCSF
 计算量大,运行速度慢,并且不适用于不保守的物种及没有参考
 基因组的物种,并且特异性较低。
CPC 基于与已知蛋白质编码基因的相似性,运行速度虽然比PhyloCSF快, http://cpc.cbi.pku.edu.cn/
 但比其他软件慢,准确率高,适用于多物种, 但预测特异性较低。
CPAT 基于序列特征,不用进行序列比对,因此,运算速度快,准确率也 http://lilab.research.bcm.edu/cpat/
 较高。 index.php
CNCI 基于序列本身的特征,计算速度快,准确率高,对多物种均适用。 http://www.bioinfo.org/software/
 但不适用于插入缺失率较高的序列,如454或PacBio测序从头组装 cnci
 所得的序列。
PLEK 运行速度快,且对插入缺失的序列不敏感,比较适合于无参考基因 https://sourceforge.net/projects/
 组的序列。 plek/files/.
lncRNA-MFDL 结合二级结构和功能域特征,准确率高,适用于多个物种。 http://compgenomics.utsa.edu/
lncRNA_MDFL/
3 问题与展望
测序技术的发展给 lncRNAs的鉴定带来巨大
的推动,计算机预测方法的更新与改进也对
lncRNAs的研究起到重要的作用。但是,由于
lncRNAs其特殊的序列属性,与 mRNAs类似又不
完全相同,因此,lncRNAs的鉴定工作仍然面临着
挑战。通常,结合几种鉴定方法,如测序和计算机
预测方法来获取更加可信的候选 lncRNAs,比如
Liao等 [31]利用疟原虫的 RNA-seq数据,并结合
ORF过滤、与蛋白质编码基因的相似性过滤,以及
CPC软件预测,获得较为可靠的疟原虫 lncRNAs。
同时,也可以根据 lncRNAs的其他特征进行限制和
过滤,如表达水平。lncRNAs的表达水平虽然比蛋
白质编码基因低,但仍然有一定的表达。通过序列
或组蛋白修饰特征预测出来的 lncRNAs并不一定表
达,因此,可以通过检测其表达水平,筛选过滤获
得更加可信的 lncRNAs集合。比如,利用重注释的
芯片平台可以检测到一部分 lncRNAs的表达水平,
从而可以在某个组织和生物过程中鉴定 lncRNAs。
Mattick等 [32]就利用 Allen Brain Atlas (ABA)原位
杂交数据在小鼠大脑中鉴定了 800多条 lncRNAs。
此外,还利用定制的基因芯片在人和鼠的 CD8+ T
细胞中发现上千条 lncRNAs[33]。可见,lncRNAs的
鉴定方法是多样化的,一切有利于 lncRNAs鉴定的
特征均可以作为预测的依据,将来所面临的挑战是
寻找最具代表性的特征以及创造最具优化的模型。
[参 考 文 献]
[1] Lin R, Maeda S, Liu C, et al. A large noncoding RNA is a
marker for murine hepatocellular carcinomas and a spec-
trum of human carcinomas. Oncogene, 2007, 26(6): 851-8
[2] Yu W, Gius D, Onyango P, et al. Epigenetic silencing of
tumour suppressor gene p15 by its antisense RNA. Nature,
2008, 451(7175): 202-6
[3] Numata K, Kanai A, Saito R, et al. Identification of puta-
tive noncoding RNAs among the RIKEN mouse full-
length cDNA collection. Genome Res, 2003, 13(6B):
1301-6
[4] Carninci P, Kasukawa T, Katayama S, et al. The transcrip-
tional landscape of the mammalian genome. Science,
2005, 309(5740): 1559-63
[5] MacIntosh GC, Wilkerson C, Green PJ. Identification and
analysis of Arabidopsis expressed sequence tags charac-
teristic of non-coding RNAs. Plant Physiol, 2001, 127(3):
765-76
[6] Wen J, Parker BJ, Weiller GF. In Silico identification and
characterization of mRNA-like noncoding transcripts in
Medicago truncatula. In Silico Biol, 2007, 7(4-5): 485-505
[7] Borodovsky M, Lomsadze A, Ivanov N, et al. Eukaryotic
生命科学 第27卷952
gene prediction using GeneMark.hmm. Curr Protoc Bioin-
formatics, 2003, Chapter 4: Unit4 6
[8] Xue C, Li F. Finding noncoding RNA transcripts from low
abundance expressed sequence tags. Cell Res, 2008,
18(6): 695-700
[9] Nakaya HI, Amaral PP, Louro R, et al. Genome mapping
and expression analyses of human intronic noncoding
RNAs reveal tissue-specific patterns and enrichment in
genes related to regulation of transcription. Genome Biol,
2007, 8(3): R43
[10] Huang W, Long N, Khatib H. Genome-wide identification
and initial characterization of bovine long non-coding
RNAs from EST data. Anim Genet, 2012, 43(6): 674-82
[11] Imanishi T, Itoh T, Suzuki Y, et al. Integrative annotation
of 21,037 human genes validated by full-length cDNA
clones. PLoS Biol, 2004, 2(6): e162
[12] Altschul SF, Gish W, Miller W, et al. Basic local align-
ment search tool. J Mol Biol, 1990, 215(3): 403-10
[13] Pearson WR. Flexible sequence similarity searching with
the FASTA3 program package. Methods Mol Biol, 2000,
132: 185-219
[14] Mackey AJ, Haystead TA, Pearson WR. Getting more
from less: algorithms for rapid protein identification with
multiple short peptide sequences. Mol Cell Proteomics,
2002, 1(2): 139-47
[15] Chen G, Yin K, Shi L, et al. Comparative analysis of hu-
man protein-coding and noncoding RNAs between brain
and 10 mixed cell lines by RNA-Seq. PLoS One, 2011,
6(11): e28318
[16] Cabili MN, Trapnell C, Goff L, et al. Integrative annota-
tion of human large intergenic noncoding RNAs reveals
global properties and specific subclasses. Genes Dev,
2011, 25(18): 1915-27
[17] Pauli A, Valen E, Lin MF, et al. Systematic identification
of long noncoding RNAs expressed during zebrafish em-
bryogenesis. Genome Res, 2012, 22(3): 577-91
[18] Prensner JR, Iyer MK, Balbin OA, et al. Transcriptome
sequencing across a prostate cancer cohort identifies
PCAT-1, an unannotated lincRNA implicated in disease
progression. Nat Biotechnol, 2011, 29(8): 742-9
[19] Trapnell C, Williams BA, Pertea G, et al. Transcript as-
sembly and quantification by RNA-Seq reveals unannotat-
ed transcripts and isoform switching during cell differenti-
ation. Nat Biotechnol, 2010, 28(5): 511-5
[20] Rombel IT, Sykes KF, Rayner S, et al. ORF-FINDER: a
vector for high-throughput gene identification. Gene,
2002, 282(1-2): 33-41
[21] UniProt Consortium. Activities at the Universal Protein
Resource (UniProt). Nucleic Acids Res, 2014, 42(Data-
base issue): D191-8
[22] Kong L, Zhang Y, Ye ZQ, et al. CPC: assess the pro-
tein-coding potential of transcripts using sequence features
and support vector machine. Nucleic Acids Res, 2007,
35(Web Server issue): W345-9
[23] Lin MF, Carlson JW, Crosby MA, et al. Revisiting the
protein-coding gene catalog of Drosophila melanogaster
using 12 fly genomes. Genome Res, 2007, 17(12): 1823-
36
[24] Guttman M, Amit I, Garber M, et al. Chromatin signature
reveals over a thousand highly conserved large non-cod-
ing RNAs in mammals. Nature, 2009, 458(7235): 223-7
[25] Lin MF, Jungreis I, Kellis M. PhyloCSF: a comparative
genomics method to distinguish protein coding and
non-coding regions. Bioinformatics, 2011, 27(13): i275-
82
[26] Wang L, Park HJ, Dasari S, et al. CPAT: Coding-Potential
Assessment Tool using an alignment-free logistic regres-
sion model. Nucleic Acids Res, 2013, 41(6): e74
[27] Sun L, Luo H, Bu D, et al. Utilizing sequence intrinsic
composition to classify protein-coding and long non-cod-
ing transcripts. Nucleic Acids Res, 2013, 41(17): e166
[28] Li A, Zhang J, Zhou Z. PLEK: a tool for predicting long
non-coding RNAs and messenger RNAs based on an im-
proved k-mer scheme. BMC Bioinformatics, 2014, 15:
311
[29] Fan XN, Zhang SW. lncRNA-MFDL: identification of hu-
man long non-coding RNAs by fusing multiple features
and using deep learning. Mol Biosyst, 2015, 11(3): 892-7
[30] Khalil AM, Guttman M, Huarte M, et al. Many human
large intergenic noncoding RNAs associate with chroma-
tin-modifying complexes and affect gene expression. Proc
Natl Acad Sci USA, 2009, 106(28): 11667-72
[31] Liao Q, Shen J, Liu J, et al. Genome-wide identification
and functional annotation of Plasmodium falciparum long
noncoding RNAs from RNA-seq data. Parasitol Res,
2014, 113(4): 1269-81
[32] Mercer TR, Dinger ME, Sunkin SM, et al. Specific ex-
pression of long noncoding RNAs in the mouse brain.
Proc Natl Acad Sci USA, 2008, 105(2): 716-21
[33] Pang KC, Dinger ME, Mercer TR, et al. Genome-wide
identification of long noncoding RNAs in CD8+ T cells. J
Immunol, 2009, 182(12): 7738-48