免费文献传递   相关文献

Transcriptome characteristics of Paspalum vaginatum analyzed with Illumina sequencing technology

基于高通量测序的海滨雀稗转录组学研究



全 文 :书基于高通量测序的海滨雀稗转录组学研究
贾新平,叶晓青,梁丽建,邓衍明,孙晓波,佘建明
(江苏省农业科学院农业生物技术研究所 江苏省农业生物学重点实验室,江苏 南京210014)
摘要:采用新一代高通量测序技术IluminaHiSeq2000对海滨雀稗叶片转录组进行测序,结合生物信息学方法开
展基因表达谱研究和功能基因预测。通过测序,获得了47520544个序列读取片段(reads),包含了4752054400个
碱基序列(bp)信息。对reads进行序列组装,获得81220个单基因簇(unigene),平均长度1077bp,序列信息达到了
87542503bp。另外从长度分布、GC含量、表达水平等方面对unigene进行评估,数据显示测序质量好,可信度高。
数据库中的序列同源性比较表明,46169个unigene与其他生物的已知基因具有不同程度的同源性。海滨雀稗转
录组中的unigene根据GO功能大致可分为细胞组分、分子功能和生物学过程三大类48个分支,其中有大量uni
gene与代谢进程、结合活性和细胞进程相关。将unigene与COG数据库进行比对,根据其功能大致可分为25类。
KEGG数据库作为参考,依据代谢途径可将unigene定位到112个代谢途径分支,包括苯丙氨酸代谢通路、植物与
病原物互作、植物激素生物合成和信号转导、黄酮类化合物合成、萜类骨架生物合成、脂类代谢、RNA降解等。SSR
位点查找发现,从81220个unigene中共找到22721个SSR位点。SSR不同重复基序类型中,出现频率最高的为
A/T,其次是CCG/CGG和AGC/CTG。本研究首次对海滨雀稗转录组进行了分析,为草坪草的分子生物学研究提
供了宝贵的基因组数据来源。
关键词:海滨雀稗;转录组;高通量测序;基因注释;SSR
中图分类号:S543.903;Q943.2  文献标识码:A  文章编号:10045759(2014)06024211
犇犗犐:10.11686/cyxb20140629  
  海滨雀稗(犘犪狊狆犪犾狌犿狏犪犵犻狀犪狋狌犿,Seashorepaspalum)是禾本科(Gramineae)黍族(Paniceae)雀稗属(犘犪狊
狆犪犾狌犿)的多年生草本植物,原产于美洲,为潮间带草滩植被的主要组分[12]。海滨雀稗是目前耐盐能力最强的草
坪草种,还具有较强的耐涝、耐旱、耐践踏和耐磨损特性,能在复杂的逆境条件下生长[38]。海滨雀稗的叶色翠绿,
景观效果优于狗牙根(犆狔狀狅犱狅狀犱犪犮狋狔犾狅狀)、结缕草(犣狅狔狊犻犪犼犪狆狅狀犻犮犪)和假俭草(犈狉犲犿狅犮犺犾狅犪狅狆犺犻狌狉狅犻犱犲狊)等暖季
型禾草,作为草坪草在世界热带与亚热带地区广为种植,已成为21世纪最具发展潜力的草坪草种[9]。同时,海滨
雀稗还具有良好的适口性和营养价值,可作为优良牧草加以利用[10]。关于海滨雀稗的遗传多样性、分子标记辅
助育种等研究已有报道[1112],但其基因组和转录组信息的缺乏,造成海滨雀稗分子标记开发、遗传图谱构建、生长
发育及其抗逆机理方面的研究相对滞后[13]。
近年来,包括基因组、转录组、蛋白质组等各种组学技术在揭示细胞生理活动规律和生物代谢机理的研究中
起着越来越重要的作用,而转录组学是率先发展起来以及应用最为广泛的技术[14]。转录组(transcriptome)是指
细胞在特定状态下全部表达的RNA的总和,反映相同基因在不同条件下表达水平的差异,并能揭示不同基因的
相互作用及各自功能[15]。转录组测序能全面快速地获得某一物种特定细胞或组织在某一状态下的基因表达情
况,用于研究基因结构和功能、可变剪接和新转录本预测等[1620]。相对于传统的芯片杂交平台,转录组测序无需
已知序列设计探针,可对任意物种的整体转录活动进行检测,提供更精确的数字化信号,更高的检测通量以及更
广泛的检测范围。对于许多缺乏基因组信息的物种而言,转录组研究已在非模式植物中得到了广泛应用[2126]。
尽管海滨雀稗具有很高的经济价值和生态价值,但其分子生物学研究进展缓慢,基因数据库资源也十分匮
乏。随着高通量测序技术的迅速发展,极大地促进了植物基因表达研究,这样不仅可降低测序的成本和时间,而
242-252
2014年12月
   草 业 学 报   
   ACTAPRATACULTURAESINICA   
第23卷 第6期
Vol.23,No.6
收稿日期:20131111;改回日期:20131202
基金项目:江苏省盐土生物资源研究重点实验室开放课题(JKLBS2012003)资助。
作者简介:贾新平(1983),男,山西晋城人,助理研究员,博士。Email:pingdaya@163.com
且还可以获得丰富的数据,有利于植物生长发育及其抗逆等方面的研究[27]。到目前为止,利用新一代高通量测
序技术进行草坪种质资源创新与开发的研究还未见报道。本研究首次将IluminaHiSeq2000高通量测序技术
应用到草坪草转录组研究中,将测序得到的海量数据进行拼接与组装,结合生物信息学方法对所获得的unigene
进行基因功能注释、功能分类、代谢途径等分析,从功能基因组水平上研究海滨雀稗生长发育过程中重要基因的
表达,同时也为进一步的分子标记开发和基因功能研究奠定基础。
1 材料与方法
1.1 试验材料
试验材料为海滨雀稗品种“Adalayd”,由江苏省农业科学院生物技术所植物细胞工程课题组提供。试验于
2013年8月在江苏省农业科学院生物技术所温室中进行,选取长势良好、健康的植株叶片,迅速将其放入纸带
内,立即经液氮速冻后保存于实验室超低温冰箱中备用。
1.2 RNA提取
利用TRIzoL法提取试验材料海滨雀稗叶片的总RNA。将样品放入研钵,加适量液氮迅速研磨,转移到经
DEPC处理的2mL离心管中,加入1mLTRIzoL(Invitrogen,CarLsbadCA92008,USA),旋涡振荡混匀,室温
静置10min;4℃、12000r/min离心10min,将上清液移入新的1.5mL离心管,加入等体积的氯仿∶异戊醇
(24∶1)混合液,用力摇15s,室温静置10min;4℃、12000r/min离心10min,将上清液移至新的1.5mL离心
管,加入等体积的异丙醇,室温静置10min;4℃、12000r/min离心15min,去除上清液,用RNasefree水配制的
75%乙醇洗涤;4℃、12000r/min离心15min,去除上清液;置于冰上自然干燥5min,用RNasefree水溶解,保存
于-70℃备用。用AgiLent2100BioanaLyzer检测RNA提取质量,RIN值≥7.0。
1.3 转录组测序及数据组装
提取样品总RNA后,用带有Oligo(dT)的磁珠富集 mRNA。首先加入破碎缓冲液将 mRNA 打断成短序
列,以这些短序列为模板,用六碱基随机引物合成第1条cDNA 链,然后加入缓冲液、dNTPs、RNaseH 和DNA
polymeraseI合成第2条cDNA链。cDNA经过试剂盒纯化并加EB缓冲液洗脱之后做末端修复、加poly(A)并
连接测序接头,然后用琼脂糖凝胶电泳进行序列大小选择,最后进行PCR 扩增,建好的测序文库用Ilumina
HiSeqTM2000进行测序。采用Ilumina两个末端(PE)测序法,最初的原始序列为100bp。原始的测序结果去除
制备文库时产生的接头序列、两端低质量序列和低度复杂序列,再利用SOAPdenovo软件进行序列拼接[26],之后
通过连接两末端和填补空位,将拼接成的重叠群(Contig),进一步组装成unigene。转录组测序产生的原始序列
信息已提交到NCBI的SRA数据库(SRABioProject:SRX383837)。
1.4 功能注释、分类和代谢途径分析
采用序列比对的方法对unigene进行序列相似性分析,使用BLAST程序将拼接得到的unigene与核酸、蛋
白质数据库进行比对(犈值≤1×10-10),选取最佳的功能注释。核酸数据库为NCBI的非冗余核酸序列数据库
(nonredundantnucleotidedatabase,Nt),蛋白质数据库包括NCBI的非冗余核酸数据库(nonredundantprotein
database,Nr)和SwissProt(swissprotproteinsequencedatabase)蛋白质序列数据库。根据NCBI数据库的功能
注释信息,使用Blast2GO软件[27]得到unigene的GO条目,然后用 WEGO 软件[28]对所有的unigene进行GO
功能分类统计。然后对unigene分别进行蛋白质直系同源数据库(clusteroforthologousgroups,COG)功能分类
和京东基因与基金组百科全书(kyotoencyclopediaofgenesandgenomes,KEGG)代谢途径分析。
1.5 SSR位点搜索及分析
对海滨雀稗转录组中的unigene序列进行简单重复序列(simplesequencerepeats,SSR)位点搜索,搜索标准
为:单、二、三、四、五、六核苷酸基序(motif)至少重复次数分别为10,8,5,4,3,3,对查找的SSR类型进行特征分析。
2 结果与分析
2.1 海滨雀稗转录组数据的组装
采用IluminaHiSeq2000高通量测序技术对海滨雀稗叶片转录组进行了测序,共得到47520544个reads片
342第23卷第6期 草业学报2014年
段,每个reads的长度为100bp,即测序获得了4752054400bp(4.75Gb)的序列信息。采用SOAPdenovo软件对
reads序列聚类进行拼接,共获得966165个contig序列。其中,长度50~100bp的contig序列有761498个,占
总体的78.82%;100~200bp的contig序列有125173个,占总体的12.96%;而≥200bp的contig序列有79494
个,占总体的8.22%(表1)。由此可见,contig序列主要以长度为50~100bp为主,完全符合Ilumina测序的预
期结果,为后续的数据组装提供很好的原始数据。
在contig数据的基础上,进一步对序列进行组装,共获得81220个unigene,序列信息达到了87542503bp
(87.54Mb),序列大小为201~16328bp,平均长度为1077bp,N50为1680bp。其中,长度200~500bp的uni
gene有29325个,占总体的36.11%;500~1000bp的unigene有18341个,占总体的22.58%;≥1000bp的uni
gene有33554个,占总体的41.31%(表2)。
表1 海滨雀稗转录组犮狅狀狋犻犵数据组装质量统计
犜犪犫犾犲1 犇犪狋犪犪狊狊犲犿犫犾狔犳狅狉犮狅狀狋犻犵犻狀狋犺犲
狋狉犪狀狊犮狉犻狆狋狅犿犲狅犳犘.狏犪犵犻狀犪狋狌犿
长度范围
Lengthrange(bp)
数量
Number
百分比
Percentage(%)
50~100 761498 78.82
100~200 125173 12.96
200~500 46327 4.79
500~1000 15502 1.60
≥1000 17665 1.83
表2 海滨雀稗转录组狌狀犻犵犲狀犲数据组装质量统计
犜犪犫犾犲2 犇犪狋犪犪狊狊犲犿犫犾狔犳狅狉狌狀犻犵犲狀犲犻狀狋犺犲
狋狉犪狀狊犮狉犻狆狋狅犿犲狅犳犘.狏犪犵犻狀犪狋狌犿
长度范围
Lengthrange(bp)
数量
Number
百分比
Percentage(%)
200~500 29325 36.11
500~1000 18341 22.58
1000~1500 12717 15.66
1500~2000 8744 10.77
≥2000 12093 14.88
  GC含量是基因组碱基序列的重要特征之一,能
反映基因的结构、功能和进化信息,GC分布不均匀导
致基因组不同GC含量序列其性质和功能也有差异。
海滨雀稗unigene的 GC平均含量为49.98%,其中
GC含量40%~60%的unigene(59903个)占总体的
73.75%,GC含量20%~40%的unigene(6552个)占
总体的8.07%,GC含量60%~80%的unigene(14765
个)占总体的18.18%,而GC含量过高(大于80%)或
过低(小于20%)的unigene不存在,表明GC含量基
本呈正态分布(表3)。
用RPKM方法计算unigene的表达水平,可消除
基因长度差异和测序深度的影响[29]。海滨雀稗全部
表3 海滨雀稗狌狀犻犵犲狀犲的犌犆含量统计
犜犪犫犾犲3 犇犪狋犪犪狊狊犲犿犫犾狔犳狅狉犌犆犮狅狀狋犲狀狋
狅犳犘.狏犪犵犻狀犪狋狌犿狌狀犻犵犲狀犲
GC含量
GCcontent(%)
数量
Number
百分比
Percentage(%)
20~30 264 0.33
30~40 6288 7.74
40~50 33186 40.86
50~60 26717 32.89
60~70 12971 15.97
70~80 1794 2.21
unigene的RPKM平均值为28.68,最大值为50812.5(unigene42358)。281个unigene的RPKM 值大于500,
其中许多基因参与到海滨雀稗的多种生理活动和代谢过程中。91个unigene的RPKM 值低于0.2,说明Ilumi
naHiSeq2000能够检测到极低水平的基因表达。
2.2 unigene的功能注释、分类和代谢途径分析
2.2.1 unigene的序列相似性分析 使用BLAST程序将组装得到的unigene与Nr、Nt、SwissProt数据库进行
比对,进行unigene的序列相似性分析。结果表明,38446个unigene在Nr数据库中可找到相似序列,犈值小于
1×10-100的unigene有22629个(占总体的58.86%),犈值介于1×10-10~1×10-100的unigene有15817个(占
总体的41.14%);相似序列匹配的近缘物种中,高粱(犛狅狉犵犺狌犿犫犻犮狅犾狅狉)所占比例最高(45.76%),随后依次是玉
442 ACTAPRATACULTURAESINICA(2014) Vol.23,No.6
米(犣犲犪犿犪狔狊,38.68%)、水稻(犗狉狔狕犪狊犪狋犻狏犪,8.91%)、小麦(犜狉犻狋犻犮狌犿犪犲狊狋犻狏狌犿,2.45%)和其他物种(4.20%)
(图1)。46169个unigene在Nt数据库中可找到相似序列,犈值小于1×10-100的unigene有28599个(占总体的
61.94%),犈值介于1×10-10~1×10-100的unigene有17570个(占总体的38.06%);相似序列匹配的近缘物种
中,高粱所占比例最高(62.72%),随后依次是玉米(25.82%)、水稻(3.81%)、短柄草(犅狉犪犮犺狔狆狅犱犻狌犿犱犻狊
狋犪犮犺狔狅狀,2.11%)和其他物种(5.54%)。24471个unigene在SwissProt数据库中可找到相似序列,犈值小于1×
10-100的unigene有8742个(占总体的35.72%),犈值介于1×10-10~1×10-100的unigene有15729个(占总体
的64.28%);相似序列匹配的近缘物种中,拟南芥(犃狉犪犫犻犱狅狆狊犻狊狋犺犪犾犻犪狀犪)所占比例最高(46.03%),随后依次是
水稻(20.10%)、玉米(8.30%)、小麦(3.73%)和其他物种(21.84%)(图1)。由于缺乏海滨雀稗的基因组、EST
和蛋白序列信息,部分unigene在数据库中无法匹配到已知基因。
图1 海滨雀稗狌狀犻犵犲狀犲的序列相似性分析
犉犻犵.1 犆犺犪狉犪犮狋犲狉犻狊狋犻犮狊狅犳犺狅犿狅犾狅犵狔狊犲犪狉犮犺狅犳犘.狏犪犵犻狀犪狋狌犿狌狀犻犵犲狀犲
 Os:水稻犗狉狔狕犪狊犪狋犻狏犪;Zm:玉米犣犲犪犿犪狔狊;Sb:高粱犛狅狉犵犺狌犿犫犻犮狅犾狅狉;Bd:短柄草犅狉犪犮犺狔狆狅犱犻狌犿犱犻狊狋犪犮犺狔狅狀;At:拟南芥 犃狉犪犫犻犱狅狆狊犻狊狋犺犪犾犻犪狀犪;
Ot:其他other.
2.2.2 unigene的GO分类 基因本体论(geneontology,GO)是一个国际标准化的基因功能分类数据库,用于
全面地描述不同生物中基因的生物学特征。结合GO数据库对海滨雀稗的unigene进行功能分类,从宏观上认
识海滨雀稗表达基因的功能分布特征。GO数据库包括3个相对独立的本体,分别描述所处的细胞组分(celular
component)、分子功能(molecularfunction)和参与的生物学过程(biologicalprocess)。研究结果表明,可将海滨
雀稗unigene划分为48个功能组,并对每个功能组涉及的unigene进行了统计分析。从图2中可以看出,51497
个unigene归属于细胞组分,22718个unigene归属于分子功能,60856个unigene归属于生物学过程,这一分类
结果显示了海滨雀稗生长过程中基因表达谱的总体情况。其中,“细胞成分”(18763个)、“细胞进程”(17347个)、
“代谢进程”(13891个)和“结合活性”(10726个)功能组中涉及的unigene较多,而“翻译调节活性”(7个)、“金属
伴侣蛋白活性”(4个)、“氮素利用”(2个)和“蛋白标签”(2个)功能组中涉及的unigene较少。
2.2.3 unigene的COG功能分类 蛋白质直系同源数据库(clusteroforthologousgroups,COG)是对基因产物
进行直系同源分类的数据库。将海滨雀稗unigene与COG 数据库进行比对,预测unigene功能并进行分类统
计。研究结果表明,海滨雀稗unigene根据其功能大致可分为25类,并对每类的unigene进行了统计分析(图3
中用A~Z表示)。从图中可以看出,unigene涉及的COG功能类别比较全面,涉及了大多数的生命活动。其中,
一般功能预测类基因最多(4716个);其次是未知功能类基因(3306个)、翻译,核糖体结构和生物发生类基因
(2662个)、翻译后修饰,蛋白质折叠和分子伴侣类基因(2247个)和碳水化合物运输和代谢类基因(2087个);而
胞外结构类基因(11个)和核结构类基因较少(7个);其他类别的基因表达丰度都各不相同。
542第23卷第6期 草业学报2014年
图2 海滨雀稗狌狀犻犵犲狀犲的犌犗分类
犉犻犵.2 犌犗犳狌狀犮狋犻狅狀犪犾犮犪狋犲犵狅狉犻犲狊狅犳犘.狏犪犵犻狀犪狋狌犿狌狀犻犵犲狀犲
 1:突触成分Synapsepart;2:共质体Symplast;3:胞外成分 Extracelularregionpart;4:细胞器 Organele;5:细胞成分 Celpart;6:膜关闭内腔
Membraneenclosedlumen;7:突触Synapse;8:胞外区域Extracelularregion;9:细胞连接Celjunction;10:复杂大分子 Macromolecularcomplex;11:
细胞Cel;12:细胞器成分 Organelepart;13:电子载体活性Electroncarrieractivity;14:结合蛋白转录活性Proteinbindingtranscriptionfactor;15:
转运活性 Transporteractivity;16:结合活性Binding;17:蛋白标签Proteintag;18:催化活性Catalyticactivity;19:金属伴侣蛋白活性 Metalochaper
oneactivity;20:酶调节活性Enzymeregulatoractivity;21:分子转导活性 Moleculartransduceractivity;22:翻译调节活性Translationregulatoractiv
ity;23:结构分子活性Structuralmoleculeactivity;24:转录因子活性 Transcriptionfactoractivity;25:抗氧化活性 Antioxidantactivity;26:氮素利用
Nitrogenutilization;27:繁殖 Reproduction;28:有机体进程 Multiorganismprocess;29:发育进程 Developmentalprocess;30:有机体多细胞进程
Multicelularorganismalprocess;31:细胞进程Celularprocess;32:色素淀积 Pigmentation;33:生长 Growth;34:信号传导Signaling;35:病毒繁殖
Viralreproduction;36:生物调节Biologicalregulation;37:代谢进程 Metabolicprocess;38:凋亡Death;39:繁殖进程Reproductiveprocess,40:免疫系
统进程Immunesystemprocess;41:定位活性Establishmentoflocalization;42:细胞成分组织Celularcomponentorganization;43:节律进程 Rhythmic
process;44:细胞增殖Celproliferation;45:生物黏附Biologicaladhesion;46:应激反应Responsetostimulus;47:细胞活动Locomotion;48:定位Localization.
图3 海滨雀稗狌狀犻犵犲狀犲的犆犗犌功能分类
犉犻犵.3 犆犗犌犳狌狀犮狋犻狅狀犮犾犪狊狊犻犳犻犮犪狋犻狅狀狅犳犘.狏犪犵犻狀犪狋狌犿狌狀犻犵犲狀犲
 A:RNA加工和修饰 RNAprocessingandmodification;B:染色质结构和活力Chromatinstructureanddynamics;C:能量生成和转换 Energypro
ductionandconversion;D:细胞周期控制,细胞分裂,染色体分区Celcyclecontrol,celdivision,chromosomepartitioning;E:氨基酸运输和代谢 A
minoacidtransportandmetabolism;F:核苷酸运输和代谢 Nucleotidetransportandmetabolism;G:碳水化合物运输和代谢 Carbohydratetransport
andmetabolism;H:辅酶运输和代谢Coenzymetransportandmetabolism;I:脂质运输和代谢Lipidtransportandmetabolism;J:翻译,核糖体结构和
生物发生Translation,ribosomalstructureandbiogenesis;K:转录Transcription;L:复制,重组和修复Replication,recombinationandrepair;M:细胞
壁/膜发生Celwal/membrane/envelopebiogenesis;N:细胞运动Celmotility;O:翻译后修饰,蛋白质折叠和分子伴侣Posttranslationalmodificat
ion,proteinturnover,chaperones;P:矿脂运输和代谢Inorganiciontransportandmetabolism;Q:次生代谢物合成,运输和代谢Secondarymetabolites
biosynthesis,transportandcatabolism;R:一般功能预测 Generalfunctionpredictiononly;S:未知功能 Functionunknown;T:信号传导机制Signal
transductionmechanisms;U:防卫机制 Defensemechanisms;V:细胞内转运,分泌和小泡运输Intracelulartrafficking,secretion,andvesiculartrans
port;W:胞外结构Extracelularstructures;X:核结构 Nuclearstructure;Y:细胞构架Cytoskeleton.
642 ACTAPRATACULTURAESINICA(2014) Vol.23,No.6
2.2.4 unigene的KEGG分析 KEGG(kyotoencyclopediaofgenesandgenomes)是系统分析基因产物在细胞
中的代谢途径以及基因产物功能的数据库。根据KEGG数据库的注释信息能进一步得到unigene的pathway
注释[30]。结合KEGG数据库,对海滨雀稗的unigene可能参与或涉及的代谢途径进行了统计分析。研究结果表
明,可将海滨雀稗的unigene归属于五大类的代谢途径,主要包括碳水化合物代谢、氨基酸代谢、脂类物质代谢、
次生物质代谢、复制与修复、转录与翻译、信号转导等19类代谢途径(图4)。将 KEGGpathway数据库作为参
考,可将unigene定位到112个具体的代谢途径分支。其中,涉及糖异生和糖酵解途径的基因有140个,占总体
的3.35%;磷脂酰肌醇信号系统途径的基因有133个,占总体的3.18%;甘油磷脂代谢途径的基因有130个,占
总体的3.11%;苯丙氨酸代谢途径的基因有79个,占总体的1.89%;RNA降解途径的基因有68个,占总体的
1.63%;黄酮类化合物合成途径的基因有44个,占总体的1.05%;植物与病原物互作的基因有23个,占总体的
0.56%(表4)。
图4 海滨雀稗狌狀犻犵犲狀犲的犓犈犌犌分类
犉犻犵.4 犓犈犌犌犮犾犪狊狊犻犳犻犮犪狋犻狅狀狅犳犘.狏犪犵犻狀犪狋狌犿狌狀犻犵犲狀犲
 1:环境适应Environmentaladaptation;2:免疫系统Immunesystem;3:运输和代谢 Transportandcatabolism;4:信号转导Signaltransduction;5:
复制和修复 Replicationandrepair;6:折叠、分类和降解Folding,sortinganddegradation;7:翻译 Translation;8:转录 Transcription;9:化学降解和代
谢 Xenobioticsbiodegradationandmetabolism;10:其他次生物质代谢Biosynthesisofothersecondarymetabolites;11:萜类化合物和聚酮化合物的代
谢 Metabolismofterpenoidsandpolyketides;12:辅助因子和维生素代谢 Metabolismofcofactorsandvitamins;13:糖生物合成和代谢Glycanbiosyn
thesisandmetabolism;14:其他的氨基酸代谢 Metabolismofotheraminoacids;15:氨基酸代谢 Aminoacidmetabolism;16:核苷酸代谢 Nucleotide
metabolism;17:脂类物质代谢Lipidmetabolism;18:能量代谢Energymetabolism;19:碳水化合物代谢Carbohydratemetabolism.
2.3 SSR分析
对海滨雀稗的81220个unigene进行SSR位点搜索,共检测到22721个SSR位点。SSR的类型丰富,单核
苷酸至六核苷酸重复类型均存在,所占比例变化较大(表5)。其中,三核苷酸重复所占比例最高,达到了
31.71%;比例最低的是二核苷酸重复,仅为4.35%;五核苷酸重复和六核苷酸重复所占比例基本相同,分别为
14.15%和14.67%。在检测到的SSR中,出现频率最高的10类基序为:A/T(6198个)、CCG/CGG(2992个)、
AGC/CTG(1277个)、AGG/CCT(1249个)、AG/CT(776个)、ACG/CGT(516个)、AAG/CTT(415个)、ACC/
GGT(376个)、AGAGG/CCTCT(259个)、AGGG/CCCT(197个)。上述SSR特征分析,有助于开展海滨雀稗及
其同属物种的基因组差异分析、通用性标记开发和遗传图谱构建的研究。
3 讨论
随着新一代高通量测序技术的广泛应用,植物基因组研究得到快速发展,但草坪草基因组研究还相对较少。
Ilumina高通量测序的数据量大、速度快、成本低、效率高[31],适合于没有基因组信息的海滨雀稗展开转录组测
序研究。基于转录组学在功能基因组学研究中的重要价值,本研究应用Ilumina高通量测序技术对海滨雀稗转
录组进行测序,研究其基因表达谱和挖掘生长发育过程中的重要表达基因。对海滨雀稗转录组进行测序,获得了
742第23卷第6期 草业学报2014年
表4 海滨雀稗狌狀犻犵犲狀犲的代谢途径分析
犜犪犫犾犲4 犃狀犪犾狔狊犻狊狅犳犿犲狋犪犫狅犾犻犮狆犪狋犺狑犪狔狊狅犳犘.狏犪犵犻狀犪狋狌犿狌狀犻犵犲狀犲
编号
No.
代谢途径
Pathway
数量
Number
编码
ID
编号
No.
代谢途径
Pathway
数量
Number
编码
ID
1 糖降解和糖异生 Glycolysis/Gluconeogenesis 140 ko00010 57 甘油脂代谢 Glycerolipidmetabolism 29 ko00561
2 磷脂酰肌醇信号系统 Phosphatidylinositolsigna
lingsystem
133 ko04070 58 泛酸盐和CoA生物合成PantothenateandCoA
biosynthesis
28 ko00770
3 甘油磷脂代谢 Glycerophospholipidmetabolism 130 ko00564 59 鞘脂类代谢Sphingolipidmetabolism 28 ko00600
4 嘧啶代谢Pyrimidinemetabolism 121 ko00240 60 其他聚糖降解 Otherglycandegradation 28 ko00511
5 半胱/蛋氨酸代谢Cysteineandmethioninemetabolism 107 ko00270 61 叶酸碳库Onecarbonpoolbyfolate 27 ko00670
6 生物固碳Carbonfixationinphotosyntheticorganisms104 ko00710 62 同源重组 Homologousrecombination 27 ko03440
7 嘌呤代谢Purinemetabolism 92 ko00230 63 苯丙素生物合成Phenylpropanoidbiosynthesis 26 ko00940
8 核苷酸切除修复 Nucleotideexcisionrepair 88 ko03420 64 核糖体合成 Ribosomebiogenesisineukaryotes 26 ko03008
9 脂肪酸生物合成Fattyacidbiosynthesis 85 ko00061 65 赖氨酸降解Lysinedegradation 25 ko00310
10 苯丙氨酸代谢Phenylalaninemetabolism 79 ko00360 66 谷胱甘肽代谢 Glutathionemetabolism 25 ko00480
11 糖基化磷脂酰肌醇生物合成 Glycosylphosphati
dylinositolanchorbiosynthesis
78 ko00563 67 不饱和脂肪酸生物合成Biosynthesisofunsatu
ratedfattyacids
24 ko01040
12 甘氨酸、丝氨酸和苏氨酸代谢 Glycine,serineand
threoninemetabolism
77 ko00260 68 缬氨酸,亮氨酸和异亮氨酸生物合成 Valine,
leucineandisoleucinebiosynthesis
24 ko00290
13 精氨酸和脯氨酸代谢Arginineandprolinemetabolism 77 ko00330 69 赖氨酸生物合成Lysinebiosynthesis 24 ko00300
14 果糖和甘露糖代谢Fructoseandmannosemetabolism 76 ko00051 70 叶酸生物合成Folatebiosynthesis 23 ko00790
15 丙氨酸,天门冬氨酸和谷氨酸代谢 Alanine,aspar
tateandglutamatemetabolism
72 ko00250 71 苯丙氨酸,酪氨酸和色氨酸生物合成Phenylala
nine,tyrosineandtryptophanbiosynthesis
23 ko00400
16 剪接体Spliceosome 70 ko03040 72 植物与病原物互作Plantpathogeninteraction 23 ko04626
17 淀粉和蔗糖代谢Starchandsucrosemetabolism 69 ko00500 73 碱基切除修复Baseexcisionrepair 22 ko03410
18 内吞作用Endocytosis 69 ko04144 74 生物碱生物合成Isoquinolinealkaloidbiosynthesis21 ko00950
19 RNA降解
RNAdegradation
68 ko03018 75 戊糖和糖醛酸转换Pentoseandglucuronatein
terconversions
19 ko00040
20 戊糖磷酸途径Pentosephosphatepathway 66 ko00030 76 基础转录因子Basaltranscriptionfactors 18 ko03022
21 缬氨酸,亮氨酸和异亮氨酸降解 Valine,leucine
andisoleucinedegradation
66 ko00290 77 鞘糖脂生物合成 Glycosphingolipidbiosynthesis
ganglioseries
18 ko00604
22 吞噬体Phagosome 65 ko04145 78 硒化合物代谢Selenocompoundmetabolism 17 ko00450
23 丙酮酸代谢
Pyruvatemetabolism
64 ko00620 79 角质和蜡质生物合成 Cutin,suberineandwax
biosynthesis
15 ko00073
24 磷酸肌醇代谢Inositolphosphatemetabolism 62 ko00562 80 蛋白质输出Proteinexport 15 ko03060
25 多糖降解 Glycosaminoglycandegradation 60 ko00531 81 花生四烯酸代谢 Arachidonicacidmetabolism 14 ko00590
26 柠檬酸循环Citratecycle(TCAcycle) 57 ko00020 82 色氨酸代谢 Tryptophanmetabolism 14 ko00380
27 β丙氨酸代BetaAlaninemetabolism 56 ko00410 83 磺酸类代谢Taurineandhypotaurinemetabolism 14 ko00430
28 RNA聚合酶 RNApolymerase 56 ko03020 84 氨酰tRNA合成酶 AminoacyltRNAbiosynthesis14 ko00970
29 核糖体
Ribosome
55 ko03010 85 酮体合成和降解 Synthesisanddegradationof
ketonebodies
13 ko00072
30 mRNA监视途径 mRNAsurveilancepathway 51 ko03015 86 硫胺代谢 Thiaminemetabolism 13 ko00730
31 半乳糖代谢 Galactosemetabolism 50 ko00052 87 DNA复制 DNAreplication 13 ko03030
32 氧化磷酸化 Oxidativephosphorylation 49 ko00190 88 光合作用Photosynthesis 12 ko00195
842 ACTAPRATACULTURAESINICA(2014) Vol.23,No.6
 续表4 Continued
编号
No.
代谢途径
Pathway
数量
Number
编码
ID
编号
No.
代谢途径
Pathway
数量
Number
编码
ID
33 乙醛酸和二羧酸代谢 Glyoxylateanddicarboxylate
metabolism
46 ko00630 89 芪类、二苯基庚酮和姜酚生物合成 Stilbenoid,
diarylheptanoidandgingerolbiosynthesis
12 ko00945
34 过氧物酶体
Peroxisome
46 ko04146 90 卟啉和叶绿素代谢 Porphyrinandchlorophyl
metabolism
11 ko00860
35 N多糖代谢 NGlycanbiosynthesis 45 ko00510 91 柠檬烯和蒎烯降解Limoneneandpinenedegradation11 ko00903
36 α亚麻酸代谢alphaLinolenicacidmetabolism 44 ko00592 92 硫中继系统Sulfurrelaysystem 11 ko04122
37 黄酮类化合物合成Flavonoidbiosynthesis 44 ko00941 93 激素信号转导Planthormonesignaltransduction 11 ko04075
38 泛素介导的蛋白水解 Ubiquitinmediatedproteolysis44 ko04120 94 氰基乙酸代谢Cyanoaminoacidmetabolism 10 ko00460
39 蛋白酶体Proteasome 43 ko03050 95 非同源末端连接 Nonhomologousendjoining 9 ko03450
40 氮素代谢 Nitrogenmetabolism 41 ko00910 96 鞘糖脂生物合成 Glycosphingolipidbiosynthesis 8 ko00603
41 醚脂质代谢Etherlipidmetabolism 39 ko00565 97 光合作用蛋白Photosynthesisantennaproteins 6 ko00195
42 丁酸乙酯代谢Butanoatemetabolism 38 ko00650 98 硫化物代谢Sulfurmetabolism 6 ko00920
43 酪氨酸代谢 Tyrosinemetabolism 38 ko00350 99 亚麻酸代谢Linoleicacidmetabolism 6 ko00591
44 昼夜节律Circadianrhythm 38 ko04712 100 咖啡碱代谢Caffeinemetabolism 6 ko00232
45 泛醌和其他萜醌生物合成 Ubiquinoneandother
terpenoidquinonebiosynthesis
37 ko00130 101 自然杀伤细胞介导细胞毒性 Naturalkilercel
mediatedcytotoxicity
5 ko04650
46 抗坏血酸代谢 Ascorbateandaldaratemetabolism 35 ko00053 102 维生素B6代谢 VitaminB6metabolism 5 ko00750
47 萜类骨架生物合成 Terpenoidbackbonebiosynthesis35 ko00900 103 脂肪酸延伸Fattyacidelongation 3 ko00062
48 丙酸乙酯代谢Propanoatemetabolism 33 ko00640 104 类固醇生物合成Steroidbiosynthesis 3 ko00100
49 内质网蛋白质加工 Proteinprocessinginendoplas
micreticulum
32 ko04141 105 黄酮和黄酮醇生物合成 Flavoneandflavonolbi
osynthesis
3 ko00944
50 类胡萝卜素生物合成Carotenoidbiosynthesis 32 ko00906 106 核黄素代谢 Riboflavinmetabolism 2 ko00740
51 烟酸和烟酰胺代谢 Nicotinateandnicotinamide
metabolism
31 ko00760 107 倍半萜和三萜类化合物生物合成 Sesquiterpe
noidandtriterpenoidbiosynthesis
1 ko00909
52 莨菪烷、哌啶和吡啶生物碱生物合成Tropane,pi
peridineandpyridinealkaloidbiosynthesis
31 ko00960 108 C5支链二元酸代谢 C5Brancheddibasicacid
metabolism
1 ko00660
53 组氨酸代谢 Histidinemetabolism 30 ko00340 109 生物素代谢Biotinmetabolism 1 ko00780
54 RNA转运 RNAtransport 30 ko03013 110 甲烷代谢 Methanemetabolism 1 ko00680
55 错配修复 Mismatchrepair 30 ko03430 111 苯甲酸降解Benzoatedegradation 1 ko00362
56 氨基酸和核苷酸糖代谢 Aminosugarandnucleo
tidesugarmetabolism
29 ko00520 112 双组分系统 Twocomponentsystem 1 ko02020
表5 海滨雀稗犛犛犚不同重复基序分布及优势碱基组成
犜犪犫犾犲5 犇犻狊狋狉犻犫狌狋犻狅狀犪狀犱犮狅犿狆狅狊犻狋犻狅狀狊狅犳狋犺犲犱狅犿犻狀犪狀狋狉犲狆犲犪狋狅犳狋犺犲犱犻犳犳犲狉犲狀狋狉犲狆犲犪狋犿狅狋犻犳狊犳狅狉犛犛犚
重复基元长度Lengthofrepeatmotif 数量Number 百分比Percentage(%) 优势重复基序Advantagerepeatmotif
单核苷酸 Mononucleotide 6653 29.28 A/T
二核苷酸 Dinucleotide 988 4.35 AG/CT
三核苷酸 Trinucleotide 7204 31.71 CCG/CGG;AGC/CTG;AGG/CCT;ACG/CGT;AAG/CTT;ACC/GGT
四核苷酸 Tetranucleotide 1327 5.84 AGGG/CCCT
五核苷酸Pentanucleotide 3214 14.15 AGAGG/CCTCT
六核苷酸 Hexanucleotide 3335 14.67 AGGCGG/CCGCCT
942第23卷第6期 草业学报2014年
47520544个reads序列;对reads序列进行拼接,共获得了966165个contig序列。在contig数据的基础上,序列
组装后得到了81220个unigene,长度大小从201~16328bp,平均长度为1077bp,N50值为1680bp(N50指从组装
最长的unigene依次向下求长度的总加和,当累加长度达到组装长度的一半时,对应的unigene长度是N50长度。
N50值越大,反映组装得到的长片段越多,组装效果就越好。测序数据产量和数据组装质量是转录组测序完成情
况的重要指标。以上研究结果表明,此次序列组装的质量和长度可以满足转录组分析的基本要求,且新一代高通
量测序技术是批量发现海滨雀稗功能基因的更为有效手段,进一步说明IluminaHiSeq2000是高通量转录组测
序的可靠平台。
结合生物信息学分析方法,对海滨雀稗unigene与Nr、Nt、SwissProt数据库进行比对,进行序列相似性和功
能注释分析。46169个unigene与其他近缘生物的已知基因具有不同程度的同源性,并且还获得了35051个新的
unigene(占总体的56.84%),表明在对海滨雀稗基因组及遗传背景几乎不清楚的情况下,高通量测序技术是批量
发现海滨雀稗功能基因的有效手段。虽然GO是个标准化的生物信息本体数据库,被广泛地用于基因的注释功
能,然而由于GO结构设计上的缺陷以及基因的许多特征还未被发现,使得这种基因注释信息尚不完全。因此,
本研究中的海滨雀稗unigene基于GO数据库进行的相关功能注释信息还不完善,还有部分的unigene没有赋予
了可能的GO条目,有待通过其他生物信息学方法对unigene功能注释进一步补充。利用COG数据库对海滨雀
稗unigene进行基因功能分类,可从基因组水平上找寻直系同源体,预测未知ORF的生物学功能,可以大大提高
基因功能注释的准确性。根据KEGG数据库对上述unigene进行代谢途径分析,涉及112个具体的代谢途径分
支,参与到海滨雀稗体内的碳水化合物代谢、脂类代谢、次生物质代谢等过程中,为进一步大量挖掘海滨雀稗生长
发育过程中的重要表达基因,开展海滨雀稗的基因克隆及功能验证等研究提供了基础数据。
SSR分子标记具有操作简便、重复性好、多态性丰富、遗传信息量大、共显性遗传等优点,已在遗传多样性分
析、遗传图谱构建、功能基因发掘、分子标记辅助育种等研究中得到了广泛应用[3236]。采取实验室手段开发SSR
引物费时,耗力,成本高,试验复杂,基于转录组数据库信息进行SSR分子标记开发将是一种既经济又有效的方
法。目前,海滨雀稗可利用的分子标记数量非常有限,转录组产生的海量数据为SSR分子标记的开发提供了更
丰富和极有价值的可利用资源。本研究通过查找发现了22721个SSR位点,SSR不但出现频率高,而且类型丰
富。利用在线引物设计软件共设计出8758对SSR引物,进一步可对这些SSR引物进行扩增检测,筛选出扩增稳
定、条带清晰、多态性好的引物,为进一步开发新的SSR标记奠定了基础。SSR分子标记的开发可用于草坪草功
能基因的挖掘、丰富分子标记类型、遗传资源评价、重要性状的辅助选择等研究,有助于促进草坪草遗传育种的发
展[3738]。
本研究首次在国内外采用IluminaHiSeq2000高通量测序技术建立了海滨雀稗转录组数据库,获得了大量
的转录本信息,并对表达基因进行了序列组装、功能注释、代谢途径等分析,为今后更深入研究海滨雀稗功能基因
组、基因克隆及抗逆机理研究提供了极大的方便,而且该转录组数据还可以作为今后海滨雀稗基因组的参考序
列,为海滨雀稗的分子生物学研究提供宝贵的基因组数据来源。
参考文献:
[1] 解新明,卢小良.海雀稗种质资源的优良特性及其利用价值[J].华南农业大学学报,2004,25:6467.
[2] 常盼盼,钟小仙,刘智微.海滨雀稗体细胞突变体SP20083的特异性分析[J].草业学报,2012,21(6):207212.
[3] 陈静波,褚晓晴,李珊,等.盐水灌溉对7属11种暖季型草坪草生长的影响及抗盐性差异[J].草业科学,2012,29(8):
11851192.
[4] 卢少云,郭振飞.草坪草逆境生理研究进展[J].草业学报,2003,12(4):713.
[5] CardonaCA,DuncanRR,Lindstrom O.Lowtemperaturetoleranceassessmentinpaspalum[J].CropScience,1997,
37(4):12831291.
[6] CarrowRN.Seashorepaspalumecotyperesponsestodroughtandrootlimitingstresses[J].USGATurfgrassandEnviron
mentalResearch,2005,4(13):19.
052 ACTAPRATACULTURAESINICA(2014) Vol.23,No.6
[7] HuangB,DuncanRR,CarrowRN.Droughtresistancemechanismsofsevenwarmseasonturfgrassesundersurfacesoildr
ying:I.Shootresponse[J].CropScience,1997,37(6):18581863.
[8] Unruh,JB,BreckeBJ,PartridgeDE.Seashorepaspalumperformancetopotablewater[J].USGATurfgrassandEnviron
mentalResearch,2007,6(23):110.
[9] 叶晓青,佘建明,梁流芳,等.海雀稗体细胞低温筛选获得耐寒突变体[J].草地学报,2010,18(1):97102.
[10] 刘国道,罗丽娟.中国热带饲用植物资源[M].北京:中国农业大学出版社,1999:176179.
[11] 贺小霞,刘一明,王兆龙.海滨雀稗栽培品种的形态特征与AFLP分子标记分析[J].草地学报,2011,19(1):164170.
[12] 解新明,卢小良,孙雄松,等.海雀稗种质资源RAPD分子标记的遗传多样性研究[J].华南农业大学学报,2004,25:10
15.
[13] 井赵斌,魏琳,俞靓,等.转录组测序及其在牧草基因资源发掘中的应用前景[J].草业科学,2012,28(7):13641369.
[14] LockhartDJ,WinzelerEA.Genomics,geneexpressandDNAarrays[J].Nature,2000,405:827836.
[15] VelculescuVE,ZhangL,ZhouW,犲狋犪犾.Characterizationoftheyeasttranscriptome[J].Cel,1997,88(2):243251.
[16] AlagnaFD,AgostinoN,TorchiaL,犲狋犪犾.Comparative454pyrosequencingoftranscriptsfromtwoolivegenotypesduring
fruitdevelopment[J].BMCGenomics,2009,10:399.
[17] BarakatA,DiLoretoDS,ZhangY,犲狋犪犾.ComparisonofthetranscriptomesofAmericanchestnut(犆犪狊狋犪狀犲犪犱犲狀狋犪狋犪)and
Chinesechestnut(犆犪狊狋犪狀犲犪犿狅犾犾犻狊狊犻犿犪)inresponsetothechestnutblightinfection[J].BMCPlantBiology,2009,9:51.
[18] DassanayakeM,HaasJS,BohnertHJ,犲狋犪犾.Sheddinglightonanextremophilelifestylethroughtranscriptomics[J].New
Phytologist,2009,183(3):764775.
[19] MaherCA,KumarSinhaC,CaoX,犲狋犪犾.Transcriptomesequencingtodetectgenefusionsincancer[J].Nature,2009,
458:97101.
[20] WangET,SandbergR,LuoS,犲狋犪犾.Alternativeisoformregulationinhumantissuetranscriptomes[J].Nature,2008,
456:470476.
[21] 张争,高志晖,魏建和,等.三年生白木香机械伤害转录组学研究[J].药学学报,2012,47(8):11061110.
[22] 杨楠,赵凯歌,陈龙清.蜡梅花转录组数据分析及次生代谢产物合成途径研究[J].北京林业大学学报,2012,34(1):104
107.
[23] FranssenSU,ShresthaRP,BrautigamA,犲狋犪犾.Comprehensivetranscriptomeanalysisofthehighlycomplex犘犻狊狌犿狊犪狋犻
狏狌犿genomeusingnextgenerationsequencing[J].BMCGenomics,2011,12:227.
[24] DerJP,BarkerMS,WickettNJ,犲狋犪犾.Denovocharacterizationofthegametophytetranscriptomeinbrackenfern,犘狋犲狉犻犱
犻狌犿犪狇狌犻犾犻狀狌犿[J].BMCGenomics,2011,12(1):99.
[25] 王晓锋,何卫龙,蔡卫佳,等.马尾松转录组测序和分析[J].分子植物育种,2013,11(3):385392.
[26] LiRQ,ZhuH M,RuanJ.Denovoassemblyofhumangenomeswithmassivelyparalelshortreadsequencing[J].Genome
Research,2010,20(2):265272.
[27] ConesaA,GtzS,GarcíaGómezJM,犲狋犪犾.Blast2GO:auniversaltoolforannotation,visualizationandanalysisinfunc
tionalgenomicsresearch[J].Bioinformatics,2005,21(18):36743676.
[28] YeJ,FangL,ZhengH,犲狋犪犾.WEGO:awebtoolforplottingGOannotations[J].NucleicAcidsResearch,2006,34:293
297.
[29] MortazaviA,WiliamsBA,McCueK,犲狋犪犾.MappingandquantifyingmammaliantranscriptomesbyRNASeq[J].Nature
Methods,2008,5(7):621628.
[30] 林萍,曹永庆,姚小华,等.普通油茶种子4个发育时期的转录组分析[J].分子植物育种,2011,9(4):498505.
[31] 祁云霞,刘永斌,荣威恒.转录组研究新技术:RNASeq及其应用[J].遗传,2011,33(11):11911202.
[32] 宋建,陈杰,陈火英,等.利用SSR分子标记分析番茄的遗传多样性[J].上海交通大学学报,2006,24(6):524528.
[33] 陈海梅,李林志,卫宪云,等.小麦ESTSSR标记的开发、染色体定位和遗传作图[J].科学通报,2005,50(20):2208
2216.
[34] 刘峰,王运生,田雪亮,等.辣椒转录组SSR挖掘及其多态性分析[J].园艺学报,2012,39(1):168174.
[35] YangHB,LiuWY,KangWH,犲狋犪犾.DevelopmentofSNPmarkerslinkedtotheLlocusin犆犪狆狊犻犮狌犿spp.byacompara
152第23卷第6期 草业学报2014年
tivegeneticanalysis[J].MolecularBreeding,2009,24(4):433446.
[36] YiG,LeeJM,LeeS,犲狋犪犾.ExploitationofpepperESTSSRsandanSSRbasedlinkagemap[J].TheoreticalandApplied
Genetics,2006,114(1):113130.
[37] 曾亮,袁庆华,王方,等.冰草属植物种质资源遗传多样性的ISSR分析[J].草业学报,2013,22(1):260267.
[38] 陈群,袁晓君,何亚丽.高羊茅单株耐热性相关分子标记的筛选及其与越夏性的关系研究[J].草业学报,2013,22(5):84
95.
犜狉犪狀狊犮狉犻狆狋狅犿犲犮犺犪狉犪犮狋犲狉犻狊狋犻犮狊狅犳犘犪狊狆犪犾狌犿狏犪犵犻狀犪狋狌犿犪狀犪犾狔狕犲犱狑犻狋犺犐犾狌犿犻狀犪狊犲狇狌犲狀犮犻狀犵狋犲犮犺狀狅犾狅犵狔
JIAXinping,YEXiaoqing,LIANGLijian,DENGYanming,SUNXiaobo,SHEJianming
(ProvincialKeyLaboratoryofAgrobiology,InstituteofAgrobiotechnology,Jiangsu
AcademyofAgriculturalSciences,Nanjing210014,China)
犃犫狊狋狉犪犮狋:Thetranscriptomeof犘犪狊狆犪犾狌犿狏犪犵犻狀犪狋狌犿leafwassequencedusinganIluminaHiSeq2000plat
form,whichisanewgenerationofhighthroughputsequencingtechnologyusedtostudyexpressionprofiles
andtopredictfunctionalgenes.Inthetargetsample,atotalof47520544readscontaining4752054400bpofse
quenceinformationweregenerated.Atotalof81220unigenescontaining87542503bpsequenceinformation
wereformedbyinitialsequencesplicing,withanaveragereadlengthof1077bp.Unigenequalitiesforseveral
aspectswereassessed,suchaslengthdistribution,GCcontentandgeneexpressionlevel.Thesequencingdata
wasofhighqualityandreliability.The46169unigeneswereannotatedusingBLASTsearchesagainsttheNr,
NtandSwissProtdatabases.Altheassembledunigenescouldbebroadlydividedintobiologicalprocesses,cel
lularcomponentsand48branchesofmolecularfunctioncategoriesbygeneontology,includingmetabolic
process,bindingandcelularprocesses.TheunigeneswerefurtherannotatedbasedonCOGcategory,which
couldbegroupedinto25functionalcategories.Theunigenescouldbebroadlydividedinto112classesaccording
totheirmetabolicpathway,includingthephenylalaninemetabolismpathway,plantpathogeninteraction,plant
hormonebiosynthesisandsignaltransduction,flavonoidbiosynthesis,terpenoidbackbonebiosynthesis,lipid
metabolism,andRNAdegradation.Therewere22721SSRin81220unigenesandintheSSR,A/Twasthe
highestrepeat,folowingbyCCG/CGGandAGC/CTG.Thisstudyisthefirstcomprehensivetranscriptomea
nalysisfor犘犪狊狆犪犾狌犿狏犪犵犻狀犪狋狌犿,providingvaluablegenomedatasourcesforthemolecularbiologyofthis
grass.
犓犲狔狑狅狉犱狊:犘犪狊狆犪犾狌犿狏犪犵犻狀犪狋狌犿;transcriptome;highthroughputsequencing;geneannotation;simplese
quencerepeat
252 ACTAPRATACULTURAESINICA(2014) Vol.23,No.6