免费文献传递   相关文献

Transcriptome Analysis of Germinated Tartary Buckwheat Based on High-throughput Sequencing Technology

基于高通量测序的发芽苦荞转录组学研究



全 文 :·技术与方法·
生物技术通报
BIOTECHNOLOGY BULLETIN 2016, 32(7):40-47
苦荞(tartary buckwheat)是一种蓼科荞麦属双
子叶植物,又名鞑靼荞麦[1](Fagopyrum tataricum),
是药食两用的粮食珍品,原产于我国西南部的四川
凉山地区,目前在西北和西南等地区广有种植[2]。
收稿日期 :2015-09-12
基金项目 :安徽省自然科学基金项目(1308085MC32),安徽科技学院农产品加工及贮藏工程重点学科项目(AKZDXK2015B04)
作者简介 :陈春旭,男,硕士,助教,研究方向 :食品饮料生产工艺及品质控制 ;E-mail :ccx1205@126.com
通讯作者 :郭元新,男,博士,教授,研究方向 :农产品加工及品质控制 ;E-mail :guoyuanxiner@163.com
基于高通量测序的发芽苦荞转录组学研究
陈春旭1  李琦2  郭元新1  杜传来1  丁志刚1
(1. 安徽科技学院食品药品学院,凤阳 233100 ;2. 深圳市坪山新区环境监测站,深圳 518118)
摘 要 : 采用新一代高通量测序技术 Illumina SolexaHiseq 2500对发芽荞麦转录组进行测序,结合生物信息学方法开展基因
表达谱研究和功能基因预测。通过测序,获得了 42 953 962个序列读取片段(reads),包含了 5.37 Gb碱基序列信息。对 reads进
行序列组装,获得 45 278个单基因簇(unigenes),平均长度 862 bp,序列信息达到了 39 Mb。另外,从长度分布、GC含量、表达
水平等方面对 unigenes进行评估,数据显示测序质量好,可信度高。数据库中的序列同源性比较表明,2 127个 unigenes与其他生
物的己知基因具有不同程度的同源性。发芽苦荞转录组中的 unigenes与细胞进程、细胞和蛋白结合相关。将 unigenes与 KOG数据
库进行比对,根据其功能大致可分为 24类。以 KEGG数据库作为参考,依据代谢途径可将 unigenes定位到 328个代谢途径分支,
包括核糖体代谢通路、碳水化合物代谢等,并且筛选出 38条参与 GABA合成的氧化磷酸化代谢的 unigenes。SSR位点查找发现,
从 71 366个 unigenes中共找到 7 141个 SSR位点。SSR不同重复基序类型中,出现频率最高的为 A/T,其次是 AAG/CTT和 AT/AT。
关键词 : 发芽苦荞;Illumina ;转录组;高通量测序
DOI :10.13560/j.cnki.biotech.bull.1985.2016.07.006
Transcriptome Analysis of Germinated Tartary Buckwheat Based on
High-throughput Sequencing Technology
CHEN Chun-xu1 LI Qi2 GUO Yuan-xin1 DU Chuan-lai1 DING Zhi-gang1
(1. College of Food and Drug,Anhui Science and Technology University,Fengyang 233100 ;2. Pingshan Environmental Monitoring Station,
Shenzhen 518118)
Abstract: Illumina SolexaHiseq 2500 high-throughput sequencing technology was used to get the comprehensive transcriptome from
germinated tartary buckwheat. As a result,42 953 962 sequence reads containing 5.37 Gb nucleotide sequence information were obtained.
After de novo assembly by the software of Trinity,a total of 45 278 unigenes were generated,corresponding to a total of 39 Mb with an average
length 862 bp. In addition,the data from the evaluation of the unigenes indicated fine sequencing quality and high reliability from the aspects
of length distribution,GC content,and expression level. The comparison of sequence homology in database showed that 2 127 unigenes
had various degrees of homology with other known biological genes. The unigenes in the transcriptome of germinated tartary buckwheat were
correlated with cellular processes,cell and protein binding. According to KOG database,the unigenes were broadly divided into 24 categories.
Referring to KEGG database,unigenes were located into 328 metabolic pathways,including ribosome,carbohydrate metabolism and so on.
And 38 unigenes involved in the synthesis of GABA in oxidative phosphorylation metabolism were screened. Total 7 141 unigenes were found
from 71 366 by SSR and the highest frequency was A/T,followed by AAG/CTT and AT/AT.
Key words: germinated tartary buckwheat ;Illumina ;transcriptome ;high-throughput sequencing technology
2016,32(7) 41陈春旭等:基于高通量测序的发芽苦荞转录组学研究
苦荞不仅营养价值丰富,还含有黄酮类等活性成分,
具有降糖脂、降胆固醇、抗氧化、清除自由基和消
炎等功效[3]。研究表明,苦荞在萌发后氨基酸更为
均衡,萌发过程可以富集 γ-氨基丁酸(GABA)、黄
酮和芦丁[4]。目前,国内外在苦荞芦丁和蛋白分离
及功能性方面已有较多的研究[5-7],但发芽苦荞的
分子生物学研究较少,造成其分子标记开发、遗传
图谱构建、生长发育及其抗逆机理方面的研究相对
滞后。在特定基因方面,赵海霞等[8]采用半定量
RT-PCR 分析发芽 6 d 苦荞其黄酮合成途径中主要关
键酶基因,以及其转录因子基因相对表达水平 ;李
成磊等[9]用同源克隆和 cDNA 末端快速克隆技术,
获得苦荞 CYP81 家族同源基因 FtP450-R4。在物种
多样性方面,高帆等[10]用正交设计法筛选适用于
苦荞 SSR 标记分析的 PCR 反应体系,筛选出 19 对
引物进行苦荞遗传多样性分析。
近年来,包括基因组、转录组、蛋白质组等各
种组学技术在揭示细胞生理活动规律和生物代谢机
理的研究中起着越来越重要的作用,而转录组学是
率先发展起来及应用最为广泛的技术,能全面快速
地获得某一物种特定细胞或组织在某一状态下的基
因表达情况[11]。同时,随着高通量测序技术的发展,
测序成本的降低,基于高通量测序技术的转录组分
析逐渐成为非模式植物中发掘功能基因的一种有效
手段[12]。因此,本研究以 Illumina SolexaHiseq 2500
高通量测序技术对发芽苦荞进行转录组测序,旨在
获得更多发芽苦荞的转录本和更为全面的转录组信
息,发掘苦荞发芽过程中的重要基因表达。
1 材料与方法
1.1 材料
实验材料为苦荞发芽子叶,样品由安徽科技学
院食品药品学院食品科学与工程课题组提供。将苦
荞种子(内蒙古自治区乌兰察布市生产)以去离子
水清洗后,用 1% 的次氯酸钠消毒 15 min 后冲洗至
pH 中性,于去离子水中 30℃浸泡 2 h,置于铺有
两层滤纸的培养皿中,每 8 h 喷去离子水 1 次,在
30℃的培养箱内避光发芽 2 d 后,选取长势良好、
健康的植株子叶,迅速将其放入纸带内,立即经液
氮速冻后保存于实验室超低温冰箱中备用。提取嫩
叶的 RNA 作为本次实验的需要的 RNA。
1.2 方法
1.2.1 RNA 提取 样品在液氮中研磨至粉末状,加
入 TrizoI 试剂混合均匀,利用 TrizoI 法提取试验材
料苦荞发芽叶片的总 RNA。cDNA 文库的构建参考
文献[13]的方法。
1.2.2 文库的建立与测序 提取样品总 RNA 后,
用 带 有 Oligo(dT) 的 磁 珠 富 集 真 核 生 物 mRNA。
加 入 fragmentaion buffer 将 mRNA 打 断 成 短 片 段,
以 mRNA 为 模 板, 用 六 碱 基 随 机 引 物(random
hexamers) 合 成 第 一 条 cDNA 链, 然 后 加 入 缓 冲
液、dNTPs、RNase H 和 DNA polymerase I 合成第二
条 cDNA 链,在经过 QiaQuick PCR 试剂盒纯化并加
EB 缓冲液洗脱之后做末端修复、加 polyA 并连接测
序接头,然后进行琼脂糖凝胶电泳并分离纯化,最
后进行 PCR 扩增,得到建好的测序文库并将其用
Illumina HiSeq 2500 进行双端测序(paired-end)。
1.2.3 数据的过滤 因为测序得到的 reads(即 Raw
reads)并不都是有效的,里面含有带接头或污染
的 reads,这些 reads 会影响组装和后续分析,我们
必须对下机的 reads 进行过滤,得到有效 reads(即
Clean reads)。
1.2.4 组装 最后利用 Trinity 软件对 Clean reads 进
行拼接。通过 reads overlap 关系得到的不含 N 的组
装片段 Contig,然后以 paired-end reads 将来自同一
转录本的不同 Contig 连接,得到两端不能再延长的
非冗余序列(即 unigenes)。
1.2.5 功能注释 首先通过 blastn 程序将 unigenes
比 对 到 NCBI-Nt 核 酸 数 据 库。 通 过 blastx 程 序 将
unigenes 比对到蛋白质数据库。蛋白质数据库包括
NR、Swiss-Prot、KEGG、GO 和 KOG,E 值 <1e-5。其
中,unigenes 通过 COG、GO 和 KEGG 数据库的分类
的参考文献[14]的方法。
1.2.6 CDS 预 测 通 过 BLAST 软 件 将 unigenes 序
列与蛋白质数据库比对,得到 unigenes 编码区的
核 酸 序 列( 序 列 方 向 5-3) 和 氨 基 酸 序 列。 后
以 orfpredict 软件预测没有比对到蛋白质数据库的
unigenes 的 CDS 序列和氨基酸序列。
1.2.7 SSR 位点的筛选 SSR 位点的筛选利用 MISA
生物技术通报 Biotechnology Bulletin 2016,Vol.32,No.742
软件在所有 unigenes 中搜索 SSR 位点,参数设置如
下 :单核苷酸、二核苷酸至少重复次数为 10,三核
苷酸、四核苷酸、五核苷酸和六核苷酸至少重复次
数均为 5,对查找的 SSR 类型进行特征分析。
2 结果
2.1 荞麦转录组数据的组装
采用 Illumina HiSeq 2500 高通量测序技术对荞
麦发芽嫩叶组织转录组进行测序,共得到 42 953
962 条长度为 125 bp 的 Raw reads。去除 adapter 和
低质量 reads 后,得到 42 818 102 条 Clean reads。因
为 Clean reads 中 Q20 的 百 分 率 为 93.8%(>90%),
所以质量合格,可进行后续分析。对 Clean reads 序
列进行组装,采用 Trinity 软件,在拼接序列去重复
后共获得 71 366 条长度大于 200 bp 的 contig,长度
79 Mb。最大长度、平均长度及 N50 分别为 15 658、
1 102 和 1 748 bp。取每条 Loci 下最长的转录本作为
unigenes,得到了 45 278 条 unigenes,总长度为 39
Mb,平均长度与 N50 分别为 862 bp 和 1 476 bp。其
中,大于 2 000 bp 的序列共有 4 426 条(图 1),占
unigenes 总数的 9.78%,说明测序质量较好。
另外,GC 含量是基因组碱基序列的重要特征之
一,能反映基因的结构、功能和进化信息,GC 分布
不均匀导致基因组不同 GC 含量序列其性质和功能
也有差异。荞麦发芽嫩叶组织的 GC 含量平均值为
42.50%,其中 GC 含量过高(大于 80%)或过低(小
于 20%)的 unigenes 不存在,GC 含量基本呈正态分
布(图 2),从另一方面说明测序质量较好。
5000
20
0-
30
0
30
0-
40
0
40
0-
50
0
50
0-
60
0
60
0-
70
0
70
0-
80
0
80
0-
90
0
90
0-
10
00
10
00
-1
10
0
11
00
-1
20
0
12
00
-1
30
0
13
00
-1
40
0
14
00
-1
50
0
15
00
-1
60
0
16
00
-1
70
0
17
00
-1
80
0
18
00
-1
90
0
19
00
-2
00
0
>2
00
0
ᮠ䟿ᶑ 10000 135105814
3577
2620
2049 1683 1394 1327 1194 1182 1072 964 829 861 748 775 664 589
4426
15000
0 䮯ᓖES
图 1 Unigenes 长度分布图
2000
1000
1500ᮠ䟿ᶑ
500
20 30 40䮯ᓖbp50 60 700
图 2 Unigenes GC 含量分布图
2.2 Unigenes的功能注释、分类和代谢途径分析
2.2.1 Unigenes 的 序 列 相 似 性 分 析 使 用 BLAST
程 序 将 组 装 得 到 的 unigenes 与 NT、NR、KOG、
Swissprot、KEGG 数据库进行比对,进行 unigenes 的
序列相似性分析。结果(表 1)显示,在 NR 注释
成功的 unigenes 的数量最多(64.62%),其后依次是
Swissprot(49.79%),KOG(38.08%),KEGG(12.43%)。
对该 4 组数据库进行拓扑分析,结果(图 3)表明,
共有 2 981 条 unigenes 四条数据库中同时标注成功,
占总 unigenes 数的 6.58%。并且在以上 4 条数据库
中至少 1 条数据库注释成功的 unigenes 有 29 901 条,
占总 unigenes 数的 66.04%。其中,Swissprot 数据库
有少部分(48 条)超出 NR 数据库范围,这可能是
由于注册过程中两种数据库对于特定基因的更新不
同步所致。以 NR 数据库为例进行分析,结果(图
4) 表 明,12 779 条 unigenes 在 NR 数 据 库 中 可 找
到相似序列。在大于 4% 相似序列匹配的近缘物种
中,葡萄(Vitis vinifera)所占比例最高(23.87%),
其后依次是可可(Theobroma cacao,11.58%),杨毛
果(Populus trichocarpa,6.88%),桃(Prunus persica,
6.82%)及番茄(Solanum lycopersicum,4.54%),其
他物种占 17.26%。
2.2.2 Unigenes 的 KOG 功 能 分 类 研 究 真 核 生 物
蛋 白 相 邻 类 的 聚 簇(clusters of orthologous groups
for eukaryotic complete genomes,KOG)是对基因产
物进行直系同源分类的数据库[15],将发芽苦荞与
KOG 数据库进行对比,可预测 unigenes 功能并进行
2016,32(7) 43陈春旭等:基于高通量测序的发芽苦荞转录组学研究
分类统计。结果表明,共有 17 241 条 unigenes(占
unigenes 总数的 38%)被注释到 24 种 KOG 分类中
(图 5 中用 A-Z 表示)。从图中可以看出 unigenes 涉
及的 KOG 功能类别比较全面,涉及了大多数的生
命活动。其中,“一般功能基因”是最大类别,包
含 2 197 条 unigenes, 占 被 注 释 到 unigenes 总 数 的
12.74% ;其次是“信号传导机制”,包含 2 059 条
unigenes;而“未命名蛋白”(2 个)和“核结构”(12 个)
类基因较少 ;其他类别的基因表达丰度都各不相同。
2.2.3 Unigenes 的 GO 分 类 研 究 基 因 本 体 论
(gene ontology,GO)是一个国际标准化的基因功
能分类数据库,用于全面地描述不同生物中基因
的 生 物 学 特 征[16]。 结 合 GO 数 据 库 对 发 芽 苦 荞
的 unigenes 进行功能分类,可从宏观上认识发芽
苦荞表达基因的功能分布特征。结果(图 6)表
明, 有 22 376 条 unigenes 被 注 释 上 GO 分 类, 其
中,样本基因数量在 10 000 条以上且功能在参与
的 生 物 学 过 程(biological process) 分 类 中 主 要 聚
集于细胞进程(cellular process)(14 033 个)和代
谢过程(metabolic process)(12 612 个);在细胞组
分(cellular Component)主要聚集于细胞(cell)(16
492 个)和细胞成分(cell part)(16 492 个);在分
子功能(molecular function)分类中主要聚集于蛋白
表 1 注释结果统计
数据库 Unigenes 数 比例 /%
Swissprot 22542 49.79
KOG 17241 38.08
NR 29257 64.62
KEGG 5629 12.43
NT 10547 23.29
在以上数据库中至少 1 个数据库注释成功 29901 66.04
在以上数据库中都注释成功 2981 6.58
总 Unigenes 45278 100
NR
KEGG Swissprot
KOG
132
12
46
0
0
0
0
54
6615642
5803
11156
4864
50
1027
图 3 注释上各数据库韦恩图
图 4 NR 注释物种分布图
生物技术通报 Biotechnology Bulletin 2016,Vol.32,No.744
结合(binding)(12 890 个)和催化活性(catalytic
activity)(11 714 个)。
2.2.4 Unigenes 的 KEGG 代 谢 途 径 分 析 (kyoto
encyclopedia of genes and genomes,KEGG)是系统分
析基因产物在细胞中的代谢途径以及基因产物功能
的数据库。根据 KEGG 数据库的注释信息能进一步
得到 unigenes 的 Pathway 注释[17]。结合 KEGG 数据
库,对发芽苦荞的 unigenes 可能参与或涉及的代谢
途径进行了统计分析。结果表明,3 662 条 unigenes
参与到 328 个代谢通路中,其中包含 unigenes 最多
的代谢通路是核糖体(ko03010)(表 2),共有 410
条 unigenes,这可能是因为苦荞萌发时,预存在种
子里的 mRNA 指导合成部分蛋白质,形成各种酶,
接着这些酶进一步促使新的 mRNA 的生成,合成更
多的蛋白质,导致核糖体以及线粒体也同时形成[18];
0
A B C D E F G H I J K L M O P Q R S T U V W X Y Z
0
862
1724 ᮠ䟿ᶑ2586
5
10∄ֻ% 15
A :RNA 加工与修饰 ;B :染色质结构与变化 ;C :能量产生与转化 ;D :细
胞周期调控与分裂,染色体重排 ;E :氨基酸运输与代谢 ;F :核苷酸运输
与代谢 ;G :碳水化合物运输与代谢 ;H :辅酶运输与代谢 ;I :脂类运输与
代谢 ;J :翻译,核糖体结构与生物合成 ;K :转录 ;L :复制、重组与修复 ;
M :胞壁 / 膜生物发生 ;N :细胞运动 ;O :蛋白质翻译后修饰与转运,分子
伴侣 ;P :无机离子运输与代谢 ;Q :次生产物合成,运输及代谢 ;R :一般
功能基因 ;S :功能未知 ;T :信号传导机制 ;U :胞内分泌与膜泡运输 ;V :
防御机制 ;W :胞外结构 ;X :未命名蛋白 ;Y :核结构 ;Z :细胞构架
图 5 KOG 分类图
图 6 GO 注释上的基因分布
其 次 是 碳 水 化 合 物 代 谢(ko01200), 包 含 176 条
unigenes。而参与氧化磷酸化(ko00190)的代谢通
路的 unigenes 共有 143 条。
2.2.5 氧化磷酸化基因筛选 苦荞发芽过程可以富
集 γ-氨基丁酸(GABA),而 GABA 代谢过程与氧化
磷酸化过程密不可分,当植物线粒体氧化磷酸化作
用减弱,还原电位增加时,琥珀酸半醛脱氢酶活性
降低。从而消弱了琥珀酸半醛生成琥珀酸的反应,
有利于发芽苦荞中 GABA 的合成积累[19]。因此,结
合 KEGG 数据库,对 pathway 中关于氧化磷酸化通
路中发掘到的 unigenes 进行注释,共统计筛选出 38
条参与氧化磷酸化合成的 unigenes(表 2),编码 7
个关键酶,其中 4 个 unigenes 编码辅酶细胞色素 C
还原酶 ;13 个 unigenes 编码 NAD(P)H-醌氧化还
2016,32(7) 45陈春旭等:基于高通量测序的发芽苦荞转录组学研究
原酶 ;1 个 unigenes 编码细胞色素 C 氧化酶 ;1 个
unigenes 编码正铁血红素 IX 转移酶 ;9 个 unigenes
编码无机焦磷酸酶 ;5 个 unigenes 编码 F 型 H+ 转运
β 亚基 ATP 酶 ;5 个 unigenes 编码 H+ 转运 ATP 酶。
由氧化磷酸化代谢通路(ko00190)的注释结果(图
7)可以看出,除编号为 1.6.99.3、2.7.4.1 和 3.6.3.10
的基因外,其余基因均被注释成功。
2.2.6 CDS 预测 编码序列(coding sequence,CD-
S)指完整的编码蛋白质序列,CDS 的预测可对后
续苦荞麦的基因功能研究和基因组图谱的绘制提供
重要的资源。结果表明,通过与 NR 数据库的比对,
得到的 CDS 序列 44 995 个,对未与 NR 数据库比对
上 的 unigens, 用 orfpredict 软 件 进 行 CDS 的 预 测。
CDS 的长度分布如图 8 所示。
2.2.7 SSR 分 析 简 单 重 复 序 列(simple sequence
repeats,SSR)又称短串联重复序列,广泛存在于
真核生物基因组中,一般采用 SSR 分子标记法对
物种种质资源进行遗传多样性分析[20]。本实验利
用 MISA 软 件 在 发 芽 苦 荞 的 71 366 条 unigenes 中
共 搜 索 到 7 141 个 SSR 位 点, 占 unigenes 总 序 列
的 10.00%。SSR 的类型丰富,单核苷酸至五核苷酸
重复类型均存在,所占比例变化较大(表 4)。其
中,单核苷酸重复所占比例最高,达到了 53.06% ;
比例最低的是五核苷酸重复,仅为 0.18% ;二核苷
酸重复和三核苷酸重复所占比例大致相当,分别为
17.53% 和 28.46%。在检测到的 SSR 中,出现频率
最高的 10 类基序为:A/T(3 744 个)、AAG/CTT(690
个)、AT/AT(607 个)、AG/CT(536 个)、ATC/ATG
(357 个)、ACC/GGT(271 个)、AGG/CCT(176 个)、
AAC/GTT(166 个 )、AGC/CTG(154 个 )、AC/GT
(107 个)。上述 SSR 特征分析,有助于开展苦荞嫩
叶组织及其同属物种的基因组差异分析、通用性标
记开发和遗传图谱构建的研究。
表 3 参与氧化磷酸化的酶
酶 EC 号 Unigenes 数
辅酶细胞色素 C 还原酶 EC :1.10.2.2 4
NAD(P)H- 醌氧化还原酶 EC :1.6.5.3 13
细胞色素 C 氧化酶 EC :1.9.3.1 1
正铁血红素 IX 转移酶 EC :2.5.1.- 1
无机焦磷酸酶 EC :3.6.1.1 9
F 型 H + 转运 β 亚基 ATP 酶 EC :3.6.3.14 5
H + 转运 ATP 酶 EC :3.6.3.6 5
4H+ 2×2H+ 2H+ 3H+ Escherichia coli E. coli Thermus thernophilus
2H+1/2O2
2H+ 4H+
绿色方框内的数字表示被注释成功的基因
图 7 氧化磷酸化代谢通路(ko00190)的注释结果
表 2 KEGG 注释上 Unigenes 最多的 5 个代谢通路
Ko 号 代谢通路 Unigenes 数
ko03010 核糖体 410
ko01200 碳水化合物代谢 176
ko01230 氨基酸生物合成 173
ko00190 氧化磷酸化 143
ko04141 内质网蛋白加工 143
生物技术通报 Biotechnology Bulletin 2016,Vol.32,No.746
表 4 SSR 不同重复序列分布及优势碱基组成
重复基元长度 数量 百分比 /% 优势重复基序
单核苷酸 3 789 53.06 A/T
二核苷酸 1 252 17.53 AC/GT ;AG/CT ;AT/AT
三核苷酸 2 045 28.64
AAC/GTT ;AAG/CTT ;ACC/GGT ;
AGC/CTG ;ATC/ATG ;AGG/CCT
四核苷酸 42 0.59 无
五核苷酸 13 0.18 无
3 讨论
本研究首次采用相对于 454 测序技术和 SOLiD
测序技术在测序成本和数据量输出方面更具优势的
Illumina SolexaHiseq 2500 高通量转录组测序平台[21],
对发芽苦荞的转录组进行测序和功能分析。结果表
明,经过预处理,各样本数据留存率均在 99% 以上,
并且样本原始数据量均达到 5 Gb 以上序列平均长度
约为 117.91 bp,满足分析需求。并且序列组装后得
到了 45 278 个 unigenes,平均长度为 862 bp,N50
值(指从组装最长的 unigenes 依次向下求长度的总
加和,当累加长度达到组装长度的一半时,对应的
unigenes 长度是 N50 长度)为 1 746 bp,组装得到的
长片段数量较多,组装效果较好[22]。此次序列组装
的质量和长度可以满足转录组分析的基本要求。
45 278 个 unigenes 只有 26 248 个在 Blast、同源
性搜索中得到注释,剩下 19 030 个 unigenes 可能是
由于较短而未与公共数据库中的序列比对上,也可
能是非编码序列或者是新的基因[23]。利用 KOG 数
据库对发芽苦荞 unigenes 进行基因功能分类,可从
基因组水平上找寻直系同源体,预测未知 ORF 的生
物学功能,可以大大提高基因功能注释的准确性。
根据 KEGG 数据库对上述 unigenes 进行代谢途径分
析,涉及 328 个具体的代谢途径分支,参与到发芽
苦荞体内的核糖体代谢、碳水化合物代谢、氧化磷
酸化等过程中,为进一步大量挖掘苦荞发芽过程中
的重要表达基因,开展发芽苦荞的基因克隆及功能
验证等研究提供了基础数据。其中 GABA 代谢过程
与氧化磷酸化过程密不可分。
苦荞中含有黄酮类物质,其主要成分为芦丁。
黄酮类化合物代谢途径中的相关基因,如表 5 所
示[24,25],但测序结果均未涉及,这与之前文献[4]
中的结论并不一致,这可能与萌发阶段有关[26]。
本研究在发芽苦荞中发掘到 7 141 个 SSR 位点,
其中单核甘酸和二核甘酸的重复占总数的 70.59%,
为保证 SSR 位点的潜在多态性,在筛选过程中对
于三、四和五核甘酸的最小重复次数同样设置为
5,一定程度上影响了这 3 类核昔酸重复在总 SSR
12000
10000
8000
6000ᮠ䟿ᶑ
4000
2250
3710
9803
10558
2738
2074
1700
1430132412041088 902 761 710 695 577 432 414 349 277
1959
2000 䮯ᓖbp0 0 100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 1400 1500 1600 1700 1800 1900 >2000
图 8 CDS 长度分布图
表 5 黄酮类化合物合成途径中的相关基因
编号 一般注释 编号 一般注释
K01859 参与花青素生物合成 K05280 将柚苷配基转化为圣草酚、将二氢山柰酚转化为二氢槲皮素
K00091 催化生成二氢山柰酚 K13081 催化儿茶素、阿福豆素和儿茶酸的合成
K00660 催化丙二酸单酰 CoA 与香豆酰 CoA 缩合成查耳
酮的反应
K13083 为涉及黄酮代谢的双功能酶、该反应以二氢槲皮素、二氢莰非醇和柑
橘素等为基质
K00475 参与二氢山柰酚的转换过程 K13065 催化柑橘素和圣草酚 3,5 端的羟基化、催化二氢槲皮素转化为而氢
杨梅素
K00487 控制授粉或紫外防护时必要色素合成的碳通量 K08695 涉及木质素合成的酰基转移酶
K00588 涉及植物细胞壁的增强、以及随着细胞壁形成
中伤害的响应和病原体入侵等
K09754 涉及凝缩类丹宁的合成、是花青色素转化成为表儿茶素的主要产物
K05278 催化二氢黄酮醇转化为黄酮醇 K05277 将无色花青素转化为花青素
2016,32(7) 47陈春旭等:基于高通量测序的发芽苦荞转录组学研究
位点中所占比例。本研究结果为今后研究荞麦在发
芽过程中相关基因的调控作用,特别是发芽过程中
GABA 代谢产物的代谢途径奠定了基础。
4 结论
本研究通过 Illumina SolexaHiseq 2500 高通量测
序,获得 5.37 Gb 的发芽苦荞转录组序列,拼接获
得 45 278 条 unigenes,发掘出 38 条参与氧化磷酸化
的 unigenes 以及 7 141 个 SSR 位点。
参 考 文 献
[1]顾娟 . 荞麦淀粉理化特性及消化性研究[D]. 无锡 :江南大学
食品学院 , 2010.
[2]郭刚军 , 何美节 , 邹建云 , 等 . 苦荞黄酮的提取分离及抗氧化活
性研究[J]. 食品科学 , 2008, 29(12):373-376.
[3]张瑞 . 苦荞黄酮及其降血糖活性研究[D]. 北京 :中国农业科
学院 , 2008.
[4]蔡马 . 萌发对荞麦营养成分的影响研究[J]. 西北农业学报 ,
2004, 13(3):18-21.
[5]朱琳 , 任清 , 徐笑颖 . 高速逆流色谱分离纯化苦荞中芦丁、槲
皮素[J]. 食品科学 , 2014, 35(3):47-50.
[6]Kim SL, Park CH. Introduction and nutritional evaluation of
buckwheat sprouts as a new vegetable[J]. Food Research
International, 2004, 37(4):319-327.
[7]Gao XN, Yao HY. Fractionation and characterization of tartary
buckwheat flour proteins[J]. Food Chemistry, 2006, 1 :90-94.
[8]赵海霞 , 吴小峰 , 白悦辰 , 等 . 苦荞芽期黄酮合成关键酶和
MYB 转录因子基因的表达分析[J]. 农业生物技术学报 ,
2012, 20(2):121-128.
[9]李成磊 , 赵海霞 , 温国琴 , 等 . 苦荞细胞色素 CYP81 家族同源
基因 FtP450-R4 的克隆、分子鉴定及其功能分析[J]. 农业生
物技术学报 , 2015, 23(2):181-192.
[10]高帆 , 等 . 中国苦荞 SSR 分子标记体系构建及其在遗传多样
性分析中的应用[J]. 中国农业科学 , 2015, 6 :1042-1053.
[11]Maher CA, et al. Transcriptome sequencing to detect gene fusions
in cancer[J]. Nature, 2009, 458(7):97-101.
[12]Shu S, Chen B, Zhao X, et al. De novo sequencing and transcriptome
analysis of Wolfiporiacocos to reveal genes related to biosynthesis
of triterpenoids[J]. PLoS One, 2013, 8(8):e71350.
[13]Haas BJ, et al. De novo transcript sequence reconstruction from
RNA-seq using the Trinity platform for reference generation and
analysis[J]. Nature Protocols, 2013, 8(8):1494-1512.
[14]Guttikonda SK, et al. Whole genome co-expression analysis of
soybean cytochrome P450 genes identifies nodulation-specific
P450 monoox-ygenases[J]. BMC Plant Biology, 2010, 1 :243.
[15]Zhou Y, Gao F, Liu R, et al. De novo sequencing and analysis of
root transcriptome using 454 pyrosequencing to discover putative
genes associated with drought tolerance in Ammopiptanthus
mongolicus[J]. BMC Genomics, 2012, 13 :266.
[16]杨楠 , 等 . 蜡梅花转录组数据分析及次生代谢产物合成途径研
究[J]. 北京林业大学学报 , 2012, 34(1):104-107.
[17]王晓锋 , 何卫龙 , 蔡卫佳 , 等 . 马尾松转录组测序和分析[J].
分子植物育种 , 2013, 11(3):385-392.
[18]谭保才 , 等 . 激动素对绿豆子叶多聚核糖体形成的促进作用及
其与 RNA 合成的关系[J]. 植物学报 , 1992, 9(10):74-76.
[19]Shelp BJ, et al. Metabolism and functions of gamma-aminobutyric
acid[J]. Trends Plant Sci, 1999, 4(7):446-452.
[20]刘峰 , 王运生 , 田雪亮 , 等 . 辣椒转录组 SSR 挖掘及其多态性
分析[J]. 园艺学报 , 2012, 39(1):168-174.
[21]Kim SJ, Maeda T, Sarker MZ, et al. Identification of anthocyanins
in the sprouts of buckwheat[J]. Journal of Agricultural and Food
Chemistry, 2007, 55(15):6314-6318.
[22]Xu Y, et al. Transcriptome and comparative gene expression
analysis of Sogatella furcifera(Horváth)in response to southern
rice black-streaked dwarf virus[J]. PLoS One, 2012, 7(4):
e36238.
[23]Konishi T, et al. A linkage map of common buckwheat based on
microsatellite and AFLP markers[J]. Fagopyrum, 2006, 2 :1-6.
[24]Kalra S, Puniya BL, Kulshreshtha D, et al. De novo transcriptome
sequencing reveals important molecular networks and meta-holic
pathways of the plant, Chlorophytum horivilianum[J]. PLoS
One, 2013, 8(12):e83336.
[25]Schijlen EC, et al. Modification of flavonoid biosynthesis in crop
plants[J]. Phytochemistry, 2004, 65(19):2631-2648.
[26]Niu SH, Li ZX, Yuan HW, et al. Transcriptome characterization
of Pinus tabuliformis and evolution of genes in the Pinus
phylogeny[J]. BMC Genomics, 2013, 14 :263.
(责任编辑 马鑫)