免费文献传递   相关文献

Transcriptome Library Construction and Sequencing from Chemically Induced Aquilaria sinensis

化学诱导后白木香转录组文库的构建与测序



全 文 :·研究报告·
生物技术通报
BIOTECHNOLOGY BULLETIN 2013年第8期
白 木 香[Aquilaria sinensis(Lour.)Gilg] 又 称
土沉香,瑞香科沉香属植物,是国产沉香的唯一植
物资源[1]。当白木香树干受到物理、化学伤害或真
菌侵染的情况下,可分泌出一种气味芬芳的防御性
黑色树脂,即为我国传统名贵药材沉香。在自然界,
收稿日期 : 2013-06-27
基金项目 : 国家自然科学基金项目(31100496,81102418,81203006),广东省中国科学院全面战略合作项目(2011B090300078),广东省
科技计划项目(2012A030100014)
作者简介 :吴宏清,硕士研究生,研究方向 :植物分子生物学 ;E-mail :whq0401@163.com
通讯作者 : 章卫民,博士,研究员,研究方向 :微生物活性物质及其功能基因 ;E-mail :wmzhang58@qq.com
白玲,博士,副教授,研究方向 :环境工程与应用 ;E-mail :bailing716@yahoo.com.cn
化学诱导后白木香转录组文库的构建与测序
吴宏清1,2  王磊1  陶美华1  高晓霞3  白玲2  章卫民1
(1. 广东省微生物研究所 广东省菌种保藏与应用重点实验室 广东省微生物应用新技术公共实验室 广东省华南应用微生物重点实验室 -省
部共建国家重点实验室培育基地,广州 510070 ;2. 江西农业大学理学院,南昌 330045 ;3. 广东药学院,广州 510006)
摘 要 : 采用改良异硫氰酸胍 -CTAB 法对 5 年生白木香树干经化学诱导后 1 年的各部分组织进行总 RNA 提取,提取到的
总 RNA 经富集 mRNA、打断、构建测序用 cDNA 文库后用于转录组测序,测序质量较高,Q20 高达 97.45%,共获得 54 685 634 条
Clean reads,总测序长度达 4 921 707 060 nt,经初步组装,获得 190 109 条 Contigs 序列,进一步组装,获得 83 467 条 Unigenes 序列,
总长度为 58 569 625 nt,平均长度为 702 nt,N50 值高达 1 120,大于等于 3 000 nt 的 Unigenes 有 1 691 条,占总 Unigenes 的 2.03%,
组装质量较高,使白木香的转录组信息得到较好的保存,为进行白木香结香相关的表达谱分析奠定基础。
关键词 : 白木香 化学诱导 转录组文库 测序 组装 Unigenes
Transcriptome Library Construction and Sequencing from Chemically
Induced Aquilaria sinensis
Wu Hongqing1,2 Wang Lei1 Tao Meihua1 Gao Xiaoxia3 Bai Ling2 Zhang Weimin1
(1. State Key Laboratory of Applied Microbiology Ministry-Guangdong Province Jointly Breeding Base,South China,Guangdong Open
Laboratory of Applied Microbiology,Guangdong Provincial Key Laboratory of Microbial Culture Collection and Application,Guangdong
Institute of Microbiology,Guangzhou 510070 ;2. College of Science,Jiangxi Agricultural University,Nanchang 330045 ;
3. Guangdong Pharmaceutical University,Guangzhou 510006)
Abstract:  Modified guanidinium isothiocyanate-CTAB method was used to isolate the total RNA from five-year-old Aquilaria sinensis
treated by chemical induction one year ago. The mRNA of A. sinensis was enriched from the total RNA and broken into short fragments, and
then the cDNA library was established for RNA-Seq. As a result, 54 685 634 clean reads was obtained after sequencing with a total length of
4 921 707 060 nt. The value of Q20 was up to 97.45%, exhibiting good sequencing quality. After the initial assembly of sequence data, these
clean reads were assembled to 190 109 contigs, which were then assembled to 83 467 unigenes with a total length of 58 569 625 nt and an
average length of 702 nt after the further assembly. The value of N50 was up to 1 120. There were 1 691 unigenes longer than 3 000 nt, accounted
for 2.03% of all unigenes. The good quality of assembly showed the information on the transcriptome of A. sinensis was well preserved, which laid
the foundation for digital gene expression analysis associated with agarwood formation of A. sinensis.
Key words:  Aquilaria sinensis Chemical induction Transcriptome library Sequencing Assembly Unigenes
沉香的形成需要几年至十几年、甚至数十年的时
间。为了快速获得珍贵的沉香药材,人们通过各种
方法人工造香。布兰切特和范贝克[2]利用亚硫酸氢
钠、氯化钠、甲酸等化学物质诱导沉香属(Aquilaria
spp.)植物产生沉香 ;Chen 等[3]用氯化钠诱导成年
生物技术通报 Biotechnology Bulletin 2013年第8期64
白木香产生的沉香与天然沉香的化学成分极为相似。
倍半萜类化合物是沉香的主要药效成分[4],Kumeta
和 Ito[5]及 Okudera 和 Ito[6]的研究结果表明,水杨
酸和茉莉酸甲酯能诱导沉香属植物的悬浮细胞产生
沉香倍半萜前体物质 α-愈创木烯(α-guaiene)、α-蛇
麻烯(α-humulene)和 δ-愈创木烯(δ-guaiene)。Xu
等[7]从伤害诱导的白木香细胞中成功克隆到主产物
为 δ-愈创木烯的合成酶基因,但是从前体物质到沉
香特征产物间的代谢途径仍然未知。
转录组测序是最近发展起来的利用深度测序进
行转录组分析的技术[8],目前已广泛应用于生物学、
医学和临床研究及药物研发等。转录组测序结合表
达谱分析的方法,可以在没有参考基因组的条件下
对转录组进行全测序,以获得的转录组信息为参考,
对不同样品的表达谱进行基因注释,通过比较获得
不同表达谱间的差异表达基因,进而研究其基因功
能。因此,利用转录组测序有助于白木香结香相关
功能基因的发现,阐明沉香特征产物的代谢途径,
揭示人工诱导白木香结香的分子机制。
本研究对 5 年树龄、化学诱导后 1 年的成年白
木香植株进行总 RNA 的提取,获得的总 RNA 用于
Illumina 转录组测序,经测序文库的构建,上机测序,
数据过滤,序列组装,旨在获得完整的白木香转录
组信息,为后续的表达谱分析积累基础数据。
1 材料与方法
1.1 材料
1.1.1 试验材料 试验样品采自广东省信宜市珍稀
沉香发展有限公司的白木香基地,参考王磊等[9]进
行结香试验,其中用于转录组测序的白木香样品取
自同一株 5 年树龄、甲酸处理后 1 年的已结香的白
木香植株及另外一株未进行结香试验的白木香植株。
样品采集时利用前端成钩状的刨刀,除去树皮后,
在树干上从外到内依次刨下样品,外围未变色部分
为白木样品(W 样品),与白木相邻的一圈深棕色木
材为结香样品(A 样品),白木样品与结香样品间还
有部分颜色为浅棕色的木质部,作为结香与未结香
间的过渡样品(T 样品),最内侧已腐烂的部分作为
腐木样品(D 样品),以及从另外一株未结香植株上
采集的白木样品(C 样品)。采集完样品后立即用锡
箔纸包裹置于液氮中保存。
1.1.2 主 要 仪 器 与 试 剂 BioSpec-nano 生 命 科 学
紫 外 / 可 见 分 光 光 度 计 ;EPS 601 电 泳 仪 ;GE
ImageQuant 350 凝胶成像系统 ;Hettich VNIVERSAL-
32R 台 式 冷 冻 离 心 机 ;Agilent 2100 生 物 分 析 仪 ;
Illumina HiSeqTM 2000 测序仪。焦碳酸二乙酯(DEPC)
购自广州杰顺生物科技有限公司 ;改良异硫氰酸
胍 -CTAB 提取液(38% 水饱和酚,1 mol/L 异硫氰酸胍,
2% CTAB,100 mmol/L NaAc-HAc pH5.2,2 mol/L
NaCl,2% PVP),用前混匀 ;抽提液Ⅰ(水饱和酚∶
氯仿∶异戊醇 = 25∶24∶1);抽提液Ⅱ(氯仿∶异
戊醇 = 24∶1)。
1.2 方法
1.2.1 白木香总 RNA 的提取 采用改良异硫氰酸
胍 -CTAB 法分别提取白木香 W、A、T、D 和 C 样
品总 RNA :样品用液氮研磨后迅速分装到含有改良
异硫氰酸胍 -CTAB 提取液的离心管中,剧烈震荡,
室温静置 5 min ;等体积的抽提液 I 抽提 2 次,离
心取上清 ;等体积的抽提液 II 抽提 1 次,离心取上
清 ;加入 1/2 体积的无水乙醇以及与上清等体积的
4 mol/L LiCl,颠倒混匀,-30℃静置过夜,离心取沉
淀 ;沉淀溶于适量 DEPC 处理水中,加入 1/10 体积
3 mol/L NaAc-HAc,混匀后,加入 3 倍体积无水乙
醇,-30℃静置 30 min,4℃离心 10 min ;75% 乙醇
洗涤沉淀 2 次,溶于 30 μL DEPC 处理水中低温保
存。Agilent 2100 生物分析仪对总 RNA 的 RIN 值及
28S∶18S 比值进行检测,验证 RNA 的完整性。等
量合并各样品总 RNA 进入下一步操作。
1.2.2 白木香转录组测序文库的构建 用带有 Oligo
(dT) 的 磁 珠 富 集 总 RNA 样 品 中 的 mRNA, 加 入
fragmentation buffer 将 mRNA 打断成短片段,以打断
后的 mRNA 为模板,用六碱基随机引物合成第一条
cDNA 链。 加 入 缓 冲 液、dNTPs、RNase H 和 DNA
polymerase I 合成第二条 cDNA 链,然后用 QiaQuick
PCR 纯化试剂盒纯化产物,用 EB 缓冲液洗脱后做
末端修复、加 A 并连接测序接头,然后用琼脂糖凝
胶电泳进行片段大小选择,最后进行 PCR 扩增,建
好的测序文库用 Illumina HiSeqTM2000 进行测序。
1.2.3 Illumina HiSeqTM 2000 上机测序[11] 使用 Ill-
2013年第8期 65吴宏清等 :化学诱导后白木香转录组文库的构建与测序
umina HiSeq TM2000 测序平台进行转录组文库的测序。
样品为白木香 W、A、T、D 和 C 各样品合并后的转
录组测序文库。测序得到的原始图像经 base calling
转化为序列数据 Raw reads。
1.2.4 数据过滤 对测序所得的 Raw reads 进行过
滤,滤去的数据包括含接头的 reads,N 的比例大于
5% 的 reads,重复的和质量数较低的 reads(质量值
Q≤10 的碱基数占整个 read 的 20% 以上),过滤后
所得为 Clean reads,后续分析都基于此 Clean reads。
1.2.5 序列的 De novo 组装[12] 使用 Trinity[10]软件
对 Clean reads 做 De novo 组装。将具有一定长度 ove-
rlap 的 reads 连成更长的片段 Contig,然后与 Clean
reads 重新比对,通过 paired-end reads 确定 Contig 所
属的转录本以及在转录本中的分布,Trinity 软件能
将这些 Contig 连在一起,得到两端不能再延长的序
列。然后使用 Tgicl 对其进行去冗余和进一步拼接,
并对其进行同源转录本聚类,得到最终的 Unigene。
聚类后 Unigene 分为两部分,一部分是 clusters(以
CL 开头),另一部分是 singletons(以 Unigene 开头)。
2 结果
2.1 白木香总RNA的获得
使用改良异硫氰酸胍 -CTAB 法提取白木香各组
织总 RNA,经 Agilent 2100 生物分析仪检测,RIN
值最小为 6.7,28S∶18S 均大于 1.0,RNA 总量远大
于 20 μg,满足转录组测序的需求,结果如表 1 所示。
表 1 用于转录组测序的白木香总 RNA 质量
样品 浓度(ng/μL) 总量(μg) RIN 28S∶18S
W 399.71 69.77 7.4 1.2
T 672.67 103.86 6.9 1.2
A 498.00 51.79 6.8 1.3
D 196.00 38.07 9.7 2.1
C 365.11 67.32 6.7 1.1
2.2 测序产量统计
如表 2 所示,Illumina HiSeqTM 2000 上机测序后
获得 Raw reads 共 58 804 828 条,过滤后获得 Clean
reads 共 54 685 634 条,总测序长度为 4 921 707 060
nt,Q20 值达 97.45%,测序质量较高。
2.3 组装结果统计及质量评估
如表 3 所示,经初步组装后,共获得 190 109
条 Contigs,平均长度有 324 nt,N50 值为 549,进一
步组装后,共获得 83 467 条 Unigenes,平均长度高
达 702 nt,N50 值较高,达 1 120,序列组装理想,
使得白木香的转录组数据得到较好的保存。
表 3 组装结果
组装 数量 总长度(nt) 平均长度(nt) N50
Contigs 190 109 61 508 100 324 549
Unigenes 83 467 58 569 625 702 1120
N50 :将所有 Contigs 或 Unigenes 从大到小排列,从第一条序列开始累计
相加,达到总长的 1/2 时对应的 Contig 或 Unigene 的长度
图 1 为所获得 Contigs 的组装统计结果。序列
长度大于等于 500 nt 的 Contigs 高达 26 786 条,占
总 Contigs 的 14.09% ;其 中, 大 于 等 于 1 000 nt 的
Contigs 达 2 518 条,占总 Contigs 的 1.32% ;大于等
于 2 000 nt 的 Contigs 达 1 429 条, 占 总 Contigs 的
0.75% ;大于等于 3 000 nt 的 Contigs 有 1 012 条,占
总 Contigs 的 0.53%。
图 2 表示 Contigs 进一步组装后获得 Unigenes 的
组装统计结果。序列长度大于等于 1 000 nt 的 Unig-
enes 高 达 17 155 条, 占 总 Unigenes 的 20.56% ;其
中,大于等于 2 000 nt 的 Unigenes 有 5 189 条,占总
Unigenes 的 6.22 % ;大 于 等 于 3 000 nt 的 Unigenes
有 1 691 条,占总 Unigenes 的 2.03%。
3 讨论
转录组测序技术是建立在新一代高通量测序平
台(如 Roche GS FLX 或 Illumina HiseqTM 2000)上的
cDNA 测序技术,自 2008 年 Nature 和 Science 上分
别发表利用转录组测序技术研究裂殖酵母(Schizos-
accharomyces pombe)、酿酒酵母(Saccharomyces cer-
evisiae)转录组的论文[13,14]后,转录组测序技术已
成为研究转录组的革命性工具。对比转录组学研究
表 2 白木香转录组测序统计
统计项目 数值
Raw reads 58 804 828
Clean reads 54 685 634
总长度(nt) 4 921 707 060
单个 Clean read 的长度(nt) 90
Q20(%) 97.45
N 百分比(%) 0.00
GC 含量百分比(%) 51.02
Q20 :过滤后测序质量值大于等于 20 的碱基所占的百分比 ;N :过滤后的
不确定碱基
生物技术通报 Biotechnology Bulletin 2013年第8期66
的其他方法,转录组测序可检测任意物种的转录组,
无需前提信息,无需克隆,理论上可检测所有转录
信息。
为了研究白木香未结香组织和结香组织间的
表达差异,获得与结香相关的功能基因,可以采用
数字基因表达谱分析的方法,筛选未结香与结香
组织间的差异表达基因。然而,如今 NCBI 上未有
白木香的参考基因组或参考转录组信息,因此必须
先进行转录组测序,获得总的转录组信息,在获得
转录组序列的基础上进行表达谱分析及差异基因的
研究。
张争等[15]利用 454 测序平台,对机械伤害后
的白木香茎的转录组进行测序,共获得 22 095 条平
均长度为 314 nt 的 Unigenes。本研究对化学诱导后
白木香样品的转录组测序、组装,共获得 83 467 条
平均长度为 702 nt 的 Unigenes,转录组信息保存较
完整,为化学诱导白木香结香机理的研究提供大量
的基础数据。为了便于后续的表达谱分析,防止因
个体差异引起的无关信息过多,本研究选择来自同
一株白木香不同部位的 W、T、A 和 D 4 个样品用于
后续的分析,可消除因来自不同植株的样品对差异
基因筛选的干扰。将 W 样品作为对照组,T、A 和
D 3 个样品分别作为试验组,获取各对照的差异表
达基因,研究其基因功能,进而揭示化学诱导白木
香结香的分子机理,获得与化学诱导相关的基因和
转录因子。
4 结论
采用改良异硫氰酸胍 -CTAB 法提取白木香各
11
25
34
30
53
9
13
20
4
70
46
46
76
34
19
25
76
21
00
17
15
15
06
13
17
11
43
10
00
89
1
78
9
70
1
61
5
51
5
47
1
41
7
34
3
31
3
28
3
20
9
18
1
17
9
15
2
14
2
12
1
10
12
20
0
30
0
40
0
50
0
60
0
70
0
80
0
90
0
10
00
11
00
12
00
13
00
14
00
15
00
16
00
17
00
18
00
19
00
20
00
21
00
22
00
23
00
24
00
25
00
26
00
27
00
28
00
29
00
30
00ı300
0
1.E+06
1.E+05
1.E+04
1.E+03
1.E+02
C
on
tig

ᒿࡇ䮯ᓖ nt
28
76
5
13
10
8
74
60
51
90
39
19
31
36
25
56
21
78
19
10
16
93
15
25
13
17
11
97
10
72
97
3
89
0
71
2
67
7
56
7
50
1
45
4
43
2
31
4
26
9
30
2
25
9
20
7
19
3
16
91
20
0
30
0
40
0
50
0
60
0
70
0
80
0
90
0
10
00
11
00
12
00
13
00
14
00
15
00
16
00
17
00
18
00
19
00
20
00
21
00
22
00
23
00
24
00
25
00
26
00
27
00
28
00
29
00
30
00ı300
0
1.E+01
1.E+00
1.E+05
1.E+04
1.E+03
1.E+02C
on
tig

ᒿࡇ䮯ᓖ nt
图 1 白木香转录组 Contigs 组装统计
图 2 白木香转录组 Unigenes 组装统计
2013年第8期 67吴宏清等 :化学诱导后白木香转录组文库的构建与测序
组织总 RNA,构建转录组测序文库后进行 Illumina
HiSeqTM 2000 上机测序,共获得 54 685 634 条 Clean
reads,总长度为 4 921 707 060 nt,经多次组装获得
83 467 条 Unigenes, 平 均 长 度 为 702 nt,N50 值 为
1 120, 大 于 等 于 3 000 nt 的 Unigenes 有 1 691 条,
占总 Unigenes 的 2.03%,测序和组装质量较高。
参 考 文 献
[1] 中国科学院中国植物志编辑委员会 . 中国植物志[M]. 北京 :
科学出版社 , 1999 :290.
[2] 布兰切特 RA, 范贝克 HH. 栽培的沉香木 :US, ZL 02810500.1
[P]. 2004-10-27.
[3] Chen HQ, Yang Y, Xue J, et al. Comparison of compositions and
antimicrobial activities of essential oils from chemically stimulated
agarwood, wild agarwood and healthy Aquilaria sinensis(Lour.)
Gilg trees[J]. Molecules, 2011, 16(6):4884-4896.
[4] 杨俊山 . 沉香化学成分的研究概况[J]. 天然产物研究与开发 ,
1998, 10(1):99-103.
[5] Kumeta Y, Ito M. Characterization of δ-guaiene synthases from
cultured cells of Aquilaria, responsible for the formation of the
sesquiterpenes in agarwood[J]. Plant Physiol, 2010, 154(4):
1998-2007.
[6] Okudera Y, Ito M. Production of agarwood fragrant constituents in
Aquilaria calli and cell suspension[J]. Plant Biotechnology, 2009,
26(3):307-315.
[7] Xu YH, Zhang Z, Wang MX, et al. Identification of genes related to
agarwood formation :transcriptome analysis of healthy and wounded
tissues of Aquilaria sinensis[J]. BMC Genomics, 2013, 14(1):
227.
[8] 祁云霞 , 刘永斌 , 荣威恒 . 转录组研究新技术 :RNA-Seq 及其
应用[J]. 遗传 , 2011, 33(11):1191-1202.
[9] 王磊 , 章卫民 , 高晓霞 , 等 . 一种人工诱导白木香产生沉香的方
法 :中国,CN102302041A[P]. 2012-01-04.
[10] Grabherr MG, Haas BJ, Yassour M, et al. Full-length transcriptome
assembly from RNA-Seq data without a reference genome[J].
Nat Biotechnol, 2011, 29(7):644-652.
[11] Feng C, Chen M, Xu CJ, et al. Transcriptomic analysis of Chinese
bayberry(Myrica rubra)fruit development and ripening using
RNA-Seq[J]. BMC Genomics, 2012, 13 :19-33.
[12] Xiang LX, He D, Dong WR, et al. Deep sequencing-based
transcriptome profiling analysis of bacteria-challenged Lateolabrax
japonicus reveals insight into the immune relevant genes in marine
fish[J]. BMC Genomics, 2010, 11 :472-492.
[13] Wilhelm BT, Marguerat S, Watt S, et al. Dynamic repertoire
of a eukaryotic transcriptome surveyed at single-nucleotide
resolution[J]. Nature, 2008, 453(7199):1239-1243.
[14] Nagalakshmi U, Wang Z, Waern K, et al. The transcriptional
landscape of the yeast genome defined by RNA sequencing[J].
Science, 2008, 320(5881):1344-1349.
[15] 张争 , 高志晖 , 魏建和 , 等 . 三年生白木香机械伤害转录组学
研究[J]. 药学学报 , 2012, 47(8):1106-1110.
(责任编辑 李楠)