免费文献传递   相关文献

白刺花种子转录组分析



全 文 : 1
研究报告
Research Report
白刺花种子转录组分析
刘杰 1,2 罗充 1 孙威 1,2 乙引 1,2*
1 贵州师范大学生命科学学院, 贵阳, 550001; 2 贵州省植物生理与发育调控重点实验室, 贵阳, 550001
*通讯作者, yiyin@gznu.edu.cn
摘 要 为探索白刺花(Sophora viciifolia)硬实形成的相关机制,采用 Illumina HiSeqTM 2 000 高通量测序技
术对白刺花种子转录组进行测序,利用 Trinity 软件将数据组装形成转录本,对所有转录本进行 Nr (NCBI
non-redundant protein sequences)、Nt (NCBI nucleotide sequences)、Pfam (Protein family)、KOG/COG
(euKaryotic Ortholog Groups/Clusters of Orthologous Groups)、Swiss-Prot (A manually annotated and reviewed
protein sequence database)、KEGG (Kyoto Encyclopedia of Genes and Genomes)和 GO (Gene Ontology)分类和
功能注释、Pathway 注释,并对种子形成的代谢通路中的相关基因进行了分析。转录组共获得了 333 339 724
条初始序列,总长为 335 557 bp,初始序列组装获得序列片段的平均长度与 N50 值分别为 282 和 537 bp;
与 KOG 功能注释、GO 分类及 KEGG 代谢通路分析后,获得了 44 840 个 GO 功能注释、46 126 个 KOG
功能注释以及 89 494 个 PFAM 注释:并从 KEGG 通路中找到有色氨酸代谢、半胱氨酸和甲硫氨酸的代谢
途径的编码基因片段分别有 66 和 37 个。
关键词 白刺花, 转录组, 硬实, 高通量测序
Transcriptomics Analysis of Hard Seeds of Sophora Viciifolia
Liu Jie 1,2 Luo Chong 1 Sun Wei 1,2 Yi Yin 1,2
1 School of Life Sciences, Guizhou Normal University, Guizhou Province, Guiyang 550001; 2 Key Laboratory of Plant Physiology
and Development Regulation, Guizhou Province, Guiyang, 550001
* Corresponding author, yiyin@gznu.edu.cn
Abstract In order to understand the mechanism of hard seeds in Sophora viciifolia, the experiment used
Illumina HiSeqTM 2 000 high-throughput sequencing technology to sequence its transcriptome. Trinity soft was
used to assemble the data to form transcripts. Based on the Nr (NCBI non-redundant protein sequences), Nt
(NCBI nucleotide sequences), Pfam (Protein family), KOG/COG (euKaryotic Ortholog Groups/Clusters of
Orthologous Groups), Swiss-Prot (A manually annotated and reviewed protein sequence database), KEGG (Kyoto
Encyclopedia of Genes and Genomes) and GO (Gene Ontology) databases, the experiment carried out functional
annotation and classification, and the pathway annotation. The correlative genes in the hard seed forming process
网络出版时间:2016-09-13 08:18:27
网络出版地址:http://www.cnki.net/kcms/detail/46.1068.S.20160913.0818.002.html
2
were analyzed. The results showed that 333 339 724 reads were acquired and the total length was 335 557 bp. The
mean length and N50 length were 282 and 537 bp, respectively. Among of them, 46 126 annotations was from
KOG, 44 840 from GO and 89 494 from PFAM after functional annotation against these databases. From KEGG
pathway, 66 and 37 unigenes were associated with the pathway of tryptophan metabolism, cysteine and
methionine biosynthesis, respectively.
Keywords Sophora viciifolia, Transcriptome, Hard seed, High throughput sequencing
白刺花(Sophora viciifolia Hance),又名马蹄针、狼牙刺,为豆科蝶形花亚科槐属,半常绿落叶灌木树
种,可选作半常绿绿篱,也可丛植,群植,是喀斯特地区植被恢复的优势落叶灌木树种(李兴美和何胜江,
2012; 李安定等, 2013)。白刺花种子属硬实种子,种皮革质,表面蜡质,透水性和透气性较差,致使种子
存在不同程度的休眠,硬实率达 80%~90% (郭学民, 2010; 赵丽丽, 2011)。
目前,对白刺花植物的利用与研究迫切需要它的遗传信息,而白刺花基因组与转录组的相关报道匮乏。
本实验以白刺花种子不同发育时期的种皮为研究对象,首次采用 Illumina 对白刺花种子不同发育时期进行
转录组的研究,以期探索白刺花种子硬实形成过程中的基因表达调控模式及表达量的变化,同时也为分子
标记等提供理论数据(吴琼等, 2010; 张楠等, 2013; 王洋和柏锡, 2014; 张振等, 2015)。通过对白刺花种子硬
实机制及其转录组分析的研究更加明确了白刺花在喀斯特环境中的生存策略,从而给喀斯特山地植被恢复
的物种选择提供科学、可靠的理论指导。
1 结果与分析
1.1 总 RNA、测序文库质量检测
经琼脂糖凝胶电泳、Nanodrop 检测、Qubit 定量和 Agilent 2 100 RNA 6 000 Kit 试剂盒对白刺花种皮不
同时期的 6 份试验材料总 RNA 质量进行检测,结果所示,6 份样品均符合后续建库标准(表 1)。
表 1 样品中 RNA 质检
Table 1 Quality certificate of RNA
样品
sample
浓度(ng/µl)
Concentration
体积(µl)
Volume
总量(µl)
Volume dose
OD260/
OD280
OD260/
230
15S/
18S
RIN 值
RIN value
检测结果
Detection result
1 656 27 17.71 2.05 2.236 1.5 6.3 A
2 494 35 17.29 2.076 2.093 1.7 8 A
3 42 45 1.89 1.909 0.42 0.8 5.8 C
4 12 46 0.55 2.333 0.028 1.2 8.2 C
5 15 47 0.71 1.667 0.278 0.8 6.9 C
6 20 51 1.02 2.5 0.303 0.9 7 C
注: 1,2 分别表示绿熟期的两个平行; 3,4 分别表示黄熟前期的两个平行、5,6 分别表示完熟期的两个平行。
Note: 1,2: Two parallels of the prophase; 3,4: Two parallels of metaphase; 5,6: Two parallels of anaphase
3
1.2 测序数据统计
对白刺花种子绿熟期、黄熟前期、完熟期 3 个阶段的种皮进行转录组测序,共得到 333 339 724 条的
原始数据。通过对 raw reads 进行数据过滤,去除含有带接头的、低质量的 reads,后获得 317 111 230 条的
有效转录组数据,白刺花种子绿熟期、黄熟前期、完熟期 3 个阶段的种皮各材料的转录组数据在 7.17~9.43
Gb (表 2)。随后对总数据进行 Trinity 拼接(k-mer (k=25)),选择种子 k-mer 并进行两边延伸,形成 contig。
获得的 contig 总长度约为 335 557 bp,最小长度的 contig 为 201 bp,平均 contig 长度为 462 bp,最大长度
为 17 043 bp,N50 长度为 537 bp,N90 长度为 229 bp。
表 2 拼接长度分布状况
Table 2 Splice length distribution

最小长度
Min Length
平均长度
Mean Length
中值长度
Median Length
最大长度
Max Length
N50 N90
总核苷酸
Total Nucleotides
转录产物
Transcripts
201 566 318 17 043 815 242 241 052 702
功能基因
Unigenes
201 462 282 17 043 537 229 154 948 721
注: N50/N90 的定义为: 将拼接转录本按照长度从长到短排序, 累加转录本的长度, 到不小于总长 50%/90%的拼接转录本的长度
就是 N50/N90, 可用于评估拼接效果
Note: N50/N90 is defined as the spliced transcript from long to short according to the length of the sequence, the length of the
accumulative transcript, to not less than 50% / 90% of the length of the spliced transcript is N50 / N90, which could be used to evaluate
stitching effect
1.3 转录本长度分析
对白刺花种皮转录组 contig 的长度分布特征进行分析(表 3)。结果显示在总 contig 中,所占比例最大
的 contig 为 200~500 bp,占 77.88%。其中 500~1 000 bp contig 有 47 407 条(14.13%),1 000~2 000 bp 的有
19 160 条(5.71%)。长度大于 2 kb 的 contig 共有 7 644 条,约占 2.28%。
1.4 转录本的功能注释
1.4.1 注释结果统计
分别将各转录本注释到 Nr、Nt、Pfam、KOG/COG、Swiss-Prot、KEGG 和 GO 数据库中,对注释到
每个数据库中的转录本数据进行统计(表 4)。Nt 数据库注释的转录本最多,为 137 260 条,占所有转录本
的 40.9%;Nr 数据库注释的转录本数量为 119 208 条,占 35.52%;SwissProt 数据库注释的转录本为 100 216
4
条,占 29.86%。
表 3 拼接长度频数分布情况
Table 3 Distribution of splice length frequency
转录产物的长度间
Transcript length interval
200~500 bp 500~1k bp 1k~2k bp >2k bp Total
转录产物数目
Number of transcripts
297 445 71 486 38 891 17 749 425 571
功能基因数目
Number of unigenes
261 346 47 407 19 160 7 644 335 557
表 4 基因注释成功率统计
Table 4Statistics in success rate of gene annotation

功能基因数目
Number of Unigenes
百分率(%)
Percentage
( )
NR 数据库注释
Annotated in NR
119 208 35.52
NT 数据库注释
Annotated in NT
137 260 40.9
KO 数据库注释
Annotated in KO
44 840 13.36
SwissProt 数据库注释
Annotated in SwissProt
100 216 29.86
PFAM 数据库注释
Annotated in PFAM
89 494 26.67
GO 数据库注释
Annotated in GO
91 512 27.27
KOG 数据库注释
Annotated in KOG
46 126 13.74
所有数据库中注释
Annotated in all Databases
18 302 5.45
至少在一个数据库注释
Annotated in at least one
193 933 57.79
功能基因的总数
Total Unigenes
335 557 100
注: NR 数据库注释: NR 注释成功的 Unigene 数目及其占总 Unigene 数的比例; NT 数据库注释: NT 注释成功的 Unigene 数目
及其占总 Unigene 数目的比例; KO 数据库注释: KO 注释成功的 Unigene 数目及其占总 Unigene 数的比例; SwissProt 数据库注
5
释: Swissprot 注释成功的 Unigene 数目及其占总 Unigene 数的比例; PFAM 数据库注释: Pfam 注释成功的 Unigene 数目及其占
总 Unigene 数的比例; GO 数据库注释: GO 注释成功的 Unigene 数目及其占总 Unigene 数的比例
Note: Annotated in NR: The number of Unigene NR notes successfully and its share in total Unigene ratio; Annotated in NT: The
number of Unigene NT notes successfully and its share in total Unigene ratio; Annotated in KO: The number of Unigene KO notes
successfully and its share in total Unigene ratio; Annotated in Swissprot: The number of Unigene Swissprot notes successfully and its
share in total Unigene ratio; Annotated in Pfam: The number of Unigene Pfam notes successfully and its share in total Unigene ratio;
Annotated in GO:The number of Unigene GO notes successfully and its share in total Unigene ratio
1.4.2 转录本 KOG 分类
在 KOG 功能分类体系中,获得的功能注释涉及 26 个 KOG 功能类别,其中,General function prediction
only 转录物的比例最大(7 668 条),Unamed protein 最少(3 条),其他种类基因的表达丰度不尽相同(图 1)。

图 1 KOG 分类
注: 横坐标为 KOG 的 26 个 group 的名称; 纵坐标为注释到该 group 下的基因个数占被注释上的基因总数的比例; A: RNA 加
工与修饰; B: 染色质结构与动力学; C: 能量生产与转换; D: 细胞周期控制, 细胞分裂, 染色体分区, 细胞分裂, 染色体分离;
E: 氨基酸运输与代谢; F: 核苷酸运输与代谢; G: 碳水化合物运输与代谢; H: 辅酶运输与代谢; I: 脂质运输与代谢; J: 翻译,
核糖体结构与生物合成; K: 转录; L: 复制, 重组和修复; M: 细胞壁/膜/胞外被膜; N: 细胞运动; O: 翻译后修饰, 蛋白折叠,
分子伴侣; P: 无机离子运输与代谢; Q: 次生, 代谢物生物合成, 运输与代谢; R: 整体功能预测; S: 功能未知; T: 信号转导机
制; U: 胞内运输, 分泌和囊泡运输; V: 防御机制; W: 胞外结构; X: 未知蛋白; Y: 核结构; Z: 细胞骨架
Figure 1 Classification of KOG
Note: The name of the abscissa is 26 groups KOG, the ordinate is the number of notes to the group gene accounted for the proportion
of the total number of gene annotation. A: RNA processing and modification RNA; B: Chromatin structure and dynamics; C: Energy
6
production and conversion; D: Cell cycle control, cell division, chromosome; E: Amino acid transport and metabolism; F: Nucleotide
transport and metabolism; G: Carbohydrate transport and metabolism; H: Coenzyme transport and metabolism; I: Lipid transport and
metabolism; J: Translation, ribosomal structure and biogenesis; K: Transcription; L: Replication, recombination and repair; M: Cell
wall/membrane/envelope biogenesis; N: Cell motility; O: Posttranslational modification, protein turnover, chaperones; P: Inorganic
ion transport and metabolism; Q: Secondary metabolites bio, synthesis, transport and catabolism; R: General function prediction only;
S: Function unknown; T: Signal transduction mechanisms; U:Intracellular trafficking, secretion, and vesicular transport; V:Defense
mechanisms; W: Extracellular structures; X:Unamed protein; Y: Nuclear structure; Z: Cytoskeleton
GO富集性分析将注释的Unigene序列分成生物过程(Biological process)、细胞组分(Cellular component)、
分子功能(Molecular Function) 3 个大类 56 个小类,分别包含了 16、16、24 个功能亚类,其中,Biological
Process 中,cellular、metabolic 基因最多;Cellular component 中,cell、cell part 基因最多;Molecular Function
中,binding、catalytic activity 基因最多。



图 2 GO 富集性分析
注: 横坐标从左往右依次对应为: 生物过程: 行为; 生物附着力; 生物调节; 细胞聚集; 细胞死亡; 细胞成分和生物合成; 细
胞过程; 发育过程; 生长; 免疫系统过程; 定位; 移位; 代谢过程; 多细胞组织过程; 多机体过程; 负调节生物过程; 正调节
生物过程; 生物过程调节; 再生; 再生过程; 刺激应答; 律动过程; 信号传导; 单一有机体程序. 细胞组成:细胞; 细胞连接;
细胞要素; 细胞外基质; 细胞外基质组分; 胞外区; 胞外区要素; 大分子复合物; 膜; 膜封闭腔; 膜要素; 核仁; 细胞器; 细
胞器要素; 其他有机体; 其他有机体要素; 共质体; 突触; 突触要素; 病毒体; 病毒体要素. 分子功能: 抗氧化活性; 绑定; 催
化活性; 金属伴侣活性; 分子功能调节; 分子转导活性; 核酸结合的转录因子的活性; 结构分子活性; 蛋白结合转录因子活
性; 转运活性
Figure 2 Analysis of GO enrichment
7
Note: Form left to right: Biological process: Behavior; Biological adhesion; Biological regulation; Cell aggregation; Cell killing;
Cellular component organization or biogenesis; Cellular process; Developmental process; Growth; Immune system process;
Localization; Locomotion; Metabolic process; Muhicellular organism process; Multi-organism process; Negative regulation of
biological process; Positive regulation of biological process; Regulation of biological process; Reproduction; Reproductive process;
Response to stimulus; Rhythmyc process; Signaling; Single-organism process. Cellular component: Cell; Cell junction; Cell part;
Extracellular matrix; Extracellular matrix component; Extracellular region; Extracellular region part; Macromoleular complex;
Membrane; Membrane-enclosed lumen; Membrane part; Nucleoid; Organelle; Organelle part; Other organism; Other organism part;
Symplast; Synapse; Synapse part; Virion; Virion part. Molecular function: Antioxidant activity; Binding; Catalytic activity;
Metallochaperone activity; Molecular function regulator; Molecular transducer activit; Nucleic acid binding transcription factor
activity; Structural molecule activity; Transcription faction activity, protein binding; Transporter activity
1.4.3 不同时间差异 Unigene 的 GO 分析
在转录组测序、组装和注释的基础上,将白刺花不同时间的种皮进行基因表达对比分析(表 5)。结果
发现完熟期(Anaphase)、黄熟前期(Metaphase)分别与绿熟期(Prophase)相比,分别有 80 885 个、111 个 Unigene
上调表达,有 28 391 个、34 个 Unigene 下调表达;完熟期(Anaphase)与黄熟前期(Metaphase)相比,有 79693
个 Unigene 上调表达,有 28 377 个 Unigene 下调表达。研究发现完熟期与绿熟期差异的 Unigene 数量最多,
说明完熟期在形成过程中的各途径中 Unigene 表达量丰富。
表 5 注释的差异基因数量统计
Table 5 Note the difference of gene number statistics
类型
Type
总数
Total number
上调
Up number
下调
Down number
完熟期: 黄熟前
Anaphase vs Metaphase
108 070 79 693 28 377
完熟期: 绿熟期
Anaphase vs Prophase
109 276 80 885 28 391
黄熟前期: 完熟
Metaphase vs Prophase
145 111 34
注: 第一列表示样品组合; 前一个样品为对照组; 后一个样品为实验组
Note: The first column represents the sample combination, the first one is the control group, and the later one is the experimental
group
1.4.4 不同组织差异 Unigene 的 pathway 注释分析
为了研究差异 Unigene 涉及的代谢途径,利用 KEGG 数据库分别对其进行了 pathway 富集分析
(Kanehisa et al., 2008)。FDR≤0.05 的 Pathway 定义为在差异表达基因中显著富集的 Pathway,我们使用
8
KOBAS (2.0),设置参数--fdr 为 BH(即使用 BH 校正)进行 Pathway 富集分析(Lin et al., 2011)。结果(表 6)发
现 Ribosome 途径下差异基因的个数达到了 525 个,占注释到该通路下基因的个数的 30.68%。且该途径的
Corrected P-value 值为 2.56285521289e-15,证明 Ribosome 途径为富集项。相应的 Spliceosome、RNA
transport、Plant hormone signal transduction 途径下的差异基因的个数分别为 313、283 和 234,分别占该通
路下基因个数的 27.67%、27.40%和 28.33%,且 Corrected P-value 都小于 0.05, 因此该 pathway 为富集项。
表 6 差异基因 KEGG 显著性富集
Table 6 The list of genetic variations in KEGG significant enrichment
项目
Term
数据
Database
编号 ID
样品数目
Sample
number
背景数目
Background
number
P-值
P-Value
校正后 P-值
Corrected P-Value
核糖体
Ribosome
KEGG PATHWAY ko03010 525 1 711 7.98397262584e-18 2.56285521289e-15
剪接
Spliceosome
KEGG PATHWAY ko03040 313 1 132 1.87879705174e-07 3.01546926804e-05
RNA 转运
RNA transport
KEGG PATHWAY ko03013 283 1 033 1.30322563048e-06 0.000118107460361
植物激素
Plant hormone
signal transduction
KEGG PATHWAY ko04075 234 826 1.47174405434e-06 0.000118107460361
注: 项目: KEGG 通路的描述信息; ID: KEGG 数据库中通路唯一的编号信息; 样品数目: 在该通路下的差异基因的个数; 背
景数目: 注释到该通路下基因的个数; P 值: 富集分析统计学显著水平; 校正后 P-值: 采用 BH 法校正后的 P 值, 一般情况下,
校正后 P-值 < 0.05 的 pathway 为富集项
Note: the project description information of the KEGG pathway; the number of information access ID: KEGG database only; the
sample number: the number of genes in this pathway under the background: the number of notes to pathway genes; P value:
enrichment analysis statistically significant after correction; P- value: after correction the P value by BH method, under normal
circumstances, the corrected P- value < 0.05 pathway as an enrichment
1.5 植物激素信号转导途径相关基因初探
转录组数据库中注释到植物激素信号转导途径的 Unigene 基因有 225 个,代谢途径有 8 个不同的分支。
对不同部位的转录组数据进行 Pathway 富集性分析发现共有 66 个 Unigene 可归类于色氨酸代谢途径,色氨
酸合成是生长素合成的基础,因此对色氨酸合成途径基因的研究有助于更深入的认识生长素合成的机理(Li
et al., 2011; Lin et al., 2011)。结果还显示有 37 条 Unigene 可归类于半胱氨酸和甲硫氨酸的代谢途径中,半
胱氨酸和甲硫氨酸合成是乙烯合成的基础,因此对果实成熟和衰老的基因的研究有助于更深入的认识白刺
花硬实形成的机理。结果显示 ETR、CTR1、SIMKK、MPK6、EIN2、EIN3 和 ERF 1/2 基因均参与了乙烯
9
的合成,其中在 EIN3 基因中,仅含有 1 条上调转录本;ERF1/2 基因中仅含有 1 条上调转录本和 1 条下调
转录本。因此白刺花种子硬实的形成和 EIN3 和 ERF1/2 基因有较大的关系。
2 讨论
与大豆相比,喀斯特地区白刺花种子的萌发率明显较低。目前众多研究者从大豆种植方式、分子功能、
大豆全基因转录组的分析及大豆矮小基因分析等多方面开展了大量研究,对于大豆的研究具有重要的意义
(吴倩等, 2013; 王洋和柏锡, 2014)。有研究表明,冷季豆科和热季豆科植物中的 Hsfs 数目不同,热季豆科
植物中显著偏多,如热季豆科的菜豆有 29 个 Hsfs,而冷季豆科的鹰嘴豆有 13 个 Hsfs (Lin et al., 2011)。对
兰溪 1 号转录组 clean data (共 25 561 482 条 reads,累积长度 2 300 533 380 bp 进行拼接,共拼接得到 161 212
条 contig,总长度 44 545 037 bp,最长 5 034 bp,最短 100 bp,N50 为 346 bp,N90 为 124 bp (Li et al., 2011)。
木薯差异表达基因 GO 功能分析得到“response to stimulus”、“metabolic process”、“transcription
regulator”、“antioxidant”和“organelle”等与干旱、低温胁迫紧密相关的生物学途径、分子功能、细胞
组成等都有明显的响应变化。而当前国内外白刺花的研究主要集中在白刺花种子硬实的破除方面(赵丽丽等,
2011),分子方面的研究较少。
本研究采用 Illumina HiSeqTM 2000 高通量测序技术对白刺花完熟期、黄熟前期和绿熟期种皮转录组进
行测序,经拼接和组装共获得 317 111 230 条的有效转录组数据,分别将各转录本注释到 Nr、Nt、Pfam、
KOG/COG、Swiss-Prot、KEGG 和 GO 数据库中,其中 Nt 数据库注释的转录本最多,为 137 260 条,占所
有转录本的 40.9%;Nr 数据库注释的转录本数量为 119 208 条,占 35.52%;SwissProt 数据库注释的转录
本为 100 216 条,占 29.86%。
将白刺花种皮不同时期 GO 功能分类发现差异基因被分为生物过程、细胞组分、分子功能三大类。而
生物过程中 cellular process、metabolic process 所占比例较高;细胞组分中 cell、cell part 两个亚类所占比例
较高;分子功能中 binding、catalytic activity 两个亚类所占比例较高。这一结果表明,采用高通量测序可以
应用于白刺花种子形成不同时间生长发育过程中表达的重要基因的研究。王洋和柏锡(2014)对不同浓度
NaHCO3 处理下的野生大豆进行转录组测序,共获得差异表达基因 3 380 个,各时间点差异表达基因数量
不同,NaHCO3 胁迫 6 h 后,大部分差异表达基因表达量达到峰值,之后降低。王洋等人的研究还发现
NaHCO3 胁迫下野生大豆根部的差异基因的应答过程呈现级联反应,NaHCO3 胁迫早期主要的应答基因功
能及参与的通路为:碳代谢及氨基酸代谢信号转导、防御系统、转录调控等。证实高通量测序应用于研究
不同时间的转录水平的可行性。pathway 注释分析发现白刺花种皮中 Ribosome、Spliceosome、RNA transpor
和 Plant hormone signal transduction 途径下差异基因分别占注释到该通路下基因的个数的 30.68%。27.67%、
27.40%和 28.33%,这些 pathway 都为富集项。完熟期较黄熟前期、绿熟期两个时间的转录组差异 Unigene
10
在 GO 功能分类中所占的比例均较高。说明不同时间差异的 Unigene 的 pathway 注释分析结果与 GO 功能
分析注释结果相似。周芳等发现干驯化寒害不同时间木薯 SC124 心叶差异表达基因不同。
转录组测序可以得到大量基因及相关信号通路的信息,同时还能够对生物合成途径中的关键基因进行
表达水平分析、差异表达分析、差异基因的 GO 富集分析、KEGG 富集分析以及差异基因蛋白互作网络分
析等。王洋和柏锡(2014)发现野生大豆 G07256 的基因在 NaHC03 胁迫处理 6 h 内剧烈表达,胁迫处理 12
h~24 h 内基因表达变化幅度减缓,差异基因数量明显降低。林勇翔等(2013)阐明了 Hsf 基因组家族进化在
豆科和禾本科中是与全基因组的复制事件相偶联的。张振等(2015)将红松中 48个Unigene序列在KEGG 数
据库中比对后获得 16 个与其他物种同源的脂肪酸合成相关的关键酶基因。本研究获得了绿熟期、黄熟前
期和完熟期三个不同时期的白刺花种皮的转录组数据,通过数据分析获得了白刺花种子形成相关的基因和
途径(植物激素信号转导途径),以期为白刺花种子硬实形成关键酶基因表达的分子机理研究提供帮助。
3 材料与方法
3.1 植物材料
白刺花的种子采集于贵州省贵阳市花溪区贵州大学校园内。选取贵州白刺花种子绿熟期、黄熟前期、
完熟期 3 个阶段,取其种皮放入液氮速冻,带回实验室存放-80℃冰箱,待分析测定。
3.2 Total RNA 提取和样品检测
白刺花种子绿熟期、黄熟前期、完熟期 3 个阶段的种皮材料总 RNA 提取按照改良的 Trizol 的方法进
行,提取后的 RNA 浓度采用 Qubit 进行检测;OD260/280 采用 Nanodrop 进行检测;RNA 的完整性采用
Agilent 2100 进行检测;RNA 质量采用琼脂糖凝胶电泳的方法分析,保证后续实验的顺利进行(Young et al.,
2010)。
3.3 mRNA 片段化及 cDNA 片段合成
按照 mRNA-Seq 6-Sample Prep Kit 试剂盒的方法,使用 0.2 ml 的 PCR 管中加入 mRNA 和 LC-Bio,
94℃,5 min;之后反转录形成 cDNA,用 QIAquick PCR Purification Kit 试剂盒纯化 DNA 片段(Schuster, 2008;
Ansorge, 2009)。
3.4 文库构建及库检
采用 AMPure XP beads 方法对检测合格的 Total RNA 构建文库,之后分别采用 Qubit2.0、Agilent 2100
和 Q-PCR 等方法对文库进行库检,以保证文库质量(Trapnell et al., 2010)。
3.5 上机测序
库检合格后,把不同文库按照有效浓度及目标下机数据量的需求 pooling 后进行 Illumina HiSeq 测序。
3.6 数据分析
11
测序得到的原始测序序列(raw reads),里面含有带接头的、低质量的 reads,为了保证信息分析质量,
必须对测序数据进行过滤,得到 clean reads,后续分析都基于 clean reads。之后采用 Trinity (Young et al., 2010)
对 clean reads 进行拼接,将 Trinity 拼接得到的转录本序列,作为后续分析的参考序列。取每条基因中最
长的转录本作为 Unigene,以此进行后续的分析(Grabherr et al., 2011)。
3.7 转录物功能注释及分类
为获得全面的基因功能信息,诺禾进行了七大数据库的基因功能注释,包括:Nr,Nt,Pfam,KOG/COG,
Swiss-prot,KEGG,GO (Huang and Marth, 2008)。
3.8 基因表达水平分析
为获得全面的基因功能信息,诺禾进行了七大数据库的基因功能注释,包括:Nr,Nt,Pfam,KOG/COG,
Swiss-prot,KEGG,GO。将 Trinity 拼接得到的转录组作为参考序列(ref),实验采用 RSEM 软件将每个样
品的 clean reads 往 ref 上做 mapping。RSEM (Trapnell et al., 2014)对 bowtie 的比对结果进行统计,进一步得
到了每个样品比对到每个基因上的 readcount 数目,并对其进行 FPKM 转换,进而分析基因的表达水平
(Sultan, 2008; Li and Dewey, 2011; Gahlan, 2012)。
作者贡献
刘杰是本研究的实验设计和实验研究的执行人;孙威完成数据分析,论文初稿的写作;罗充参与实验;
乙引是项目的构思者及负责人,指导实验设计,数据分析,论文写作与修改。全体作者都阅读并同意最终
的文本。
致谢
本研究由贵州省植物生理与发育调控重点实验室建设、贵州省重点实验室建设项目(黔科合计 Z 字
[2011]4005)、教育部喀斯特山地生物多样性保护与可持续利用创新团队、长江学者和创新团队发展计划项
目(IRT1227)和贵州师范大学博士科研启动项目(11904-0514012)共同资助。
参考文献
Ansorge W.J., 2009, Next-generation DNA sequencing techniques, New Biotechnology, 25(4): 195-203
Gahlan P., Singh H.R., Shankar R., Sharma N., Kumari A., Chawla V., Ahuja P.S., and Kumar S., 2012, De novo sequencing and
characterization of Picrorhiza kurrooa transcriptome at two temperatures showed major transcriptome adjustments, BMC
Genomics, 13: 126
Grabherr M.G., Haas B.J., Yassour M., Levin J.Z., Thompson D.A., Amit I., Adiconis X., Fan L., Raychowdhury R., Zeng Q.D.,
Chen Z.H., Mauceli E., Hacohen N., Gnirke A., Rhind R., Palma F., Birren B.W., Nusbaum C., Lindblad-Toh K., Friedman F.,
and Regev A., 2011, Full-length transcriptome assembly from RNA-Seq data without a reference genome, Nature Biotechnology,
12
29: 644-652
Guo X.M., Xiao X., Liang L.S., Xu X.Y., Meng X.D., and Feng M., 2010, Study on the properties of hard and germination of
Sophora Vicii seed, Zhongzi (Seed), 29(12): 38-42 (郭学民, 肖啸, 梁丽松, 徐兴友, 孟宪东, 冯萌, 2010, 白刺花种子硬实
与萌发特性研究, 种子, 29(12): 38-42)
Huang W.C., and Marth G., 2008, EagleVicw: a genome assembly viewer for next-generation sequencing technologies, Genome
Research, 18(9): 1538-1543
Kanehisa M., Araki M., Goto S., Hattori M., Hirakawa M., Itoh M., Katayama T., Kawashima S., Okuda S., Tokimatsu T., and
Yamanishi Y., 2008, KEGG for linking genomes to life and the environment, Nucleic Acids Research, 36(suppl 1): 480-484
Li A.D., Li W.J., and Tang J.G., 2013, Niche characteristic of dominant species of Sophora davidii community in Guizhou Karst
Rocky Area, HuBei Nongye Kexue (Hubei Agricultural Sciences), 52(14): 3286-3289 (李安定, 李苇洁, 唐金刚, 2013, 贵州
喀斯特石漠化区白刺花群落主要种群生态位分析, 湖北农业科学, 52(14): 3286-3289)
Li B., and Dewey C.N., 2011, RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome,
BMC Bioinformatics, 12: 323
Li X.M., and He S.J., 2012, Studies on sophora viviifolia nutrients of stems and leaves measured, Guizhou Xumu Shouyi (Guizhou
Journal of Animal Husbandry and Veterinary Medicine), 36(6): 56-58 (李兴美, 何胜江, 2012, 白刺花营养成分测定, 贵州畜
牧兽医, 36(6): 56-58)
Li Z.F., Wu S.L., Bai, X.F., Liu Y., Lu J.F., Liu Y., Xiao B.G.., Lu X.P., and Fan L.J., 2011, Genome sequence of the tobacco bacterial
wilt pathogen Ralstonia solanaceamm, J. Bacteriol., 193(21): 6088-6089
Lin Y.X., 2013, Molecular evolution of heat shock transcription factor gene families in legumes and gasses, Dissertation for Ph.D.,
Life Science, Anhui Agriculture University, Supervisor: Cheng B.J., pp.26-34 (林勇翔, 2013, 豆科和禾本科植物热激转录因
子基因家族的分子进化研究, 博士学位论文, 安徽农业大学生命科学学院, 导师: 程备久, pp.26-34)
Lin Y.X., Jiang H.Y., Chu Z.X., Tang X.L., Zhu S.W., and Cheng B.J., 2011, Genome-wide identification, classification and analysis
of heat shock transcription factor family in maize, BMC Genomics, 12(1): 76
Schuster S.C., 2008, Next-generation sequencing transforms todays biology, Nature Methods, 200(8): 16-18
Sultan M., Schulz M.H., Richard H., Magen A., Klingenhoff A., Scherf M., Seifert M., Borodina T., Soldatov A., Parkhomchuk D.,
Schmidt D., OKeeffe S., Haas S., Vingron M., Lehrach H., Yaspo M.L., 2008, A global view of gene activity and alternative
splicing by deep sequencing of the human transcriptome, Science, 321(5891): 956-960
Trapnell C., Williams B.A., Pertea G., Mortazavi A., Kwan G., van Baren M.J., Salzberg S.L., Wold B.J., and Pachter L., 2010,
Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell
differentiation, Nature Biotechnology, 28: 511-515
13
Wang Y., and Bai X., 2014, Bioinformatics analysis of NAC gene family in Glycine max L., Dadou Kexue (Soybean Science), 33(2):
325-333 (王洋, 柏锡, 2014, 大豆 NAC 基因家族生物信息学分析, 大豆科学, 33(2): 325-333)
Wu Q., Sun C., Chen S.L., Luo H.M., Li Y., Sun Y.Z., and Niu Y.Y., 2010, Application of transcriptomics in the studies of medicinal
plants, Shijie Kexue Jishu: Zhongyiyao Xiandaihua (Modernization of Traditional Chinese Medicine and Materia Medica-World
Science and Technology), 3: 457-462 (吴琼, 孙超, 陈士林, 罗红梅, 李滢, 孙永珍, 牛云云, 2010, 转录组学在药用植物研
究中的应用, 世界科学技术: 中医药现代化, 3: 457-462)
Wu Q., Zhang L., Huang Z.P., Wang D.G., and Hu G.Y., 2013, Transcription sequencing and its application on discovering the gene
resources of wild soybean, Dadou Kexue (Soybean Science), 32(6): 845-851 (吴倩, 张磊, 黄志平, 王大刚, 胡国玉, 2013, 转
录组测序及其在野生大豆基因资源发掘中的应用, 大豆科学, 32(6): 845-851)
Young M.D., Wakefield M.J., Smyth G.K., and Oshlack K., 2010, Gene ontology analysis for RNA-seq: accounting for selection bias,
Genome Biology, 11(2): 1-14
Zhang N., Sun G.L., Dai J.G., Yang Y.F., Liu H.W., and Qiu D.Y., 2013, Sequencing and analysis of the transcriptome of Ginkgo
biloba L. cells, Zhongguo Shengwu Gongcheng Zazhi (China Biotechnology) 33(5): 112-119 (张楠, 孙桂玲, 戴均贵, 杨艳芳,
刘洪伟, 邱德有, 2013, 银杏细胞转录组高通量测序及分析, 中国生物工程杂志, 33(5): 112-119)
Zhang Z., Zhang H.G., Zhou Y., Zhang L., Yu H.Y., and Zhang L., 2015, Differential gene expression analysis on secondary
metabolites and transcriptome sequencing to four tissues of Pinus koraiensis, Linye Kexue Yanjiu (Forest Research), 28(4):
597-603 (张振, 张含国, 周宇, 张磊, 于宏影, 张莉, 2015, 红松 4 个组织的转录组数据分析与次生代谢产物的表达差异
初探, 林业科学研究, 28(4): 597-603)
Zhao L.L., Wang P.C., Long Z.F., Song G.X., and Wu Q., 2011, The method of hard seed treatment on Sophora viciifolia, Shandi
Nongye Shengwu Xuebao (Journal of Mountain Agriculture and Biology), 30(4): 319-322 (赵丽丽, 王普昶, 龙忠富, 宋高翔,
吴情, 2011, 白刺花种子硬实破除方法研究, 山地农业生物学报, 30(4): 319-322)