免费文献传递   相关文献

独行菜种子转录组的高通量测序及分析



全 文 :中国生物工程杂志 China Biotechnology,2016,36(1) :38-46
DOI:10. 13523 / j. cb. 20160106
独行菜种子转录组的高通量测序及分析*
周 茜1 赵惠新1 ** 李萍萍1 曾卫军1 李艳红1 葛风伟1 赵君洁1 赵和平2**
(1 新疆特殊环境物种多样性应用与调控重点实验室 新疆师范大学生命科学学院 乌鲁木齐 830054)
(2 北京师范大学生命科学学院 抗性基因资源与分子发育北京市重点实验室 北京 100875)
摘要 独行菜种子为我国传统常用中药,从中已提取出多种药用活性成分,但目前尚不清楚其次
级代谢过程中这些活性物质合成的遗传基础。采用 Illumina HiseqTM 2000 高通量测序平台对独行
菜种子转录组进行测序,经 de novo组装后获得 40 303 条 unigene。进一步利用六大公共数据库进
行同源比对,注释了 27 935 条 unigene。研究发现,534 个基因参与了独行菜次生物质的合成和代
谢,其中在芥子苷、黄酮类和芪类化合物生物合成途径中的 unigene分别有 4 个、19 个和 69 个,在
苯丙氨酸代谢途径中的 unigene有 92 个。这些基因可能参与独行菜种子药性活性物质的生物合
成,并分析获得了参与上述合成代谢途径的 13 个关键基因的同源序列。另外,从转录组序列中搜
索到 6 304 个 SSR位点,分布于 5 306 条 unigene中,出现频率为 15. 64%。研究结果不仅为挖掘
独行菜种子药用次生代谢物生物合成关键基因提供了基础数据信息,而且为独行菜遗传多样性
研究和分子标记开发奠定了分子基础。
关键词 独行菜 转录组 次生代谢 SSR
中图分类号 Q785
收稿日期:2015-09-08 修回日期:2015-11-15
* 新疆维吾尔自治区重点实验室项目(XJSD2015 - 01) ,国家自然
科学基金(31460041) ,抗性基因资源与分子发育北京市重点实验
室开放课题(2015GD03)资助项目
**通讯作者,电子信箱:zhaohuixin101 @ sina. com;hpzhao@ bnu.
edu. cn
独行菜(Lepidium apetalum Willd)为十字花科独行
菜属植物,分布非常广泛,具有药用和食用等价值[1]。
独行菜干燥成熟的种子被称为北葶苈子,始载于《神农
本草经》,是中医临床上常用的泻肺平喘、利水消肿
药[2]。目前,还发现独行菜种子在调血脂、抗癌、抗菌、
强心等方面具有显著的药理活性[3]。通过研究其药效
物质基础及作用机制,现已从独行菜种子中分离出芥
子苷、强心苷类、生物碱类、黄酮类、类萜类等多种成
分[4]。对其转录组的研究,可能发现一些与其药效活
性成分生物合成相关的候选基因,为独行菜药效资源
的充分利用奠定基础。
简单重复序列(simple sequence repeat,SSR)又称
为微卫星(microsatellite),是由少数几个核苷酸组成的
串联重复序列,广泛分布于各类真核生物、原核生物以
及病毒基因组中[5]。SSR 标记因其多态性高、重复性
高、覆盖面广等优点,广泛运用于遗传图谱绘制、遗传
多样性分析和分子标记辅助育种等方面[6-7]。目前药
用植物中已有人参[8]、连翘[9]和黄芩[10]等借助现有测
序数据开发了 SSR标记。研究主要集中于遗传多样性
评价、种质鉴定、标记通用性等方面。因而对独行菜转
录组中的 SSR位点进行分析,可为独行菜遗传多样性
研究和分子标记开发提供参考和借鉴。
目前,独行菜虽然具有重要的药用价值和经济价
值,但有关研究多集中在有效成分提取、鉴定及药理学
方面,对其分子遗传和转录组的研究仍十分缺乏。近
年来转录组高通量测序技术的快速发展极大地促进了
植物基因表达研究[11-13]。利用与研究独行菜的药用价
值,迫切需要它的遗传信息。前期研究中,我们发现低
温层积后的独行菜种子,经高温处理后,萌发势和萌发
率均显著提高[14]。由于种子萌发过程与其成熟过程有
很大的相似[15-17],因此以上述处理前后的独行菜种子
为研究对象,进行转录组的测序,以期分析独行菜种子
转录组的特性及 SSR位点分布特征。这将为发掘和鉴
2016,36(1) 周 茜 等:独行菜种子转录组的高通量测序及分析
定独行菜种子次级代谢物生物合成相关基因和开发
SSR分子标记提供研究基础。
1 材料与方法
1. 1 材 料
供试材料独行菜种子采集于新疆乌鲁木齐鲤鱼
山。挑选出饱满的独行菜种子,用 98%浓硫酸处理 45s
后,用滤纸先将浓硫酸吸净干燥独行菜种子,再放入蒸
馏水中清洗 2 次或 3 次。
1. 2 方 法
1. 2. 1 种子总 RNA 的提取和检测 将 4℃条件下层
积 9 天的种子作为萌发初期Ⅰ,将 4℃条件下层积 9 天
后又在 25℃黑暗萌发 55min 的种子作为萌发初期Ⅱ,
每组实验重复两次。采用 Trizol Reagent 方法分别提取
以上样品的总 RNA,并用 DNaseⅠ进行 DNA消化处理,
随后检测总 RNA 完整性和质量(1. 2%琼脂糖凝胶电
泳)、RNA的纯度(OD260 /280比值) ,最后用 Agilent 2100
精确检测 RNA的完整性。
1. 2. 2 独行菜种子转录组测序 样品检测合格后,为了
减少实验操作误差使样品更具代表性,将各个样品的总
RNA进行等量混合后,用带有 Oligo(dT)的磁珠富集
mRNA,随后将 mRNA 打断成短片段,以 mRNA 为模板,
进行测序文库的构建和 Illumina HiSeqTM 2000的测序。
1. 2. 3 数据的拼接和组装 测序得到的原始 reads,去
除带接头的 reads、N(N 表示无法确定碱基信息)的比
例大于 10% 的 reads 和低质量 reads 后,得到 clean
reads。采用 Trinity[18]对 clean reads进行拼接。过滤和
组装以后得到高质量的 unigene,对这些从头组装的
unigene进行后续的分析。用 NCBI 蛋白质数据库
(NCBI non-redundant protein sequences,Nr)、非冗余核
苷酸数据库(NCBI nucleotide sequences,Nt)、Swiss-Prot
(a manually annotated and reviewed protein sequence
database,Swiss-Prot)基因本体论(gene ontology,GO)、
直系同源基因簇(eukaryotic ortholog groups,KOG)和京
都基因与基因组百科全书(Kyoto Encyclopedia of Genes
and Genomes,KEGG)数据库做参考,得到 unigene 的功
能注释信息。根据 Nr注释的信息,使用 Blast2GO[19]和
WEGO[20]进行注释和功能分类。用 ESTScan 软件预测
无法注释到蛋白质库的 unigene编码区。
1. 2. 4 转录组 SSR位点的分析 利用 MISA软件对独
行菜转录组中的 unigene进行 SSR位点搜索,搜索参数
设置为单碱基、二碱基、三碱基、四碱基、五碱基和六碱
基的最短重复分别为 10、6、4、3、3、2。复合 SSR 序列两
个位点最大间隔碱基数位:100。SSR 位点出现的频率
fc = c /n ×100%,c表示搜索到的 SSR 数量,n 表示总搜
索 unigene数量。
2 结果与分析
2. 1 独行菜种子转录组的测序和组装
独行菜转录种子组测序总产出 35 735 388 条
reads,去除低质量的和含有接头的 reads 以后,得到
35 177 252 条 clean reads,共 计 4. 4G 个 核 苷 酸
(nucleotide,nt)。G + C含量为 43. 6%,Q30(测序错误
率≤0. 1%)为 93. 70%(表 1)。说明测序结果较好。
表 1 Illumina HiSeqTM 2000 测序产出质量统计
Table 1 Illumina HiSeqTM 2000 sequencing data quality
Raw reads Clean reads Clean bases Q20(%)Q30(%)GC(%)
35 735 388 35 177 252 4. 4 G 96. 95 93. 70 43. 6
利用 Trinity软件对这些 reads进行组装,得到平均
长度为 1 262nt(N50 = 2 053nt)的拼接转录本序列
67 045条。取每条基因中最长的转录本作为 unigene,
平均长度为 955nt,N50 为 1 729nt。Unigene 的长度分
布显示(表 2) ,长度大于 1 000nt 的 unigene 有 12 962
条,占全部 unigene 的 32. 16%。说明本研究中转录组
文库的测序和组装结果都较好,能够进行后续生物信
息学分析。
表 2 独行菜种子转录组组装质量统计
Table 2 Assembly quality of Lepidium
apetalum Willd seed
Sequence
length(bp)
Transcripts Unigene
Number
Percentage
(%)
Number
Percentage
(%)
< 301 13 534 20. 19 12 135 30. 11
301 ~ 500 10 389 15. 50 8 118 20. 14
501 ~ 1 000 12 325 18. 40 7 087 17. 58
1 001 ~ 2 000 16 909 25. 22 7 733 19. 19
> 2 000 13 888 20. 71 5 229 12. 97
2. 2 Unigene的功能注释
通过 blastx 将 unigene 序列比对到 NCBI 上的蛋白
质数据库 Nr、Nt、Swiss-Prot、KEGG及 COG和 GO(E < 1
×10 -5) ,得到与给定 unigene 具有最高序列相似性的
蛋白质,从而得到该 unigene 的蛋白质功能注释信息。
其中匹配到 Nr数据库中的有 25 212 条,占全部 unigene
93
中国生物工程杂志 China Biotechnology Vol. 36 No. 1 2016
的 62. 55%。注释结果显示共有 27 925(69. 28%)的
unigene是有注释的(表 3)。
表 3 Blast比对公共数据库结果
Table 3 Blast analysis results against
five public databases
Database Annotated Percentage(%)
All unigene 40 303 100
All annotated unigene 27 935 69. 28
Nr 25 212 62. 55
Nt 22 574 56. 00
Swiss-Prot 18 502 45. 90
KEGG 7 844 19. 46
KOG 9 071 22. 50
GO 18 354 45. 54
Unigene注释到 Nr数据库中的 E 值分布图显示,
比对到的物种序列值均小于 1 × 10 -5;其中 E 值小于
1 × 10 -100的有 49. 0%[图 1(a) ],说明对比结果的可
信度较高。相似度(similarity)分布图显示,序列比对
相似度为 40% ~ 100%,其中大部分序列相似度为
80% ~ 95%;序列相似度大于 80% 的为77 . 8%[图
1(b) ],说明独行菜转录组的功能注释结果较好。
注释基因同源序列的物种(species)分布情况见图
1(c) ,注释到拟南芥(Arabidopsis thaliala)的序列有
25. 0%;其次是琴叶拟南芥(Arabidopsis lyrata) ,有
23. 9%。这是因为拟南芥、琴叶拟南芥和独行菜都同属
十字花科植物,且具有丰富的基因组信息,为本研究中
转录组的注释提供了参考序列。
图 1 Unigene在 Nr库中的 E值分布(a)、相似性分布(b)及物种分布(c)
Fig. 1 E-value distribution (a),similarity distribution(b)and species classification(c)for unigene
2. 3 Unigene的功能分类
GO是一套国际标准化的基因功能描述的分类系统,
提供一套动态更新的标准词汇表来全面描述生物体中基
因和基因产物的属性。根据 Nr 注释信息,使用软件
Blast2GO得到 unigene的GO注释信息,然后用软件WEGO
对所有 unigene做GO功能分类统计,从宏观上认识独行菜
的基因功能分布特征。对独行菜转录组 unigene 进行 GO
分析发现,有 18 354条 unigene注释到 GO数据库,注释比
例为45. 54%。注释到分子功能的基因数目最多,为15 753
个,其次是生物学过程14 307个,细胞组成的最少,只有 11
056个。GO分析的这 3个 ontology又分为 51个亚类。例
如,在生物过程中,细胞过程和代谢过程所占比例较高,细
04
2016,36(1) 周 茜 等:独行菜种子转录组的高通量测序及分析
胞和细胞器部分在细胞组成所占比例较高,连接和催化活 性在分子功能中占有较高比例(图 2)。
图 2 Unigene的 GO分类结果
Fig. 2 GO classification for Lepidium apetalum Willd
将独行菜转录组所得的 unigene 与 KOG 数据库进
行比对,对其做了功能分类和统计,得到注释到 KOG
中的 9 071 条 unigene分布于 26 个基因家族(图 3) ,如
RNA加工与修饰、染色体结构和动力学、能量产生与运
输、细胞周期控制、细胞分裂及染色体分裂等。在 26
类基因家族中,注释最多的是一般功能预测(R) ,其次
是翻译后修饰、周转、分子伴侣(O)。分析发现,有 374
条 unigene注释到次生代谢物的合成、运输及代谢,为
后续研究独行菜种子中药用化学成分相关的基因奠定
了良好基础。
2. 4 Unigene的代谢通路分析
KEGG是分析基因产物在细胞中的代谢途径及这
些基因产物的功能的数据库,利用它可以进一步研究
基因在生物学上的复杂行为。对独行菜的转录组进行
KEGG注释发现,在其种子萌发初期有 7 844 条编码基
因参与了 263 条已知的通路。根据 KEGG 的注释信息
能进一步得到 unigene的 pathway注释。
根据 KEGG 注释结果,发现与次生代谢相关的
unigene共 534 条,可将次生代谢合成途径按代谢物分
为 20 类。这 20 类次生代谢物包括油菜素内酯
(brassinosteroid),咖啡因(caffeine metabolism) ,类胡萝
卜素(carotenoid)、二萜(diterpenoid) ,黄酮和黄酮醇
(flavone and flavonol) ,类黄酮(flavonoid) ,芥子苷
(glucosinolate) ,吲哚生物碱(indole alkaloid) ,异喹啉生
物碱(isoquinoline alkaloid) ,柠檬烯和松萜(limonene
and pinene degradation) ,类单萜(monoterpenoid) ,苯丙
素(phenylpropanoid) ,芪类化合物、二芳基庚烷和姜醇
(stilbenoid,diarylheptanoid and gingerol) ,类萜骨架
(terpenoid backbone),萜类生物碱、哌啶生物碱和嘧啶
生物碱(tropane,piperidine and pyridine alkaloid) ,玉米
素(zeatin) ,二萜(diterpenoid)、类萜骨架(terpenoid
backbone) ,花青素(anthocyanin) ,甜菜红碱(betalain)。
然而,注释到芥子苷,黄酮类,芪类化合物、二芳基庚烷
和姜醇生物合成途径中的 unigene 分别有 4 个、19 个、
69 个;注释到苯丙氨酸(phenylalanine)代谢途径中的
unigene有 92 个。
进一步对上述代谢途径中的基因序列进行同源基
因的比对分析后,获得了 1 条与拟南芥 CYP83B1
(cytochrome P450,family 83,subfamily B,polypeptide 1)
基因高度同源的 unigene。Yatusevich 等[21]在拟南芥中
发现了 CYP83B1 基因,是芥子苷合成中的重要结构基
因。而芥子苷在独行菜种子中是主要的有效止咳成
分。该基因在芥子苷合成过程中主要负责催化色氨
酸、苯丙氨酸和酪氨酸的吲哚族及芳香族醛肟,对芥子
苷的生物合成有重要的作用。
黄酮类化合物是重要的次生代谢产物,是很多植
物的重要药用成分。查耳酮合成酶基因(chalcone
synthase,CHS)、黄烷酮 3-羟化酶基因(flavanone 3-
hydroxylase,F3H)、黄酮合成酶基因(flavone synthase,
FS)和花色素还原酶基因(anthocyanidin reductase,
14
中国生物工程杂志 China Biotechnology Vol. 36 No. 1 2016
图 3 Unigenes的 KOG分类
Fig. 3 Classification of KOG for unigene
A:RNA processing and modification;B:Chromatin structure and
dynamics;C:Energy production and conversion;D:Cell cycle
control,cell division, chromosome partitioning; E:Amino acid
transport and metabolism;F:Nucleotide transport and metabolism;
G:Carbohydrate transport and metabolism;H:Coenzyme transport
and metabolism;I:Lipid transport and metabolism;J:Translation,
ribosomal structure and biogcncsis;K:Transcription;L:Replication,
recombination and repair; M: Cell wall /membrane /envelope
biogencsis;N:Cell motility;O:Postranslational modification protein
tumover,chaperones;P:Inorganic ion transport and metabolism;
Q:Secondary metabolites biosynthesis, transport and catabolism;
R:General function prediction only;S:Function unknown;T:Signal
transduction mechanisms;U:Intracellular trafficking,secretion,and
vesicular transport; V:Defense mechanisms; W:Extracellular
structures;Y:Nuclear structure;Z:Cytoskeleton
ANR)为黄酮类化合物生物合成途径中重要酶基因,它
们在黄酮类化合物的生成过程中起着关键的催化作
用[22]。分析发现,独行菜种子转录组中均有 1 条编码
的同源基因。
苯丙氨酸代谢途径是植物的重要次生代谢途径之
一,独行菜种子中的活性物质芪类和黄酮类可能来自
该途径。苯丙氨酸脱氨酶(phenylalanine ammonia-
lyase,PAL)、肉桂酸 4-羟化酶(cinnamate 4-hydroxylase,
C4H)和 4-香豆酰:辅酶 A 连接酶(4-coumarate:CoA
ligase,4CL)是该途径关键的 3 个酶。它们作用的产物
反式香豆酸-CoA 和两个丙二酰-CoA 可在芪合酶催化
作用下合成芪类次生代谢物;反式香豆素-CoA 等也可
在查耳酮合成酶的催化作用下进入黄酮类和异黄酮类
合成支路,在芪类化合物和黄酮类的合成中具有关键
作用[23]。在独行菜种子中,分别由 4 个基因编码 PAL、
3 个基因编码 4CL和 1 个基因编码 C4H。
研究还获得了 103 个编码细胞色素 P450
(cytochrome P450,CYP450)的 unigene。植物细胞色素
P450 在苯丙素类、生物碱、萜类、黄酮、类黄酮、植物激
素、芥子苷等的合成中起着重要作用[24-26],参与大多数
次生代谢物的氧化过程[27]。这些注释和分析提供了有
价值的资源,有助于研究特定过程、功能和路径,也有
助于识别次级代谢物合成相关的新基因。
2. 5 独行菜种子转录组 SSR位点分析
利用 MISA 软件对独行菜种子的转录组进行 SSR
位点多态性分析,搜索了 40 304 个 unigene,总长度为
38 487 759 bp,共检测到 6 304 个 SSR 位点,出现频率
为 15. 64%,平均跨度为 6 105bp。这些 SSR 位点分布
在 5 306 个 unigene中,其中 834 个 unigene含有 1 个以
上的 SSR位点。在所有碱基重复类型中,单碱基重复
单元的 SSR含量最多,约占总数的 48. 84%。在发现的
329 种重复基元(motif)中,A /T、AG /CT、AAG /CTT、
AAAG /CTTT、AAAAG /CTTTT 和 AAACAC /GTGTTT 分
别在单、二、三、四、五和六碱基中出现频率最多,它们
在各自重复基元类型中的比例分别为 99. 20%、
64. 80%、45. 40%、28. 00%、40. 00%和 33. 33%(表 4)。
独行菜转录组中所发现的 6 304 个 SSR 长度存在
极显著变异,10 ~ 126 个碱基,平均长度为 13. 57 个碱
基。如图 4 所示,独行菜转录组 SSR 重复序列长度位
于 10 ~ 15bp 的短重复序列最多,占 SSR 总数的
78. 83%。进一步利用 SPSS 软件 Person 分布进行相关
性分析,结果显示 SSR 位点出现的频率和其长度呈显
著负相关(P <0. 05),相关系数为 -0. 378。
独行菜转录组中 SSR的重复次数与其数量的关系
见图 5。可以看出,随着重复次数的增加,SSR 数量呈
明显下降趋势。其中,10 次核苷酸重复的最多,为 1 757
个,占 SSR总位点的 27. 87%。当单碱基的重复次数为
16次,二碱基和其他碱基重复次数为 12 次时,SSR 的下
降速率降低,最终进入平台期。
24
2016,36(1) 周 茜 等:独行菜种子转录组的高通量测序及分析
表 4 独行菜转录中不同 SSR重复基元出现的频率
Table 4 Occurrence frequency of different microsatellites motifs of Lepidium apetalum Willd transcriptome
Rrepeat type Number
Frequency
(%)
Maximum repest motif (number and percentage )
Nucleotide 3 142 48. 84 A /T(3 177,99. 20%)
Binucleotide repeat 1443 22. 89 AG /CT(935,64. 80%)
Trinucleotide repeat 1 683 26. 70 AAG /CTT(764,45. 40%)
Tetranucleotide repeat 25 0. 40 AAAG /CTTT(7,28. 00%)
Pentanucleotide repeat 5 0. 08 AAAAG /CTTTT(2,40. 00%)
Hexnucleotide repeat 6 0. 10 AAACAC /GTGTTT(2,33. 33%)
图 4 独行菜转录中 SSR序列的长度分布
Fig. 4 Length distribution of microsatellites
in Lepidium apetalum Willd transcriptome
图 5 独行菜转录组中 SSR数量随重复次数的变化
Fig. 5 Changes with the number of Lepidium
apetalum Willd transcriptome of SSR with repeat
Others denote the total number of Tri-,Tetra-,Penta-,and Hex-
nucleotides repeats
3 讨 论
新一代高通量测序技术的广泛应用,为非模式生
物基因信息发掘提供了前所未有的机遇,已经用于中
草药植物虎杖[28]、西洋参[29]和连翘等转录组的研究。
该类研究有助于开发天然药物,选育具优良农艺性状
的品种。为了加快药用植物独行菜分子生物学研究,
促进独行菜主要天然药物成分的开发和利用,本研究
利用 RNA-Seq技术分析了独行菜的转录组,探讨了中
药植物独行菜种子的功能基因组,基于短读序和组装
的 unigene进行数据挖掘,共获得 40 303 条质量较高的
基因序列,对有效成分合成的相关基因进行了深度挖
掘,并分析得到了 6 304 个 SSR分子标记。
通过代谢通路分析显示,有 534 条 unigenes与次生
代谢物生物合成有关,它们编码的次生代谢产物包括:
具有抗氧化、清除自由基、抗肿瘤等广泛的药理活性的
黄酮[30-31];具有抗病、抗氧化、抗肿瘤、抗炎症等多种生
物活性的芪类次生代谢物[32];具有抗肿瘤、抗 HIV、抗
氧化、抗炎、抗微生物、抗凝血、抗疲劳等多种生物活性
的苯丙素[33-34];在独行菜中作为有效止咳成分的芥子
苷;许多中草药和药用植物有效成分的多类植物生物
碱[35]。这些次生代谢产物在独行菜种子都得到了分
离,且与其药理活性相一致。分析发现独行菜中一些
基因还参与咖啡因、异喹啉生物碱、花青素、甜菜红碱
等药用有效成分的合成和代谢。这些基因可以作为独
行菜次生代谢基因工程的靶标基因,为独行菜种子药
用成分的开发和应用领域的拓展奠定了基础。
药用植物主要有效成分是次生代谢产物,然而次
生物质代谢途径极其复杂,受到众多基因的调控。目
前,药用植物次生代谢工程面临的最大困难是缺乏对
次生代谢调控网络的了解,克隆的基因较少,而基因功
能清楚的更少。本研究通过生物信息学的方法,对独
行菜种子中参与重要次生代谢途径的关键基因进行了
挖掘。获得了芥子油苷的结构基因 CYP83B1;黄酮类
生物合成途径中重要酶的编码基因 CHS、F3H、FS 和
ANR,苯丙氨酸途径中关键酶的编码基因 PAL、C4H 和
4CL。上述基因中,4 个基因编码 PAL、3 个基因编码
34
中国生物工程杂志 China Biotechnology Vol. 36 No. 1 2016
4CL,其余均只有 1 个编码基因。这些基因的注释,为
今后相关功能基因的克隆和研究提供了依据。
SSR标记按来源,分为基因组 SSR(genomic SSR,
gSSR)和转录组来源的 SSR(expressed SSR,EST-SSR)
两种[36]。真核生物基因组中,转录组中 SSR 发生频率
比基因组中 SSR 低。相比基因组 SSR,转录组 SSR 多
态性可能与基因功能直接相关,具有更高的通用性,能
够为功能基因组学研究的应用提供重要价值[7]。本研
究在独行菜转录组中共搜索到 6 304 个 SSR序列,出现
频率为 15. 64%,平均每 6. 11kb出现一个 SSR序列,分
布在 5 306 个 unigene中,其中 834 个 unigene含有 1 个
以上的 SSR位点。与其他药用植物比较,独行菜转录
组中 SSR序列出现的频率低于半夏[36](16. 24%),高
于党参[37](12. 22%)和西洋参[38](7%) ,这表明独行
菜转录组中 SSR数量也很丰富。并且发现独行菜转录
组中 SSR序列以单碱基重复为主,这与连翘转录组中
SSR序列中的优势重复类型是一致的。本研究明确了
独行菜转录组中 SSR 序列的基本特征,为进一步开发
新的独行菜功能基因 SSR标记奠定了基础。同时对独
行菜功能基因资源的开发利用、遗传资源评价、丰富其
分子标记和比较基因组学研究都具有重要的价值。
致谢 感谢“新疆师范大学研究生创新科技基金
(XSY201502010)为本研究提供的基金资助
参考文献
[1]吴征镒. 中国植物志. 北京:科学出版社,1987:33,57.
Wu Z Y. Flora of China. Beijing:Science Press,1987:33,57.
[2]冯志毅,王小兰,郑晓珂. 葶苈子的本草考证. 世界科学技术
中医药现代化,2014,16(9):1938-1941.
Feng Z Y,Wang X L,Zheng X K,Herbal textual research on
semen Lepidii seu Descurainiae. Modernization of Traditional
Chinese Medicine and Materia Medica-World Science and
Technology,2014,16(9) :1938-1941.
[3]周喜丹,唐力英,周国洪,等. 南北葶苈子的最新研究进展. 中
国中药杂志,2014,39(24) :4699-4708.
Zhou X D,Tang L Y,Zhou G H,et al. Advances on Lepidii
Semen and Descurainiae Semen. Chinese Journal of Chinese
Materia Medica,2014,39(24) :4699-4708.
[4]李红伟,郑晓珂,弓建红,等. 独行菜和播娘蒿化学成分及药
理作用研究进展. 药物评价研究,2013,36(3) :235-240.
Li H W,Zheng X K,Gong J H,et al. Research progress in
chemical constituents of Lepidium apetalum and Descurainia
sophia and their pharmacological activities. Drug Evaluation
Research,2013,36(3) :235-240.
[5]Kalia R K,Rai M K,Kalia S,et al. Microsatellite mark-ers:an
overview of the recent progress in plants. Eu-phytica,2011,177
(3) :309-334.
[6] Milee A,Neeta S,Harish P. Advances in molecular marker
techniques and their applications in plant sciences. Plant Cell
Rep,2008,27(4) :617-631.
[7]李小白,向林,罗洁,等. 转录组测序(RNA-seq)策略及其数据
在分子标记开发上的应用. 中国细胞生物学报,2013,35
(5):1-8.
Li X B,Xiang L,Luo J,et al. The strategy of RNA-seq,
application and development of molecular marker derived form
RNA-seq . Chinese Journal of Cell Biology,2013,35(5) :1-8.
[8] Li C,Zhu Y,Guo X,et al. Transcriptome analysis reveals
ginsenosides biosynthetic genes,microRNAs and simple sequence
repeats in Panax ginseng C A Meyer . BMC Genomics,2013,14
(1) :245.
[9]王兴春,谭河林,陈钊,等. 基于 RNA-Seq 技术的连翘转录组
组装与分析及 SSR 分子标记的开发. 中国科学:生命科学,
2015,45(3):301-310.
Wang X C, Tan H L, Chen Z, et al. Assembly and
characterization of the transcriptome and development of SSR
markers in Forsythia suspensa based on RNA-Seq technology.
Science China(Life Sciences) ,2015,45(3) :301-310.
[10]齐琳洁,龙平,蒋超,等. 黄芩基因组 SSR 分子标记的开发及
遗传多样性分析. 药学学报,2015,50(4) :500-505.
Qi L J,Long P,Jiang C,et al. Development of microsatellites
and genetic diversity analysis of Scutellaria baicalensis Georgi
using genomic-SSR markers. Acta Pharmaceutica Sinica ,2015,
50(4) :500-505.
[11]Chen J,Hou K,Qin P,et al. RNA-Seq for gene identification
and transcript profiling of three Stevia rebadiana genotypes. BMC
Genomics,2014,15(1) :571-582.
[12]Zhang N,Zhang H J,Zhao B,et al. The RNA-seq approach to
discriminate gene expression profiles in response to melatonin on
cucumber lateral root formation. Journal of Pineal Research,
2014,56(1) :39-50.
[13]Lv J,Liu P,Gao B,et al. Transcriptome analysis of the Potunus
trituberculatus: de novo assembly, growth-related gene
identification and marker discovery. PLoS ONE,2014,9(4) :
e94055.
[14]赵惠新,李群,周晶,等. 短命植物独行菜种子萌发过程对低
温的耐受特性. 云南植物研究,2010,32(5):448-454.
Zhao H X,Li Q,Zhou J,et al. The characteristics of low
temperature tolerance during seed germination of the ephemeral
plant Lepidium apetalum (Cruciferae ). Acta Botanica
Yunnanica,2010,32(5) :448-454.
[15]Lopez-Molina L,Mongrand S,McLachlin D T,et al. ABI5 acts
44
2016,36(1) 周 茜 等:独行菜种子转录组的高通量测序及分析
downstream of ABI3 to execute an ABA-dependent growth arrest
during germination. Plant J,2002,32(3) :317-328.
[16] Rajjou L,Gallardo K,Debeaujon I,et al. The effect of α-
amanitin on the Arabidopsis seed proteome highlights the distinct
roles of stored and neosynthesized mRNAs during germination.
Plant Physiol,2004,134(4) :1598-1613.
[17]Rajjou L,Belghazi M,Huguet R,et al. Proteomic investigation
of the effect of salicylic acid on Arabidopsis seed germination and
establishment of early defense mechanisms . Plant Physiol. 2006,
141(3) :910-923.
[18] Grabherr M G,Haas B J,Yassour M, et al. Full-length
transcriptome assembly from RNA-Seq data without a reference
genome. Nature Biotechnology,2011,29(7) :644-652.
[19] Conesa A,Gtz S,García-Gómez J M,et al. Blast2GO:a
universal tool for annotation, visualization and analysis in
functional genomics research. Bioinformatics,2005,21(18) :
3674-3676.
[20]Ye J,Fang L,Zheng H,et al. WEGO:a web tool for plotting
GO annotations. Nucleic Acids Research,2006,34(suppl. 2) :
W293-W297.
[21] Yatusevich R,Mugford S G,Matthewman C,et al. Genes of
primary sulfate assimilation are part of the glucosinolate
biosynthetic network in Arabidopsis thaliana. Plant Journal,
2010,62(1) :1-11.
[22]邢文,金晓玲. 调控植物类黄酮生物合成的 MYB 转录因子研
究进展. 分子植物育种,2015,13(3):689-696.
Xing W,Jin X L. Recent advances of MYB transcription factors
involved in the regulation of flavonoid biosynthesis. Molecular
Plant Breeding,2015,13(3) :689-696.
[23]Hanhineva K,Kokko H,Siljanen H,et al. Stilbene synthase
gene transfer caused alterations in the phenylpropanoid metabolism
of transgenic strawberry (Fragaria × ananassa). Journal of
Experimental Botany,2009,60(7) :2093-2106.
[24]Ehlting J,Hamberger B,Million-Rousseau R,et al. Cytochromes
P450 in phenolic metabolism. Phytochem Rev,2006,5(2) :
239-270.
[25]Ralston L,Yu O. Metabolons in volving plant cytochrome P450s.
Phytochem Rev,2006,5(2) :459-472.
[26]Bourgaud F,Hehn A,Larbat R,et al. Biosynthesis of coumarins
in plants:a major pathway still to be unravelled for cytochrome
P450 enzymes. Phytochem Rev,2006,5(2) :293-308.
[27]Coon M J. Cytochrome P450:nature 's most versatile biological
catalyst. Annual Review of Pharmacology and Toxicology,2005,
45(1) :1-25.
[28]Hao D C,Ma P,Mu J,et al. De novo characterization of the root
transcriptome of a traditional Chinese medicinal plant Polygonum
cuspidatum. Science China(Life Sciences) ,2012,55(5) :452-
466.
[29]Sun C,Li Y,Wu Q,et al. De novo sequencing and analysis of
the American ginseng root transcriptome using a GS FLX Titanium
platform to discover putative genes involved in ginsenoside
biosynthesis. BMC Genomics,2010,11:262.
[30]曹纬国,刘志勤,邵云,等. 黄酮类化合物药理作用的研究进
展. 西北植物学报,2003,23(12):2241-2247.
Cao W G,Liu Z Q,Shao Y,et al. A progress in pharmacological
research of flavonoids. Acta Botanica Boreali-Occidentalia Sinica,
2003,23(12) :2241-2247.
[31]康亚兰,裴瑾,蔡文龙,等. 药用植物黄酮类化合物代谢合成
途径及相关功能基因的研究进展. 中草药,2014,45(9):
1336-1341.
Kang Y L,Pei J,Cai W L,et al. Research progress on flavonoid
metabolic synthesis pathway and related function genes in
medicinal plants. Chinese Traditional and Herbal Drugs,2014,
24(9) :1336-1341.
[32]何水林,郑金贵,林明,等. 植物芪类次生代谢物的功能、合成
调控及基因工程研究进展. 农业生物技术学报,2004,12
(1):102-108.
He S L,Zheng J G,Lin M,et al. Advances of biological
function, regulatory mechanism of biosynthesia and genetic
engineering of stillbenes in plants. Journal of Agricultural
Biotechnology,2004,12(1) :102-108.
[33]褚洪标,曾红,梁生林,等. 二岐马先蒿苯丙素类活性成分研
究. 中草药,2014,45(9):1223-1227.
Chu H B, Zeng H, Liang S L, et al. Phenylpropanoids
constituents of Pedicularis dichotoma. Chinese Traditional and
Herbal Drugs,2014,45(9) :1223-1227.
[34]王毓杰,谭荣,周礼仕,等. 长毛风毛菊中苯丙素类化学成分
研究. 中药材,2015,38(1) :101-103.
Wang Y J,Tan R,Zhou L S,et al. Phenylpropanoids from
Saussureae hieracioides. Journal of Chinese Medicinal Material,
2015,38(1) :101-103.
[35] Kuete V. Health Effects of Alkaloids from African Medicinal
Plants. America:Toxicological Survey of African Medicinal
Plants. 2014:611-633.
[36]张利达,唐克轩. 植物 EST-SSR标记开发及其应用. 基因组学
与应用生物学,2010,29(3):534-541.
Zhang L D,Tang K X. Development of plant EST-SSR markers
and its application. Genomics and Applied Biology,2010,29
(3) :534-541.
[37]王森,张震,姜倪皓,等. 半夏转录组中的 SSR位点信息分析.
中药材,2014,37(9) :1567-1570.
Wang S, Zhang Z, Jiang N H, et al. SSR Informationin
transcriptome of Pinellia ternate. Journal of Chinese Medicinal
Materials,2014,37(9) :1567-1570.
54
中国生物工程杂志 China Biotechnology Vol. 36 No. 1 2016
[38]王东,曹玲亚,高建平. 党参转录组中 SSR位点信息分析. 中
草药,2014,45(16) :2390-2394.
Wang D,Cao L Y,Gao J P. Data mining of simple sequence
repeats in Codonopsis pilosula transcriptome,Chinese Traditional
and Herbal Drugs,2014,45(16) :2390-2394.
[39]杨维泽,金航,赵振玲,等. 西洋参 EST资源的 SSR信息分析.
西南农业学报,2011,24(1) :275-278.
Yang W Z, Jin H, Zhao Z L, et al. Analysis of SSR
Informationin EST Resource of Panax quinquefolium L. .
Southwest China Journal of Agricultural Sciences,2011,24(1) :
275-278.
De novo Characterization of the Seed Transcriptome
of Lepidium apetalum Willd
ZHOU Qian1 ZHAO Hui-xin1 LI Ping-ping1 ZENG Wei-jun1 LI Yan-hong1 GE Feng-wei1
ZHAO Jun-jie1 ZHAO He-ping2
(1 Xinjiang Key Laboratory of Special Species Diversity Application and Regulatory,College of Life Science,
Xinjiang Normal University,Urumqi 830054,China)
(2 Beijing Key Laboratory of Gene Resource and Molecular Development,College of Life Science,
Beijing Normal University,Beijing 100875,China)
Abstract Lepidium apetalum Willd is an important traditional Chinese medicine. Various active
components have been extracted from the Lepidium apetalum. However,the genetic basis for their activity is
virtually unknown. The transcriptome of Lepidium apetalum was sequenced using the Illumina HiSeqTM 2000
sequencing platform. The clean reads were then de novo assembled into 40 303 unigenes. 27 935 unigene were
annotated by a similarity search against SiX public databases. The results showed that 534 genes were assigned to
second metabolic pathway. Among them,4 unigenes were mapped to the glucosinolate,19 to flavonoids,
stilbenoid,diarylheptanoid,69 to gingerol shikimate biosynthesis pathways,and 92 unigenes were respectively
mapped to the phenylalanine metabolism pathways,suggesting that they are involved in these pathways of
pharmaceutically important. Thirteen homologous fragments of key genes identified were referred to these
pathways. In addition,a total of 6 304 SSRs were identified from the sequence of transcription,distributed in
5 306 unigenes(15. 64%). This work not only provides many valuable basal data for gene cloning and molecular
biology research,but also lays the foundation for genetic diversity analysis and development of molecular marker
in Lepidium apetalum.
Key words Lepidium apetalum Willd Transcriptome Second metabolism Simple sequence repeat
64