Research Progresses of Tomato Genome


* 通信作者 Author for correspondence(E-mail:swausongm@163.com;minzniwang_555@163.com)
张立慧,王志敏*,郭 航,吕焕青,安礼渝,汤青林,宋 明*
(西南大学园艺园林学院,南方山地园艺学教育部重点实验室,重庆市蔬菜学重点实验室,重庆 400715)
摘 要:就利用番茄基因组序列进行的基因与表型、基因注释、基因家族和其他物种基因组研究方
Research Progresses of Tomato Genome
ZHANG Li-hui,WANG Zhi-min*,GUO Hang,Lü Huan-qing,AN Li-yu,TANG Qing-lin,and SONG
(College of Horticulture and Landscape Architecture,Southwest University;Key Laboratory of Horticulture Science for
Southern Mountainous Regions,Ministry of Education;Chongqing Key Laboratory of Olericulture,Chongqing 400715,
Abstract:This paper summarized the current researches related to tomato genome sequence in many
fields,such as gene and phenotype,gene annotation,gene family and genomic research in other species.
Then the significance for molecular breeding of tomatoes and the application prospect are put forward.
Key words:tomato genome;phenotype;gene annotation;gene family;molecular breeding

基因组学(Genomics)是 20 世纪 90 年代兴起的最活跃的研究领域之一,是对所有基因的结构
genomics)和功能基因组学(functional genomics),后者常常又被称为后基因组学(post-genomics)。
的信息,开发并应用新的试验方法,系统地分析基因功能(Hieter & Boguski,1997)。功能基因组
学的研究主要包括基因功能的发现、基因表达分析及其突变的检测等内容(常敬礼 等,2008)。
由中国、美国、荷兰、以色列、日本等 14 个国家的 300 多位科学家组成的“番茄基因组研究
国际协作组”,历经 8 年多的艰苦努力,完成了对栽培番茄全基因组的精细序列分析,该成果于 2012
年 5 月 31 日在《Nature》上以封面文章的形式发表(Tomato Genome Consortium,2012)。此次测序
的番茄品种为 Solanum lycopersicum‘Heinz 1706’,解码的番茄基因组中大约鉴定出 34 727 个基因,
其中 97.4%(33 840 个)的基因已经精确定位到染色体上。协作组同时绘制了栽培番茄祖先种野生

醋栗番茄(Solanum pimpinellifolium)基因组的框架图,通过比较分析发现了番茄果实进化的基因组
高质量番茄 S. lycopersicum‘Heinz 1706’基因组测序的完成极大地推动了很多领域番茄研究的
1 基因与表型的研究
1.1 表观遗传学和基因表达
结果发现,在果实中测定的基因组里存在 1%差异甲基化区域,而有关成熟的转录因子 RIN 的结合
位点在这些区域也不断被发现(Zhong et al.,2013)。另外,在 microRNAs 的研究中,为了研究在
基因沉默中潜在的 microRNAs 靶基因,在完整的番茄基因组序列里得到的注释可以应用到整个基因
组里 miRNA-mRNA pairs 的识别(Karlova et al.,2013),同时可以搜寻整个基因组序列来确保没有
能产生脱靶效应的相似序列(van Vu et al.,2013)。孙超等(2012)为了识别番茄基因组中潜在的
miRNA,依据已发现的 miRNA 特征,采用支持向量机方法,构建模型 Sly_pre_SVM 和 sly_SVM 预
测番茄的前体 miRNA 序列和成熟 miRNA 序列。
在目前的基因表达分析中常使用 RNA 测序技术(Strickler et al.,2012),但大多数的分析通路
需要一个高质量的参考基因组或转录组作为模板进行序列比对。为此,番茄基因组的研究为 RNA
序列,与番茄基因组序列比对,从而确保这些序列来自番茄,并识别出新的转录本(Ruzicka et al.,
2012)。Huang 等(2013)通过与番茄基因组序列比对来分析 SUN、OFP 和 GABBY 转录因子的表达,
参考序列比对发现新基因。例如,在 S. lycopersicum‘Micro-Tom’根组织中通过与参照序列定量比
分裂素和生长素调节基因是同源的(Gupta et al.,2013)。杨晓慧(2012)在番茄抗黄化曲叶病基因
Ty-2 的研究中,以测序番茄品种 S. lycopersicum‘Heinz 1706’的基因组作为参考序列,在 Ty-2 基因
侧翼标记 M1 和 UP8 之间的 300 kb 区域预测出 35 个相关基因。
的表达网络,Tzfadia 等(2012)使用番茄芯片(昂飞公司)作为微阵列探针比对到番茄基因组,这
些相配的基因通过基因路径预测工具 MORPH 被认定是有用的。依据 ITAG2.3 序列注释及番茄基因
组序列,预测出与生育酚合成有关的 47 个基因的调控因子,生育酚调控的表达网络产生后,几个可
以改善番茄营养价值的关键基因被确认(Quadrana et al.,2013)。
pennellii)基因渗入系被确定下来(Cigliano et al.,2013)。番茄基因组计划里的 RNA-seq 数据也被
用来观察 SlNADP-ME 基因在果实发育的不同阶段的表达,以便更好地理解它们在果实成熟中的作
用(Osorio et al.,2013)。
1.2 从表型到基因型的研究
研究物理图谱中使用的标记,对 DNA 序列进行染色体组定位很重要,对基因型的研究也很重
要。Kadirvel 等(2013)用番茄的物理图谱确定了抵制野生种基因渗入的与黄叶曲叶病(Ty)相关
的标记位置。Sharlach 等(2013)还用番茄的物理图谱来设计标记并应用,例如运用研究的标记来
精细定位潘那利番茄(S. pennellii)渐渗群体中的番茄疮痂病的抵抗性基因座。MacAlister 等(2012)
将根据醋栗番茄 S. pimpinellifolium 组装序列开发的标记比对到 TMF(一个涉及开花的基因)上,并
利用 ITAG2.3 序列编码区注释来观察比对基因的表达。
番茄基因组序列还可用于 SNPs(single nucleotide polymorphisms)的定位,进而探究决定表型
的遗传因素。Sim 等(2012)为了找到 SNPs 在 SolCAP 番茄数组中的实际位置,通过 BLAST 将 SNPs
侧翼序列比对到番茄基因组组装序列中,这些 SNPs 被用来观察栽培番茄和醋栗番茄(S.
pimpinellifolium)之间的种群结构。定位 SNPs 的相似方法也被用在另一个 SNP 芯片数据集里,其
中包括许多番茄系、杂交种,还有一些野生种(Asamizu et al.,2012)。现在在基因附近出现的部分
SNPs 已经被进一步分析以确定其在基因功能上可能的影响。
2 基因注释研究
是一种参与果实成熟的醇脱氢酶基因,番茄基因组序列在 SlscADH1 基因的染色体组定位中有着重
要的作用,最后将该基因定位在 12 号染色体上(Moummou et al.,2012)。Yarmolinsky 等(2013)
防止亚硫酸盐的危害具有重要的作用。将番茄黄色果实突变体的 PSY1 基因序列和‘Heinz 1706’的
基因序列比对发现,控制表型的基因没有差异(Kachanovsky et al.,2012),说明突变体的 PSY1 基
自番茄数据集的预测蛋白质可识别柱头和花柱中重要发展阶段的蛋白质(Chalivendra et al.,2013)。
此外,番茄的基因组和蛋白质数据也被用于辣椒(Capsicum frutescens)的转录组数据注释(Liu et al.,
另外,番茄基因组数据库还可用于研究基因功能或进行序列研究。为了研究番茄中 SlmiR393
基因的功能,利用生物信息学方法,从番茄基因组数据库里获得了 SlmiR393 的前体序列和潜在的靶
基因。使用基因组DNA作为模板,克隆了番茄 SlmiR393前体基因并整合到植物表达载体 pLP35S-100
上,采用定量 PCR 技术检测了 SlmiR393 及它的靶标基因在番茄不同组织中的表达情况(林冬波 等,
AGO7 的 EST 序列信息,从番茄叶基因组 DNA 和花 cDNA 中分别克隆到 SlAGO7 的基因组序列和
cDNA 全长序列,并用生物信息学方法对克隆的基因序列特征进行了分析。Fujisawa 等(2013)在
研究中发现 MADS-box 转录因子 Ripening-Inhibitor(RIN)的目标位点在一个芯片上,通过与番茄
基因组比对,将这些目标位点序列识别并定位。Andolfo 等(2014)还用番茄基因组信息预测了与
3 基因家族研究
究。万红建等(2013)运用番茄全基因组信息鉴定番茄 SBP 转录因子家族,进而分析了它的结构特
(ethylene response factor genes,ERF)基因家族是植物 AP2/ERF 转录因子超家族的一个亚家族,依
据注释后番茄基因组序列,确定出 146 个假定的 ERF 蛋白,并建立了 ERF 系统进化树(Pirrello et al.,
2012),还利用已经公布的基因组序列在番茄和许多其他物种中发现了影响植物株形的 ERECTA 基
因,建立 ERECTA 基因系统发育树(Villagarcia et al.,2012)。同时可以利用系统发育方法来研究基
因家族。随着包含有编码蛋白注释的番茄基因组测序的完成,Sakamoto 等(2012)使用大型系统发
育方法来研究 RLK 家族。
组中所发现的抗病基因家族 R,建立一个关于 R-genes 的数据库(Sanseverino et al.,2010)。
4 对其他物种基因组研究的参考作用
4.1 序列组装
首次以番茄基因组作为参考基因组进行了醋栗番茄(S. pimpinellifolium)Illumina 测序序列的组装,
其中不仅要考虑到两个基因组之间的单核苷酸多态性(Single Nucleotide Polymorphism)检测,还考
虑了假设的近亲与番茄栽培种之间差异信息因素(Tomato Genome Consortium,2012)。许多其他的
基因组也使用这种方法进行了组装,包括番茄 S. lycopersicum 系和近亲属,如 150 番茄基因组(重)
测序项目(Finkers & van Heusden,2013)和 SOL-100 项目(http://solgenomics.net/organism/sol100/view)。
缘种在序列组装时当作参考,例如在黄矢车菊(Centaurea solstitialis)的转录组装配中确定了装配
的完整性(Dlugosch et al.,2013)。番茄基因组也可以用作生物信息学项目发展中的测试数据集,
如为了与基因预测软件 Genome Threader 运行的云计算基准进行比较,番茄基因组被用作基因结构
预测中的测试数据集(Cohen et al.,2012)。
4.2 比较基因组学
番茄的基因组序列对于研究茄科和肉质果类的比较基因组学是非常重要的。Asamizu 等(2012)
将番茄‘Micro-Tom’BAC-end 序列比对到‘Heinz 1706’的基因组上,找到了这两个基因组的多态
基因组重排被发现,一个是在 2 号染色体上的倒置,另一个是在 3 号染色体上的倒置和易位。在对
潘那利番茄(S. pennellii)基因渗入中的预测基因研究中,发现这些基于‘Heinz 1706’注释的渗入
基因与果实酚类物质高量表达有关(Di Matteo et al.,2013)。用软件 MUGSY 对番茄 S. lycopersicum
‘Heinz 1706’与醋栗番茄 S. pimpinellifolium‘LA1589’进行基因组序列的比较分析,识别出 145 695
个插入缺失标记(Yang et al.,2014)。在番茄的进化枝里确定栽培番茄品种与野生番茄的对比中存
番茄基因组序列已经在许多其他茄科植物的基因组比较中被广泛应用。茄子的 QTL 定位揭示了
与产量相关的基因簇的位点,并可以通过与番茄基因组进行同源性分析进一步研究其功能(Ezio et
al.,2014)。Andolfo 等(2013)使用 ITAG 序列注释确认了番茄和马铃薯的病原体识别基因并分析
系同源簇就是利用番茄、辣椒(C. annuum)和马铃薯(S. tuberosum)产生的,并找到了涉及这种
病害应答途径的保护基因(Góngora-Castillo et al.,2012)。另外有研究发现,番茄基因组数据可用
在不同物种间进行比较作图。为辣椒和番茄的比较作图而建立了 SSR 标记,番茄基因组数据方便开
发更多的 SSR 标记(Shirasawa et al.,2010a)。Sugita 等(2013)在辣椒和番茄之间构建了 COS 锚
将番茄序列与其他物种比较,可以获得更多有价值的信息。Wang 等(2013)为了获得有色体
确定,随后与其他 5 种类胡萝卜素丰富的植物(西瓜、胡萝卜、橙色花椰菜、红木瓜和红灯笼椒)
进行了比较,这 6 种作物的质体蛋白组的比较分析揭示了特殊有色体的独特性,并发现了有色体大
比较研究(Shahin et al.,2012)。该研究确定了百合科中直系同源组的数量可能低于番茄与马铃薯的
基因(SlCXE1)中存在一个插入,在与 NCBI 数据库里的其它物种比对后发现,它可能是茄属植物
所特有的(Goulet et al.,2012)。另一项研究是针对番茄、大白菜和香蕉中发现的单拷贝基因。单拷
贝基因利用直系同源组(OGs)通过 OrthoMCL 方法确定,OGs 从最近公布的番茄、白菜、香蕉基
是必不可少的看家基因(de Smet et al.,2013)。
5 对分子育种的意义
发现、种质资源的基因型鉴定、标记辅助选择和基于图谱的基因克隆等方面(尹贤贵 等,2004);
Erika 等(2012)利用发布的‘Heinz1706’番茄中 EST(表达序列标签)信息和 BAC-end sequences
(BESs)开发了 SNP(Single Nucleotide Polymorphism)、SSR(Simple Sequence Repeat)和内含子
多态性标记,并利用这些标记创建了‘Micro-Tom’与‘Ailsa Craig’(温室番茄)和‘Micro-Tom’
与 M82(加工用番茄)之间的连锁图谱,共有 1 137 个标记定位到两个连锁图谱上。番茄基因组测
番茄基因组门户网站 Kazusa Tomato Genomics Database(KaTomicsDB:http://www.kazusa.or.jp/tomato/)
已公布两个数据库:第 1 个是番茄标记数据库(http://marker.kazusa.or.jp/tomato/),此数据库提供了
8 297 个 SNP 和 21 100 个 SSR 标记,也就是说此数据库提供的信息中包含引物序列,包括标记位点
在内的DNA片段,提供DNA标记的基因连锁图谱和 42个番茄品系的SNPs基因分型数据(Shirasawa
et al.,2010a,2010b;Hirakawa et al.,2013);另外,这些标记中的大部分已经通过序列相似性检索
定位到番茄基因组上。第 2 个是番茄功能性 SNP 数据库(http://plant1.kazusa.or.jp/tomato/),提供
含有 SNPs 注释的基因信息,这些注释是和 KOG、KEEG、NCBI 中的 NR、TAIR10、PDB 数据库
进行序列相似性检索得来的(Shirasawa & Hirakawa,2013)。
因组学的发展而发展起来(陈儒钢 等,2009)。发现新基因可借助遗传作图和图位克隆、比较基因
番茄基因组测序的完成无疑为功能基因的分析及克隆分离提供了便捷的途径(向娅 等,2013),也
为番茄新基因发现奠定了基础,如从野生类群中寻找可用于番茄遗传育种的优良基因(孟凡娟 等,
6 展望
的野生资源渐渗系(杜永臣 等,2010),加强番茄基因组学在分子育种中的研究与应用,扩大基因

