免费文献传递   相关文献

条斑紫菜低覆盖度基因组草图分析



全 文 : 76 海洋科学 / 2011年 / 第 35卷 / 第 6期
条斑紫菜低覆盖度基因组草图分析
牛建峰1, 高胜寒2, 骆迎峰2, 袁 野2, 王广策1, 胡松年2
(1. 中国科学院 海洋研究所, 山东 青岛 266071; 2. 中国科学院 北京基因组研究所, 北京 100029)
摘要: 对条斑紫菜(Porphyra yezoensis)进行 Solexa 高通量测序, 获得低覆盖度全基因组草图。该基因组
草图大小约 220 Mbp, GC 质量分数 53.08%; 包含 26 629 个预测基因, 其中 16 409 个基因具有内含子,
平均每个基因含 2.22 个内含子; 基因结构分析表明具有内含子的基因平均长度为 2 214 bp, 内含子平
均大小 319 bp; 代谢通路分析表明嘌呤代谢是含有蛋白数量最多的代谢途径。本研究所得条斑紫菜低
覆盖度全基因组草图快速获取了基因组大小和蛋白编码基因结构等基本信息, 证明了使用 Solexa 高通
量测序技术对条斑紫菜进行全基因组测序的可行性。
关键词: 条斑紫菜(Porphyra yezoensis); Solexa 高通量测序; 代谢通路
中图分类号: Q949.21; Q942.4 文献标识码: A 文章编号: 1000-3096(2011)06-0076-06
紫菜属(Porphyra)属于红藻门(Rhodophyta), 原
红藻纲 (Rhodophyceae), 红毛菜目 (Bangiales), 红毛
菜科(Bangiaceae)。全世界已发现的紫菜约 130余种,
广泛分布于寒带至亚热带的潮间带水域, 其中 30 种
分布于北大西洋沿岸的欧美国家, 28 种来自于日本,
27 种来自于太平洋沿岸的美国和加拿大, 中国特有
种为坛紫菜, 除此之外, 在印度沿岸亦有报道[1]。紫
菜属物种外形简单, 叶状体从圆形、卵圆形至长条状,
长度 5~35 cm。单个叶状体上又有雌性区与雄性区的
分别 , 叶片呈单层或双层细胞 , 每个细胞含有一个
或两个具有淀粉核(或蛋白核)的星状质体。所有种的
紫菜均具有孢子体和配子体的异型世代交替生活史[2]。
紫菜是一类具有重要经济价值的大型海藻 , 据
统计, 每年紫菜总产值高达 20 亿美元, 约占全世界
大型海藻总产值的一半[3-5]。目前, 中国的紫菜栽培
业发展迅速, 2001年后产量一直居世界第一, 已成为
中国水产养殖业的支柱产业 [6-7]。其中条斑紫菜
(Porphyra yezoensis)是栽培面积最大、经济价值最高
的种类之一。由于经济价值高, 在其生活史、生态学、
生理和生化等方面已被进行了大量研究[8]。近年来,
随着紫菜栽培规模不断扩大和遗传育种研究的需要,
紫菜分子遗传学研究应运而生。其中, 建立在 PCR
基础上的随机扩增片段长度多态性 (random ampli-
fied polymorphic DNA, RAPD)标记技术、扩增片段长
度多态性 (amplified fragment length polymorphism,
AFLP)标记技术和简单序列重复 (simple sequence
repeats, SSR)标记技术在紫菜遗传多样性和分子系
统学研究中已经得到广泛应用。
目前 , 虽然已经从紫菜中克隆到了一些生理调
控基因, 但仍有大量的基因未被分离鉴定出来[9], 截
止到 2010 年 10 月, 在 GenBank 中收录的条斑紫菜
的蛋白质序列(不包括 EST序列)约 931个, 尚不能充
分了解紫菜的分子遗传学信息[10]。
建立在 cDNA 文库以及序列测定基础上的 EST
分析和基因序列的比较是当前紫菜功能基因组学研
究的主要手段。迄今为止, 国内外研究者已经先后建
立了条斑紫菜孢子体和配子体以及坛紫菜丝状孢子
体的 cDNA 文库[11-17], 并在此基础上对 cDNA 克隆
进行测序进而获得 EST序列。目前, 在 NCBI的 EST
数据库中可以找到 22 069条条斑紫菜丝状藻丝孢子
体和配子体的 EST[9,12-13]。对 3267 个非冗余 EST序
列的同源比较分析结果显示, 约占分析序列 33.1%
的 EST 序列与其他生物如高等植物、哺乳动物、酵
母以及蓝细菌等相似, 其余的则为首次发现。但限于
分析规模或研究目标的限制, 大部分序列测定的数
量都十分有限, 还没有实质性开展包括多个生长发
育时期的大规模 EST测序研究。
目前, 紫菜分子生物学的相关研究结果较分散,

收稿日期: 2010-11-10; 修回日期: 2011-02-25
基金项目: 国家 863 计划项目(2007AA09Z406); 国家自然科学基金
项目(30830015); 国家 973计划前期专项(2011CB411908)
作者简介: 牛建峰(1977-), 男 , 山西榆次人 , 副研究员 , 主要从事藻
类生理生化研究, 电话: 0532-82898575, E-mail: jf_niu@sina.com.cn;
王广策, 通信作者, E-mail: gcwang@ms.qdio.ac.cn; 胡松年, 通信作
者, E-mail: husn@big.ac.cn
Marine Sciences / Vol. 35, No. 6 / 2011 77
缺乏系统性。因此有必要对其遗传背景进行更广泛
和深入的系统研究, 从而更好地利用紫菜丰富的遗
传资源。与陆地植物相比, 海洋藻类基因组学研究还
刚刚起步, 海藻功能基因的比较基因组学研究尚未
见报道。本文使用第二代高通量测序仪 Solexa 对条
斑紫菜进行低覆盖度全基因组测序, 获取了条斑紫
菜基因组大小和蛋白编码基因大小、内含子数量和
大小等基因组基本特征, 为构建高质量条斑紫菜基
因组精细图作了准备。
1 材料和方法
1.1 材料
条斑紫菜由江苏苏东海洋生物科技有限公司提供。
1.2 Solexa 基因组文库构建和测序
提取高质量紫菜基因组 DNA(天根新型植物基
因组 DNA 提取试剂盒 , DP320-02, 北京 )。采用
Covaris™ S2 Covaris™ Inc.)超声仪进行片段化。起始
量 10 µg, 用 1×low TE Buffer稀释到 300 mg/L, 参数
设定如下, 20次循环×40 s, 水浴温度: 5 , ℃ 占空比:
10%, 强度: 8, 模式: Frequency sweeping。
采用 NEB Next DNA Sample Prep Reagent Set1
(New England biolabs Inc.)进行末端补平, 3′末端单碱
基“A”加尾, Solexa 测序 adapter 连接和 PCR 富集。
所有纯化步骤采用 QIAGEN 公司产品。末端补平:
100 µL 反应体系中, 50 µL 超声打断产物, 10 µL
10*Phosphorglation Buffer, 4µL 10*DNTP Mix (10
mmol), 5 µL T4 DNA Polymerase, 1 µL DNA Poly-
merase 1 (Large Fragmert), 5 µL T4 Polynucleotide
Kinase, 20 30℃ min, QIAquick PCR purification Kit
纯化。末端“A”加尾, 50 µL反应体系中, 32 µL末端
补平纯化产物, 5 µL NEB Buffer2 (Klenow exo-),
10 µL DATP缓冲液 (1mmol), 3 µL Klenow Fragment
(3′-5′exo-), 37 30℃ min, QIAgen MinElute PCR Puri-
fication Kit纯化。Solexa测序 adapter连接: 40 µL反
应体系中, 19 µL加尾纯化产物, 25 µL Quick Ligation
Reaction Buffer, 1 µL, PE adapter Oligo Mix (100
µmol), 5 µL T4 DNA Ligase, 室温放置 30 min,
QIAgen MinElute PCR Purification Kit纯化。连接产
物用 2%琼脂糖凝胶电泳分离, 切取 300~400 bp 片
段, QIAquick Gel Extraction Kit纯化。PCR富集: 60 µL
体系, 25 µL PCR Mix (DNTP, buffer, 酶), 2 µL
Solexa 扩增 Primer Mix (50 pmol), 33 µL胶回收产物,
充分混合, PCR反应条件: 98℃ 30 s; 98℃ 10 s, 65℃
30 s, 72℃ 30 s, 10个循环; 72 5℃ min。QIAquick PCR
purification Kit 纯化。纯化产物 NanoDrop™ ND-
1000 (Thermo Scientific Inc.)定量后按照 Solexa测序
仪标准流程进行 2×81双向测序[18]。
1.3 数据处理
1.3.1 数据预处理和拼接
根据 Solexa 序列质量值, 去除两个或两个以上
连续低质量碱基(Q值小于 20), 只保留长度大于 35 bp
的序列。SOAPdenovo (v1.04, BGI)[19]对高质量 Solexa
序列进行拼接, 参数设定为: K-mer长度 29bp, 文库
平均插入长度 300 bp, scaffolding联配长度 35 bp, 其
余参数默认。拼接完成后使用 gapcloser 程序进行
scaffold内部空洞填补。
1.3.2 基因组草图覆盖率评价
NCBI中条斑紫菜 EST序列(2010年 9月 30日),
共计 22 069条[12], 对 EST序列进行 blat[20]自我比对,
去除相似性 95%且联配比例大于 95%的冗余序列,
得到非冗余 EST序列 15 517条,总长度 7 012 808 bp。
NCBI 中 920 条斑紫菜蛋白序列去冗余后得 328 条,
平均长度 277 aa。
统计NCBI中条斑紫菜 EST和蛋白序列在 contig
或 scaffold 上的覆盖情况评价本研究所得基因组草
图的完整性。比对程序为 blat[20], 只统计相似性大于
95%且查询序列覆盖度大于 10%的比对结果。对一条
EST 或蛋白序列被比对到多处基因组的情况, 只统
计覆盖度最高的比对结果。
1.3.3 基因预测
使用 augustus 程序[21]中自带的模型训练模块对
NCBI 数据库中已知紫菜属基因的 CDS 序列进行训
练, 生成基因预测模型, 并参考条斑紫菜已知 EST
数据(22 069条), 对 scaffold序列进行预测。
使用 exonerate程序[22]中的 protein2genome模块,
将条斑紫菜已知蛋白标注到条斑紫菜基因组上, 并
设定长度覆盖大于 90%且得分最高的蛋白作为“成功
exonerate 蛋白”。预测基因与“成功 exonerate 蛋白”
进行基因结构比较, 检查 augustus预测效果。
1.3.4 基因注释
预测基因 BLAST比对 NCBI nr蛋白库进行初步
注释。定义 BLAST 比对 E 值小于 1e-10, 且被比对
蛋白长度覆盖度大于 90%的对应条斑紫菜基因为“全
长基因”。预测基因 BLAST比对 KEGG数据库[23]进
行代谢途径分析, 比对参数设定 E小于 1e-10。
78 海洋科学 / 2011年 / 第 35卷 / 第 6期
2 结果
2.1 数据预处理和拼接
质量过滤后共得 55 749 075条总计 4 171 821 694 bp
高质量序列。SOAPdenovo程序拼接并根据序列正反
向和文库大小信息构建 scaffold和填补序列空洞, 结
果得到长度 587 042 个大于 100 bp 的 contig, 总长
170 619 909 bp, N50值 401 bp, 平均 GC质量分数
53.08%, 最大 contig 44 754 bp; 370 119个 scaffold总
长 220 854 049 bp, N50值 1 317 bp, 最大 scaffold
236 183 bp。
2.2 条斑紫菜基因组草图覆盖率评价
非冗余 EST 序列比对 contig 序列结果显示 (表
1): 共有 14 341 条 EST 比对到 contig, 占总数的
92.42%; 7 198条 EST 90%以上序列被单个 contig覆
盖, 比例为 46.39%, 50%以上长度被覆盖的条数为
12 163 条, 比例为 78.38%。非冗余 EST 序列比对
scaffold结果显示, 共计 14 307 (92.20%)条 EST比对
到 scaffold; 10 852 条 EST 90%以上被单个 scaffold
覆盖, 比例为 69.93%, 50%以上长度被覆盖的条数为
13 288条, 比例为 85.63%。

表 1 以已知条斑紫菜 EST 序列评价基因组草图完整性
Tab. 1 Assessment the sequence coverage of P. yezoensis genomic draft using known ESTs
contig scaffold 长度覆盖(%) 累积条数(条) 累积比例(%) 累积条数(条) 累积比例(%)
100 5 899 38.016 4 9 314 60.024 5
90 7 198 46.387 8 10 852 69.936 2
80 8 305 53.521 9 11 623 74.904 9
70 9 485 61.126 5 12 240 78.881 2
60 10 749 69.272 4 12 803 82.509 5
50 12 163 78.385 0 13 288 85.635 1
40 13 127 84.597 5 13 632 87.852 0
30 13 826 89.102 3 13 947 89.882 1
20 14 204 91.538 3 14 183 91.403 0
10 14 341 92.421 2 14 307 92.202 1

非冗余条斑紫菜蛋白序列比对 contig结果(表 2)
显示: 299 个可定位到 contig 上, 占非冗余蛋白序列
的 91.16%。单个蛋白 90%以上长度被单个 contig覆
盖的个数为 171个, 比例为 52.13%; 50%以上长度被
单个 contig 覆盖的个数为 228 个, 比例为 69.51%。
298 个非冗余蛋白比对到 scaffold, 占非冗余蛋白序
列的 90.85%。单条蛋白有 90%以上长度被单个
scaffold 覆盖的个数为 192 个, 比例为 58.54%; 50%

表 2 以已知条斑紫菜蛋白序列评价基因组草图完整性
Tab. 2 Assessment the sequence coverage of P. yezoensis genomic draft using known proteins
contig scaffold 长度覆盖(%) 累积条数(条) 累积比例(%) 累积条数(条) 累积比例(%)
100 135 41.158 5 157 47.865 9
90 171 52.134 1 192 58.536 6
80 188 57.317 1 203 61.890 2
70 198 60.365 9 210 64.024 4
60 213 64.939 0 222 67.682 9
50 228 69.512 2 233 71.036 6
40 240 73.170 7 244 74.390 2
30 263 80.182 9 265 80.792 7
20 281 85.670 7 281 85.670 7
10 299 91.158 5 298 90.853 7

Marine Sciences / Vol. 35, No. 6 / 2011 79
以上长度被覆盖的个数为 233个, 比例为 71.04%。
条斑紫菜非冗余 EST 和全长已知蛋白序列覆盖
度分析表明 90%以上长度定位到基因组草图的比例
相对较低 (50%左右), 说明本草图至少完整覆盖了
条斑紫菜基因组中全部编码编码基因中的一半, 并
且总数 90%以上的 EST 或蛋白序列可定位到基因组
草图上, 表明随着 Solexa 测序量的增加可以得到绝
大多数完整基因序列。
2.3 基因预测
结果表明 , 条斑紫菜基因组 augustus 预测得
26 629个“预测基因”, 总长 43 407 556 bp, 平均长度
1 624 bp, 编码区平均长度为 1 187 bp, 其中具有内
含子的基因 16 409个, 占 61.62%, 平均长度 2 214 bp,
平均每个基因含 2.22 个内含子 , 内含子平均长度
319 bp。
exonerate结果表明, 328条非冗余紫菜蛋白序列
中, 241 条以≥90%蛋白长度比对到条斑紫菜基因组
(称为“exonerate 蛋白”), 平均长度 938 bp; 其中 78
个基因带内含子, 占总数的 32.37%, 平均长度 1 747
bp, 内含子平均长度 260 bp, 平均每个基因含 1.89
个内含子。所以从基因结构上看, 预测基因和已知条
斑紫菜蛋白基本相同, 由此说明了 augustus 软件进
行基因预测的合理性。
2.4 基因注释
26 629条预测蛋白 BLAST比对 NCBI非冗余蛋
白数据库(nr), E 值小于等于 1e-10 的蛋白条数为
21 895 条, 注释率为 82.22%; 进一步限定被比对 nr
数据库蛋白长度覆盖度≥90%, 得到高质量注释蛋
白 11 457条, 占 43.02%。
预测蛋白 BLAST比对 KEGG数据库, 进行代谢
途径分析, 比对参数 E≤1e-10。结果发现, 26 629条
蛋白中, 有 21 469 条得到了 KEGG 注释, 注释率
80.62%, 含蛋白数目最多的前 10大类 (图 1)分别是:
嘌呤代谢 (Purine metabolism), ATP 结合转运因子
(ABC transporters), 嘧啶代谢 (Pyrimidine metabo-
lism), 丙酮酸代谢(Pyruvate metabolism), 缬氨酸、亮
氨酸和异亮氨酸降解(Valine, leucine and isoleucine
degradation), 核糖体(Ribosome), 甘氨酸丝氨酸和苏
氨酸代谢(Glycine, serine and threonine metabolism),
双组分信号传导系统(Two-component system), 丙酸
代谢 (Propanoate metabolism), 丁酸代谢 (Butanoate
metabolism)。

图 1 块结合条斑紫菜预测蛋白 KEGG注释分析
Fig. 1 KEGG analysis for predicted proteins of P. yezoensis

3 讨论
国际生物基因资源研究的特点 , 一方面是从模
式生物基因组学入手, 研究生物个体发育和系统发
育的规律以及生物对环境的响应机制; 另一方面是
从实际应用入手, 进行基因组序列测定, 并分离、克
隆和表达有用的功能基因。自 1990年人类基因组计
划实施以来, 已经完成了人类、家猪、水稻、家蚕、
拟南芥、酵母等 50余种生物的全基因组测序工作。
而在水生生物研究领域, 类似研究进展相对滞后。目
前, 只在大型藻类的线粒体及叶绿体细胞器基因组
结构和系统进化方面有所推进[24]。Shivji[25]在上世纪
90 年代初构建了条斑紫菜叶绿体基因组图谱并对其
结构作了报道, Reith[26]构建了 P. Purpurea的叶绿体
基因组图谱, 发现有 46%的基因为陆生植物所不具
备。
80 海洋科学 / 2011年 / 第 35卷 / 第 6期
地球环境演变是生物类群的起源与发展的重要
因素之一, 生物对环境的适应性进化以及环境变化
对生物的选择, 是生物多样性发生的主要原因。大型
红藻作为海洋初级生命系统中进化较为低等的水生
植物, 其在形态、结构、生理和生存环境方面都与陆
地植物有着很大的不同, 仅光合作用色素体一项其
多样性就远高于陆地植物。因此, 国际上普遍认为,
大型红藻生物学方面的研究, 在生物进化与系统演
化方面具有重要的科学价值。例如, P. Purpurea的叶
绿体基因组上大量的编码序列和相对很少的内含子
以及操纵子序列的保守性都表明了紫菜质体基因组
特有的原始特征。除了基因组中的编码区, 重复序列
也逐渐引起人们的关注, 其重要特征是在进化中具
有很快的演化速度, Mizukami[27]认为这些高度重复
序列可以作为红藻门种系发生的一种研究工具。
条斑紫菜生活于潮间带 , 周期性地经历着潮涨
潮落的特殊生存条件, 特殊的生存环境孕育了独特
的代谢途径, 使之拥有了多种陆生生物所不具备的
特殊基因。因此有必要对紫菜的遗传背景进行更广
泛和深入的系统研究, 从而更好地利用紫菜丰富的
基因资源, 为我国工业、农业、药物产业服务。条斑
紫菜作为我国水产业重要的经济栽培物种, 在食用
及环境修复方面, 具有显著而重要的经济价值、环境
价值和研究意义, 开展条斑紫菜基因组及功能基因
的研究, 还将有助于培育出优质、高产、抗逆的养殖
新品种 , 从根本上解决海水养殖生物“质”、“量”和
“病”的问题。因此, 有必要开展其基因组与功能基因
研究工作, 以支撑我国生态养殖及海洋生物技术产
业的可持续发展。目前 NCBI公共数据库中只有 931
个条斑紫菜蛋白, 而本研究所得条斑紫菜基因组草
图预测得到 26 629个蛋白编码基因(11 457个高可信
度预测基因), 证明紫菜基因组相对复杂, 所以有必
要进行条斑紫菜基因组精细图谱的绘制, 使快速鉴
定大部分条斑紫菜功能基因成为可能。
基因组研究模式物种选择的标准在于: 研究对
象所具有的性状具有一定的代表性; 生物体便于培
养 , 利于研究工作的进行 ; 具有相关丰富的研究背
景(包括生态、生理、生化以及分子生物学的一系列
相关研究结果和经验); 能够充分利用现有方法和手
段进行深入研究以及基因组的结构和大小[28]。由于
紫菜的基因组相对较小, 大约为 2.6×108 bp 碱基对,
代时较短, 约 1~3 个月就可完成一个世代, 因而, 适
于基因组分析。其孢子体形式便于建立各种纯系及
实验室培养, 目前关于紫菜生活史、生理生化及遗传
学方面的研究以条斑紫菜居多, 并且研究也较为深
入, 因而条斑紫菜一直被认为是红藻等大型藻类基
因组研究较为理想的模式生物[7]。
综上所述 , 开展条斑紫菜的基因组测序及绘制
其精细图谱 , 不仅具有重要的理论意义 , 而且对于
开展紫菜的遗传育种, 促进我国条斑紫菜产业的可
持续发展具有指导意义。
参考文献:
[1] Yoshida T, Notoya M, Kikuchi N,et al. Catalogue of
species of Porphyra in the world, with special reference
to the type locality and bibliography[J]. Natural History
Research (Special Issue), 1997, 3: 5-18.
[2] 曾呈奎 , 张德瑞.紫菜的研究 I.甘紫菜的生活史
[J].植物学报, 1954, 3(3): 287-302.
[3] 张学成, 许璞, 秦松, 等.海藻遗传学[M].北京: 中
国农业出版社, 2005.
[4] Chopin T, Yarish C, Wilkes R, et al.Developing Por-
phyra/salmon integrated aquaculture or bioremediation
and diversification of the aquaculture industry
[J].Journal of Applied Phycology, 1999, 11: 463-472.
[5] Radmer R J.Algal diversity and commercial algal
products [J]. Bioscience, 1996, 46(4): 263-270.
[6] 马家海, 蔡守清. 条斑紫菜的栽培与加工[M]. 北京:
科学技术出版社, 1996.
[7] Sahoo D, Tang X R, Yarish C. Porphyra-the economic
seaweed as a new experimental system [J].Current
Science, 2002, 83: 1313-1316.
[8] Stiller J, waaland J R.Molecular analysis reveals criti-
cal diversity in Porphyra (Rhodophyta) [J].Journal of
Phyco1ogy, 1993, 29: 506-517.
[9] Lee E K, Seo S B, Kim T H, et al.Analysis of ex-
pressed sequence tags of Porphyra yezoensis
[J].Molecules and Cells, 2000, 10: 338-342.
[10] 马凌波, 张凤英.条斑紫菜细胞质甘油醛-3-磷酸脱氢
酶的 cDNA 克隆和序列分析 [J], 海洋渔业 ,2004,
26(4): 300-305.
[11] Asamizu E, Nakajima M, Kitade Y, et al.Comparison
of expression profiles between the two generations of
Porphyra yezoensis (Rhodophyta), based on expressed
sequence tag frequency analysis [J].Journal of Phy-
cology, 2003, 39: 923-930.
[12] Nikaido I, Asamizu E, Nakajima M, et al.Generation of
10154 expressed sequence tags from a leafy gameto-
phyte of a marine red Alga, Porphyra yezoensis
[J].DNA Research, 2000, 7: 223-227.
[13] 杨官品, 沈怀舜, 许璞, 等.条斑紫菜丝状孢子体表
达序列标签分析[J].高技术通讯, 2002, 12: 93-97.
Marine Sciences / Vol. 35, No. 6 / 2011 81
[14] 杨官品 , 刘永建 , 孙雪 , 等.条斑紫菜丝状孢子体
cDNA文库构建及抗病相关基因鉴定[J].青岛海洋大
学学报, 2003, 33: 47-52.
[15] Xu M J, Mao Y X, Zhang X C, et al.Bioinformatic
analysis of expresed sequence tags from sporophyte of
Porphyra yezoensis [J].Progress In Natural Science,
2005, 12: 24-34.
[16] 庞国兴 , 王广策 , 胡松年 , 等.坛紫菜丝状孢子体
EST 的获取及其生物信息学分析[J].海洋与湖沼 ,
2005, 36: 452-458.
[17] Kitade Y, Fukuda S, Nakajima M, et al.Isolation of a
cDNA encoding a homologue of actin from Porphyra
yezoensis (Rhodophyta) [J].Journal of Applied Phy-
cology, 2002, 14: 135-141.
[18] David R B, Shankar B, Harold P S, ea al. Accurate
whole human genome sequencing using reversible ter-
minator chemistry [J].Nature, 2008, 456: 53-59.
[19] Li R Q, Zhu H M, Ruan J, et al. De novo assembly of
human genomes with massively parallel short read se-
quencing [J]. Genome Research, 2010, 20: 265-272.
[20] Kent W J. BLAT-The BLAST-Like Alignment Tool
[J].Genome Research, 2002. 12(4): 656-664.
[21] Stanke M, Diekhans M, Baertsch R, et al. Using native
and syntenically mapped cDNA alignments to improve
de novo gene finding [J].Bioinformatics, 2008, 24:
637-644.
[22] Guy St C S, Ewan B. Automated generation of
heuristics for biological sequence comparison [J].BMC
Bioinformatics, 2005, 6: 31.
[23] Minoru K, Susumu G, Miho F, et al. KEGG for
representation and analysis of molecular networks
involving diseases and drugs [J].Nucleic Acids Re-
search, 2010, 38: 355-360.
[24] Crepineau F, Roscoe T, Kaas R, et al. Characterisation
of complementary DNAs from the expressed sequence
tag analysis of life cycle stages of Laminaria digitata
(Phaeophyceae).Plant Molecular Biology, 2000, 43:
503-513.
[25] Shivji M S.Organization of the chloroplast genome in
the red alga Porphyra yezoensis [J].Current Genetics,
1991, 19: 49-54.
[26] Reith M, Munholland J.A high resolution gene ma p of
the chloroplast genome of the red alga Porphyra pur-
purea [J].Plant Cell, 1993, 5: 465-475.
[27] Mizukami Y, Kito H, Kunimoto M, et al.Cloning and
characterization of G +C rich, highly repeated DNA se-
quences from Porphyra yezoensis (1aver) Rhodophyta
[J].Journal of Applied Phycology, 2000, 12: 131-138.
[28] Grossman A R.Paths toward algal genomics [J].Plant
Physiology, 2005, 137: 410-427.
The analysis of the low coverage Porphyra yezoensis draft ge-
nome
NIU Jian-feng1, GAO Sheng-han2, LUO Ying-feng2, YUAN Ye2, WANG Guang-ce1,
HU Song-nian2
(1. Institute of Oceanology, Chinese Academy of Sciences, Qingdao 266071, China; 2. Institute of Genomics,
Chinese Academy of Sciences, Beijing 100029, China)
Received: Nov., 10, 2010
Key words: Porphyra yezoensis; Solexa high-throughput sequencing system; metabolic pathway

Abstract: We constructed the low-coverage Porphyra yezoensis draft genome using the Solexa high-throughput
sequencing system. The predicted genome size was approximately 220 Mbp, with the GC content of 53.09%. The
draft genome contained 26 629 predicted protein-coding genes, 16 409 of which had introns, averagely 2.22 introns
per gene. Gene structure analysis of intron-containing genes showed that the average gene size and intron size was
2214 bp and 319 bp, respectively. Metabolic pathway analysis indicated that the purine metabolism was the largest
pathway. The P.yezoensis draft genome constructed in this study manifested important genomic properties such as
genome size and the gene structure of protein-coding gene, proving the feasibility of Solexa high-throughput system
in sequencing the whole genome of P.yezoensis.
(本文编辑:梁德海)