免费文献传递   相关文献

The Plant Germplasm Database and Platform of QinghaiTibet Plateau

青藏高原植物种质资源数据库及应用平台建设



全 文 :青藏高原植物种质资源数据库及应用平台建设*
李拓径, 王雨华**
(中国科学院昆明植物研究所科技信息中心, 云南 昆明摇 650201)
摘要: 为了实现青藏高原植物种质资源信息数据的有效管理、 保藏、 共享、 交流和利用, 根据科技部基础
性工作专项对项目成果共享的要求和青藏高原极端环境下野生植物种质资源调查和采集项目执行管理的需
求, 针对青藏高原植物种质资源本身固有的特征, 通过关系数据库模式构建了青藏高原植物种质资源信息
数据库, 设计和开发了数据采集、 审核、 入库等实用工具。 利用微软 . NET 技术, 基于三层架构模式, 构
建了基于青藏高原植物种质资源数据库的应用平台, 实现了植物种质数据的数字化存储、 开放共享等功
能。 为青藏高原极端环境下植物种质资源调查和资源利用奠定了基础。
关键词: 青藏高原; 植物种质; 数据库; 标准规范; 应用平台
中图分类号: TP31摇 摇 摇 摇 摇 摇 摇 文献标识码: A摇 摇 摇 摇 摇 摇 摇 文章编号: 2095-0845(2013)03-234-07
The Plant Germplasm Database and Platform
of Qinghai鄄Tibet Plateau
LI Tuo鄄Jing, WANG Yu鄄Hua**
(Science and Technology Information Center, Kunming Institute of Botany, Chinese Academy of Sciences, Kunming 650201, China)
Abstract: A plant germplasm database of Qinghai鄄Tibet Plateau was established for the purpose of effective data
management, storage, sharing and use. This database was developed with a relational database scheme; tools for da鄄
ta collection, examination and inputting were also embedded. An application platform was constructed based on the
plant germplasm database of Qinghai鄄Tibet Plateau, using a three鄄tier model and the Microsoft NET technology, for
achieving the functions of digital storage of plant germplasm data and sharing with the public. Database and applica鄄
tion platform provide the basis for resource investigation and utilization in the extreme environments of the Qinghai鄄
Tibet Plateau and meet the requirements of project result sharing and implementation of the project on wild plant
germplasm resource investigation and collection by the Chinese Ministry of Science and Technology.
Key words: Qinghai鄄Tibet Plateau; Plant germplasm; Database; Standards; Application platform
摇 青藏高原是一个独立的自然地理单元, 大
部分地区的相对落差大, 包含了从热带到寒带的
所有气候带, 复杂的气候带孕育了复杂、 多样的
特殊生境类型, 覆盖了从低海拔到高海拔的各种
生境类型 (中国科学院青藏高原综合科学考察
队, 1988, 1997), 是植物区系最为丰富的区域
之一。 青藏高原维管植物种数约占中国总数的
1 / 2 以上 (15 000 种); 其中仅限于该区域分布
的特有类群在 35%以上 (5 250 种) (吴征镒,
1988; 武素功等, 1995; 邓敏和周浙昆, 2004)。
青藏高原地理环境特殊, 平均海拔 4 000 m 以
上, 90%以上的区域属无人区, 因此青藏高原种
质资源不易采集, 相关植物种质资源数据更不易
获得。 借国家科技基础工作专项 “青藏高原极
植 物 分 类 与 资 源 学 报摇 2013, 35 (3): 234 ~ 240
Plant Diversity and Resources摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 DOI: 10. 7677 / ynzwyj201313061
*
**
基金项目: 科技部科技基础性工作专项重点项目 (2007FY110100)
通讯作者: Author for correspondence; E鄄mail: wangyuhua@ mail. kib. ac. cn
收稿日期: 2013-03-24, 2013-04-07 接受发表
作者简介: 李拓径 (1982-) 男, 工程师, 主要从事生物多样性数据库建设研究。 E鄄mail: lituojing@ mail. kib. ac. cn
端环境植物种质资源调查和采集冶 的机会, 建
立一个完善的信息数据管理平台来有效地管理、
保藏和利用这些来之不易的、 珍贵的第一手信息
将是至关重要的。
近年来, 种质资源库作为植物多样性保护的
重要手段之一, 已经被世界范围内生物学界广泛
认可 (Li和 Pritchard, 2009), 而随着计算机数据
库技术的不断发展, 利用数据库和信息技术对野
生植物种质资源数据进行采集和管理已经成为国
内外重要手段之一。 目前英国皇家植物园 (丘园)
下属的千年种子库已经存储了世界上超过 2. 5万植
物物种的种子, 并于 2000 年开始在互联网上进行
数据共享 (KEW; http: / / data. kew. org / sid / about.
html)。 国内有关青藏高原植物种质资源数据可互
联网共享的目前仅有中科院西北高原生物研究所
的青藏高原植物数据库 (http: / / brim. nwipb. ac.
cn / brim / plant / look. asp), 该数据库主要以名录、
海拔和分布为主。 因此, 建立青藏高原植物种质
资源数据库, 并通过数据共享, 可以从不同角度
认知青藏高原极端环境下种质资源的生态环境,
进一步了解我国丰富的种质资源; 同时, 数据共
享可以进一步提升项目采集成员间的信息透明度,
为工作开展提供数据支持和工作保障。
青藏高原植物种质资源数据库主要面向植物
资源进行数据集成和共享, 其主要工作在于数据
如何快速的采集、 集成和入库, 如何按照专业特
点建立符合关系模式的数据库并进行相关数据分
析统计, 之后如何进行数据共享和展示。 本文利
用微软 . NET 技术, 结合 SqlServer2005 数据库,
基于三层架构模式, 构建基于青藏高原种质资源
信息数据库的应用平台, 并实现种质数据的数字
化存储、 开放共享等功能。
1摇 总体架构设计
青藏高原植物种质资源信息数据库主要以
“野生植物种质资源野外采集数据整理整合标准
规范冶 为基础, 形成以业务数据库和基础数据
库为中心的整套信息化解决方案, 包括规范、 工
具、 数据库、 业务系统和展示系统等多层结构。
全面系统地将种质资源数据从采集、 审核到统计
反馈、 公开共享等各个阶段形成一套完整的解决
方案。 总体框架设计如图 1 所示:
图 1摇 青藏高原植物种质资源应用平台整体框架
Fig. 1摇 The overall framework of the Qinghai鄄Tibet Plateau
plant germplasm application platform
“野生植物种质资源野外采集数据整理整合
标准规范冶 是在已有工作基础上, 参考了科技
部 “国家科学技术基础条件平台资源元数据-核
心元数据冶 和 “国家自然科技资源平台数据上
报规范冶 的实行标准, 同时借鉴英国邱园千年
种子库在信息数据采集上的相关制度和经验研制
而成。 该规范明确规定了青藏高原种质资源采集
过程中需要记录的相关信息, 包括种质资源的基
本分布状况、 地理位置、 生态环境、 物种鉴定等
多方面信息。 在依据标准规范的基础上, 开发和
制作数据采集工具、 审核工具及图片处理工具,
保障数据的完整性和准确性。 而种质资源数据库
是按照关系模式表结构设计, 用于存储种质资源
数据的空间, 基础数据库为种质资源数据库提供
数据标准参考, 双方采用连接的方式, 减少数据
冗余, 保障数据准确性。 空间 GIS和查询系统是
在互联网上对公众进行数据公开共享的平台。 通
过这两个平台, 公众可以按照自身的需要对数据
进行查询、 分析、 统计。 同时, 该平台支持数据
不同用户分级共享。
2摇 工具开发
2. 1摇 采集工具
针对青藏高原项目的需求, 开发两套基于个
人计算机信息数据录入工具 (分别是桌面录入
软件和 EXCEL 数据采集模板) 和针对 Windows
Mobile的移动信息采集系统。 通过项目期间的实
践, 由于个人习惯和操作难易等原因, 采集人员
更倾向于使用基于 EXCEL 数据采集模板进行数
5323 期摇 摇 摇 摇 摇 摇 摇 摇 摇 李拓径和王雨华: 青藏高原植物种质资源数据库及应用平台建设摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇
据录入工作。 在项目执行期间, 根据实际工作情
况, EXCEL模板不断从 1. 0 版本更新至 3. 2 版
本, 重复利用 EXCEL 的功能定制开发了相关的
数据协助功能, 方便用户的需求。
EXCEL数据采集模板基于微软的 EXCEL 办
公软件, 根据项目特点, 通过定义表格的数据格
式和内嵌数据选项, 来规定用户录入数据时的动
作和内容。 模板定义了需要填写的基础字段的数
据项、 数据说明、 数据格式, 并进行范例说明,
合计 52 个字段 (图 2)。 该模版的特点是可以满
足采集用户在熟悉计算机操作的基础上, 对数据
进行批量填写、 校验, 同时可以应用公式进行各
类编号, 并进行数据快速录入, 让数据一目了
然, 大大地提高了数据采集的速度。
在规定好相关表项之后, 利用 EXCEL 软件
自身携带的 VBA 语言开发了标签打印功能及部
分数据校验功能。 VBA 是应用程序共享一种通
用的自动化语言, 其作用是程序使用人员可以根
据需求进行二次开发, 而 EXCEL 软件提供支持
该语言开发相关环境。 在数据模板中, 使用
VBA语言开发了标签打印功能和图片文件夹生
成功能。 标签分为采集标签和鉴定标签, 在以往
的种质资源数据收集过程中, 这两个标签均是通
过手工填写, 效率不高。 通过执行 VBA 脚本程
序将采集信息表中的数据逐条读入到指定位置,
批量生成采集标签和鉴定标签, 采集人员直接进
行打印即可。 采集过程中需要对拍摄的图片进行
归类, 通过采集信息表中的采集编号, VBA 脚
本程序可以同时生成相关的文件夹。 从用户的反
馈和上报的数据来看, 已达到了设计开发的目
的, 保证了野外采集信息的数字化工作开展。
2. 2摇 数据审核导入工具
上文中的采集工具主要是提供给采集人员的
填写工具, 属于简单的一维表结构, 依据数据库
设计相关理论, 这种简单的表结构是有异于标准
数据库关系模式。 因此, 数据从 EXCEL 表结构
转换成数据库表结构 (见下文 3. 2) 需要数据审
核工具进行格式转换及内容审核。 同时, 该工具
还将根据数据的格式内容进行数据字典的标准转
换, 例如物种的拉丁名、 行政区划名字等等。 在
采集工具的基础上, 由采集人员提供电子采集数
据, 由数据管理人员使用数据审核及导入工具对
数据进行审核、 入库和登记, 并完成相关信息数
据的匹配, 为青藏高原种质资源数据库建设奠定
了数据基础。 审核导入工具可以快速独立的审核
采集人员提交数据的准确性、 符合度, 对于不符
合规范的数据以日志的形式反馈给核查人员进行
修正。
图 2摇 基于 EXCEL的数据采集模板 3. 2 版本
Fig. 2摇 The collection template on excel, version 3. 2
632摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 植 物 分 类 与 资 源 学 报摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 35 卷
2. 3摇 图片压缩导入工具
在青藏植物种质资源调查和采集项目执行过
程中, 图片是按照文件的形式进行提交。 图片在
数据库处理过程中面临关联数据和压缩的主要问
题。 关联数据是指将图片位置信息存放入数据库
中, 并关联到相应的采集数据。 由于采集者提供
的图片是原始格式, 容量较大, 不利于互联网查
询服务及数据共享。 因此, 根据项目需求, 开发
了图片自动压缩导入管理工具, 采用通用的图片
压缩算法, 将图片压缩到 1 024*768 大小, 并
加上水印, 然后根据采集编号形成图片存储路径
更新到数据库图片表中。 该工具作为后台服务程
序, 每天定时扫描图片目录, 对于已经更新的图
片进行检查, 未更新的进行重新更新, 保证图片
数据的准确性。
3摇 数据库建设
3. 1摇 基础名录数据库建设
以中国高等植物为核心, 采集、 集成、 整合
了来自 《中国植物志》、 《Flora of China》、 《Spe鄄
cies 2000》、 《中国种子植物数据库》 的中国植
物物种名录, 形成了目前较为完整的中国植物
物种标准名称清单。 同时, 在物种信息方面进一
步整合了 《云南植物志》、 《西藏植物志》、 《横
断山维管植物》 等地方植物志和专类植物著作,
从而形成了中国高等植物 300 余科 3 400 余属
31 000 余种基本信息的基础数据库, 包括拉丁名
称 90 000 多条, 中文名称 60 000 多条。 该基础
数据库作为青藏高原植物种质资源信息数据库的
一部分, 为采集策划、 物种鉴定和分析统计等提
供数据依据, 确保野生种质资源采集、 保藏、 研
究时命名的合理性、 规范性。 同时, 该部分数据
用于青藏高原项目各类分析统计。 这部分数据在
数据库表结构设计中作为字典库的一部分。
3. 2摇 种质字段分析及表结构设计
根据 《野生植物种质资源野外采集数据整理
整合标准规范》, 青藏高原种质资源数据主要分成
基本信息、 区域信息、 生境信息、 标本信息、 民
族植物学、 鉴定信息六大方面, 合计 50 多个属性
字段。 具体信息包括种质资源的基本分布状况、
地理位置、 生态环境、 物种鉴定等多方面信息,
涵盖了以下具体属性字段 (类型), 序列号 (文
本)、 采集编号 (文本)、 采集资源类型 (多选)、
采集者 (文本)、 采集日期 (时间)、 国家 (文
本)、 省自治区 (文本)、 地级市 /地区 /自治州
(文本)、 区县 (文本)、 具体地点 (文本)、 纬度
(文本)、 经度 (文本)、 海拔 (米) (整数)、 使
用 GPS (布尔类型)、 生境 (文本)、 伴生物种
(文本)、 影响因子 (文本)、 地形 (文本)、 土地
利用 (多选)、 土壤母质 (多选)、 土壤颜色 (多
选)、 土壤质地 (多选)、 坡度 (文本)、 坡向 (多
选)、 土壤 pH值 (文本)、 采样面积 (m / m2) (文
本)、 采样株数 (整数)、 结实居群比率 (%) (百
分比)、 发现的植株数 (文本)、 种子收获时期
(多选)、 种子收获途径 (多选)、 种子状况 (多
选)、 植物习性 (单选)、 植株高度 (米) (多选)、
其他描述 (文本选)、 凭证标本份数 (整数)、 野
外鉴定 (文本)、 地方名 (文本)、 用途 (文本)、
科中文名 (文本)、 科拉丁名 (文本)、 属中文名
(文本)、 属拉丁名 (文本)、 种中文名 (文本)、 种
拉丁名 (文本)、 鉴定者 (文本)、 鉴定日期 (时
间)、 志书参考 (文本)、 课题负责人 (文本)、 备
注 (文本)。 除此之外, 还包括图片的相关信息。
为了方便展示, 图片采用的是文件单独方式进行存
放, 通过自动化工具进行图片同步、 关联和压缩。
在数据库建设中, 关系数据库模型是常用的
方式, 根据实体关系模式进行相关表结构定义
(刘志勇等, 2010)。 在定义过程中根据具体情况
对每个属性字段分成字典项和非字典项处理。 使
用字典项的优势在于可以以标准的数据选项作为
连接, 进一步统一数据的规范性。 在种质资源名
称中, 使用中国植物物种标准名录, 有效的对种
质资源进行标准化。 在行政区划字典表中使用的
是中国最新行政区划表, 从而规范行政区划的入
库过程。 对于常规数据使用非字典项的处理方式
进行处理, 主要从整型、 浮点数和字符串三种方
式进行设计。 部分属性字段采用字典项和非字典
项同时支持的方式。 具体表结构如图 3 所示。
3. 3摇 技术路线
在数据库软件上主要使用 Microsoft SQL Server
2005 作为数据库后台。 Microsoft SQL Server 2005
是微软公司的主要关系型数据库产品, 其主要特点
是操作方便, 用户界面友好, 效率高, 可扩展性
强, 适合于科研数据量小、 精确度高等相关特点。
7323 期摇 摇 摇 摇 摇 摇 摇 摇 摇 李拓径和王雨华: 青藏高原植物种质资源数据库及应用平台建设摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇
图 3摇 表结构示意图
Fig. 3摇 Table structure diagram of Database
832摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 植 物 分 类 与 资 源 学 报摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 35 卷
4摇 信息应用平台
在数据库建设的基础上, 进一步开展信息应
用平台建设, 应用平台建设的目的是进一步将青
藏高原植物种质资源数据对公众进行公开共享。
应用平台分成空间 GIS系统 (地理信息系统) 和种
质信息查询系统。 两个系统直接读取数据库中的数
据, 对公众提供数据查询服务, 其关系如图 4。
图 4摇 信息应用平台示意图
Fig. 4摇 The architecture of Network platform
4. 1摇 空间 GIS系统
空间 GIS 系统采用与 Google Map 相结合实
现相关功能。 主要实现了地点、 经纬度的查询定
位; 地图可进行大小缩放、 上下左右控制; 地图
类型 (普通、 卫星、 混合) 的选择等地图基本
功能。 实现了信息点在地图上的标注及若干信息
点的标注, 不同类别信息点采用不同图标进行标
注, 点击图标时可以展现相关采集信息。
本系统主要实现了以下功能: 展示某一科属下
的种质数据或某一种质数据信息的地理分布情况
图; 某一采集组所采集的种质数据的地理分布图;
某一种质数据多份采集数据的地理分布图; 某一采
集人员所采集种质数据的地理分布图; 某一地区范
围内所有种质分布情况图; 某段时间内所采集的种
质数据的分布图。 系统还实现了多条件组合查询数
据, 并以地图形式展示。 实施效果如图 5 所示。
4. 2摇 公共数据查询系统
青藏高原植物种质资源公共数据查询是发布
在外网的数据查询系统, 主要采用传统的数据查
询模式, 访问地址是 http: / / www. genobank. org /
page / zzQuery / zzClass. aspx。 该系统采用用户分级
共享方式, 非注册用户只能看到部分数据信息,
注册用户通过认证后可以看到全部公开共享信
息, 从而起到有效分级共享数据的作用。
查询系统提供便捷多样的查询方式, 互联网
用户可以通过该平台查询到青藏高原植物种质资
源的相关信息。 系统提供多种多样的数据查询方
式, 主要有植物等级分类查询、 行政区划查询、
向导查询, 快速查询。
图 5摇 空间 GIS查询示例
Fig. 5摇 The example of GIS function
9323 期摇 摇 摇 摇 摇 摇 摇 摇 摇 李拓径和王雨华: 青藏高原植物种质资源数据库及应用平台建设摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇
4. 3摇 平台技术路线
系统开发上使用通用的 B / S (Brower / Server)
架构, 使用微软公司 .NET开发技术, 使用 C#语
言进行开发。 与传统的 C / S模式相比, B / S结构
更适用于广泛的用户群体, 用户不用安装任何软
件, 直接使用计算机自带的浏览器软件就可以进
行相应的数据共享工作 (苏胜彦等, 2007)。 平
台技术路线采用常用的三层分布式结构 (图 6),
数据层统一由 SqlServer2005 存储, 业务层根据
实际情况共用代码进行数据读取、 处理、 展现,
在空间 GIS系统中还应用了 AJAX相关代码, 主
要使用 JQuery 组件结合 . NET 技术实现及 AJAX
交互, 以提高数据读取的交互性。
图 6摇 应用平台三层架构图
Fig. 6摇 Three鄄tier architecture diagram application platform
数据备份工作是植物种质资源信息数据库重
要组成部分, 可以确保数据的安全性。 在信息应
用平台中使用了 Sqlserver 2005 自带的 Analysis
Services技术对数据进行定期备份, 确保数据的
安全性。
5摇 结语
综上所述, 建立青藏高原植物种质资源信息
数据库是野生植物种质资源采集的重要组成部
分。 在以往的数据库建设过程中, 科研数据库往
往存在数据不规范、 冗余等问题, 导致在后期工
作中需要大量时间和人力进行数据整理。 那么在
青藏高原数据库建设过程中, 在充分结合项目特
点的基础上, 使用数据库关系模式进行相关表结
构设计, 确保了数据的一致性、 规范性, 并有效
的消除数据冗余。 在数据管理上, 我们采用自动
化的工具方式, 有效的保证数据的规范入库, 对
于不规范的数据进行及时反馈。 在数据公开上,
采用支持多种查询方式的网页和 GIS方式进行数
据共享, 全方位满足互联网用户对数据共享的需
求。 当然, 信息平台建设不是一蹴而就的, 目前
发现, 随着数据量增大, 部分查询功能特别是空
间 GIS查询速度逐渐变慢, 分析统计功能需要进
一步加强。 在下一步的工作中需通过优化数据结
构, 运用多种计算机方法提高查询和分析速度。
在今后类似的项目中, 在数据提交方面还可以考
虑进一步使用在线提交等方式。
该数据库和应用平台的建设, 通过 5 年的实
践, 实现了青藏高原植物种质资源野外采集数据
的高效整理和收集, 实现了这些珍贵数据的有效
管理和共享, 保证了该科技基础工作的高效开
展, 对于我国青藏高原植物种质资源采集、 保
存、 研究具有重要的价值和意义, 可以持续有效
的支持国家对青藏高原植物种质资源信息的调查
和采集, 为研究极端环境下植物抗逆基因奠定重
要的基础。
也参摇 考摇 文摇 献页
吴征镒, 1988. 西藏植物区系的起源及其演化. 吴征镒主编. 西
藏植物志第五卷 [M]. 北京: 科学出版社, 874—902
中国科学院青藏高原综合科学考察队, 1988. 西藏植被 [M].
北京: 科学出版社, 5—21
中国科学院青藏高原综合科学考察队, 1997. 横断山自然地理
[M]. 北京: 科学出版社, 38—58
Deng M (邓敏), Zhou ZK (周浙昆), 2004. Seed plant diversity on
screes from Northwest Yunnan [ J] . Acta Botanica Yunnanica
(云南植物研究), 26 (1): 23—34
Li DZ, Pritchard HW, 2009. The science and economics of ex situ
plant conservation [J] . Trends in Plant Science, 14: 614—621
Liu ZY (刘志勇), Guo J (郭君), Jiang GW (蒋国伟) et al.,
2010. Design of Xinjiang plant germplasm resources database sys鄄
tem [J] . Xinjiang Agricultureal Sciences (新疆农业科学), 12:
2526—2529
Su SY (苏胜彦), Li YQ (李玉泉), Xie Z (谢庄) et al., 2007.
Design of animal breeding resources database based on . NET
[J] . Computer Engineering and Design (计算机工程与设计),
28 (9): 2206—2208
Wu SG (武素功), Yang YP (杨永平), Fei Y (费勇), 1995. On
the flora of the alpine region in the Qinghai鄄Xizang (Tibet) Plat鄄
eau [J] . Acta Botanica Yunnanica (云南植物研究), 17
(3): 233—250
042摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 植 物 分 类 与 资 源 学 报摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 35 卷