免费文献传递   相关文献

The Researching and Discussion on the Construction of the Database of Chinese Plant Names Index (CPNI)

中国植物名称数据库的建设及若干问题的探讨



全 文 :中国植物名称数据库的建设及若干问题的探讨*
张暋宇1,2,王雨华1
**
(1中国科学院昆明植物研究所资源植物与生物技术重点实验室,云南 昆明暋650204;
2中国科学院研究生院,北京暋100049)
摘要:中国植物物种信息数据库是中国科学院科学数据库参考型数据库,中国植物名称数据库 (CPNI)
是中国植物物种信息数据库最重要的组成部分,是中国植物物种信息数据库收录植物的目录和索引,也是
其他数据库的参考和联系的桥梁。以 《中国植物志》和 《FloraofChina》为基础数据来源,加上少量参考
数据作为补充,设计建设了中国植物名称数据库,并从现有已建成同类数据库的评价、数据来源和数据组
成,以及建库策略实现对中国植物名称数据库建设进行了分析和探讨。中国植物名称数据库是植物名称的
参考型数据库,能够辅助植物学相关学科研究中关于植物名称的研究和利用。
关键词:CPNI;植物名称;科学数据库;数据标准
中图分类号:Q949,G350暋暋暋暋暋文献标识码:A暋 暋暋暋暋文章编号:0253灢2700(2010)05灢401灢06
TheResearchingandDiscussionontheConstructionofthe
DatabaseofChinesePlantNamesIndex(CPNI)*
ZHANGYu1,2,WANGYu灢Hua1**
(1KeyLaboratoryofEconomicPlantsandBiotechnology,KunmingInstituteofBotany,ChineseAcademyofSciences,
Kunming650204,China;2GraduateUniversityofChineseAcademyofSciences,Beijing100049,China)
Abstract:TheChinesePlantsreferencedatabase(CPRD)isapartoftheScientificDatabase.TheChinese
PlantNamesIndex(CPNI)isoneoftheimportantpartsofCPRD,becauseitisthenamesindexofCPRD
andthebridgetootherplantdatabases.BasedontheChineseversionandEnglishversionof“FloraofChi灢
na暠,theCPNIwasconstructedwithotherlittlereferencedata.Then,theadvantagesanddisadvantagesof
thedatabasesofplantnameswhichhavebeenpublishedintheworld,thedataresourcesandtheconstruction
strategiesoftheChineseplantnameswasdiscussed.TheCPNIisareferencedatabaseoftheChinesePlant
Nameswhichcanbeusedonstudiesonplantsciencesespecialywhenthenamesoftheplantswhicharestud灢
iedonmustbeensured.
Keywords:CPNI;Plantname;Scientificdatabase;Datastandard
暋 我国是世界上10个生物多样性大国之一,
生物物种极为丰富,中国拥有高等植物3万余
种,其中苔藓、蕨类、裸子植物和被子植物分别
占世界总数的9灡1%、22%、26灡7%和10% (裴
盛基等,2009)。名称是一个事物区别与另一个
事物的直接标识。而植物的 “名称标识暠就是植
物的唯一合法学名,且每一个分类等级都具有唯
一的合法学名 (张丽兵译,2007)。对于植物学
研究者来说,确定研究对象的唯一合法学名是整
个研究的首要前提。中国植物名称数据库 (the
云 南 植 物 研 究暋2010,32(5):401~406
ActaBotanicaYunnanica暋暋暋暋暋暋暋暋暋暋暋暋暋暋暋暋暋暋DOI:10灡3724/SP灡J灡1143灡2010灡10101
*
**
基金项目:中科院科学数据库项目 (INFO灢115灢C01灢SDB1灢02);科技部科技基础性工作专项重点项目 (2007FY110100);云南
省科技计划项目 (2009CC016)
通讯作者:Authorforcorrespondence;E灢mail:wangyuhua@mail灡kib灡ac灡cn
收稿日期:2010灢05灢10,2010灢07灢20接受发表
作者简介:张宇 (1985-)男,在读硕士研究生,主要从事植物学,植物资源与生物多样性信息方向研究工作。
ChinesePlantNamesIndex,CPNI)是依照中国
科学院科学数据库中参考型数据库建设标准规范
(中国科学院计算机网络信息中心科学数据中心,
2009),以中国科学院昆明植物研究所为主的相
关研究机构长期积累的数据为基础建成的符合国
家或国际标准、有严格质量控制与管理、内容具
有完整性和权威性的数据库。它是 《中国植物物
种信息数据库》的一部分,也是整个物种信息数
据库的物种名录和查询索引;是连接物种信息库
中各个子数据库的桥梁,也是物种数据库和其他
数据库之间联系的纽带。所以成功建成中国植物
名称数据库是整个中国植物物种信息数据库建设
成功的关键所在,在建设过程中产生的相关问题
和结论亦值得深入研究探讨。
1暋国内外同类数据库的建设情况及其评价
自1992年环境与发展大会召开以来,各国
政府和从事生物多样性保护的国际组织普遍提高
了对生物多样性信息收集和管理的重视程度,开
发建立了大量的联网数据库和网站。比较知名的
有species2000,国际植物名录 (TheInterna灢
tionalPlantNamesIndex,IPNI)、theIntegrat灢
edTaxonomicInformationSystem (ITIS)、In灢
ternationalOrganizationforPlantInformation
(IOPI)、TROPICOS猝等等 (Singh,2004)。这
些基于生物多样性的植物数据库的出现,极大地
促进了相关研究和公众关注程度。国内主要开发
了中国生物多样性信息系统 (CBIS)、中国物种
信息系统 (CSIS)、中国科学数据库 (CSDB)、
中国科学院院生物局 “生物物种与标本信息系
统暠和国家科技基础平台生物标本馆项目,以及
不少的地方或专业的中小型库。中国生物多样性
数据资源的建设通过以上项目的大力支持得到了
长足发展。
1灡1暋国外同类著名数据库的建设情况与评价
国外尤其是欧美国家在植物数据库建设方面
起步较早,现已建成多个著名的大型植物数据
库。就提供名称信息查询而言,最著名的当数
species2000,现在该数据库已经建立中国节点
并收录 “中国植物名录暠(ChinaPlantCata灢
logue,CNPC),提供植物基本名称信息查询,
包括接受发表学名、异名、官方名 (CNPC还提
供中文官方名)、分类信息、作者引证及作者信
息、数据来源和文献信息、在线相关链接等信
息,但species2000毕竟是基于生物多样性保护
而建设的,提供名称信息并不是其主要任务,所
以species2000也只能是提供植物名称基本信息
的一个 “植物名录暠而已,不能进一步提供植物
命名上更为深入细致的信息。相比较species
2000而言,国际植物名录 (TheInternational
PlantNamesIndex,IPNI)是专业的植物名称
数据库。IPNI以APNI,GCI以及KI三大国际
权威性数据源作为其后台数据库,使得其具有了
得天独厚的先天优势,也被写入了 《国际植物命
名法规》作为推荐参考的国际标准植物名称查询
系统。IPNI的优势不仅体现在其权威性,还在
于其专业性和全面性,除了能够提供大多数植物
名称基础信息外,还提供了详细的作者信息、文
献引证信息,并且能够通过多种方式查询植物名
称信息。然而IPNI过于专业化,虽然在学名信
息查询上优势明显,却不能够提供更多的其他名
称信息,比如通用名,官方名等等。其它提供植
物名称信息查询的还有theIntegratedTaxonom灢
icInformationSystem (ITIS),密苏里植物园的
TROPICOS猝等,他们提供的查询内容都大同小
异。不过,国外数据库的最大优势,并不是权威
性和海量数据,而是各个大型数据库之间拥有一
套完善的交流分享机制,可以互相查询,互相整
合,形成一个植物科学的强大网络知识体系。
1灡2暋国内同类数据库的建设情况与评价
国内早在上世纪90年代就已经开始了植物
数据库的规划建设,至今已经有中国生物多样性
信息系统 (CBIS)、中国物种信息系统 (CSIS)、
中国科学数据库 (CSDB)、中国科学院生物局
“生物物种与标本信息系统暠、中国科学院昆明植
物研究所的 《中国植物志》数据库、《中国种子
植物》数据库和 《云南高等植物电子词典》等大
中型数据库,另外也出现了众多专业和地方性的
中小型数据库,如景观植物信息查询系统
(LPIIS)(韩成峰和张志国,2004),以及 《湖北
省植物志》数据库 (董梅等,2005)等。这些数
据库的建设与应用对我国植物科学,尤其是植物
生物多样性的研究和保护起到了重要的推动作
用。不过,相对而言,专门提供植物名称信息查
204暋暋暋暋暋暋暋暋暋暋暋暋 暋暋暋暋暋暋暋云暋南暋植暋物暋研暋究暋暋暋暋暋暋暋暋暋暋暋暋暋暋暋暋第32卷
询的数据库在我国十分罕见,较为成熟的仅见中
国科 学 院 植 物 研 究 所 的 “中 国 植 物 名 录
(CNPC)暠,而且还是species2000国际合作项目
的子项目。其他数据库只是顺带提供接受发表学
名和中文官方名的查询,收录的数据太少以至于
不能够满足用户需求;部分数据库缺乏维护,收
录的数据 “年代久远暠而严重过时;某些数据库
还大量设置访问权限,需要相当权限或者高额费
用才能访问其核心数据。基于这些现状,我国急
需要一个自主研发的,内容全面,信息权威,查
询科学,实时更新,自由共享的新一代植物名称
参考型数据库。
2暋数据基础与建设内容
2灡1暋植物的名称数据组成分析
根据最新 《国际植物命名法规》的相关规
定,植物的名称包括接受发表学名、异名、保留
名等等,而其中异名又分为分类学异名、命名学
异名、基原异名等等。从单个的学名来说,对于
种这一分类等级,完整的学名由属名、种加词、
命名作者、来源文献组成,对于种以上的分类等
级,则由名称、命名人和来源文献构成,对于种
下等级,则还包括相应的标识、如变种 (var.)、
亚种 (subsp.)等等,以及相应的加词、命名作
者和文献来源。这些组成部分按照一定的规则排
列得到一个完整的植物名称。一条完整的植物名
称记录可以看作一条按一定规则生成的编码,亦
可转换为相应的条形码,作为植物名称的唯一识
别依据。
2灡2暋中国植物名称数据库的建设内容、数据组
成与来源
中国植物名称数据库的目标是实现 “中国植
物电子名录暠和 “中国植物名称电子词典暠以及
“中国植物物种信息数据库查询索引暠三大功能。
基础数据库由 “一库两名录暠构成,即:一个名
称数据库和两个彼此联系而又相互独立的 《中国
植物名录》(分别基于 《中国植物志》和 《Flora
ofChina》)。所包含的内容包括植物的拉丁名称
(接受发表学名,异名)、中文名 (官方名,通用
名,地方名,行业名等)、植物命名信息 (接受
发表学名详细,作者引证,文献引证,植物志索
引),分类信息 (科属,种及种下等级)四大块。
另外还包含了一些为了实现上面 “三大功能暠和
智能化检索所加入的其他预处理信息以及开发的
小工具。根据用户需求,还加入了分布信息、特
有标识和生活型等少量 “非名称信息暠。
中国植物名称数据库的数据分为基础数据和
参考数据。基础数据是中国植物名称数据库的主
要数据和核心数据,占绝大部分。作为参考型数
据库,必须保证数据的正确与规范,所以除了专
门制定相关数据标准规范外,基础数据全部来源
于权威工具书 《中国植物志》和 《FloraofChi灢
na》。由于志书本身记载不完善,有少部分没有
记载的信息就要从其他资料或来