免费文献传递   相关文献

Discussion on optimizing data processing of chinese materia medica

中药数据优化处理探讨



全 文 :·学术探讨·
中药数据优化处理探讨
林端宜1,徐筱杰2,杨淑静3,赖新梅1,乔学斌2
(1.福建中医学院 信息所,福建 福州 350003;
2.北京大学 中药中药现代化研究中心,北京 1000871;
3.福建中医学院 中医系,福建 福州 350003)
[摘要] 要获得高信息含量的、有用的知识,理想情况就是原始数据是不含噪声的正确数据。中药数据库系
统是数据库技术在中药领域的运用,是在中药信息研究过程中,对大量不规范的原始数据进行分析、整理、补充、完
善建立起来的。本研究结合在建的中草药信息系统回顾中药数据处理加工中的若干关键问题。
[关键词] 中药;原始数据;数据处理;数据库
[中图分类号]R284.1 [文献标识码]A [文章编号]10015302(2008)19003
[收稿日期] 20071009
[基金项目] 福建省卫生厅重点项目(2006Y0016)
[通讯作者]  林端宜,Tel/Fax:(0591)83570369,Email:
ldyfjtcm@yahoo.com.cn
  有科学价值的数据库,应能实现基于数据库的数据挖掘
和科学研究。数据库是支持知识发现的基础工程。要获得
高信息含量的、有用的知识,理想情况是原始数据是不含噪
声的正确数据[1]。中药数据库系统是数据库技术在中药领
域的运用,是在中药信息研究过程中,对大量不规范的原始
数据进行分析、整理、补充和完善建立起来的。中药数据库
与其它数据库最大的不同就在于,它的内容考虑了中药理论
语言以及概念的特殊性[2]。因此,数据库建设中最基础性的
工作当从数据源的选择和原始数据的预处理做起。本研究
结合中草药信息系统课题,就构成信息资源本土化、科学化
特色的中药数据加工处理部分工作做一回顾。
1 中药数据的概况
1958年,1966年,1983年 3次全国中药资源大规模普
查,我国药用植物12694种[3],是药用植物资源大国。中药
根植于中国,带有极强的本土特色。由于幅员辽阔,地理环
境多样,气候复杂多变,并受历史、地域条件、用药习惯等因
素的影响,使有些中药材品种产生混乱现象[4],表现在中药
材的同名异物和同物异名现象,中药材的多基源情况等,严
重影响临床使用、科学研究和中医药的发展。
“同物异名”现象与语言和文字的不同习惯用法相关。
各地均有其习用的植物名称,就是在一个国家内,同一植物
在各地区也各有其不同的名称,如甘薯(ipomoea),英语、德
语、日语、俄语都有各自叫法。我国叫红薯、白薯、番薯、红
苕、地瓜[3]。“同名异物”现象有2种情况:其一,同一名称有
多种来源的药材,即中药的多基源性。多基源药材大部性状
相同,如黄芩、贝母、细辛、柴胡同属多种,并具有相同的疗
效;但部分性状有明显区别,如细辛中的紫背细辛和深绿细
辛含有大量具有致癌作用的黄樟醚,不能作为细辛用[5]。其
二,不同药用植物可能却有同一个叫法,如地瓜,在四川指的
是豆薯,两者分别为旋花科和豆科[5]。
构建高质量的中药数据库,必须对原始数据进行数据预
处理,特别是中药名称,使其具有统一性和规范性。
2 数据源的选择与分析
数据是组成数据库的基本单元,中医药数据预处理方法
需要设计与实现[5]。首先优质数据来自优质数据源,数据源
科学性和权威性是建库质量保证第一关,因此,数据源的选择
成为数据库建设的第一步。但数据源不只是来自一种出版
物,是多种权威出版物集大成,由于各出版物在体例、用药名
称、拉丁名等用法上不尽相同,甚至出错,因此,在数据源选择
之后还要针对原始数据种种问题进行预处理,归一处理等。
2.1 建立权威文献集群 本系统数据源依次选择如下蓝
本:①2005年版《中国药典 》,②2006年版《新编中药志》,③
1975年版《中药大辞典》,④1994年版《中国中药资源志要》,
⑤1999年版《中华本草》。同时还选择若干权威版本数据源
作为后台数据库,如《中国植物志》。
上述蓝本是目前国内公认的权威书籍,其权威性又首推药
典。众所周知,2005年版药典是我国建国以来的第8版,该版按
照第八届药典委员会确定的设计方案和要求编制完成、审议通
过,并经国家食品药品监督管理局批准颁布实施,具有法律效
应。药典收集植物性中药1146种(含油脂、提取物等)[6]。
《新编中药志》,共5卷,是一部全面介绍我国中药资源与现
代研究的志类工具书,由我国著名药用植物学与中药学专家、中
国工程院院士肖培根主编,介绍植物性中药500余种[7]。
·1922·
第33卷第19期
2008年10月
         
    中 国 中 药 杂 志
ChinaJournalofChineseMateriaMedica
       
Vol.33,Issue 19
 October,2008
《中药大辞典》,收编植物药4773种[8]。该书作者为江
苏新医学院,初稿编写于1958~1965年,成稿于1975年,在
编写之中曾得到各兄弟省市、自治区的科研、医疗、教学、图
书等单位大量支持,因此资料较详实,是一本至今仍具有较
高的公认度的工具书。
《中国中药资源志要》,收编植物药11020种[9]。该书
资料来源于1983年历时5年,4万人参与的全国大规模的中
药资源普查收集的第一手资料,接着又用了5年时间整理编
写而成。该书较全面反映我国中药资源总体及分布状况,虽
出书于1994年,至今也是一本公认的具有较大实用价值和
参考价值的工具书。
《中华本草》,全10册,收编植物药12807种[10]。该书
由国家中医药管理局主持,全国60多个单位协作,500余名
专业人员历时10年编就。该书收载品种数量较大,反映我
国本草学术的最新动态和水平,在科学性、权威性、先进性、
实用性方面得到认可。
2.2 原始数据预处理 上述数据源虽具有一定的权威性,集
成了国内的当前水平,但又因各自特点和侧重给数据集成处
理造成困扰:其一,各书自成体例,如有的按传统的笔划笔顺、
拼音字母排序,有的按植物学名的拉丁排序,有的按药用部位
分类排序,有的按药材功用排序等等。其二,各书自有各自侧
重,在药名取舍上有的偏重于中药材,有的则偏重药用植物,
有的偏重品种资源分布等,因此内容相似的数据可能被重复
或遗漏。其三,数据源中的数据存在缺失、错误和不规范现
象,如,原植物基源描述上的不一、学名不一,性味、归经、功效、
毒性描述不一,药用部位的不一等等。其四,部分数据缺乏考
证,同物异名、同名异物现象存在。因此,数据集成、入库之前对
原始数据预处理是十分关键的工作,包括①数据质量分析,②来
源分类分析,③错误数据处理,④中药正名的处理等。以甄别最
准确的和最规范的数据做为本系统数据(图1)。
图1 中药数据优化处理
2.3 原始数据归一处理 中药数据优化处理还包括“归一
处理”,归一处理也称归并处理。归一处理是各数据源入库
后对原始数据处理的重要环节,包括正名和物种等规范处理
问题。其做法是将不同表述的相同数据进行甄别,并将它作
为一条记录统一起来。包括以下内容:①中药正名的归一处
理。首先建立归一处理原则,然后对同物异名数据和同名异
物数据逐一甄别,并做归一处理;②药用植物物种的归一处
理。首先建立具有权威性的物种背景库,继而对各数据源集
成后的物种进行归一处理。
3 制订元数据
元数据是伴随着网络信息处理发展起来的新方法。在
文献信息处理中,元数据主要关注文献外在特征的,又关注
文献内在内容特征。知识是反映事物内在特征并组织在计
算机中的数据,相对于信息而言,知识具有稳定的内容结构;
相对于知识,信息却具有动态的价值功能。这一区别决定了
元数据既适用于信息的组织,也适用于引导知识的组织[11]。
在建设各类数据库并使各类数据库之间整合时,一方面必须
利用本体论揭示领域内严谨丰富的理论和所表达的丰富知
识;另一方面在对与知识相关的信息资源进行组织时,需要
关注文献资源外在形式特征的描述。这就是必须应用元数
据实现信息、知识组织管理功能依据[12]。
对中医药数据的预处理是建立知识发现系统的前提,是
发现高信息含量规则的关键。中药信息系统中的数据大致
可以分成2种类型。一类是具有相对独立内涵和排他作用
的词组型短小数据,如性味、归经、毒性、化学成分等等 这类
数据不仅与中药治疗疾病的本源有关,是知识,对于计算机
而言这类数据大多数可以结构化处理。另一类是由多个汉
字组合而成的大文本复杂数据,如功效、主治、药理、临床、各
家论述等,这类数据虽然与发掘中药深层信息有关,但大部
分内容如果不经过特殊处理是不适宜用计算机进行量化处
理的[13]。为了使上述两类数据适宜于计算机处理,作者尽
量进行数据结构化处理,并用元数据形式进行组织。
4 同物异名与同名异物中药的处理
我国中医药界习惯将具有独立的药性及功效的中草药
收列为一味,并给予一个中药名[8]。中药的“同名异物”、
“同物异名”现象极为复杂。
4.1 中药同物异名的处理 同物异名处理就是为本系统确
定唯一性的中药正名。中药正名选择规则最主要有3种:其
一,选用权威出版物,如《中国药典》、《新编中药志》、《中药
大辞典》中的习用药名。吴征镒院士认为:统一中国植物名
称的原则,要把已出版的全国植物志、地方志、专著和论文中
所有科、属、种名称,依《中国植物志》为基础的精神予以统一
名称[14]。可见权威出版物对于中药统一名称地位的重要
性。其次,《中国药典》尚未收载的中药材,以历代本草所载
的药名为正名[15]。其三,如因时代变迁品种有变,选择适当
的品种为药材正名[15]。中药正名按上述原则确定之后,其
余名称均列入异名项内。这里的关键是必须建立正名选择
原则,作为整体数据加工的依据。
4.2 中药同名异物的处理 从药性及功效观之“同名异物”现
象存在2种状态:其一是药性及功效基本相同的多基源药用植
物,临床中可以作为同一味中药使用;其二是药性及功效完成不
同,具有完全不同的临床功效的药用植物。第一种状态是中药
的多基源性,很多中药名下含有2种以上原植物。据我们研究
·2922·
第33卷第19期
2008年10月
         
    中 国 中 药 杂 志
ChinaJournalofChineseMateriaMedica
       
Vol.33,Issue 19
 October,2008
发现,中药基源有4种状态:①科属种完全相同,如中药紫花碎
米荠,是十字花科碎米荠属植物紫花碎米荠植物的全草及花。
②科属相同,种不同,如中药麻黄,是麻黄科麻黄属植物草麻黄、
木贼麻黄、中麻黄等物种的草质茎。③科同,属种不同,如中药
葶苈子,是十字花科植物独行菜属植物独行菜、北美独行菜及播
娘蒿属植物播娘蒿的干燥成熟种子。④科属种均不同,如中药
大戟,是双子叶大戟科植物大戟或茜草科植物红芽大戟的
根[68,10]。上述来自不同原植物的中药具有个共同的前提,它们
的药性及功效基本相同,对于一药多基原中药材,以疗效高、分
布广的药材品种作为该药的正名[15]。在处理性味功效完全不
同的同名异物,即同名不同药的中药数据中,应将同名异物中药
给予区分,以一物一名处理。中药材一物一名是统一药名、避免
品种混淆的重要手段[15]。为实现上述思路关键是必须建立《物
种背景数据库》,以“种”为单位分别将中药对应的原植物或根本
不相及的中药同名异物严格区分。在作者的研究中选择《中国
植物志》和《中国中药资源志要》2种权威出版物合并作为背景
数据。其理由是:《中国植物志》记载了我国3万多种植物,但未
收载藻类、菌类、地衣类等低等植物的物种数据,而《中国中药资
源志要》收载低等植物物种[16]。谢宗万[17]先生在评介《中国中
药资源丛书》时指出植物学名准确、数据源具有准确性与权威性
是上书的特点。可见,2种出版物的集成能够体现我国药用植物
物种的整体概貌。物种背景库建立过程,同样必须进行原始数
据的预处理和归一处理。
以知识发现为目标的数据库无疑是面对科研用户知识
发现和挖掘的高层次事实型的数据库,科研工作必须借助这
些数据进行科学研究,发现蕴含的有价值的信息,因此,支持
科学研究的数据必须具备较高的质量。目前我国中药名词
存在和描述的多样性、歧义性等造成中医药未能走向世界的
关键,急待规范和统一,数据处理,特别是原始数据的预处理
是数据库建设中最最基础性的研究内容和工作,值得数据工
作者不断努力,有所发现、有所作为。
[参考文献]
[1]  贺震旦,施庆华.植物资源与化学数据库系统(DPRC)的功能
与应用[J].植物资源与环境,1995,l4(3):49.
[2]  万仁甫,徐伟亚.实现中药现代化的一大关键:数据库建设和
完善[R].第1版.中国医药报,20060720.
[3]  杨春澍.药用植物学[M].上海:上海科技出版社,1997:2.
[4]  李成义.中药材鉴定学[M].北京:中国中医药出版社,2006:1.
[5]  钱增瑾,辛 燕.中医药数据预处理方法的设计与实现[J].
计算机工程与设计,2005,126(12):3199.
[6]  中国药典一部[S].2005:前言.
[7]  肖培根.新编中药志[M].北京:化学工业出版社,2002.
[8]  江苏新医学院.中药大辞典.上册[M].上海:上海科学技术出
版社,1977.
[9]  中国药材公司.中国中药资源志要[M].北京:科学出版社,
1994.
[10] 国家中医药管理局.中华本草[M].上海:上海科技出版社,
1999.
[11] 王 丹,王文生.元数据与数据元的内涵及其应用[J].农业
网络信息,2005(11):27.
[12] 肖 珑,陈 凌,冯项云,等.中文元数据标准框架及其应用
[J].大学图书馆学报,2001(5):30.
[13] 侯廷军,乔学斌.中药有效成分三维结构数据库的开发和研究
[J].化学学报,2001,l59(10):1788.
[14] 马其云.中国蕨类植物和种子植物名称总汇[M].青岛:青岛
出版社,2003.
[15] 谢宗万.中药材名称规范化研究[J].中国中药杂志,2001,26
(11):726.
[16] 王锦秀,汤彦承.中国种子植物中文命名法规刍议[J].科技
术语研究,2005,7(3):62.
[17] 谢宗万.《中国中药资源丛书》评介[J].中国中药杂志,1997,
22(11):700.
Discussiononoptimizingdataprocessingofchinesemateriamedica
LINDuanyi1,XUXiaojie2,YANGShujing3,LAIXinmei1,QIAOXuebin2
(1.InstituteofInformationManagement,AcademyofIntegrativeMedicine,FujianColegeofforTraditionalChinese
Medicine,Fuzhou350003,China;
2.ModernResearchCenterforTraditionalChinesemedicine,PekingUniversity,Beijing1000871,China;
3.Department.forTraditionalChineseMedicine,FujianColegeofTraditionalChineseMedicine,Fuzhou350003,China)
[Abstract] Corectdatawithoutnoiseisthebasisforobtainingusefulinformationandknowledge.Thedatabasesystemof
ChinesemateriamedicaistheapplicationofdatabasetechnologyinthefieldofChinesemateriamedica.Itsestablishmentisbasedon
theanalysis,processingandsupplementaryofmuchiregularrawdataduringstudyingChinesemateriamedicainformation.Thispaper
reviewedseveralkeyproblemsinthedataprocessingofChinesemateriamedicabasedontheinformationsystemofChineseherbal
medicinethatweareconstructing.
[Keywords] Chinesemateriamedica;rawdata;dataprocessing;database [责任编辑 鲍 雷]
·3922·
第33卷第19期
2008年10月
         
    中 国 中 药 杂 志
ChinaJournalofChineseMateriaMedica
       
Vol.33,Issue 19
 October,2008