免费文献传递   相关文献

A new assessment method for the quality of ecological monitoring data: Taking CERN’s tree growth dataset as a case.

一种新的生态监测数据质量评估方法——以CERN乔木生长数据为例


将数据可靠性作为有序变量进行分级,在理论上使数据可靠性与主要生态过程、次级生态过程、外部过程等数据源建立关联,构建了一种生态监测数据质量评估方法,提供了一个新的数据质量指数.它通过观察记录的合格率来估计数据集的质量,其检测结果包括了每一条数据的可靠性级别、标记为离群或错误数据的原因,以及完整数据集的质量指数值.将该方法应用于CERN的两个乔木生长数据集,发现该数据质量指数可以定量评估乔木生长数据集的质量.该方法为相关软件的开发提供了基础.

This paper presented a new and simple assessment method for the quality of ecological monitoring data. This method theorized the associations between the data reliability as an ordinal variable with different number of classes and the data sources such as natural main ecological processes, secondary ecological processes, and extraneous and exotic processes, and offered a new data quality index to estimate the quality of the whole dataset by using the reasonableness ratio of observations. The assessment results provided the reliability class of each dataset, good explanations for outlier (or error data) flagging decisions, and quality value of the whole dataset. The method was applied to assess two tree growth datasets from Chinese Ecosystem Research Network (CERN), and the results demonstrated that the new data quality index could quantitatively evaluate the quality of the tree growth datasets. The new method would facilitate the development of corresponding software.


全 文 :一种新的生态监测数据质量评估方法
———以 CERN乔木生长数据为例*
颜绍馗1摇 吴冬秀2摇 Singh AN3摇 李媛良1摇 韦文珊2摇 崔摇 杨1摇 汪思龙1**摇 徐广标1
( 1 中国科学院沈阳应用生态研究所会同森林生态实验站, 沈阳 110016; 2 中国科学院植物研究所植被与环境变化国家重点
实验室 / CERN生物分中心, 北京 100093; 3Department of Botany, Panjab University, Chandigarh 160014, India)
摘摇 要摇 将数据可靠性作为有序变量进行分级,在理论上使数据可靠性与主要生态过程、次
级生态过程、外部过程等数据源建立关联,构建了一种生态监测数据质量评估方法,提供了一
个新的数据质量指数.它通过观察记录的合格率来估计数据集的质量,其检测结果包括了每
一条数据的可靠性级别、标记为离群或错误数据的原因,以及完整数据集的质量指数值.将该
方法应用于 CERN的两个乔木生长数据集,发现该数据质量指数可以定量评估乔木生长数据
集的质量.该方法为相关软件的开发提供了基础.
关键词摇 数据检测摇 信息系统摇 数据质量控制摇 离群数据
文章编号摇 1001-9332(2011)04-1067-08摇 中图分类号摇 X835;TP274摇 文献标识码摇 A
A new assessment method for the quality of ecological monitoring data: Taking CERN爷s tree
growth dataset as a case. YAN Shao鄄kui1, WU Dong鄄xiu2, SINGH AN3, LI Yuan鄄liang1, WEI
Wen鄄shan2, CUI Yang1, WANG Si鄄long1, XU Guang鄄biao1 ( 1Huitong Experimental Station of For鄄
est Ecology, Institute of Applied Ecology, Chinese Academy of Sciences, Shenyang 110016, China;
2State Key Laboratory of Vegetation and Environmental Change, Institute of Botany, Chinese Acade鄄
my of Sciences / Sub鄄Center of Biology of CERN, Beijing 100093, China; 3Department of Botany,
Panjab University, Chandigarh 160014, India) . 鄄Chin. J. Appl. Ecol. ,2011,22(4): 1067-1074.
Abstract: This paper presented a new and simple assessment method for the quality of ecological
monitoring data. This method theorized the associations between the data reliability as an ordinal
variable with different number of classes and the data sources such as natural main ecological
processes, secondary ecological processes, and extraneous and exotic processes, and offered a new
data quality index to estimate the quality of the whole dataset by using the reasonableness ratio of
observations. The assessment results provided the reliability class of each dataset, good explanations
for outlier (or error data) flagging decisions, and quality value of the whole dataset. The method
was applied to assess two tree growth datasets from Chinese Ecosystem Research Network (CERN),
and the results demonstrated that the new data quality index could quantitatively evaluate the quality
of the tree growth datasets. The new method would facilitate the development of corresponding soft鄄
ware.
Key words: data check; information system; data quality control; outlier data.
*中国科学院知识创新工程重要方向项目(KZCX2鄄YW鄄433鄄02)资
助.
**通讯作者. E鄄mail: slwang@ iae. ac. cn
2010鄄08鄄11 收稿,2011鄄01鄄19 接受.
摇 摇 生态监测数据对解决生态学问题有特殊的作
用[1],但其被用户应用的一个前提是对数据质量进
行控制[2] .对数据质量作出评估或鉴定是数据质量
控制的一项重要内容.数据质量是一个多维的概念,
如准确性、客观性、可信性、可访问性、完整性、及时
性,甚至数据收集者的名誉等都是其固有的维
度[3-4],每一维上的每一取值均构成其评估依据.对
数据质量的全部维数进行考查实际上很难实现,原
因在于维数、每一维的权重、潜在用户类型和数量均
较难确定[5] .目前,通常使用数据质量指标(如单一
质量指标或多个质量指标的联合)间接实现对数据
质量的鉴定.数据质量指标通常分为 2 类:第 1 类按
照质量成分划分,包括数据的关联性、准确性、完整
应 用 生 态 学 报摇 2011 年 4 月摇 第 22 卷摇 第 4 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇
Chinese Journal of Applied Ecology, Apr. 2011,22(4): 1067-1074
性、时效性、一致性等;第 2 类按照数据生产和消费
的主体划分,如以数据消费用户为导向则包括质量
报告、调查报告等,如以数据生产单位为导向则包括
数据产品质量指标、数据生产过程变量等[5-6] . 目
前,大多数数据管理单位基本上选择第 2 类指标,如
数据生产过程中的取样设计、分析方法、参数选择、
取样技术、数据管理行为都可作为数据质量评估的
考察对象[7] .
自 1998 年以来,我国生态监测事业取得了长足
的发展,监测数据通过各种生产部门源源不断地生
成,如我国野外台站和上级数据管理部门几乎形成
了一条完整的数据产品流水线.然而,如何对数据质
量及时进行控制和评估则一直没有找到贴切的方
案.我国对生态监测数据质量进行控制多以手工方
式为主,如针对特定的数据集,数据管理人员根据自
身的专业修养逐一观察(如逐行)审核,挑出可疑数
据和存在的问题,最后汇总作出评估. 其缺点是:数
据管理人员需要具备相应数据内容的专业技能,对
于不同的数据来源有时甚至要求管理人员重新学习
不同的学科内容;在逐行核对数据的准确性时,检查
人员的长期手工作业易导致疲劳,使数据检测的效
率低下;过多的人力参与不但提高了评估成本,而且
其主观性也易导致评估结果出现争论. 然而因为数
据质量评估非常复杂,评估什么,怎样评估,以及怎
样开发软件代替这些评估尚在摸索之中. 本文主要
根据数据审查人员在审查数据时的一些习惯,以及
数据生产过程中离群数据(异常数据)来源提出了
一种可以满足相关软件开发需要的评估方法,并利
用 CERN提供的乔木生长数据集对方法本身的合理
性进行了评估和说明,以期促进我国生态监测数据
质量自动控制系统的建立.
1摇 研究方法与数据来源
1郾 1摇 生态过程与数据源
数据生产的实质是用数据现象来描述被观察实
体的运动过程,合格数据要求数据现象与实体的运
动过程具有严格的对应匹配关系,即数据与数据源
需严格匹配.在自然生态系统内,由于大多数实体受
相同的自然因素驱动,因此表现出相同或相似的运
动过程.由于大多数实体参与该过程,因此属于主要
生态过程.当用数据集来描述整个系统时,根据数据
现象与运动过程之间的对应关系,主要数据结构将
揭示主要生态过程(这部分数据通常可假定服从同
一正态分布).然而在系统内,可能会有少数实体脱
离原来的运动过程,而衍生出新的后续过程,该过程
属于次级生态过程,次级生态过程对应数据集的次
级数据结构;如果原生态过程突然受外力作用而出
现改变或中断,所表现出的新运动过程,本文称之为
外部过程,对应外部数据现象,该部分数据与反映次
级生态过程的数据由于在行为(如分布)上跟大多
数数据迥然不同,因此属于离群数据或异常数据.如
在某样地内,种植的同一批树中大多数个体有相似
的生长过程,属于主要生态过程;在生长一段时间
后,少部分个体可能生长变快,并可能进入林冠顶
层,成为顶层树,由于这少部分个体的生长过程是从
原来的生长过程中分化出来的新生长过程,因此这
种后续衍生的生长过程为次级生态过程. 相似的运
动过程有相似的数据现象,当用数据现象描述这 3
种生态过程时,一旦发现数据源与实际情况不匹配,
那么数据必然存在质量问题,如当源于主要生态过
程的实体被描绘为源于次级生态过程或外部过程
时,描述该实体的数据则是存在质量问题的数据.本
文将重点解决由于数据源之间混乱描述所引起的数
据质量问题,并阐述如何计算这种混乱程度,以及检
测其是否可作为指标来评估数据集的整体质量.
1郾 2摇 数据质量的测量
监测数据集未经质控前,其实体数据(信息或
样本)通常包括 3 类:正常数据(N)、错误型数据
(E,本文主要针对逻辑错误)和离群数据(O). N 类
数据源于自然的生态过程或自然的数据背景,属于
合格数据;E类数据主要源于人为的疏忽或仪器故
障,如一个有机体的生物量出现负值等,属于错误数
据,该类数据通过设置适当的逻辑条件进行判断可
被检出;O类数据通常被认为是噪音数据,如当数据
生产未遵守严格规范的操作章程时,数据的值被夸
张,但也有一部分 O类数据有可能源于次级的或某
种罕见的生态过程,尽管数据本身没有问题,但它通
常与噪音数据混合在一起,需要进一步复测. O类和
N类数据在取值上有时非常近似,常规手段很难检
出.当某一数据集发布后,根据用户对数据的处理行
为,离群数据(O类数据)还能再分为 4 类. A 类:完
全可以接受并应用;S 类:可以接受,但其合理性需
做出解释说明;U类:不可以接受;D类:暂时无法确
定,需延期作出决定.
考虑到生态监测数据集通常为多变量数据集,
本文以观察行(即样本)为单位进行数据检测,主要
理由是:1)在多变量数据集中,离群数据指多元空
间中的离群样本,如对单一变量逐个进行离群检测
8601 应摇 用摇 生摇 态摇 学摇 报摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 22 卷
时,即使多个变量值被诊断为离群数据,数据所在的
样本仍然未必是离群样本,反之,当单一变量全部被
诊断为正常数据时,数据所在的样本仍可能为离群
样本.如在鸟类群落调查中,20 个位置中仅有 1 个
位置发现橙腹叶鹎(Chloropsis hardwickii),并使用橙
腹叶鹎作为单一变量检测时,出现该鸟的位置必然
被误诊为离群样本(Grubbs检验[8] ),但却是常见的
数据格局. 2)鉴于数据质量控制的目的,要求数据
尽可能满足数据消费用户的需求[8],因此用户使用
数据时,只要某观察行某个数据发现异常,该数据所
在观察行的其他变量代表的数据也可能受牵连,用
户可能对整个观察行投不信任票.
根据上述数据分类,在一个数据集中,总的样本
或观察数为 T=N+E+O=N+E+A+S+U+D,因此如果
使用合格样本出现的频率或概率来估计数据集的数
据质量,那么本文定义数据质量指数(DQI)= (N+A
+S) / T=1-(E+U+D) / T. DQI 是数据集中全部样本
的合格程度(乘上 100%时表示合格率),反映了可
疑观察在全部观察中的比重.
数据集产生以后,数据生产者通常不会提供 A
类数据可供接受使用的证明,如分析人员测试某一
土壤样本有机质的含量值时,该值尽管离谱,但可能
是符合事实的数据,分析人员却无法证明该数据是
合格的,数据审核人员将把这类数据(A 类)先划分
到 D类,如果审核不通过,则返给数据生产者进行
复测以澄清,因此数据质量的提高过程是 D 类数据
不断转化为确定性 A类和 S 类数据的过程.当所有
的离群数据被诊断为不可接受时,最终用户对该数
据集数据质量的最保守估计(DQImin)= N / T;当所有
的离群数据被诊断为确定性的 A 类或 S 类数据时,
数据生产单位对数据质量的最大改良值(DQImax)=
1-E1 / T. 式中,E1 为无法修正的逻辑错误数据.
DQImax与 DQImin之差为数据质控的改良范围,可评估
数据质控的绩效.
1郾 3摇 数据可靠性分级
根据数据云的形状和数据点的位置来鉴定离群
值,当数据点到数据云中心的距离超过某种分布规
定的临界值时被诊断为离群数据. 正常数据由于源
于同一生态过程,总是围绕数据云的中心点做适度
的伸展(遵循某一分布).但是,生态过程非常复杂,
有时主要生态过程还会伴随次级生态过程,甚至伴
随三级生态过程,依此类推,可能出现多级别的生态
过程,另外,当数据结构存在多个外部过程时,也会
出现数据多级现象,整个数据集在数据结构上表现
为多个总体(这里指属于同一数据源的全部实体)
的混合.针对这些数据现象,本文按照同一来源进行
数据的可靠性分级,即源于同一过程的数据(属于
同一个总体)划分为同一级别,规定正常数据的可
靠性为 100% ,其可疑级别为 0 级,其他数据的可疑
级别按照下述方法确定:在分级系统中,当源于主要
生态过程的数据点从数据云中分离出来后,剩下的
离群数据重新形成新的数据云,当数据点到新数据
云的中心超过某种分布规定的临界值时被再次诊断
为离群数据,而规定门限内的数据则称为一级可疑
数据(在数据结构上,全部正常数据被分开作为第 1
个正态总体,全部 1 级可疑数据为第 2 个正态总
体),以此类推,可分出二级可疑数据、三级可疑数
据等,逐级分离直到所有的离群数据属于同一分布
为止(图 1).当数据结构出现多次分离后,生态学的
次生过程、数据来源的外部过程将按照各自的相似
性分组成不同类别.同组数据属于同一总体,具有共
同的特征,因此数据生产者和数据管理人员只需对
每组数据的特征进行简单识别,即可迅速对离群数
据的来源作出鉴定.
离群数据每分离一次,新的组别在相似性上会
更加远离反映主要生态过程的数据组,可疑数据的
级别越高,对数据质量的危害越大,可以接受为合格
数据的概率越小,即可靠性越低.当某个数据点可接
受的概率小于规定的显著性水平时,该数据点将被
作为 U 类数据处理,其所在 Dn 组别的其他数据因
为具有相似行为将同样被划分为 U 类数据,而 Dn+1
组以及以后各组,因为距离N组的相似性更远,更
!"# Dataset
N Normal data: $%!"
D
Suspicious data grade 1
1
: &()!"
( )
D
Suspicious data grade 2
2
: *()!"
( )
D
Suspicious data grade 3
3
: +()!"
( )
D
Suspicious data grade
n
: ()!"
( )
n
n
O Outlier data: ,-!"
O
Outlier data grade 1
1
: &,-!"
( )
O
Outlier data grade 2
2
: *,-!"
( )
O
Outlier data grade 1
n-1
: ,-!"
( )n-


图 1摇 离群数据的识别过程和数据可靠性的分级
Fig. 1摇 Detection process of outlies and their hierarchy based on
data reliability.
96014 期摇 摇 摇 摇 摇 摇 摇 颜绍馗等: 一种新的生态监测数据质量评估方法———以 CERN乔木生长数据为例摇 摇 摇 摇 摇
不能接受,将同样被划分为 U 类数据.如假定 On-1 /
(N+O)<0郾 05,Dn 到 Dn 的所有数据组将被划分为 U
类数据,于是数据质量可用下式估计:
DQI=[(N+D1+D2+…+Dn-1)+(Sn+…+SN)] / T
式中:Sn 为 Dn 组数据中被数据生产者检验过并已
作出合理解释说明的异常数据. 在 DQI 评估过程
中,用户将 D1 到 Dn-1组的全部 D类数据均划归为 A
类数据,此时 DQI 为数据消费用户对数据质量的信
任估计,经数据分级以后,D类数据将全部转化为确
定性数据.
1郾 4摇 数据来源及处理
使用乔木生长监测数据集的数据检测与质量评
估作为实例,检验上述方法的可行性.数据来源:1)
中国科学院会同森林生态实验站(会同站)2008 年
收集的综合观测场杉木(Cunninghamia lanceolata)
人工林生长数据,样地代码为HTFZH01ABC_01,数
据集为 FA01.因为杉木人工林是我国栽植面积最广
的人工林,物种单一,所以选择其作为简单却不失典
型的描述生态过程的数据集代表. 2)中国科学院西
双版纳热带雨林生态系统研究站(版纳站)2008 年
收集的综合观测场天然林乔木生长数据,样地代码
为 BNFZH01ABC_01,数据集为 FA01.因为热带雨林
通常有非常高的物种多样性,树木生长异常复杂,所
以选择其作为包含多生态过程最复杂数据集的代
表.这 2 个数据集的数据收集过程均遵守中国生态
系统研究网络(CERN)的数据收集协议和收集规
范,2 个观测场具体的实体数据和相应背景信息均
已在线出版[9] .使用已出版发行的数据集作为研究
对象的原因在于:1)本文所用数据集已经过数据管
理员以及上级数据管理部门多级手工检测,其质量
问题为已知,如果本方法暴露了比手工检测更多的
质量问题,或获得了更全面的质量评估,说明这种方
法至少在精度上是可行的;2)对于一个数据产品,
从数据生产到发布的任何环节均可能存在质量问题
的隐患,找出其隐患,进而督促每一环节质量的提
升,检测已出版的数据产品(成品)对指导数据生产
过程也有一定的指导意义;3)这些出版的数据与相
应台站当年最新产生的未出版数据(半成品)有相
同的数据结构和数据生产规范,实际上,使用成品还
是半成品,只是提供了待检材料,对该方法本身的原
理没有影响.
为了检测逻辑错误型数据,本文调用了会同站
2007 年、版纳站 2005 对应树号的历史数据.如果生
长量出现负值,说明树越长越矮小,即断定为数据可
疑,如果没有相应备注,尽管它可能是正确的,仍做
逻辑错误型数据处理. 使用 Filzmoser 等[10]提出的
方法检测离群数据,其理论依据如下:1)数据云的
形状和大小可以用协方差矩阵来定量;2)Mahalano鄄
bi距离由协方差矩阵计算得来,其可以测量数据点
到数据云中心的距离;3)Mahalanobi 距离的平方服
从卡方分布,只要规定卡方分布的临界距离即可识
别离群值[10] .版纳站的数据在检测之前使用自然对
数对数据进行转换,以保证胸径和树高的数值变化
范围较接近,会同站的胸径和树高变化范围不大,未
进行数据转换.
使用 Excel 软件对数据进行逻辑检测,使用
R[11]及其相应的软件包 mvoutlier[12]对离群值进行
识别.离群数据检测不参考任何历史数据,使用原数
据集为待检数据集.
2摇 结果与分析
2郾 1摇 逻辑错误型数据的检测
2郾 1郾 1 会同亚热带杉木人工林摇 按照 CERN 的数据
收集协议,人工林每年调查一次,本文使用 2007 年
调查数据为参照,识别监测中断数据和胸径可疑数
据.由于以下原因,本文忽视了树高逻辑错误的检
查:2007 年树高测量使用目测和杆测,2008 年使用
树高测量仪,测量方法不一致;2008 年出现特大冰
冻灾害,导致部分树木轻度断稍,只在数据质量控制
表予以说明,却未在实体数据表中予以备注.按照表
1 中的识别依据,检测出监测中断数据 0 条,胸径逻
辑错误数据 9 条,占整个观察记录数的 4郾 3% ,其
中,3 条有解释说明,为树木干枯导致胸径变小,可
以接受为合格数据,因此可疑观察数为 6 条(表 1).
2郾 1郾 2 西双版纳热带雨林摇 同一树号,如果 2008 年
的胸径或树高数据小于 2005 年相应记录,即当树的
生长出现负值时,判断为逻辑错误. 2008 年版纳站
综合观测场 FA01 数据集中,检出逻辑错误的记录
数 61 条,占整个数据集记录数的 1郾 76% (表 1).但
其中 23 条添加有备注说明,作为合格数据处理,38
条未能作出合理解释,作为可疑观察数据处理.
2郾 2摇 离群数据的检测
2郾 2郾 1 会同亚热带杉木人工林摇 会同杉木人工林综
合观测场 FA01 数据集共记录 207 条数据,剔除逻
辑错误记录以后,待检数据 198 条,数据云的形状
(图 2芋)表明,数据云上下部位的松散程度一致,初
步断定数据结构不存在次级现象. 分离出的正常数
据组(N)可反映主要生态过程,观察数占检测数据
0701 应摇 用摇 生摇 态摇 学摇 报摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 22 卷
表 1摇 BNFZH01ABC_01 FA01 数据集中发生逻辑错误的观
察数和已作出相应解释说明的记录数(以 2005 年历史数据
为参照)
Table 1摇 Observations with logical errors using history data
(2005) as reference and corresponding records accepted for
self鄄representation in BNFZH01ABC_01 FA01 dataset
逻辑错误数据类别
Type of the
logical error data
发生数
Occurrences
解释数
Self鄄
representation
number
判断依据
Detection
criterion
生长监测中断 Missing
during monitor growth
404 402 D=0 or H=0
树高错误 Error in H 42 15 H2005 >H2008
胸径错误 Error in DBH 16 8 D2005 >D2008
胸径和树高全错 Error
in DBH and H
3 2 D2005 >D2008,H2005 >
H2008
H:树高 Tree height; DBH:胸径 Diameter at breast height; H2005: 2005
年树高数据 Measured tree height in 2005; H2008: 2008 年树高数据
Measured tree height in 2008; D2005: 2005 年胸径数据 Measured DBH
in 2005; D2008: 2008 年胸径数据 Measured DBH in 2008.
的 94郾 9% ;分离出的一个可疑数据组(D1)反映了外
部过程,共 10 条记录,其中 9 条为断稍状树形,1 条
为纤细树形(图 2郁),由于原数据集未能对这些异
常数据作出合理解释,因此全部划分为 U 类,为可
疑数据,不予接受.
2郾 2郾 2 西双版纳热带雨林 摇 版纳站综合观测场
FA01 数据集剔除上述(表 1)逻辑错误型数据以后,
还有 2987 棵树的记录.此时,胸径与树高表现为明
显的线性关系,但二元空间上的数据云形状并不为
椭圆型(反映正态分布),数据点在左下部高度集
中,在右上部非常松散(图 2I),可初步断定数据结
构存在多级现象.使用 Filzmoser 法按照图 1 步骤逐
次分离出 1 个正常数据组(N)和 4 个可疑数据组
(D1、D2、D3 和 D4),由于胸径与树高的关系是对树
的杆形的一种描述,可据此判断出 5 个数据组的来
源. 在全部检测数据中, N 组数据的观察数占
86郾 7% ,可断定该组数据反映主要生态过程,该组数
据的胸径在 12 cm以下、树高在 14 m 以下,数据云
的形状显示该组树的杆形服从正态分布,实际上该
组为乔木亚层树的数据集合;D1 组的观察数占全部
检测数据的 11郾 4% ,数据云的形状显示服从正态分
布,根据其胸径和树高的取值范围,可查出该组全部
属于乔木顶层树,反映次级生态过程,D1 组数据应
划为 A类数据;D2 组的观察数占全部检测数据的
1郾 6% ,查阅数据生产者的备注说明,此组对应乔木
亚层断稍类乔木,因此 D2 组为断稍类树形,由于树
木出现断稍,表现出来的树形异常一般源于外力
(如风力)作用,因此该组数据的来源反映外部过
程;D3 组共 7 条记录,D4 组共 2 条记录,D3 组中的 4
棵树表现为乔木顶层断稍类树形,另外 3 棵树表现
为藤本状的纤细树形,D4 组中一棵树测量的胸径包
含藤本在内,另一棵树显示树高高度异常.测树过程
图 2摇 基于 BNFZH01ABC_01(玉、域)和 HTFZH01ABC_01(芋、郁)数据集的树高(H)和胸径(D)散点图(玉、芋)以及用 Filz鄄
moser稳健方法分离的相应离群组(域、郁)
Fig. 2摇 Scatter plots (玉,芋) of tree height (H) and diameter at breast height (D) and corresponding clusters of outliers found using
Filzmoser爷s robust method (域, 郁) based on the BNFZH01ABC_01 (玉,域) and HTFZH01ABC_01 (芋, 郁) datasets.
O:离群数据 Outlier data; N:正常数据 Normal data; D1 ~ D4: 1 ~ 4 级可疑数据 Suspicious data from grade 1 to 4.
17014 期摇 摇 摇 摇 摇 摇 摇 颜绍馗等: 一种新的生态监测数据质量评估方法———以 CERN乔木生长数据为例摇 摇 摇 摇 摇
中,若树高过高,常导致纤细树形,若胸径过大,常出
现断稍类树形. D2、D3、D4 组数据无论是外部干扰导
致树形异常(如风吹断稍),还是测量错误导致树形
异常,都属于外部过程,应对数据来源做备注. 无法
对异常数据做出解释说明的记录应归入可疑观察处
理.
2郾 3摇 数据质量值的确定
将所有 D 类数据确定为 U 类、A 类和 S 类后
(表 2),汇总逻辑错误数据,数据质量按照数据质量
指数计算后,结果如下:
1)对于生物监测人员和上级质量审核机构而
言,会同站的数据质量评分为:
SQI=[1-(U+D+E) / T] 伊100% = [1 -(10 +0 +
6) / 207]伊100% =92郾 3%
由于不存在缺失数据,对于最终用户而言,数据
质量分为 92郾 3% .
2) 对于生物监测人员和上级质量审核机构而
言,版纳站的数据质量评分为:
SQI=[1-(U+D+E) / T] 伊 100% = [1-(49+0+
38) / 3452]伊100% = 97郾 5%
对于最终数据用户而言,因为存在 404 条监测
中断数据,此部分记录会做缺失数据处理.按照数据
质量为拟合用户需求程度的定义,数据质量评分应
为:
SQI=[1-(U+D+E) / T]伊100% =[1-(49+0+38
+404) / 3452]伊100% =85郾 8%
表 2摇 对 D类数据做出接受或拒绝的决定后相应数据组的
观察数
Table 2摇 Numbers of observations in corresponding clusters
after all deferred status for each data in D were rejected or
accepted.
数据集
Dataset
数据类型
Data type
N A S U D
BNFZH01ABC_01 N 2589 0 0 0 0
D1 0 320 21 0 0
D2 0 0 7 41 0
D3 0 0 0 7 0
D4 0 0 1 1 0
合计 Total 2589 320 29 49 0
HTFZH01ABC_01 N 188 0 0 0 0
D1 0 0 0 10 0
合计 Total 188 0 0 10 0
N:正常数据 Normal data; A:可接受的离群数据 Outliers accepted for
full use; S:可接受但需要本身作出解释说明的数据 Outliers accepted
for self representation; U:不可接受的数据 Unacceptable outliers; D:
需要延期作出决定的数据 Outliers with decision deferred.
3摇 讨摇 摇 论
3郾 1摇 错误数据的检测
本文提出 2 个主要的操作方法,即数据逻辑的
检测和数据离群的检测. 在数据逻辑的检测时基于
与手工方法相同的操作原则和识别依据,用 Excel
或其他软件平台,通过输入逻辑条件以后,得到的结
果与手工方法所得结果基本一致,但本文在检测过
程中调用了历史数据作为参照,故对于逻辑错误数
据检测的方法仍待改进. 本文选择树的干形来区分
异常数据和正常数据,由于逻辑错误数据也源于外
部过程,如缺失数据其树高为 0,在树形上必然作为
异常数据被检出,因此借助历史数据来识别逻辑错
误在本文中为备选项,不是必选项. 另外,如果历史
数据出现错误,而以其作为参照时,正常数据可能被
误诊为错误数据,因此会导致数据质量的测量值偏
低.数据逻辑检测作为一个重要的操作步骤,主要原
因如下:1)本文将待检数据分为 3 类,分别源于主
要生态过程、次级生态过程和外部过程,由于逻辑错
误数据的产生本身不可预测、甚至有人为的任意性,
当逻辑错误数据在数据集中所占比重较大时,会影
响数据云的密度,导致中心位置的偏移,从而干扰上
述 3 类数据来源过程的识别;2)通常情况下,离群
数据不会出现在数据云的中心,但因为错误数据的
发生不可预测,当错误数据的发生次数过多或标准
差较低时,一旦离群数据出现在数据云中心附近,就
会带来灾难性后果,此时,根据数据云的形状和数据
点的位置无法识别数据源于外部过程还是生态过
程.以极端情况下(50%的错误率)的案例模拟这种
灾难后果出现的可能性,假定正常数据有 2 个变量,
均服从 N(5,20)分布,随机产生观察数 100 个(序
号在 1 ~ 100),错误数据服从 N( -5,滓)分布,也随
机产生观察数 100 个(序号在 100 ~ 200),检测结果
表明,当标准差为 1(图 3A)或 2(图 3B)时,因为错
误数据点全部位于数据云的中心(看错误数据的序
号),结果 100%的错误数据被划分为正常数据(图
3 中的绿色数据),当标准差增大到 10(图 3C)或 20
(图 3D)时,数据云相互重叠,已无法区分错误数据
还是正常数据.因此,对于较低质量的数据,当错误
数据占相当大的比重时,必须进行逻辑检测.
3郾 2摇 离群数据的检测
离群数据的检测是数据合理性诊断必不可少的
步骤,检测方法主要是数理上的诊断,纯生态专业意
义上的识别(容易发生错误)只能作为一种辅助诊
2701 应摇 用摇 生摇 态摇 学摇 报摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 22 卷
图 3摇 使用正态分布数据结合 Filzmoser法模拟高比例逻辑错误数据对离群数据识别效率的影响
Fig. 3摇 Simulating effects of a high percentage of data with logistic error on the outlier detection power by using simulated normally dis鄄
tributed data integrating Filzmoser爷s robust method.
A: N(-5,1); B: N(-5,2); C: N(-5,10); D: N(-5,20). 序号代码 1 ~ 100 为实际的正常数据,100 ~ 200 为错误型数据,圈内数据代表相应
序号被诊断为正常数据,其余为离群数据 Actual normal data with sequence code from 1 to 100 and error data with sequence from 100 to 200, in the
circle the number represented identification of the corresponding sequence to normal data cluster and the rest to outlier cluster.
断方法,如无法区分正常的极值和离群值. 目前,离
群数据的识别主要包括参数和非参数的方法. 参数
方法假定观察服从已知的分布,依赖于模型[13] . 如
树的胸围和胸径之间存在近似 3郾 14 的关系,是对树
干形状的一种描述,当超过某一阈值时树干被诊断
为异常,需要数据生产者进行复测或对树干异常数
据作出合理解释.非参数方法包括数据挖掘[14-16]和
聚类技术[17-19]等,不依赖于模型. 选择何种方法取
决于待检数据集及其内部寓含的生态学关系,要求
运用生态专业常识对分离后的离群数据的离群原因
进行合理解释. 本文应用 Filzmoser 等[10]提出多变
量离群值识别方法是针对特定案例的一种选择,该
分离方法是否适于其他类型的监测数据集有待进一
步评估.但该方法对于描述生态系统成分现存状态
的数据有很高的分离效率,特别是在区分生态系统
的内部过程和外部过程方面非常灵敏. 本文的案例
中,反映外部过程的树木生长数据和反映主要生态
过程、次级生态过程的生长数据很明显地被分离出
来,与从生态学专业上作出的诊断有很好的对应关
系.如会同站 HTFZH01ABC_01 的胸径和树高生长
调查中,在检出的 10 个异常记录里,树号 ZH01C16鄄
12(2008 年胸径 18郾 1 cm,树高 20郾 6 m)使用本文方
法被检测为藤本类纤细树形,但 2008 年经该站生物
监测人员以及上级生物分中心多轮检测均未被检
出;根据 2009 年测量的结果,树号 ZH01C16鄄12 树
胸径为 28郾 3 cm,一年中胸径增长 10 cm,明显是离
谱的.笔者找到了当年的原始记录,2008 年该树的
胸径实为 28郾 1 cm,属于胸径记录输入错误;经核
实,其他树中,1 棵树为树高测量错误,其他 8 棵树
历史上断过稍、没有及时记录,本方法检出的异常数
据与实际情况完全吻合. 另外,Filzmoser 等[10]提出
的检测方法在养分循环和土壤元素含量方面很容易
识别外部过程和内部过程,因此本文提出的数据分
级诊断原理也可推广应用至这些数据集. 对于其他
的监测数据集,由于监测类数据本身样本量巨大,数
据通常都可以被认为是正态分布或渐近正态分布.
Filzmoser等[10]提出的方法在理论上是适用的,但仍
需对每一级别的数据来源进行专业解释后,方可推
广.
由于生态监测数据通常是长期重复测量的,如
果使用相邻 2 年的相同树号的生长数据之差构成新
的待检数据集,那么生长异常(如跳跃式生长)的树
木将作为离群数据被检出. 选择和构建何种待检数
据集,或多种数据集交互检测,应视实际情况而定.
4摇 结摇 摇 语
针对特定生态监测数据集的质量评估,本文假
定由于数据源之间混乱描述所引起的数据质量变化
37014 期摇 摇 摇 摇 摇 摇 摇 颜绍馗等: 一种新的生态监测数据质量评估方法———以 CERN乔木生长数据为例摇 摇 摇 摇 摇
可以作为指标来评估数据集的整体质量,并利用
Filzmose多变量离群值识别方法检验了该假定. 在
检验过程中,建立了一套完整的数据检测方法,并提
出了一个新的数据质量指数.通过实际案例分析,明
确了先逻辑检测、后离群检测的原则.引入新的数据
质量指数以后,进一步明确了数据生产者与数据管
理者之间的反馈关系,阐明了数据质量改良的范围
为 DQImin ~ DQImax,为评估数据质量控制本身的绩效
提供了计算方法.针对数据的可靠性,提出了数据分
级的想法,即相同级别的数据有相同的数据来源,正
常数据的可靠性为 100% ,属于 0 级可疑数据;按照
对数据质量的危害程度,离群数据被分为 1 级到 N
级可疑数据,级别越高,数据的可靠性越低. 数据分
级可解决如下问题:1)缩减数据管理人员的数据审
查时间,由于同一来源的数据被划分到同一级别,管
理人员只需抽查该组少数数据,进行简单生态学专
业识别,即可明确数据的来源,另外,本方法会给出
每一个具体数据(样本)的可靠程度(从 0 级到 N
级),有利于数据管理人员优先审查可疑级别最高
的数据;2)该数据分级方法有望解决建立数据质量
自动控制系统所面临的 D 类数据的去向问题,针对
不同的生态系统,设置 D 类数据与可疑级别的关联
程度以后,D类数据可按照指定的关联程度被划分
为可接受数据或不可接受数据,如设置 n 级为可接
受,那么更高级别将被否决,如果该级别作为接受参
数,那么数据检查过程中,自动质量控制系统识别出
离群数据后,将依据该参数进行条件识别处理数据
是接受还是否决.这种数据分级方法可促成软件代
替人工进行生态学上的诊断. 另外, 数据质量指数
的提出也解决了数据质量评估的定量问题,促进了
数据管理评估的客观与公正.
参考文献
[1]摇 Fu B鄄J (傅伯杰), Niu D (牛 摇 栋), Yu G鄄R (于贵
瑞). The roles of ecosystem observation and research
network in earth system science. Progress in Geography
(地理科学进展), 2007, 26(1): 1-16 (in Chinese)
[2]摇 Golz G, Einfalt T, Michaelides SC. Quality control of
rainfall measurements in Cyprus. Meteorological Applica鄄
tions, 2006, 13: 197-201
[3]摇 Wang RY, Strong DM. Beyond accuracy: What data
quality means to data consumers? Journal of Manage鄄
ment Information System, 1996, 12: 5-34
[4]摇 Ballou DP, Wang RY, Pazer H, et al. Modeling infor鄄
mation manufacturing systems to determine information
product quality. Management Science, 1998, 44: 462-
484
[5]摇 Wang RY, Ziad M, Lee YW. Data Quality. New York:
Kluwer Academic Publishers, 2002
[6]摇 Bergdahl M, Ehling M, Elvers E, et al. Eurostat
(2007): Handbook on Data Quality Assessment Meth鄄
ods and Tools ( DatQAM) [ EB / OL]. (2007鄄12鄄30)
[2010鄄10鄄01]. http: / / ec. europa. eu / eurostat / quality
[7]摇 El鄄Haik B, Al鄄Aomar R. Simulation鄄based Lean Six鄄
sigma and Design for Six鄄sigma. Hoboken, NJ: John
Wiley & Sons, Inc. , 2006
[8]摇 Grubbs FE. Sample criteria for testing outlying observa鄄
tions. Annals of Mathematical Statistics, 1950, 21: 27-
58
[9]摇 National Ecosystem Research Network of China(国家生
态系统研究网络). Ecological Monitoring Datasets
[EB / OL]. (2008鄄12鄄30) [2010鄄06鄄10]. http: / / cern鄄
dis1. cern. ac. cn / sites / index. html (in Chinese)
[10]摇 Filzmoser P, Garrett RG, Reimann C. Multivariate out鄄
lier detection in exploration geochemistry. Computers &
Geosciences, 2005, 31: 579-587
[11] 摇 R Development Core Team. R: A Language and Envi鄄
ronment for Statistical Computing. Vienna, Austria: R
Foundation for Statistical Computing, 2010
[12]摇 Gschwandtner M, Filzmoser P. Mvoutlier: Multivariate
Outlier Detection Based on Robust Methods. R Package
Version 1. 4. [EB / OL]. (2007鄄10鄄30) [2010鄄07鄄10].
http: / / www. statistik. tuwien. ac. at / public / filz /
[13]摇 Hadi AS. Identifying multiple outliers in multivariate da鄄
ta. Journal of the Royal Statistical Society Series B,
1992, 54: 761-771
[14]摇 Knorr EM, Ng R. Algorithms for mining distance鄄based
outliers in large datasets. Proceedings of the 24th Inter鄄
national Conference, New York, 1998: 392-403
[15]摇 Williams GJ, Huang Z. Mining the knowledge mine:
The hot spots methodology for mining large real world
databases / / Sattar A, ed. Advanced Topics in Artificial
Intelligence, Volume 1342 of Lecture Notes in Artificial
Intelligence. Berlin: Springer鄄Verlag, 1997: 340-348
[16]摇 Ramaswamy S, Rastogi R, Shim K. Efficient algorithms
for mining outliers from large data sets. Proceedings of
the 2000 ACM SIGMOD International Conference on
Management of Data, Dallas, Texas, 2000: 427-438
[17]摇 Kaufman L, Rousseeuw PJ. Finding Groups in Data:
An Introduction to Cluster Analysis. New York: Wiley,
1990
[18]摇 Barbara D, Chen P. Using the fractal dimension to clus鄄
ter datasets. Proceedings of the Sixth ACM SIGKDD In鄄
ternational Conference on Knowledge Discovery and Data
Mining, Boston, MA, 2000: 260-264
[19]摇 Papadimitriou S, Kitawaga H, Gibbons PG, et al.
LOCI: Fast outlier detection using the local correlation
integral. 19th International Conference on Data Engi鄄
neering, Bangalore, India, 2003: 315-326
作者简介摇 颜绍馗,男,1974 年生,硕士.主要从事土壤生物
学研究. E鄄mail: yan@ soilbio. com
责任编辑摇 杨摇 弘
4701 应摇 用摇 生摇 态摇 学摇 报摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 22 卷