【目的】 采用KNN方法进行碳储量估测,并对估测后的数据进行各种校正处理,绘制森林地上碳储量的空间分布图,为我国森林碳储量和固碳潜力的研究提供基础数据和科学依据。【方法】 以黑龙江省大兴安岭为研究区(50°05‘—53°33‘N,121°11‘—127°01‘E),基于2010年森林资源连续清查固定样地和同年Landsat5 TM影像数据,利用k-邻近法(KNN)在像素级水平上对森林地上碳储量进行估算。采用多准则方法分东、南、北和中4个区域对样地坐标和其对应的影像光谱值进行坐标重配准,并根据实测样地数据对坐标重配置前后不同林分类型地上碳储量估测精度进行评价; 针对KNN方法像素级估测结果存在明显的高值区域低估和低值区域高估现象,应用直方图匹配方法对估测结果进行变动范围调整; 并根据样地实测碳储量和KNN估测值间的回归关系对调整后的结果分区域进行进一步匹配校正后处理,绘制森林碳储量的空间分布图。【结果】 总体来说,本研究区域像元尺度KNN估测的欧式距离优于马氏距离,均方根误差随着最邻近值k的增大而降低,当k大于6时变化缓慢,并逐渐趋于稳定; 坐标误差校正后,各林分类型森林地上碳储量的估测精度均显著提高,平均均方根误差由17.23降低到14.3 t·hm-2; 直方图匹配后,各区域样地点高值区域低估和低值区域高估现象均有很大程度改善,实测值和估测值间的相关关系明显增强,然而高值地区(碳储量大于20 t·hm-2)出现过高估计现象; 经匹配校正后处理的均值、标准差、直方图和累积频率分布图更接近样地实测值,均方根误差也明显降低,高值地区过高估计现象得到很好校正。【结论】 森林资源清查数据、遥感数据及KNN方法相结合逐渐成为区域尺度森林参数空间连续估测的重要手段。同利用光谱值和森林参数建立的回归模型相比,KNN方法能够更多地考虑到森林参数同光谱值之间的非线性依赖关系; 但KNN估测方法除了受距离度量标准、最邻近值k的大小以及影像波段的选取等因素影响外,还存在如样地坐标和对应的影像光谱值匹配误差、像素级估测结果多呈明显集中分布趋势等问题,使得该方法的应用受到一定限制。本文的研究表明,对这些因素进行合理的校正,将更有利于区域尺度森林参数的精确估计和反演。
【Objective】 Forest is the major terrestrial carbon pool. Accurate assessment of forest carbon storage and its spatial distribution is the key to investigating the terrestrial carbon cycle. 【Method】Based on the PSPs data from continuous forest resource inventory and Landsat5 TM in 2010, the k-nearest neighbor (KNN) method was used to estimate, at the pixel level, the aboveground carbon storage in Daxing‘an Mountains of Heilongjiang Province. The field PSP data and its corresponding satellite image information were reassigned using a multi-criteria approach in east, south, northand middle regions. The accuracy estimation of different forests before and after the reassignment was also evaluated according to the data of PSPs. In view of the phenomenon that the pixel level KNN estimation having the large values underestimated and small values overestimated, the histogram matching method was used to adjust the variation range of the estimation results. Then, further correction treatment was applied to each region according to the regression equations of field data and the estimation data from the histogram matching until the spatial distribution map of forest carbon storage was drawn.【Result】Overall, Euclidean distance was better than Mahalanobis in our study area at the pixel level of KNN estimation. The root mean square error decreased with the increase of the nearest neighbor k, whereas, the tendency was slow down and gradually stabilized when k is greater than 6. The estimate accuracy was improved significantly at the pixel level in each forest type when the coordinate errors was corrected, and the average root mean square error was reduced from 17.23 to 14.3 t·hm-2.After histogram matching, the phenomenon of underestimation for high value and overestimation for low value was greatly improved in each region, and the correlation between filed data and estimation data was enhanced obviously. However, high value area (carbon storage value was larger than 20 t·hm-2) was overestimated evidently. The mean value, standard deviation, histogram and cumulative frequency distribution graph of the final corrected values through the further correction treatment were more close to those of the field values, and the overestimation in high value area was also well corrected. 【Conclusion】 The integration of forest inventory plot data, satellite image data with the KNN method has gradually become a popular approach for spatial continuous estimation of forest vegetation parameters over large regions. Compared with the regression model established by the spectral value and forest parameters, KNN method is more focuses on the nonlinear dependence between forest parameters and spectral values. However, the KNN estimation method is not only influenced by the distance metric standard, the nearest neighbor k and the image band selection, but it also has the problems such as the location errors of field plots with respect to the satellite image, the tendency to having a suppressed variation range at the pixel level, which make this method subjected to a certain application restrictions. This study indicated that if these impact factors were reasonably corrected, it would be more conducive to the accurate estimation and inversion of forest parameters at regional scale.
全 文 :第 51 卷 第 5 期
2 0 1 5 年 5 月
林 业 科 学
SCIENTIA SILVAE SINICAE
Vol. 51,No. 5
May,2 0 1 5
doi:10.11707 / j.1001-7488.20150506
收稿日期: 2014 - 06 - 05; 修回日期: 2015 - 03 - 01。
基金项目: 国家“十二五”科技支撑计划课题(2012BAD22B02) ; 林业公益性行业科研专项(201004026) ; 长江学者和创新团队发展计划
( IRT1054)。
* 李凤日为通讯作者。
基于 KNN方法的大兴安岭地区
森林地上碳储量遥感估算*
戚玉娇 李凤日
(东北林业大学林学院 哈尔滨 150040)
摘 要: 【目的】采用 KNN 方法进行碳储量估测,并对估测后的数据进行各种校正处理,绘制森林地上碳储量的
空间分布图,为我国森林碳储量和固碳潜力的研究提供基础数据和科学依据。【方法】以黑龙江省大兴安岭为研
究区(50°05—53°33N,121°11—127°01E),基于 2010 年森林资源连续清查固定样地和同年 Landsat5 TM 影像数
据,利用 k -邻近法(KNN)在像素级水平上对森林地上碳储量进行估算。采用多准则方法分东、南、北和中 4 个区
域对样地坐标和其对应的影像光谱值进行坐标重配准,并根据实测样地数据对坐标重配置前后不同林分类型地上
碳储量估测精度进行评价; 针对 KNN 方法像素级估测结果存在明显的高值区域低估和低值区域高估现象,应用直
方图匹配方法对估测结果进行变动范围调整; 并根据样地实测碳储量和 KNN 估测值间的回归关系对调整后的结
果分区域进行进一步匹配校正后处理,绘制森林碳储量的空间分布图。【结果】总体来说,本研究区域像元尺度
KNN 估测的欧式距离优于马氏距离,均方根误差随着最邻近值 k 的增大而降低,当 k 大于 6 时变化缓慢,并逐渐趋
于稳定; 坐标误差校正后,各林分类型森林地上碳储量的估测精度均显著提高,平均均方根误差由 17. 23 降低到
14. 3 t·hm - 2 ; 直方图匹配后,各区域样地点高值区域低估和低值区域高估现象均有很大程度改善,实测值和估测
值间的相关关系明显增强,然而高值地区(碳储量大于 20 t·hm - 2 )出现过高估计现象; 经匹配校正后处理的均值、
标准差、直方图和累积频率分布图更接近样地实测值,均方根误差也明显降低,高值地区过高估计现象得到很好校
正。【结论】森林资源清查数据、遥感数据及 KNN 方法相结合逐渐成为区域尺度森林参数空间连续估测的重要手
段。同利用光谱值和森林参数建立的回归模型相比,KNN 方法能够更多地考虑到森林参数同光谱值之间的非线性
依赖关系; 但 KNN 估测方法除了受距离度量标准、最邻近值 k 的大小以及影像波段的选取等因素影响外,还存在
如样地坐标和对应的影像光谱值匹配误差、像素级估测结果多呈明显集中分布趋势等问题,使得该方法的应用受
到一定限制。本文的研究表明,对这些因素进行合理的校正,将更有利于区域尺度森林参数的精确估计和反演。
关键词: KNN; 森林地上碳储量; 遥感; 坐标配准; 直方图匹配
中图分类号: S758. 5 文献标识码: A 文章编号: 1001 - 7488(2015)05 - 0046 - 10
Remote Sensing Estimation of Aboveground Forest Carbon Storage in
Daxing’an Mountains Based on KNN Method
Qi Yujiao Li Fengri
( School of Forestry,Northeast Forestry University Harbin 150040)
Abstract: 【Objective】Forest is the major terrestrial carbon pool. Accurate assessment of forest carbon storage and its
spatial distribution is the key to investigating the terrestrial carbon cycle. 【Method】Based on the PSPs data from
continuous forest resource inventory and Landsat5 TM in 2010,the k-nearest neighbor ( KNN ) method was used to
estimate,at the pixel level,the aboveground carbon storage in Daxing’an Mountains of Heilongjiang Province. The field
PSP data and its corresponding satellite image information were reassigned using a multi-criteria approach in east,south,
northand middle regions. The accuracy estimation of different forests before and after the reassignment was also evaluated
according to the data of PSPs. In view of the phenomenon that the pixel level KNN estimation having the large values
underestimated and small values overestimated,the histogram matching method was used to adjust the variation range of
the estimation results. Then,further correction treatment was applied to each region according to the regression equations
第 5 期 戚玉娇等: 基于 KNN 方法的大兴安岭地区森林地上碳储量遥感估算
of field data and the estimation data from the histogram matching until the spatial distribution map of forest carbon storage
was drawn.【Result】Overall,Euclidean distance was better than Mahalanobis in our study area at the pixel level of KNN
estimation. The root mean square error decreased with the increase of the nearest neighbor k,whereas,the tendency was
slow down and gradually stabilized when k is greater than 6. The estimate accuracy was improved significantly at the pixel
level in each forest type when the coordinate errors was corrected,and the average root mean square error was reduced
from 17. 23 to 14. 3 t· hm - 2 . After histogram matching, the phenomenon of underestimation for high value and
overestimation for low value was greatly improved in each region,and the correlation between filed data and estimation data
was enhanced obviously. However,high value area ( carbon storage value was larger than 20 t·hm - 2 ) was overestimated
evidently. The mean value, standard deviation,histogram and cumulative frequency distribution graph of the final
corrected values through the further correction treatment were more close to those of the field values, and the
overestimation in high value area was also well corrected. 【Conclusion】The integration of forest inventory plot data,
satellite image data with the KNN method has gradually become a popular approach for spatial continuous estimation of
forest vegetation parameters over large regions. Compared with the regression model established by the spectral value and
forest parameters,KNN method is more focuses on the nonlinear dependence between forest parameters and spectral
values. However,the KNN estimation method is not only influenced by the distance metric standard,the nearest neighbor
k and the image band selection,but it also has the problems such as the location errors of field plots with respect to the
satellite image,the tendency to having a suppressed variation range at the pixel level,which make this method subjected
to a certain application restrictions. This study indicated that if these impact factors were reasonably corrected,it would be
more conducive to the accurate estimation and inversion of forest parameters at regional scale.
Key words: KNN; forest aboveground carbon storage; remote sensing; coordinate registration; histogram matching
森林是陆地生态系统的主体,贮存了陆地生态
系统 76% ~ 98% 的有机碳(王效科等,1996)。作
为全球气候系统的重要组成部分,森林的生物量与
碳储量对陆地生态系统的碳循环、吸收和固定大气
中的 CO2、维护大气成分的平衡起着极为重要的作
用,准确评估森林碳储量的时空变化,不仅可以为森
林资源的经营管理和林业可持续发展提供重要的科
学依据,而且对碳循环及碳汇研究具有十分重要的
意义。
森林清查数据为国家及区域尺度的森林资源信
息研究提供了基础,而森林清查数据和遥感数据及
k - 邻近距离法( k-nearest neighbor,KNN)相结合是
森林参数空间连续估测的重要手段。KNN 方法是
一种典型的非参数方法,可以进行单变量和多变量
估测,能够克服传统多元回归方法对自变量间非共
线性限定的缺陷,已经被广泛用于多个国家多源林
业调查和森林变量的反演与制图中,包括芬兰
(Tomppo et al.,2004; 2008 )、瑞典 ( Reese et al.,
2003)、挪威(Gjertsen,2007)、爱尔兰(McInerney et
al.,2009 ) 和 美 国 ( Franco-Lopez et al., 2001;
McRoberts et al.,2007)等。
我国对该技术的研究和应用刚开始起步。陈尔
学等 ( 2008 )结合森林资源一类清查样地数据和
Landsat TM 数据,利用 KNN 法估计了小面积统计单
元森林蓄积,估测效果优于只利用固定样地数据的
传统估计方法。郑刚等(2010)对基于 KNN 方法的
森林蓄积量遥感估计和反演进行了概述。曹庆先等
(2011)提取广西和海南部分红树林 TM 遥感影像光
谱及纹理特征,结合同地区地面调查的生物量数据,
应用 KNN 方法对生物量进行了遥感估算,结果表明
KNN 的估测精度随着估测尺度的增大而增大。Xu
等(2012)对 ALOS AVNIR-2 数据进行不同方法的相
对辐射校正,并应用 KNN 方法进行森林蓄积量估
测,结果表明经过辐射校正后的数据在估测森林蓄
积量方面表现出明显的优势。Tian 等(2012)应用
KNN 方法结合不同的遥感数据源对黑河流域的地
上生物量进行了估测和分析。
KNN 方法可基于像素级和林分级 2 种水平上
进行森林参数估计。基于像素级是结合遥感影像和
地面样地点估测,每个样点的光谱特征从最靠近的
样地点中心的像元光谱值获得,或者是通过样地点
的近邻像元获得。研究(Poso et al.,1999; Tokola et
al.,1996; Tomppo,1993)显示,基于样地点森林参
数的估测误差为 60% ~ 80%,对树种的估测误差更
高。基于像素级的森林参数的估计对样地点的位置
相当敏感,遥感图像的配准精度、样地点的位置偏差
以及遥感图像的空间和光谱分辨率等都会影响估测
精度。最邻近值 k 在一定程度上能够控制这种误
74
林 业 科 学 51 卷
差,但当 k 值越大时,估测的结果更容易向平均值的
方向平衡(Tokola et al.,1996)。Mkel 等(2001)采
用图像分割技术降低了这种分析误差,但是当用于
特征抽取的邻域窗体的尺寸越大时,融入邻域光谱
特征的成分越多,获取光谱特征的误差越大。Reese
等(2003)研究发现,当估计区域面积大于 100 hm2
时,总体蓄积量的平均估测误差降为 10%~ 15%,能
够满足精度要求。Halme 等(2001)通过多准则方法
重配准样地坐标和影像信息,使得估计结果相对
RMSE 降低了 36%。KNN 方法基于林分级森林参
数估计时,是在提取各个林分光谱特征的基础上结
合已知林分的样地数据估计未知林分的森林参数
值。林分级估计在一定程度上消减了位置误差的影
响,估计精度高于基于像素级(Mkel et al.,2004);
但当采用陆地卫星影像进行基于林分级估计时,由
于图像分辨率的限制,林分边界混合像元对估计结
果会产生影响。
图 1 大兴安岭地理位置和林业局分布
Fig. 1 Location of the study area and the distribution of the forestry bureau
基于像素级估测存在明显高值低估和低值高估
的现象,即虽然估测结果平均值接近整体平均值,但
却有更小的方差,这将影响到空间连续分布及制图
精度。Barth 等 (2009)提出了一种限制性插补算
法,即使感兴趣区域估测值具有样地训练数据值相
同的比例,这样避免了区域整体变化向平均值的方
向移动。Magnussen 等(2010)提出了一种模型辅助
方法降低单位水平的外推偏差,将预测值的范围扩
展 到 真 实 值 的 范 围。 Baffetta 等 ( 2012 ) 和
Gilichinsky 等(2012)分别通过模型校正和直方图匹
配方法将 KNN 估测值匹配到实测样地数据值的分
布,成功解决了估测后空间变化范围缩小的问题。
本文以黑龙江省大兴安岭为研究区,结合固定
样地碳储量和 Landsat5 TM 数据,利用 KNN 方法在
像素级水平上对森林地上碳储量开展估算研究,在
采用 Halme 等(2001)的多准则方法进行定位误差
校正的基础上,应用直方图匹配方法对估测结果进
行变动范围调整,并对调整后的数据试图做进一步
校正处理,以其得到更精确的森林碳储量空间分
布图。
1 材料与方法
1. 1 研究区概况
研究区位于黑龙江大兴安岭地区,地理坐标为
50°05—53°33N,121°11—127°01E。大兴安岭地
区疆域广阔,东西长 410 km,南北宽 386 km,行政区
面积 8. 35 万 km2。本地区有西林吉、图强、阿木尔、
塔河、十八站、韩家园、新林、呼中、松岭、加格达奇
10 个林业局(图 1)。境内最高海拔 1 528. 7 m,最
低海拔 180 m,平均海拔 573 m,平均坡度 9. 5°,属于
低山丘陵缓坡地形。本地区属寒温带大陆性季风气
候,全年无霜期 80 ~ 110 天,年平均气温 - 2. 6 ℃,
极端最低气温达到 - 52. 3 ℃。年降水 450 ~ 500
mm,多集中在 4—8 月,占全年的 70%。积雪期达 5
个月,林内雪深达 30 ~ 50 cm,冬季降雪仅占全年降
水量的 10%左右。年蒸发量 900 ~ 1 000 mm,相对
湿度 70% ~ 75%。
84
第 5 期 戚玉娇等: 基于 KNN 方法的大兴安岭地区森林地上碳储量遥感估算
本林区有林地面积约 683 万 hm2,森林覆盖率
78. 2%,主 要 乔 木 树 种 有 兴 安 落 叶 松 ( Larix
gmelinii)、樟子松(Pinus sylvestris var. mongolica)、白
桦(Betula platyphylla)、山杨(Populus davidiana)、蒙
古栎( Quercus mongolica)和黑桦 ( Betula dahurica)
等。主要林分类型有落叶松林、白桦林、针阔混交
林、阔叶混交林和针叶混交林等。
1. 2 样地数据及获取
1. 2. 1 碳储量测定 2011—2013 年在大兴安岭塔
河、新林和松岭地区设置 10 块标准地,共测定了 60
株样木的生物量和含碳量。每块标准地根据每木检
尺结果选择 3 株优势树种,按优势木、中等木、被压
木各选取 2 株样木。样木伐倒后,按着 1 m 区分段
测定树干的鲜质量,将树冠分成 3 层,每层选取 3 ~
5 个标准枝,称其枝、叶鲜质量。每株样木,分别树
干、树枝、树叶和树根取样,在 105 ℃下烘干至恒重,
测定其含水量和干质量。将部分烘干的树干、树枝、
树叶和树根用打磨机磨碎,用 C /N 分析仪测量各样
品的含碳量。
1. 2. 2 样地数据 本研究样地数据来源于 2010 年
大兴安岭森林清查( forest inventory,FI)固定样地数
据,每块样地面积 0. 06 hm2。为了降低潜在的估测
误差,剔除异常标准地(包括采伐、造林地、疏林地
和样地数据异常等),实际用于建立大兴安岭地区
森林地上碳储量模型的标准地共计 985 块。每块样
地调查起源、地理位置 (GPS 坐标)、地形特征 (海
拔、坡度、坡向、坡位等),进行每木检尺,并计算林
分变量,包括林分年龄、树种组成、平均胸径、平均树
高、每公顷株数、每公顷蓄积等。利用东北林区主要
树种相容性立木一元生物量模型(Li et al.,2011)计
算每块样地每株树木的生物量,乘以该树种相应器
官的含碳量得出单木含碳量,样地内单木碳储量相
加得到样地碳储量。本文森林地上碳储量即指除根
以外地上乔木树种的碳储量。
1. 3 遥感数据及信息提取
获取 2010 年 8 月 28 日( 1 幅)、9 月 2 日( 1
幅)、9 月 9 日(1 幅)、9 月 11 日(2 幅)、9 月 13 日
(1 幅)、9 月 18 日(1 幅)、9 月 20 日(3 幅)的大兴
安岭 Landsat5 TM level 1G 遥感影像共 10 幅,空间
分辨率为 30 m。数据来源于中国科学院计算机网
络信息中心国际科学数据镜像网站 ( http:∥www.
gscloud. cn ) 和 美 国 地 质 勘 探 局 网 站 ( http: ∥
earthexplorer. usgs. gov /)。在对影像进行辐射定标
的基础上,采用 ENVI4. 4 的 FLAASH 模块进行大气
校正,并以质量好的图像作为标准,利用同类地物的
灰度均值差进行影像间的辐射归一化,保证了无缝
拼接。最后利用大兴安岭地区矢量分布图裁切遥感
影像,得到研究区范围的遥感影像。
对遥感影像进行非监督分类,分类类别设定为
50 种,最后将类别合并为 2 类: 森林和非森林类。
用实测样地数据进行验证,分类精度达到 98%。将
分类数据作为掩模,用于 KNN 方法估测及制图
分析。
考虑 TM 遥感数据各波段的特点及植物的波谱
反射特征与植物分布密度的关系,对校正的数据进
行缨帽变换、主成分变换、纹理特征变换以及多种植
被指数变换后,筛选出用于与样地坐标重新配准的
4 个因子(见 1. 4 节)。
1. 4 多准则方法重配准样地坐标和遥感影像信息
多准则方法重配准样地坐标和遥感影像是由
Halme 等(2001)提出的,其主要思想是以原始样地
坐标为中心,在其周围 n × n 遥感像素值之中寻找与
样地变量匹配最佳的光谱值。本研究中,x1 ( i),
x2( i),x3( i)和 x4 ( i)分别代表森林地上总(不分类
型)碳储量,阔叶混交林、针叶混交林及针阔混交林
碳储量的自然对数。将所提取的影像因子与森林地
上总碳储量进行 Pearson 相关性分析,选出与其相关
性较好的 4 个变量,即 z1 ( s ( i )),z2 ( s ( i )),
z3( s( i)),z4( s( i)),分别与 x1 ( i),x2 ( i),x3 ( i)和
x4( i)在以样地 i 对应的像素值 s( i)为中心的 7 × 7
窗口内寻找与样地实测值匹配的影像光谱值,如果
各个对应变量之间相关系数的绝对值之和达到最
大,则认为其对应的影像像元为最佳匹配像元。本
研究中选择的 4 个因子 z1 ( s ( i )),z2 ( s ( i )),
z3( s( i)),z4( s( i))分别代表原始波段第 5 波段、缨
帽变换的第 3 变量、纹理分析第 6 波段的平均值以
及归一化植被指数 NDVI。综合 GPS 和影像配准误
差,Halme 等(2001)估算的样地坐标和影像信息匹
配误差在 0 ~ 70 m 之间。计算时,各波段光谱值均
整数化到 0 ~ 255 范围内。
1. 5 森林地上碳储量的 KNN 估测
KNN 是一种典型的非参数方法,基于观测点和
预测点之间的空间相似性关系进行单变量或多变量
预测 ( Franco-Lopez et al.,2001; McRoberts et al.,
2002; Tomppo,1991)。KNN 方法开始被应用于遥
感数据的分类,后来逐渐被应用于遥感数据和样地
数据相结合的森林参数估计,对数据的分布形式没
有要求,有以下公式:
Y^ t =
∑
k
i = 1
d -1t,i Yi
∑
k
i = 1
d -1t,i
。 (1)
94
林 业 科 学 51 卷
式中: Y
^
t 为 t 像元目标点( target plot)估测值; Yi 为 t
像元多维空间一定光谱距离内第 i 个参考( reference
plot)像元值; dt,i 为两点之间光谱距离。参考点的
森林参数和森林类型都是已知的。对于目标点,找
出其光谱空间最邻近的 k 个样地点 1,2… k,其中
dt,1 ≤ dt,2 ≤…≤ dt,k 。由于对象受其近邻的影响
是不同的,一般样本点之间的相似程度越大,它们之
间的光谱距离就越小,反之则光谱距离就越大。
KNN 实质上是一个常用于空间插值的反距离加权
平均法; 当 k = 1 时,KNN 即为最邻近距离法。标准
参考点和目标点之间的光谱距离可以采用多种距离
的度量,最常用的有欧氏距离 ( Euclidean distance)
和马 氏 距 离 ( Mahalanobis )、模 糊 距 离 ( Fuzzy
distance)、光谱角制图( spectral angle mapper)等。
1. 6 直方图匹配
直方图匹配(histogram matching,HM)是指通过
转化函数将一幅图像的直方图变成规定形状的直方
图的方法。本文参考 Gilichinsky 等(2012)方法,即
将 KNN 像元尺度的累积直方图调整到参考数据累
积直方图分布范围。有如下转化函数公式:
b fi = H
-1
fi [HKNN( bKNN)]。 (2)
式中: H fi为森林清查样地地上碳储量; HKNN为
KNN 森林样地地上碳储量的估测值,数据间隔设
置为1 t·hm - 2 ; b kNN和 b fi分别为经过数字间隔设置
后的值。分 3 步完成: 1 ) 计算 H fi和 HKNN累积分
布函数; 2) 根据 H fi和 HKNN累积分布函数计算转
化方程; 3) 根据转化方程,给研究区每个像元重
新分配新值。
1. 7 数据分析
以原始 1 ~ 5 和 7 波段作为自变量进行森林地
上碳储量估测,各波段的反射率值均拉伸至 0 ~ 255
范围内,采用欧式距离和马氏距离度量,近邻 k 值计
算 0 ~ 20 之间,对比选择最优光谱距离以及最佳邻
近 k 值。由于 KNN 方法属于计算密集型方法,数据
量大、计算需要消耗大量时间是实际应用中存在的
主要问题,所以将大兴安岭地区分为北(西林吉、阿
木尔、图强和塔河林业局,共样地 370 块)、南(松岭
和加格达奇林业局,共样地 180 块)、中 (呼中和新
林林业局,共样地 254 块)和东 (十八站和韩家园
林业局,共样地 180 块) 4 个区 (图 1 )分别估算。
并根据实测样地数据将研究区划分为阔叶混交
林、针叶混交林和针阔混交林 3 种林分类型,对样
地坐标和遥感影像信息重配准的前后地上碳储量
估测精度进行评价。最后以原始样地数据直方图
为基础,将 KNN 估测的东、南、北、中 4 个区的空间
分布直方图分别与之匹配,并对直方图匹配前后
的估测精度进行评价,绘制森林地上碳储量空间
分布图。
应用 ERDAS2011 和 ENVI5. 0 进行遥感数据预
处理,ARCGIS9. 3 进行样地对应点信息提取,K-NN
FOREST(Chirici et al.,2012)进行 KNN 地上碳储量
估测,MatlabR2000a 进行直方图匹配,Excel2003 进
行统计分析与制图。
1. 8 估测精度评价方法
KNN 地上碳储量估测采用留一交叉检验方法。
地上碳储量 KNN 估测及校正结果均采用均方根误
差(RMSE)、偏差 ( Bias)及标准差 ( SD) 进行评价。
公式如下:
RMSE = 1
n∑
n
i = 1
( yi - y
^
i)槡
2 ; (3)
Bias = 1
n∑
n
i = 1
yi - y
^( )
i ; (4)
SD = ∑
n
i = 1
( yi - y
^
i)
2
n -槡 1 。 (5)
式中: yi 为实测值; y
^
i 为模型预估值; n 为样本数。
2 结果与分析
2. 1 坐标误差校正
以北、南、中和东 4 个区为例,应用样地坐标
校正前后的数据对估计参数距离的度量标准和最
邻近值 k 的大小进行选择。从图 2 可以看出,东部
地区欧式距离优于马氏距离,中部地区马氏距离
略优于欧式距离,北部地区欧式距离和马氏距离
差别不大,南部地区欧式距离优于马氏距离。经
坐标重配准后,无论是欧式距离还是马氏距离,估
测的 RMSE 都大大降低,说明样地坐标匹配误差
对区域森林地上碳储量的估测影响很大。随着 k
值的增大,RMSE 先快速减小,后逐渐减小,最后趋
于平衡; 当 k 值大于 6 时,RMSE 值降低的幅度很
小。综上所述,本文选择欧式距离和 k 值为 6 的坐
标匹配数据用于研究区不同林分类型森林地上碳
储量估测精度评价。
对研究区森林地上碳储量分不同林分林型进行
统计(表 1)发现,经样地和影像坐标重配准后,各个
林分类型估测的地上碳储量的 Bias 和 RMSE 均减
小。3 种林型平均 RMSE 由 17. 23 降低到 14. 3 t·
hm - 2,阔叶混交林、针阔混交林和针叶混交林估测
的 RMSE 比坐 标校 正 前 分别 降低 了 14. 71%,
19. 04%和 17. 33% (图 2)。
05
第 5 期 戚玉娇等: 基于 KNN 方法的大兴安岭地区森林地上碳储量遥感估算
表 1 不同林分类型坐标误差校正前后 KNN 估测地上碳储量的统计分析
Tab. 1 The pixel-wise assessment of forest above ground carbon storages for the original and the
optimized locations using KNN method in different forest types
林分类型
Forest type
阔叶混交林
Broadleaf mixed forest
针阔混交林
Conifer and hardwood mixed forest
针叶混交林
Conifer mixed forest
样地数 Sample plots 399. 00 226. 00 360. 00
平均值 Mean /( t·hm - 2 ) 29. 95 35. 15 29. 54
原始平均偏差
Bias for the original locations /( t·hm - 2 )
- 1. 18 3. 00 - 0. 82
坐标校正后平均偏差
Bias for the optimized locations /( t·hm - 2 )
- 0. 89 1. 93 - 0. 74
原始均方根误差
RMSE for the original locations /( t·hm - 2 )
16. 92 17. 17 17. 60
坐标校正后均方根误差
RMSE for the optimized locations /( t·hm - 2 )
14. 43 13. 90 14. 57
图 2 大兴安岭不同区域坐标误差校正前后 KNN 森林地上碳储量
(hm - 2 )估测的均方根误差( k = 1,2,3…20)
Fig. 2 RMSE of forest above ground carbon storage ( per hectare) for the original and optimized
locations using KNN method of each region in Daxing’an Mountains ( k = 1,2,3…20)
2. 2 直方图匹配
KNN 估测值虽然总体趋于平均值,但由图 4A
和图 3A 可以看到,存在明显的高值区域低估和低
值区域高估现象。从图 3B 也可以看出,在 FI 实测
地上碳储量和 KNN 估测地上碳储量累积频率分布
图的相交点(累计频率约为 60%,对应地上碳储量
约 38 t·hm - 2)以下,KNN 高估,在相交点以上,KNN
低估。将东、中、北和南 4 个区域 KNN 估测的地上
碳储量累积频率分布图分别以该区域内 FI 实测样
地地上碳储量累积频率分布图为基础进行变换,使
整个研究区域 KNN 估测的地上碳储量累积频率分
布图和 FI 实测地上碳储量的累积频率分布图相近。
提取直方图匹配后的估测值与 FI 实测地上碳储量
及其直方图进行对比分析,可以看到,经直方图匹配
后,样地点高值区域低估和低值区域高估现象均有
很大程度的改善(图 3),而且 FI 实测值和 KNN 估
测值间的相关关系明显增强(图 4B);但是,却产生
了高值区域过高估计现象(图 3 和图 4B)。所以本
15
林 业 科 学 51 卷
文根据 FI 实测地上碳储量和直方图匹配后的值之间
的回归关系,分别对地上碳储量大于 20 t·hm - 2的值
分区域进行直方图匹配之后的再校正处理。南、北、
中、东区域的校正方程分别为: y = 0. 795x + 1. 311 8;
y = 0. 598 4x + 11. 565; y = 0. 552 7x + 9. 152 8; y =
0. 593 8x + 16. 456,式中 x,y 分别表示直方图匹配
和匹配之后再校正的值。最后得到 FI 实测地上碳
储量和 KNN 估测匹配再校正值的相关关系见图
4C。可以看到,通过匹配后再校正处理,FI 实测值
和 KNN 估测值相关关系得到明显改善,而且匹配之
后再校正的直方图和累积频率分布图更接近 FI 实
测值(图 3)。
图 3 样地实测值、KNN 估测值、直方图匹配和匹配校正后的
地上碳储量频率分布(A)及累计频率分布(B)
Fig. 3 Frequency(A) and cumulate frequency histograms(B) of above ground carbon
storages for the evaluation plot data set from the forest inventory data (FI),
KNN estimates,results of histogram matching (HM) and corrected results after histogram matching (HMC)
图 4 KNN 估测值、直方图匹配和匹配校正后地上碳储量与样地实测值的关系
Fig. 4 Relationship between above ground carbon storages of forest inventory data and KNN estimates,
results of histogram matching,corrected results after histogram matching
由表 2 也可以看到,KNN 估测的平均值虽然接
近 FI 实测值,但其变化范围和标准差却很小。经直
方图匹配后,虽然估测的均方根误差降低,但是存在
平均值和标准差高估现象。在直方图匹配的基础
上,对估测值做进一步的校正处理后,虽然最大值没
有达到 FI 实测数据值,但是均值和标准差均接近实
测值,而且均方根误差也明显降低。图 5 为 KNN 估
测值、直方图匹配和匹配后再校正的地上碳储量空
间细节分布图。图 6 为匹配后再校正的森林地上碳
储量空间分布图。
表 2 像元尺度 KNN 估测值、直方图匹配和匹配后再校正的森林地上碳储量统计分析
Tab. 2 The pixel-wise assessment of forest above ground carbon storages of KNN estimates,
histogram matching (HM) and corrected after histogram matching (HMC) t·hm - 2
样地实测 FI KNN 估测 KNN 直方图匹配 HM 匹配后再校正 HMC
最小值 Minimum 0. 09 2. 21 0 0
最大值 Maximum 98. 49 61. 94 97. 00 78
均值 Mean 31. 00 31. 18 36. 75 30
标准差 Standard deviation 18. 13 12. 68 25. 76 18
均方根误差 RMSE 14. 36 10. 67 2
25
第 5 期 戚玉娇等: 基于 KNN 方法的大兴安岭地区森林地上碳储量遥感估算
图 5 KNN 估测值、直方图匹配和匹配校正后的大兴安岭地上碳储量空间细节分布
Fig. 5 The detail spatial distribution of above ground carbon storages for the
evaluation plot data set from the forest inventory data(FI),KNN estimates,results of
histogram matching (HM) and corrected results after histogram matching(HMC) in Daxing’an Mountains
图 6 大兴安岭森林地上碳储量空间分布
Fig. 6 The spatial distribution of forest above ground
carbon storages in Daxing’an Mountains
3 结论与讨论
准确评估森林碳储量的时空变化是区域及全球
碳循环研究的关键。本文应用 KNN 方法对大兴安
岭地区森林地上碳储量的空间分布进行了估测。
KNN 方法用于森林参数估计时能同时估计若干个
森林参数,并能维持参数之间的自然依赖结构,保持
参数之间的一致性(Mkel et al.,2001; 2004)。同
利用光谱值和森林参数建立的回归模型相比,KNN
方法能够更多地考虑到森林参数同光谱值之间的非
线性依赖关系 ( Trotter et al.,1997 )。当利用 KNN
方法进行基于像素级的森林参数估计时,利用 k 个
样地点进行估计能够减少由于图像噪声、森林参数
的林分内变化而引起的随机变化。但是 KNN 方法
属于计算密集型方法,计算需要消耗大量时间是实
际应用中存在的主要问题。本文将研究区分为北、
南、中和东 4 个区域分别估测,大大降低了计算需要
消耗的时间,提高了计算效率。
KNN 估测方法受多种因素的影响,如距离度量
标准、最邻近值 k 的大小以及影像波段的选取等。
有研究表明,在森林相似的条件下,KNN 用于森林
定量 估 测 时,欧 氏距 离和 马氏 距离 相 差 不 大
(McRoberts et al.,2002)。郑刚(2009)将 KNN 方法
用于亚热带地区森林蓄积量的估计和反演,对比了
欧式距离和马氏距离,结果表明马氏距离优于欧式
距离。Nilsson(1997)和 Tokola 等(1996)研究发现,
当 KNN 用于森林蓄积量估计时,k 从 1 到 10 时,蓄
积量估计的 RMSE 快速减少,k 大于 10 后,RMSE 将
轻微下降,不足以影响估计精度,k 等于 10 时,能够
得到足够高的估计精度。本研究区域欧式距离优于
马氏距离。像元尺度 KNN 估测均方根误差随着 k
值的增大降低,当 k > 6 时变化缓慢,并逐渐趋于稳
定。在进行遥感估计和反演时,用经大气校正后的
TM 数据的原始六波段(第六波段除外)来建模,保
持了森林最原始的波段特征信息。由于影响 KNN
进行碳储量估计的最优参数的选择往往随不同地
区、不同数据来源而有所变化,因此最优参数的选择
需要进行具体试验才能获得。
由于 KNN 估测时提取的遥感信息是对照样地
位置进行的,而基于像素级的森林参数的估计对样
地点的位置相当敏感,所以遥感影像的像元坐标和
样地位置匹配精度是成功应用这种方法的一个非常
重要的因素。以往研究较少考虑样地坐标和遥感信
息间的匹配误差的影响。本研究中,采用欧式距离
和马氏距离度量,并用多准则方法进行定位误差校
正,结果表明样地坐标和遥感信息间的匹配误差的
影响远大于距离度量标准对地上碳储量估测的影
响。事实上,卫星像素值可能包含该像素周围样地
的信息,因为一个样地很少能精确地对应卫星影像
的像素值。但是样地信息反映在遥感上的最佳光谱
值可能是在地理位置上最接近样地中心点坐标的,
所以遥感影像的校正坐标和样地位置的精确配准至
关重要。本文多准则方法的应用大大提高了 KNN
35
林 业 科 学 51 卷
森林地上碳储量的估测精度。然而所使用的影像的
获取与样地数据的采集时间要尽量同步,期间如果
在样地所在林地实施森林间伐、造林等经营措施也
会造成样地数据与遥感信息不匹配,这将很难用多
准则方法进行重匹配。
高值低估和低值高估现象是 KNN 基于像素级
估测普遍存在的问题。最邻近值 k 对这一现象的的
影响是: 当 k 取较小值时,估测误差较大,随着 k 值
的增大,虽然估测的 RMSE 会越来越小,森林参数估
计的平均值逐渐趋于真实值,但是其估测的标准差
会逐渐减小,估计值的分布区间会不断缩小,这样会
造成估计的变量呈集中分布趋势。有研究采用两步
k 值方法进行森林变量估测,k 取较大值时用于森林
变量估测,k 值取较小值时用于森林变量绘图,以保
持森林变量原有的变化程度(郑刚,2009)。直方图
匹配是对数值分布区间进行拉伸的有效方法之一
(Baffetta et al.,2012)。Gilichinsky 等(2012)研究表
明,经直方图校正后 KNN 的估测效果更好。本文以
原始样地数据直方图为基础,采用直方图匹配方法
对 KNN 估测的结果进行直方图匹配,结果表明估测
结果和实测值的相关关系增大,RMSE 减小。虽然
直方图匹配后存在平均值和标准差高估现象,但这
可能是因为本研究中取样数据不能完全代表整个研
究区域的频率直方图。所以根据直方图匹配后估测
结果和实测值之间的回归关系,对估测值做进一步
的校正处理后,样地数据频率分布和累计频率分布
更接近实测值,均值和标准差均接近实测值,估测精
度得到大大提高。建议以后的相关研究可以根据已
有的研究结果做适当的后处理,以满足估测精度的
需要。当然,低值区域被高估、高值区域被低估现象
不是 KNN 估测特有的现象,本研究所用的方法也可
为通过其他手段估算森林参数提供借鉴和参考。
在森林参数的 KNN 估计过程中,若在对原始图
像进行细分类或结合一些辅助资料的基础上进一步
对遥感影像进行分层处理,可以得到不同林分类型甚
至不同树种碳储量的空间分布图。Wilson 等(2012)
结合 MODIS 数据及植被的气象特征,用 KNN 方法绘
制了树种的大尺度空间分布图; Packalén 等(2007)
应用高分辨率的航片或快鸟影像获得了更精细分辨
率的森林变量及树种的空间分布特征。由于其他辅
助资料不足,本文只将研究区分为植被区和非植被区
2 类,以后可做进一步的补充分析。
随着遥感技术的发展和森林生物量和碳储量研
究的深入开展,各种技术手段应运而生,各种问题逐
步得到解决,KNN 逐渐成为预测以及模式识别的重
要方法。本文用 KNN 方法进行碳储量估测,并对估
测后的数据进行各种校正处理,绘制森林地上碳储
量的空间分布图,可为我国森林碳储量和固碳潜力
的研究提供基础数据和科学依据。
参 考 文 献
曹庆先,徐大平,鞠洪波 . 2011. 基于 TM 影像纹理与光谱特征和
KNN 方法估算 5 种红树林群落生物量 . 林业科学研究,24(2) :
144 - 150.
(Cao Q X,Xu D P,Ju H B. 2011. Biomass estimation of five kinds of
mangrove community with the KNN method based on the spectral
information and textural features of TM images. Forest Research,24
(2) : 144 - 150. [in Chinese])
陈尔学,李增元,武红敢,等 . 2008. 基于 k-NN 和 Landsat 数据的小
面积统计单元森林蓄积估测方法 . 林业科学研究,21 ( 6 ) :
745 - 750.
(Chen E X,Li Z Y,Wu H G,et al. 2008. Forest volume estimation
method for small areas based on k-NN and landsat data. Forest
Research,21(6) : 745 - 750. [in Chinese])
王效科,冯宗炜 . 1996. 森林生态系统生物量和碳储存量的研究历
史 . 北京: 中国科学技术出版社 .
(Wang X K,Feng Z W. 1996. The history of research on blomass and
carbon storage of forest ecosystems. Beijing: China Science and
Techndogy Press. [in Chinese])
郑 刚 . 2009. 基于 KNN 法的森林蓄积量的遥感估计和反演———以
广东省翁源县为例 .南京: 南京林业大学硕士学位论文 .
(Zheng G. 2009. Estimation and retrieval of forest volume by remote
sensing based on KNN—a case study in Wengyuan County of
Guangdong province. Nanjing: MS thesis of Nanjing Forestry
University. [in Chinese])
郑 刚,彭世揆,戎 慧,等 . 2010. 基于 KNN 方法的森林蓄积量
遥感估计和反演概述 . 遥感技术与应用,25(3) : 430 - 437.
(Zheng G,Peng S K,Rong H,et al. 2010. A general introduction to
estimation and retrieval of forest volume with remote sensing based
on KNN. Remote Sensing Technology and Application,25 ( 3 ) :
430 - 437. [in Chinese])
Baffetta F,Corona P, Fattorini L. 2012. A matching procedure to
improve k-NN estimation of forest attribute maps. Forest Ecology and
Management,272: 35 - 50.
Barth A,Wallerman J, Sthl G. 2009. Spatially consistent nearest
neighbor imputation of forest stand data. Remote Sensing of
Environment,113(3) : 546 - 553.
Chirici G,Corona P,Marchetti M,et al. 2012. K-NN forest: a software
for the non-parametric prediction and mapping of environmental
variables by the k-nearest neighbors algorithm. European Journal of
Remote Sensing,45(3) : 433 - 442.
Franco-Lopez H,Ek A R,Bauer M E. 2001. Estimation and mapping of
forest stand density,volume,and cover type using the k-nearest
neighbors method. Remote Sensing of Environment,77(3) : 251 -
274.
Gjertsen A K. 2007. Accuracy of forest mapping based on Landsat TM
data and a kNN based method. Remote Sensing of Environment,
110(4) : 420 - 430.
Gilichinsky M,Heiskanen J,Barth A,et al. 2012. Histogram matching
45
第 5 期 戚玉娇等: 基于 KNN 方法的大兴安岭地区森林地上碳储量遥感估算
for the calibration of kNN stem volume estimates. International
Journal of Remote Sensing,33(22) : 7117 - 7131.
Halme M,Tomppo E. 2001. Improving the accuracy of multisource forest
inventory estimates to reducing plot location error—a multicriteria
approach. Remote Sensing of Environment,78(3) : 321 - 327.
Li F R,Liu F X,Jia W W. 2011. The development of compatible tree
biomass models for main species in north-eastern China. Advanced
Materials Research,183 - 185: 250 - 254.
Mkel H,Pekkarinen A. 2001. Estimation of timber volume at the
sample plot level by means of image segmentation and Landsat TM
imagery. Remote Sensing of Environment,77(1) : 66 - 75.
Mkel H,Pekkarinen A. 2004. Estimation of forest stand volumes by
Landsat TM imagery and stand-level field-inventory data. Forest
Ecology and Management,196(2) : 245 - 255.
Magnussen S,Tomppo E,McRoberts R E. 2010. A model-assisted k-
nearest neighbour approach to remove extrapolation bias.
Scandinavian Journal of Forest Research,25(2) : 174 - 184.
Mclnerney D O,Nieuwenhuis M. 2009. A comparative analysis of kNN
and decision tree methods for the Irish national forest inventory.
International Journal of Remote Sensing,30(19) : 4937 - 4955.
McRoberts R E,Tomppo E O,Finley A O,et al. 2007. Estimating areal
means and variances of forest attributes using the k-nearest
neighbours technique and satellite imagery. Remote Sensing of
Environment,111(4) : 466 - 480.
McRoberts R E,Nelson M D,Wendt D G. 2002. Stratified estimation of
forest area using satellite imagery,inventory data,and the k-nearest
neighbors technique. Remote Sensing of Environment,82 ( 2 ) :
457 - 468.
Nilsson M. 1997. Estimation of forest variables using satellite image data
and airhorne lidar. Doctoral Thesis,Department of Forest Resource
Management and Geomaties,Swedish University of Agrieult Ural
Seiences,Ume.
Packalén P,Maltamo M. 2007. The k-MSN method for the prediction of
species-specific stand attributes using airborne laser scanning and
aerial photographs. Remote Sensing of Environment,109 ( 3 ) :
328 - 341.
Poso S,Wang G,Tuominen S. 1999. Weighting altenative estimates
when using multi-source auxiliary data for forest inventory. Silva
Fennica,33: 41 - 50.
Reese H,Nilsson M,Pahlén T G,et al. 2003. Countrywide estimates of
forest variables using satellite data and field data from the national
forest inventory. AMBIO: A Journal of the Human Environment,32
(8) : 542 - 548.
Tian X,Su Z,Chen E,et al. 2012. Estimation of forest above-ground
biomass using multi-parameter remote sensing data over a cold and
arid area. International Journal of Applied Earth Observation and
Geoinformation,14(1) : 160 - 168.
Tokola T,Pitknen J,Partinen S,et al. 1996. Point accuracy of a non-
parametric method in estimation of forest characteristics with different
satellite materials. International Journal of Remote Sensing,17
(12) : 2333 - 2351.
Tomppo E. 1991. Satellite image-based national forest inventory of
Finland. International Archives of Photogrammetry and Remote
Sensing,28: 419 - 424.
Tomppo E. 1993. Multi-source national forest inventory of Finland.
International Archives of Photogrammetry and Remote Sensing,29:
671 - 671.
Tomppo E,Halme M. 2004. Using coarse scale forest variables as
ancillary information and weighting of variables in k-NN estimation:
a genetic algorithm approach. Remote Sensing of Environment,92
(1) : 1 - 20.
Tomppo E,Olsson H,Sthl G,et al. 2008. Combining national forest
inventory field plots and remote sensing data for forest databases.
Remote Sensing of Environment,112(6) : 1982 - 1999.
Trotter C,Dymond J,Goulding C. 1997. Estimation of timber volume in
a coniferous plantation forest using Landsat TM. International
Journal of Remote Sensing,18(10) : 2209 - 2223.
Wilson B T, Lister A J,Riemann R I. 2012. A nearest-neighbor
imputation approach to mapping tree species over large areas using
forest inventory plots and moderate resolution raster data. Forest
Ecology and Management,271: 182 - 198.
Xu Q,Hou Z,Tokola T. 2012. Relative radiometric correction of multi-
temporal ALOS AVNIR-2 data for the estimation of forest attributes.
Isprs Journal of Photogrammetry and Remote Sensing,68: 69 - 78.
(责任编辑 石红青)
55