免费文献传递   相关文献

Estimation of Provincial Spatial Distribution Information of Forest Tree Species (Group) Composition Using Multi-Sources Data

基于多源数据的省级树种(组)成数空间分布信息估测方法



全 文 :第 52 卷 第 1 期
2 0 1 6 年 1 月
林 业 科 学
SCIENTIA SILVAE SINICAE
Vol. 52,No. 1
Jan.,2 0 1 6
doi:10.11707 / j.1001-7488.20160103
收稿日期: 2015 - 03 - 04; 修回日期: 2015 - 05 - 25。
基金项目: 高分辨率对地观测系统重大专项(民用部分)“高分林业遥感应用示范系统”(21 - Y30B05 - 9001 - 13 /15 - 1)。
* 陈尔学为通讯作者。
基于多源数据的省级树种(组)成数空间
分布信息估测方法*
曹宇佳 陈尔学 李世明
(中国林业科学研究院资源信息研究所 北京 100091)
摘 要: 【目的】利用能够反映植被季相变化和物候差异的中空间分辨率高重访周期遥感数据以及其他多
源数据,提取区域树种 (组 )成数空间分布信息,间接表达主要树种 (组 )的空间分布,为大区域树种 (组 )空间
分布制图提供新的方法和思路。【方法】以吉林省为试验区,以 250 m 空间分辨率的 MODIS NDVI 8 天合成
时间序列数据和国家森林资源连续清查固定样地数据为主要数据源,综合利用气象观测数据和地形数据,基
于梯度最近邻 ( GNN)方法对省级树种 (组 )成数进行估测。首先利用典型对应分析 ( CCA)对特征变量进行
特征变换 ;然后采用 k-NN 方法对树种 (组 )成数进行分层估测,并对 k-NN 方法中的 k 值进行优选,分析 k-NN
估测精度随 k 值的变化规律 ;最后基于 9 个县的森林资源二类调查样地和省级一类清查固定样地数据,对树
种 (组 )成数分布图进行精度检验。【结果】对在吉林省分布较广的蒙古栎、白桦、紫椴、春榆、杨树、胡桃楸
和长白落叶松 7 个树种 (组 )成数进行估测,并制作相应的树种 (组 )成数空间分布图。估测结果表明,树种
成数分布与固定样地成数分布呈现出一致的空间分布特征。其中,县级尺度下的 k-NN 预测精度检验结果
为:R2 为 0. 83,RMSE 为 0. 35; 在 20 km × 20 km,30 km × 30 km,40 km × 40 km 和 50 km × 50 km 4 个尺度下
的 k-NN 估测结果显示,各类树种 (组 )在 40 km × 40 km 和 50 km × 50 km 尺度下的估测结果较优,春榆在各
个尺度下的估测精度均较高,其平均 RMSE 为 0. 35,蒙古栎的估测精度相对较低,其平均 RMSE 为 0. 65。在
不同尺度下的估测结果表明,随着 k 值的增加,RMSE 均呈现先快速减小、后趋于相对平衡的趋势,根据该规
律可确定最佳 k 值。另外,k-NN 分层估测的估测精度高于 k-NN 直接估测的估测精度,其在不同尺度下的
RMSE 相对直接估测的结果均低 0. 1 左右。【结论】本文提出的基于多源数据的森林树种 (组 )成数空间分
布估测方法是一种有效的森林参数估测方法,基于该方法能够获取较高精度的树种 (组 )成数空间分布图。
为了得到最佳的估测效果,需要对 k-NN 方法中的 k 值进行优选,该值将随试验区和数据有所不同。另外,采
用分层估测的策略可以有效提高最终估测精度。
关键词: 多源数据; GNN; CCA; k-NN; MODIS NDVI; 树种成数; 制图
中图分类号:S757 文献标识码:A 文章编号:1001 - 7488(2016)01 - 0018 - 12
Estimation of Provincial Spatial Distribution Information of Forest
Tree Species (Group) Composition Using Multi-Sources Data
Cao Yujia Chen Erxue Li Shiming
(Research Institute of Forest Resources Information Techniques,CAF Beijing 100091)
Abstract: 【Objective】Remote sensing technique provides a highly effective means for extracting tree species ( group)
spatial distribution information. The objective of this paper is to develop a method for estimating the provincial spatial
distribution information of forest tree species ( group) composition using multi-sources data. Thus it could indicate the
spatial distribution information of the main tree species ( group) and provide a new method for extracting vegetation
information in large area. 【Method】The experiments were carried out over the test site of the whole Jilin Province. The
time series MODIS NDVI product of 250 m pixel size and 8 days cloudy free composite and the permanent forest plot data
collected by the national forest inventory (NFI) were used as the key data sources. The weather observation data and
topography data were also integrated into the data sources. We developed a gradient nearest neighbor ( GNN) based
第 1 期 曹宇佳等: 基于多源数据的省级树种(组)成数空间分布信息估测方法
approach for estimating provincial forest tree species ( group) composition distribution information. Firstly,the method of
canonical correspondence analysis ( CCA ) was implemented to extract effective composited features from the original
dataset. Secondly,the k-nearest neighbors (k-NN) method was applied on the extracted feature space to estimate forest
tree species ( group ) composition number using one two-layer stratification scheme. As the value of k needs to be
determined,the changing trend of k-NN estimation accuracy with the k values was analyzed. Finally,the estimation
accuracy for each tree species ( group) of the developed method was validated using the forest plot data of 9 counties
collected by the forest resources inventory in second level and the forest plot data collected by the NFI as reference.
【Result】7 tree species ( group) composition numbers including Quercus mongolica,Betula platyphylla,Tilia amurensis,
Ulmus davidiana,Populus,Juglans mandshurica and Larix olgensis were extracted and the corresponding distribution maps
were produced. The results showed a good consistency with the fixed plots in field. Taking county as statistic unit,the
following quantitative technical targets have been achieved: the coefficient of determination ( R2 ) was 0. 83,and the
RMSE was 0. 34. Specifically,the accuracy has been further validated by dividing the whole coverage of Jilin Province
into grids of 20 km × 20 km,30 km × 30 km,40 km × 40 km and 50 km × 50 km,taking the forest plot data collected by
the NFI as reference and the grid as statistic unit. Better results could be achieved at the scale of 40 km × 40 km and
50 km × 50 km. The RMSE of Ulmus davidiana composition number was 0. 35 and the RMSE of Quercus mongolica
composition number was 0. 65. The optimal k-value could be determined for the phenomenon that the RMSE firstly reduced
and then tended steady with the rising k-value. In addition,the estimation accuracy of the two-layer stratification estimation
method was higher than that of the direct estimation method. The results showed that: the average RMSE of estimating tree
species (group) composition using two-layer stratification estimation method was 0. 1 less than that using direct estimation
method.【Conclusion】The proposed method for estimating the provincial spatial distribution information of forest tree species
(group) composition using multi-sources data has proved to be an effective method to estimate forest parameters. Based on
this method,the distribution map of forest tree species ( group) composition numbers was successfully produced with high
accuracy. The results indicated that the value of k needs to be optimized in order to obtain a better result,which varies
depending on the experimental area and the selected data. In addition,the estimation accuracy could be improved effectively
using two-layer stratification estimation method.
Key words: multi-data sources; GNN; CCA; k-NN; MODIS NDVI; tree species composition; mapping
森林作为陆地生态系统的主体,在维持生态过
程和生态平衡中发挥着重要作用 (张煜星等,
2007)。森林资源调查可为森林资源的科学管理、
森林生态过程和机制的研究等提供重要的数据支
撑。森林树种或树种组[下文用“树种(组)”表示]
信息是我国森林资源样地调查的重要因子之一,主
要包括树种(组)的类型、成数及其空间分布。树种
(组)成数是某树种的蓄积量占林分总蓄积的比重,
在森林资源调查中普遍采用十分法表示,比如,在所
调查样地内某个树种的成数为 6,表示该树种蓄积
约占样地总蓄积的 60% (55. 00% ~ 64. 99% ); 一
个调查样地内通常会出现多个树种(组),所有树种
(组)出现的成数之和等于 10。在混交林中,树种组
成系数最大(即蓄积量比重最大)为优势树种。由 1
个树种组成,或混有其他树种但材积都分别占不到
10%的林分为纯林; 而由 2 个或者更多个树种组
成,每种树木在林分内所占成数均少于 10%的林分
为混交林,其中针叶树种组成大于 6 成的林分为针
叶混交林,阔叶树种组成 6 成以上的林分为阔叶混
交林,而针叶或者阔叶组成占 4 ~ 6 成的林分为针阔
混交林。目前,获取森林树种(组)信息主要采用地
面样地调查的方法,不仅工效低、时效性差,而且很
难制作出空间连续的树种(组)分布图。近年来,遥
感以其宏观性、现势性、周期性强等优势,为森林树
种(组)空间分布信息的提取提供了新的技术手段
(曾庆伟,2010)。然而,当前利用遥感手段获取森
林树种(组)空间分布信息的方法,依靠的主要是高
空间分辨率或高光谱分辨率的遥感影像 (曾庆伟
等,2009; 陈尔学等,2007),该类方法虽然可以较
为精准地获取森林的树种(组)信息,但相关遥感数
据的获取较为困难,且成本较高,仅能在小区域内应
用,无法满足林业大区域范围的应用需求。
在大区域森林资源遥感调查应用研究上,国内
外对土地覆盖 /利用类型(包括对林地类型的细分)
的遥感分类方法研究较多,但对森林树种(组)信息
提取方法的研究相对较少。近些年来,国外已经有
学者利用决策树、插值、梯度最邻近等方法开展了树
种(组)分类和信息提取研究,并取得了一定进展
91
林 业 科 学 52 卷
(Zhu et al.,1994; Xian et al.,2002; Ruefenacht et
al.,2008)。其中,决策树分类方法对样本依赖性较
大,当样本不足时分类精度较差(刘勇洪等,2005,
Brus et al.,2012); 插值方法则具有空间局限性,达
不到在宏观尺度上反映森林树种(组)空间分布的
目的; 梯度最近邻( gradient nearest neighbor,GNN)
算法通过估测不同树种 (组) 的森林参数信息,可
间接得到不同树种 (组) 的空间分布信息,与决策
树方法相比,对训练样本的依赖性较小,且不存在
插值方法空间局限性的缺陷,已成功应用于森林
树种(组)空间分布信息估测研究中(Wilson et al.,
2012)。
图 1 研究区(吉林省)地理位置(左图)及所采用的一类清查样地空间分布(右上)和 DEM(右下)
Fig. 1 Location of the test site ( Jilin Province) ( left) and the spatial distribution map of
NFI permanent forest plots ( right up) and the DEM ( right down)
GNN 树种(组)空间分布信息估测是近几年出
现的最新方法,该方法综合采用了典范对应分析
( canonical correspondence analysis,CCA ) 和 k-NN
(k-nearest neighbors)2 种非线性统计分析方法; 所
采用数据综合利用了粗空间 -高时间分辨率遥感信
息(标准化植被指数,NDVI)、国家森林资源连续清
查固定样地调查数据、气象台站观测数据和地形数
据(由数字高程模型 DEM 提取); 其最终估测结果
是每个树种(组)森林参数信息相对值的空间分布
图。然而到目前为止,国内尚未见综合利用多源数
据估测较大区域(如一个省全覆盖、全国覆盖等)森
林树种(组)空间分布的研究报道。
以吉林省为试验区开展的以 GNN 为基本估测
方法的多源数据省级树种(组)成数空间分布估测
方法研究有以下几个特点:1) 国外学者采用 GNN
方法分树种(组)估测相对胸高断面积的空间分布,
而本文直接估测树种(组)成数的空间分布,有利于
了解 GNN 方法对不同目标参数估测的适用性; 2)
在对时间序列估测特征的降维处理上,国外学者采
用基于傅里叶变换的方法,本文则采用经典的主成
分变换方法,旨在寻求更简单、更容易理解和应用的
方法; 3) 在对估测结果的验证上,本文不仅采用国
外学者基于不同尺度网格的验证方法,而且采用更
加客观的独立样本检验方法,即基于二类调查样地
数据的精度检验方法。
1 研究区概况与数据来源
1. 1 研究区概况
吉林省(121°38—131°19E,40°52—46°18N)
位于我国东北地区中部 (图 1 ),面积为 18. 74
万 km2,占全国总面积的 2%。地势东南高、西北
低,地形复杂,以中部大黑山为界,可分为东部山地
和中西部平原两大地貌区。所处地理位置、地形条
件和大气环流决定吉林省属于 2 种气候带:温带季
风气候和温带大陆性气候,夏季高温多雨,冬季寒冷
干燥。吉林省是我国的重要林业基地,森林主要分
布在东部地区,占林地面积的 94%。该省主要树种
有长白落叶松 ( Larix olgensis )、蒙古栎 ( Quercus
mongolica)、白桦(Betula platyphylla)、杨(Populus)、
紫 椴 ( Tilia amurensis )、 胡 桃 楸 ( Juglans
02
第 1 期 曹宇佳等: 基于多源数据的省级树种(组)成数空间分布信息估测方法
mandshurica)等,主要森林类型为阔叶混交林、针阔
混交林和栎类林(王新闯等,2011)。
1. 2 数据来源
1. 2. 1 样地数据 1) 国家森林资源连续清查固定
样地数据 吉林省第 7 次森林资源连续清查(简称
一类清查)固定样地数据,调查时间为 2005 年。样
地为方形,大小为 0. 06 hm2。本研究使用了每个样
地的地理坐标、优势树种和各树种成数组成。样地
的树种组成采用 10 成法表示,如样地内 70% 为红
松 ( Pinus koraiensis )、20% 为白桦、10% 为春榆
(Ulmus davidiana),则该样地的树种成数组成为“7
红松 2 白桦 1 春榆”;由于红松成数占优势,所以该
林分的优势树种为“红松”。
由样地数据统计发现,全省共有 18 个树种
(组),包括紫椴、蒙古栎、白桦、春榆、杨树、色木槭
( Acer mono )、胡 桃 楸、黄 菠 萝 ( Phellodendron
amurense)、枫桦(Betula costata)、长白落叶松、红松、
樟子松( Pinus sylvestris var. mongolica)、黑松(Pinus
thunbergii)、云杉(Picea asperata)、柳(Salix)、水曲柳
(Fraxinus mandshurica)和臭松 ( Abies nephrolepis)。
某树种在某样地中成数不为 0 的样地称为此树种的
有效样地,本研究仅对在试验区分布较广的主要树
种(组)进行树种成数估测,选择有效样地占样地总
数(N = 3 594) 20% 以上的树种,共有 7 个,分别是
蒙古栎、白桦、紫椴、春榆、杨树、胡桃楸和长白落叶
松,筛选后样地总数为 2 964。
2) 森林资源规划设计调查固定样地数据 森
林资源规划设计调查(简称二类调查)主要采用小
班调查和固定样地相结合的方法,县(市)、局级二
类调查固定样地在省级固定样地基础上加密布设得
到。本研究采用吉林省 9 个林业局(图 2)共8 393
个森林资源二类调查固定样地数据作为验证数据,
实际用到的样地信息包括样地点地理坐标、样地的
优势树种类型和各树种成数组成,树种成数组成的
调查精度达到了 90%以上。
1. 2. 2 时间序列 NDVI 数据 本研究采用美国
NASA EOS 数据中心提供的 MODIS 陆地产品:空间
分辨率为 250 m 的 8 天合成表面反射率数据
(MOD09Q1)。
利用 MRT 投影转换工具,将吉林省的数据进行
拼接、裁剪、转投影和格式转换,形成 8 天合成数据
集,再 将 生 成 的 数 据 进 行 标 准 化 植 被 指 数
(normalized difference vegetation index,NDVI)反演,
并叠加生成 8 天合成周期的 MODIS NDVI 时间序列
数据。全年共 46 个时相,分辨率为 250 m。
图 2 吉林省森林资源二类调查样地点空间分布
Fig. 2 The spatial distribution map of forest management
inventory plots in Jilin Province
所使用的 MODIS 产品数据为 2005 年全年数据
集。在 MODIS 表面反射率产品波段中,波段 1
(620 ~ 670 nm)是红光 ( red)波段,波段 2 (841 ~
876 nm)、波段 5 ( 1 230 ~ 1 250 nm)属于近红外
(nir)波段。波段 2 是计算 NDVI 的常规波段范围,
本研究选择波段 1 和 2 的反射率 ( ρ) 生成 NDVI
数据:
NDVI =
ρnir - ρ red
ρnir + ρ red
。 (1)
1. 2. 3 时间序列气象数据 为更加准确地估测树
种成数,引入时间序列气象数据。本研究选用中国
气象科学数据共享服务站提供的 2005 年吉林省 24
个气象站点的每月平均气温数据 (℃ )和每月总降
水数据(mm)。每类数据全年年均有 12 个时相。
1. 2. 4 地形及地理位置数据 本研究采用空间分
辨率为 90 m 的 SRTM DEM 数据产品提取吉林省的
高程 ( H )、复合地形指数 ( compound topographic
index,CTI )、坡度坡向指数 ( slope aspect index,
SAI)、地理坐标(φ,)。
CTI 是表征特定景观中水分和沉积物运移的综
合地形变量,其计算公式(McKenzie et al.,1999)为:
CTI = ln AC
tan( )β 。 (2)
式中:AC为垂直于水流方向的特定汇流面积,可通
过 ArcGIS 水文分析模型计算; β 为坡度。
SAI 计算公式(Nielsen et al.,1998)为:
SAI = sin( )aspect + 225 × slope( )45 。 (3)
式中:aspect 为坡向 ( °); slope 为坡度 ( °); SAI 的
取值范围为( - 1,1)。
另外,本文还选用了研究区每一个像元的地理
12
林 业 科 学 52 卷
坐标(φ,) 作为自变量。采用地理位置作为自变
量,主要是为了控制 k-NN 估测算法优先选择哪些
与待估测像元在地理空间上距离最近的训练样地,
避免出现所选择的近邻与待估测像元处于差别很大
的生态区。
提取得到 90 m 的 H,CTI,SAI,φ, 栅格数据
后,再采用三次卷积法将其重采样为 250 m 像元
大小。
2 树种(组)成数估测方法
2. 1 时间序列特征变量处理
2. 1. 1 MODIS NDVI 时间序列数据滤波处理 由
于 MODIS 合成数据采集过程中会受到太阳高度角、
观测角度以及云、水汽和气溶胶等因素的影响,使得
时间序列数据出现异常值或者缺失数据 (穆少杰
等,2012),因此,为了使 NDVI 时间序列数据能正
确反映植被真实的季节性变化规律,需要对数据进
行滤波处理。本研究采用 Savtzky-Golay( S-G)滤波
法对 NDVI 时间数据进行平滑滤波处理。
2. 1. 2 MODIS NDVI 时间序列数据降维处理
MODIS NDVI 时间序列数据全年 46 个时相波段之
间存在高相关性和高冗余度,因此本研究通过主成
分分析(principal component analysis,PCA)技术对滤
波后的 MODIS NDVI 时间序列影像进行降维处理。
PCA 可以将一组彼此相关的变量变换为一组新的
相互独立且相互正交的变量,有效降低高维度数据
的冗余信息,减少后续分析的计算量和复杂度,同时
又尽可能地避免信息的丢失。本研究选用 PCA 降
维处理后的前 5 个主成分分量作为自变量用于树种
(组)成数的估计。
2. 1. 3 月平均气温和月总降水量数据的插值与降
维处理 吉林省气象样地点随机分布,且气象值呈
正态分布,符合克里金插值要求,因此,本研究采用
克里金插值法将气象样点数据插值成空间分辨率为
250 m 的栅格数据。最终分别得到全年 12 个月的
月平均气温和月总降水栅格数据。
为去除气温与降水时间序列数据中的冗余信
息,运用 PCA 方法对全年月平均气温和月总降水量
数据进行降维处理。最终选用气温和降水的前 3 个
主成分分量作为自变量用于树种(组)成数的估计。
2. 1. 4 树种(组)成数估测因变量和自变量 将所
有自变量数据重投影为 Albers Conical Equal Area,
WGS84,空间分辨率重采样为 250 m。
设响应变量( Y)为样地或一个 250 m × 250 m
像元内优势树种(组)的成数。在估测模型建立阶
段,Y 就是一类清查样地 7 个树种的成数。由于是
分别对树种(组)建立估测模型,因此每个样地的响
应变量就是该样地某树种的成数(若该树种未在该
样地中出现,Y 就设为 0),是一个一维变量。
自变量 ( X)由 PCA 变换的 NDVI 时间序列数
据、PCA 变换的月平均气温数据和月累计降水数
据、地形数据(包括 DEM、CTI 和 SAI 和森林植被的
空间位置)组成。
2. 2 GNN 估测方法
GNN 方法是将直接梯度排序分析(如 CCA)与
最邻近算法( k-NN)相结合的一种算法 (Ohmann et
al.,2002),主要分为 4 个步骤:1) 通过 CCA 分析样
地 Y 变量与 X 变量之间的定量关系,得到新的特征
变量组; 2) 根据每个像元中特征变量组的特征值,
选择最佳特征变量组合; 3) 根据最邻近算法原理
确定待测像元周围的 k 个邻近样地点; 4) 以 k 个邻
近样地点的 Y 值估算待测像元的 Y 值,样地与待测
像元之间的权重采用欧氏距离计算得到。
2. 2. 1 CCA CCA 是基于对应分析发展而来的一
种排序方法,将对应分析与多元回归分析相结合,每
步计算均与自变量进行回归,又称多元直接梯度分
析(张元明等,2004)。其基本思路是,在对应分析
的迭代过程中,每次得到的 Y 变量均与自变量进行
多元线性回归,即:
Yj = b0 +∑
q
k = 1
bkUkj。 (4)
式中:Yj为第 j 个样点的值; b0为截距 (常数); bk
( k = 1,2,…,q,q 为自变量个数)为样点与第 k 个自
变量之间的回归系数:Ukj为第 k 个自变量在第 j 个
样点中的测量值。
2. 2. 2 k-NN k-NN 是一种典型的非参数方法,基
于观测点和预测点之间的空间相似性关系进行单变
量 或 多 变 量 预 测 ( Franco-Lopez et al., 2001;
McRoberts et al.,2002; Tomppo,1991)。利用 k-NN
算法进行参数估计的基本原理为:记 p 为待测点,pi
为邻近参考点,Dpi,p为两点之间的光谱距离,其中,
参考点 pi的树种成数是已知的。Dpi,p用于衡量样本
之间的相似度,其距离值越小,表明相似度越大,反
之则表明相似度越小。对于待测点 p,找出其光谱
空间最近邻的 k 个样地点 p1,p2,…,pk,其中,Dp1,p≤
Dp2,p≤…≤Dpk,p。待测像元 p 的树种成数(Wp)通过
k 个参考点相应的树种成数加权平均获得,如式
(5):
Wp = ∑
k
i = 1
ω p i,p × Wpi。 (5)
22
第 1 期 曹宇佳等: 基于多源数据的省级树种(组)成数空间分布信息估测方法
其中,权重值通过计算距离的倒数获得,如式(6):
ω p i,p =
1
Dpi
/∑
k
j = 1
1
D tp j,p
。 (6)
k-NN 实质上是一个常用于空间插值的反距离
加权平均法,当 k = 1 时,k-NN 即为最邻近距离法。
为保证 k-NN 算法估测树种成数的总体精度,需要
对 k 值进行优选。 k 为距离分解因子 ( distance
decomposition factor),k 越大,估计结果越容易受光
谱距离近的值影响,k 一般取 0,1,2。参考点和目标
点之间的光谱距离可以采用多种距离来度量,最常
用的为欧氏距离 ( Euclidean distance)和马氏距离
(Mahalanobis distance)。研究表明,在森林相似的
条件下,k-NN 用于森林定量估测时,欧氏距离和马
氏距离相差不大(McRoberts et al.,2002)。本研究
选用欧氏距离,如式(7):
Dpi,p = ∑
n
i = 1
(Xpi - Xp槡 )。 (7)
式中:xp 表示待测像元 p 的光谱向量;xpi表示 pi所在
像元的光谱向量。
2. 3 分层估测树种成数
2. 3. 1 样地树种成数与自变量的定量关系分析
基于 R 语言的 Vegan 程序包,利用 CCA 模型分析树
种成数(Y)与自变量 X 之间的定量关系。首先,运
用蒙特卡罗置换检验环境变量与树种成数分布相关
的显著性,结果为 0. 001,说明排序结果可以接受环
境因子对树种分布的解释量;然后,在 CCA 模型中
将 X 变量与 Y 变量进行回归分析。最终得到 7 组 X
变量的线性组合表示与 Y 变量的回归关系,其中,
前 4 组特征变量特征值的总和占总特征变量特征值
的 93. 2%,因此本研究选用前 4 组 X 变量的线性组
合作为新的特征变量。
2. 3. 2 k-NN 分层估测树种成数 MODIS 影像的
像元大小为 6. 25 hm2,森林资源一类清查样地大小
为 0. 06 hm2,二者相差很大; 且 MODIS 像元多为混
合像元,样地只能表示混合像元中的某一类地物。
因此需要将一类清查样地进行分类,如分为高植被
覆盖度样地和低植被覆盖度样地,分层估测以减小
混合像元对估测精度的影响。
相比 250 m 分辨率的 MODIS 数据,一类清查样
地数据可以代表一个 TM 像元的真实情况。将 TM
影像重采样为 250 m,一个 MODIS 影像的像元相当
于 TM 影像的 10 × 10 个像元。基于 TM 提取植被覆
盖度,对于森林而言,此植被覆盖度为冠层覆盖度。
有研究指出,当植被覆盖度在 0. 35 以下时,多为低
植被覆盖度区域(Liu et al.,2013; Buyantuyev et al.,
2007; Small et al.,2006),因此选用 TM 植被覆盖度
值为 0. 35 作为低植被覆盖层和高植被覆盖层的分
界值。
若一类清查样地位置落在 TM 低植被覆盖层,
则这些样地数据将作为低植被覆盖度一类清查样
地; 反之,为高植被覆盖度一类清查样地。分别对 2
类样地进行 k-NN 估测,得到 2 个估测结果 ( Y1,
Y2)。设在 10 × 10 个 TM 影像像元中(等效于一个
MODIS 像元大小)低植被覆盖度像元的百分比为
R1,高植被覆盖度像元的百分比为 R2,则最终的估
测值(Y)为二者的加权和:Y = R1 × Y1 + R2 × Y2。
2. 4 估测精度评价方法
由于本研究是基于一个省级单位进行森林树种
(组)成数估测,估测结果主要是一个省级区域各树
种(组)丰富度的大致分布情况,并不是对小区域
(落实到山头地块) 的树种 (组)进行详细研究,因
此,在进行精度检验时,不必在像元尺度下进行检
验,只要在县级尺度下满足估测精度即可。
2. 4. 1 县级尺度下的精度验证 本研究选取吉林
省 9 个县的二类调查样地对估测结果进行检验。将
每个县级区域内所有二类调查样地树种成数的平均
值和 k-NN 遥感预测值的平均值分别作为该区域内
树种成数的实测值和预测值,计算二者的决定系数
( coefficient of determination,R2 ) 和 均 方 根 误 差
(RMSE)以及每一个树种的 R2 和 RMSE:
R2 = 1 -

n
i = 1
yi - y
^( )
i
2

n
i = 1
yi - y
^( )

i
; (8)
RMSE = 1
n ∑
n
i = 1
yi - y
^( )
i槡
2
。 (9)
式中:yi 为实测值; y
^
i 为预估值; 珋y 为实测值的平均
数; n 为样本数。
2. 4. 2 多尺度下的精度检验 由于采用二类调查
样地进行精度检验,只是针对吉林省的 9 个县进行
抽样检验,无法实现全省覆盖的精度检验,因此本文
将全省划分成一定大小的网格,以落入网格内的一
类清查固定调查样地数据为参考,以网格为统计单
元进行精度检验。
为保证每个估测尺度统计单元内有足够多的样
地用于估计响应网格的树种成数,将估测尺度划分
为 20 km × 20 km,30 km × 30 km,40 km × 40 km 和
50 km × 50 km 共 4 个估测尺度,4 个估测尺度分别
对应 576,271,161 和 114 个尺度单元 (图 3),图中
每个方格代表一个尺度单元,选取的尺度单元至少
32
林 业 科 学 52 卷
包含 5 个样地。以一定尺度统计单位内多个样地树
种成数的均值作为该统计单元树种成数的实测值,
以 k-NN 遥感预测值的均值作为该统计单位树种成
数的预测值,计算二者的均方根误差(RMSE)。
图 3 4 个精度评价尺度下的样地分布
Fig. 3 Sample plot distribution in four accuracy assessment scales
3 结果与分析
3. 1 k 值的优选
以白桦为例,分析白桦在 4 个尺度下估测精度
随 k 值的变化(图 4)。随着 k 值的增加,RMSE 呈现
先快速减小、后趋于相对平衡的趋势。当k = 6时,白
桦树种成数的 RMSE 在 4 个尺度下几乎都是最低,
因此选取 k = 6 为最佳。从图 4 还可以看出,在不同
估测尺度下,相同 k 值的估测精度虽然不同,但是整
体变化趋势一致。其他 6 个树种均按照此方法进行
k 值的优选,蒙古栎、紫椴、春榆、杨、胡桃楸和长白
落叶松的 k 值选优结果分别为 5,6,6,6,5 和 7。
3. 2 k-NN 分层估测对估测精度的影响
以白桦为例,对比分析 k-NN 分层估测与 k-NN
直接估测在 4 个尺度下的 RMSE。从图 5 可以看
出,k-NN 分层估测的估测精度在 4 个尺度下均小于
k-NN 直接估测的 RMSE,说明采用 k-NN 分层估测
图 4 白桦的 k-NN 估测树种成数的 RMSE
Fig. 4 k-NN estimation RMSE of White Birth tree species
composition in multi-scales
方法可提高树种成数的估测精度,减小估测误差。
3. 3 树种成数的估测结果
对每个树种选用估测精度最高时所对应的 k 值
进行 k-NN 分层估测,得到吉林省 7 个树种的树种
42
第 1 期 曹宇佳等: 基于多源数据的省级树种(组)成数空间分布信息估测方法
成数分布图(图 6 ~ 12)。图 6 为白桦的森林资源一
类清查样地点树种成数的等级空间分布图和 k-NN
估测树种成数等级分布图。由图 6 可知,k-NN 估测
树种成数分布与固定样地成数分布呈现出一致的空
间分布特征,白桦多分布在 1 ~ 3 成。对 7 个树种总
体而言,k-NN 估测的树种成数也多在1 ~ 3成,这主
要是由于吉林省森林类型多为混交林。其中,7 个
树种中以纯林(树种成数为 7 成以上)成片分布的
只有蒙古栎,且多分布在吉林省东北部(图 11)。吉
林省森林绝大部分分布在东部,西部只有少量杨树
分布,树种成数集中在 4 ~ 6 成(图 12)。通过 k-NN
估测 7 个树种的树种成数分布可知每一类树种的地
理分布和生长丰富度情况。在南部,除白桦和杨外,
其他树种均有分布。胡桃楸主要集中分布在吉林省
中部,其他树种则主要分布在吉林省东部。
图 5 k-NN 分层估测与 k-NN 直接估测的 RMSE
Fig. 5 RMSE of direct and stratification estimation in
multi-scale using k-NN
图 6 白桦一类清查样地点的树种成数等级分布和 k-NN 估测的白桦树种成数等级分布
Fig. 6 The White Birch grade distribution map of NFI permanent forest plot data and tree species composition
grade distribution map of White Birch in k-NN estimation method
3. 4 精度检验
3. 4. 1 县级尺度下的精度检验 图 13 为利用吉林
省 9 个县二类调查样地得到的县级区域内 k-NN 遥
感估测值与样地实测值之间关系的分析结果,横坐
标为样地实测值,纵坐标为 k-NN 估测值,虚线表示
理想回归线 ( y = x),实线表示估测值拟合的回归
线。从图 13 中可以看出二者几乎重合,说明在县级
尺度下 k-NN 模型预测效果较好。k-NN 预测精度
检验结果为:相关系数 R2 达到 0. 83,RMSE 为
0. 35。表 1 为 7 个树种的 R2 和 RMSE,从表 1 可以
看出,蒙古栎的 R2 最高,为 0. 92,而春榆的 R2
较小。
3. 4. 2 多尺度下的精度检验 表 2 为 7 个树种在
20 km × 20 km,30 km × 30 km,40 km × 40 km 和
50 km × 50 km 4 个尺度下的估测情况。由于 7 个树
种中每个树种的一类清查样地点空间分布不同,且
树种的生态特性不同,使得不同树种对尺度表现出
的敏感性也不同。从表 2 可以看出,紫椴在 40 km
× 40 km 尺度下 RMSE 最低,为 0. 33,杨树则在 20
km × 20 km 尺度下 RMSE 最高,为 0. 53;而且,随着
尺度的增大,树种成数的平均 RMSE 逐渐降低。在
4 个评价尺度下的平均 RMSE,春榆最低,为 0. 35;
蒙古栎最高,为 0. 65。树种的估测精度主要受样地
点个数和样地点分布的影响,如果样地点多且分布
集中,则估测单元内的样地点多,估测误差小。
52
林 业 科 学 52 卷
图 7 k-NN 估测的紫椴树种成数等级分布
Fig. 7 Tree species composition grade distribution map of
Linden in k-NN estimation method
图 8 k-NN 估测的胡桃楸树种成数等级分布
Fig. 8 Tree species composition grade distribution map of
Manchurian Walnut in k-NN estimation method
图 9 k-NN 估测的春榆树种成数等级分布
Fig. 9 Tree species composition grade distribution map of
Elm in k-NN estimation method
图 10 k-NN 估测的长白落叶松树种成数等级分布
Fig. 10 Tree species composition grade distribution map of
Dahurian Larch in k-NN estimation method
表 1 k-NN 估测的 7 个树种的树种成数在县级尺度下的 R2 和 RMSE
Tab. 1 R2 and RMSE of k-NN estimation of tree species composition for seven tree species in county scale
评价指标
Evaluation index
白桦
Betula
platyphylla
紫椴
Tilia
amurensis
胡桃楸
Juglans
mandshurica
长白落叶松
Larix
olgensis

Populus
春榆
Ulmus
davidiana
蒙古栎
Quercus
mongolica
平均值
Mean
R2 0. 74 0. 82 0. 84 0. 87 0. 80 0. 70 0. 92 0. 78
RMSE 0. 33 0. 25 0. 19 0. 69 0. 12 0. 18 0. 47 0. 30
表 2 7 个树种(组)在多尺度下的估测精度
Tab. 2 k-NN estimation accuracy of tree species (group) composition number for seven tree species (group) in multi-scales
尺度
Scale
白桦
Betula
platyphylla
蒙古栎
Quercus
mongolica
紫椴
Tilia
amurensis
春榆
Ulmus
davidiana

Populus
胡桃楸
Juglans
mandshurica
长白落叶松
Larix
olgensis
平均值
Mean
20 km × 20 km 0. 49 0. 64 0. 37 0. 37 0. 53 0. 47 0. 66 0. 50
30 km × 30 km 0. 46 0. 66 0. 35 0. 36 0. 31 0. 42 0. 57 0. 45
40 km × 40 km 0. 41 0. 64 0. 33 0. 32 0. 31 0. 37 0. 61 0. 43
50 km × 50 km 0. 41 0. 65 0. 39 0. 34 0. 30 0. 36 0. 62 0. 44
平均值 Mean 0. 44 0. 65 0. 36 0. 35 0. 36 0. 41 0. 62
62
第 1 期 曹宇佳等: 基于多源数据的省级树种(组)成数空间分布信息估测方法
图 11 k-NN 估测的蒙古栎树种成数等级分布和局部放大
Fig. 11 Tree species composition grade distribution map of Mongolian Oka Tree in k-NN estimation method and partial enlarged detail
图 12 k-NN 估测的杨树树种成数等级分布和局部放大
Fig. 12 Tree species composition grade distribution map of Aspen in k-NN estimation method and partial enlarged detail
图 13 树种成数实际值和预测值散点图
Fig. 13 Scatter plots of observed tree species ( group)
composition number with the predicted values
4 结论与讨论
本文研发了一种基于多源数据的森林树种
(组)成数空间分布估测方法,其特点是综合利用时
间序列遥感数据、国家森林资源固定样地调查数据、
气象观测数据和地形数据,采用先进的 GNN 方法进
行估测。研究发现:k-NN 是一种典型的非参数化估
测方法,为了得到最佳的估测效果必须对 k 值进行
优选,而且最佳 k 值会随不同的试验区和数据有所
不同; 多尺度分层估测的 RMSE 均小于不分层直接
估测的 RMSE,平均降低了 0. 1,说明本文提出的分
层估测方法是有效的; 采用森林资源二类调查样地
数据在县级尺度下对估测结果进行了精度检验,预
测结果与参考数据一致性较高,R2 为 0. 83,RMSE
为 0. 35; 进一步将全省划分为不同尺度的网格,以
一类清查固定样地数据为参考,以网格为统计单元
在不同尺度下分树种对估测结果进行精度检验,各
72
林 业 科 学 52 卷
尺度平均 RMSE 随尺度的增大而减小,从另一个方
面说明了本文方法的有效性。
本研究为估测大区域范围树种 (组)的森林参
数提供了一种有效方法,该方法将粗分辨率影像与
森林资源一类清查样地相结合,并采用 k-NN 分层
方法进行估测。然而,在对样本进行分层处理时,只
利用了植被覆盖度这一标准,没有考虑其他因素影
响,如 DEM、坡度、坡向和气候等;而且,本研究利用
高时间分辨率影像可获取植被物候信息的特点进行
树种成数的估测,但影像空间分辨率较低。因此,如
何将高时间分辨率影像与较高空间分辨率影像结
合,进行大区域树种(组)成数的估测,为下一步的
研究方向。
本研究在国内首次制作了省级全覆盖、空间分
辨率为 250 m 的主要树种(组)成数分布图,并对其
进行了精度检验,对国家森林资源宏观管理政策的
制定、森林对气候变化响应机制的研究等具有重要
的参考价值。
参 考 文 献
陈尔学,李增元,谭炳香,等 . 2007. 高光谱数据森林类型统计模式识
别方法比较评价 .林业科学,43(1) :84 - 89.
(Chen E X,Li Z Y,Tan B X,et al. 2007. Validation of statistic based
forest types classification methods using hyperspectral data. Scientia
Silvae Sinicae,43(1) :84 - 89.[in Chinese])
刘勇洪,牛 铮,王长耀 . 2006. 基于 MODIS 数据的决策树分类方法
研究与应用 .遥感学报,9(4) : 405 - 412.
(Liu Y H,Niu Z,Wang C Y. 2006. Research and application of the
decision tree classification using MODIS data. Journal of Remote
Sensing,9(4) : 405 - 412. [in Chinese])
穆少杰,李建龙,陈奕兆,等 . 2012. 2001—2010 年内蒙古植被覆盖度
时空变化特征 . 地理学报,67(9),1255 - 1268.
(Mu S J,Li J L,Chen Y Z, et al. 2012. Spatial differences of
variations of vegetation coverage in Inner Mongolia during 2001—
2010. Acta Geographica Sinica, 67 ( 9 ) : 1255 - 1268. [in
Chinese])
王新闯,齐 光,于大炮,等 . 2011.吉林省森林生态系统的碳储量、碳
密度及其分布 .应用生态学报,22(8) : 2013 - 2020.
(Wang X C,Qi G,Yu D P,et al. 2011. Carbon storage,density,and
distribution in forest ecosystems in Jilin Province of northeast China.
Chinese Journal of Applied Ecology,22 ( 8 ) : 2013 - 2020. [in
Chinese])
曾庆伟,武红敢 . 2009.基于高光谱遥感技术的森林树种识别进展 . 林
业资源管理,10(5) :109 - 114.
(Zeng Q W,Wu H G. 2009. Development of hyperspectral remote
sensing application in forest species identification. Forest Resources
Management,10(5) :109 - 114.[in Chinese])
曾庆伟 . 2010.基于 Hyperion 高光谱数据的森林类型精细识别研究 .
北京:中国林业科学研究院博士学位论文 .
(Zeng Q W. 2010. Forest type precise identification based on Hyperion
data. Beijing: PhD thesis of Chinese Academy of Forestry. [in
Chinese])
张煜星,王祝雄,武红敢,等 . 2007. 遥感技术在森林资源清查中应用
研究 . 北京:中国林业出版社 .
(Zhang Y X,Wang Z X,Wu H G,et al. 2007. Application of remote
sensing technology in forest resource inventory. Beijing: China
Forestry Publishing House. [in Chinese])
张元明,陈亚宁,张小雷 . 2004.塔里木河下游植物群落分布格局及其
环境解释 .地理学报,59(6) : 903 - 910.
( Zhang Y M,Chen Y N,Zhang X L. 2004. Plant communities and their
interrelations with environmental factors in the lower reaches of
Tarim River. Acta Geographica Sinica,59 ( 6 ) : 903 - 910. [in
Chinese])
Brus D J,Hengeveld G M,Walvoort D J J,et al. 2012. Statistical
mapping of tree species over Europe. European Journal of Forest
Research,131(1) : 145 - 157.
Buyantuyev A,Wu J,Gries C. 2007. Estimating vegetation cover in an
urban environment based on Landsat ETM + imagery: a case study
in Phoenix,USA. International Journal of Remote Sensing,28(2) :
269 - 291.
Franco-Lopez H,Ek A R,Bauer M E. 2001. Estimation and mapping of
forest stand density,volume,and cover type using the k-nearest
neighbors method. Remote Sensing of Environment,77 ( 3 ) :
251 - 274.
Liu T,Yang X. 2013. Mapping vegetation in an urban area with stratified
classification and multiple end member spectral mixture analysis.
Remote Sensing of Environment,133: 251 - 264.
McKenzie N J,Ryan P J. 1999. Spatial prediction of soil properties using
environmental correlation. Geoderma,89(1) : 67 - 94.
McRoberts R E,Nelson M D,Wendt D G. 2002. Stratified estimation of
forest area using satellite imagery,inventory data,and the k-Nearest
Neighbors technique. Remote Sensing of Environment,82 ( 2 ) :
457 - 468.
Nielsen S E,Haney A. 1998. Gradient responses for understory species
in a bracken-grassland and northern dry forest ecosystem of northeast
Wisconsin. Trans Wisc Acad Sci Arts Lett,86: 149 - 166.
Ohmann J L, Gregory M J. 2002. Predictive mapping of forest
composition and structure with direct gradient analysis and nearest-
neighbor imputation in coastal Oregon,USA. Canadian Journal of
Forest Research,32(4) : 725 - 741.
Ruefenacht B,Finco M V,Nelson M D,et al. 2008. Conterminous US
and Alaska forest type mapping using forest inventory and analysis
data. Photogrammetric Engineering & Remote Sensing,74 ( 11 ) :
1379 - 1388.
Small C,Lu J W T. 2006. Estimation and vicarious validation of urban
vegetation abundance by spectral mixture analysis. Remote Sensing
82
第 1 期 曹宇佳等: 基于多源数据的省级树种(组)成数空间分布信息估测方法
of Environment,100(4) : 441 - 456.
Tomppo E. 1991. Satellite image-based national forest inventory of
Finland. International Archives of Photogrammetry and Remote
Sensing,28: 419 - 424.
Wilson B T, Lister A J, Riemann R I. 2012. A nearest-neighbor
imputation approach to mapping tree species over large areas using
forest inventory plots and moderate resolution raster data. Forest
Ecology and Management,271: 182 - 198.
Xian G,Zhu Z,Hoppus M,et al. 2002. Application of decision-tree
techniques to forest group and basal area mapping using satellite
imagery and forest inventory data. Pecora,15: 10 - 15.
Zhu Z,Evans D L. 1994. US forest types and predicted percent forest
cover from AVHRR data. Photogrammetric Engineering and Remote
Sensing,60(5) : 525 - 531.
(责任编辑 石红青)
92