免费文献传递   相关文献

基于随机森林回归模型的思茅松人工林生物量遥感估测



全 文 :2015 年 2 月
第 1 期
林业资源管理
FOREST RESOURCES MANAGEMENT
February 2015
No. 1
基于随机森林回归模型的思茅松人工林生物量遥感估测
孙雪莲,舒清态,欧光龙,胥 辉
(西南林业大学,昆明 650224)
摘要:以云南省景谷县思茅松人工林为研究对象,以研究区 2005 年 TM影像及 2006 年森林资源二类调查小班空
间属性数据库为信息源,在前期建立思茅松单木生物量模型基础上,在 ENVI下提取 9 个植被指数作为备选自变
量,建立研究区思茅松人工林随机森林回归遥感估测模型。结果表明: 随机森林回归遥感估测模型的决定系数
( R2 ) = 0. 97,均方根误差 ( RMSE) = 4. 97; 模型的预估精度( P) = 87. 67%。利用已经训练好的随机森林估测模
型,估测研究区思茅松人工林生物量为 3 644 612. 00t; 单位面积生物量为 59. 90 t /hm2。研究结果可为其它典型
森林类型生物量或碳储量估测提供案例分析。
关键词:景谷县;生物量;随机森林回归;思茅松
中图分类号:S718. 55 文献标识码:A 文章编号:1002 - 6622(2015)01 - 0071 - 06
DOI:10. 13466 / j. cnki. lyzygl. 2015. 01. 013
Remote Sensing Estimation of the Biomass of Artificial Simao
Pine Forest Based on Random Forest Regression
SUN Xuelian,SHU Qingtai,OU Guanglong,XU Hui
(Southwest Forestry University,Kunming 650224,China)
Abstract:The Simao Pine(Pinus kesiya var. langbianensis)plantations in Jinggu county are taken as the
research object,and TM remote sensing image in 2005 and the forest resource inventory database for sub-
compartment space attribute in 2006 as the data source. Based on the single tree biomass models,9 index
as of vegetation were extracted under ENVI as the alternative variables. The estimation model of remote
sensing random forest regression of the Simao pine plantations in the study area was established. The re-
sults are as follows:R2 = 0. 97,RMSE = 4. 97 and model estimation accuracy = 87. 76%. By using the es-
timation model of RF which has been trained,the predicted total biomass of Simao pine plantations was
3 644 612. 00t in study area. The biomass of per-unit area was 59. 90 t /hm2. The results provide a typical
case analysis for estimation of the biomass and carbon stocks of other types of forests.
Key words:Jinggu county,biomass,random forest regression,Pinus kesiya var. langbianensis
收稿日期:2014 - 12 - 26;修回日期:2015 - 01 - 07
基金项目:国家林业局林业公益性行业科研专项(201404309);国家自然科学基金(31460194)
作者简介:孙雪莲(1990 -),女,云南曲靖人,在读硕士,主要研究方向:森林测计和林业 3S技术应用。
Email:sxl524@ 163. com
通讯作者:胥辉(1960 -),男,教授,博士。Email:zyxy213@ 126. com
林业资源管理 第 1 期
森林是陆地生态系统最主要的碳库之一。准
确地测定森林生物量,是编制国家温室气体排放清
单、进行碳循环研究以及气候变化模型研究的需
要[1]。关于森林生物量估算,传统的现地调查法耗
时费力,破坏大,很难在短的时间和大的空间尺度
上实现[2]。由于遥感图像光谱信息具有良好的综
合性和现实性,与森林生物量之间存在相关性,因
此基于遥感信息的森林生物量估测要比传统方法
更具优越性[3]。在应用遥感技术进行生物量估测
取得成功的同时,也存在很大的局限性:大多数估
测建立在生物量与遥感数据之间的线性相关分析
上,各遥感因子间存在复共线性,这时参数模型就
不适用了。非参数模型能克服这种缺陷,袁野等[4]
利用人工神经网络进行生物量的估测;曾明宇等[5]
基于 ANN的森林蓄积量遥感估测研究都取得了很
好的效果,然而所有的非参数模型中,基于 Random
Forest非参数模型对思茅松生物量遥感估测的研究
目前没有。
思茅松(Pinus kesiya var. langbianensis)属暖热型
松类,自然分布于云南热带北缘和亚热带南部半湿
润地区,该树种是我国西南部亚热带山地典型代表
树种,也是云南重要的人工造林树种,具有重要的
经济价值、森林服务功能和碳汇效益[6]。本研究通
过调用 R语言程序包,采用随机森林回归,建立景
谷县思茅松生物量遥感估测模型,对景谷县思茅松
生物量进行非参数模型估测,为利用遥感技术对森
林生物量快速、准确、大面积的估测提供参考,同时
也为国内思茅松研究提供案例。
1 研究区概况
研究区位于云南省景谷县,是以傣族、彝族为主
体民族的自治县,景谷位于无量山西南侧,澜沧江以
东,云南省普洱市中部偏西,北回归线从县城附近通
过,地跨 22°49 ~23°51N,100°02 ~ 101°07E,之间。
地势以山地高原为主,谷坝镶嵌其中,山地、高原、
盆地相间分布。由于境内山高谷深,海拔差异大,
气候呈明显的垂直变化,是典型的南亚热带地区。
全县地形以山区半山区为主,属亚热带山区季
风气候,年均相对湿度 77%,平均气温 22. 2℃,年均
无霜期 354d,具备热带、亚热带植物快速生长的优
势条件。景谷县林业用地 58. 33 万 hm2(874. 9 万
亩),占总面积的 77. 5%;森林覆盖率达 74. 7%;林
木年生长量达 210. 45 万 m3,其中:思茅松占
88. 7%,思茅松不仅是当地的主要用材树种,也是当
地主要的造林树种。
2 研究方法及数据的采集
2. 1 数据收集
2. 1. 1 基础数据
本文的辅助数据是 2006 年森林资源二类调查
小班数据,样地数据是 2006 年二类森林资源实测样
地并于 2012 年修订的思茅松样地数据,样地面积
30m ×30m;样地调查因子包括:样地坐标、龄组、株
数、蓄积量、样地平均树高、样地平均胸径等。
样木数据是 2012 年的实测样木生物量,样木生
物量调查结合样地调查展开,并考虑径阶分布,共
计 120 株样木,记录各样木基本信息,包括经纬度坐
标、海拔、坡度、和坡向等因子。按照胥辉、张会儒
的生物量测定方法进行生物量测定[7]。
2. 1. 2 单木生物量模型的构建
研究生物量模型的种类有很多,如幂函数、
Richards方程和 Korf等[8 - 10],而在众多对思茅松生
物量模型研究当中,幂函数在模型拟合过程中容易
收敛,且模型拟合效果较好,得到众多学者的推
崇[11 - 12]。在生物量模型变量的选择上学者们多数
采用胸径(D)、树高(H)、或组合变量(D2H)[7]。所
以本研究以幂函数为基本形式来构建单木生物量
模型。利用 SPSS软件对表 1 中 3 个模型进行拟合。
表 1 单木生物量模型拟合结果
Tab. 1 Estimation parameters of the
biomass of individual tree equations
序号 模型
样本
容量
模型参数
a b c
R2
1 W = a × Db 120 0. 059 2. 541 0. 869
2 W = a × Db × Hc 120 0. 058 2. 12 0. 467 0. 900
3 W = a ×(D2 × H)b 120 0. 097 0. 817 0. 882
从所选的 3 个模型当中的决定系数(R2)来看,
27
第 1 期 孙雪莲等:基于随机森林回归模型的思茅松人工林生物量遥感估测
以胸径(D)、树高(H)为变量的模型决定系数最高
达 0. 900;因此本研究选择以胸径与树高的二变量
模型 2 做为单木生物量的估算模型。
2. 1. 3 样地生物量的计算
采用平均标准木法计算林分单位面积生物量
W = a × Db标 × H
c
标 × N (1)
式中:W 为样地思茅松生物量;
a,b,c为单木生物量估算模型的参数;
D标 为各样地标准木平均直径;
H标 为各样地标准木平均树高;
N 为样地株树。
再按照样地面积(30m × 30m)把样地生物量换
算为单位面积生物量。
2. 1. 4 遥感数据的处理及植被指数的选取
采用 2005 年森林资源二类调查小班数据提取
研究区思茅松,因此研究区选取 2005 年行带号分别
为 130 /44,131 /43,131 /44 的 3 景 TM 遥感影像数
据。首先利用 TM影像数据头文件里的校正增量系
数和校正偏差进行遥感器的校准;其次在 ENVI 软
件下,对影像进行辐射校正、几何精校正、拼接、裁
剪等预处理,得到景谷县 TM影像图
植被指数的选取,植被指数(VI)是指由遥感
数据经线性与非线性组合构成的对植被信息有一
定增强意义的光谱参数[13],本研究选择以下 9 种
常见的植被指数:归一化植被指数(NDVI)、差值
植被指数(DVI)、比值植被指数(RVI)、垂直植被
指数(PVI)、土壤调节植被指数(SAVI)、亮度
(B)、绿度(G)、湿度(W)、有效叶面积植被指数
(SLAVI)[14]。
2. 2 随机森林回归
随机森林(RF)是一种统计学习理论,它利用
Bootsrap重抽样方法从原始样本中抽取多个样本,
对每个 Bootsrap样本进行决策树建模然后组合多棵
决策树的预测,通过投票得出最终预测结果[15]。一
般情况下,随机森林随机地生成几百个至几千个分
类树,然后选择重复程度最高的树作为最终结
果[16]。随机森林可以解释若干自变量(X1,X2,…,
Xk)对因变量 Y 的作用,如果因变量 Y 有 n 个观测
值,有 k 个自变量与之相关;在构建分类树的时候,
随机森林采用 Bootstrap 重新抽样的方法[17]随机地
在原数据中重新选择 n个观测值。
2. 2. 1 模型的构建
1)样本训练集与测试集的选取
本研究地面样本点共 90 个(图 1)。研究中
采用随机抽样将实测样地按 70%和 30%分成 2
组,63 个样地作为训练集进行参数寻优和训练样
本建立模型,27 个样地作为测试样本对模型进行
检验。
图 1 景谷县思茅松和样地分布图
Fig. 1 Distribution of Simao Pine forest
and the samples in Jinggu county
2)模型的构建
采用 R 软件中 randomForest 数据包下的 ran-
domForest函数来实现随机森林模型的构建。
首先,自变量的选取,在 R 语言中使用随机森
林方法时,程序会判断每个自变量在回归过程中
的影响力,影响力的评价是通过两个指标来完成
的,其一是自变量出现在袋外时模型 MSE 增量,其
二是自变量出现在袋外时对模型树节点纯度的影
响力。
其次,回归树数量选择,则主要需要选定的参
数是随机森林中决策树的数量和每次建立决策树
时随机选入的自变量数量,在 R 语言中,随机森林
37
林业资源管理 第 1 期
由参数 ntree和 mtry来定义决策树的数量和随机特
征的数量;通过实验不同的回归树数量得到模型的
决定系数(R2)和均方根误差(RMSE),及 ntree 与误
差的关系图来确定 ntree 的值;mtry 不赋值,使用系
统默认的输入变量数的 1 /3,当变量小于 3 时
取 1[18]。
由图 2 可知,误差在随回归树的增加而趋于稳
定,随机森林回归树的数量达到 ntree = 2000 以后
趋于稳定。通过实验不同的回归树数量得到模型
的决定系数(R2)和均方根误差(RMSE),在不影
响计算效率的情况下使用 ntree = 3000 作为回归树
数量。
图 2 ntree与误差关系图
Fig. 2 Relationship diagram of ntree and error
2. 2. 2 模型的评价
模型的评价和检验是整个建模过程中的一项
核心工作,通过模型检验来确定模型的拟合效果。
本研究模型评价主要是通过计算模型的决定系数
(R2)和均方根误差(RMSE)。
R2 = 1 -
∑ni = 1(yi - y^i)
2
∑ni = 1(yi - y)
2 (2)
RMSE =
∑ni = 1(yi - y^i)
2
n槡 - 1 (3)
式中:yi 为实际观测值;y^i 为模型预估值;y为
样本平均数;n为样本数。
2. 2. 3 模型的检验
分别对总体样本和各龄组样本随机森林回归
模型进行检验,通过总体相对误差(Rs)、平均相对
误差(E1)、总体相对误差绝对值(E2)这几个统计
量指标、精度(P),对模型偏差统计量进行比较并
评价模型的预测能力[12]。并在 SPSS 中采用配对
样本 T 检验来检验各样本实测值和预测值的差
异性。
Rs =
∑yi -∑y^i
∑y^i
(4)
E1 =
1
n∑
yi - y^i
y^( )i × 100% (5)
E2 =
1
n∑
yi - y^i
y^i
× 100% (6)
P = 1n∑
n
i = 1 1 -
yi - y^i
y^( )i × 100% (7)
式中:yi 为实际观测值;y^i 为模型预估值;n 为
预测样本数。
2. 3 基于小班数据的区域生物量估测
据 2005 年景谷县小班调查数据提取景谷县思
茅松人工林。研究中的实测样地面积为 30m ×
30m,与 TM影像上一个像元代表的大小一致,因此
在对整个研究区思茅松人工林生物量进行估测时,
以像元为单位读取每个像元对应的植被指数。利
用得到的随机森林估测模型对景谷县思茅松人工
林生物量进行估算。
3 结果分析
3. 1 自变量的选取
随机森林综合考虑 InMSE 和 IncNodePurity 值
结合考虑决定系数(R2)和均方根误差(RMSE)来确
定自变量的选择。从表 2 中可以看出,选择有效叶
面积植被指数(SLAVI)、土壤调节植被指数(SA-
VI)、比值植被指数(RVI)、归一化植被指数(ND-
VI)、绿度指数(G)、亮度指数(B)6 个自变量参与
47
第 1 期 孙雪莲等:基于随机森林回归模型的思茅松人工林生物量遥感估测
模型的构建。
表 2 随机森林自变量影响力评价
Tab. 2 Influence evaluation of independent
variables for Random Forest
变量 % IncMSE IncNodePurity
DVI 16. 1072 1626. 154
SLAVI 20. 6999 2920. 721
SAVI 18. 5799 2951. 868
RVI 20. 2741 2902. 416
PVI 14. 1698 1902. 211
NDVI 19. 276 3094. 056
G 16. 7561 2168. 785
B 115. 5951 25412. 766
W 6. 7886 2240. 203
3. 2 模型评价
3. 2. 1 模型拟合指标分析
通过计算模型的决定系数(R2)和均方根误差
(RMSE)来对模型的拟合效果进行评价如表 3 所
示,决定系数(R2)= 0. 97,均方根误差(RMSE)=
5. 06;模型拟合效果较理想。
表 3 各样本随机森林回归模型精度检验结果
Tab. 3 Accuracy test of Random Forest
regression of different samples
模型 样本容量 R2 RMSE
随机森林 63 0. 97 4. 97
3. 2. 2 模型检验
1)对模型偏差统计量进行比较并评价模型的
预测能力,从表 4 模型检验结果来看总相对误差
(Rs)和平均相对误差(E1)都比较小,在 - 1% ~ 1%
以内;绝对平均相对误差(E2)为 11. 03%。可以看
出模型预估能力都较好。
表 4 各样本模型检验结果
Tab. 4 Comparison of validation indices
among the models of different samples %
模型
总相对误
差 Rs
平均相对误差
E1
绝对平均相对
误差 E2
预估精度
P
随机森林回归 - 0. 53 - 2. 04 11. 03 87. 67
2)预估值与实测值差异性检验
从表 6 可以看出,各预估值和实测值的配对检
验的 p值为 0. 826,实测值和预测值没有显著的差
异,且从预估值 -实测值散点图也可以看出预估值
和实测值吻合较好。
3)绘制 90 个样本单位面积生物量实测值和预
测值散点图。
表 6 配对样本检验
Tab. 6 Paired sample test
配对样本
样本数
/个
标准差
标准
误差
t值 自由度 p值
实测值 -预测值 27 11. 1 2. 14 - 0. 175 26 0. 826
图 3 总体样本实测值和预测值散点图
Fig. 3 Scatter plot of the measurement
and predictions for overall the simples
3. 3 景谷县思茅松人工林生物量估测
据 2005 年景谷县小班调查数据可知,景谷县森
林资源调查有 59 922 个小班,其中思茅松人工林小
班有 4 794 个,提取思茅松人工林分布区,利用像
元,对景谷县思茅松人工林生物量进行估算,得到
思茅松人工林生物量总量为 3 644 612. 00t;单位面
积生物量为 59. 90 t /hm2。
4 结论与讨论
4. 1 结论
1)研究中选择决定系数最高(R2 = 0. 900)的
基径与树高的二变量模型做为单木生物量估测模
57
林业资源管理 第 1 期
型,其模型的形式如下:W = 0. 058 × D 2. 12 × H 0. 46。
2)本文建立的随机森林回归模型,总体来看决
定系数(R2)为 0. 97,均方根误差(RMSE)为 4. 97,
模型的拟合效果好,从模型的检验来看,预估精度 P
为 87. 67%,具有较高的预估精度。
3)随机森林回归模型适合用于森林生物量的
估算,能够比较真实的反应实际情况,具有较高的
预估精度,可进行大区域森林生物量的估算。
4. 2 讨论
1)在建立随机森林模型的过程中,ntree和 mtry
这 2 个参数十分重要,mtry不赋值,使用系统默认的
输入变量数的 1 /3,对 ntree 的确定需要通过不断的
实验,才能得到最好的 ntree值。对于随机森林算法
本身而言,分类树的数目和特征变量的选择,如何
能在保证分类精度的同时提高分类的速度,还有待
进一步的研究和探讨。
2)样地生物量是由单木模型推算得到,不是实
测值,由于误差具有传递性,会对景谷县思茅松人
工林生物量的预估造成一定程度的影响。
3)随机森林回归模型具有很好的拟合效果,且
不容易出现过度拟合[15],在现有的算法中随机森林
算法具有很高的预测准确率。但随机森林回归模
型是非参数的,在模型的应用方面存在局限性。
参考文献:
[1] IPCC. Good practice guidance for land-use change and forestry[R].
Hayama,Japan:IPCC National Greenhouse Gas inventories pro-
gramme,2003:1 - 295.
[2] 戴小华,余世孝.遥感技术支持下的植被生产力与生物量研究
进展[J].生态学杂志,2004(4):95 - 101.
[3] Fried M A,Davis F W,Michaelsen,et al. Scaling and uncertainty in
the relationship between the NDVI and land surface biophysical var-
iables:An analysis using a scene simulation model and data from
FIFE[J]. Remote Sensing,1995,54:233 - 246.
[4] 袁野,李虎,刘玉峰.基于改进型 B - P 神经网络的西天山云杉
林生物量估算[J]. 福建师范大学学报:自然科学版,2011,27
(2):124 - 132 .
[5] 曾明宇,陈振雄,刘庭威. 基于 ANN 的森林蓄积量遥感估测研
究[J].中南林业调查规划,2010,29(3):36 - 39.
[6] 党承林,吴兆录.云南普洱地区思茅松林生物量[J].云南大学
学报:自然科学版,1992,14(2):119 - 127.
[7] 胥辉,张会儒.林木生物量模型研究[M]. 昆明:云南科技出版
社,2002.
[8] Bailey R L,Ware K D. Compatible Basal-Area Growth and Yield
Model for Thinned and Unthinned Stand[J]. Canadian Journal of
Forest Research,1983,13:563 - 571.
[9] Candy S G. Growth and Yield Models for Pine in Tasmania[J].
Forest Science,1989,19(1):112 - 133.
[10] Sullivan A D,Culture J L. A Simultaneous Growth and Yield Model
for Loblolly Pine[J]. Forest Science,1972,18(1):76 - 86.
[11] 李江.思茅松幼龄人工林的生物量碳密度及其动态变化[D].
北京:北京林业大学,2011:1 - 86.
[12] 朱丽梅,胥辉. 思茅松单木生物量模型研究[J]. 林业科技,
2009,34(9):19 - 23.
[13] Huete S R. A Soil-adjusted Vegetation Index[J]. Advances in
Earth Science of Environment,1998,13(4):327 - 333.
[14] 田庆久,闵祥军. 植被指数研究进展[J]. 地球科学进展,1988
(4):10 - 16.
[15] 方匡南,吴见彬,朱建平,等.随机森林方法研究综述[J].统计
与信息论坛,2011,26(3):32 - 38.
[16] Breiman L. Random Forest[J]. Machine Learning,2001,45:
5 - 32.
[17] 李欣海.随机森林模型在分类与回归分析中的应用[J]. 应用
昆虫学报,2013,50(4):1190 - 1197.
[18] Breiman L,Cutler A. Package random Forest[R /OL]. (2013 -
08 - 12) [2015 - 12 - 26]. http:/ / cran. r-project. org /web /
package / randomForest / randomForest. dbf.
67