全 文 :第 52 卷 第 1 期
2 0 1 6 年 1 月
林 业 科 学
SCIENTIA SILVAE SINICAE
Vol. 52,No. 1
Jan.,2 0 1 6
doi:10.11707 / j.1001-7488.20160111
收稿日期: 2015 - 01 - 14; 修回日期: 2015 - 06 - 24。
基金项目: 福建省自然科学基金项目(2015J05049) ; 福建农林大学校重点项目建设专项(6112C035K)。
* 郭福涛为通讯作者。
基于气象因子的随机森林算法在
塔河地区林火预测中的应用*
梁慧玲1,2 林玉蕊2 杨 光3 苏漳文1 王文辉1 郭福涛1
(1.福建农林大学林学院 福州 350002; 2.福建农林大学计算机与信息学院 福州 350002; 3.东北林业大学林学院 哈尔滨 150040)
摘 要: 【目的】应用逻辑斯蒂回归模型和随机森林算法建立大兴安岭塔河地区林火发生的预测模型并对比模
型预测精度,判断随机森林算法在该地区林火预测中的适应性,为该地区林火管理工作提供技术支持。【方法】利
用 1974—2008 年大兴安岭塔河地区森林火灾发生数据,分别运用二项逻辑斯蒂回归模型和随机森林算法,对塔河
地区林火发生与气象因子之间的关系进行实证分析。为减少训练样本分布对试验结果的影响,将全样本数据随机
分成 60%的训练样本和 40%的测试样本,并且进行 5 次重复,建立 5 个中间模型(样本组)。选择在 5 个中间模型
中的 3 个及以上的显著变量(因子)对全样本数据进行分析并分别比较 2 种模型算法在 5 个中间模型和全样本模
型中的预测准确率。此外,还设计了变量交互试验进一步验证相同变量下 2 种模型的预测精度。【结果】日最小
相对湿度、细小可燃物湿度码和干旱码 3 个因子在二项逻辑斯蒂回归模型和随机森林算法中均与林火发生呈显著
相关。模型拟合的预测结果显示:在对 5 个中间模型的预测中,随机森林算法对训练样本(60% )和测试样本
(40% )的预测准确率分别高于二项逻辑斯蒂回归模型 8%和 10%左右; 在全样本模型的预测中,随机森林算法拟
合的准确率为 85. 0%,而二项逻辑斯蒂回归模型拟合的准确率为 76. 2%,二者相差 10%左右,与之前 5 个中间模
型的预测结果一致; 在变量交互试验中,随机森林算法拟合的准确率为 86. 0%,而二项逻辑斯蒂回归模型拟合的
准确率为 72. 8%,随机森林算法的预测准确率提高了 18. 1%左右。【结论】日最小相对湿度、细小可燃物湿度码和
干旱码是影响林火发生的主要气象因子。在基于气象因子的塔河地区林火发生预测模型研究中,随机森林算法的
预测准确率高于传统二项逻辑斯蒂回归模型 10%左右,具有一定的预测优势和应用价值,可为大兴安岭塔河地区
林火预测和决策提供参考。
关键词: 塔河地区; 林火发生; 气象因子; 随机森林算法; 逻辑斯蒂回归
中图分类号:S762. 2 文献标识码:A 文章编号:1001 - 7488(2016)01 - 0089 - 10
Application of Random Forest Algorithm on the Forest Fire
Prediction in Tahe Area Based on Meteorological Factors
Liang Huiling1,2 Lin Yurui2 Yang Guang3 Su Zhangwen1 Wang Wenhui1 Guo Futao1
(1 . College of Forestry,Fujian Agriculture and Forestry University Fuzhou 350002;
2 . College of Computer and Information Science,Fujian Agriculture and Forestry University Fuzhou 350002;
3 . College of Forestry,Northeast Forestry University Harbin 150040)
Abstract: 【Objective】In this study,two methods were applied to establish fire prediction model for Tahe,Daxing’an
Mountains. Our objective is to identify the applicability of random forest algorithm to local forest fire prediction according
to prediction accuracy comparison. This study would provide some technical support for local forest fire management.
【Method】The fire data collected in Tahe,Daxing’an Mountains between 1974 and 2008 were used in a case study to
identify the relationship between fire occurrence and meteorological factors by using logistic regression ( LR) model and
random forest (RF) algorithm,respectively. In order to reduce the influence of sample distribution on the model fitting,
the original dataset was randomly divided into training ( 60% ) and validation ( 40% ) samples. The procedure was
repeated five times applying a sampling with replacement method, thus obtaining five random sub-samples ( sample
groups) of the data,each with a training and validation dataset. The predictors that had been proved to be significant at ɑ
林 业 科 学 52 卷
= 0. 05 in at least three of five intermediate models were included in the final models. Besides,in the present study a
“cross validation”test was to identify the accuracy of the two models. 【Result】The results of model parameter estimation
indicated that daily minimum relative humidity, fine fuel moisture content ( FFMC ) and drought code ( DC ) were
identified as important predictors in both Logistic and Random Forest model. The result of model fitting revealed that the
prediction accuracy of LR model in five intermediate models were 8% and 10% lower than that of RF,respectively,for the
training and variation samples. However,the prediction accuracy of RF on the complete dataset was 15% higher than that
of LR. In the Cross Validation test,the prediction accuracy of RF was 85. 0%,higher than that of LR (76. 2% ) and the
result agreed with that of five sample groups. 【Conclusion】Our results revealed that the RF model was superior to LR
model on the fire prediction in the study area,thus the RF model can be used in the fire prediction and provide important
information for the local fire management and plan.
Key words: Tahe area; fire occurrence; meteorological factors; random forest algorithm; Logistic regression
森林火灾是一个全球性问题,影响着森林资源
的可持续性和温室气体排放以及人类生命财产安全
(Chuvieco et al.,2008)。在欧洲,1990—2012 年的
年均林火发生次数高达 8. 1 万次,过火面积达到 53
万 hm2( Chas-Amil et al.,2015)。北美地区年均林
火发生次数大约 13. 9 万次,过火面积大约 420 万
hm2(NIFC,2004; Girardin et al.,2013)。我国每年
约发生 1 万次林火,年均过火面积 82 万 hm2 (Zhong
et al.,2003)。气候是影响森林火灾变化的重要因
素,随着全球气候变暖,森林火灾可能会更加严重
(郭福涛等,2010),因此,对森林火灾发生与气象因
子之间的关系进行实证分析具有重要意义。大兴安
岭是我国主要林区,也是林火高发区,近年来,很多
学者研究了该地区的每日林火预测模型 (张巍,
2009; 杜春英等,2010; 邸雪颖等,2011; 彭欢等,
2014; 朱沛林等,2014; 郭福涛等,2015),且采用
的主要是二项逻辑斯蒂回归模型( logistic regression
model,LR)。
随机森林( random forest,RF)算法是一种基于
分类回归树 ( classification and regression trees)的数
据挖掘方法,是由 Breiman 和 Cutler 在 2001 年提出
的取代神经网络等传统机器学习方法的一种较新的
机器学习技术(Oliveira et al.,2012; 李欣海,2013;
张雷等,2014)。随机森林算法通过聚集大量分类
树来提高模型预测精度,与决策树一样,可用来解决
分类和回归问题,预测精度很高,在异常值和噪声方
面有很高的容忍度,且不易出现过度拟合现象
(Breiman,2001)。与传统的多元线性回归模型或
参数回归模型相比,随机森林算法不需事先设定函
数形式,且能克服协变量之间复杂的交互作用,具有
较高的分类正确率 ( Cutler et al.,2007; 彭国兰,
2007; 杨沐晞,2012)。目前,随机森林算法主要应
用于生态学领域( Prasad et al.,2006; Cutler et al.,
2007; 张雷等,2014),近几年国外少数研究证明该
算法在回归方面可提高林火预测精度 ( Oliveira et
al.,2012; Rodrigues et al.,2014a),但国内还未见相
关报道。由于研究区域的空间异质性,国外关于随
机森林算法在林火预测上的优越性结论并不能简单
地应用于我国林区,因此,本研究基于气象因子,应
用 R 等统计软件,分别计算随机森林算法和二项逻
辑斯蒂回归模型对大兴安岭塔河地区林火发生的预
测精度,通过模型拟合结果的对比分析,判断随机森
林算法在大兴安岭林区林火预测预报中的适应性。
1 研究区概况
研究区位于 120°—125° E,52°—53° N 之间,属
黑龙江省大兴安岭塔河地区,北与俄罗斯接壤,边境
线长 173 km,总面积 1. 442 万 km2。塔河地区地处
北温带,属寒温带大陆性气候,受大陆和海洋季风更
替的影响,季节变化显著。年均气温 - 2. 4 ℃,年均
降水量 463. 2 mm,且主要集中在 7—8 月,年日照时
数 2 015 ~ 2 865 h。该地区森林覆盖率为 81%,蓄
积量为 5 340 万 m3,主要树种有樟子松 ( Pinus
sylvestris var. mongolica )、兴 安 落 叶 松 ( Larix
gmelinii)、白桦(Betula platyphyla)、杨(Populus)等。
塔河是森林火灾高发地区,1974—2008 年,该
地区过火面积高达 563 709 hm2,年均过火面积
16 106 hm2(郭福涛等,2015)。
2 数据来源与处理
2. 1 数据来源
本研究数据包括林火数据和气象数据 2 部分。
林火数据来源于大兴安岭塔河县森林防火办公
室 1974—2008 年塔河地区林火发生情况数据,包括
起火地理坐标、起火原因、火灾发生时间、着火次
数等。
09
第 1 期 梁慧玲等: 基于气象因子的随机森林算法在塔河地区林火预测中的应用
气象数据来源于中国气象数据共享网络
(http: / / cdc. cma. gov. cn /),为塔河气象站(国家标
准气象站号 50246)1965—2012 年的日气象数据,包
含气压等 22 个气象因子。本研究预先对气象数据
进行了处理,剔除由于仪器设备损坏而造成数据缺
失过多的气象因子,剩余 9 个气象因子:20:00—
20:00时降水量(mm)、日均风速(m·s - 1 )、日均气温
(0. 1 ℃ )、日均相对湿度(% )、日照时数(0. 1 h)、
日最低气温(0. 1 ℃ )、日最高气温(0. 1 ℃ )、日最大
风速(m·s - 1)、日最小相对湿度(% )。此外,根据研
究区的气象数据,应用加拿大森林火险天气指标系
统( fire weather index,FWI)计算反映可燃物干湿程
度的指标,包括 3 个可燃物湿度码[细小可燃物湿
度码( fine fuel moisture content,FFMC)、腐殖质湿度
码( duff moisture content,DMC )、干旱码 ( drought
code,DC)]和 3 个火行为指数[初始蔓延速度
( initial spread index, ISI )、累 积 指 数 ( build-up
index,BUI) 和火险天气指数 ( fire weather index,
FWI)]。FFMC 是反映地表凋落层和其他成熟的细
小可燃物湿度的数量指标,受降水、温度、相对湿度
和风速的影响,FFMC 值会随可燃物含水率变化而
变化; DMC 是半分解、比较松散的枯落物下层可燃
物的含水率,受降雨、相对湿度和温度的影响; DC
是深层可燃物含水率; ISI 是预期的火灾蔓延速度,
由 FFMC 和风速计算得到; BUI 是有效可燃物指
标,是 DMC 和 DC 的加权平均值,表示移动火线燃
烧的有效可燃物的量; FWI 是火险天气指标,由 ISI
和 BUI 计算得到,是潜在火线强度的数量指标,是
一个地区的火气候条件和可燃物含水率相结合的结
果(胡海清,2005; 杜春英等,2010; 田晓瑞等,
2010)。
2. 2 数据处理
在应用 LR 和 RF 构建判别模型时,需构建一定
比例的对照点(非火点)。本文参照前人研究,按
1 ∶ 2比例选取对照点(郭福涛等,2015)。
采用 SPSS19 软件进行二项逻辑斯蒂回归模型
计算,随机森林算法用 R 软件实现。
3 研究方法
3. 1 二项逻辑斯蒂回归模型
3. 1. 1 逻辑斯蒂回归模型的基本原理 设林火发
生的概率为 P (二项分类因变量 Y = 1 ),没有林火
发生的概率为 (1 - P) (二项分类因变量 Y = 0 )。
对 P 进行 Logit 变换,即将 P 变换为 ln[P /(1 -
P)],记为 Logit( P),则概率 P 与自变量 (气象因
子)之间的回归关系为:
ln P
1 - P
= Logit(P) = β0 + β1X1 + … + βnXn。
经变换可得森林火灾概率预测模型:
P = 1
1 + exp[- (β0 + β1X1 + … + βnXn)]
。
式中: P 为林火发生的概率; n 为气象因子的总数;
β1,β2,…,βn 为各个自变量的逻辑斯蒂回归相关系
数; X1,X2,…,Xn 为影响林火发生的自变量(王明玉
等,2003; 赵凤君,2009; 郭福涛等,2010)。
3. 1. 2 逻辑斯蒂回归模型的校验 受试者工作特
征曲线 ( receiver operating characteristic curve,ROC
曲线)是一种不依赖阈值的检验方法,以 ROC 曲线
下的面积 ( the area under the curve,AUC ) 作为
Logistic 回归模型预测准确性的衡量标准。AUC 值
在[0. 5,1]区间上变化,AUC 值越大,模型的拟合效
果越好。一般认为,AUC 值等于 0. 5 时相当于一个
完全的随机预测,在(0. 5,0. 7]之间说明模型的拟
合效果较差,在(0. 7,0. 8]之间说明模型的拟合效
果中等,在(0. 8,0. 9]之间说明模型整体拟合效果
很好,在(0. 9,1]之间说明拟合效果非常好。此外,
根据 ROC 曲线分析法可计算出模型的敏感性值和
特异性值,根据约登指数( youden index)公式“约登
指数 =敏感性值 + 特异性值 - 1”可进一步判断最
佳临界值( cut-off point),如果林火发生的预测概率
值大于该临界值则认为有林火发生,小于该临界值
则认为无林火发生 (邓欧等,2012; 柳生吉等,
2013; Chang et al.,2013; 孙瑜等,2014)。
3. 2 随机森林算法
3. 2. 1 随机森林算法的基本原理 设原始数据中
有 n 个林火数据、m 个气象因子,应用自助法
(bootstrap)重抽样技术从 n 个林火数据中有放回地
随机抽取 n tree 个样本容量为 n 的自助样本集,从而
构建 n tree 株分类树,并且在每株分类树的每个节点
上随机抽取 m try ( m try ≤ m )个气象因子,选择其中
一个最具有分类能力的变量进行分支,且每株树都
最大限度地生长,不需做任何剪枝。将所生成的
n tree株分类树组成随机森林,并将这 n tree株树分类结
果的众数作为随机森林的分类结果。每次 bootstrap
重抽样未被抽到的样本组成 n tree 个袋外数据 ( out-
of-bag,OOB),作为随机森林测试样本(武晓岩等,
2006; 巩亚楠等,2014; 姚登举等,2014)。
在建立随机森林算法过程中,n tree和 m try是 2 个
最重要的自定义参数。Liaw 等 (2002 )试验认为
19
林 业 科 学 52 卷
m try 槡= m 是个较好的选择,而 n tree 的设置只要使
n tree 的值足够大,使森林的整体误差率趋于稳定即
可(彭国兰,2007)。基于此,本文将 m try 的值设为
槡m,将 n tree 的值设为 2 000。
3. 2. 2 随机森林算法特征变量的重要性评价 随
机森林算法可以对特征变量的重要性进行评价,其
基本思想是:对于变量 Xj,首先,计算每株树 t 相应
的袋外数据 OOB t 的袋外误差率 errOOB t; 然后,对
袋外数据中的变量 Xj 值进行随机的序列改变,而其
他所有变量在保持不变的情况下,重新计算改变
顺序后的袋外数据
OOB jt 的袋外误差率
errOOB jt,通
过分析袋外数据序列改变时袋外误差的增加情况来
估计某一特征变量的重要程度。变量 Xj 的重要性
得分为:
VI(Xj) = 1
n tree∑t (
errOOB jt - errOOB t)。
式中: n tree 是随机森林算法中树的数量(武晓岩等,
2007; Genuer et al.,2010; 张雷等,2014)。
3. 3 模型变量选择及运算
为减少训练样本分布对试验结果的影响,将总
体样本数据随机分成 60%的训练样本(用于建立模
型)和 40%的测试样本(用于检验模型) (Rodrigues
et al.,2014a),重复做 5 次随机划分,得到 5 个不同
的样本组。分别对 5 个样本组进行逻辑斯蒂运算,
得到各自的显著变量,以显著变量在 5 个中间模型
(即利用 5 个样本组所建立的模型)中出现次数大
于等于 3 次为标准,确定最终变量,进行全样本的
运算。
为保证研究过程的一致性,随机森林算法采用
的样本数据和逻辑斯蒂模型一样,均为 5 个随机样
本组和 1 个全数据样本。采用 R 语言统计软件中
的程序包 varSelRF 对 5 个训练样本进行模型特征变
量的选择计算,得到 5 组不同的因子集,同样选择在
5 个样本组中出现 3 次及以上的变量进行最后的全
样本计算。
4 结果与分析
应用 SPSS 软件对 1974—2008 年大兴安岭塔河
地区林火数据及对应的气象因子数据进行基本统计
描述(表 1)。
4. 1 二项逻辑斯蒂回归模型的拟合
4. 1. 1 多 重 共 线 性 诊 断 多 重 共 线 性
(multicollinearity)是指线性回归模型中自变量间存在
精确相关关系或高度相关关系,会导致变量的显著性
检验失去意义及模型的预测功能失效等后果。在检
验多个自变量和因变量之间的相关性时,应先对自变
量的多重共线性进行诊断,剔除有显著共线性的自变
量。本研究运用方差膨胀因子 ( variance inflation
factor,VIF)诊断法对影响林火发生的气象因子的全
部数据进行共线性检验,以 VIF = 5 为标准,VIF 大于
5 表明自变量间存在多重共线性,需剔除相应的自变
量。经过共线性检验后,剔除了日均气温、日均相对
湿度、日最高气温、BUI 和 FWI 等 5 个变量(VIF 值分
别为 89. 696,5. 420,7. 241,163. 880,37. 721),最终,
20:00—20:00 时降水量、日均风速、日照时数、日最低
气温、日最大风速、日最小相对湿度、FFMC、DMC、DC
和 ISI 共 10 个变量 ( VIF 值分别为 1. 601,2. 023,
1. 613,1. 599,1. 900,2. 987,3. 889,1. 859,1. 942,
2. 849)进入模型拟合。
表 1 林火发生与气象因子模型变量的基本统计描述①
Tab. 1 The basic statistical description of forest fire and meteorological factors
模型变量 Variables of model 极小值 Min. 极大值 Max. 均值 Mean 标准差 SD
火点和随机点 Fire and random point 0 1. 00 0. 33 0. 47
20:00—20:00 时降水量 20:00—20:00 precipitation 0 430. 00 9. 67 32. 09
日均风速 Daily mean wind speed 0 95. 00 30. 63 14. 01
日均气温 Daily mean temperature - 266. 00 283. 00 109. 95 89. 66
日均相对湿度 Daily mean relative humidity 20. 00 97. 00 58. 83 15. 18
日照时数 Daily sunshine hours 0 148. 00 85. 34 40. 81
日最低气温 Daily minimum temperature - 336. 00 217. 00 21. 09 86. 70
日最高气温 Daily maximum temperature - 173. 00 373. 00 196. 14 99. 29
日最大风速 Daily maximum wind speed 25. 00 150. 00 66. 71 23. 30
日最小相对湿度 Daily minimum relative humidity 4. 00 95. 00 30. 70 16. 20
FFMC 14. 42 93. 60 79. 20 12. 56
DMC 0. 15 116. 87 27. 55 21. 44
DC 78. 83 660. 57 360. 35 107. 80
ISI 0 23. 80 3. 74 2. 68
BUI 0. 29 150. 61 43. 23 29. 24
FWI 0 46. 63 9. 12 7. 30
①各变量的样本数均为 1 309。Sample number of each variable is 1 309.
29
第 1 期 梁慧玲等: 基于气象因子的随机森林算法在塔河地区林火预测中的应用
4. 1. 2 逻辑斯蒂模型的拟合 对 1974—2008 年的
林火数据和当日气象因子数据进行逻辑斯蒂回归分
析,首先对 5 个训练样本进行二项逻辑斯蒂回归模
型拟合,得到 5 组不同的指标集,然后选择在 5 个样
本组中出现 3 次及以上的因子进入全样本数据拟
合。变量在各样本组及生样本中的显著性如表 2 所
示。基于全样本数据的逻辑斯蒂模型拟合结果的
R2 为 0. 244,且最终指标体系中的变量均与林火发
生有显著相关性,除日照时数外,其余因子均在 P <
0 . 01 水平上显著相关(表 3)。
表 2 逻辑斯蒂模型中变量在各样本组及全样本中的显著性①
Tab. 2 The significance of independent variables in each sample group and complete sample under
LR model
变量 Variables
样本组 1
Sample group 1
样本组 2
Sample group 2
样本组 3
Sample group 3
样本组 4
Sample group 4
样本组 5
Sample group 5
全样本
Complete sample
日均风速
Daily mean wind speed
N N N N Y N
日照时数
Daily sunshine hours
Y N Y Y Y Y
日最低气温
Daily minimum temperature
Y Y Y Y Y Y
日最大风速
Daily maximum wind speed
Y Y Y Y Y Y
日最小相对湿度
Daily minimum relative humidity
Y Y Y Y Y Y
FFMC Y Y Y Y Y Y
DMC Y Y Y Y Y Y
DC Y Y Y Y Y Y
ISI N N N N Y N
①Y:显著 Significant;N:不显著 No significant.下同 The same below.
表 3 逻辑斯蒂模型参数拟合
Tab. 3 The parameters estimation of LR model
变量
Variables
估计系数
Estimate coefficient
标准误
SE
Wals 卡方值
Chi-square value
显著水平
P( > | z | )
常量 Constant - 3. 762 1. 598 5. 541 0. 019
日照时数 Daily sunshine hours - 0. 006 0. 003 4. 449 0. 035
日最低气温 Daily minimum temperature 0. 008 0. 002 31. 203 < 0. 001
日最大风速 Daily maximum wind speed - 0. 02 0. 004 22. 561 < 0. 001
日最小相对湿度 Daily minimum relative humidity - 0. 065 0. 012 29. 271 < 0. 001
FFMC 0. 057 0. 016 12. 794 < 0. 001
DMC - 0. 013 0. 005 7. 688 0. 006
DC 0. 006 0. 001 28. 104 < 0. 001
4. 1. 3 逻辑斯蒂回归模型的检验 应用 ROC 曲线
分析法对 Logistic 回归模型的预测能力进行拟合优
度检验,并且计算林火发生的最佳临界值。图 1 为
5 个样本组和全样本模型的 ROC 曲线,表 4 为各样
本组模型的 AUC 值、显著性水平、最佳临界值和模
型的预测准确率。结果表明,6 个样本模型的 AUC
值均在 ( 0. 7,0. 9]之间,且显著性水平均小于
0. 001,说明 6 个逻辑斯蒂模型具有统计意义且拟合
较好,可用于森林火灾预测。此外,根据 ROC 曲线
分析法计算出的敏感性值和特异性值,求得判断林
火是否发生的临界值,通过建立的模型,结合临界值
计算模型预测准确率。结果显示各样本组的预测准
确率为 71. 8% ~ 76. 2% (表 4)。
4. 2 随机森林算法的拟合
4. 2. 1 随机森林算法特征变量的选择 对 1974—
2008 年的林火数据和对应的当日气象因子数据进
行随机森林算法拟合分析。表 5 为变量在各样本组
和全样本中的显著性。
4. 2. 2 随机森林算法特征变量的重要性排序 本研
究在利用随机森林算法对模型进行特征变量选择后,
分别对 5 次训练所得的特征集和最终指标体系进行
相应拟合训练,从而得到 5 个训练样本和全样本中各
因子的重要性排序(图 2)。从全样本模型来看,日最
高气温对林火发生的影响最大,DC 的影响次之,
FFMC 的影响最小。从 6 次模型拟合结果来看,日最
高气温和 DC 对林火发生的影响均高于其他变量。
39
林 业 科 学 52 卷
图 1 模型的 ROC 拟合曲线
Fig. 1 ROC curves of logistic model
表 4 逻辑斯蒂模型 AUC 值和临界值
Tab. 4 The AUC and cut-off values of LR model
项目
Item
样本组 1
Sample group 1
样本组 2
Sample group 2
样本组 3
Sample group 3
样本组 4
Sample group 4
样本组 5
Sample group 5
全样本
Complete sample
AUC 0. 815 0. 816 0. 814 0. 822 0. 829 0. 819
显著水平
Significant level
< 0. 001 < 0. 001 < 0. 001 < 0. 001 < 0. 001 < 0. 001
临界值 Cut-off 0. 277 0. 359 0. 428 0. 414 0. 360 0. 40
预测准确率
Prediction accuracy(% )
71. 8 72. 7 76. 0 75. 0 72. 9 76. 2
表 5 随机森林算法中变量在各样本组及全样本中的显著性
Tab. 5 The significance of independent variables in each sample group and complete
sample under RF agrigothm
变量
Variables
样本组 1
Sample group 1
样本组 2
Sample group 2
样本组 3
Sample group 3
样本组 4
Sample group 4
样本组 5
Sample group 5
全样本
Complete sample
日均气温
Daily mean temperature
Y Y Y Y Y Y
日均相对湿度
Daily mean relative humidity
N N Y N N N
日最低气温
Daily minimum temperature
N N Y Y N N
日最高气温
Daily maximum temperature
Y Y Y Y Y Y
日最大风速
Daily maximum wind speed
N N Y N N N
日最小相对湿度
Daily minimum relative humidity
N Y Y N Y Y
FFMC Y Y Y N N Y
DC Y Y Y Y Y Y
ISI N N Y N N N
FWI Y N Y N N N
49
第 1 期 梁慧玲等: 基于气象因子的随机森林算法在塔河地区林火预测中的应用
图 2 随机森林算法对影响林火发生的自变量的重要性排序
Fig. 2 Random forests affecting the occurrence of fire sort the importance of independent variables
平均准确率降低度是衡量将一个变量的取值变为随机数后随机森林预测准确性降低程度的指标,该值越大,说明该变量的
重要性越大(Liaw et al.,2012)。X3 :日均气温;X4 :日均相对湿度;X6 :日最低气温;X7 :日最高气温;X8 :日最大风速;X9 :日
最小相对湿度;X10 :FFMC;X12 :DC;X13 :ISI;X15 :FWI。
Mean decrease accuracy is an index——— to measure the degree of decrease on prediction accuracy when a selected variable is randomly
moved. The bigger the index,the more important the variable ( Liaw et al.,2012) . X3 :Daily mean temperature; X4 :Daily mean
relative humidity; X6 :Daily minimum temperature; X7 :Daily maximum temperature; X8 :Daily maximum wind speed; X9 :Daily
minimum relative humidity; X10 :FFMC; X12 :DC,X13 :ISI,X15 :FWI.
4. 3 2 种模型算法的对比分析
4. 3. 1 最终指标体系(显著变量) 由二项逻辑斯
蒂回归模型和随机森林算法的最终显著变量对比
(表 6)可知,最小相对湿度、FFMC 和 DC 3 个气象
因子均被选入了模型的最终指标体系。
4. 3. 2 模型预测准确率 根据模型变量选择结果,
分别对二项逻辑斯蒂回归模型和随机森林算法进行
模型预测准确率的计算。结果 (表 7)显示,5 个样
本组和全样本中,随机森林算法的正确判别率均比
二次逻辑斯蒂回归模型高,在 5 个样本组的训练和
测试样本中,随机森林算法分别高于逻辑斯蒂模型
8%和 10%左右;在全样本的模型预测中,二项逻辑
斯蒂回归模型和随机森林算法对全样本的预测准确
率分别为 76. 2%和 85. 0%,与前 5 个样本组的结果
一致。
为进一步比较二项逻辑斯蒂回归模型和随机森
林算法的预测精度,进行了 2 个模型的“变量交互
验证”试验,即基于随机森林算法确定的显著变量,
使用二项逻辑斯蒂回归模型对全样本数据进行拟
合,并与随机森林算法进行拟合准确度对比;此外,
基于二项逻辑斯蒂回归模型确定的显著变量,使用
随机森林算法对全样本数据进行拟合,并与二项逻
辑斯蒂回归模型进行拟合准确度对比。结果表明,
随机森林算法的拟合效果比二项逻辑斯蒂模型的拟
合效果好(表 8)。
表 6 逻辑斯蒂模型和随机森林算法中最终显著变量对比
Tab. 6 The independent variables in the final model of LR model and RF algorithm
模型 Model 指标体系 The indicator system
逻辑斯蒂回归模型
LR model
日照时数 Daily sunshine hours,日最低气温 Daily minimum temperature,
日最大风速 Daily maximum wind speed,日最小相对湿度 Daily minimum relative humidity,FFMC,DMC,DC
随机森林算法
RL algorithm
日均气温 Daily mean temperature,日最高气温 Daily maximum temperature,
日最小相对湿度 Daily minimum relative humidity,FFMC,DC
59
林 业 科 学 52 卷
表 7 逻辑斯蒂模型和随机森林算法的预测校正率
Tab. 7 Prediction accuracy of LR model and RF algorithm
项目
Item
逻辑斯蒂模型 LR model(% ) 随机森林算法 Random forest(% )
训练样本
The training sample(60% )
测试样本
The test sample(40% )
训练样本
The training sample(60% )
测试样本
The test sample(40% )
样本组 1 Sample group 1 75. 4 71. 8 82. 5 83. 4
样本组 2 Sample group 2 75. 7 72. 7 83. 7 81. 3
样本组 3 Sample group 3 76. 1 76. 0 81. 7 84. 7
样本组 4 Sample group 4 75. 7 75. 0 82. 7 81. 1
样本组 5 Sample group 5 77. 3 72. 9 83. 6 82. 6
表 8 指标体系交叉试验结果
Tab. 8 Indicator system of cross test results
逻辑斯蒂模型 LR model 随机森林算法 RF algorithm
LR 指标体系 Indicator system of LR(% ) 76. 2 86. 0
RF 指标体系 Indicator system of RF(% ) 72. 8 85. 0
5 结论与讨论
本文应用传统的二项逻辑斯蒂回归模型和随机
森林算法研究了大兴安岭塔河地区林火发生与气象
因子之间的关系。结果表明,随机森林算法的预测
准确率比二项逻辑斯蒂回归模型高出 10%左右,说
明随机森林算法的拟合预测效果比二项逻辑斯蒂回
归模型好,可在该地区依靠气象因子进行林火发生
的预测预报。
在二项逻辑斯蒂回归模型的多重共线性检验
中,剔除了日均气温、日均相对湿度、日最高气温、
BUI 和 FWI 等 5 个因子,而随机森林算法在对 5 个
样本组进行变量的选择中,5 个特征集并没有全部
剔除这 5 个因子,且将多重共线性检验所剔除的日
均气温和日最高气温纳入了模型的最终指标体系,
日最高气温在最终指标体系的重要性排序中得分最
高(排序第 1),即对林火发生的影响最大,而日均气
温得分相对较低。多重共线性检验考虑的是自变量
之间的相关性而并未考虑所剔除的变量是否对因变
量有所影响,因此,在对变量进行多重共线性检验时
有可能剔除了对林火发生有显著影响的气象因子。
另外值得注意的是,在应用随机森林算法对森林火
灾进行预测时,无法给出具体的模型表达式,因此无
法简单地根据公式进行预测,但仍可根据实测数据
对研究区域火险等级或林火发生概率进行预测和
划分。
本文气象因子分析结果表明日最高气温、日均
气温、日最小相对湿度、细小可燃物湿度码和干旱码
是影响林火发生的主要气象因子。相对湿度是衡量
林内可燃物含水率的一个重要指标,对林火发生有
重要的影响 (毛光伶,1988),而气温的高低直接影
响了相对湿度的变化,减少可燃物的含水率,从而降
低可燃物着火点,与林火发生的关系亦极为密切。
日最高气温、日均气温和日最小相对湿度被证实对
塔河地区林火发生具有显著影响,这与 Chang 等
(2013)和 Guo 等(2015)的研究结果一致。此外,研
究显示细小可燃物湿度码也与塔河地区林火发生具
有显著相关性,这与田晓瑞等 (2010) 的研究结果
一致。
本文只是基于气象因子对林火发生进行分析,
未在模型变量中考虑林型、人为活动、社会经济等其
他因素,因此可能会在森林火灾预测预报中产生一
定误差,以后研究中应进一步分析这些因素对林火
发生的影响。目前,已有研究将地理空间位置考虑
到二项逻辑斯蒂回归模型和随机森林算法中( Stum
et al.,2010; Saefuddin et al.,2012; Rodrigues et al.,
2014b),而本研究在林火发生的影响因素分析中没
有引入空间信息,今后可考虑引入空间变量,建立空
间区域模型,以提高模型的预测精度。另外,随机森
林算法的第 3 次试验所得的特征变量明显多于其他
4 次试验所得的结果,这可能与样本的随机选取
有关。
参 考 文 献
邓 欧,李亦秋,冯仲科,等 . 2012. 基于空间 Logistic 的黑龙江省林
火风险模型与火险区划 .农业工程学报,28 (8) :200 - 205.
(Deng O,Li Y Q,Feng Z K,et al. 2012. Model and zoning of forest
fire risk in Heilongjiang Province based on spatial Logistic.
Transactions of the Chinese Society of Agricultural Engineering,
28(8) : 200 - 205. [in Chinese])
邸雪颖,李永福,孙 建,等 . 2011.黑龙江省大兴安岭地区塔河县森
林火险天气指标动态 .应用生态学报,22(5) :1240 - 1246.
(Di X Y,Li Y F,Sun J,et al. 2011. Dynamics of forest fire weather
indices in Tahe County of Great Xing’an Mountains region,
69
第 1 期 梁慧玲等: 基于气象因子的随机森林算法在塔河地区林火预测中的应用
Heilongjiang Province. Chinese Journal of Applied Ecology,22
(5) : 1240 - 1246. [in Chinese])
杜春英,李 帅,刘 丹,等 . 2010.大兴安岭地区森林雷击火发生的
时空分布 .自然灾害学报,19 (3) :72 - 76.
(Du C Y,Li S,Liu D,et al. 2010. Spatiotemporal distribution of
lightning-caused forest fires in Daxing’anling area. Journal of
Natural Disasters,19(3) : 72 - 76. [in Chinese])
胡海清 . 2005. 林火生态与管理 . 北京: 中国林业出版社,
(Hu H Q. 2005. Forest ecology and management. Beijing: China
Forestry Publishing House. [in Chinese])
巩亚楠,帕提麦·马秉成,朱登浩,等 . 2014. 随机森林与 Logistic 回归
在预约挂号失约影响因素预测中的应用 . 现代预防医学,41
(5) :769 - 772.
(Gong Y N,PaTimai Ma B C,Zhu D H,et al. 2014. Application of
random forests and logistic regression in prediction of influencing
factors of missed appointment registration. Modern Preventive
Medicine,41(5) :769 - 772. [in Chinese])
郭福涛,苏漳文,马祥庆,等 . 2015. 大兴安岭塔河地区雷击火发生
驱动因子综合分析 . 生态学报,35 (19) :6439 - 6488.
(Guo F T,Su Z W,Ma X Q,et al. 2015. Comprehensive analysis of
driving factors for lightning-caused fire in Tahe, Daxing’an
Mountain. Acta Ecologica Sinica,35 ( 19 ) : 6439 - 6488. [in
Chinese])
郭福涛,胡海清,马志海,等 . 2010. 不同模型对拟合大兴安岭林火
发生与气象因素关系的适用性 . 应用生态学报,21 ( 1 ) :
159 - 164.
(Guo F T,Hu H Q,Ma Z H,et al. 2010. Applicability of different
models in simulating the relationships between forest fire occurrence
and weather factors in Daxing’an Mountains. Chinese Journal of
Applied Ecology,21(1) : 159 - 164. [in Chinese])
李欣海 . 2013. 随机森林模型在分类与回归分析中的应用 . 应用昆
虫学报,(4) :1190 - 1197.
( Li X H. 2013. Using“random forest”for classification and regression.
Chinese Journal of Applied Entomology,50(4) : 1190 - 1197. [in
Chinese])
柳生吉,杨 健 . 2013. 基于广义线性模型和最大熵模型的黑龙江
省林火空间分布模拟 . 生态学杂志,32 (6) :1620 - 1628.
( Liu S J,Yang J. 2013. Modeling spatial patterns of forest fire in
Heilongjiang Province using generalized linear model and maximum
entropy model. Chinese Journal of Ecology,32 (6) : 1620 - 1628.
[in Chinese])
毛光伶 . 1988. 林火与气象条件相互关系及其预报 . 气象,14 (9) :
52 - 54.
(Mao G L. 1988. The relationship between forest fire and weather
conditions and forecasts. Atmosphere,14 ( 9 ) : 52 - 54. [in
Chinese])
彭国兰 . 2007. 随机森林在企业信用评估中的应用 . 厦门:厦门大学
硕士学位论文 .
(Peng G L. 2007. Application of Random Forests to Enterprises Credit
Assessment. Xiamen: MS thesis of Xiamen University. [ in
Chinese])
彭 欢,史明昌,孙 瑜,等 . 2014. 基于 Logistic 的大兴安岭雷击火
预测模型 . 东北林业大学学报,42 (7) :166 - 169.
( Peng H,Shi M C,Sun Y,et al. 2014. Lightning fire forecasting model
of Daxing’an Mountain based on Logistic model. Journal of
Northeast Forestry University,42(7) : 166 - 169. [in Chinese])
孙 瑜,史明昌,彭 欢,等 . 2014. 基于 MAXENT 模型的黑龙江大
兴安 岭 森 林 雷 击 火 火 险 预 测 . 应 用 生 态 学 报,25 ( 4 ) :
1100 - 1106.
( Sun Y,Shi M C,Peng H,et al. 2014. Forest lighting fire forecasting
for Daxing’anling Mountains based on MAXENT model. Chinese
Journal of Applied Ecology,25 (4) :1100 - 1106. [in Chinese])
田晓瑞,McRae D J,金继忠,等 . 2010. 大兴安岭地区森林火险变化
及 FWI 适用性评估 .林业科学,46 (5) :127 - 132.
(Tian X R,McRae D J,Jin J Z,et al. 2010. Changes of forest fire
danger and the evaluation of the FWI system application in the
Daxing’anling region. Scientia Silvae Sinicae,46 (5) :127 - 132.
[in Chinese])
王明玉,舒立福,田晓瑞,等 . 2003.林火在空间上的波动性及其对全
球变化的响应(Ⅱ) .火灾科学,12 (3) : 171 - 176.
(Wang M Y,Shu L F,Tian X R,et al. 2003. Spatial fluctuation of
forest fires and their response to global change. Fire Safety Science,
12 (3) : 171 - 176. [in Chinese])
武晓岩,李 康 . 2006. 基因表达数据判别分析的随机森林方法 . 中
国卫生统计,23(6) :491 - 494.
(Wu X Y,Li K. 2006. The application of random forests for the
classification of gene expression data. Chinese Journal of Health
Statistics,23(6) :491 - 494. [in Chinese])
武晓岩,闫晓光,李 康 . 2007. 基因表达数据的随机森林逐步判别
分析方法 . 中国卫生统计,24(2) :151 - 154.
(Wu X Y,Yan X G,Li K. 2007. The stepwise discriminant analysis of
random forests used in gene expression data. Chinese Journal of
Health Statistics,24(2) :151 - 154. [in Chinese])
杨沐晞 . 2012. 基于随机森林模型的二手房价格评估研究 . 长沙:中
南大学硕士学位论文 .
(Yang M X. 2012. The price evaluation research of second-hand house
based on the random forest model. Changsha: MS thesis of Central
South University. [in Chinese])
姚登举,杨 静,詹晓娟 . 2014. 基于随机森林的特征选择算法 . 吉
林大学学报:工学版,44(1) :137 - 141.
(Yao D J,Yang J,Zhan X J. 2014. Feature selection algorithm based
on random forest. Journal of Jilin University : Engineering and
Technology Edition,44(1) : 137 - 141. [in Chinese])
张 雷,王琳琳,张旭东,等 . 2014. 随机森林算法基本思想及其在
生态学中的应用———以云南松分布模拟为例 . 生态学报,
34(3) :650 - 659.
(Zhang L,Wang L L,Zhang X D,et al. 2014. The basic principle of
random forest and its applications in ecology: a case study of Pinus
yunnanensis. Acta Ecologica Sinica,34 ( 3 ) : 650 - 659. [in
Chinese])
张 巍 . 2009.森林定位观测与森林火险预警建设———大兴安岭国
家森林生态观测站为例 . 内蒙古农业大学学报,30 ( 1 ) :
127 - 131.
(Zhang W. 2009. The relationship between forest fire danger forecast
and local forest observation case on Daxing’anling Mountain of Inner
Mongolia local observation station. Journal of Inner Mongolia
79
林 业 科 学 52 卷
Agricultural University,30 (1) :127 - 131. [in Chinese])
赵凤君,王明玉,舒立福,等 . 2009. 气候变化对林火动态的影响研
究进展 . 气候变化研究进展,5 (1) : 50 - 55.
(Zhao F J,Wang M Y,Shu L F,et al. 2009. Progress in studies on
influences of climate change on forest fire regime. Advances in
Climate Change Research,5 (1) : 50 - 55. [in Chinese])
朱沛林,史明昌,Mike Wotton,等 . 2014. 黑龙江大兴安岭雷击火概率
预测模型研究 . 中南林业科技大学学报,34 (8) :82 - 85.
(Zhu P L,Shi M C,Wotton M,et al. 2014. A preliminary study on
lightning-caused fire probability prediction model for Daxing’anling
forest region. Journal of Central South University of Forestry &
Technology,34 (8) :82 - 85. [in Chinese])
Chuvieco E,Giglio L,Justice C. 2008. Global characterization of fire
activity: towards defining fire regimes from earth observation data.
Global Change Biology,14(7) :1488 - 1502.
Chas-Amil M L,Prestemon J P,McClean C J,et al. 2015. Human-
ignited wildfire patterns and responses to policy shifts. Applied
Geography,56:164 - 176.
Chang Y,Zhu Z L,Bu R C,et al. 2013. Predicting fire occurrence
patterns with logistic regression in Heilongjiang Province,China.
Landscape Ecology,28(10) :1989 - 2004.
Cutler D R,Edwards T J,Beard K H,et al. 2007. Random forests for
classification in ecology. Ecology,88(11) :2783 - 2792.
Girardin M P,Ali A A,Carcaillet C,et al. 2013. Fire in managed forests
of eastern Canada: Risks and options. Forest Ecology and
Management,258(3) :238 - 249.
Genuer R,Poggi J,Tuleau-Malot C. 2010. Variable selection using
random forests. Pattern Recognition Letters,31(14) :2225 - 2236.
Guo F T,Innes J L,Wang G Y,et al. 2015. Historic distribution and
driving factors of human-caused fires in the Chinese boreal forest
between 1972 and 2005. Journal of Plant Ecology,8 ( 5 ) :
480 - 490.
Liaw A,Wiener M. 2002. Classification and regression by random forest.
R news,(2) :18 - 22.
NIFC( Naitional Interagency Fire Center) . 2004. Urban-wild-land and
wildland fire statistics. National Interagency Fire Center,Boise,
Idaho,USA.
Oliveira S,Oehler F,San-Miguel-Ayanz J,et al. 2012. Modeling spatial
patterns of fire occurrence in Mediterranean Europe using Multiple
Regression and Random Forest. Forest Ecology and Management,
275(4) :117 - 129.
Prasad A M,Iverson L R,Liaw A. 2006. Newer classification and
regression tree techniques: Bagging and random forests for ecological
prediction. Ecosystems,9(2) :181 - 199.
Rodrigues M,de la Riva J. 2014a. An insight into machine-learning
algorithms to model human-caused wildfire occurrence.
Environmental Modelling & Software,57:192 - 201.
Rodrigues M,de la Riva J,Fotheringham S. 2014b. Modeling the spatial
variation of the explanatory factors of human-caused wildfires in
Spain using geographically weighted logistic regression. Applied
Geography,48:52 - 63.
Saefuddin A,Setiabudi N A,Fitrianto A. 2012. On comparison between
logistic regression and geographically weighted logistic regression:
with application to Indonesian poverty data. World Applied Sciences
Journal,19(2) :205 - 210.
Stum A K,Boettinger J L,White M A,et al. 2010. Random forests
applied as a soil spatial predictive model in Arid Utah∥Digital Soil
Mapping. Progress in Soil Science Vol 2. Springer Netherlands,
179 - 190.
Zhong M H,Fan W C,Liu T M,et al. 2003. Statistical analysis on
current status of China forest fire safety. Fire Safety Journal,38:
257 - 269.
(责任编辑 朱乾坤)
89