免费文献传递   相关文献

Selection of advantage prediction model for forest fire occurrence in Tahe, Daxing’an Mountain.

大兴安岭塔河地区林火发生的优势预测模型选择


选取在经济学和社会科学领域广泛应用的零膨胀模型(zero-inflated models)和栅栏模型(Hurdle models)对大兴安岭地区林火发生进行模拟,应用赤池准则(AIC)、似然比检验(LR)和模型残差平方和(SSR)对两类共4个回归模型——零膨胀泊松模型(ZIP)、零膨胀负二项模型(ZINB)、栅栏泊松模型(PH)、栅栏负二项模型(NBH)进行拟合分析,最终选取适合此林火发生特性的预测模型.模型的AIC和SSR值表明,ZINB模型对当地林火数据的拟合度最高.运用LR检验对嵌套模型(ZINB与ZIP,NBH与PH)进行检验,结果显示: ZINB和NBH均优于各自的嵌入模型,说明负二项(NB)模型对数据结构中的过度离散现象可以很好地模拟和解释.根据研究区林火实际发生规律和两类不同模型的应用假设条件判断,零膨胀模型更适合塔河地区的林火特性.

This study chose zero-inflated model and Hurdle model that have been widely used in economic and social fields to model the fire occurrence in Tahe, Daxing’an Mountain. The AIC, LR and SSR were used to compare the models including zero-inflated Poisson model (ZIP), zero-inflated negative binomial model (ZINB), Poisson-Hurdle model (PH) and negative Binomial Hurdle (NBH) (two types, four models in total) so as to determine a better-fit model to predict the local fire occurrence. The results illustrated that ZINB model was superior over the other three models (ZIP, PH and NBH) based on the result of AIC and SSR tests. LR test revealed that the negative binomial distribution was suitable to both the “count” portion of zero-inflated model and hurdle model. Furthermore, this paper concluded that the zero-inflated model could better fit the fire feature of the study area according to the hypotheses of the two types of models.


全 文 :大兴安岭塔河地区林火发生的优势预测模型选择*
秦凯伦1 摇 郭福涛2**摇 邸雪颖1 摇 孙摇 龙1 摇 宋禹辉2 摇 吴摇 瑶3 摇 潘建峰4
( 1东北林业大学林学院, 哈尔滨 150040; 2福建农林大学, 福州 350002; 3 黑龙江省林业科学研究所, 哈尔滨 150081; 4江西
农业大学, 南昌 330045)
摘摇 要摇 选取在经济学和社会科学领域广泛应用的零膨胀模型( zero鄄inflated models)和栅栏
模型(Hurdle models)对大兴安岭地区林火发生进行模拟,应用赤池准则(AIC)、似然比检验
(LR)和模型残差平方和(SSR)对两类共 4 个回归模型———零膨胀泊松模型(ZIP)、零膨胀负
二项模型(ZINB)、栅栏泊松模型(PH)、栅栏负二项模型(NBH)进行拟合分析,最终选取适合
此林火发生特性的预测模型.模型的 AIC和 SSR值表明,ZINB模型对当地林火数据的拟合度
最高.运用 LR检验对嵌套模型(ZINB与 ZIP,NBH与 PH)进行检验,结果显示: ZINB 和 NBH
均优于各自的嵌入模型,说明负二项(NB)模型对数据结构中的过度离散现象可以很好地模
拟和解释.根据研究区林火实际发生规律和两类不同模型的应用假设条件判断,零膨胀模型
更适合塔河地区的林火特性.
关键词摇 林火发生摇 模型拟合度摇 栅栏模型摇 泊松分布摇 负二项分布摇 零膨胀模型
文章编号摇 1001-9332(2014)03-0731-07摇 中图分类号摇 S762. 2摇 文献标识码摇 A
Selection of advantage prediction model for forest fire occurrence in Tahe, Daxing爷an Moun鄄
tain. QIN Kai鄄lun1, GUO Fu鄄tao2, DI Xue鄄ying1, SUN Long1, SONG Yu鄄hui2, WU Yao3, PAN
Jian鄄feng4 ( 1College of Forestry, Northeast Forestry University, Harbin 150040, China; 2Fujian Ag鄄
riculture and Forestry University, Fuzhou 350002, China; 3Heilongjiang Academy of Forestry, Har鄄
bin 150081, China; 4Jiangxi Agricultural University, Nanchang 330045, China) . 鄄Chin. J. Appl.
Ecol. , 2014, 25(3): 731-737.
Abstract: This study chose zero鄄inflated model and Hurdle model that have been widely used in
economic and social fields to model the fire occurrence in Tahe, Daxing爷 an Mountain. The AIC,
LR and SSR were used to compare the models including zero鄄inflated Poisson model (ZIP), zero鄄
inflated negative binomial model ( ZINB), Poisson鄄Hurdle model ( PH) and negative Binomial
Hurdle (NBH) (two types, four models in total) so as to determine a better鄄fit model to predict the
local fire occurrence. The results illustrated that ZINB model was superior over the other three mod鄄
els (ZIP, PH and NBH) based on the result of AIC and SSR tests. LR test revealed that the nega鄄
tive binomial distribution was suitable to both the “count冶 portion of zero鄄inflated model and hurdle
model. Furthermore, this paper concluded that the zero鄄inflated model could better fit the fire fea鄄
ture of the study area according to the hypotheses of the two types of models.
Key words: fire occurrence; goodness鄄of鄄fit of model; Hurdle model; Poisson distribution; nega鄄
tive binomial distribution; zero鄄inflated model.
*“十二五冶农村领域国家科技计划项目(2011BAD08B01鄄03)和中
央高校基本科研业务费专项资金项目资助.
**通讯作者. E鄄mail: guofutao. ubc@ gmail. com
2013鄄08鄄28 收稿,2013鄄12鄄27 接受.
摇 摇 林火是森林生态系统重要的干扰因子,对森林
结构和功能都有着重要影响,也是造成森林损失的
主要因素[1] .大兴安岭地区是我国重要的森林资源
储藏地,也是林火的高发区.如何有效地对该地区林
火进行预测预报,是林火管理工作的重点. 因此,探
讨该地区的最优林火预测模型具有十分重要的意
义.在林火预测预报领域,数学模型是一种最常见的
分析手段,通过建模分析,判断对林火发生有决定性
作用的影响因子,并依据该因子的变化趋势预测未
来林火发生的频率和强度.多年来,各国学者以数学
模型为手段,对林火发生预测问题进行了广泛深入
的研究.很多学者运用逻辑斯谛模型(Logistic mo鄄
应 用 生 态 学 报摇 2014 年 3 月摇 第 25 卷摇 第 3 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇
Chinese Journal of Applied Ecology, Mar. 2014, 25(3): 731-737
del)预测每日林火发生[2-6] . Logistic 模型通常用来
解释林火发生的概率,而林火发生数量的预测通常
使用泊松回归(Poisson regression)模型[7-11] .泊松回
归模型的假设条件为数据的方差和均值相等,但实
际林火数据通常是过度离散型结构(方差和均值不
相等),从而导致模型估计值与实际值存在很大误
差.负二项模型(negative binomial,NB)常被用来弥
补泊松回归的不足[12-14] . 此外,在林火发生数量与
影响因子的研究中,数据结构在过度离散的同时还
经常出现大量的“0冶值(没有林火发生).对于此,零
膨胀模型( zero鄄inflated models)已被证明是处理该
类型数据的合适选择[15-18],且研究结果表明,零膨
胀模型对林火发生的预测能力优于之前提到的
Poisson以及 NB模型. 零膨胀模型包括零膨胀泊松
(zero鄄inflated Poisson)和零膨胀负二项模型(zero鄄in鄄
flated negative binomial),也可理解为零膨胀泊松和
零膨胀负二项模型是泊松和负二项模型针对“0冶膨
胀问题的升级版.
随着研究的深入,发现在医疗卫生领域使用的
栅栏模型 (Hurdle models) [19-20]与零膨胀模型(zero鄄
inflated model)一样能够很好地解释过度离散和“0冶
膨胀问题.但栅栏模型的假设条件与零膨胀模型有
所不同.针对数据结构中“0冶膨胀现象,零膨胀模型
认为“0冶应该分为两部分,分别为“结构性的零冶和
“样本性的零冶;而栅栏模型认为数据结构中所有
“0冶都来源于“结构性的零冶 [20-21] . 目前,栅栏模型
还没有应用于我国林火预测研究中.鉴于此,本文在
前人研究基础上,选用被证实的优势模型,即零膨胀
模型与未曾应用于我国林火预测研究中的栅栏模型
进行实例分析,运用统计检验方法对此二类(4 种)
模型进行评价,选取适合大兴安岭地区林火发生特
性的最佳预测模型,以期为大兴安岭地区林火预测
提供一定的理论依据.
1摇 研究地区与研究方法
1郾 1摇 研究区概况
大兴安岭塔河林业局位于大兴安岭林区
(50毅10忆—53毅33忆 N, 121毅12忆—127毅00忆 E)的中心地
带,属于海西褶皱带(图 1).全区北部较低,南边较
高,属寒温带季风气候. 年均气温-2 ~ 4 益,年降水
量 350 ~ 500 mm,相对湿度 70% ~ 75% . 年积雪期
达 5 个月,林内雪深可达 30 ~ 50 cm.塔河地区大风
天气在四季均可发生,主要集中在春季,以 4、5 月最
多,夏、秋、冬较少.
图 1摇 研究区域示意图
Fig. 1摇 Sketch map of the study area.
摇 摇 塔河地区的森林是我国有代表性的寒温带森林
(或称为寒温性森林),具有植物种多样性低、乔木
组成树种非常简单等特点. 植被以兴安落叶松林和
白桦林为主.历史上塔河地区是火灾多发区,人为火
源和雷击火源共同存在.从次数来说,人为火约占火
灾总数的 2 / 3;从面积来说,雷击火的过火面积高于
人为火.
1郾 2摇 数据来源
林火发生数据来源于大兴安岭地区塔河县森林
防火办公室.数据包括 1974—2009 年塔河地区林火
发生情况数据(起火地理坐标、起火原因、发生时
间、过火面积等).历史气象数据来源于中国气象数
据共享网络(http: / / cdc. cma. gov. cn / ) .数据包括塔
河气象站 1972—2012 年每日气象数据, 包括
20:00—20:00 降水量(mm)、极大风速(m·s-1)、极
大风速的风向、平均本站气压 ( hPa)、平均风速
(m·s-1)、平均气温(益)、平均水汽压(hPa)、平均
相对湿度 (% )、日照时数 ( h)、日最低本站气压
(hPa)、日最低气温(益)、日最高本站气压( hPa)、
日最高气温(益)、最大风速(m·s-1)、最大风速的
风向、最小相对湿度(% )16 个气象因子. 气象数据
下载后,根据数据提供方的数据使用说明,对数据进
行预处理,剔除缺失数据,确保用于建模数据的完
整性.
1郾 3摇 研究方法
1郾 3郾 1 多重共线性检验 摇 多重共线性分析结果显
示,自变量(气象因子)之间存在显著的共线性. 根
据方差膨胀因子(variance inflation factor,VIF)指标
逐步排除共线性因子,最后选择降水量、平均风速、
平均温度、平均大气压、平均相对湿度、日照时数、最
低气温、最高气温、最大风速、最小风速 10 个气象因
子用来进行最终的模型运算. 表 1 为模型中自变量
和因变量因子的基本统计分析.
237 应摇 用摇 生摇 态摇 学摇 报摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 25 卷
表 1摇 模型变量的基本统计
Table 1摇 Basic statistic of model variables
变量
Variable
均值
Mean
标准差
SD
最小值
Minimum
最大值
Maximum
方差
Variance
林火发生次数 Fire occurrence number 0. 14 0. 61 0. 00 16. 00 0. 37
降水量 Rainfall (mm) 14. 36 43. 22 0. 00 50. 00 1868. 08
平均风速 Average wind (m·s-1) 2. 94 1. 39 0. 00 12. 80 19. 37
平均温度 Average temperature (益) 9. 58 8. 68 -26. 60 28. 30 753. 59
平均大气压 Average pressure (hPa) 81. 55 50. 19 5. 00 247. 00 2519. 19
平均相对湿度 Average relative humidity (% ) 61. 33 16. 21 20. 00 98. 00 262. 68
日照时数 Sunshine hours 7. 58 4. 33 0. 00 14. 80 188. 32
最小温度 Minimum temperature (益) 1. 39 8. 85 -33. 60 21. 70 783. 85
最大温度 Maximum temperature (益) 17. 72 9. 45 -17. 30 37. 30 894. 06
最大风速 Maximum wind speed (m·s-1) 6. 39 2. 54 2. 00 15. 00 50. 80
最小相对湿度 Minimum relative humidity (% ) 32. 66 16. 68 0. 00 96. 00 278. 18
1郾 3郾 2 零膨胀模型摇 零膨胀模型可以有效地解决过
度离散和“0冶过多的问题,其由两部分组成:第一部
分为逻辑斯谛模型,用来解释林火发生的可能性
(概率),也是数据结构中“0冶的重要产生来源(棕i);
第二部分是 Poisson或 NB 模型,主要用来预测林火
发生的数量(姿 i). 根据模型第二部分的不同,零膨
胀模型又分为零膨胀泊松模型(ZIP)和零膨胀负二
项模型(ZINB).
ZIP模型的因变量因子 Yi( i=1,…,n)具有如下
分布特征:
Pr(Yi = yi)=
棕i+(1-棕i)exp(-姿 i)摇 摇 摇 yi =0
(1-棕i)exp(-姿 i)姿yii / yi! yi
{ >0
式中:参数 姿 i 和 棕i 分别取决于协变量 xi 和 zi .本文
选取的具体模型为:
log(姿 i)= xi t茁和 log
棕i
1-棕
æ
è
ç
ö
ø
÷
i
= zi t酌
模型均值和方差分别为 E(Yi) = (1-棕i)姿 i 和
Var(Yi)= (1-棕i)姿 i(1+棕i姿 i).
ZINB模型可以认为是 ZIP模型的变形,其模型
因变量因子分布特征为:
Pr(Yi = yi)=

棕i+(1-棕i)(1+琢姿ci ) -姿
1-ci / 琢
(1-棕i)
祝(yi+姿1-ci / 琢
yi! 祝(姿1-ci / 琢)

(1+琢姿ci ) -姿
1-ci / 琢伊(1+姿-ci / 琢) -y
ì
î
í
ï
ïï
ï
ïï i
摇 摇 摇 摇
yi =0
yi>0
式中:琢(逸0)是离散参数,假设其不取决于协方差.
模型的均值和方差分别为 E(Yi)= (1-棕i)姿 i 和 Var
(Yi)= (1-棕i)姿 i(1+棕i姿 i+琢姿ci ),当 琢 无限趋近于 0
时,ZINB分布缩变为 ZIP [22-23] .
1郾 3郾 3 栅栏模型 摇 Mullahy[24] 首次提出栅栏模型
(Hurdle model),随后被广泛应用于点数据的拟合.
对比零膨胀模型,Hurdle模型又称两部分模型. Hur鄄
dle模型把事件分为两个不同的数据产生过程,第一
个过程决定零事件和非零事件发生的可能性,发生
取值为 1,未发生取值“0冶.第一个过程取值为 1 时,
表示发生了研究事件,则模型运算跨越了栅栏进入
第二阶段[13] .模型第一部分即“0冶事件有不同的连
接函数,包括 Logit、Probit 等,第二部分为典型零截
尾形式( zero鄄truncated)的标准离散分布,如泊松和
负二项分布.本文根据模型第一部分的连接函数和
第二部分的分布,主要研究 Logit鄄Poisson Hurdle 模
型和 Logit鄄NB Hurdle 模型. Hurdle 模型表达式
如下:
f(yi | xi)=
棕i
(1-棕i)
f i(yi)
1-f i(0
ì
î
í
ïï
ïï )
摇 摇
yi =0
yi>0,0臆棕i臆1
式中:棕i 为事件数取“0“的概率;(1-棕i)为跨越栅
栏的概率;
f i(yi)
1-f1(0)
表示零截尾的计数概率分布. 将
零截尾泊松分布表达式带入 Hurdle 模型,得到如下
泊松栅栏模型:
f(yi |xi)=
棕i
(1-棕i)P
{
Zero鄄trun鄄Poisson

yi =0
yi>0,0臆棕i臆1
式中: 零截尾泊松概率 分 布 为 PZero鄄trun鄄Poisson =
e-姿i姿yii
(1-e-姿i)yi!
;姿 i 为事件发生次数. PH 模型的对数似
然函数为:
詛詛 =移
n
i = 1
[ I(yi= 0)log(棕i) + I(yi > 0)log((1 -
棕i)PZero鄄trun鄄Poisson)]
式中:玉(·)为指示变量.
3373 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 秦凯伦等: 大兴安岭塔河地区林火发生的优势预测模型选择摇 摇 摇 摇 摇
将零截尾负二项分布带入 Hurdle 模型中,可得
到负二项 Hurdle模型:
f(yi |xi)=

(1-棕i)P{ Zero鄄trun鄄NB摇 摇 摇
yi =0
yi>0,0臆棕i臆1
式中,PZero鄄trun鄄NB =[
祝(yi+琢-1)
yi! 祝(琢-1)
( 琢
-1
琢-1+姿i
)琢-1(
姿i
琢-1+姿i
)yi] /
[1-(1+琢姿i)-琢
-1]为零截尾负二项概率分布. NBH 模
型的对数似然函数为:
詛詛=移
n
i = 1
[ I(yi=0)log(棕i)]+移
n
i = 1
[ I(yi >0)
(log (1 - 棕i)PZero鄄trun)]
1郾 3郾 4 模型拟合与评估摇 本研究的模型因变量为每
日林火发生数量,自变量为与之对应的每日气象因
子.经统计,1974—2009 年间塔河地区有记录林火
发生数量为 444 次,模型中因变量总数为 3201(每
个着火点所对应月份的天数相加). 自变量依照因
变量的数量对应选取.随机选取 2560(80% )样本数
量进行模型拟合,剩余 20%进行模型校验. 林火数
据(因变量)的初步统计结果显示,数据属于离散型
数据(图 2),其均值和方差分别为 0. 137 和 0. 366.
摇 摇 由图 2 可以看出,本研究的数据结构显示过度
离散和“0冶膨胀两个特点. 本文中的模型拟合通过
R 软件计算完成.运用方差膨胀因子(variance infla鄄
tion factor, VIF)检验各自变量因子(气象因子)的
多重共线性.通常,VIF 值大于 10,表示自变量之间
存在共线性,需要对自变量进行删除或调整[25] .
本文应用如下统计方法对比各模型的拟合度和
预测能力:1)用似然比检验( likelihood ratio test)来
比较嵌套模型之间的拟合优度,通常情况下,嵌入模
型比被嵌入模型的假设条件简单,因此卡方检验的
显著性水平 P<0. 05 时说明模型之间存在显著差
异,且被嵌入模型(复杂模型)拟合优度较高.本研
图 2摇 林火发生次数与对应频率分布
Fig. 2 摇 Fire occurrence number and corresponding frequency
distribution.
究中,ZINB与 ZIP、NBH 与 PH 互为嵌套模型;2)用
赤池准则(The Akaike Information Criterion, AIC)来
比较各模型的拟合优度,AIC值越小,说明模型拟合
优度越高;3)应用残差平方和 (sum of squared resid鄄
uals, SSR)来估计模型自身的拟合优度.
2摇 结果与分析
2郾 1摇 模型整体拟合优度检验
本研究运用相同的因变量(林火发生)和自变
量(气象因素)对 ZIP、ZINB、PH 和 NBH 4 个模型进
行拟合,以便于结果的对比分析. 根据 AIC 检验结
果(表 2),ZINB(1745. 14) 和 NBH(1752. 06)模型
的拟合结果优于 ZIP(1778. 31)和 PH(1773. 47).
ZINB与 ZIP、NBH 与 PH 的似然比检验(The likeli鄄
hood ratio ) 结果分别为 35. 169 和 23郾 422 ( P <
0郾 0001),说明用来拟合数据中“点冶部分时,NB 模
型明显优于 Poisson 模型. 结合以往研究可以推论,
日尺度和月尺度林下火发生次数均符合负二项分布
原则[17-18] .残差平方和( SSR)计算结果(表 2)与
AIC的检验结果一致,ZINB的 SSR最小(2641. 53),
之后依次为 NBH(2748. 95)、PH(2788郾 23)和 ZIP
(3111. 51). AIC、SSR 和 LR 的综合检验结果证实,
针对数据结构中的“点冶部分,负二项模型的拟合优
越性高于泊松模型. 然而,对数据结构中“零冶部分
的拟合,零膨胀模型和栅栏模型并没有表现出明显
的优劣. ZINB 的拟合优度最高,ZIP 的拟合优度最
低,零膨胀模型并没有体现出整体优势.由于 LR 检
验主要是检验模型嵌套部分的拟合度,如 ZIP 和
ZINB模型中的 Poisson和 NB部分.因此并不能确定
针对数据中“零冶部分的最优模型.
零膨胀模型认为,数据结构中的“0冶由两部分
组成:第一部分是“结构零冶,因变量取值时直接取
到零;第二部分是“样本零冶,即因变量由于自变量
表 2摇 模型拟合优度统计
Table 2摇 Model goodness statistics of fit statistics
模型
Model
赤池准则
AIC
残差平方和
SSR
零膨胀泊松
Zero鄄inflated Poisson (ZIP)
1778. 31 3111. 51
零膨胀负二项
Zero鄄inflated Negative Binomial (ZINB)
1745. 14 2641. 53
栅栏泊松
Poisson鄄Hurdle (PH)
1773. 47 2788. 29
栅栏负二项
Negative Binomial鄄Hurdle (NBH)
1752. 01 2748. 95
AIC: Akaike information criterion; SSR: Sum of squared residual.
437 应摇 用摇 生摇 态摇 学摇 报摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 25 卷
的原因,只能为零.反映在林火的数据上表现为林火
发生为零时,既可能由于没有火源(如人为火没有
人为活动,雷击火没有雷击发生),也可能由于周围
环境原因无法引燃. 栅栏模型认为,数据中的所有
“0冶均为结构性零,即认为数据结构中的“0冶都因为
没有火源.尽管由于大兴安岭地区林火政策的原因,
对林内火源做到了有效控制,但雷击现象还是经常
发生且不可控制,实际情况是,有些天有火源发生,
但由于林内相对湿度和温度等因素,使林内可燃物
达不到燃点.因此,栅栏模型的理论假设并不完全符
合塔河地区林火发生的实际情况. 模型的拟合结果
也证实了 ZINB 优于 NBH. 客观检验虽不能直接判
别两个模型之间的“零冶部分优劣,但可以从模型的
理论假设层面上加以评价和判断.
2郾 2摇 模型校验
本文随机选取 20%样本数据进行模型校验,即
对模型的预测能力进行对比. 由模型的预测残差分
布可以看出,ZINB 模型对数据的拟合能力最强,预
测的残差最小(图 3).
在考虑模型的实际应用时,模型中自变量参数
的显著性水平也是一个关键因素. 通常选择应用型
模型的标准是,在保证模型整体拟合水平不变或变
化不显著情况下,自变量越少且对应参数的显著性
水平越高越好.这样有利于简化模型的运算,以及提
高模型的可操作性. 根据目前的参数拟合结果显示
(表 3、4),ZINB模型中显著性水平高的自变量数量
最多,说明了 ZINB 模型对气象数据的拟合效果优
于其他模型.
图 3摇 模型校验中林火发生次数与对应残差分布
Fig. 3摇 Model validation residual distribution and corresponding
fire occurrence number.
ZIP: 零膨胀泊松模型 Zero鄄inflated Poisson model; ZINB:零膨胀负二
项模型 Zero鄄inflated negative binomial model; PH:泊松栅栏模型 Pois鄄
son鄄Hurdle model; NBH: 负二项泊松模型 Negative binomial Hurdle.
2郾 3摇 模型自变量筛选
在确定零膨胀模型对林火数据拟合方面的整体
优势后,根据模型中自变量的显著性水平,分别对零
膨胀泊松和零膨胀负二项模型进行自变量筛选,剔
除模型中不显著的自变量因子,并判断模型 AIC 值
的变化,以便选取最佳预测模型.表 5 为剔除模型中
不显著自变量因子后的零膨胀模型拟合度及参数分
析.结果显示,模型中的所有自变量因子均在 琢 =
0郾 05 水平上显著,然而对比表 2,剔除不显著变量
后,ZIP和 ZINB的 AIC值明显增大,分别为 2254 和
2193.说明对数据的整体拟合程度大大降低.因此在
选取最佳预测模型时,应首先考虑模型的整体拟合
程度,在模型整体拟合水平(AIC)变化不大情况下,
表 3摇 ZIP 和 ZINB 模型的参数估计、标准差及模型拟合优度对比
Table 3摇 Parameter estimates, estimated standard errors and model goodness of fit statistics for the zero鄄inflated Poisson
(ZIP) and zero鄄inflated negative binomial (ZINB) models (Estimated parameter依SE)
估计参数
Estimated parameter
零膨胀泊松模型
Zero鄄inflated Poisson (ZIP) model
点模型部分
Count portion
零膨胀部分
Zero鄄inflated portion
零膨胀负二项模型
Zero鄄inflated negative Binomial (ZINB) model
点模型部分
Count portion
零膨胀部分
Zero鄄inflated portion
截距 Intercept -0. 118依0. 883*** 10. 283依1. 451 -30. 059依0. 794*** -0. 016依5. 772***
降水量 Rainfall (mm) -0. 002依0. 005 0. 002依0. 006 -0. 003依0. 004 -0. 007依0. 017
平均风速 Average wind speed (m·s-1) 0. 020依0. 009* 0. 030依0. 014* 0. 004依0. 009 0. 060依0. 079
平均温度 Average temperature (益) 0. 008依0. 009 0. 043依0. 016** -0. 010依0. 007 0. 164依0. 047***
平均大气压 Average pressure (hPa) 0. 016依0. 006** -0. 021依0. 008 0. 032依0. 006*** 0. 058依0. 020**
平均相对湿度 Average relative humidity (% ) -0. 013依0. 019 0. 080依0. 029 -0. 038依0. 002* 0. 561依0. 092***
日照时数 Sunshine hours -0. 001依0. 003 0. 003依0. 004 -0. 002依0. 002 0. 029依0. 014*
最小温度 Minimum temperature (益) -0. 017依0. 005* -0. 018依0. 008* -0. 004依0. 004 -0. 078依0. 025**
最大温度 Maximum temperature (益) 0. 004依0. 007 -0. 022依0. 011* 0. 011依0. 005* -0. 131依0. 026***
最大风速 Maximum wind speed (m·s-1) -0. 006依0. 005 -0. 005依0. 008 -0. 002依0. 005 0. 026依0. 033
最小相对湿度 Minimum relative humidity (% ) -0. 001依0. 021 0. 039依0. 031 -0. 049依0. 017** -0. 309依0. 093***
* P<0. 05; ** P<0. 01; *** P<0. 001. 下同 The same below.
5373 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 秦凯伦等: 大兴安岭塔河地区林火发生的优势预测模型选择摇 摇 摇 摇 摇
表 4摇 PH 和 NBH 模型的参数估计、标准差及模型拟合优度对比
Table 4摇 Parameter estimates, estimated standard errors and model goodness of fit statistics for the Poisson Hurdle and ne鄄
gative binomial Hurdle models (Estimated parameter依SE)
估计参数
Estimated parameter
栅栏泊松模型
Poisson Hurdle model
点模型部分
Count portion
零部分
Zero hurdle portion
栅栏负二项模型
Negative Binomial Hurdle model
点模型部分
Count portion
零部分
Zero hurdle portion
截距 Intercept 0. 274依1. 171 -22. 850依0. 734*** -13. 983依1. 660*** -22. 850依0. 734***
降水量 Rainfall (mm) -0. 002依0. 005 -0. 003依0. 004 -0. 001依0. 007 -0. 003依0. 004
平均风速 Average wind speed (m·s-1) 0. 021依0. 010* -0. 006依0. 008 0. 025依0. 016 -0. 006依0. 008
平均温度 Average temperature (益) 0. 016依0. 011 -0. 026依0. 007*** 0. 018依0. 016 -0. 026依0. 007***
平均大气压 Average pressure (hPa) 0. 007依0. 008 0. 030依0. 005*** 0. 013依0. 011 0. 030依0. 005***
平均相对湿度 Average relative humidity (% ) 0. 001依0. 020 -0. 068依0. 012*** -0. 004依0. 032 -0. 068依0. 012***
日照时数 Sunshine hours -0. 002依0. 003 -0. 003依0. 002 -0. 003依0. 005 -0. 003依0. 003
最小温度 Minimum temperature (益) -0. 013依0. 005* 0. 004依0. 004*** -0. 015依0. 008* 0. 004依0. 004***
最大温度 Maximum temperature (益) 0. 003依0. 007 0. 020依0. 005 0. 003依0. 011 0. 020依0. 005
最大风速 Maximum wind speed (m·s-1) -0. 007依0. 005 -0. 001依0. 004 -0. 006依0. 007 -0. 001依0. 004
最小相对湿度 Minimum relative humidity (% ) 0. 003依0. 020 -0. 037依0. 013*** -0. 008依0. 035 -0. 037依0. 013***
表 5摇 剔除模型中不显著自变量因子后的零膨胀模型拟合
Table 5摇 Model fitting of zero-inflated models after removing non-significant variables
模型参数
Model parameter
零膨胀泊松模型
Zero鄄inflated Poisson model (AIC=2254)
自由度
df
参数估计
Parameter
estimate
标准误
Standard
error
T P
零膨胀负二项模型
Zero鄄inflated negative binomial model (AIC=2193)
自由度
df
参数估计
Parameter
estimate
标准误
Standard
error
T P
点模型部分
Count
截距
Intercept
1 -2. 6412 0. 4299 -6. 14 <0. 0001 1 -2. 9218 0. 4130 -7. 07 <0. 0001
portion 平均温度
Average temperature (益)
1 0. 0109 0. 0029 3. 73 0. 0002 1 0. 0081 0. 0030 2. 67 0. 0076
平均大气压
Average pressure (hPa)
1 0. 0235 0. 0032 7. 33 <0. 0001 1 0. 0233 0. 0037 6. 17 <0. 0001
最小温度
Minimum temperature (益)
1 -0. 0166 0. 0028 -5. 87 <0. 0001 1 -0. 0122 0. 0031 -3. 96 <0. 0001
最小相对湿度
Minimum relative humidity (% )
1 -0. 0368 0. 0089 -4. 13 <0. 0001 1 -0. 0419 0. 0112 -3. 72 0. 0002
零膨胀部分
Zero鄄
截距
Intercept
1 -1. 9823 0. 9122 -2. 17 0. 0298 1 -4. 7171 1. 6375 -2. 88 0. 0040
inflated
portion
平均温度
Average temperature (益)
1 0. 0382 0. 0093 4. 08 <0. 0001 1 0. 0453 0. 0136 3. 32 0. 0009
平均相对湿度
Average relative humidity (% )
1 0. 0660 0. 0115 5. 74 <0. 0001 1 0. 1015 0. 0223 4. 55 <0. 0001
最小温度
Minimum temperature (益)
1 -0. 0225 0. 0055 -4. 07 <0. 0001 1 -0. 0241 0. 0078 -3. 07 0. 0022
最大温度
Maximum temperature (益)
1 -0. 0230 0. 0052 -4. 40 <0. 0001 1 -0. 0298 0. 0080 -3. 69 0. 0002
兼顾模型中的自变量显著性水平,而不应仅仅追求
各自变量与因变量的显著相关性.
3摇 讨摇 摇 论
为寻求符合大兴安岭塔河地区林火发生特性的
统计模型,推动林火预测预报工作,本文在前人研究
工作的基础上,进一步将可能满足过度离散和“0冶
膨胀数据结构的零膨胀模型和栅栏模型进行拟合比
较,并运用 AIC、似然比检验(LR)和模型残差平方
和 (SSR)对模型的拟合结果进行对比分析,从中选
取最优的预测模型.结果表明,ZINB 模型的 AIC 和
SSR值最小,其对当地林火发生与气象因子关系的
拟合优度最佳. 运用 LR 检验对嵌套模型[ZINB 与
ZIP( x2 = 35. 17, P < 0. 0001 ), NBH 与 PH ( x2 =
23郾 42, P<0. 0001)]进行检验,结果显示 ZINB 和
NBH均优于各自的嵌入模型,说明针对过度离散并
且存在“0冶膨胀现象的数据结构,其结构中的“点冶
部分符合负二项(NB)分布. 此外,根据研究地的林
火实际发生规律和不同模型对“0冶部分的假设条件
判断,零膨胀模型更适合大兴安岭地区的林火特性.
本文在统计林火发生次数时(模型中因变量),
没有以年(365 d)为计数单位,而是以实际发生火灾
637 应摇 用摇 生摇 态摇 学摇 报摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 25 卷
月份的天数为统计单位,主要有以下两个原因:1)
大兴安岭地区冬季寒冷,积雪覆盖厚,决定了冬季不
会发生森林火灾.如将此时间段一同统计到林火发
生的次数中,将会大大增加数据中“0冶的出现频率,
虽然理论上有助于栅栏模型对数据的拟合,但与实际
情况有悖,因而冬季非防火期没有考虑到本研究中.
2)有些月份虽处于防火期内,但全月没有发生一场火
灾.这些天数也没有被统计到因变量中,主要是为了
降低样本的过度离散程度,提高模型运算结果的可对
比性.否则模型中“0冶的超级膨胀会导致实际运算过
程中无法完成模型拟合或发生运算错误.
能否通过剔除部分不显著的自变量来提高其他
变量显著性水平,同时又保持模型的整体拟合水平
不变,还需要进一步研究.逐步回归是解决这一问题
的一个可行方法.本研究结论与郭福涛等[17-18]的结
论一致.后者是对月尺度的林火发生与月平均气象
因子进行拟合分析,虽选取的自变量不同,但研究结
论一致.
另外,本研究仅考虑了气象因子与林火发生的
关系,其他因子如地形、植被类型、人为基础设施等
没有考虑其中.原因在于,与其他影响因素相比,气
象因子的历史数据时间跨度长、准确度高,同时对气
象因子变化的短期预测技术也比较成熟.因此,探明
气象因子与林火发生的潜在关系,可以减少林火预
测预报中的不确定性,对于林火管理工作具有重要
的现实意义.
参考文献
[1]摇 Weber MG, Stocks BJ. Forest fires and the sustainability
in the boreal forests of Canada. Ambio, 1998, 27: 545-
550
[2]摇 Martell DL,Otukol S, Stocks BJ. A logistic model for
predicting daily people鄄caused forest fire occurrence in
Ontario. Canadian Journal of Forest Research, 1987,
17: 394-401
[3]摇 Chou YH, Minnich RA, Chase RA. Mapping probability
of fire occurrence in San Jacinto Mountains, California,
USA. Environmental Management, 1998, 17: 129-140
[4]摇 Vega鄄Garcia C, Woodard PM, Titus SJ, et al. A logis鄄
tic model for predicting the daily occurrence of human
caused forest fires. International Journal of Wildland
Fire, 1995, 5: 101-111
[5]摇 Garc侏a Diez EL, Rivas Soriano L, de Pablo F, et al.
Prediction of the daily number of forest fires. Interna鄄
tional Journal of Wildland Fire,1999, 9: 207-211
[6]摇 Preisler HK, Brillinger DR, Burgan RE, et al. Proba鄄
bility based models for estimation of wildfire risk. Inter鄄
national Journal of Wildland Fire, 2004, 13: 133-142
[7]摇 Poulin鄄Costello M. People鄄caused Forest Fire Prediction
using Poisson and Logistic Regression. Master Thesis.
Victoria, BC: Department of Mathematics and Statis鄄
tics, University of Victoria, 1993
[8]摇 Mandallaz D, Ye R. Prediction of forest fires with Pois鄄
son model. Canadian Journal of Forest Research, 1997,
27: 1685-1694
[9]摇 Griffith DA, Haining R, Beyond mule kicks: The Pois鄄
son distribution in geographical analysis. Geographical
Analysis, 2006, 38: 123-139
[10]摇 Liu WS, Cela J. Count Data Models in SAS [EB / OL].
(2011鄄05鄄12) [2013鄄05鄄23]. http: / / www2. sas. com /
proceedings / forum2008 / 371鄄2008. pdf
[11]摇 Podur JJ, Martell DL, Stanford D. A compound Poisson
model for the annual area burned by forest fires in the
province of Ontario. Environmetrics, 2009, 21: 457 -
469
[12]摇 White GC, Bennetts RE. Analysis of frequency count
data using the negative binomial distribution. Ecology,
1996, 77: 2549-2557
[13]摇 Cameron AC, Trivedi PK. Regression Analysis of Count
Data. Cambridge, UK: Cambridge University Press,
2003
[14]摇 Sun L (孙摇 龙), Shang Z鄄C (尚喆超), Hu H鄄Q (胡
海清). Application of a Poisson regression model and a
negative binomial regression model in the forest fire fore鄄
casting. Forest Research (林业科学), 2012, 48(5):
126-129 (in Chinese)
[15]摇 Lambert D. Zero鄄inflated Poisson regression with an ap鄄
plication to defects in manufacturing. Technometrics,
1992, 34: 1-14
[16]摇 Liao B鄄Q (繆柏其), Wei J (韦摇 剑), Song W鄄G (宋
卫国). Logistic and ZIP regression model for forest fire
data. Fire Science (火灾科学),2008, 17(7): 143 -
149 (in Chinese)
[17]摇 Guo F鄄T (郭福涛), Hu H鄄Q (胡海清), Jin S (金摇
森), et al. Relationship between forest lighting鄄fire oc鄄
currence and weather factors in Daxing爷 an Mountains
based on NB and ZINB models. Chinese Journal of Plant
Ecology (植物生态学报), 2010, 34(5): 571 -577
(in Chinese )
[18]摇 Guo F鄄T (郭福涛), Hu H鄄Q (胡海清), Ma Z鄄H (马
志海), et al. Applicability of different models in simu鄄
lating the relationships between forest fire occurrence
and weather factors in Daxing爷 an Mountains. Chinese
Journal of Applied Ecology (应用生态学报),2010, 21
(1): 159-164 (in Chinese)
[19]摇 Zeng P (曾摇 平), Zhao J鄄F (赵晋芳), Liu G鄄F (刘
桂芬). The analysis on the number of visiting clinic
based on Hurdle model. Chinese Journal of Health Sta鄄
tistic (中国卫生统计), 2000, 27(6): 603-605 ( in
Chinese)
[20]摇 Hu MC, Pavlicova M, Nunes EV. Zero鄄inflated and
hurdle models of count data with extra zeros: Examples
from an HIV鄄Risk reduction intervention trial. American
Journal of Drug and Alcohol Abuse, 2001, 37: 367-375
[21]摇 Erdman D, Jackson L, Sinko A. Zero鄄Inflated Poisson
and Zero鄄inflated Negative Binomial Models using the
Countreg Procedure [EB / OL]. (2011鄄05鄄12)[2013鄄05鄄
23 ]. http: / / www2. sas. com / proceedings / forum2008 /
322鄄2008. pdf
[22]摇 Ridout M, Hinde J, Dem佴trio CGB. A score test for tes鄄
ting a zero鄄inflated Poisson regression model against ze鄄
ro鄄inflated negative binomial alternatives. Biometrics,
2001, 57: 219-223
[23]摇 Numna S. Analysis of Extra Zero Counts using Zero鄄in鄄
flated Poisson Models. Master Thesis. Hat Yai, Songkh鄄
la: Department of Mathematics, Prince of Songkla Uni鄄
versity, 2009
[24]摇 Mullahy J. Specification and testing of some modified
count data models. Journal of Econometrics, 1986, 33:
341-365
[25]摇 O爷Brien RM. A caution regarding rules of thumb for va鄄
riance inflation factors. Quality & Quantity, 2007, 41:
673-690
作者简介摇 秦凯伦,男,1980 年生,博士研究生.主要从事森
林火灾模拟研究. E鄄mail: kailunqin518@ 163. com
责任编辑摇 杨摇 弘
7373 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 秦凯伦等: 大兴安岭塔河地区林火发生的优势预测模型选择摇 摇 摇 摇 摇