全 文 :林业科学研究 2015,28(4):538 542
ForestResearch
文章编号:10011498(2015)04053805
杉木人工林林分断面积生长模型的贝叶斯法估计
张雄清1,2,张建国1,2,段爱国1,2
(1.中国林业科学研究院林业研究所,国家林业局林木培育重点实验室,北京 100091;
2.南京林业大学南方现代林业协同创新中心,江苏 南京 210037)
收稿日期:20131017
项目基金:国家自然科学基金(31300537);中国林业科学研究院林业研究所科研院所基本科研业务资金项目(RIF2013-09)和中国林
业科学研究院科研院所基本科研业务资金项目(CAFYBB2014QB002)
作者简介:张雄清,男,副研究员研究方向:人工林定向培育和生长模型模拟Email:xqzhang85@caf.ac.cn
通讯作者:研究员,博士生导师,主要从事森林培育研究.
摘要:以江西杉木人工林为例,以Korf型、Richards型和Hossfeld型3种模型为基础,通过广义代数差分法(GADA)
分别建立杉木林分断面积生长模型。结果表明:以Richards型为基础的杉木林分断面积预测精度最高,以 Richards
型模型为最优模型,分别基于贝叶斯法和传统法(非线性最小二乘法)估计杉木林分断面积生长模型。研究发现,
利用贝叶斯法估计杉木林分断面积生长模型,预测精度相当且预测值的可靠性比传统法好。
关键词:贝叶斯法;传统法;林分断面积;杉木
中图分类号:S711 文献标识码:A
ApplicationofBayesianMethodinStandBasalArea
PredictionofChineseFirPlantation
ZHANGXiongqing1,2,ZHANGJianguo1,2,DUANAiguo1,2
(1.KeyLaboratoryofTreeBreedingandCultivation,StateForestryAdministrationResearchInstituteofForestry,ChineseAcademyofForestry;
Beijing 100091,China;2.ColaborativeInnovationCenterofSustainableForestryinSouthernChina,NanjingForestryUniversity,
Nanjing 210037,Jiangsu,China)
Abstract:Chinesefir(Cunninghamialanceolata(Lamb.)Hook.),anendemictreespeciesinChina’ssubtropi
calarea,isoneofthemostimportantfastgrowingtreespeciesfortimberproductioninsouthernChina.Basedon
theperiodicdataoftheChinesefirinJiangxiprovince,threestandbasalareamodels(Korfbasedmodel,Richards
-basedmodel,andHossfeldbasedmodel)weredevelopedusinggeneralizedalgebraicdiferenceapproach(GA
DA).TheresultsshowedthatRichardsbasedmodelwasthebestformodelingthestandbasalareaofChinesefirin
thestudy.Additionaly,BayesianmethodandClassicalmethod(nonlinearleastsquaresmethod)wereusedtoesti
matetheRichardsbasedmodel.AlthoughtheprecisionofBayesianmethodwasnearlyequaltothatoftheclassical
method,themodelreliabilityusingBayesianmethodwasbeterthanusingclassicalmethod.
Keywords:Bayesianmethod,standbasalarea,Chinesefir,Cunninghamialanceolata
杉木(Cunninghamialanceolata(Lamb.)Hook.)
是我国亚热带地区特有的优良用材树种,也是我国南
方主要的造林树种。第七次全国森林资源清查表明,
全国杉木人工林面积为853.86万hm2,占全国造林面
积的21.35%,在我国森林资源中占有重要的地位。
在林分生长和收获预估体系中,林分断面积既是用来
预估材积收获的重要变量,又是被估计的主要因子。
林分断面积具有较高的稳定性和预估性及在林业调
查和生产实践中的易测定性[1],因此,杉木林分断面
积是杉木人工林林分测算因子建模中的主要对象。
第4期 张雄清等:杉木人工林林分断面积生长模型的贝叶斯法估计
杉木林分断面积生长模型的研究,为林业工作者科学
经营管理杉木,揭示杉木生长发育规律提供重要的参
考依据。杜纪山等[2]基于 Richards型和 Schumacher
型分别建立了杉木林分断面积生长模型,研究发现
Richards型优于 Schumacher型。张建国等[3]利用差
分模型模拟杉木林分断面积生长,并通过传统法(最
小二乘法)估计模型参数,但是,利用传统法很难对参
数估计的不确定性和预测值的可靠性进行评价[4]。
近些年,根据文献报道,贝叶斯法是评价模型不确定
性的一个很好的方法,已经在环境、生态、医疗、水文
等研究领域得到广泛应用[5-7];而且贝叶斯法综合利
用了先验信息和样本信息,先验信息是在进行统计推
断时不可缺少的一个因素,可以来自历史文献资料或
者主观信念,这在林业研究工作中是很重要的。在森
林的连续调查中,每一次的调查分析结果都是下一次
调查分析的最合理的先验信息。在林业中,贝叶斯法
也有了一定的研究,如:生物量模型[8],直径分布模
型[9-10],直径生长模型[11]等;但是,贝叶斯方法在杉
木林分断面积生长模型中的研究未见报道。本文以
江西杉木人工林为研究对象,利用贝叶斯法估计杉木
断面积生长模型,并与传统推断法(最小二乘法)进行
比较分析,为分析杉木人工林林分断面积生长模型预
测结果的可靠性提供参考。
1 试验地概况
试验地位于江西省分宜县大岗山年株林场场部
后山,属于罗霄山脉北端的武功山支脉,114°30′
114°45′E,27°30′ 27°50′N,海拔250m,母岩为砂
页岩,年平均气温16.8℃,降水量1656mm,年蒸发
量1503mm,属南亚热带季风气候区。
该试验林建立于1981年,采用1年生苗随机区
组试验设计,5个密度:A密度(2m×3m)、B密度
(2m×1.5m)、C密度(2m×1m)、D密度(1m×
1.5m)、E密度(1m×1m),每个密度3次重复,总
共15个样地,每个样地面积为600m2。在每个样地
周围各植2行同样密度的杉木作为保护带。杉木林
分的主要生长指标见表1。
表1 杉木林分的主要生长指标
项目 最小值 最大值 均值 标准差
年龄/a 6 18 11.11 3.94
优势木平均高/m 5.78 16.43 10.26 2.62
林分密度/(株·hm-2) 1633.33 9983.335094.07 2631.93
林分断面积/(m2·hm-2) 1.35 63.50 29.84 15.58
1989年前逐年进行样地调查,1989年后隔年调
查。对样地内每株树进行编号,并进行每木检尺。
本研究数据来自1985年到1997年。
2 研究方法
2.1 杉木林分断面积生长模型的建立
以Korf型[12]、Richards型[13]和Hossfeld型[3]为
基础利用广义代数差分法(GADA)建立杉木林分断
面积动态生长模型:
Korf型:B=α1
B0
α( )1
t0
t()1
α2
(1)
Richards型:B=α1 1- 1-
B0
α( )1
1/α[ ]2 1/t{ }0 α2
(2)
Hossfeld型:B=
α1
1-(1-α1/B0)(t0/t1)α2
(3)
式中:B0为林分初始断面积(m
2·hm-2);t0为
林分初始年龄;t1为林分生长到某一阶段 B时的年
龄;α1、α2为待估参数。
2.2 贝叶斯理论
贝叶斯推断的基本方法是将未知参数的先验信
息与样本信息结合,再根据贝叶斯定理,得出后验信
息,然后根据后验信息去推断未知参数的分布[15]。
令y=(y1,y2,y3,…)为数据向量,θ=(θ1,θ2,θ3,
…)为参数向量,则根据贝叶斯理论,其基本公式为:
p(y,θ)=p(y|θ)p(θ)=p(θ|y)p(y)(4)
式中:p为概率分布函数或者密度函数。在传
统方法中,可以利用最小二乘法或者最大似然估计
法进行参数θ估计;在贝叶斯方法中,通过概率分布
来描述参数θ的不确定性,进而估计参数θ。根据贝
叶斯条件概率,θ的条件概率分布为:
p(θ|y)=p(y|θ)p(θ)p(y) (5)
其中,对于连续型θ,p(y)=Eθ(p(y|θ))=
∫p(y|θ)p(θ)d(θ)。
贝叶斯方法中,在给定样本 y下,θ的条件分布
p(θ|y)就是所要求得的参数的后验分布,p(y|θ)
是在给定θ下y的似然函数,p(θ)是θ的先验分布。
2.3 先验分布
先验分布的选择在贝叶斯方法中非常重要[16]。
在上述杉木林分断面积生长模型中,需要为参数
935
林 业 科 学 研 究 第28卷
α1、α2选择合适的先验分布。许多学者选择利用无
信息先验分布,该信息可以忽略不计,而且对参数估
计的影响不大。对于无信息先验分布,一般选择均
值为0,方差足够大的能够覆盖整个数据范围的正
态分布[6]。当然,也可以选择有信息先验分布作为
贝叶斯方法中的先验分布,这些信息可以来自历史
文献资料或者主观信念。本研究中,杉木林分断面
积生长模型的2个参数的无信息先验分布分别为:
α1 N(0,1000)、α2 N(0,1000)。
对于贝叶斯参数估计,本研究中利用 Win
BUGS软件[17]完成。该软件通过吉布斯抽样算法
[18]估计参数。在本研究中还通过 R2WinBUGS[19]
连接 R软件和 WinBUGS软件完成数据的输入和
输出以及图形的生成。对于方差分析和传统推断
法估计参数,在 SAS软件中完成。在进行贝叶斯估
计时,为了保证迭代收敛和得到稳定的参数后验概
率值,迭代次数设为30万次,并去掉前面的50000
次退火迭代。
3 模型评价
在传统方法中,一般采用均方根误差(RMSE)
作为模型的拟合统计量指标。
RMSE= ∑(yi-y^i)2/(n-1槡 ) (6)
式中:yi为实际值(林分断面积);^yi为预测值;
n为观察个数。
对于贝叶斯模型,DIC统计量是个非常好的拟
合评价指标[20]。与RMSE值一样,DIC越小,说明模
型拟合越好。因此,在贝叶斯模型中,通过 DIC和
RMSE2个统计量选择最优模型。
DIC=Dbar+pD (7)
式中:Dbar=Eθ(-2log(p(y|θ))),表示模型
拟合数据的优劣,pD则是模型中参数的有效个数,
pD=Dbar+2log(p(y|珋θ)),表示模型的复杂度。
4 结果与分析
4.1 最优模型的选择
由表2可知:Richards型模型模拟杉木林分断面
积的DIC值最小,为362.95,其次是 Korf型38124,
Hossfeld型的最大,为410.27;而且,通过RMSE值的
对比,也发现Richards型模型的RMSE值(1.0706)最
小。因此,结合这2个评价指标,选择 Richards型模
型作为最优模型预估杉木林分断面积。
4.2 贝叶斯估计法和传统估计法的比较
根据表2中 DIC值的比较结果,以 Richards型
最优模型为基础,比较贝叶斯估计法和传统估计法。
根据贝叶斯法估计杉木人工林林分断面积生长
模型参数,其参数的后验概率分布见图1。根据图
1,可以发现杉木林分断面积生长模型的参数是随机
变量,服从正态分布,这就更好地解释了林分断面积
生长模型的不确定性。
表2 3个林分断面积生长模型的参数估计及评价
模型
参数估计
估计值标准差
95% 置信区间
2.5%值 97.5%值
DIC RMSE
Korf型
α1 99.930.6963 98.75 101.2
381.241.1653α2 0.900.0242 0.85 0.94
Richards型
α1 0.190.0101 0.17 0.21
362.951.0706α2 3.200.2266 2.76 3.66
Hossfeld型
α1 95.002.4250 90.95 99.05
410.271.3107α2 1.520.0533 1.42 1.63
图1 杉木林分断面积生长模型的参数后验概率分布图
表3为基于杉木林分面积数据建立的杉木林分
断面积生长模型并分别通过传统法(非线性最小二
乘法)和贝叶斯法估计的模型参数。从表3发现:贝
叶斯法的参数估计置信区间与传统法估计的置信区
间相近。通过比较 RMSE值,发现这2种方法的预
测精度相近。从残差图(图2)发现,这2种方法估
计的林分断面积残差相对比较均匀地分布在“0”的
上下部分,预测偏差都在 -4到4之间;但从图3又
发现,基于贝叶斯法预测杉木林分断面积,预测值的
置信区间比传统法的置信区间小的多。这是因为贝
叶斯法综合利用了样本信息和先验分布信息,而且
在贝叶斯方法中,参数是随机变量,使贝叶斯法的预
测值更可靠、稳定。
表3 基于传统法和贝叶斯法的杉木林分断面积
生长模型参数估计值及模型评价
估计方法
参数估计值
估计值 标准差
95% 置信区间
2.5%值 97.5%值
RMSE
传统法
α1 0.19 0.0100 0.17 0.21
1.0706
α2 3.19 0.2232 2.75 3.63
贝叶斯法
α1 0.19 0.0101 0.17 0.21
1.0706
α2 3.20 0.2266 2.76 3.66
045
第4期 张雄清等:杉木人工林林分断面积生长模型的贝叶斯法估计
图2 杉木林分断面积生长模型的残差图
图3 杉木林分断面积生长模型的预测值(包括期望值和95%区间值)与实际值相关图
5 结论与讨论
在以往的研究中,林分断面积生长模型一般需
要具备3个主要特征[13,21]:(1)生物学特性:当林分
年龄趋近于无限大时,林分断面积模拟值必须有拐
点和降近值;(2)预估步长一致性:林分断面积预测
从年龄t1到t3与从 t1经 t2再到 t3预测的结果一
样;(3)模型结构简易性:模型结构越复杂,意味着
存在自变量间的共线性问题,导致模型预测结果的
不稳定性。根据以上的3点特征要求,Bailey等[22]
提出利用代数差分法(ADA)建立生长模型。之后,
Cieszewski等[23]在 ADA方法的基础上提出了广义
代数差分法(GADA)分析动态模型。GADA法的主
要优点在于可以根据林分的生长特性(降近值)对
基础模型进行扩展,使模型弹性更好[24-25]。本研究
以Korf型、Richards型和 Hossfeld型为基础,建立了
杉木林分断面积生长模型,且以 Richards型为基础
建立的杉木林分断面积生长模型预测精度比较高,
为本研究杉木林分断面积的最优模型。
本文分别利用贝叶斯法和传统法(非线性最小
二乘法)估计 Richards型的杉木林分断面积生长模
型,研究发现,通过贝叶斯法估计林分断面积生长模
型,虽然预测精度相似,但其预测值可靠性、稳定性
更好。这是因为在样本量比较大时,传统法和贝叶
斯法的模拟精度比较接近,当样本量比较小时,贝叶
斯法的模拟精度高于传统法[8]。在统计推断的研究
中,贝叶斯推断比传统推断法有很大的优势,主要表
现在以下3方面:贝叶斯推断法综合利用了先验信
息和样本信息,先验信息(分布)是在进行统计推断
时不可缺少的一个因素,可以来自历史资料(文献)
或者主观信念,而传统法仅利用了样本信息[6,26];贝
叶斯法把样本和参数看作是随机变量,而传统法把
未知参数估计值看作固定值[4,6];贝叶斯推断法并
没有对参数或模型的构造加以限制,而传统法一般
假设服从正态分布[27]。当选择的先验分布为无信
息先验分布时,贝叶斯估计的参数可信区间在数值
上一般与传统法估计的置信区间相似[26]。因此,在
本研究中,利用无信息先验分布估计的参数与传统
法估计值很接近。当在贝叶斯方法中利用有信息先
验分布,预测的参数可信区间比无信息先验分布估
计的可信区间窄,同样也比传统法估计的置信区间
更精确可靠。
145
林 业 科 学 研 究 第28卷
总之,利用贝叶斯法估计杉木林分断面积生长
模型,预测效果更可靠稳定。今后应该加强贝叶斯
法在林业模型上的应用研究。当然,也可以在杉木
林分断面积生长模型中加入立地质量、林分密度等
一些因素,建立分层贝叶斯模型,使先验分布更精
确,进而提高杉木林分断面积生长模型的精度。
参考文献:
[1]张雄清,雷渊才,陈新美,等.组合预测法在林分断面积生长预
估中的应用[J].北京林业大学学报,2010,32(4):6-11.
[2]杜纪山,唐守正.杉木林分断面积生长预估模型及其应用[J].
北京林业大学学报,1998,20(4):1-5.
[3]张建国,孙洪刚.杉木人工林断面积生长规律及动态模拟[M].
北京:科学出版社,2010:58-75.
[4]LiR,StewartB,WeiskitelA.ABayesianapproachformodeling
nonlinearlongitudinal/hierarchicaldatawithrandomefectsinfor
estry[J].Forestry,2012,85(1):17-25.
[5]ClydeM.Modeluncertaintyandhealthefectstudiesforparticulate
mater[R].TechnicalReportSeries,NRCSETRSNo.027,1999.
[6]ElisonAM.Bayesianinferenceinecology[J].Ecologyleters,
2004,7:509-520.
[7]李向阳.水文模型参数优选及不确定性分析方法研究[D].大
连:大连理工大学,2005.
[8]ZhangX,DuanA,ZhangJ.TreebiomassestimationofChinesefir
(Cunninghamialanceolata)basedonbayesianmethod[J].PLOS
ONE,2013,8(11):1-7.
[9]GreenEJ,Jr.RoeschFAA,SmithFM,etal.Bayesianestimation
forthethreeparameterWeibuldistributionwithtreediameterdata
[J].Biometrics,1994,50(1):254-269.
[10]BulockBP,BooneEL.Derivingtreediameterdistributionsusing
Bayesianmodelaveraging[J].ForestEcologyandManagement,
2007,242:127-132.
[11]ClarkJS,WolosinM,DietzeM,etal.Treegrowthinferenceand
predictionfromdiametercensusesandringwidths[J].Ecological
Applications,2007,17(7):1942-1953.
[12]CluterJL,JonesEP.Predictionofgrowthafterthinninginold-
fieldslashpineplantations[R].USDAForestServiceResearchPa
per,1980:217.
[13]AntaMB,DoradoFC,ArandaUD,etal.Developmentofabasal
areagrowthsystemformaritimepineinnorthwesternSpainusing
thegeneralizedalgebraicdiferenceapproach[J].CanadianJournal
ofForestResearch,2006,36(6):1461-1474.
[14]LindleyDV.Bayesianthoughts[J].Significance,2000,1(2):
73-75.
[15]茹诗松.高等数理统计[M].北京:高等教育出版社,1998.
[16]GelmanA,CarlinJB,SternHS.BayesianDataAnalysis,2nd
edn[M].USA:ChapmanandHal/CRC,2004.
[17]SpiegelhalterDJ,ThomasA,BestN.WinBUGSUserManual
[M].Cambridge:MRCBiostatisticsUnit,2003.
[18]ChibS.GreenbergE.UnderstandingtheMetropolisHastingsalgo
rithm[J].TheAmericanStatistician,1995,49(4):327-335.
[19]SturtzS,LiggesU,GelmanA.R2WinBUGS:apackageforrun
ningWinBUGSfromR[J].JournalofStatisticSoftware,2005,12
(3):1-16.
[20]SpiegelhalterDJ,BestNG,CarlinBP,etal.Bayesianmeasures
ofmodelcomplexityandfit(withdiscussion)[J].JournalofRoyal
StatisticalSociety,SeriesB,2002,64:583-616.
[21]杜纪山,唐守正.林分断面积生长模型研究综述[J].林业科
学研究,1997,10(6):599-606.
[22]BaileyRL,CluterJL.Baseageinvariantpolymorphicsitecurves
[J].ForestScience,1974,20(2):155-159.
[23]CieszewskiCJ,BaileyRL.Generalizedalgebraicdiferenceap
proach:theorybasedderivationofdynamicequationswithpolymor
phismandvariableasymptotes[J].ForestScience,2000,46(1):
116-126.
[24]CieszewskiCJ.Threemethodsofderivingadvanceddynamicsitee
quationsdemonstratedoninlandDouglasfirsiteCurves[J].Cana
dianJournalofForestResearch,2001,31(1):165-173.
[25]CieszewskiCJ.Comparingfixedandvariablebaseagesiteequa
tionshavingsingleversusmultipleasymptotes[J].ForestScience,
2002,48(1):7-23.
[26]McCarthyMA.Bayesianmethodsforecology[M].CambridgeUK
:CambridgeUniversityPress,2007.
[27]DavidianM,GiltinanDM.NonlinearModelsforRepeatedMeas
urementData[M].NewYork:ChapmanandHal,1995.
245