全 文 : 收稿日期 }t||{ p sw p sy ∀
第 vx卷 第 x期t | | |年 | 月
林 业 科 学
≥≤∞× ≥∂ ∞ ≥≤ ∞
∂ ²¯1vx o ²1x
≥ ³¨qot | | |
论加权回归与建模
曾伟生 骆期邦 贺东北
k国家林业局中南调查规划设计院 长沙 wtsstwl
摘 要 } 以加权回归估计方法为核心 o对林业上常用模型的异方差性进行了研究 o提出了能彻底消除异方差
的最佳权函数 ∀并对模型的评价指标进行了探讨 o提出了评价通用性回归模型的 v大指标 o并分析了加权回归
估计与这些评价指标之间的关系 ∀最后对样本资料的收集进行了讨论 o提出了收集建模样本应遵循的基本原
则 ∀
关键词 } 加权回归 o建模 o异方差 o模型评价
ΡΕΣΕΑΡΧΗ ΟΝ ΩΕΙΓΗΤΙΝΓ ΡΕΓΡΕΣΣΙΟΝ ΑΝ∆ ΜΟ∆ΕΛΛΙΝΓ
±¨ª • ¬¨¶«¨ ±ª ∏² ±¬¥¤±ª ¨⁄²±ª¥¨¬
( Σουτη p Χεντραλ Φορεστ Ινϖεντορψ i Πλαννινγ Ινστιτυτε Χηανγσηαwtsstw)
Αβστραχτ : פ®¬±ª º ¬¨ª«·¬±ªµ¨ªµ¨¶¶¬²± ¶¨·¬°¤·¬²± ° ·¨«²§¤¶·«¨ ¦²µ¨ o·«¨ «¨ ·¨µ²¶¦¨§¤¶·¬¦¬·¼ ²©·«¨ ª¨ ±¨ µ2
¤¯ °²§¨ ¶¯∏¶¨§¬±©²µ¨¶·µ¼ º¤¶§¬¶¦∏¶¶¨§o¤±§¤±²³·¬°¤¯ º ¬¨ª«·©∏±¦·¬²± º¤¶³µ¨¶¨±·¨§·«¤·¦²∏¯§¦²°³¯ ·¨¨2
¼¯ ¨¯¬°¬±¤·¨·«¨ ∏±¨ ∏´¤¯ √¤µ¬¤±¦¨ q≥ ¦¨²±§¯¼ o·«¨ °²§¨¯¤¶¶¨¶¶° ±¨·º¤¶¶·∏§¬¨§o¤±§©²∏µ¬°³²µ·¤±·¬±§¬¦¨¶
©²µ¦²°°²±¯ ¼ p ∏¶¨§µ¨ªµ¨¶¶¬²± °²§¨¯¤¶¶¨¶¶° ±¨·º µ¨¨ ³µ¨¶¨±·¨§o¤±§·«¨ µ¨ ¤¯·¬²±¶«¬³¥¨·º¨¨ ±·«¨ ©²∏µ¬±2
§¬¦¨¶¤±§º ¬¨ª«·¬±ªµ¨ªµ¨¶¶¬²± ¶¨·¬°¤·¬²± º¤¶¤±¤¯¼¶¨§qƒ¬±¤¯ ¼¯ o·«¨ ¦²¯¯¨ ¦·¬²± ²© °²§¨¯¯¬±ª¶¤°³¯¨º¤¶§¬¶2
¦∏¶¶¨§o¤±§·«¨ ¥¤¶¬¦³µ¬±¦¬±³¯¨©²µ¦²¯¯¨ ¦·¬±ª¶¤°³¯¨§¤·¤ º¤¶³µ¨¶¨±·¨§q
Κεψ ωορδσ: • ¬¨ª«·¬±ªµ¨ªµ¨¶¶¬²±o ²§¨¯¯¬±ªo ·¨¨µ²¶¦¨§¤¶·¬¦¬·¼o ²§¨¯¤¶¶¨¶¶° ±¨·
林业数表模型是森林经营决策必不可少的计量 !预测 !评价依据 o保证模型质量至关重要 o而样本
组织 !模型拟合方法和模型评价是保证质量的 v个重要环节 ∀实践证明 o林业数表模型所描述的问题
普遍存在异方差性 o在模型拟合中若不采取消除异方差影响的有效方法 o必然导致模型有偏 ∀为此 o一
般可采取加权最小二乘法拟合模型 o但在权函数的选择上尚存在两个有待进一步解决的问题 }一是权
函数的形式因模型所描述的事物的性质不同而异 o确定最佳权函数十分繁琐 ~二是到目前为止 o尚未找
出能完全消除异方差的权函数 ∀本文旨在提出一种可以完全消除异方差影响的权函数通式 o并给出正
确评价模型的指标体系及组织建模样本的基本原则 ∀
t 加权回归的概念
确定变量之间的回归关系 o一般情况下是利用普通最小二乘法 ∀假设随机变量 ψ∗ [ Ε(ψ) , Ρu] ,其
中 oΕ(ψ) ©( ξ) ∀也就是说 o随机变量 ψ与 ξ 满足下列模型 }
ψ = ©( ξ) + Ε (t)
式中的 Ε有 v个基本假定 o即/独立 !正态 !等方差0 o它们是采用普通最小二乘法建立回归模型的先决
条件 ∀v个条件中的/独立0与/正态0在一般情况下都是基本满足的 o而/等方差0这一条件 o则在很多情
况下都难以满足 ∀为解决误差项 Ε的异方差性问题 o应设法校正原有的模型 o使校正后的模型其误差
项具有常数方差 o而模型的校正取决于方差 ΡuΕι与自变量 ξι之间的关系 ∀假设 Ει的方差与 ξι的函数 ª
( ξι)呈比例关系 o即 }
ΡuΕι = ª( ξι) Ρu (u)
这里 Ρu是一个有限常数 ∀于是用 ª( ξι)去除原有模型 o可使新模型的误差项具有常数方差 ∀用这种
方法估计模型中相应的参数 o叫做加权最小二乘法k俞大刚 ot|{zl ∀
u 权函数的选择
211 异方差性的基本概念
根据回归估计理论 o当建立的回归模型的误差项存在异方差时 o必须采用加权最小二乘法来消除
异方差对参数估计的影响 ∀在林业上所涉及的许多数学模型 o如材积模型 !生物量模型 !生长率模型 !
削度模型等 o其误差项的方差都不为常数 o而是随解释变量的变化而变化k骆期邦等 ot||u ~曾伟生等 o
t||u ~曾伟生 ot||yl ∀一般而言 o模型预估值随解释变量的增大而增大时 o其误差项的方差也随解释变
量的增大而增大 o如材积模型和生物量模型 ~模型预估值随解释变量的增大而减小时 o其误差项方差也
随解释变量的增大而减小 o如生长率模型 ∀在残差图上反映出来 o二者都为喇叭型 ∀另外 o预估变量的
变化范围愈大 o异方差性一般也愈明显 ∀因此 o采用适当形式缩小预估变量的变动幅度 o可在一定程度
上消除异方差性 ∀如将材积转化为形数来建模 o可将预估变量的取值大致控制在 s1vx ∗ s1yx的范围 o
使预估值的最大相差倍数从数千倍缩小至 u倍以内 o从而基本上消除了异方差性 ∀将生长量转化为生
长率再建模 o也在很大程度上缩小了预估值的变动幅度 o可明显削弱其异方差性 ∀
212 权函数选择的研究现状
上面提到的一些常用模型 o由于存在异方差 o因此必须选用适当的权函数来进行加权回归估计 ∀
关于这一点 o近几年已经逐步有了认识 ∀如对材积模型 ς = α∆βΗχ的估计 o一般认为选用权函数 Ω =
t/ ( ∆w Ηu)可有效地消除异方差的影响k骆期邦等 ot||ul ~对生长率模型 Πς = α∆βΑχ的估计 o取权函数
Ω = t / ( ∆u Α l效果较佳k曾伟生等 ot||ul ∀而且 o还认识到了最合适的权函数是针对某一个模型而
不是某一类模型k曾伟生 ot||ul ∀但是 o针对一个具体的回归模型 o如何确定其最合适权函数的问题仍
然没有得到圆满解决 ∀
一般情况下 o如果不具有异方差性形式的信息 o可通过对剩余值 | ει | = ª( ξι)进行试验 o以挑选出
一种合适的拟合形式k俞大刚 ot|{zl ∀另外 o也有人提出直接寻找方差 Σuει与自变量 ξι的关系式 Σuει =
ª( ξι) ,再以 Ω = t/ ª( ξι) 为权函数进行加权回归 ,新模型的误差项方差 Σuει就会近似为常数 t ∀还进
一步提出了较具通用性的抛物线形式的权函数 o并取得了较好的效果k曾伟生 ot||yl ∀但是这样来确
定权函数 o一方面比较繁琐 ~另一方面也难保证抛物线形式能适合所有模型 o尤其是含多个自变量的模
型 ~再就是必须有比较大的建模样本才可能得到误差项方差与变量 ξ 之间的回归关系 ∀诚然 o在此基
础上还可以作些改进 o如 }借鉴曾伟生文k曾伟生等 ot||zl中可变参数模型的设计 o将狭义的抛物线形
式 ψ αn βξ n χξu扩展为广义的抛物线形式 ψ αn βξν n χ( ξν)u( ν s .x ,t ,u ,)以更好地适应各个
模型不同程度的异方差性 ~从自变量集中选出最主要的变量k如材积模型中的直径l来构造权函数等 ∀
即使这样 o效果仍然不太理想 ∀
213 最佳权函数的确定
前面已经提到 o最佳权函数是针对某个模型而不是某类模型 o即同类模型中不同的回归方程式应
有不同的最佳权函数 ∀基于这一认识 o我们再来对一些经典模型及其合适权函数作进一步分析 ∀
不难发现 o认为以 Ω = t/ ( ∆u Η)u为权函数效果较好的材积模型 ς = α∆βΗχ ,其参数 β !χ的估计
值分别接近于 u和 t ;以 Ω = t/ ( ∆u Α) 为权函数的生长率模型 Πς = α∆βΑχ ,其参数 β !χ的估计值分
别接近于 t和 s1x ∀最近笔者还发现 ,形如 Ω = α( ∆u Η) β的生物量模型 ,取 Ω = t/ ( ∆u Η)u为权函数
效果也很佳 ,此时 β的估计值接近于 t ∀如果定义 Ω = t/ ª( ξ)u为权函数 ,因为上述模型中的参数估计
值与权函数中的相应参数值接近 ,故模型两边同时除以ª( ξ)时 ,右边都近似等于参数 α ;若权函数中的
相应参数取模型的参数估计值 ,则模型两边同除 ª( ξ) 时右边就会恒等于参数 α了 ∀更进一步 o若取 }
Ω = t/ ©( ξ)u (v)
作为权函数 o则模型两边同除以 ©( ξ)后得到的新模型 o右边都等于 t ∀可以证明 o此时得到的新模型 o
y 林 业 科 学 vx卷
其误差项的期望值为 s o方差为常数 ∀亦即 o以模型本身构造的权函数就是要寻找的最佳权函数 ∀这刚
好应证了/不同模型有不同的最佳权函数0的观点 ∀
该模型为 }
ψ = ©( ξ) + Ε (w)
两边同时除以 ©( ξ)得新模型 }
ψχ = ψ/ ©( ξ) = t + Ε/ ©( ξ) = t + Εχ (x)
对新模型kxl采用普通最小二乘法进行估计k相当于原有模型kwl的加权回归估计l o有 }
Θχ = Ε
ν
ι = t
εχιu = Ε
ν
ι = t
[ ψι/ ©( ξι) − t] u ψ °¬±
u Ε
ν
ι = t
[ ψι/ ©( ξι) − t] = s
Ε
ν
ι = t
[ ψι/ ©( ξι)] = ν (y)
下面讨论新模型误差项 Εχ的性质 ∀
期望值 } Ε(Εχ) = Ε[ Ε/ ©( ξ)] = Ε[ ψ/ ©( ξ) − t]
由kyl式知 o Ε[ ψ/ ©( ξ)] = t ,故 Ε(Εχ) = s ∀
方差 } ∆(Εχ) = Ε[ Εχ − Ε(Εχ)] u
= Ε
ν
ι = t
εχιu©(εχι) − [ Ε(Εχ)] u = Ε
ν
ι = t
εχιu©(εχι)
式中 ©(εχι) 为频数(董德元等 ,t|{z) ∀可用建模样本对上述方差 ∆(Εχ) 作出如下无偏估计 }
Σχεu = tν − t Ε
ν
ι = t
εχιu = Θχν − t
因此 o新模型误差项的期望值为 s o其方差为常数 o即对所有 ξι来说 ,每个 Εχι的方差都相同 ~满足等
方差的条件 ∀至此可以得出结论 }以模型本身构造的权函数kvl式就是要寻找的最佳权函数 ∀
v 模型评价与加权回归
311 回归模型评价指标
建立回归模型 o从一般的意义上讲有以下 v个目的k刘璋温等 ot|{vl }
结构分析 ) ) ) 对观测数据进行分析 o以便描述存在于解释变量与目标变量之间的结构关系 ~
预测 ) ) ) 以已知解释变量的值来预测目标变量的未来值或期望值 ~
控制 ) ) ) 为使目标变量的值保持在一个理想的水平上 o而适当调整解释变量中可调整的变量值 ∀
在上述 v个目的中 o预测是最根本的 ∀因为结构分析可以考虑为在更一般的条件下预测目标变量
的变化问题 o而控制可以考虑为针对解释变量的不同水平来预测相应的目标变量的值 o以便从中选择
最佳变量的问题 ∀事实上 o林业上的所有通用性数表的编制都可以看成是用于预测的超总体回归模型
的建立问题 ∀如何评价这类模型的优劣 o一直是林业数表领域所面临的一个课题 ∀
关于回归模型评价的常用指标 o包括残差平方和 Θ !剩余标准差 Σ !复相关系数 Ρ !修正复相关
系数 Ρ 3 !参数变动系数k稳定性l !残差分布k随机性l !参数的可解释性以及信息量准则 ≤ 和 ≤°准
则等k骆期邦等 ot||u ~刘璋温等 ot|{v ~钟义山 ot||u ~盛承懋等译 ot|{|l ∀除此之外 o笔者认为对用于
预测目的的回归模型 o尚需考虑以下 w大指标 }
总相对误差 ΡΣ = Ε ψι − Ε ⊥ψιΕ ⊥ψι ≅ tss% (z)
总系统误差 Ε = Ε (ψι − ⊥ψιψι ) ≅ tss% ({)
z x期 曾伟生等 }论加权回归与建模
平均相对误差绝对值 Ρ ΜΑ = Ε | ψι − ⊥ψι⊥ψι | / ν ≅ tss% (|)
预估精度 Π = (t − τΑ# Ε (ψι − ⊥ψι)u¡hψ# ν( ν − Τ) ) ≅ tss% (ts)
或 o预估误差 ΕΠ =
τΑ# Ε (ψι − ⊥ψι)u
¡hψ# ν( ν − Τ)
≅ tss% (tt)
式中 }ψι为实测值 ; ⊥ψι为预估值 ; ν为样本单元数 ; τΑ为置信水平 Α时的 τ分布值 ; Τ为回归模型参
数个数 ;¡hψ为平均预估值 ,可由 ©(hξ)给出 ∀另外 ,因为这类回归模型必须具有通用性质 ,需满足随自变量
ξ 从小到大时模型的上述指标应基本保持一致 o所以还需分段对上述指标作出评价 ∀
应特别强调的一点是 o因为相对误差公式一般表示为 }
相对误差 = 测量值 − 真值真值 ≅ tss%
从而在林业应用上对kzl ∗ k|l式过去几乎都是写成k预估值 p实测值lr实测值 o即习惯性地将实测值
当成了真值 ∀将实测值当真值正确与否 o需视具体情况而定 ∀如某一株 ∆ us¦° ! Η tx °的杉木 o
经实测其材积为 s1uw °v ∀如果用于立木材积的目测训练 o正确的做法自然是将 s1uw °v 作为该树的
材积真值来检测每个人的目测水平 ~如果是用于立木材积表的编制 o则 s1uw °v 只是满足 ∆ us ¦° !
Η tx °这一条件的某株杉木的材积实测值 o在这种情况下不存在真值的概念 o而只有实测值与预估
值k或期望值l之分 ∀误差计算在林业数表领域的应用基本上都是后一种情形 o因此一般应采用前面给
出的kzl ∗ k|l式 ∀
表 1 普通回归与加权回归估计的拟合结果
Ταβ .1 Φιττινγ ρεσυλτσ οφ ορδιναρψρεγρεσσιον ανδ ωειγητινγ ρεγρεσσιον εστιµατιον
方法
ª¨µ¨¶¶¬²± ° ·¨«²§
参数估计值k变动系数 h l
°¤µ¤° ·¨¨µ ¶¨·¬°¤·¨¶k¦²¨ ©©¬¦¬¨±·¶²©√¤µ¬¤·¬²± h l
统计指标
≥·¤·¬¶·¬¦¤¯ ¬±§¬¦¨¶
α β Θ Σ Ρ Ρ 3
普通回归
µ§¬±¤µ¼ µ¨ªµ¨¶¶¬²± s qsu|szwkuu qzu h l s q|wt{sku qy{ h l uwxx quv z qtxus s q||tww s q||tuy
加权回归
• ¬¨ª«·¬±ªµ¨ªµ¨¶¶¬²± s qsy||uvktt qst h l s q{vvxvkt q|u h l xtvz q|t ts qvwys s q|{ust s q|{tyv
表 2 普通回归与加权回归估计的检测结果
Ταβ .2 Τεστ ρεσυλτσ οφ ορδιναρψρεγρεσσιον ανδ ωειγητινγ ρεγρεσσιον εστιµατιον
样本范围
≥¤°³¯¨¶¬½¨
普通回归
µ§¬±¤µ¼ µ¨ªµ¨¶¶¬²±
加权回归
• ¬¨ª«·¬±ªµ¨ªµ¨¶¶¬²±
ΡΣ Ε Ρ ΜΑ Π ΡΣ Ε Ρ ΜΑ Π
全部
ײ·¤¯ t quy |x{ qss ux qx| |w qvy w qus s qss tw qt{ |u qvs
第 t段
≥ ¦¨·¬²± ²qt wv qvx xwv qwx xw qvx v{ qvy p u q{y p w q{y ts qwz {v qys
第 u段
≥ ¦¨·¬²± ²qu vv qsx wss qtu wt q{w yt qv{ w qtx zx q{u uu q|u zz qyz
第 v段
≥ ¦¨·¬²± ²qv x qzw yx quw { qtw |t qwx p y qz| p zu qvw | q{{ |t qxw
第 w段
≥ ¦¨·¬²± ²qw p w qyz p x{ qwt ty qsv {y qts p y q{z p |t qyz ty qvx {x qzt
第 x段
≥ ¦¨·¬²± ²qx s qw| z qys z qyt |t qzu ts qzy |v qsy tt qu{ {x qxy
{ 林 业 科 学 vx卷
预估精度ktsl式或预估误差kttl式是笔者提出的评价通用性模型的新指标 o从后面的讨论将看
到 o它是反映模型预估效果的最重要的评价指标 ∀它的成立需满足条件总体为正态分布这一前提条
件 ∀对于林业生产应用中的绝大多数情况 o这一条件都是基本满足或近似满足的 ∀
312 模型评价与加权回归
为了说明加权回归方法对建立通用性模型的重要性 o现以一组实测数据为例 o来对普通最小二乘
法和加权最小二乘法得出的模型进行评价 ∀
所用数据为杉木地上部分干物质生物量 o采集自江西省德兴市的人工杉木林中 ∀共计 xs株样木 o
来自 y个样地 o样地按幼 !中 !成 v个龄组和中 !好两个立地等级各分布 t块 ∀如果从建立立木生物量
模型这一目的考虑 o所用数据严格讲并不符合建模要求k后面将讨论到l o但用作不同方法结果的对比
是可以的 ∀表 t给出了常规生物量模型 Ω = α( ∆u Η) β 两种回归估计方法的对比结果 o表 u列出了
kzl ∗ ktsl式的评价指标值 o其中包括将整个建模样本按胸径 ∆的大小以株数平分为 x段所算出的评
价指标值 ∀
从表 t !表 u可以明显看出 o尽管加权回归k特指按前面的最佳权函数kvl式加权 o下同l的残差平方
和为普通回归的 u1t倍 o剩余标准差为 t1w倍 o但按kzl ∗ ktsl式所给指标进行分段检验的结果 o加权
回归模型明显优于普通回归模型 ∀普通回归模型随自变量 ξ 从小到大各评价指标从劣到优 o即主要只
照顾绝对值大的样点 o而对绝对值小的样点很少考虑 ∀但是 o加权回归模型却各段的检验结果基本一
致 o而且加权回归模型还有一个很好的特性 o即总系统误差为 s o这从kyl式可以推知 ∀
需要说明的一点是 o由于模型本身的参数是未知的k假定模型结构为已知 ) ) ) 模型结构设计也是
建模的重要环节之一 o本文不作讨论l o因此 o只有事先得到其普通回归估计值 o才能进行加权回归估
计 ∀严格来讲 o以模型本身为权函数进行的加权回归估计 o应该是权函数所赋参数值与回归估计得出
的参数完全相等 ~如果不相等 o应再以新的回归模型为权函数重新进行拟合 ∀一般地 o要达到完全稳定
需经数次的反复拟合 o而且参数越多 o所要拟合的次数也越多 ∀如上述表 t中的例子 o就经过了 z次加
权回归才使参数完全稳定不变k指 x位有效数l ∀但是 o从消除异方差这一目的考虑 o经过 t ∗ u次加权
回归就基本上具有齐性方差了 o模型的总系统误差已接近于 s ∀
加权回归估计与普通回归估计的结果之所以产生如此大的差别 o根本原因在于求解模型参数的准
则不同 ∀普通回归是使 Θ = 6 (ψ − ⊥ψ)u最小 o即保证总相对误差为 sk由于非线性回归估计中的非线
性模型是用泰勒级数展开式近似表示的 o故存在一定偏差 o使估计出来的模型其总相对误差并不等于
s o可参见表 ul o必然优先考虑 ψ绝对值较大的点 ~而加权回归是使 Θχ = 6 (ψ/ ⊥ψ− t)u最小 o即保证总
系统误差为 s o考虑的是相对值 o每个样点都同等重要 o故必然会照顾到所有的样点 ∀总之 o不论理论分
析还是实际对比结果都表明 o通用性回归模型的建立必须采用加权回归估计方法 ∀
关于回归模型的评价 o Θ !Σ !Ρ !Ρ 3 及参数稳定性等指标主要用于比较确定不同的模型形式 o最
终回归模型的评价则必须重点考虑kzl ∗ ktsl式中的指标值 o而且其分段检验结果尤为重要 ∀
w 收集建模样本的基本原则
要建立一个好的通用性模型 o对建模样本是有一定要求的 ∀如林业上一些通用性数表的编制 o对
样本资料的要求在部颁技术规定k林业部 ot||sl中都作了具体规定 ∀但是也不难发现 o其中对建模样
本的要求仍然不是很明确 o还有必要再作进一步探讨 ∀
411 样本单元数
作为建模样本 o首先涉及样本单元数的问题 ∀文k中华人民共和国林业部 ot||sl中提到了一条原
则 }/样本单元数应根据各项因子的变动范围和精度要求按数理统计原理确定0 o但是对精度要求都是
用/系统误差0这一指标来规定的 o如/蓄积量计量数表的系统误差不超过 ? v h 0 ∀这里的系统误差是
kzl式的总相对误差还是k{l式的总系统误差或其它什么含义 o并未明确 ∀根据数理统计原理 o体现精
度要求的误差概念应该是kttl式所表示的预估误差 o这样才可据此确定样本单元数 ∀
| x期 曾伟生等 }论加权回归与建模
作为通用性模型 o预估精度是针对每一个预估值而言 o因此必须落实到与每一个自变量 ξι所对应
的预估值 ⊥ψι ∀对于林业上的常用模型 , ξι为连续变量 ,因此应该在其取值范围内确定 µ 个能反映因变
量 ψι的变化规律的点 ,再分别根据与这 µ 个 ξι 所对应的 ψι的变动系数及精度要求 ,确定各点的子样
本单元数 , µ 个子样本单元数之和即为整个建模样本的单元数 ∀只有当各点的变动系数相同 ,其对应
的子样本单元数才要求相等 ∀
上面只是考虑一个自变量的情况 ∀如果有多个自变量 ,则情况要复杂一些 ,但原则相同 ∀以二元
立木材积表的编制为例 ,首先需定出 µ 个直径值 ,再针对每个直径值定出 κ个树高值 ,最后按一定要
求收集 µ ≅ κ个子样本 ,合起来形成整个建模样本 ∀假定每个子样本有相同的变动系数(如 ts%) ,按
? x%的预估误差要求(置信水平 |x%) ,则各需 ty个样本单元(取 τs .sx u ,实际操作时应随 ν 作调
整) ∀按最低限度取 µ x !κ v ,则共需 uws个样本单元 ∀如果要求预估误差为 ? v% ,且其它条件不
变 ,则共需 yyz个样本单元 ∀一般情况下 ,材积变动系数会随 ∆ !Η的增大而增大 ,因此 ,如果建模样本
中对应较大 ∆ !Η组合的点所取子样本单元数较少 o则必然会造成大径级立木的材积估计值达不到预
定的精度要求 ∀
412 样本构成
样本构成指样本单元数随自变量的分布情况 ∀仍以二元立木材积模型为例 o样本构成涉及上述
µ !κ的确定及每一个子样本中具体建模样木的选取 ∀
关于径级数 µ 和每个径级中的树高级数 κ ,文(中华人民共和国林业部 ,t||s)中建议分别在 ts ∗
tx左右和不少于 v个 ∀因为 µ !κ的大小直接影响收集样本的工作量 ,提供一个最低限度指标是必要
的 ∀对于材积模型 ,因为其曲线变化趋势比较单一 ,故取 µ x ∗ { !κ v ∗ x即可 ∀如果是变化趋势比
较复杂的模型(如/ Σ0型生长曲线) ,可适当增加至 µ z ∗ ts ∀在确定 µ !κ之后 o具体选取哪些径级
和树高级时 o应掌握如下原则 }最小 !中等和最大者必选 o然后再在其间适当增选 ~目标变量变化规律未
知时考虑等距均匀分布 o变化规律已知时宜典型选取 o其中变曲点处必选 ∀由于树高级的确定是在已
定径级基础上进行的 o故应考虑影响树高变动的各种因素 ∀
具体针对某一径级和树高级组合的子样本 o其样木的选取必须考虑影响材积变动的各种因素 o在
根据各种影响因素划分的类型中去典型选样 ∀因为异方差性的存在 o笔者认为各子样本样木的 ∆ !Η
应尽可能地一致 o以正确地估计其平均数的方差和变动系数 ∀尽管整个样本看起来呈现离散性 o但不
会影响建模效果 ∀相反 o因为各子样本的收集都达到了建模要求 o只要模型选取得当 o其预估精度是肯
定可以达到预定要求的 ∀
样本资料的收集是建模的首要环节 o其质量好坏直接影响建模效果 ∀通过模拟数据的对比检验结
果可以发现 o一套理想的建模样本数据 o不管是采用普通回归还是加权回归估计方法 o其结果几乎是一
致的 ∀也即由一套好的样本资料所建立的模型 o其总相对误差和总系统误差都应该接近于 s ∀因此可
以说 ou种估计方法得出的回归模型的差异大小 o在一定程度上反映了建模样本的质量好坏 ∀
413 检验样本与精度检验
建立通用性回归模型时 o一般要求在收集建模样本的同时 o还另收一套检验样本 ∀如文k中华人民
共和国林业部 ot||sl中提到收集编表资料的另一条原则 }/要同时收集编表和检验两套样本 o用编表样
本编表 o用检验样本检验所编数表的精度 ∀0检验样本的收集原则和方法类似于建模样本 o此处只着重
讨论检验方法及这一检验的必要程度 ∀
利用检验样本进行所谓/适用精度0检验 o必须分别径级进行 ∀正确的方法应是先按kzl式算出总
相对误差 Εχ o然后判断它是否超过公式 }
τχΑΧς/ νχ (tu)
的计算结果 ∀式中 oΧς为检验径级的预估材积的变动系数 , νχ为该径级检验样本单元数 , τχΑ为置信水
平 Α时的 τ分布值(自由度为 νχ p Τ , Τ为模型参数个数l ∀如果不超过 o则认为模型是可以接受的 ∀
由kttl式知 oktul式中的变动系数 Χς可表示为 }
st 林 业 科 学 vx卷
Χς = Επ ν/ τΑ (tv)
式中 Επ为检验径级的材积预估误差 , ν 为该径级的建模样本单元数 , τΑ为置信水平 Α时的 τ分布值
(自由度为 ν p Τl ∀将ktvl式代入ktul式 o可得到接受模型的条件为 }
Εχ [ Επ # τ
χΑ
τΑ #
ν
νχ (tw)
如果 νχ ν o则只要检验样本的总相对误差不大于建模样本的预估误差就行了 ∀另外 oktwl式还反映
出了一条信息 o即各径级检验样本单元数必须满足 νχ Τ ∀
从上述检验方法可看出 o整个检验行为并不能提出一个反映所建回归模型预估精度的指标值 o而
只是作出一个可否接受模型的判定 ∀可以推断 o只要建模样本的收集符合要求 o就基本上能以 (t − Α)
的概率作为接受模型的判定 o也即作出否决模型的判定只是一个小概率事件 ∀万一真是出现此种情
况 o也只能按要求去完善样本资料重新建模 ∀因此 o与其花费一部分工作量去收集检验样本 o还不如在
收集建模样本时多花点功夫以确保其质量 ∀真正体现回归模型预测精度的 o还是预估误差这一指标 ∀
x 结论
样本资料收集 !回归估计方法和模型评价是建立回归模型的 v个重要环节 ∀
建模样本单元数必须根据预定精度要求和目标变量的变动系数及变化规律综合确定 ∀样本的构
成关系到样本的质量 o而样本的质量好坏将直接影响所建回归模型的精度 ∀
加权回归估计方法是建立通用性回归模型所应采取的方法 ∀任何回归模型的最佳权函数就是模
型本身 ∀以模型本身为权函数所进行的加权回归估计 o一方面将所有建模样本单元同等对待 o从而保
证了模型的总系统误差为 s ~另一方面彻底消除了模型中可能存在的异方差性 ∀
对回归模型的评价 o除了残差平方和 !剩余标准差 !复相关系数 !修正复相关系数 !参数变动系数 !
残差分布图以及信息量准则 ≤ 和 ≤³准则等等指标以外 o还需考虑另外 w大重要指标 o即总相对误
差 !总系统误差 !平均相对误差绝对值和预估精度k或预估误差l ∀
参 考 文 献
董德元 o杨 节 o苏敏文等 q试验研究的数理统计方法 q北京 }中国计量出版社 ot|{z
刘璋温 o吴国富 q选择回归模型的几个准则 q数学的实践与认识 ot|{v oktl }yt ∗ y|
骆期邦 o宁 辉 o贺东北等 q二元立木材积动态模型研究 q林业科学研究 ot||u oxkvl }uyv ∗ uzs
盛承懋 o李慧芬 o钱君燕编译 q应用回归分析 q上海 }上海科技文献出版社 ot|{|
俞大刚 q线性回归模型分析 q北京 }中国统计出版社 ot|{z
曾伟生 o骆期邦 q二元材积生长率标准动态模型研究 q中南林业调查规划 ot||u ottkvlt ∗ y
曾伟生 q关于加权最小二乘法中权函数的选择问题 q中南林业调查规划 ot||y otxktlxw ∗ xx
曾伟生 o廖志云 q削度方程的研究 q林业科学 ot||z ovvkul }tuz ∗ tvu
钟义山 q回归模型优劣评价的几个问题 q中南林业调查规划 ot||u ottkwl }ts ∗ tw
中华人民共和国林业部 q林业专业调查主要技术规定 q北京 }中国林业出版社 ot||s
tt x期 曾伟生等 }论加权回归与建模