全 文 : 1995—12—12收稿。
王雪峰助理研究员,唐守正(中国林业科学研究院资源信息研究所 北京 100091)。
* 本文属 1992年国家自然科学基金项目“我国主要人工用材林生长模型、经营模型及优化控制”部分内容之一。
1)李树生.兴安落叶松天然林生长收获预测模型.硕士论文, 1990.
2)岳德鹏.联立方程组在直径分布中的应用.硕士论文, 1994.
直径结构模拟中的核方法与直方图
及列点法的比较分析*
王雪峰 唐守正
摘要 应用非参数核密度估计方法,可以由样本直径结构很好地描述总体直径结构,而无需假
定总体的直径分布。本文采用计算机模拟技术, 比较了核方法与直方图方法及列点法在描述总体时
的优劣, 结论是核方法优于直方图方法, 也优于列点法。
关键词 模拟、非参数核密度估计、直径分布
对直径结构的研究已有近百年的历史, 从研究者所使用的方法看, 主要有列点法( L ist o f
diameter s) , 林分表法( Stand table) , 分布函数法( Dist ribut ion Funct ion)和百分位法( Per-
cent ile)。在早期的直径结构研究中, 主要采用前两种方法,即着重从生物学角度研究林木直径
大小序列,采用简单的统计数据,以列点法或直方图( Histogr am)研究直径结构规律。以后计算
机的发展,给人们提供了求解复杂函数的可能性,故人们把重点转移到对分布函数的研究。较
典型的分布函数有对数正态分布 [ 1]、 分布[ 2]、分布[ 3]、Sb 分布 [ 4]、Weibull分布 [ 5]。其共同点
是都需要知道林分直径的具体分布形式。从现有研究中各种分布函数的拟合结果看,无论假定
哪一种分布,卡方检验的接受率都很低1) ,说明林分的直径结构很难用同一分布族来描述。迫
使人们寻找更好的方法,其中百分位方法[ 6]就是一例。但这种方法在方程选型上理论依据不
足,并且效果也并不特别理想2)。是否有更好的描述直径结构的方法呢? 答案是肯定的。本文
再引入一种非参数方法( Nonparametric est imate) [ 7]。这是比较新的一种方法,无需知道是否
属于哪一分布族, 就能对总体进行非常完美的描述。
1 非参数方法简介
它的基本思想是:
如果X 1, X 2, ⋯, X n 是概率密度为 f ( x )的总体的样本,则
f n ( x ) = 1
nhn∑
n
i= 1
K (
x - X i
hn
) ( 1)
就是 f ( x )一个非参数核密度估计, 它满足:
f n( x ) ≥ 0; ∫f n( x ) dx = 1
其中, K ( x )为核函数, 一般取为适当的概率密度函数, hn为窗宽, 它与样本容量有关,且 hn→
林业科学研究 1996, 9( 5) : 469~474
Forest Research
0, n→∞时, f n( x )→f ( x ) ( a. s. )。可看出,它不需知道林分是否属于哪一分布族,就可对林分
结构进行描述; 同时它的假设很少,对于任给的两个 x 1< x 2值, 它都能够回答出在[ x 1, x 2]内
的株数或频率。很明显,用这种方法来描述直径结构具有得天独厚的优点。
在描述一个样本时,列点法最准确, 但是仅能说明样本本身意义并不是很大,因为数理统
计的核心是以样本估计总体;与此同时,列点法也没有消除随机因素的影响。那么在描述总体
时究竟哪一种方法更好? 本文准备采用计算机模拟技术,来探讨非参数核密度估计和直方图、
列点法的优缺点。
理论上, K ( x )为任意函数, 但是从应用角度, K ( x )多取为适当的概率密度函数。本文采用
在统计上具有很多优良性质 [ 7]的( 2)式。
K ( x ) =
3
4 5
( 1-
x
2
5
) x ≤ 5
0 x > 5
( 2)
hn 的选取, 是核估计的最关键问题, 它直接影响着核估计精度。笔者通过大量的试验, 认
为把直方图的宽度与所选核函数最大值的乘积作为窗宽,能够满足应用要求,同时还能达到很
高的精度。由于林业上大多以 2 cm 作径阶宽,故本文取 hn= 0. 67。
2 试验方法
2. 1 比较原理
设一总体,直径累积分布为 F( x ) , 从中抽取 n 个单元组成一个样本, 其标志值为 x 1, x 2,
⋯, x n。本文采用柯尔莫哥洛夫检验法,比较列点法与核方法在描述总体时的优劣;而比较直方
图与核方法时,采用卡方检验法。
2. 1. 1 列点法与核方法的比较
令 l= sup
x
[ F l ( x ) -F( x ) ] ( 3)
k= sup
x
[ Fk( x ) -F( x ) ] ( 4)
其中 F l( x ) = 1
n∑x
i
≤x
ni ( 5)
Fk( x ) =∫x0f n( y ) dy = 1nhn∫x0∑ni
i
= 1
K (
y-x i
hn
) d y = 1
nhn∑
n
i= 1
∫x0K ( y-x ihn ) dy ( 6)
K ( x )取( 2)式。因为k 和l 都近似遵从斯米尔诺夫—柯尔莫哥洛夫分布,所以,如果k< l ,则
说明在描述总体时,核方法要优于列点法。
2. 1. 2 直方图与核方法的比较
设样本分组数据为 D j , mnj ( j= 1, 2,⋯, m) , 其中, D j 为 j 径阶中值, m hj为 j 径阶株数。则
核方法计算各径阶株数的计算式如下:
mki= n∫2i+ D 02i- 2+ D
0
f n( y ) dy = n∫2i+ D02i- 2+ D
0
1
nhn∑
m
j = 1
mhjK ( y - D j
hn
) dy
=
1
hn∫2i+ D 02i- 2+ D 0∑mj = 1 mhjK ( y - D jhn ) dy = 1hn∑mj = 1 mh. j∫2i+ D02i- 2+ D0K ( y - D jhn ) dy ( 7)
470 林 业 科 学 研 究 9 卷
D 0为最小径阶下限, K ( x )取( 2)式。下面我们取
X
2
h = ∑m
j= 1
(mhj - np j ) 2
np j
( 8)
X
2
k = ∑m
j= 1
(mkj - np j ) 2
np j
( 9)
式中, p j 为直径落入第 j 径阶的概率。当X 2k< X 2h时,则表明由样本描述总体时,核方法要优于
直方图方法。
2. 2 模拟总体
由于本试验对数据要求较高,故采用计算机模拟方法,生成遵从某一分布F ( x )的总体标
志值,从中随机抽取若干样本进行估计。
令 在( 0, 1)内为均匀分布, 若 F- 1 ( x )为 F( x )的反函数,则 = F- 1 ()的分布函数为 F
( x )。例如,对于Weibull分布
F ( x ) = 1 - e- (
x-a
b
)
c
( 10)
有: = a + b( ln 1
1 - )
1
c ( 11)
这样,只要随机产生( 0, 1)间的 值,由( 11)式得到的 值即为遵从Weibull分布的直径值。由
于Weibull分布均值为:
W = b ( 1 + 1/ c ) + a ( 12)
故欲产生平均直径为 D 的直径值, 可由上式
计算。本试验产生 4种不同平均直径D 的总
体数据,总体单元数为 10 000株。各总体单
元参数见表 1。
2. 3 样本组织
在实际外业测定中,样地面积不可能很
表 1 Weibull分布参数
D a b c
10 3. 5 6. 50 1. 0
15 5. 3 9. 70 1. 0
20 7. 0 14. 65 1. 9
25 8. 8 18. 24 2. 6
大,为了不至于使本试验失真,将对抽取的单元数进行一定限制。
已知, N = S t( D / 20) - ,其中 S t 为密度指数, N 为每公顷株数。对于长白落叶松( L arix ol-
gensis Henry) , 取 1. 68。采用下式抽取试验的样本单元数。
n =
S t
10
( D
20
) - 1. 68 ( 13)
则,这大约相当于样地面积为 0. 1 hm 2的长白落叶松实测株数。S t 分别取400、600、800、1 000、
1 200、1 400、1 600,对于不同的 D ,由( 13)式将分别得到应抽取的样本单元数。这样,共产生 4
种不同直径、7种不同密度林分的模拟数据,每种组合产生 10个样本(重复) ,按 2. 1节的原理
进行计算、分析。
3 结果分析
3. 1 列点法与核方法的比较
由 2. 1. 1节的( 3)、( 4)式,得到柯尔莫哥洛夫检验值见表 2。
总的说,共进行 280次比较, 核方法优于列点法达 254次, 而列点法优于核方法的次数仅
4715 期 王雪峰等: 直径结构模拟中的核方法与直方图及列点法的比较分析
26次;还可以看出, 参加试验的样本单元数越少, 核方法描述总体的相对效果越好。
表 2 核方法与列点法的柯尔莫哥洛夫检验比较
密度
指数
直径 d= 10 cm 直径 d= 15 cm 直径 d= 20 cm 直径 d= 25 cm
n B C n B C n B C n B C
400 128 10 9 64 10 10 40 10 10 27 10 10
600 192 10 7 97 10 10 60 10 10 41 10 10
800 256 10 7 129 10 10 80 10 10 54 10 10
1 000 320 10 6 162 10 10 100 10 10 68 10 10
1 200 384 10 6 194 10 8 120 10 10 82 10 10
1 400 448 10 6 226 10 10 140 10 10 96 10 10
1 600 512 10 5 259 10 10 160 10 10 109 10 10
总 计 70 46 70 68 70 70 70 70
注: n为抽取的样本单元数, B 为重复次数,C 为核方法k 小于列点法 l 的次数; x∈[ 0, 70] ,步长 0. 05。
3. 2 核方法与直方图方法的比较
首先,从总体中随机抽取样本, 抽取的样本单元数按( 13)式进行计算; 然后, 对数据以 2
cm 径阶宽度进行分组, 得到 mhj ;再由 2. 1. 2节中的( 7)式计算mki。然后由( 8)、( 9)式计算核方
法与直方图方法的卡方值得到表 3。
表 3 分组数据的核方法与直方图的卡方检验比较
密度
指数
直径 d= 10 cm 直径 d= 15 cm 直径 d= 20 cm 直径 d= 25 cm
n B C n B C n B C n B C
400 128 10 9 64 10 10 40 10 10 27 10 10
600 192 10 8 97 10 10 60 10 10 41 10 9
800 256 10 6 129 10 10 80 10 9 54 10 10
1 000 320 10 6 162 10 10 100 10 9 68 10 9
1 200 384 10 7 194 10 10 120 10 10 82 10 8
1 400 448 10 5 226 10 10 140 10 10 96 10 9
1 600 512 10 5 259 10 10 160 10 8 109 10 9
总 计 70 46 70 70 70 66 70 64
注: n为抽取的样本单元数, B 为重复次数,C 为核方值核方法小于直方图方法的次数。
从表 3的结果看, 进行 280次试验, 核方法优于直方图的次数为 246次, 直方图优于核方
法的次数为 34次; 另外,从总的情况看, 也是参加试验的样本单元数越少,核方法描述总体的
相对效果越好。
3. 3 多峰总体核方法与列点法、直方图的效果分析
由于 3. 1节和 3. 2节的模拟数据都来自单峰总体,为进一步比较多峰总体情况,将平均直
径分别为 10 cm 和 25 cm 的两个Weibill分布函数叠加而成一个新的总体。其中, 平均直径 10
cm 的 3 000株,平均直径为 25 cm 的 7 000株。从总体中抽取的样本数由( 13)式得到。按上面
的方法,在比较核方法与列点法时用柯尔莫哥洛夫检验; 而比较核方法与直方图时采用卡方检
验法(见表 4)。
可以看出, 对于多峰总体,结论同 3. 1节和 3. 2节是一样的,仍然是核方法模拟总体的效
472 林 业 科 学 研 究 9 卷
果要比另外两种方 法要好。为进一步从统计角度来检验以上结论的正确性,对以上结果进行
了符号检验, 结论见表 5、6。
由表 5、6可知,不论是单峰还是多峰总体, 符号检验结果都表明核方法既优于列点法, 又
优于直方图; 特别是当总体为多峰时,用核方法模拟总体要远远优于列点法及直方图法。
表 4 多峰总体核方法与列点法、直方图
的效果分析
密度
指数
核方法与列点法 核方法与直方图
n B C n B D
400 128 10 10 128 10 10
600 192 10 10 192 10 10
800 256 10 9 256 10 10
1 000 320 10 10 320 10 9
1 200 384 10 10 384 10 9
1 400 448 10 9 448 10 9
1 600 512 10 10 512 10 9
总 计 70 68 70 66
注: C为柯尔莫哥洛夫检验中核方法 k 小于列点法l 的次数; x∈[ 0, 70] ,步长 0. 05;
D 为卡方检验中卡方值核方法小于直方图方法的次
数;
n为抽取的样本单元数, B 为重复次数。
表 5 单峰总体符号检验结果(显著水平 0. 95)
平均直径 核方法与列点法 核方法与直方图
s n s n
临界值
sa
10 46 70 46 70 44
15 68 70 70 70 44
20 70 70 66 70 44
25 70 70 64 70 44
注: s为出现“+ ”的次数; n为试验次数。
表 6 多峰总体符号检验结果(显著水平 0. 95)
核方法与列点法 核方法与直方图
s n s n
临界值
sa
68 70 66 70 44
4 结论
核方法是古老的直方图方法的自然发展,理论上它具有直方图方法无法比拟的优点,通过
本文的研究, 从模拟角度证明了核方法要比直方图方法好。
实际上,核方法是一种修匀方法,它消除了随机误差的影响,故用它模拟总体时要比直接
用列点法效果好。
对于多峰总体,与直方图和列点法相比,核方法的优势更突出。
当样本数很少时, 核方法模拟总体的效果要远远优于列点法及直方图法; 随着样本数增
加,核方法的优点渐减,最后同直方图和列点法趋于一致。这与实际问题是相符合的。因为样
本数很大时, 无论用哪一种方法,都与总体接近。此时,方法本身将变得不重要了, 那么,在这种
时候,应该选择最简单的方法。
参 考 文 献
1 Bliss C L, Rein ker K A. A logn ormal approach to diam eter dist rib ut ion in even-aged s tand s. For. Sci. , 1964, ( 10) :
350~360.
2 Nelson T C. Diameter dist ribut ion an d gr ow th of lob lolly pine. For. Sci. , 1964, ( 10) : 105~115.
3 Clut ler J L, Bennet t F A. Diam eter dis t ribut ions in old-f ield s lash pine plan tat ions: Ga. Forest Res. Counc. Rcp. ,
1965, 13: 9.
4 Haf ley W L, Schreuder H T. Statis t ical dist ribut ions for fit t ing diam eter an d height data in even-aged s tands . Can.
J. For . Res . , 1977, ( 7) : 481~487.
5 Bailey R L, Dell T R. Quant itying diameter dis trib ut ions w ith the Weibu ll funct ion . For. Sci . , 1973, ( 19) : 97~104.
6 Bor ders B E, Souter R A ,Bailey R L, et al. Pern til e-baded dis tr ibut ions character ize forest stand s tables . For S ci. ,
1987, ( 33) : 570~576.
7 陈希儒,方兆本,李国英,等.非参数统计.上海:科学技术出版社, 1989.
4735 期 王雪峰等: 直径结构模拟中的核方法与直方图及列点法的比较分析
Simulating Diameter Structure: A Comparison of Nonparametric
Kernel Method, Histogram Method and Diameter List Method
Wang Xuef eng T ang Shouz heng
Abstract T he populat ion diameter st ructure can w ell be described by using nonpara-
metr ic kernel method based on the sample data without assum ing the populat ion diameter
distr ibution. The results of the computer simulation have show ed that nonpar ametric kernel
method is bet ter than both histo gram method and diameter list method in obtaining the popu-
lation diameter st ructure.
Key words simulat ion, nonparametric kernel density est imat ion, diameter dist ribut ion
Wang Xuefeng , Ass istant Pr ofessor , Tang Sh ouzheng ( T he Research Ins titute of Forest Resource Inform at ion T ech-
niques , CAF Beijin g 100091) .
《桉树营养》评介
由 P M Att iw ill和 M A Adams主编和 10多个国家 30多位研究桉树的学者参加编写的
《桉树营养》( Nutrit ion of Eucalyptus)一书,最近由澳大利亚联邦科工组织( CSIRO)出版。全
书 448页, 49幅彩图,精装,售价 150澳元(约合人民币 1000元)。
此书概括了所有关于桉树营养的研究成果和大量文献,当前桉树人工林营养管理的进展
和营养缺乏的诊断。澳大利亚学者论述了澳大利亚森林土壤中的磷、土壤对桉树进化的影响,
澳大利亚自然景观中的桉树分布,桉树的营养生理和养分循环及林分经营。澳大利亚、新西兰、
南非、阿根廷、巴西、智利、葡萄牙、中国和印度等国学者分别撰述了各自国家桉树人工林的培
育和施肥。该书最后一章是桉树营养缺乏诊断。此书涉及 110种桉树,引用 245篇有关桉树研
究文献,是研究和经营桉树人工林不可多得或缺的重要参考书。如需购买者,可与中国林科院
林研所王豁然联系。
(王豁然)
474 林 业 科 学 研 究 9 卷