全 文 : 1995—12—12收稿。
王玎奉瑜助理研究员,李希菲(中国林业科学研究院资源信息研究所 北京 100091)。
* 本文是 1992年自然科学基金重点项目“我国主要人工林生长模型、经营模型和优化控制”部分内容。唐守正研究员给
予指导,王雪峰同志给予帮助,特此致谢。
密度—直径关系研究中变量变换形式
的选择和变量误差矩阵的估计*
王玎奉瑜 李希菲
摘要 在林分自稀疏过程研究中, 利用度量误差模型的形式估计林分断面积平均直径 Dg 与
单位面积株数 N 关系模型的参数时,需要确定 Dg 和 N 的抽样误差 e、方差的比值。本文利用 20
块人工落叶松标地的材料, 经过再抽样, 计算并比较了各种数据变换方式下,断面积平均直径与单
位面积株数的方差比。结果表明 ln( N )和 Dg 的方差比接近于常数, 其均值为 3. 024 8×10- 2。由此,
可确定变量的变换形式和构造误差矩阵,从而为精确估计模型参数提供依据。
关键词 自稀疏、度量误差模型、抽样误差
应用度量误差模型的形式估计林分因子间关系的模型参数,既可解决变量间相互预报的
问题, 又可提高模型参数的估计精度。本文研究直径 D 和株数 N 关系建模时, 如何构造模型
的误差结构, 并确定二元随机误差的误差结构矩阵。
1 引 言
应用数学模型描述林分中各变量之间的关系已成为林业研究工作的重要方法。用通常方
法建立数学模型时,总是把变量分为因变量(预报变量)和自变量(说明变量)。在实际问题中,
有些模型的预报变量和说明变量是不可以互换的,例如: 用气象因子来预报农作物产量。在有
些模型中,各因子是要互相预报的,例如:完满立木度林分中, 直径 D f 和密度N f 的关系[ 1]
ln ′= ln( D f ) + ln( N f ) ( 1)
或林分优势高 H d 和平均高 H 的关系[ 2]
H d = a + bH
对这种问题, 当自变量和因变量位置互换后,用通常最小二乘法估出的回归方程不是同一条直
线。另一方面,通常最小二乘法的模型是将误差加在因变量上,因此当自变量和因变量都存在
较大量测误差时, 直接用通常最小二乘法来估计模型参数,并不是一个好方法。Fuller [ 3]系统地
介绍了度量误差模型,这个模型与 Kendall[ 4]介绍的函数关系与结构关系模型或 Cramer [ 5]介
绍的正交回归模型本质上是一致的。唐守正[ 2]提出的对偶回归也属于度量误差模型。利用度量
误差模型来建立林分因子间关系的模型既可以解决变量之间相互预报的问题,又可以提高模
型参数的估计精度。现在用这个观点来考察模型( 1)的参数估计问题。假定完满立木度林分直
林业科学研究 1996, 9( 6) : 568~572
F or est Res earch
径 D f 和 N f 满足关系式( 1) , 为了估计参数 和 ,设置 m 个标准地, 其观测值为 n i 和 d i ( i=
1, ⋯, m)。由于抽样或量测误差, ( ni, d i)与其真值 N i 和 D i 不同。
目前,构造模型的误差结构时,一般有加法或乘法结构两种,加模型认为:
N i = ni + i
D i = d i + e i
乘模型认为:
N i = ni × ′i 或 ln( N i ) = ln( n i) + i
D i = d i × e′i 或 ln( D i ) = ln( d i ) + ei
对于模型( 1)的误差结构,可能出现 4种组合的模型:
模型 1∶D 和 N 都是加结构,这时, 方程( 1)变为
ln = ln( d i + ei) + ln( ni + i ) ( 2)
模型 2: D 和 N 都是乘结构,方程( 1)变为
ln = ln( d i) + ei + ln( ni ) + i ( 3)
模型 3: D 是加结构, N 是乘结构,方程( 1)变为
ln= ln( d i + ei) + ln( ni ) + i ( 4)
模型 4: D 是乘结构, N 是加结构,方程( 1)变为
ln= ln( d i) + ei + ln( ni + i ) ( 5)
在上述 4种组合中,如果 d i 的度量没有误差,即 e i= 0,这时方程( 2)和方程( 5)变成以 N 为因
变量, D 为自变量的非线性模型。方程( 3)和方程( 4)变成以 N 为因变量, D为自变量的对数线
性化模型,反之若 i= 0, 则方程( 1)和( 3)变成以 N 为自变量, D 为因变量的非线性模型,方程
( 2)、( 4)变成以D 为因变量, N 为自变量的对数线性化模型。本文的第一个目的就是通过对抽
样误差的分析来确定, 当研究 D和 N 的关系时,究竟应当用哪一种模型。
其次,当确定模型类型后,由[ 2]知,还必须知道, 2e 和 2的比值, 才能使用度量误差模型
来估计参数 和 。由 Fuller [ 3]知,对于更一般的情况,需要知道二元随机误差( e, )的误差结
构矩阵,所谓误差结构矩阵 是指矩阵:
=
2
1 r1 2
r1 2 22
它与( e , )的协方差阵 差一个未知倍数 k, 即 = K; 本文的第二目的是求出由抽样误差造
成的 e(即 D 或 ln D )和 (即 N 或 ln N )的误差结构矩阵的数值。本文的结果很容易推广到多
元情况,例如[ 1]中提出的一个估计自稀疏方程参数 S f (最大密度指数)、(自稀疏率)、(自稀
疏指数)的方程:
ln N 2 = lnS f - ln[ ( D 2/ D 0) + ( S f / N 1 ) - ( D 1/ D 0) ] / ( 6)
其中D 1、D 2、N 1、N 2为同一林分前期和后期直径和密度。
2 数据采集和处理
2. 1 数据
原始数据采用吉林省汪清林业局的 20块人工落叶松( L arix olgensis Henry)标地,在选择
5696 期 王玎奉瑜等: 密度—直径关系研究中变量变换形式的选择和变量误差矩阵的估计
标地时取没有经过很大人为破坏的、面积不小于 1 350 m2 的标地, 标地均有多次测树资料,
1992、1994年按研究要求复测,重绘了样地树木位置图。各样地的基本情况见表 1。
2. 2 抽样调查
为了计算变量方差比并分析变量方差比是否与抽样面积大小有关,需要大量不同面积的
样地数据, 为此设计了从 100~600 m 2的 6 个不同面积大小的抽样方案, 对上述的 20块标准
地进行室内抽样调查, 抽样原则是: ( 1)每级方案的小样地均覆盖原始样地的全部面积。( 2)每
级抽样方案中任意两块相邻的小样地的重复部分均不超过其本身面积的50%。按照以上抽样
原则和方案由计算机进行抽样统计调查,共计得到 1 565块小样地调查数据(数据略)。
表 1 原始样地基本情况
样地
编号
样地横向
边长(m )
样地纵向
边长( m ) 株数
断面积平均
直径( cm)
101 50 50 209 21. 233 6
102 50 50 208 20. 178 1
103 50 40 103 17. 617 1
204 100 25 164 17. 010 2
208 100 25 211 16. 129 5
209 25 100 180 16. 969 7
210 30 80 131 19. 540 4
211 25 100 112 19. 694 0
212 100 25 159 16. 434 5
213 100 25 153 16. 112 5
305 40 50 214 13. 630 8
306 50 40 306 16. 849 9
307 40 50 220 18. 111 9
308 50 40 129 19. 534 9
309 50 50 293 16. 782 6
310 50 50 198 19. 591 6
311 50 50 195 20. 478 5
312 50 50 219 18. 797 4
313 45 45 144 18. 193 0
314 45 45 167 17. 973 4
2. 3 数据处理
将所获小样地单位面积株数 N 和断面
积平均直径 Dg 的数据进行自然对数变换,
并分别计算每块标准地每级抽样方案下断面
积平均直径 Dg 和株数 N 测量值的方差及
它们的自然对数的方差,共有 120组数据,然
后再分别计算变量方差比 S 2Dg / S2N、S 2N / S 2Dg、
S
2
ln( Dg) / S
2
ln( N )、S2ln( N ) / S 2ln ( Dg)、S 2Dg / S 2ln( N )、S 2ln ( N ) /
S
2
Dg、S2ln( Dg ) / S 2N、S 2N / S 2ln( Dg)的值。
3 数据分析
3. 1 变量方差比值分析
从各组变量方差比的数据中可以看出,
各方差比基本上都趋近于各自不同的一个常
数。求出各组方差比值序列的变动系数和均
值,见表 2。从表 2中可以看出在各组方差比
值中, 以 S2ln( N ) / S 2Dg、S2ln( N ) / S 2ln (Dg)、S2Dg / S 2ln ( N )、
S
2
ln( Dg) / S
2
ln( N )的值的变动系数较小。
表 2 各组方差比值的变动系数和均值
方差比值 S 2Dg / S2N S 2N / S 2Dg S 2ln(Dg) / S 2ln( N ) S 2ln(N )/ S 2ln( Dg) S 2Dg/ S 2ln(N ) S 2ln(N ) /S 2Dg S 2ln( Dg) / S 2N S 2N / S2ln(Dg)
样地数 1 565 1 565 1 565 1 565 1 565 1 565 1 565 1 565
变动系数 1. 036 4 1. 268 9 0. 981 1 0. 784 2 0. 979 0 0. 750 7 1. 151 9 1. 138 8
均 值 1. 13×10- 4 1. 07×10- 9 0. 183 4 10. 090 4 59. 466 4 0. 030 248 3. 55×10- 7 6. 55×10- 6
3. 2 变量方差比与抽样面积关系分析
计算不同的抽样方案下各方差比数据序列的均值和变动系数,对各组变量方差比与抽样
面积进行方差分析,结果见表 3。从表 3中可见,各组方差比在不同抽样方案下的变动系数和
均值都较为稳定,但方差分析的结果显示 S2Dg / S 2N 的值在不同抽样方案下的差异较为明显, 而
其余各组方差比在不同的抽样方案下的差异不明显。即可以认为 S 2N / S 2Dg、S 2ln( Dg) / S 2ln( N )、S 2ln ( N ) /
570 林 业 科 学 研 究 9 卷
S
2
ln( Dg )、S 2Dg / S 2ln( N )、S2ln( N ) / S2Dg、S 2ln (Dg) / S2N 和 S 2N / S 2ln( Dg)的值与抽样面积无关。
表 3 变量方差比与抽样面积关系的方差分析
方差比 抽样方案 100 m2 200 m 2 300 m 2 400 m2 500 m2 600 m2样地数 646 302 181 166 143 127 F0. 05
F值及
显著性
S 2Dg / S 2N 变动系数 0. 606 3 0. 695 0 0. 993 7 0. 892 5 1. 099 3 0. 931 1
均 值 7. 10×10-5 8. 10×10-5 9. 00×10-5 1. 19×10-4 1. 35×10-4 1. 80×10-4
S 2N/ S 2Dg 变动系数 0. 774 1 0. 702 5 1. 550 2 0. 817 2 0. 842 1 1. 248 6
均 值 2. 11×10-4 1. 99×10-4 3. 27×10-4 1. 70×10-4 1. 61×10-4 1. 46×10-4
S 2ln( Dg) / S
2
ln(N ) 变动系数 0. 631 4 0. 858 0 1. 006 7 1. 047 2 1. 038 6 0. 968 8
均 值 0. 150 7 0. 162 5 0. 164 6 0. 194 3 0. 193 1 0. 235 1
S 2ln( N ) / S
2
ln( Dg) 变动系数 0. 552 6 0. 758 9 0. 789 4 0. 791 4 0. 824 4 0. 774 4
均 值 9. 317 3 10. 827 6 12. 992 5 9. 851 1 9. 694 1 7. 860 0
S 2Dg/ S
2
ln( N ) 变动系数 0. 658 6 0. 699 8 0. 854 9 0. 937 4 0. 977 2 0. 936 5
均 值 39. 082 7 45. 758 9 50. 580 7 63. 590 3 67. 366 3 90. 419 6
S 2ln( N ) / S 2Dg 变动系数 0. 571 6 0. 679 9 0. 785 0 0. 722 3 0. 715 6 0. 755 2
均 值 3. 72×10-2 3. 53×10-2 3. 78×10-2 2. 62×10-2 2. 50×10-2 2. 00×10-2
S 2ln( Dg)/ S 2N 变动系数 0. 658 4 0. 768 6 1. 162 6 1. 056 8 1. 493 4 1. 024 4
均 值 2. 94×10-7 2. 89×10-7 2. 96×10-7 3. 67×10-7 4. 21×10-7 4. 36×10-7
S 2N /S 2ln(Dg) 变动系数 0. 907 0 0. 760 0 1. 357 2 0. 725 0 0. 708 3 1. 039 7
均 值 5. 73×10-6 6. 21×10-6 1. 04×10-7 6. 01×10-6 5. 78×10-6 5. 19×10-6
2. 29 2. 576*
2. 29 1. 313
2. 29 0. 571
2. 29 0. 932
2. 29 2. 106
2. 29 2. 264
2. 29 0. 649
2. 29 1. 329
4 结 论
( 1)综合表 2和表 3知, ln( N )和 Dg 的方差比值与样地面积无关, ln( N )和 ln( Dg )的方差
比值及 N 和 ln( Dg )的方差比值也与样地面积无关,但是 N 与 ln( Dg)的方差比值的变动系数
显著偏大,而 ln( N )的方差与Dg 的方差比值又稍小于 ln( N )的方差与 ln( Dg)的方差比值,这
个事实说明 N 的误差是乘结构,而 Dg 的误差为加结构。因而模型 3(即公式 4)是四种模型中
最好的模型。
( 2)由表 3知 S 2ln (N ) / S 2Dg平均等于 3. 024 8×10-2 ,进一步计算知 Dg 和 ln N 误差的相关系
数为 0. 621 7,这样可得( e, )即 Dg和 ln N 的度量误差结构矩阵如下:
= 1. 0 0. 108 1
0. 108 1 3. 024 8× 10-2
参 考 文 献
1 唐守正.同龄纯林自然稀疏规律的研究.林业科学, 1993, 29( 3) : 234~241.
2 唐守正.利用对偶回归和结构关系建立林分优势高和平均高模型.林业科学研究, 1991, 4(增刊) : 57~62.
3 Fuller W A. Measurem ent error models. New York: J ohn Wiley and Son s, 1987. 1~440.
4 Kendall M G, Stecart A. T he advanced theor y of s tat ist ics. New York: Hafn er Pulis hing Com. , 1973, 2: 1~758.
5 Cramer H. Mathem at ical method of stat is ti cs. Princeton: Princeton University Pr ess , 1946. 1~416.
5716 期 王玎奉瑜等: 密度—直径关系研究中变量变换形式的选择和变量误差矩阵的估计
The Choice of Variables Transformation and Estimate
of Measurement Error Matrix for the Study
on Density-diameter Relationship
Wang Fengyu L i X if ei
Abstract It is necessary to determine the r at io betw een variance o f sampling err or e o f
quadrat ic average diameter Dg and that of sampling err or of the tree numbers N per unit
area w hen measurement erro r models is applied to estimate the parameter s o f a model be-
tw een Dg and N , in a study on stand self-thinning processes. T his paper calculated and com-
pared the variance rat ios between tr ansformd quadratic average diameter and transformd
number o f t rees per unit area by using resampling f rom 20 larch plantation plots. The results
show that the ratio betw een variance of ln ( N ) and Dg approaches to a constant 3. 024 8
×10-2 . F rom the r esults, the best form of v ar iable tr ansformat ion is determined and the st ruc-
ture o f er ror matrix is const ructed, w hich can be used to get mo re accurate est imate o f model
parameters.
Key words self-thinning, measurement erro r model, sampling err or
Wang Feng yu , Ass istant Professor, Li Xifei( T he Research Inst itute of Fores t Resources Informat ion and Techn iqu e,
CAF Beijin g 100091) .
572 林 业 科 学 研 究 9 卷