全 文 :林 业 科 学 研 究 ,
两阶群团抽样在森林调查中的估计效率研究 ’
曾伟生 骆期邦 彭长 清
摘要 从两 阶群团抽样的概念人 手 , 根据两 阶群 团抽样当群 团之间不存在差 异成分 凡 , 一
时与系统抽样或简 单随机抽 样具有 相同的抽样效率的性质 , 定义了误差扩大 因子 , 提 出了效率 系数
的概念 , 并推导 出了效率 系数等 于 的临界状态 的相关系数 ‘ 的表达式 , 为群 团抽 样设计 和效率
评估提供 了重要依据 。 此外 , 还对群团抽样估计效率 与群 内样地间距的关 系进行了较深入的研究 ,
并用实例进行 了说 明 。 最 后 , 对两阶群团抽样在森林调查 中的综合效率评价也进行 了讨论 。
关键词 两 阶群团抽 样 、 误差扩大因子 、 效率系数 、 群 内相关系数
在森林资源清查中 , 群团 整群 、 群状 抽样确是一种可供选择的有效方法 , 国内外均 已有
不少应用实例 仁’一 」。 但 由于 对群团抽样的概念和性质理解不当 , 加之在理论上尚缺乏判断效率
的定量依据等原因 , 在应府实例中也不乏因应用不当而导致无效乃至 负效应的结果 。 为此 , 有
必要对这一抽样方法进行深入 研究 , 其 目的在于澄清概念并在理论上为判断效率高低提供定
量依据 。
对于群团抽样 , 首先应区分开两种情况 一种与严格意义上的整群抽样相类似 , 群团中的
小样地只是记录单元 , 整个群团才是样本单元 , 这实质上是单阶群团抽样 。 欧洲国家森林清查
中的群团抽样 , 多属于这种情况 , 它是 由最初的大样地到 样带再到小样地发展而来的 。 其目的
是 利用群状小样地 方 阵来代表整个大样地 , 在标准误不致 于明显增加的前题下 , 减少工作
量 , 从而提高效率「’〕。 另一种则属于两阶或多阶抽样 , 群团中的小样地为次阶样本单元 , 而群团
则为初阶样本单元 。 本文所讨论的两阶群团抽样是指后一种情况 。
两阶群 团抽样简介
两阶群 团抽样的估计公式
两阶抽样可以分成一阶单元大小相等和不等两种类型 , 本文只讨论前者 。其总体平均数和
方差的常用估计公式为‘一 “
夕一 艺艺丫 一 艺又
要 高, · 一 头 · · 一
式 中 , 尚一 艺夕 一夕’ 一 , 为群间方差 头 艺艺多 , 一夕 ’「 一 〕, 为群内方差 。
一 一 收稿 。
曾伟生工程师 , 骆期邦 , 彭长清 林业部中南林业调查规划设计院 长沙 。。 。
林 业 科 学 研 究 卷
为便于进一步讨论 , 这里再考虑国外常用的另一个方差估计公式〔‘〕
二 · 一 · 一
式中 , 丢一 高一封 , 一礼, 高、头同 式 , 可以证 明 , 公式 、 是互通的 。
两阶群团抽样的性质
当抽样总体为无限总体时 , 公式 将系数消去可变成
毛一 二 封 一 高
这与 式所导出的结果是一致的 。 为了进一步分析两阶群团抽样的性质 , 现 以 式为基础来
考虑 。
方差估计公式 是 从这样的思 路提出的「’〕两阶群团抽样的每个样本单元值都含有三个
成分 , 即
多 , 一 产 月‘ 艺,
式中 , 刀, 一群团 的差异成分 不, 一一群团 内样地 的差异成分 。 然后再由离差公式推出 ,群 内方差的估计值可以用 成分表示如下
头‘ 艺艺夕, , 一 夕, , 一 」
群间方差的估计值 包括和 两个成分 , 其公式为
高’ 一 乏夕, 一 夕 , 一 二
总体平均数的方差必须包括 邢 和 买 这两个成分 , 其估计式即为 式 。
从 、 两式可以看出 , 群 内方差的定义式与我国林业统计书刊中常用的概念一致 , 即
祝’一 头而群间方差则多一个 倍的系数 , 即 高‘一 高, 国 外参考文献 〕也是如此 。 为保
持我国 传统用法 , 群 内方差与群间方差均统一采用 式中的定义 , 从而由 式可得
高 二 头
此式乃是 、 两式具有互通性的基本前提 。
为分析方便 , 再将 式列如下
毛 二, · 一 , , · 一
通过分析知道 , 当 式中 , , 一 时即为有限制随机抽样或分层抽样的误差 。 因此 , 两阶群
团抽祥的误差总是要大于相应的有限制随机抽样 可视为单阶抽样 , 若将“随机 ”改 为“ 系统 ”则
相当于 系统抽样 , 估计公式与简单随机抽样相同 。 然而 , 当不存在群团差异成分 , 总体混合得
很均匀时 , 会近似有 那一 。成立 , 此时两 阶群团抽样的误差与相应的有限制随机抽样相当 。 两
阶抽样的误差究竟大多少 , 取决于 总体内各群团 小区 间的差异性 以及样本的成群程度川 。
由 式知道 , 度量总体内群团差异程度的 斗 值可表示为
二 高一 头
可以看出 , 只有当 礼一 , 高时 , 才有 丢一 。。 此时 , 由公式 得
是 高 · 一 高, · · 一 高 · 一
高 · 一
由公式 得 是 头 · 一
当 一 时还可同时推出 ’一 礼, 其中 , 艺艺, , 一夕’, 一 , 为总体方差估计值 。
由此可见 , 由 、 式所推 出的结果与简单随机抽样或单阶随机抽样公式是完全一致
期 曾伟生等 两阶群 团抽样在森林调查中的估计效率研究
的 。 至此我们可 以得出结论 只有当总体内各个群团之间不存在差异成分 , 亦即那 时 , 两阶
抽样的估计误差才会与抽样 比相同的简单随机抽样相等 。
两 阶群 团抽样 的估计效率
纯统计学意义上的估计效率
估计效 率的 理论分析 为了研究群团抽样的效率 , 这里引入如下相关系数的概念
, , 尸 口 ,
将 式变形 , 并用样本的 , 、 , 和 来代替 今 、 。 , 和 , 就能用 , 和 犷 来表示 标准误的平方
对于无限总体
是 异 一 〕 , · 一 〕
这里的 与单阶有限制随机抽样的标准误平方完全相同 。 因 此 式
一 一 r ) + l (1 2 )
即为两阶抽样的标准误平方大于有限制随机抽样或简单随机抽样(具有相同的抽样比)的标准
误平方的倍数 , 这里将其定义为误差扩大因子 。 标准误的增加取决于相关系数 , 也取决于每个
群 团中所抽取的样地数 。
由简单随机抽样的误差公式 斗 ~ 义/n 知 , 标准误平方是与方差成正 比而与样本大小成反
比的 。 因此 , 当采用两阶群团抽样致使误差扩大因子 K 并不 比样本增加的倍数 m 小时 , 两阶群
团抽样与简单随机抽样相 比是没有什么效率的 。
根据上述分析 , 可将误差扩大因子 K 与群内样地数 m 相等时的状态定义 为临界状态 。 由
(12) 式可导出临界状态的相关系数:r. = (m 一 1)/ (Zm 一 l ) (1 3 )
由(9) 、 ( 1 0 ) 、 ( 1 3 ) 式还可推出 , 临界状态具有一个重要特性 :S头一S 高。 作为更普遍的形式 ,
( 1 2 )
、
( 1 3) 式在有限总体条件下的表达式为 (推导过程略 ):
误差扩大因子 K = m r( l 一 n / N ) / [ (l 一 r )(1 一 r:m / N M )〕+ 1
临界相关系数 r ’ = ( m 一 l) ( 1一n , n / N M ) / [ m ( 1 一 , , / N ) + ( m 一 1 ) ( l一nm /N M )j
(14 )
(15 )
这里再引入“效率系数 ”的新概念 , 并作如下定义 :
E ‘ 一 m / K (1 6 )
式中 , , n 含义同前 , K 为(14) 式所定义的误差扩大因子 。 当相关系数 r~ r’ 时 , 效率系数 E ‘ 一 1 ,
此时群团样地与单个样地相比没 有效率;当 r> r ’ 时 , E : < 1 , 群团抽样为负效率;当 :< r ‘ 时 ,
E. >
1
, 群团抽样为正效率 。 “效率系数 ”的直接 含义是 :群团抽样中的一个群团相当于简单随机
抽样(相同抽样比)中单个样地的数量 。 很明显 , 只有当一个群团相当于一个以上的独立样地时
才有可能谈得上效率 。
2
.
1
.
2 估计 效率与群 内样地间距 的关 系 我国林业统计书刊在讨论整群抽样时建议用“群内
相关系数 ”两 来分析其估计效率 [s] 。 据作者研究发现 , 由 (10) 式定义的相关系数 p 与群内相关
系数 内 之间存在一定的函 数关系 , 但两者差异极小 , 一般情况下可近似认为两者相等 。
关于估计效率与群 内样地间距的关系 , 已经有人进行过试验[’] 。 根据其试验材料 , 群内相
关系数与群内样地间距大致呈负指数相关 。 因为群内相关系数所反映的是群内各样地之间的
林 业 科 学 研 究 8 卷
相关性 , 因此从理论上讲 , 当群内各样地之间的距离为无穷远时 , 其相关性应该为零 。 因而可以
确定群 内相关系数与群内样地 间距的关系式如下 :
、 一 a L 一 ” ( 1 7 )
式中 , 、 为 丙 的样本估计值 , L 为群内样地间距 , a 、 b 为待定参数 。
以上只是理论分析 , 在实际应用中群内样地间距不可能无穷远 , 群内相关系数也只要当样
地之间达到一定距离 L 。 后就会趋近于零 。 因此可将(17) 式改为如下形式 :
几 = a (L 一 b 一 L J h) , L 燕 L 。 ( 1 8 )
当 L > L 。 时 , 取 几 一o 。
利用江西省德兴县的试验数据 , 用非线性最小二乘法拟合(17) 式 , 可得 a 一 2. 615 47 , b 一
。. 3 21 2 6 , R 一 0 .626 6 。 对于 (18) 式的拟合 , 则取决于 L 。 值 。 根据不同 L 。 值的拟合结果可以发
现 , 当 L 。 < 4 k m 时 , R 明显减小 ;当 L, ) 4 km 时 , R 都稳定在 0.6 以上 。 这就是说 , 对江西德兴
县而言 , 当群 内样地间距达到 4 k m 远时 , 基本上可以认为群内相关系数 已趋于 。。
对于省级森林资源清查体系 , 系统抽样的样地间距一般为 4 km 左右 。 如果设计为方形群
团样地 , 并取 m 一4 , 那么 , 当群内样地 间距为 4 k m , 群与群之间相距为 8 km 时 , 群团抽样就与
间距 4 km 的系统抽样完全一样 。 即认为此时 r一。或 那 一。, 一个由 4 个样地组成的群团与 4
个独立样地完全相当 。 根据德兴县的材料拟合 L 。 一 4 k m 时的群内相关系数模型 (a 一 3. 47 7
68 , b 一0 .07 9 58 1 , R 一。. 61 7 1 ) , 就可 以对不同群内样地间距时的群 团抽样效率进行估计 , 详
见 表 1 。 因为只是说明问题 , 表 1 中的数据计算未考虑 r 与 ‘ 之间的细小差异 , 而将其视为相
等 ;误差扩大因子采用无限总体条件下的(12) 式计算 。
表 l 不同群内样地间距时 的 从表 1 可以看出 , 对于德兴县而言 , 当群
群团抽样效率(m ~ 4)
群内样地 间距 群 内相关系数 误差扩 大因 子 效 率系数
(nl) r、 K E ‘
2 5 0 0
.
4 4 3 7 4
.
1 9 0 4 0
.
9 5 4 6
5 0 0 0
.
3 2 3 4 2
.
9 1 1 9 1
.
3 7 3 7
1 0 0 0 0
.
2 0 9 6 2
.
0 6 0 7 1
.
9 4 1 1
1 5 0 0 0
.
1 4 5 9 1
.
6 8 3 3 2
.
3 7 6 3
2 0 0 0 0
.
1 0 1 9 1
.
4 5 3 8 2
.
7 5 1 4
3 0 0 0 0
.
0 4 1 6 1
.
1 7 3 7 3
.
4 0 8 0
4 0 0 0
内样地间距 为 I km 时 , 一个 由 4 个样地组
成的群团大致可相当于 2 个独立样地 ;如 果
群内样地间距减少至 50 m , 则其效率还不
如 1. 5 个独立样地 ;距离减至 250 m 时甚至
出现了“负效率 ” 。 由 (13) 式容易知道 , m ~ 4
时临界相关 系数 r ‘ 一 0. 428 6 , 按群 内相关
系数模型可反推出临界状态时的群内样地间
距约为 27 0 m 。 也就是说 , 只有当群内样地间
距大于 27 O m 时群团抽样才有可能谈得上有效率 。
2
.
2 在森林调查中的综合效率
在此之前所讨论的群团抽样效率 , 都纯粹从统计学概念出发的 , 没有考虑野外调查时的费
用问题 。 但是 , 首先必须在统计概念上有效率 , 即效率 系数必须大于 1 , 才有可能在森林调查中
比简单随机抽样或系统抽样合算 。 然而 , 效率系数大于 1 , 却并不一定会在经济上合算 , 这取决
于 从一个初阶单元 (群团 )转移到另一个初阶单元 的费用及量测一个 次阶单元 (样地 )的费用多
少 。
假设 , 迁移一个营帐并到达一个群团的平均 费用为 C , , 量测一个样地(包括从营地到达这
个样地 )的平均费用为 C Z , 那么 , 采用两阶群团抽样时野外工作的总费用就是 :
C = nC , + n m C : = z , ( C : + m C Z ) ( 1 9 )
期 曾伟生等:两 阶群团抽样在森林调查中的估计效率研究
如果采用系统抽样 , 并且 上述群 团抽样中 1 个群团相当于 k 个独立样地的效率 , 那么类似
地可以得到其野外工作的总费用为:
C , 二 k” ( C , ‘ + C Z ‘) ( 2 0 )
在确定了 (19 ) 、 ( 20 ) 式中的各项参数后就可以对两种抽样方式的估计效率作出最后比较 。
假设两种抽样方式迁移一个营地都是 l d 时间 , 完成 1 个群团 (含 4 个样地)需要 4 d , 完
成 1 个独立样地需要 l d , 1 个群团相当于 2 .5 个独立样地的效率 。 到底哪种抽样方式要合算?
如果用工作 日多少代替调 查 费用来 作 比较 , 则 由(19) 式可得 C 一 5n , 由(20) 式得 口 -
2. 5n X 2一 sn , 因此 , 两种抽样方式是等效的 。 很明显 , 只要改变上述假设参数 , 就 可能有不同
的比较结果 。
总之 , 评价抽样方式在森林调查中的效率高低 , 除取决于统计学上的抽样效率外 , 还在很
大程度上受各项调查费用参数的影响 。
3 结 论
通过对两阶群团抽样的性质及其在森林调查中的估计效率研究 , 可以得出如下一些结论 :
(l) 两阶群团抽样的误差总是要大于抽样比相同的系统抽样或简单随机抽样的误差 。 只有
当总体混合得很均匀 , 群团之间不存在差异成分(S二一 。)时 , 两者才具有相等的抽样误差 。
( 2) 在 斗井 o 的情况下 , 两阶群团抽样与简单随机抽样的相对效率可以用误差扩大因子或
效率系数表示 。 当效率系数等于 l( 相当于 S 头~ S高)时 , 两阶群团抽样无效率 ;当效率系数小于
1 (S 礼< S高)时 , 为负效率;当效率系数大于 1(S 孙> S高)时 , 为正效率 。
( 3 ) 效率系数等于 1 时的状态可用临界相关 系数 r ’ 表示 。 对于有限总体 , r ‘ 的大小取决于
N 、 M 、 , 、 m 值 ;而对于 无限总体 , r ’ 只取决于 m 的取值 。 r ’ 值的大小可作为群团抽样设计的重
要依据 。
(4 ) 群 内相关系数与群内样地间距之间存在着负指数关系 。 群 内样地之间的距离 L 越大 ,
群内相关系数 几 就越小 ;当距离 L 大到一定程度后 , 几 已近似等于 0 , 从而可将群内的每个样
地当作独立样地看待 。
( 5) 两阶群团抽样的效率系数大于 1 时为正效率是纯粹从统计学理论出发的 。 在森林调查
中是否确实在经济上合算 , 还取决于考虑野外调查费用时的综合效率 。
参 考 文 献
洛茨 , 哈勒 , 佐勒(林昌庚 , 沙琢等译校).森林资源清查. 北 京:中国林业出版社 , 1 9 8 .
李茂深. 群状抽样在森林资源调查 中的应 用. 林业资源管理 , 1 9 87 、 ( 3 ) : 42 ~ 47 .
杨宗勋. 群状抽样在建立 县级森林 资源连续清查体系中的应用. 广东林业科技 , 1 98 8 , ( 1 ) : 19 一25 .
林毓资.群 团抽样最优间距试验报告 .林 业调查与设计 .1985 , ( 1 ) : 10 ~ 21 .
I U F R ( ) 5
4
.
0 2
,
F i
n n
i
s
h F
o r e s t
R
e s e a r e
h I
n s r
i
t u t e
,
De
p
a
r t n l e n t o
f F
o
r e
s r
R
e
s
o u
r e e
M
a n
a
g
e n l e n r o
f U
n
i
v
e r s
i
t
y
o
f
H
e
l
s
i
n
k i
.
P
r o e e e
d i
n
g
s o
f I l
v
e s s a
l
o
S
y
m
p
o s
i
u n 一 o n N a t io n a l F o r e s t I n v e n to r ie s
.
H e ls in k i
.
F in l a n d
,
1 9 9 2
.
林 业部调查规划院主编.森林调查手册.北京:中国林业出版社 , 1 9 80 .
陈华豪 .丁思统 , 蔡贤如 , 等. 林 业应用数理统计.大连:大连海运学院出版社 , 1 9 9 2 .
北 京林学院主编.数理统计.北京 :中国林 业出版 社 , 1 9 80 .
卡尔 · 温格编(林业部华东林业调 查规划设计院译).林业手册.北 京:国际文化出版公司 , 1 9 9 让
林 业 科 学 研 究 8 卷
S tu d y o n E ff ic ie n c y o f T w o 一S t a g e C l u s t e r
S a m P l i n g i n F o r e s t I n v e n t o r y
Z e n g W
e i s h e n g L u o Q i b a n g P e n g Ch
a n 翻ing
A bstraet A eeording to the speeialfeature that tw o一 s t a g e e l u s t e r s a m p l i n g h a s t h e s a m e
e f f 一e i e n e y a s t h e s y s t e m a t i e s a m p l i n g o r s i m p l e r a n d o m s a m p li n g w h e n t h e r e a r e n o d i f f e r
-
e n e e s a m o n g e l u s t e r s
,
t
h
e t e r
m
o
f
e r r o r e x
p
a n s
i
o n
f
a e t o r 1
5
p
r e s e n t e
d i
n t
h i
s
p
a
p
e r
.
B
e s
i d
e s
t
h
e e o r r e
l
a r
i
o n e o e
f f i
e
i
e n t
f
o r e r
i t i
e a
l
s t a t e
,
w h
e n e
f f i
e
i
e n e y e o e
f f i
e
i
e n t e q
u a
l
s
t o l
,
1
5
f
o r
m
u
-
l
a t e
d
,
w h i
e
h p
r o v
i d
e
i m p
o r t a n t r e
f
e r e n e e o
f i m p l
e
m
e n t i
n
g
e
l
u s t e r s a
m p l i
n
g d
e s
i g
n a n
d
s a
m
-
p l i
n
g
e
f f i
e
i
e n e y a s s e s s
m
e n t
.
I n
a
d d i
t i
o n
,
t
h
e r e
l
a t i
o n s
h i p b
e t w
e e n e
f f i
e
i
e n e y o
f
t
w
o
一 s t a g e e l u s
-
t e r s a m p l i n g a n d d i s t a n e e b e r w e e n p l o t s i n a e l u s t e r 1 5 f u r t h e r s t u d i e d w i t h a n e x a m p l e
d e m o n s t r a t e d i n d e t a i l
.
F i n a l l y
,
t
h
e e
f f i
e
i
e n e y a
s s e s s
m
e n t o
f
t
w
o
一 s t a g e c l u s t e r s a m p l i n g i n f o r
-
e s t i n v e n t o r y 1 5 a l s o d i s e u s s e d
.
K e y w o r d s t w o
一 s t a g e e l u
s t e r s a m p l i n g
,
e r r o r e x
p
a n s
i
o n
f
a e t o r
,
e
f f i
e
i
e n e y e o e
f f i
e
i
e n t
e o r r e
l
a t
i
o n e o e
f f i
e
i
e n t w i t h i
n e
!
u s t e r s
Z
e n g
W
e
i
s
h
e n g
,
E
n g i
n e e r
,
I
u o
Q i b
a n
g
,
p
e n
g
C h
a n
g q
i
n
g
(
So
u t
h C
e
n r r a
l F
o r e s t
I
n
v
e n t o r
y 吕.plann ing Institute C hang
511a 410014).