全 文 : 收稿日期: 2000212204
基金项目: 浙江省仙居县科委“八五”攻关项目“鞭角华扁叶蜂综合防治技术研究”内容之一
作者简介: 陈绘画 (19682) , 男, 浙江仙居人, 工程师.
林业科学研究 2001, 14 (5) : 503~ 508
F orest R esearch
文章编号: 100121498 (2001) 0520503206
鞭角华扁叶蜂滞育幼虫空间数量分布的研究
陈绘画, 崔相富, 郑永祥
(浙江省仙居县林业局, 浙江 仙居 317300)
摘要: 运用人工神经网络方法和空间趋势面分析方法对鞭角华扁叶蜂滞育幼虫的数量与其所处
的空间位置之间的关系进行研究, 创建鞭角华扁叶蜂滞育幼虫空间数量分布的 BP 网络模型和三
次趋势面模型。结果表明: 建立的BP 网络模型模拟不同空间位置的鞭角华扁叶蜂滞育幼虫数量具
有较高的拟合精度, 当隐层神经元数为 12 个时, 其平均模拟精度为 96190% , 预留的 20 组样本的
平均预测精度为 92135% ; 而三次趋势面模型的平均模拟精度为 93101% , 预留的 20 组样本的平均
预测精度为 93124%。
关键词: 人工神经网络; BP 算法; 鞭角华扁叶蜂滞育幼虫; 空间格局; 空间趋势面
中图分类号: S71817 文献标识码: A
空间格局是昆虫种群的重要特征之一。它的形成是由昆虫的生物学特性与特定生境条件
相互作用、协同进化的结果。研究空间格局有助于了解昆虫的生态学特性, 对于虫口数量调查
的正确取样、种群消长趋势及其扩散范围的预测预报、捕食与猎物关系、种内竞争关系以及制
订害虫防治和管理策略都具有重要的意义。因此, 生态学家们利用经典生物统计学和统计生态
学提供的手段给出了多种判定昆虫空间格局的准则[1, 2 ]。这些判定方法的共同点是依赖于样本
频次分布或均值与方差关系及其相应的判定准则确定空间分布格局, 仅考虑样本间的数量关
系而忽视样本的空间位置; 应用生物地理统计学或地质统计学研究昆虫的空间格局, 虽同时利
用了数量和空间位置的关系, 但也只是解决了昆虫种群的空间相关性和依赖性问题, 仍无法解
释昆虫种群随空间位置的数量变化关系[3~ 5 ]。人工神经网络 (简称神经网络)是由大量的、功能
比较简单的形式神经元互相连接而成的复杂网络系统, 其特色在于信息的分布式存储和并行
协同处理, 具有很强的自学习、自组织、自适应及容错性等 , 善于联想、综合和推广[6, 7 ]。趋势面
分析是对地质特征的空间分布进行研究和分析的一种方法, 它是用某种形式的函数所代表的
曲面来逼近该地质特征的空间分布。趋势面分析由Git t in 引入生态学研究之后, 由于该方法简
单明 、计算方便等优点, 在生态学研究中得到了广泛的应用[8, 9 ]。因此, 本文采用人工神经网
络和趋势面分析两种方法来研究相对稳定的鞭角华扁叶蜂 [ Ch inoly d a f lag ellicorn is
(F1Sm ith) ]滞育幼虫 (又称入土幼虫) 的数量与空间位置的关系, 为人工神经网络理论和趋势
面分析方法在森林昆虫空间格局研究中的应用进行积极的探索。
1 材料与方法
111 试验地概况
试验地位于浙江省仙居县萍溪林场, 地处 28°56′N , 120°33′E, 海拔高 400~ 480 m , 年平
均气温 1712 ℃, 年平均降雨量 1 37618 mm。林分郁闭度为 017, 受害程度为重。林下植被为稀
疏的扁茅草和小灌木。黄壤土, 土层深 014~ 017m , 坡度 30~ 40°, 南坡。
112 调查方法
1991 年 8 月在浙江省仙居县萍溪林场田塘林区选择一受严重危害的柏木 (Cup ressus f u2
nebris Endl) 林分, 在一块 80 m ×80 m 的调查样地中, 按随机抽样方式抽取 100 块样方, 样方
面积均为 (2×2) m 2。然后清理样方内及其周围杂草, 在样方一侧挖一条 35 cm 深的沟, 再从沟
边开始向样方内细细深挖, 深度达 35 cm 以上, 记录样方虫量及其位置。各样方内虫量的对数
值及其位置详见表 1。
表 1 鞭角华扁叶蜂滞育幼虫数量对数值
纵坐
标öm 横 坐 标öm015 113 211 219 317 415 513 611 619 717
015 617483 61590 71122 51707 51958 51943 71290 71181 51740 614503
113 61384 610473 61758 51956 51984 51762 61190 51883 611253 61729
211 61066 51714 514423 51951 51886 51649 61014 611763 51635 71249
219 71212 71266 61125 614573 51889 61981 617633 61366 61290 71132
317 61784 71077 71063 71006 516133 515873 61347 71032 51855 51624
415 71460 61592 61945 51700 617463 617883 71448 71272 61567 51826
513 51533 51846 61377 611313 61625 51903 614953 61477 61948 61758
611 51846 61242 614603 51799 61089 61933 51743 518643 51781 71246
619 51875 616583 61848 61244 51956 61236 61004 61746 517993 61127
717 610943 51826 61739 51762 51730 61483 51886 61777 61960 616923
注: 纵坐标、横坐标均以 10 m 设置; 带3 数据作为预留样本, 用于回报检验。
113 研究方法
11311 BP 算法 BP (Back P ropagat ion) 算法是一种采用误差反向传播算法的自动学习过
程。它不仅有输入层节点 (即神经元)和输出层节点, 而且有隐层节点 (可以是一层或多层)。对
于输入信号, 要先向前传播到隐节点, 经过作用函数后, 再把隐节点的输出信息传播到输出节
点, 最后给出输出结果。输入层到隐层的节点作用函数通常取为 sigmo id 函数, 即
F (x ) = 1ö[ 1+ exp (- x ) ]
而隐层到输出层的节点作用函数则采用线性激励函数。
这个算法的学习过程, 由正向传播和反向传播组成。在正向传播过程中, 输入信息从输入
层经隐单元层逐层处理, 并传向输出层, 每一层神经元的状态只影响下一层神经元的状态。如
果在输出层不能得到期望的输出, 则转入反向传播, 将误差信号沿原来的连接通路返回, 通过
修改各层神经元的权值, 使得误差信号最小。
BP 算法的步骤可概述如下:
(1) 权值和阈值初始化: 随机地给全部权值W 1lm、W 2m n和神经元的阈值 Ηm、7 n 赋以初始值。
W 1lm 与W 2m n分别是输入层到隐含层、隐含层到输出层之间的连接权值, l 为输入层第 l 个因子,
m 为隐含层第m 个神经元, n 为输出层第 n 个神经元; Ηm 与 7 n 分别是隐含层与输出层的阈
405 林 业 科 学 研 究 第 14 卷
值。
(2) 给定输入 x j ( j = 1, 2, ⋯, a)和目标输出 y∧j。
(3) 计算实际输出 y j:
y j = f (2
i
W 2m n y j - 7 n)
其中 f (. )为函数, y i 为隐节点的输出, y i= f (2
j
W 1lm x j - Ηm )。
(4)修正权值: 从输出层开始, 将误差信号沿连接通路反向传输方向传播, 通过修正各权值
W 1lm 与W 2m n (统记为W ij )和阈值 Ηm 与 7 n (统记为 Ηj ) , 使误差最小:
W ij ( t+ 1) = W ij ( t) + Γ∆p j y jΗj ( t+ 1) = Ηj ( t) + Γ∆p j
其中 t 为迭代次数, Γ为增益项, ∆p j为 j 节点 p 模式的误差项, 这里误差项 E i 定义为
E i=
1
2 2j (y j - y∧j ) 2
且有: ①) 若 j 为输出节点, 则 ∆p j = y j (1- y j ) (y∧j - y j ) ; ②) 若 j 为隐节点, 则 ∆p j = y j (1- y j )2
k
∆p kW jk , 式中 ∆p k为隐含层 k 节点 p 模式的误差项。
(5) 达到误差精度或循环次数要求, 则输出结果, 否则回到步骤 (2)。
BP 网络的原理和算法详见有关文献[ 10~ 12 ]。
11312 趋势面分析 设变量 x、y 和 z 分别表示平面上某点的两个坐标和该点的滞育幼虫数
量, 则三次趋势面方程为:
z = a0+ a1x + a2y + a3x 2+ a4xy + a5y 2+ a6x 3+ a7x 2y + a8xy 2+ a9y 3 (1)
式中: a0, a1, ⋯, a9 为待定系数。
2 结果与分析
211 网络输入量与输出量的确定
本文主要研究鞭角华扁叶蜂滞育幼虫数量与不同空间位置之间的关系, 因此, 输入量选为
样方的纵坐标、横坐标, 输出量选为样方内滞育幼虫数的对数值。
212 网络隐层神经元个数的确定
隐层神经元个数的选择是一个十分复杂的问题, 不同的研究者有不同的观点[6, 10~ 14 ]。根据
文献[ 12 ], 采用公式 j = n+ m + a (其中m 为输出神经元数, n 为输入神经元数, a 为 1~ 10
之间的常数)确定隐神经元数。结合网络的泛化功能, 经多次拟合和筛选, 本文的隐层神经元数
最终确定为 12 个。
213 网络模拟结果
在带有神经网络工具箱的M A TLAB 语言 512 版环境下, 建立一个含一个隐层的BP 网
络, 将表 1 中样方位置的纵坐标、横坐标作为输入样本, 样方内鞭角华扁叶蜂滞育幼虫数的对
数值作为目标矢量。输入层到隐层的传递函数为 tan sig, 隐层到输出层的传递函数为pu relin,
学习函数为 learngdm , 训练函数为 t ra in lm (各训练参数均采用默认值) , 利用 netw o rkösim 函
数计算网络输出。当训练了 150 000 次时, 平均均方误差 (m ean squared erro r)M S E =
01079 775 8, 达到最小, 于是中断网络学习, 输出 80 组学习信息的网络输出值, 结果列于表 2
505 第 5 期 陈绘画等: 鞭角华扁叶蜂滞育幼虫空间数量分布的研究
表 2 BP 模型模拟各样方鞭角华扁叶
蜂滞育幼虫数量误差
实测值 模拟值 精度ö% 实测值 模拟值 精度ö%
61590 61585 2 99193 71460 71176 6 96120
71122 61977 7 97197 61592 61560 9 99153
51707 51891 6 96177 61945 61453 3 92192
51958 61068 2 98115 51700 61502 8 85192
51943 51956 4 99177 71448 71210 1 96181
71290 71219 9 99104 71272 71153 1 98136
71181 71181 0 100 61567 61758 6 97108
51740 51740 0 100 51826 51939 0 98106
61384 61114 2 95177 51533 51547 3 99174
61758 61826 8 98198 51846 61169 6 94146
51956 61093 0 97170 61377 61089 7 95149
51984 51955 6 99153 61625 61328 6 95153
51762 51785 6 99159 51903 51751 6 97144
61190 51613 6 90169 61477 61840 5 94139
51883 61082 2 96161 61948 61864 0 98179
61729 61729 0 100 61758 61735 6 99167
61066 61137 1 98183 51846 51775 6 98180
51714 61040 7 94128 61242 61203 5 99138
51951 51951 0 100 51799 61003 6 96147
51886 51860 7 99157 61089 61009 7 98170
51649 51821 4 96195 61933 61953 8 99170
61014 51889 8 97193 51743 61254 7 91109
51635 51939 6 94159 51781 61420 5 88194
71249 71206 4 99141 71246 61411 4 88148
71212 71275 9 99111 51875 51857 0 99168
71266 61759 6 93103 61848 61253 9 91132
61125 61202 8 98173 61244 61164 2 98172
51889 51702 5 96183 51956 61097 2 97163
61981 61921 9 99115 61236 61473 8 96119
61366 61221 8 97173 61004 51920 0 98160
61290 61536 5 96108 61746 61502 5 96139
71132 61995 2 98108 61127 61235 8 98122
61784 61966 8 97131 51826 51900 1 98173
71077 71077 1 100 61739 61383 3 94172
71063 71094 0 99156 51762 61325 5 90122
71006 61925 1 98185 51730 61266 4 90164
61347 71124 3 87175 61483 61373 5 98147
71032 61528 6 92184 51886 51886 0 100
51855 51809 8 99123 61777 61671 2 98144
51624 51594 2 99147 61960 61717 6 96152
平均值 96190
中。
从表 2 的结果可以看出, 用人工神经网络所建立的模型对数据的模拟结果, 平均模拟精度
为 96190% , 说明用人工神经网络方法研究鞭
角华扁叶蜂滞育幼虫种群空间数量分布, 其效
果是理想的。利用训练结束后的模拟模型, 即可
对样地内各样本点的滞育幼虫数量进行预测预
报, 只要输入样本所处的空间位置的纵坐标、横
坐标, 就可由模型预测出该点滞育幼虫数量的
对数值。而且经过训练后的BP 网络, 还具有联
想学习功能 (网络的泛化功能) , 即可以预测出
没有参与建模样本点滞育幼虫数量的对数值。
利用BP 网络的联想学习功能, 计算出预
留的 20 组样本的输出值, 然后进行回报检验,
其平均检验精度为 92135% , 详见表 3。
表 3 BP 模型模拟各样方鞭角华扁叶蜂
滞育幼虫数量回报检验
实测值 模拟值 精度ö% 实测值 模拟值 精度ö%
61748 61838 7 98166 61746 71266 0 92129
61450 61774 8 94166 61788 61783 7 99194
61047 61509 5 92135 61131 61044 2 98158
61125 71194 2 82154 61495 61718 6 96156
51442 61389 6 82159 61466 61107 2 94145
61176 51956 4 96144 51864 61461 8 89181
61457 61261 8 96198 61658 51805 3 87119
61763 61445 3 95130 51799 61397 2 89168
51613 61034 0 92150 61094 51934 5 97138
51587 71197 7 71117 61692 61537 4 97169
平均值 92135
214 三次趋势面方程
将表 1 中数据代入公式 (1) , 得到鞭角华扁
叶蜂滞育幼虫的三次趋势面方程为:
z = 61667 3+ 01082 8x - 01270 6y
- 01003 3x 2+ 01005 9xy + 01028 9y 2
- 01003 7x 3+ 01008 3x 2y - 01006 9xy 2
+ 01001 3y 3 (2)
(剩余方差 01895, R = 01324 065)
将观测值分解成趋势部分和偏差部分两部分:
z 观= z 趋+ z 残
趋势部分 z 趋 反映了鞭角华扁叶蜂滞育幼虫空
605 林 业 科 学 研 究 第 14 卷
间分布的区域背景, 是区域性因素引起的; 偏差部分 z 残 反映了局部异常, 是局部因素引起的。
除少数样本点外, 大部分样本点拟合都比较好, 在残差绝对值较大的样本点中, (015, 211)、
(015, 513)、(015, 611)、(415, 015)、(415, 513)、(415, 611)、(717, 211) 这 7 个样本点的残差是
正的, 而且已超过或接近剩余方差的一倍, 这些样本点内滞育幼虫聚集密度较高, 是局部因素
和随机因素共同作用而引起的, 这些样本点所在的区域应引起注意。
为便于与用神经网络计算结果进行比较, 对公式 (2) 进行精度检验, 得平均模拟精度为
93101% ; 对预留的 20 组样本进行回报检验, 得平均预测精度为 93124%。
3 小结与讨论
(1) 趋势面分析既能充分反映由大范围的系统性因素所引起的总的区域性的趋势变化规
律 (即区域背景) , 又能反映由局部因素和随机因素所引起的局部变化趋势; 但人工神经网络比
趋势面方程能更充分地利用昆虫种群空间数量分布的信息, 因此, 利用人工神经网络模型模拟
昆虫种群空间分布, 能取得更令人满意的拟合效果。
(2) 神经网络的泛化能力是指神经网络对新样本的适应能力。BP 网络的缺点是必须在导
师 (即期望输出向量) 的监督指导下进行学习、训练, 因此在样本间数据差异较小情况下, 网络
不仅有很强的拟合能力, 而且有较强的泛化能力; 而在样本间数据差异较大时, 不仅需要较多
的隐层神经元才能将网络训练出来, 而且网络的泛化能力较差。例如将本文预留的 20 组检验
样本作为训练样本, 80 组训练样本作为检验样本, 当隐层神经元数为 7 个, 训练 10 000 步时,
M S E = 01000 000 304 492, 20 组训练样本的精度为 991997% , 80 组检验样本的精度为
86196% ; 将表 1 中数据转回原来数据 (即原来数据不作对数转换) , 此时需要 60 个隐层神经元
才能将网络训练出来, 80 组训练样本的精度为 55197% , 用相关系数法检验, 其相关系数为
01583 757, 20 组预留样本中估计精度达到 70% 以上的只有 8 组, 仅占 40%。
(3) 如果BP 网络的输出层为 sigmo id 型神经元, 那么整个网络的输出值就限制在一个较
小的范围内; 如果BP 网络的输出层为 pu relin 型神经元, 那么整个网络的输出值可以取任意
值[7 ]。并且理论上已经证明: 具有偏差和至少一个 S 型隐含层加上一个线性输出层的网络, 能
够逼近任何有理函数[13, 14 ] , 也就是说只要增加隐层神经元个数, 就可以逼近任何有理函数。但
在实际应用时, 为了提高模型的拟合精度, 需将数据进行变换。如上面提到的要用 60 个隐神经
元才能将没有作对数变换的样本数据训练出来; 而经过对数变换后的样本数据, 只用 12 个隐
神经元来训练BP 网络, 就能得到满意的拟合效果。
(4) 对于用作函数逼近的BP 网络, 隐层神经元个数与要逼近的函数的精度和函数本身的
波动情况有关, 增加BP 网络隐层数或隐层神经元个数, 可以提高网络的拟合精度, 但网络的
泛化能力随之降低, 例如将本文的隐层神经元数增加到 20 个时, 网络的平均拟合精度提高到
99155% , 而预留的 20 组样本的平均拟合精度急剧下降为 85104%。因此, 在建立BP 网络时,
若样本间数据差异不大时, 则应同时考虑BP 网络的模型精度和泛化能力, 避免因网络的过拟
合而带来的网络泛化能力下降问题。
705 第 5 期 陈绘画等: 鞭角华扁叶蜂滞育幼虫空间数量分布的研究
参考文献:
[ 1 ] 徐汝梅 1 昆虫种群生态学[M ]1 北京: 北京师范大学出版社, 19871
[ 2 ] 郑汉业, 夏乃斌 1 森林昆虫生态学[M ]1 北京: 中国林业出版社, 19951
[ 3 ] 周国法, 徐汝梅 1 生物地理统计学[M ]1 北京: 科学出版社, 19981
[ 4 ] 石根生, 李典谟 1 不同松林马尾松毛虫蛹及其寄生天敌群子的空间格局分析[J ]1 生态学报, 1997, 17 (4) : 386~ 3921
[ 5 ] 李友常, 夏乃斌, 屠泉洪, 等 1 杨树光肩星天牛种群空间格局的地统计学研究[J ]1 生态学报, 1997, 17 (4) : 393~ 4011
[ 6 ] 焦李成 1 神经网络系统理论[M ]1 西安: 西安电子科技大学出版社, 199611~ 361
[ 7 ] 楼顺天, 施阳 1 基于M A TLAB 的系统分析与设计——神经网络[M ]1 西安: 西安电子科技大学出版社, 1999. 1~ 1261
[ 8 ] 徐振邦, 娄元仁 1 数学地质基础[M ]1 北京: 北京大学出版社, 19941
[ 9 ] 米湘成, 上官铁梁, 张金屯, 等 1 典范趋势面分析及其在山西省沙棘灌丛水平格局分析中的应用[J ]1 生态学报, 1999,
19 (6) : 798~ 8021
[ 10 ] 吴简彤, 王建华 1 神经网络技术及其应用[M ]1 哈尔滨: 哈尔滨工业大学出版社, 19981
[ 11 ] 王科俊, 王克成 1 神经网络建模、预报与控制[M ]1 哈尔滨: 哈尔滨工业大学出版社, 19961
[ 12 ] 袁曾任 1 人工神经元网络及其应用[M ]1 北京: 清华大学出版社, 1999. 118~ 1301
[ 13 ] 丛爽 1 面向M A TLAB 工具箱的神经网络理论与应用[M ]1 合肥: 中国科学技术大学出版社, 1998. 591
[ 14 ] 闻新, 周露, 王丹力, 等 1M A TLAB 神经网络应用设计[M ]1 北京: 科学出版社, 200012311
[ 15 ] 郎奎健, 唐守正 1IBM 2PC 系列程序集[M ]1 北京: 中国林业出版社, 19891
Study on the Spatia l Quan tita tive D istr ibution of
Ch inolyda f lagellicorn is
CH EN H u i2hua, CU I X iang 2f u , ZH EN G Y ong 2x iang
(Fo restry Bureau of X ian ju Coun ty, Zhejiang P rovince, X ian ju 317300, Zhejiang, Ch ina)
Abstract: T he art ificial nerve netwo rk m ethod and spat ial tendency p lane analysis m ethod w ere
used to study the relat ionsh ip betw een the amount and spat ial po sit ion of Ch inoly d a f lag ellicorn is
diapause larva. T he BP (Back P ropagat ion) netwo rk model and cubic tendency p lane model of the
spat ial quant itat ive dist ribu t ion of C. f lag ellicorn is diapause larva w ere estab lished. T he resu lts
show ed that the BP netwo rk model has h igh p recision of fit in sim ulat ing the amount of diapause
larvae w ith differen t spat ial po sit ion. W hen the amount of cryp to2neurone is 12, the m ean sim ula2
t ion p recision reaches 96190%. T he m ean fo recast p recision of 20 group s of samp le p repared in ad2
vance reachs 92135%. T he m ean sim ulat ion p recision of cubic tendency p lane model is 93101% ,
w hile the m ean fo recast p recision of 20 group s of samp le p repared in advance is 93124%.
Key words: art ificial nerve netwo rk; Back P ropagat ion algo rithm ; diapause larva of Ch inoly d a f lag 2
ellicorn is; spat ial st ructure; spat ial tendency p lane
805 林 业 科 学 研 究 第 14 卷