Taking the soil organic matter in eastern Zhongxiang County, Hubei Province, as a research object, thirteen sample sets from different regions were arranged surrounding the road network, the spatial configuration of which was optimized by the simulated annealing approach. The topographic factors of these thirteen sample sets, including slope, plane curvature, profile curvature, topographic wetness index, stream power index and sediment transport index, were extracted by the terrain analysis. Based on the results of optimization, a multiple linear regression model with topographic factors as independent variables was built. At the same time, a multilayer perception model on the basis of neural network approach was implemented. The comparison between these two models was carried out then. The results revealed that the proposed approach was practicable in optimizing soil sampling scheme. The optimal configuration was capable of gaining soil-landscape knowledge exactly, and the accuracy of optimal configuration was better than that of original samples. This study designed a sampling configuration to study the soil attribute distribution by referring to the spatial layout of road network, historical samples, and digital elevation data, which provided an effective means as well as a theoretical basis for determining the sampling configuration and displaying spatial distribution of soil organic matter with low cost and high efficiency.
全 文 :基于路网的土壤采样布局优化
———模拟退火神经网络算法∗
韩宗伟1 黄 魏1∗∗ 罗 云1 张春弟1 祁大成2
( 1华中农业大学资源与环境学院, 武汉 430070; 2红安县土壤肥料工作站, 湖北黄冈 438400)
摘 要 以湖北省钟祥市东部的土壤有机质为研究对象,通过地形分析提取坡度、沿平面曲
率、沿剖面曲率、地形湿度指数、汇流动力指数、沉积物运移指数等地形因子,在道路周边设置
13种采样尺度,运用模拟退火算法对各样点的空间布局分别进行优化,以获取基于路网的土
壤采样优化布局.在此基础上,对地形因子和优化后样点的有机质建立多元线性回归模型,同
时建立基于神经网络的多层感知机模型,并用此模型精度与多元线性回归模型精度进行对
比.结果表明: 利用道路网制定土壤采样方案是可行的,优化后的采样点布局能够准确获取土
壤景观知识,并且优于原始样点的精度.本研究利用道路空间分布格局、历史样点、数字高程
数据等可利用资源设计采样方案,为降低采样成本、提高采样效率、展现有机质空间分布格局
提供了有效手段与理论依据.
关键词 土壤景观模型; 模拟退火; 多层感知机; 采样布局优化
文章编号 1001-9332(2015)03-0891-10 中图分类号 S151.9, S159.3 文献标识码 A
Application of simulated annealing method and neural network on optimizing soil sampling
schemes based on road distribution. HAN Zong⁃wei1, HUANG Wei1, LUO Yun1, ZHANG
Chun⁃di1, QI Da⁃cheng2 ( 1College of Resource and Environment, Huazhong Agricultural University,
Wuhan 430070, China; 2Hong’an Soil and Fertilizer Station, Huanggang 438400, Hubei,
China) . ⁃Chin. J. Appl. Ecol., 2015, 26(3): 891-900.
Abstract: Taking the soil organic matter in eastern Zhongxiang County, Hubei Province, as a re⁃
search object, thirteen sample sets from different regions were arranged surrounding the road net⁃
work, the spatial configuration of which was optimized by the simulated annealing approach. The
topographic factors of these thirteen sample sets, including slope, plane curvature, profile curva⁃
ture, topographic wetness index, stream power index and sediment transport index, were extracted
by the terrain analysis. Based on the results of optimization, a multiple linear regression model with
topographic factors as independent variables was built. At the same time, a multilayer perception
model on the basis of neural network approach was implemented. The comparison between these two
models was carried out then. The results revealed that the proposed approach was practicable in op⁃
timizing soil sampling scheme. The optimal configuration was capable of gaining soil⁃landscape
knowledge exactly, and the accuracy of optimal configuration was better than that of original sam⁃
ples. This study designed a sampling configuration to study the soil attribute distribution by referring
to the spatial layout of road network, historical samples, and digital elevation data, which provided
an effective means as well as a theoretical basis for determining the sampling configuration and dis⁃
playing spatial distribution of soil organic matter with low cost and high efficiency.
Key words: soil⁃landscape model; simulated annealing; multilayer perception; sampling layout op⁃
timization.
∗国家自然科学基金项目(41171174)、国家高技术研究发展计划项目(2013AA102401⁃3)和中央高校基本科研业务费专项(2010QC035)资助.
∗∗通讯作者. E⁃mail: ccan@ mail.hzau.edu.cn
2014⁃05⁃06收稿,2014⁃11⁃24接受.
应 用 生 态 学 报 2015年 3月 第 26卷 第 3期
Chinese Journal of Applied Ecology, Mar. 2015, 26(3): 891-900
设计具有特定空间布局并能精确获取土壤属性
的采样方案,对于耕地地力评价、精准农业和数字土
壤制图等研究具有重要意义.土壤样本的野外获取
需要耗费大量人力、物力,合理制定采样点的数量和
空间布局尤为关键.常用的土壤采样方法主要分为
三大类:需要采集大量具有特定分布规律样本的经
典采样[1],利用地理属性空间自相关性的空间采
样[2],依赖知识挖掘技术的目的性采样[3] .土壤采样
方案从采样尺度开展研究,并保证样点集的全局代
表性,常见的采样布局优化方法有:基于传统专家知
识的方法、基于地统计的方法和基于样点代表性的
方法等[4-5] .这些方法存在一定的局限性,如依赖经
验知识、二阶平稳假设和准本征假设等[6] .
为降低这些局限性带来的误差,目前已经有研
究者运用辅助方法获取具有空间分布规律的指标,
并使用这些数据辅助设计土壤采样,例如:为监测土
壤属性空间分布而通过 X 射线获取的土壤样本衍
射信息优化采样方案[7]、为得到土壤盐碱化程度而
使用电磁感应获取的土壤导电性空间分布图辅助设
计采样布局[8-9]、为得到土壤水盐空间分布而使用
遥感数据建立的预测模型降低现场样本采集数
量[10]等.还有一些研究者直接利用受土壤空间差异
影响的模型辅助设计采样布局:为解决土壤采样精
度与经济性的平衡问题,使用数学扩散模型研究规
则网格土壤采样时合理的采样点密度[11];在土壤属
性空间布局研究中,使用土壤环境推理模型提高有
限样点的预测精度[12] .在土壤特征空间布局研究
中,随着辅助因子的加入,采样点数量或者布局遵循
实际环境下的代表性,达到优化采样方案的目的,最
终以较优的采样点信息代表全局特征,获得土壤属
性的空间分布.地形因素和路网也具有空间分布规
律,可将其作为辅助因子参与土壤采样布局研究.
密集的道路交通网和便捷的交通工具为野外大
面积土壤采样提供了便利条件.道路网具有如下特
点:布局模式具有特定的结构形式和空间密度,随着
城乡一体化的发展,道路网密度和空间布局将逐步
趋于稳定[13] .在县域尺度下的土壤野外采集工作
中,可依据现实道路交通布局大致确定采样点位置
和采样顺序,但目前利用道路网空间分布格局直接
辅助设计土壤采样策略的研究还十分有限.
土壤具有连续变化的空间分布特征[14] .为获取
这些典型土壤中所蕴含的土壤景观知识,应在对应
区域布置若干代表性高的采样点,而样点代表性可
根据统计模型的预测精度确定.道路网贯穿于对应
的土壤区域,其周边存在着代表性高的土壤区域,可
在道路周边一定范围内设置采样区域,借助道路网
的分布格局布置采样点,探索最优采样布局.利用土
壤景观知识不随时间推移而改变的特征,挖掘历史
采样点中蕴含的土壤分布知识和规律.为优化采样
方案和探索全局土壤属性,建立土壤有机质景观模
型,预测土壤有机质含量.
本研究利用路网设计采样策略,并运用模拟退
火算法优化采样方案,用优化后的采样点建立土壤
景观多元线性回归模型,然后运用基于神经网络的
多层感知机方法验证回归模型的预测精度.该预测
精度可用于评判采样点布局优劣.建立的多层感知
机模型能够重现地形因子与土壤有机质之间的内在
联系,预测精度较高,能够充分挖掘潜在知识、具有
较强泛化能力和非线性映射能力,因此可用该模型
的预测结果检验优化后采样点的有机质含量.本研
究旨在利用道路空间分布格局、历史样点、数字高程
数据等可利用资源,以简便的方法寻找最优采样点
布局.
1 研究地区与研究方法
1 1 研究地区概况
研究区位于湖北省钟祥市北部 ( 31° 21′—
31°33′ N,112°13′—112°27′ E),面积 243.99 km2 .该
区位于湖北省中部,汉江上游西侧(图 1),为丘陵、
低山、平原混合地貌,自西向东海拔逐渐降低,海拔最
高处为 215 m.钟祥市共有水稻土、潮土、黄棕壤、石灰
(岩)土、紫色土、草甸土等 6 个土类、14 个亚类、
44个土属、241个土种[15] ,主要母质有第四纪粘土、
图 1 研究区示意图
Fig.1 Sketch of the study area.
298 应 用 生 态 学 报 26卷
近代河流冲积物、砂岩、板岩、石灰岩.图 1 中的历史
采样点为 2005—2006年间随机采样法采集,分布于
不同的地形和土壤类型中,原始有效采样点数量为
319个;道路网密度为 0.78 km·km-2,覆盖全部研
究区域且分布较均匀(阴影部分为道路两侧 0 ~ 300
m范围).
1 2 研究方法
土壤在景观中的发育和分布是多种成土因素相
互作用的结果[16] .历史土壤采样数据,无论样点空
间布局是否合理,在一定程度上蕴含着该区域固有
的土壤⁃景观知识.本文提出的土壤采样布局方法基
本思路(图 2)是:利用分布在道路两侧不同范围内
的历史采样点,对土壤协同地形因子采用多元线性
回归的方法建立土壤景观关系;然后以土壤景观模
型精度为目标函数,运用模拟退火算法优化进入最
优空间布局的样点集,直至建立的土壤景观关系模
型误差最小;再用初始数据集和优化后的数据集建
立多层感知机模型,用验证数据集检验采样点优化
前后模型的精度并对比,探索优化后样点集的布局
代表性.
1 2 1选择与获取土壤协同地形因子 不同地形因
子分别表征不同的景观意义,结合以往土壤景观研
究成果[17-18],选择目前运用较多的地形因子模拟土
壤所处的真实环境.选取高程 ( elevation )、坡度
(slope)、沿平面曲率(plan curvature)、沿剖面曲率
(profile curvature) [19]、地形湿度指数 ( topographic
wetness index,TWI) [20]、汇流动力指数(stream power
index,SPI) [21]、沉积物运移指数( sediment transport
index,STI) [22]等土壤协同地形因子作为表征研究区
土壤分布规律的因素.采用分辨率 30 m的数字高程
模型(DEM)栅格数据(源于中国科学院计算机网络
信息中心国际科学数据镜像网站: http: / / datami⁃
rror .csdb.cn)计算地形因子.为使数据平滑连续,以
图 2 技术路线图
Fig.2 Technology roadmap.
10 m栅格单元大小计算上述地形因子,并经重采样
提取历史采样点位上地形因子数据,使采样点位上
对应的地形因子代表其周围环境的综合因素.由表 1
可知地形因子与土壤有机质之间的相关性.
结合道路空间分布格局,依据土壤采样点距离
铁路、公路至少 300 m 以上的标准[23],为了体现土
壤采样在路网两侧纵深的程度及采样的精细程度,
以 10 个像元为梯度,在道路两旁分别设置 300 ~
400,300~ 500,…,300 ~ 1600 m 共 13 种采样范围,
其中 300 ~ 1600 m 范围覆盖了全部研究区,因此构
建出 13种采样区域尺度,用以探索不同采样程度对
最终结果精度的影响.相同采样间距下,若存在不同
道路之间的重复区域,将其合并为同一区域.在不同
表 1 研究区土壤有机质与地形因子间的 Pearson相关系数
Table 1 Pearson correlation coefficients between soil organic matter and topographical factors in the study area
有机质
Soil organic
matter
高程
Elevation
坡度
Slope
沿平面曲率
Plan
curvature
沿剖面曲率
Profile
curvature
地形湿度指数
Topographic
wetness index
汇流动力指数
Stream power
index
高程 Elevation 0.47∗∗
坡度 Slope 0.01 0.09
沿平面曲率 Plan curvature -0.09 -0.04 -0.04
沿剖面曲率 Profile curvature 0.10 0.02 -0.02 -0.60∗∗
地形湿度指数 Topographic wetness index 0.00 -0.18∗∗ -0.16∗∗ 0.02 -0.07
汇流动力指数 Stream power index 0.04 -0.10 0.20∗∗ 0.00 -0.06 0.82∗∗
沉积物运移指数 Sediment transport index 0.05 -0.02 0.14∗ 0.02 -0.05 0.30∗∗ 0.30∗∗
∗ P<0.05; ∗∗P<0.01.
3983期 韩宗伟等: 基于路网的土壤采样布局优化—模拟退火神经网络算法
范围下抽取历史采样点记作初始采样集,并按照
2 ∶ 1比例分割,随机分配训练点集和验证点集.其
中,训练点集占初始采样集的 2 / 3,作为模型训练
用,剩余部分用作模型检验.各区间的采样点数量和
有机质统计信息如表 2 所示,各采样范围内采样点
位上有机质分布规律一致.重采样的样点数与采样
区域尺度的相关系数( r)为 0.96,两者之间线性回
归方程的决定系数(R2)为 0.91.可见,重采样的样点
数随着采样区域尺度增大而呈比例增加,因此可以
将不同尺度下的研究结果进行比较.
1 2 2建立土壤景观关系模型 对利用路网设计的
每个采样集,利用道路两侧历史样点的土壤有机质
含量和地形因子在 Matlab 8.0 中建立多元线性回归
模型,并计算均方误差(mean square error,MSE),从
而得到初始样点集的土壤景观关系模型及其精度,
用于优化道路周边样点空间布局.同时,在 NeuroSo⁃
lutions 6.28 中建立基于神经网络的多层感知机
(multilayer perceptron,MLP)模型.MLP 已被证明是
一种通用的函数近似方法,可用来拟合复杂的函数
或解决分类问题.本研究中,其输入层为所选取的 7
个地形因子,输出层为土壤有机质含量,并包含 2 个
隐含层,转换函数为软件默认的双曲正切函数 Tan⁃
hAxon,学习方法为 Momentum算法,Step Size及 Mo⁃
mentum Rate为软件默认值,终止条件是最大迭代次
数为 105且门槛值为 10-4,软件根据输入数据换算得
到每个隐含层神经元的最佳建议数量为 4.由于各因
子对应的权重值在神经网络算法中非常重要,神经
网络计算过程中会不断优化权重值,以达到最优的
预测结果.而神经网络方法的不确定性很强,因此对
数据训练 5次,保存每次训练的权重文件,选取预测
结果最好时权重对应的模型.运用神经网络的方法
建立土壤景观关系模型,用于检验优化后样点集布
局的代表性.
1 2 3优化采样点空间布局 利用历史样点数据筛
选出代表性高的采样点,以达到优化样点空间布局
的目的.模拟退火算法是一种随机计算技术,可以有
效避免局部最优,成为收敛于全局最优的组合优化
算法,且对研究对象初始状态并无严格要求,可用来
解决复杂的确定性优化组合问题[24-25] .采样点空间
布局实质上是样点间优化组合问题.在 Matlab 中对
每个初始采样集运用模拟退火算法进行优化,其中,
训练样本用于优化采样点布局,检验样本用于验证
采样点布局有效性.在训练集中随机选取一个子集,
并从其余点中随机选取一个采样点逐一替代子集中
的每一个,搜寻出最适合剔除的点,将此点用之前随
机选取的点代替而形成新的子集,同时建立该数据
集的多元线性回归模型,并利用检验样本计算其
MSE,即优化过程中的目标函数.以上迭代过程进行
的同时,比较每个子集建立多元线性回归模型的均
方误差,接受 MSE 小的模型对应的采样点子集,因
此可以得到每个初始样点集中预测误差最小的最优
布局样点集,其余样点集则是模型 MSE 最小原则下
的冗余样点.
1 2 4检验优化后样点布局 为定量分析优化后样
点集代表的原始样点集信息量,以及对土壤有机质
含量精预测度的影响,利用优化后样点集数据建立
的 MLP 模型和 1.2.3 节中建立的 MLP 模型预测检
验样本集的土壤有机质含量,并将其与实际测量值
表 2 研究区各采样范围的采样数与土壤有机质的描述性统计
Table 2 Descriptive statistics of sample number and soil organic matter for each region in the study area
采样范围
Sampling range
(m)
样本数
Sample
number
有机质 Soil organic matter (g·kg-1)
最小值
Min.
最大值
Max.
平均值
Average
标准差
SD
方差
Variance
峰度
Kurtosis
偏度
Skewness
300~400 82 9.83 46.54 26.59 8.39 70.33 -0.44 0.31
300~500 126 9.83 49.10 26.57 8.45 71.45 -0.39 0.38
300~600 170 9.76 54.70 26.31 8.80 77.47 -0.16 0.41
300~700 202 7.60 54.70 26.78 8.86 78.53 -0.20 0.33
300~800 222 7.60 54.70 26.97 8.69 75.50 -0.20 0.27
300~900 239 7.60 54.70 27.24 8.69 75.60 -0.28 0.22
300~1000 260 7.60 54.70 27.38 8.54 72.93 -0.27 0.20
300~1100 273 7.60 54.70 27.50 8.47 71.68 -0.25 0.16
300~1200 286 7.60 54.70 27.59 8.41 70.72 -0.25 0.15
300~1300 298 7.60 54.70 27.66 8.43 70.98 -0.16 0.18
300~1400 305 7.60 54.70 27.75 8.40 70.63 -0.15 0.18
300~1500 313 7.60 54.70 27.76 8.37 70.09 -0.15 0.16
300~1600 319 7.60 54.70 27.77 8.39 70.35 -0.19 0.15
498 应 用 生 态 学 报 26卷
表 3 评价指标简介
Table 3 Introduction of evaluation index
评价指标
Evaluation index
计算公式
Formulas
注释
Annotation
均方误差
Mean square error (MSE) MSE =
1
n ∑
n
i = 1
( y^i - yi) 2
归一化均方误差
Normalized mean square error (NMSE) NMSE = ∑
n
i = 1
( y^i - yi) 2(∑
n
i = 1
(yi) 2) -1
n为观察数,y^为 SOM预测值,y为
SOM实测值
误差百分比
Error (%) %Error = ∑
n
i = 1
( y^i - yi)(∑
n
i = 1
yi) -1 × 100%
相关系数
r r = ∑
n
i = 1
(xi - x)(yi - y)[ ∑
n
i = 1
(xi - x)∑
n
i = 1
(yi - y )] -1
n为观察数,x 为某地形因子值,x
为某地形因子平均值,y为 SOM实
测值,y为 SOM均值
赤池信息量准则
Akaike information criterion (AIC)
AIC= 2k-2ln L
最小描述长度
Minimum description length (MDL) MDL=
1
2
klnn-lnL
n为观察数,k 为参数的数量,L 为
似然函数
进行误差分析.本研究中选取的评价指标见表 3.
2 结果与分析
采样点优化前后地形因子与土壤有机质含量的
多元线性回归分析
为探索不同范围下采样点布局优化效果,运用
多元线性回归分析初始样点集和经模拟退火优化后
样点集,得到不同采样范围下多元线性回归模型,比
较模型各指标对应系数的差异(表 4).不同地形因
子表征不同的景观环境意义,对土壤有机质的影响
程度不尽相同,因而在回归模型中呈现出不同的影
响类型及程度;样点的布局决定了采样点的代表性,
使不同范围内采样点组合集所蕴含的土壤知识完整
性不统一,构建的土壤景观模型存在较大差异.
对优化前后不同范围下的采样点获取的回归模
型进行回归统计和方差分析(图 3),结果表明,采样
范围在 300~1100 m 和 300 ~ 800 m 时,采样点布局
优化后回归模型的决定系数和标准误差相近于或劣
于优化前,其余范围内均优于采样点布局优化前;对
各模型显著性检验可知,采样点布局优化前的模型
均达到极显著水平,而优化后的模型,300 ~ 400 和
300~ 1100 m 范围内的显著性水平较低,分别为
0 43和 0.25,300~500、300 ~ 800、300 ~ 1200 m 范围
内则达到显著水平,分别为 0.02、0.02、0.01,其余均
达到极显著水平,说明优化采样点布局有利于提高
模型精度.
表 4 采样点优化前后不同采样范围的多元线性回归模型
Table 4 Multiple linear regression models of sampling points before and after optimized in different sampling schemes
采样范围
Sampling
range
(m)
常数
Constant
Ⅰ Ⅱ
高程
Elevation
Ⅰ Ⅱ
坡度
Slope
Ⅰ Ⅱ
沿平面率
Plan
curvature
Ⅰ Ⅱ
沿剖面曲率
Profile
curvature
Ⅰ Ⅱ
地形湿度
指数
Topographic
wetness index
Ⅰ Ⅱ
汇流动力
指数
Stream
power index
Ⅰ Ⅱ
沉积物
运移指数
Sediment
transport index
Ⅰ Ⅱ
300~400 4.94 13.39 0.32 0.22 0.81 1.17 14.94 21.83 20.13 22.62 0.70 0.70 -0.52 -0.67 0 0.65
300~500 2.38 7.22 0.36 0.27 1.27 0.39 -3.14 -10.65 -7.81 18.94 0.58 0.90 -0.45 -0.34 0.14-0.76
300~600 6.68 6.42 0.34 0.31 -0.03 0.97 -9.30 -0.86 -9.08 17.60 0.20 -0.47 0.10 0.93 -1.01-1.57
300~700 10.51 7.39 0.32 0.28 -0.15 1.22 2.76 -15.38 7.00 -3.74 0.05 1.00 -0.06 -1.23 0.05 0.16
300~800 6.05 13.36 0.35 0.21 0.27 0.59 3.63 -10.56 3.18 2.10 0.06 0.39 0.04 -0.16 0.04-1.31
300~900 9.45 8.02 0.28 0.34 0.07 -0.15 -3.94 -10.87 2.59 0.10 0.36 0.17 -0.06 0.01 -0.37-1.10
300~1000 10.62 12.13 0.28 0.27 -0.02 -0.79 -1.37 -2.32 6.21 3.58 0.18 -0.07 0.12 -0.03 -0.07 1.32
300~1100 7.88 17.34 0.32 0.19 0.01 -0.44 1.22 -6.88 0 16.10 0.11 0.10 0.09 0.06 -0.03-0.79
300~1200 9.26 11.72 0.31 0.21 -0.07 0.52 0.38 -3.46 7.00 4.99 0.11 1.41 0.10 -1.69 0.02 0.16
300~1300 7.62 15.08 0.32 0.22 -0.13 -0.78 -2.19 1.42 7.73 -2.37 0.11 0.16 0.13 -0.04 0.19-0.25
300~1400 11.59 8.13 0.28 0.29 -0.43 0.31 -1.28 -7.77 7.25 -4.28 0.10 0.31 0.07 -0.13 0.02-1.02
300~1500 10.49 16.83 0.30 0.19 -0.60 -0.17 -0.04 -4.90 9.40 -0.35 -0.16 -0.04 0.36 0.04 0.17 0.06
300~1600 11.60 12.79 0.27 0.26 -0.25 -0.37 1.41 -11.59 7.10 0.72 0.07 0.03 -0.05 0.26 0.40-0.62
Ⅰ: 优化前 Before optimizing; Ⅱ: 优化后 After optimizing. 下同 The same below.
5983期 韩宗伟等: 基于路网的土壤采样布局优化—模拟退火神经网络算法
图 3 采样点优化前后不同采样范围的多元线性回归模型统计特征
Fig.3 Statistical characters of multiple linear regression model for sampling points before (Ⅰ) and after (Ⅱ) optimized in different
sampling schemes.
Ⅰ: 优化前 Before optimizing; Ⅱ: 优化后 After optimizing. 下同 The same below.
优化前后各回归模型的预测精度及采样数如图
4所示.在 300~500、300~600 m的采样范围内,原始
数据的模型精度较低,可见该范围下存在误差较大
的采样点;当采样范围在 300~700 m,随着道路两侧
采样范围增加,采样点布局优化前模型预测精度逐
渐提高,模型的均方误差(MSE)在 50.62 g·kg-1以
内;而采样点布局优化后的回归模型预测精度较稳
定 ,模型的MSE在22.98 g·kg-1以内;相同采样范
图 4 不同采样范围的回归模型精度比较
Fig.4 Comparison of the prediction precision for the regression
models in different sampling schemes.
围下,样点布局优化后的模型预测精度高于样点布
局优化前.由此可见,采样点布局优化后模型的预测
值更接近真实值,因此通过模拟退火优化后的道路
周边采样点能够获得较高精度的土壤有机质预测
模型.
2 2 采样点空间布局优化结果
有研究者通过模拟退火算法优化采样点数量,
用最少数量的样点对土壤属性的空间分布进行较高
的精度预测,并使之预测精度不低于原始集合精度,
最终得到最优样点布局[24];也有研究者以平均克里
格方差为目标函数,在模拟退火算法中,通过主要克
里格方差和加权克里格方差两个评判标准优化采样
点空间布局,对不同土壤属性得到全局最优或者局
部最优的采样点空间布局[26] .本研究采用模拟退火
技术,以有机质预测均方误差最小为标准,优化土壤
样点空间布局,从而获得较高精度的土壤景观关系.
通过模拟退火算法使采样点数减少,该过程中
每减少一个样点得到一个多元线性回归模型的均方
误差.由图 5 可以看出,随着采样范围的增加,初始
数据集中涉及的采样点数量随之增加,其均方误差
逐渐降低,对土壤有机质的预测精度提高;原始样点
得到的多元线性回归模型的均方误差很大,即初始
状态时的均方误差值对土壤有机质的预测精度较
低.采用模拟退火算法,以模型预测误差最小为原
则,优化每个采样范围的土壤有机质采样点空间布
698 应 用 生 态 学 报 26卷
图 5 不同采样范围下不同优化样点集的有机质预测值均方误差
Fig.5 MSE of SOM prediction in optimized sampling points for different sampling schemes.
局后发现:随着优化的深入,当采样点数量逐渐减
少,多元线性回归模型的均方误差逐渐降低,接着趋
于平缓;当采样点数量优化到一定数量后,模型的预
测误差急剧上升,呈现明显的“U”型规律.
由图 5可知,道路周边设置采样点并优化其布
局,获取的土壤景观模型的精度优于相同采样范围
7983期 韩宗伟等: 基于路网的土壤采样布局优化—模拟退火神经网络算法
没有经过优化的采样点布局;道路周边布设的采样
点集中存在最佳的采样点空间布局,使获取的土壤
有机质预测模型精度较高;随着采样范围的增加,由
于采样点数量的增加,土壤有机质预测模型涵盖的
土壤知识更全面,因而预测精度提高.通过各采样范
围优化前后采样点空间布局(图 6)可知:去除的采
样点主要分布在低洼、沟谷、陡坡区域,且大部分处
于海拔较低的区域.由此可见,采样点数量明显减
少,将降低土壤调查工作量和成本;研究区内的历史
样点中存在最优的采样点空间布局.
2 3 土壤有机质的预测精度
利用训练数据和优化后采样点数据分别建立多
层感知机(MLP)模型,并用检验数据定量检验优化
前后采样点对土壤有机质的预测精度.选取的指标
中,最小信息准则(AIC)用以权衡所估计模型的复
杂度和此模型拟合数据的优良性,而最小长度描述
准则(MDL)是衡量条件属性子集对决策属性集预
测的质量.这两个指标越小,模型越精确.由表 5 可
以看出,道路周边不同采样范围内,由原始样点建立
的 MLP 模型中,归一化均方误差均在 0.49 以内,相
关系数在 0.71 以上,误差百分比在 17.5%以内,赤
池信息量准则和最小描述长度的绝对值均随着采样
范围的增加而增加,在道路周边采样范围达到 1300
m后,以上两个指标变小;对于优化后采样点建立的
MLP 模型,因为优化过程中剔除了对模型预测精度
有负影响的点,优化出有利于预测模型精度最优的
数据集,归一化均方误差、相关系数和误差百分比均
比采样点布局优化前更优,赤池信息量准则和最小
描述长度的绝对值都在 336. 19 以内,且优于优化
前,以上各项指标比较稳定.由此可见,建立的MLP
图 6 不同采样范围下优化前后采样点空间布局对比
Fig.6 Comparison for the distribution of the samples in different sampling schemes before and after optimizing.
898 应 用 生 态 学 报 26卷
表 5 不同采样范围下多层感知机模型精度
Table 5 Precision of the multilayer perception model in different sampling schemes
采样范围
Sample range
(m)
样点数
Sample number
Ⅰ Ⅱ
归一化均方误差
NMSE
Ⅰ Ⅱ
相关系数
r
Ⅰ Ⅱ
误差百分比
Error (%)
Ⅰ Ⅱ
赤池信息量准则
AIC
Ⅰ Ⅱ
最小描述长度
MDL
Ⅰ Ⅱ
300~400 53 26 0.04 0.02 0.98 0.99 3.8 2.4 -150.96 -27.87 -151.80 -49.01
300~500 83 50 0.12 0.09 0.94 0.95 8.0 4.7 -203.04 -91.63 -191.10 -94.13
300~600 111 57 0.26 0.01 0.86 0.99 13.5 2.2 -273.96 -273.74 -253.73 -272.52
300~700 133 74 0.29 0.10 0.84 0.95 15.7 6.4 -295.41 -198.06 -270.03 -189.40
300~800 147 77 0.28 0.10 0.85 0.95 13.2 4.5 -362.32 -220.78 -334.09 -210.98
300~900 157 86 0.34 0.09 0.81 0.95 15.9 7.3 -391.44 -259.82 -361.34 -246.87
300~1000 171 79 0.32 0.13 0.83 0.94 14.1 7.0 -485.73 -206.84 -453.20 -196.31
300~1100 181 52 0.40 0.03 0.77 0.99 15.4 4.4 -456.90 -175.53 -422.74 -176.92
300~1200 189 54 0.46 0.11 0.74 0.94 16.7 3.9 -451.46 -105.50 -416.07 -105.81
300~1300 195 115 0.31 0.28 0.83 0.85 14.6 8.9 -536.92 -262.63 -500.35 -241.40
300~1400 201 122 0.34 0.25 0.81 0.87 15.5 11.4 -513.67 -291.55 -476.53 -268.63
300~1500 207 95 0.42 0.40 0.76 0.78 17.1 9.1 -504.65 -293.39 -466.66 -270.47
300~1600 211 143 0.49 0.31 0.71 0.83 17.5 11.1 -479.17 -336.19 -440.64 -308.75
模型能够充分重现地形因子与土壤有机质之间的内
在联系,而且模型的预测精度较高,可用该模型的预
测结果检验优化后样点有机质含量预测值的准
确性.
对于所有模型,由于采样范围扩大会带入更多
的点进入优化过程,这些选自历史数据点的代表性
需要完善,无论采样点是否优化过,其预测误差百分
比都随着采样范围的增加而缓慢增加.通过预测精
度较高的模型检验优化后采样点的预测精度,发现
各项指标均有明显改进.由此可知,优化后的样点集
能够代表原始样点建立土壤景观模型,并保证较高
的预测精度.
3 讨 论
本文提出了一种运用模拟退火算法,利用历史
采样点数据在道路周边设计土壤采样布局的方法,
依据不同的精度要求可以在道路周边设置不同的采
样范围.将该方法应用于湖北省钟祥市北部的研究
区,利用模拟退火算法对历史采样点进行优化,并运
用预测精度较高的多层感知机模型检验优化后采样
点布局的代表性,用以评价采样点布局优化方法.结
果表明,道路周边不同采样范围的历史采样点通过
模拟退火优化后,各自具有一定空间布局的采样点
集中,采样点数量平均减少 49.2%,并能够保证以较
高的精度预测土壤有机质含量;由均方误差指标可
知,优化后的采样点有机质预测误差平均降低
48 8%.这在充分利用历史样点数据节约采样成本、
提高采样效率的同时,能够更便捷高效地设计出代
表性高的采样点布局.随着采样范围的增加,优化后
的采样点的预测精度逐渐趋于稳定,误差百分比变
化范围在 11.1%以内.因此,根据研究精度的需要,
可依据研究区道路空间布局设置合理的道路周边采
样范围,通过历史样点数据确定出最佳采样方案,作
为后续研究中土壤采样的参考,并结合实际情况进
行调整,从而达到合理利用采样资源并减少调查者
工作量的目的.
该研究中提出的道路周边采样点布局优化方法
虽然取得了较好效果,但仍存在一些问题需要深入
探讨,例如,土壤有机质与土壤养分关系研究中回归
模型选择的是多元线性回归模型、采样点布局优化
过程中模拟退火算法目标函数选取的是 MSE、数据
检验过程中建立多层感知机模型时的参数(如隐含
层的层数、训练规则、终止条件等)设置为软件 Neu⁃
roSolution 6.28中推荐的默认值,以及模拟退火算法
对数据质量敏感性的研究等.同时,还需进一步通过
实例验证该优化方法在其他土壤属性采样点空间布
局设计和大尺度土壤采样工作中的适用性和效率.
参考文献
[1] Wang X (王 秀), Zhao C⁃J (赵春江), Meng Z⁃J
(孟志军), et al. Field soil sampling grids for precision
agriculture. Acta Pedologica Sinica (土壤学报), 2005,
42(2): 199-205 (in Chinese)
[2] Chen T⁃E (陈天恩), Chen L⁃P (陈立平), Wang Y⁃J
(王彦集), et al. Optimal arrangement of soil nutrient
sampling based on geo⁃statistics. Transactions of the Chi⁃
nese Society of Agricultural Engineering (农业工程学
报), 2009, 25(2): 40-55 (in Chinese)
[3] Shi X, Zhu AX, Burt JE, et al. A case⁃based reasoning
approach to fuzzy soil mapping. Soil Science Society of
America Journal, 2004, 68: 885-894
9983期 韩宗伟等: 基于路网的土壤采样布局优化—模拟退火神经网络算法
[4] Liu J (刘 京), Zhu A⁃X (朱阿兴), Zhang S⁃J (张
淑杰 ), et al. Large⁃scaled soil attribute mapping
method based on individual representativeness of sample
sites. Acta Pedologica Sinica (土壤学报), 2013, 50
(1): 12-20 (in Chinese)
[5] Yang Q⁃Y (杨奇勇), Yang J⁃Y (杨劲松), Liu G⁃M
(刘广明). Scale⁃dependency of spatial variability of
soil available nutrients. Chinese Journal of Applied
Ecology (应用生态学报), 2011, 22(2): 431- 436
(in Chinese)
[6] Yang L (杨 琳), Zhu A⁃X (朱阿兴), Qin C⁃Y (秦
承志), et al. A purposive sampling design method
based on typical points and its application in soil map⁃
ping. Progress in Geography (地理科学进展), 2010,
29(3): 279-286 (in Chinese)
[7] Bertacchini L, Durante C, Marchetti A, et al. Use of
x⁃ray diffraction technique and chemometrics to aid soil
sampling strategies in traceability studies. Talanta,
2012, 98: 178-184
[8] Yao RJ, Yang JS, Zhao XF, et al. A new soil sampling
design in coastal saline region using EM38 and VQT
method. Clean: Soil, Air, Water, 2012, 40: 972-979
[9] Yao R⁃J (姚荣江), Yang J⁃S (杨劲松), Zhao X⁃F
(赵秀芳), et al. Application of electromagnetic induc⁃
tion (EM38) and variance quad⁃tree (VQT) method on
spatial sampling scheme in coastal saline. Transactions
of the Chinese Society for Agricultural Machinery (农业
机械学报), 2010, 41(7): 174-180 (in Chinese)
[10] Quan Q (权 全), Xie J⁃C (解建仓), Shen B (沈
冰), et al. Soil sampling method based on field meas⁃
urements and remote sensing images. Transactions of the
Chinese Society of Agricultural Engineering (农业工程
学报), 2010, 26(12): 237-241 (in Chinese)
[11] Wang H⁃B (王宏斌), Yang Q (杨 青), Liu Z⁃J (刘
志杰), et al. Determining optimal density of grid soil⁃
sampling points using computer simulation. Transactions
of the Chinese Society of Agricultural Engineering (农业
工程学报), 2006, 22(8): 145-148 (in Chinese)
[12] Zhu A⁃X (朱阿兴), Li B⁃L (李宝林), Yang L (杨
琳), et al. Predictive soil mapping based on a GIS, ex⁃
pert knowledge, and fuzzy logic framework and its appli⁃
cation prospects in China. Acta Pedologica Sinica (土壤
学报), 2005, 42(5): 844-852 (in Chinese)
[13] Huang N (黄 宁), Cui S⁃H (崔胜辉), Liu Q⁃M
(刘启明), et al. Study on the characteristics of com⁃
munity human settlements in peri⁃urban area during ur⁃
banization: A case of Jimei District, Xiamen City. Pro⁃
gress in Geography (地理科学进展), 2012, 31(6):
750-760 (in Chinese)
[14] Yang L (杨 琳), Zhu A⁃X (朱阿兴), Qin C⁃Z (秦
承志), et al. A soil sampling method based on repre⁃
sentativeness grade of sampling points. Acta Pedologica
Sinica (土壤学报), 2011, 48(5): 938-946 ( in Chi⁃
nese)
[15] Lu M⁃X (鲁明星), Xu H (徐 辉), He L⁃Y (贺立
源), et al. The spatial and temporal changes of the
farmland soil fertilities in the Zhongxiang City, Hubei
Province. Journal of Huazhong Agricultural University
(华中农业大学学报), 2009, 28(4): 431-437 ( in
Chinese)
[16] Yang Z⁃Q (杨志强), Pan J⁃J (潘剑君), Huang L⁃H
(黄礼辉), et al. Soil profile lay⁃out and soil boundary
determination of soil survey for soil taxonomy: A case
study of Dazhuo, Jurong City, Jiangsu Province. Journal
of Nanjing Agricultural University (南京农业大学学
报), 2011, 34(3): 94-100 (in Chinese)
[17] Guo P⁃T (郭澎涛), Wu W (武 伟), Liu H⁃B (刘
洪斌), et al. Effects of DEM grid resolution on quanti⁃
tative soil⁃landscape model at hilly and mountain area.
Transactions of the Chinese Society of Agricultural Engi⁃
neering (农业工程学报), 2010, 26(12): 330- 336
(in Chinese)
[18] Zhang H (张 华), Zhang G⁃L (张甘霖), Gong Z⁃T
(龚子同). The progress of quantitative soil⁃landscape
modeling: A review. Chinese Journal of Soil Science (土
壤通报), 2004, 35(3): 339-346 (in Chinese)
[19] Shary PA, Sharaya LS, Mitusov AV. Fundamental quan⁃
titative methods of land surface analysis. Geoderma,
2002, 107: 1-32
[20] Shi Z⁃H (史志华), Zhu H⁃D (朱华德), Chen J (陈
佳), et al. Spatial heterogeneity of soil moisture and its
relationships with environmental factors at small catch⁃
ment level. Chinese Journal of Applied Ecology (应用生
态学报), 2012, 23(4): 889-895 (in Chinese)
[21] Moore ID, Gessler PE, Nielsen GA, et al. Soil attribute
prediction using terrain analysis. Soil Science Society of
America Journal, 1993, 57: 443-452
[22] Lian G (连 纲), Guo X⁃D (郭旭东), Fu B⁃J (傅伯
杰), et al. Spatial variability and prediction of soil nu⁃
trients on a county scale on the loess plateau: A case
study of Hengshan County, Shanxi Province. Acta
Pedologica Sinica (土壤学报), 2008, 45(4): 577-
584 (in Chinese)
[23] State Environmental Protection Administration of China
(环保部). HJ / T 166-2004, The Technical Specifica⁃
tion for Soil Environmental Monitoring. Beijing: State
Environmental Protection Administration of China, 2004
(in Chinese)
[24] Guo P⁃T (郭澎涛). Determination of Soil Sampling
Density for Slope Positions at Agricultural Landscape in
Purple Soil Hilly Region. PhD Thesis. Chongqing:
Southwest University, 2012 (in Chinese)
[25] Zhang S⁃J (张淑杰), Zhu A⁃X (朱阿兴), Liu J (刘
京), et al. Soil sampling scheme based on simulated
annealing method. Chinese Journal of Soil Science (土壤
通报), 2013, 44(4): 820-825 (in Chinese)
[26] Vasat R, Heuvelink GBM, Boruvka L. Sampling design
optimization for multivariate soil mapping. Geoderma,
2010, 155: 147-155
作者简介 韩宗伟,男,1987 年生,硕士研究生.主要从事精
细数字土壤制图研究. E⁃mail: hansarm@ webmail.hzau.edu.cn
责任编辑 杨 弘
009 应 用 生 态 学 报 26卷