A soil erosion model built on Machine Learning Theory-文献传递-植物通论文库

摘要：土壤侵蚀一直是环境问题中的重点和难点。由于影响土壤侵蚀的因素众多, 传统的预测模型存在数据获取困难、适用范围小、研究周期长等不足, 使得对土壤侵蚀的预测无法做到快速、便捷。支持向量机(Support Vector Machine, SVM)是机器学习中的一个重要模型, 具有非线性映射、自我学习能力、全局最小值、对输入数据变化不敏感等优点, 在建立土壤侵蚀量相关性预测模型方面较传统预测模型具有更强的优势。本研究应用浙江省诸暨市浦阳江水文站的降雨数据, 利用ArcGIS地理信息系统确定水文站上游流域为研究区域。以降雨量、研究区域地理数据维度(包括坡度数据、坡长数据、土壤信息、土地利用类型)作为影响因子, 输入支持向量机模型, 进行流域内土壤侵蚀量预测。将水文站土壤侵蚀量实测数据作为对照值, 用模型输出值检验, 从而在取值范围内选择出模型最优的参数组。用影响因子数据和土壤侵蚀量数据对使用最优参数的模型进行检验, 模型的预测准确率最高达到75%。其中, 降雨量对土壤侵蚀量的影响最大, 降雨量单因子预测准确率在70%以上, 其余因子预测准确率在3.5%左右。最终得到一个土壤侵蚀量相关性预测模型, 通过水文站降雨数据以及地理信息, 即可预测当地土壤侵蚀量, 准确率达到75%。

Abstract:In the aporia of environment problems, soil erosion is a critical element. Because of the many influencing factors, traditional prediction models of soil erosion are limited, including limitations such as difficulty in data collection, small-scale application, long research cycle, etc. These limitations make the prediction of soil erosion highly slow and inconvenient. Support Vector Machine (SVM) is one of the most important machine learning models. SVM has advantages such as non-linear mapping, self-learning ability, global minimum, insensitivity to input data. In contrast to traditional prediction models, SVM is highly beneficial in building relevant soil erosion models. Rainfall data were obtained from Puyang River Hydrologic Station of Zhuji City, Zhejiang Province. The layout research was developed in ArcMap and it included the upland catchment of Puyang River Hydrologic Station. The rainfall data and geographic data (including slope length, slope degree, soil type and land use type) were input into the SVM model as influencing factors of soil erosion. After screening, a total of 4 018 rainfall data were used. The proportions of the different slope degrees and slope lengths were calculated and land use types classified in study area using ERADS. After the data processing, the model input data were then ready, and divided into five groups, four of which were used as training data and the other used as examination data. The training data were input into the SVM model and the results compared. When the accuracy rate of the predicted results reached the maximum value, the model was accepted as attaining the optimum parameters. After confirmation of the optimal parameters, the soil erosion prediction model was inspected using the influencing factors and soil erosion data (i.e., the examination data). The highest accuracy rate of the model exceeded 75%. Among influencing factors, rainfall had the highest impact on soil erosion. The accuracy rate of the model reached 70% when only rainfall data were used, and was 3.5% when other influencing factors used together. At last, a relevant soil erosion prediction model was built with prediction accuracy rate of over 75%. The model could predict soil erosion from only rainfall data or rainfall in combination with geographic data. Although the prediction accuracy of model was relatively low under severe soil erosion, it provided a new and alternative method for predicting soil erosion on a large scales and extreme frequencies.

全文：中国生态农业学报 2014年 9月第 22卷第 9期
Chinese Journal of Eco-Agriculture, Sep. 2014, 22(9): 1122−1128

* 国家自然科学基金项目(69673044)和国家高技术研究发展计划(863计划)项目(2007AA10Z220)资助
** 通讯作者: 严力蛟, E-mail: yanlj@zju.edu.cn
蔡喨喨, 研究方向为生态学。E-mail: fengwind-s@hotmail.com
收稿日期: 2013−11−06 接受日期: 2014−05−05
DOI: 10.13930/j.cnki.cjea.131098
基于机器学习理论的土壤侵蚀模型构建*
蔡喨喨严力蛟** 徐奂
(浙江大学生命科学学院生态研究所杭州 310058)
摘要土壤侵蚀一直是环境问题中的重点和难点。由于影响土壤侵蚀的因素众多, 传统的预测模型存在数
据获取困难、适用范围小、研究周期长等不足, 使得对土壤侵蚀的预测无法做到快速、便捷。支持向量机
(Support Vector Machine, SVM)是机器学习中的一个重要模型, 具有非线性映射、自我学习能力、全局最小值、
对输入数据变化不敏感等优点, 在建立土壤侵蚀量相关性预测模型方面较传统预测模型具有更强的优势。本
研究应用浙江省诸暨市浦阳江水文站的降雨数据, 利用 ArcGIS 地理信息系统确定水文站上游流域为研究区
域。以降雨量、研究区域地理数据维度(包括坡度数据、坡长数据、土壤信息、土地利用类型)作为影响因子, 输
入支持向量机模型, 进行流域内土壤侵蚀量预测。将水文站土壤侵蚀量实测数据作为对照值, 用模型输出值检
验, 从而在取值范围内选择出模型最优的参数组。用影响因子数据和土壤侵蚀量数据对使用最优参数的模型
进行检验, 模型的预测准确率最高达到 75%。其中, 降雨量对土壤侵蚀量的影响最大, 降雨量单因子预测准确
率在 70%以上, 其余因子预测准确率在 3.5%左右。最终得到一个土壤侵蚀量相关性预测模型, 通过水文站降
雨数据以及地理信息, 即可预测当地土壤侵蚀量, 准确率达到 75%。
关键词土壤侵蚀向量机模型机器学习降雨量地理数据维度诸暨市
中图分类号: Q141 文献标识码: A 文章编号: 1671-3990(2014)09-1122-07
A soil erosion model built on Machine Learning Theory
CAI Liangliang, YAN Lijiao, XU Huan
(Institute for Ecological Research, College of Life Sciences, Zhejiang University, Hangzhou 310058, China)
Abstract In the aporia of environment problems, soil erosion is a critical element. Because of the many influencing factors,
traditional prediction models of soil erosion are limited, including limitations such as difficulty in data collection, small-scale
application, long research cycle, etc. These limitations make the prediction of soil erosion highly slow and inconvenient. Support
Vector Machine (SVM) is one of the most important machine learning models. SVM has advantages such as non-linear mapping,
self-learning ability, global minimum, insensitivity to input data. In contrast to traditional prediction models, SVM is highly
beneficial in building relevant soil erosion models. Rainfall data were obtained from Puyang River Hydrologic Station of Zhuji City,
Zhejiang Province. The layout research was developed in ArcMap and it included the upland catchment of Puyang River Hydrologic
Station. The rainfall data and geographic data (including slope length, slope degree, soil type and land use type) were input into the
SVM model as influencing factors of soil erosion. After screening, a total of 4 018 rainfall data were used. The proportions of the
different slope degrees and slope lengths were calculated and land use types classified in study area using ERADS. After the data
processing, the model input data were then ready, and divided into five groups, four of which were used as training data and the other
used as examination data. The training data were input into the SVM model and the results compared. When the accuracy rate of the
predicted results reached the maximum value, the model was accepted as attaining the optimum parameters. After confirmation of the
optimal parameters, the soil erosion prediction model was inspected using the influencing factors and soil erosion data (i.e., the
examination data). The highest accuracy rate of the model exceeded 75%. Among influencing factors, rainfall had the highest impact
on soil erosion. The accuracy rate of the model reached 70% when only rainfall data were used, and was 3.5% when other influencing
factors used together. At last, a relevant soil erosion prediction model was built with prediction accuracy rate of over 75%. The model
第 9期蔡喨喨等: 基于机器学习理论的土壤侵蚀模型构建 1123

could predict soil erosion from only rainfall data or rainfall in combination with geographic data. Although the prediction accuracy of
model was relatively low under severe soil erosion, it provided a new and alternative method for predicting soil erosion on a large
scales and extreme frequencies.
Keywords Soil erosion; Support Vector Machine model; Machine learning; Rainfall; Geographic data; Zhuji City
(Received Nov. 6, 2013; accepted May 5, 2014)
土壤侵蚀使土壤肥力下降, 理化性质变劣, 土
壤利用率降低, 生态环境恶化[1]。据统计, 世界各地
每年约有 250多亿 t的耕地土壤被侵蚀而流失[2], 而
且这个速度还在不断加快。我国是世界上土壤侵蚀
最为严重的国家之一, 土壤侵蚀现象遍布全国, 土
壤侵蚀面积占国土面积的 51.2%。每年全国因土壤
侵蚀有 50 亿 t 沃土付之东流 , 相当于毁坏土地
100万 hm2[1]。土壤侵蚀已对我国经济造成了重大损
失, 成为了我国亟待防控及解决的重大问题。
准确的土壤侵蚀预测是有效控制土壤侵蚀加剧
的关键, 对土壤侵蚀防控措施的实施和政策的颁布
有着极为重要的指导意义。国外对于土壤侵蚀预测
的研究从 19 世纪后期对侵蚀因子研究, 到 20 世纪
70年代末期 USLE(Universal Soil Loss Equation)模
型的建立, 再到 20世纪 80年代初的RUSLE(Revised
Universal Soil Loss Equation)和 WEPP(Water Erosion
Prediction Project)模型 , 一直到现在结合“3S”技术
的复合土壤侵蚀预测模型 [3−10], 对于土壤侵蚀预测
的研究和预测模型的建立正逐步完善。土壤侵蚀模
型在我国的发展起步较晚, 是在 USLE 模型成熟后,
被国内研究人员应用于土壤侵蚀的试验与预测。在
应用过程中, 很多专家和研究人员根据我国土地的
实际性质和气候情况对原有的 USLE 模型进行了修
改和完善, 使其能够更符合中国的实际情况, 产生
更好的预测结果[11−13]。然而, 尽管面向土壤侵蚀的
研究越来越深入 , 模型的预测结果也越来越精准 ,
但是现有预测模型都普遍存在着输入数据难收集、
适用范围小、侵蚀机理不明确等问题。
支持向量机 (support vector machine, SVM)是
Vapnik 等[14]和 Cortes 等[15]于 1995 年在统计学习理
论的基础上提出的一种模式识别的新方法。它根据
有限的样本信息在模型的复杂性和学习能力之间寻
求一种最佳折中, 以期获得最好的泛化能力。SVM
的理论基础决定了它最终求得的是全局最优值而不
是局部极小值, 从而也保证了它对未知样本的良好
泛化能力。
迄今为止, SVM在计算机模式识别、Internet 网
络安全、概率密度函数估计和回归估计等领域均有
应用成果。在图像、文本处理方面, SVM 广泛用于
图像分割、图像检测、图像分析、语音识别、文本
分类及三维物体识别等方面。SVM在医学研究方面
应用也较多, 主要用于基因分类、人类基因表示数
据分析、蛋白结构类别的预测等。在生态学研究上,
SVM 常被应用在水质评价、地形遥感分布等研究
中[16−18]。这些研究表明, SVM 在小样本、高维度的
情况下, 对分类和分级的研究能够产出较优的结果。
SVM具有自主学习、输入数据可扩展、适用性
广泛等特点 [19]。相较于传统的土壤侵蚀预测模型 ,
SVM 可以简化输入数据繁复严格的要求, 以提高模
型的适用性。另一方面, 将 SVM应用于大范围区域
的土壤侵蚀量预测, 可将研究尺度从传统的定点取
样研究提升到更加宏观的层面, 提高预测的实用性
和意义。
目前, SVM 在土壤侵蚀量预测方面也有一定的
应用。李斌兵等[20]以晋西王家沟为研究区域, 利用
SVM回归构建小流域侵蚀产沙模型; 李云开等[21]以
SVM 为核心建立了强烈侵蚀产沙区小流域土壤侵
蚀强度预报模型; 毛典辉等[22]以石桥铺小流域作为
研究对象, 通过 SVM算法建立土壤侵蚀评价与预测
模型, 并与 BP 神经网络的方法进行了对比。在以往
研究中 , 由于土壤侵蚀因子数据难以获取或计算 ,
因而存在不足: 一是只选取降雨、最大流量等数据
作为模型输入, 土壤性质、植被覆盖、地形因素等
作为模型之外的修正因素, 使得土壤侵蚀不能与全
部影响因子关联, 增加了模型的预测误差; 二是自
建试验坡地, 测定试验坡地的土壤侵蚀量以及相关
的影响因子数据, 研究结果只能适用于特定区域。
针对以上不足, 本研究以浙江省诸暨市浦阳江水文
站上游区域为研究区域, 尝试以 SVM为核心建立一
种新的土壤侵蚀预测模型。利用 GIS 技术将从各相
关机构处获取的降水情况、土壤性质、地形因素以
及土地利用类型 4 大类土壤侵蚀影响因子数据进行
标准化处理, 形成模型的输入数据, 在更大尺度上
对特定区域土壤侵蚀量进行预测。经过对比、筛选,
分析在特定区域中对于土壤侵蚀量起关键作用的影
响因子, 最终得到一个构建条件宽松、适用区域广
泛、预测结果准确的土壤侵蚀量预测模型。
1 材料与方法
1.1 研究数据
1.1.1 研究区域确定
诸暨市位于浙江省中部偏北, 会稽山脉与龙门
1124 中国生态农业学报 2014 第 22卷

山脉之间, 浦阳江中游。北纬 29°43′, 东经 120°14′。
属亚温带季风气候区 , 四季分明 , 雨水较多 , 光照
充足, 雨热同步, 具有典型的丘陵山地气候特征。年
平均气温为 16.3 , ℃ 常年平均降水量约 1 373.6 mm,
年均降水约 158.3 d, 年平均相对湿度约 82%, 年均
日照约 1 887.6 h, 年日照百分率为 45%。境内土壤有
88个土种, 以丘陵山地红壤和河谷平原水稻土为主。
境内植被属浙皖山区青冈(Cyclobalanopsis glauca)、苦
楮(Castanopsis sclerophylla)林栽培植被区、天目山
古田丘陵山地植被片。
土壤侵蚀量实测数据来自于诸暨市浦阳江水文
站。该站位于诸暨市的中心地区, 故收集的江水泥
沙含量数据只能作为水文站上游区域的土壤侵蚀
量数据, 不能代表整个诸暨市的土壤侵蚀情况。因
此, 需要按实际地理情况确定出水文站上游的流域
区域[23−25]。
图 1a 为诸暨市 DEM, 其中的白点为数据来源
的水文站位置。利用 ArcGIS地理信息软件, 对 DEM
进行流向计算, 得出流向图(图 1b)。由于 DEM数据
本身存在洼地(DEM 数据本身引起的, 与实际的地
理情况无关), 利用 ArcGIS 软件对流向图进行填洼
处理, 之后再在填洼处理的诸暨 DEM 进行流向计
算, 得到流向图(图 1c), 流向图由 8个不同的颜色组
成, 分别表示东、南、西、北、东北、东南、西北
和西南 8 个流向。之后, 经过盆地流域计算以及河
网勾画, 生成集水流域图(图 1d), 图中每个色块代
表 1个集水流域, 拥有 1个数值, 数值越高, 所处流
域位置越上游。以水文站所处集水流域的数值为分
界值, 删除低于分界值的区域, 得到诸暨市内水文
站上游区域(图 1e)。用于模型输入的地理信息都取
自于研究区域中的数据。
1.1.2 数据来源
降雨量: 将诸暨浦阳水文站观测到的 2000—2010
年诸暨市降雨量日值数据作为模型输入数据中的降
雨量因子。经过筛选和整理, 得到 4 018条有效数据。
土壤参数: 利用 ArcGIS提取出“中国 1∶100万
土壤数据库”矢量图(中国科学院南京土壤研究所 ,
2002年)中研究区域的土壤参数。通过合并土壤亚种,
发现在研究区域中存在 7 个土壤种类, 取其中最大
的 5 种类型, 使它们所占面积总和达到研究区域的
95%以上。以所选的 5种土壤所占面积比例、面积周
长比及粗砂、细砂、粉砂、黏粒含量等指标作为模型
输入数据中的土壤参数, 共得到 30维数据(表 1)。
地形参数: 运用 ArcGIS, 从诸暨市数字高程模
型中计算出研究区域内每个栅格的坡度和坡长数
值。由于数值过多, 无法全部作为输入数据, 因此对
坡度和坡长数值进行分区, 统计各区间栅格数占所
有栅格的比例。分别将坡度和坡长数值分成 5 个区
间, 则可得到 10 维数据, 并以此作为模型数据中地
形参数(表 2)。

图 1 研究区域提取过程图(a: 诸暨市 DEM图; b: 在 DEM基础上 ArcGIS计算的诸暨市流向图; c: 填洼处理后的流向
图, 不同颜色表示不同方向; d: 流域集雨图, 每一个色块代表一个集雨流域; e: 诸暨浦阳水文站上游流域, 即研究区
域。图 a和 e中的白点示诸暨浦阳水文站)
Fig. 1 Process of extracting study area (a: DEM of Zhuji; b: flow-graph of Zhuji; c: flow-graph after depression detention; d:
catchment drainage map; e: research area. White points in figure “a” and “e” show the Puyang River Hydrologic Station)
第 9期蔡喨喨等: 基于机器学习理论的土壤侵蚀模型构建 1125

表 1 研究区域 5种主要土壤类型数据
Table 1 Main parameters of 5 types of soil in the research area
土壤类型编号
Soil type number
面积占比
Area ratio
面积周长比
Ratio of area to perimeter
粗砂
Coarse sand (%)
细砂
Fine sand (%)
粉砂
Silt (%)
黏粒
Clay (%)
1 0.523 55 888.515 0.67 25.97 55.08 18.28
2 0.454 961.933 2.26 32.33 31.24 34.17
3 0.012 3 634.184 31.86 47.93 11.25 8.96
4 0.006 3 602.079 8.50 74.26 9.55 7.68
5 0.003 648.205 1.10 42.10 31.80 25.00
表 2 研究区域内地形坡度和坡长数据
Table 2 Data of slope gradient and length in the research area
坡度区间 Slope gradient interval (°) 坡长区间 Slope length interval (m)

0~3 3~12 12~19 19~27 >27 30~39 39~49 49~59 59~69 >69
栅格数 Grid number 363 760 418 271 284 053 218 536 85 032 801 294 527 765 40 205 374 14
比例 Proportion (%) 26.559 30.539 20.739 15.956 6.208 58.504 38.533 2.935 0.027 0.001

土地利用类型参数: 从中国科学院数据库(http://
www. csdb.cn/index.html)下载研究区域 2005年的遥
感图(分辨率为 7 961×6 981)。利用 ERADS地理信
息软件对遥感图进行监督分类, 将土地利用类型分
成 5 个主要的大类: 水体、草地、城镇用地、林地
和农用地。计算这 5 类土地利用类型所占比例, 得
到 5 维数据, 并以此作为模型数据的土地利用类型
参数(表 3)。
表 3 研究区域中 5类土地利用类型所占面积比例
Table 3 Area ratio of different types of land use in the research area
水体 Water 农用地 Agricultural land 草地 Grassland 城镇用地 Urban 林地 Forest land
面积占比 Area proportion (%) 1.435 36.299 23.489 8.253 30.524

土壤侵蚀量数据: 通过诸暨市浦阳江水文站得
到 2000—2010年诸暨市浦阳江泥沙含量日值数据和
流量日志数据, 计算出 2000—2010年研究区域土壤
侵蚀量 , 并作为模型的输出数据。共得有效数据
4 018条, 与降雨量数据一一对应(包括零值)。
1.2 研究方法
将降雨量、土壤参数、地形参数、土地类型等
按日期分组, 组成输入向量。土壤侵蚀量按日期分
组 , 组成输入数据 , 并与输入向量一一对应 , 共得
到 4 018组数据。将数据组平均分成 5份, 随机取其
中 4份合并成训练组, 用于筛选 SVM的核心参数。
剩余 1 份作为检验组, 用于对选择的参数进行检验,
以确定其有效性。
运用遍历法确定模型最优的惩罚系数 C 和超参
数 p, 即预先设定好 C和 p的取值范围以及变化步长,
然后将所有取值范围内的 C和 p 数值的不同组合放
入 SVM 中进行运算。准确率最高的 C 和 p 数值组
合即为模型的最优参数组。实际应用中, 为了提高
参数选择的效率, 一开始将参数的变化步长设定得
相对较大。经过初次选择之后, 确定了 C 和 p 大概
的取值区间之后, 缩小变化步长, 再次放入模型中
进行参数选择。如此反复, 直至得到满意的运算结
果。本研究中, C和 p的初始取值范围都定为 1~100,
变化步长定为 5。按照历遍法, 分别将(C=1, p=1)、
(C=1, p=6)、(C=1, p=11)、⋯、(C=96, p=96)的参数
组合放入模型中运算, 按照运算结果进一步调整 C
和 p的取值范围和变化步长。
选定一对参数组之后, 将训练组中的 1 个输入
数据向量放入 SVM中, 进行模型的自我调整。之后,
放入检验组的输入数据, 经过模型自身的运算会得
出 1 个预测值, 计算预测值与对应的输出数据(即真
实的土壤侵蚀量数据)间的误差。误差计算公式为:
E=|x′−x|/x (1)
式中: E 为预测误差, x 为真实值, x′为预测值。当
E<0.15 时, 认为预测值与真实值的误差足够小, 预
测值为有效值。计算所有输入数据产生的预测值 ,
计算有效值的占比, 即为预测的准确率。
当确定了模型的最优参数之后, 尝试用不同影
响因子组成的数据输入模型中, 通过计算结果的准
确率分析各因子与土壤侵蚀量的相关性。
2 结果与分析
2.1 SVM模型最优参数的确定
在实际操作中, 从 4 018组数据组中选取 3 214
组数据作为训练组放入模型进行最优参数的选择耗
1126 中国生态农业学报 2014 第 22卷

时过长(1对参数组运算时间超过 12 h)。因此, 控制
数据组数量, 从 4 018组数据组中随机选取 300组作
为训练组, 100组作为检验组。
将数据组输入模型进行参数的选择。观察结果
矩阵 , 准确率最大值为 8%, 进一步缩小 C 和 p 的
取值范围 , 缩小变化步长再次进行参数选择的运
算, 结果显示预测准确率最高仍然为 8%。
通过检查输入输出数据 , 发现在 2005 年 5 月
12 日之前的输入数据(地区土壤侵蚀量)中存在大
量的 0 值。从 2005 年 5 月 13 日开始 , 则每日的平
均悬移质输沙率都有数值。考虑到观测设备以及测
量方法的变化 , 故不探讨 0值存在的合理性。但是 ,
在计算预测准确率时 , 将真实值作为分母 , 所以
当真实的土壤侵蚀量为 0 时 , 预测准确率为空值 ,
不计算入最后的准确率统计中 , 使得预测准确率
降低。
根据数据情况, 删减去土壤侵蚀量为 0 值的输
出数据以及对应的输入数据, 得到 2 048组数据组。
同时, 发现降雨量数据与土壤侵蚀量数据之间存在
明显的不对应性。具体表现为日降雨侵蚀力不为 0
值时, 部分日土壤侵蚀量为 0; 反之日土壤侵蚀量不
为 0值时, 部分日降雨侵蚀力为 0。在观察和分析这
种输入数据和输出数据之间不对应的情况后, 发现
相对于降雨侵蚀力数据, 土壤侵蚀量数据有着明显
的延后性。降雨产生的土壤侵蚀经过流域内的河道
水流由小溪或支流最终汇聚到干流需要一定的时间,
数据延后符合实际情况。土壤侵蚀量的数据来源自
诸暨市浦阳江水文站, 浦阳江作为诸暨市的一条主
要河流, 汇聚着上游众多支流的泥沙侵蚀量, 故而
水文站测出的河流悬移质输沙率有一定的滞后性。
通观整个数据组, 发现土壤侵蚀量数据的滞后性比
较混乱。将输入数据对应日期统一延后 3 d, 以使其
达到降雨侵蚀力数据与土壤侵蚀量数据在一定程度
上的对应。
重新将 C 和 p 的取值范围设定为 1~100, 变化
步长为 5, 放入模型中进行参数选择的运算, 准确率
最高达到 76%, 预测的结果比较理想。接着重复调
整 C 和 p 的取值范围和步长, 直到确定模型的最优
参数组合。
从 2 048 组数据组中随机挑选不同数量的训练
组和检验组(有放回), 对最优参数组合进行验证。验
证结果见表 4。
由表 4 可知, 预测的平均准确率随着训练组的
数量增多而升高, 当训练组达到 300 条时, 平均的
预测准确率可达最高的 75%。然而, 训练组数量的
表 4 SVM模型最优参数验证结果分析
Table 4 Validation results of the optimal parameters of
SVM model
训练数据
Amount of
training data
运算时间
Operation
time (s)
检验数据
Amount of
testing data
平均预测准确率
Average
accuracy (%)
标准偏差
Standard
deviation
200 73.80 4.877
100 70.65 2.486
200 9~10
50 72.80 4.131
≥30 200 74.00 3.046
100 75.00 4.421
300
50 73.20 5.594
0.1 200 62.50 4.073
100 62.10 8.263
50
50 66.40 6.979

上升导致模型运算的时间也直线提高。检验组方面,
一般来说, 数量越多则数据的特异性越小, 从而会
使预测结果的标准偏差降低 , 使预测结果趋于稳
定。从表 4可知, 当 C取 49.1, p取 8时, 模型的预
测结果已经比较理想。
2.2 土壤侵蚀量影响因子的研究
分别去除输入数据中的降雨量、土壤参数、地
形参数和土地利用类型, 重新通过模型计算预测准
确率。结果表明, 去除降雨量、土壤参数、地形参
数和土地利用参数后 , 预测准确率分别为 3.5%、
78.5%、72.5%和 72.0%, 而只保留降雨量, 去除其他
所有因子, 则模型的预测准确率为 70.5%。从上述结
果可以明显看出, 在本次研究中降雨因子对土壤侵
蚀量的影响是决定性的。当去除土壤因子、土地利
用类型因子、地形因子时, 模型的预测结果准确率
仍然达到了 70%以上。说明这些因子在模型的运算
中并未对输出结果产生重大的影响。而当去除降雨
因子后, 模型的预测准确率只有 3.5%。造成这种情
况的原因是因为土壤因子、地形因子和土地利用类
型因子的数据来源单一, 没有变化。
2.3 输出结果分析
从全部数据组中随机选出 300组作为训练数据,
300组作为检验数据, 以 49.1和 8分别为参数 C和 p
进行预测 , 将预测值和实测值在坐标轴上进行对
比。结果见图 2。
从图 2可知, 对于大部分低土壤侵蚀量的 SVM
模型预测值都与实测值接近甚至相同, 说明 SVM模
型在土壤侵蚀量较低的情况下, 可以准确地预测土
壤侵蚀量。但土壤侵蚀量高的情况下, 预测值普遍
低于实测值, 并且实测值越高, 预测值产生的偏差
就越大。
第 9期蔡喨喨等: 基于机器学习理论的土壤侵蚀模型构建 1127

图 2 土壤侵蚀量的 SVM模型预测值与实测值的对比
Fig. 2 Comparison of SVM model predicting value and observed value of soil erosion amount
3 讨论
3.1 模型只对侵蚀因子敏感
造成模型只对降雨因子敏感的原因是土壤因
子、地形因子和土地利用类型因子的数据来源单一
没有变化。考虑到一个地区土壤的实际分布和理化
性质本身不会随着时间有大的变化, 故土壤因子由
2002年“中国 1︰100万土壤数据库”提取得到, 且用
2002年的数据代表 2000—2010年的数据, 从而造成
土壤因子数据单一。地形因子通过 2009年中国数字
高程模型(DEM)计算得到, 由于一个地区地形的坡
度、坡长等性质同样不会在短时间内呈现明显的变
化, 除非人类活动改变了地区地貌特征, 所以地形
因子数据相对单一。
3.2 模型无法预测高侵蚀量的情况
模型无法对高土壤侵蚀量进行有效预测的原因
主要有两点: 第一, 由短时强降雨所引起。当土壤中
的水分达到一定的饱和值之后, 继续降雨便会形成
侵蚀。而在本次研究当中, 所使用的降雨因子为每
日降雨量数据, 且没有考虑土壤含水量和蒸发量。
所以模型不能很好地处理遇到强降雨时产生大量土
壤侵蚀的情况。第二, 人类活动对地表类型的改造,
包括树林砍伐、建设工程、山体平整等。而由于数
据获取和量化工作存在难度, 在模型的输入数据中
并没有包含人类活动这一因子。因此, 该模型不能
反映人类活动对地区土壤侵蚀量的影响, 预测结果
存在部分偏差。
3.3 模型参数的优化
由于考虑到计算效率, 研究最后通过从 2 000
多组数据中随机挑选一定数量的样本进行训练和检
验。虽然在确定了参数之后经过了一系列的重复计
算来检验参数的优劣, 但是所选择的参数组合仍不
能保证是整个数据的最佳组合, 因为在随机选择数
据过程中可能会产生部分最优解现象。
最终的土壤侵蚀量预测模型在因子敏感性和特
异情况预测上仍然存在较大的优化提升空间。但其
输入数据的灵活性大大拓宽了模型适用的范围。超
过 70%的预测准确率也表明将机器学习理论应用到
区域土壤侵蚀量的预测研究中去是一个全新且可行
的方法。
参考文献
[1] 刘秉正 , 吴发启 . 土壤侵蚀 [M]. 西安 : 陕西人民出版社 ,
1997
Liu B Z, Wu F Q. Soil Erosion[M]. Xi’An: Shaanxi People’s
Publishing House, 1997
[2] 唐克丽. 土壤侵蚀环境演变与全球变化及防灾减灾的机制[J].
土壤与环境, 1999, 8(2): 81–86
Tang K L. Soil erosion environmental change, global change
and mechanism of preventing and reducing disasters[J]. Soils
and Environmental Science, 1999, 8(2): 81–86
[3] 汪东川 , 卢玉东 . 国外土壤侵蚀模型发展概述[J]. 中国水
土保持科学, 2004, 2(2): 35–40
Wang D C, Lu Y D. Development of soil erosion models
abroad[J]. Science of Soil and Water Conservation, 2004, 2(2):
35–40
[4] 李仁辉 , 潘秀清 , 金家双 . 国内外小流域治理研究现状[J].
水土保持应用技术, 2010(3): 32–34
Li R H, Pan X Q, Jin J S. Small watershed management
research status in China and abroad[J]. Soil and Water
Conservation Technology, 2010(3): 32–34
[5] Miller M F. Waste through soil erosion[J]. Agronomy Journal,
1926, 18(2): 153–160
[6] Cook H L. The nature and controlling variables of the water
1128 中国生态农业学报 2014 第 22卷

erosion process[J]. Soil Science Society of America Journal,
1937, 1(C): 487–494
[7] Wischmeier W H, Smith D D. Predicting Rainfall Erosion
Losses: A Guide to Conservation Planning[M]. USDA:
Agriculture Handbook, 1978: 537
[8] 陈云明, 刘国彬, 郑粉莉, 等. RUSLE侵蚀模型的应用及进
展[J]. 水土保持研究, 2004, 11(4): 80–83
Chen Y M, Liu G B, Zheng F L, et al. Research and
application of soil erosion model of RUSLE[J]. Research of
Soil and Water Conservation, 2004, 11(4): 80–83
[9] Albaradeyia I, Hani A, Shahrour I. WEPP and ANN models
for simulating soil loss and runoff in a semi-arid Mediter-
ranean region[J]. Environmental Monitoring and Assessment,
2011, 180(1/4): 537–556
[10] 王建勋, 郑粉莉, 江忠善, 等. 基于WEPP的黄土丘陵区不
同坡长条件下坡面土壤侵蚀预测[J]. 北京林业大学学报 ,
2008, 30(2): 151–156
Wang J X, Zheng F L, Jiang Z S, et al. Hillslop soil erosion
prediction based on WEPP model under different slope
lengths in hilly-gully region of the loess area[J]. Journal of
Beijing Forestry University, 2008, 30(2): 151–156
[11] 江忠善 , 王志强 , 刘志 . 黄土丘陵区小流域土壤侵蚀空间
变化定量研究[J]. 土壤侵蚀与水土保持学报 , 1996, 2(1):
1–9
Jiang Z S, Wang Z Q, Liu Z. Quantitative study on spatial
variation of soil erosion in a small watershed in loess hilly
region[J]. Journal of Soil Erosion and Soil Conservaton, 1996,
2(1): 1–9
[12] 汤立群. 流域产沙模型的研究[J]. 水科学进展, 1996, 7(1):
47–53
Tang L Q. Study on sediment yield model of basin[J].
Advances in Water Science, 1996, 7(1): 47–53
[13] 蔡强国 . 黄土高原小流域侵蚀产沙过程与模拟[M]. 北京 :
科学出版社, 1998
Cai Q G. Sediment Process and Simulation of Erosion Yield in
a Small Catchment of the Loess Plateau[M]. Beijing: Science
Press, 1998
[14] Vapink V. The Nature of Statistical Learning Theory[M]. New
York: Springer, 1995
[15] Cortes C, Vapnik V. Support-vector networks[J]. Machine
Learning, 1995, 20(3): 273–297
[16] 胡运红. 支持向量机的研究与应用[J]. 运城学院学报, 2012,
30(2): 4–7
Hu Y H. Research and application of support vector
machine[J]. Journal of Yuncheng University, 2012, 30(2): 4–7
[17] 黄鹤, 卢文喜, 伊燕平, 等. 基于支持向量机模型的水质评
价研究[J]. 节水灌溉, 2012(2): 57–63
Huang H, Lu W X, Yin Y P, et al. Research on water quality
assessment based on support vector machine model[J]. Water
Saving Irrigation, 2012(2): 57–63
[18] 张策, 臧淑英, 金竺, 等. 基于支持向量机的扎龙湿地遥感
分类研究[J]. 湿地科学, 2011, 9(3): 263–269
Zhang C, Zang S Y, Jin Z, et al. Remote sensing classification
of Zhalong Wetland based on support vector machine[J].
Wetland Science, 2011, 9(3): 263–269
[19] 张浩然 , 汪晓东 . 支持向量机的学习方法综述[J]. 浙江师
范大学学报: 自然科学版, 2005, 28(3): 283–288
Zhang H R, Wang X D. Review of support vector machine
learning algorithms[J]. Journal of Zhejiang Normal University:
Natural Sciences Edition, 2005, 28(3): 283–288
[20] 李斌兵, 郑粉莉, 龙栋才, 等. 基于支持向量机回归的次降
雨小流域侵蚀产沙预报研究——以晋西王家沟为例[J]. 水
土保持通报, 2007, 27(6): 120–125
Li B B, Zheng F L, Long D C, et al. Soil erosion and sediment
prediction at watershed scale under single rainfall event based
on support vector regression — A case study of Wangjiagou
Watershed, Shanxi Province[J]. Bulletin of Soil and Water
Conservation, 2007, 27(6): 120–125
[21] 李云开, 杨培岭, 田英杰, 等. 强烈侵蚀产沙区小流域土壤
侵蚀强度的支持向量机预报模型研究[J]. 北京林业大学学
报, 2007, 29(3): 93–98
Li Y K, Yang P L, Tian Y J, et al. Vector regression method in
prediction soil erosion intensity of small watershed in the
insensitive erosion areas[J]. Journal of Beijing Forestry
Univeristy, 2007, 29(3): 93–98
[22] 毛典辉, 曾致远, 王乘, 等. 基于支持向量机的土壤侵蚀评
价预测模型研究[J]. 人民长江, 2007, 38(8): 82–84
Mao D H, Zeng Z Y, Wang C, et al. Evaluation and prediction
model of soil erosion based on support vector machine[J].
Yangtze River, 2007, 38(8): 82–84
[23] 李刚, 鄂文峰, 张红红, 等. ArcGIS 环境下基于 DEM的信
息提取及应用[J]. 吉林地质, 2010, 29(4): 163–167
Li G, E W F, Zhang H H, et al. Information extraction and
application based on DEM in ArcGIS environment[J]. Jilin
Geology, 2010, 29(4): 163–167
[24] 朱庆, 田一翔, 张叶廷. 从规则格网 DEM 自动提取汇水区
域及其子区域的方法[J]. 测绘学报, 2005, 34(2): 129–133
Zhu Q, Tian Y X, Zhang Y T. The extraction of catchment and
subcatchment from regular grid DEMs[J]. Acta Geodaetica et
Cartographica Sinica, 2005, 34(2): 129–133
[25] 王敏嫱. 基于 ArcGIS和 DEM在水文流域模拟中的应用[J].
地下水, 2011(4): 159–161
Wang M Q. Application of ArcGIS and DEM in watershed
hydrological simulation[J]. Ground Water, 2011(4): 159–161

A soil erosion model built on Machine Learning Theory

基于机器学习理论的土壤侵蚀模型构建

相关文献