全 文 :互信息理论结合决策树算法的土壤质量预测*
林芬芳1 摇 王摇 珂2**摇 杨摇 宁2 摇 严世光3 摇 郑辛煜2
( 1南京信息工程大学遥感学院, 南京 210044; 2浙江大学农业遥感与信息技术应用研究所, 杭州 310058; 3西南大学资源与环
境学院, 重庆 400715)
摘摇 要摇 在充分利用土壤类型、土地利用方式、岩性类型、地形、道路、工业类型等影响土壤质
量主要因素,准确获取区域土壤质量的空间分布特征的基础上,采用互信息理论对 13 个辅助
变量(岩性类型、土地利用方式、土壤类型、到城镇的距离、到道路的距离、到工业用地的距离、
到河流的距离、相对高程、坡度、坡向、平向曲率、纵向曲率和切线曲率)进行筛选,然后通过决
策树 See5. 0 预测研究区土壤质量. 结果表明: 影响研究区土壤质量的主要因素包括土壤类
型、土地利用方式、岩性类型、到城镇的距离、到水域的距离、相对高程、到道路的距离和到工
业用地的距离;以互信息理论选取的因子为预测变量的决策树模型精度明显优于以全部因子
为预测变量的决策树模型,在前者的决策树模型中,无论是决策树还是决策规则,分类预测精
度均达到 80%以上.互信息理论结合决策树的方法在充分利用连续型和字符型数据的基础
上,不仅精简了一般决策树算法的输入参数,而且能有效地预测和评价区域土壤质量等级.
关键词摇 土壤质量摇 预测摇 决策树摇 互信息
文章编号摇 1001-9332(2012)02-0452-07摇 中图分类号摇 Q948. 3摇 文献标识码摇 A
Prediction of regional soil quality based on mutual information theory integrated with deci鄄
sion tree algorithm. LIN Fen鄄fang1, WANG Ke2, YANG Ning2, YAN Shi鄄guang3, ZHENG Xin鄄
yu2 ( 1School of Remote Sensing, Nanjing University of Information Science & Technology, Nanjing
210044, China; 2 Institute of Agricultural Remote Sensing and Information Technology, Zhejiang
University, Hangzhou 310058, China; 3College of Resources and Environments, Southwest Universi鄄
ty, Chongqing 400715, China) . 鄄Chin. J. Appl. Ecol. ,2012,23(2): 452-458.
Abstract: In this paper, some main factors such as soil type, land use pattern, lithology type, to鄄
pography, road, and industry type that affect soil quality were used to precisely obtain the spatial
distribution characteristics of regional soil quality, mutual information theory was adopted to select
the main environmental factors, and decision tree algorithm See5. 0 was applied to predict the grade
of regional soil quality. The main factors affecting regional soil quality were soil type, land use, li鄄
thology type, distance to town, distance to water area, altitude, distance to road, and distance to
industrial land. The prediction accuracy of the decision tree model with the variables selected by
mutual information was obviously higher than that of the model with all variables, and, for the for鄄
mer model, whether of decision tree or of decision rule, its prediction accuracy was all higher than
80% . Based on the continuous and categorical data, the method of mutual information theory inte鄄
grated with decision tree could not only reduce the number of input parameters for decision tree al鄄
gorithm, but also predict and assess regional soil quality effectively.
Key words: soil quality; prediction; decision tree; mutual information.
*南京信息工程大学科研基金项目和国家自然科学基金项目
(30671212,31172023)资助.
**通讯作者. E鄄mail: kwang@ zju. edu. cn
2011鄄06鄄09 收稿,2011鄄11鄄23 接受.
摇 摇 随着工业化和城市化进程的加快,经济发达地
区土壤质量的退化速度将加快,土壤污染程度将加
剧,耕地(尤其是优质耕地)将进一步被占用. 虽然
通过开发整理可补充一部分耕地,但还达不到“占
补平衡冶,且现有耕地存在土壤重金属污染等风险,
有可能进一步降低安全农产品的生产能力[1-3] . 因
此,以引起城市化快速地区土壤质量下降的复杂环
境因素为基础,开展县(市)级尺度的土壤质量调查
及其空间预测研究,可为土壤可持续发展提供重要
应 用 生 态 学 报摇 2012 年 2 月摇 第 23 卷摇 第 2 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇
Chinese Journal of Applied Ecology, Feb. 2012,23(2): 452-458
依据.目前,土壤质量的定量化评价主要以有限样点
的土壤理化性质及生物性质等为基础,利用综合指
数法评价土壤质量,获取土壤质量指数[4-9] .虽然地
统计学可在一定程度上解决野外采样问题,实现了
从点到面的扩展,但不能充分利用自然条件、人类活
动等环境因子估计和评价土壤质量[10-11] .数据挖掘
中的决策树方法是一种以实例为基础的归纳学习算
法,它可以将不同的数据源融于一体,并能处理特征
集与目标类别间的非线性关系[12-14] .其优点在于不
依赖领域知识,易于处理字符型属性数据,已日益应
用于环境科学和土壤学等领域[15-17] .由于决策树是
利用所有输入的预测变量(包括干扰变量)来建立
分类规则,在算法运行之前对预测变量没有预先进
行筛选,从而影响了预测精度和正确知识的表达.
在土壤及环境系统中,影响土壤质量的因素多
种多样,它们之间大多存在错综复杂的关系.对模型
输入变量的有效选择可以简化模型,更重要的是由
于不相关变量的剔除,可以得到预测能力更强、稳健
性更好的校正模型. 互信息理论是信息论中的重要
概念,在信息传输和处理中起着重要作用,它表示随
机变量之间相互提供的信息量,也是统计随机变量
之间依存程度或互相影响程度的度量. 与线性相关
性分析方法相比,互信息对变量的分布类型没有特
殊要求,它不仅能描述变量间的线性相关关系,也能
描述变量间的非线性相关关系[18] . 目前,互信息理
论常被用于不确定性研究、数据降维和特征选择等
方面[19-22] .在地学数据分析中,具有最大互信息的
子集划分方案代表一定的地学模式和地学规律[19] .
针对城市化进程中城镇扩张导致的耕地数量减少和
质量下降的现状,本文以快速城市化地区浙江省富
阳市现有耕地和园地为研究对象,以地质、土壤类
型、土地利用类型、工业、道路、城镇等为辅助数据,
在构造基于最小数据集的土壤质量指数的基础上,
首先利用既能表达线性关系又能表达非线性关系的
互信息理论,选择影响土壤质量的敏感因子,然后分
别建立基于所有预测变量和基于敏感因子的决策树
模型,并比较分析两个模型对土壤质量的预测精度,
旨在找出能准确预测区域土壤质量的方法,系统掌
握土壤质量状况及其空间分布特征,为耕地保护和
土地利用规划提供理论依据和技术支撑.
1摇 研究地区与研究方法
1郾 1摇 研究区概况
富阳市位于浙江省北部,总面积 1831郾 22 km2,
地势自西南向东北倾斜,富春江斜贯中部,地貌以
“两山夹江冶为特点,有“八山半水分半田冶之称,平
均海拔 300郾 5 m.该区属中亚热带季风气候,年均温
16郾 1 益,年降水量 1463郾 8 mm.富阳境内资源丰富,
是全国商品粮基地和重点产茶、产茧地区,且工业发
达,其中,造纸业、通讯器材、机械和电子等行业为骨
干企业. 2006 年,全市生产总值达 238郾 4 亿元,人均
GDP达 37618 元;综合实力名列全国百强县(市)第
30 位,跻身中国最适宜民营企业投资创业的百强城
市和长三角最具投资价值的十强县(市).
1郾 2摇 土壤数据
1郾 2郾 1 样品采集摇 综合采样分布的均匀性和在不同
土地利用方式、不同土壤类型上的均匀分布,本文共
采集土壤样品 2372 个,各采样点均采用 GPS 定位
(图 1).每个采样点的样品均为土壤混合样,由 5 ~
20 个采样分点组成,等量混合后取 1 kg 混合样,采
样深度为 0 ~ 30 cm. 为了验证预测模型的可靠性,
将样品分为两部分,随机抽取其中的 80%作为训练
数据,其余 20%作为检验数据.
1郾 2郾 2 样品处理与分析 摇 土壤样品自然风干后,剔
除样品中的植物根系、有机残渣和可见侵入体,用木
质工具捻碎并用玛瑙研钵研磨,分别过 20 和 100 目
尼龙筛.根据土壤性质相关分析方法,分别测定土壤
耕层厚度(DEPTH)、pH、有机质(OM)、阳离子交换
量(CEC)、全氮(TN)、速效钾(AK)、速效磷(AP)、
有效锌(AZn)、有效铜(ACu)等理化性质[23] . 土壤
pH采用电位法测定;有机质采用重铬酸钾氧化鄄容
量法测定;阳离子交换量采用 EDTA鄄铵盐速测法测
定;全氮采用开氏消煮法测定;速效钾采用乙酸铵浸
提鄄火焰光度法测定;速效磷采用碳酸氢钠浸提鄄分
光光度法测定;有效铜和有效锌均采用 pH 7郾 3
DTPA以 1 颐 2 比例的浸提鄄原子吸收法测定.
图 1摇 研究区土壤样点的分布
Fig. 1摇 Spatial distribution of soil samples in the study area.
3542 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 林芬芳等: 互信息理论结合决策树算法的土壤质量预测摇 摇 摇 摇 摇
1郾 3摇 辅助数据
辅助数据主要包括富阳市土壤类型图、土地利
用现状图(2004 年更新调查数据)、地质分布图和
1 颐 50000数字高程模型.
由土地利用现状图可知,研究区土地利用类型
包括旱地、水田、菜地、果园、桑园、茶园、有林地、未
成林造林地、苗圃、滩涂、荒草地、疏林地和灌木林
地.以土地利用现状图为底图,分别提取出城镇分布
图、道路分布图、工业分布图和河流分布图,再利用
ILWIS软件中的距离操作功能分别计算研究区内每
个点到城镇、道路、工业用地和河流的距离.
土壤类型划分标准以浙江省土壤分类系统为
主,用土属来表示,主要包括 16 类土壤类型,分别为
培泥砂土、培泥砂田、山地黄泥土、油红泥、油黄泥、
泥质田、洪积泥砂田、烂滃田、石砂土、粗红砂土、红
泥土、黄泥土、黄泥砂田、黄筋泥、黄筋泥田、黄粘土.
由地质分布图可知,研究区包括冲积鄄海积层鄄
亚砂土鄄亚粘土、冲积层鄄亚粘土、冲积层鄄砂质粘土鄄
砂鄄砾石鄄泥炭、古红土类、含砾石英砂岩、流纹斑岩鄄
凝灰熔岩、海积层鄄亚砂土鄄亚粘土、灰岩鄄白云质灰岩
类、石英闪长玢岩、砂岩夹泥岩或粉砂岩、硅质岩、紫
红色粉砂岩、花岗岩、辉绿岩、酸性火山岩、钙质泥
岩鄄钙质灰岩等 16 类岩性特征.
基于 1 颐 50000 数字高程模型,在 ArcGIS 支持
下,利用空间分析功能提取相对高程、坡度、坡向、平
向曲率、纵向曲率和切线曲率等地形因子.
1郾 4摇 土壤质量指数的构造
区域土壤质量综合指数的计算分三步进行,首
先确定土壤质量评价指标的最小数据集(minimum
data set,MDS);然后采用非线性算法对各个指标赋
值,获得无量纲指标分值;最后采用权重累加法综合
各指标分值,从而获得土壤质量指数(SQ)值[5-9] .
SQ =移
n
i = 1
Wi·Si (1)
式中:Wi为评价指标的权重;Si为评价指标的分值;n
为评价指标的数目.
依据李桂林等[24]提出的改进的主成分分析方
法确定MDS,选取的MDS不仅能最大程度地表达土
壤质量信息,同时也包含了岩性类型、土壤类型和土
地利用方式对土壤质量影响的信息.
土壤质量评价指标权重的确定依据主成分分
析法.
采用非线性算法对土壤质量指标赋分.通过非
线性算法,每个指标值都被转化为 0 ~ 1 之间的任何
一个无单位分值.指标分值为 1 意味着该指标以最
高水平发挥土壤功能. 描述指标实际测量值与分值
之间定量关系的算法包括 3 种,分别为“S冶型曲线、
反向“S冶型曲线和抛物线型曲线.本研究中,土壤耕
层厚度、有机质、速效磷、速效钾、有效锌和有效铜隶
属于“S冶型函数,土壤 pH 隶属于抛物线型函数. 具
体算法如下:
“S冶型曲线:如果指标值落在某个指定范围内,
说明该指标与土壤功能呈正相关关系,反之,该指标
对土壤功能没有贡献.
u(x) =
1
x - a
b - a
ì
î
í
ï
ï
ï
ï0
摇 摇
x 逸 b
a < x < b
x 臆 a
(2)
式中:u(x)为隶属度函数;x 为土壤质量指标实测
值;a、b分别为土壤质量指标的下限和上限值.
抛物线型曲线:该类函数是倒“U冶型或抛物线
型函数,土壤功能的发挥程度与指标值的最优范围
值相关.
u(x) =
1 b2 逸 x 逸 b1
x - a1
b1 - a1
a1 < x < b1
x - a2
b2 - a2
a2 > x > b2
0 x 臆 a1 or x 逸 a
ì
î
í
ï
ï
ï
ï
ï
ï
ïï
2
(3)
式中:a1和 a2分别是土壤质量指标的下限和上限;b1
和 b2分别为土壤质量指标最优范围的下限和上限.
参考全国第二次土壤普查的分级标准,并结合
研究区种植制度、作物生长的实际情况,分别确定各
土壤质量指标在隶属度函数中的上、下限和峰值
(表 1).
摇 摇 最后,根据土壤质量指数实际值、全国耕地类型
区、耕地地力等级划分标准(NY / T 309—1996) [25]
及相关文献[7],将土壤质量划分为 4 个等级,间隔
均为 0郾 1(表 2).
1郾 5摇 互信息理论
互信息量是信息论中的一个重要概念,它可以
作为两个变量之间相关性的度量.与相关系数相比,
互信息能同时描述变量间的线性和非线性关系. 在
连续变量中,互信息 MI(X,Y)表示如下:
MI(X,Y) = 乙乙u(x,y)log u(x,y)u(x)u(y)dxdy (4)
式中:u(x)、u(y)分别为变量 X 和 Y 的概率密度函
数 ;u(x,y)为联合概率密度函数.本文对数采取自
454 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 应摇 用摇 生摇 态摇 学摇 报摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 23 卷
表 1摇 “S冶型和抛物线隶属度函数中各土壤质量指标的转折点
Table 1摇 Turning points of evaluation factors in the ‘S爷 model and parabola curve membership function
转折点
Turning point
土壤耕层厚度
DEPTH
(cm)
有机质
OM
(g·kg-1)
速效磷
AP
(mg·kg-1)
速效钾
AK
(mg·kg-1)
有效锌
AZn
(mg·kg-1)
有效铜
ACu
(mg·kg-1)
pH
a 10 15 5 40 1郾 5 2
b 20 30 15 100 3郾 0 4
a1 - - - - - - 4郾 5
a2 - - - - - - 8郾 5
b1 - - - - - - 5郾 5
b2 - - - - - - 6郾 5
DEPTH:Depth of topsoil; OM:Organic matter; AP:Available P; AK:Available K; AZn:Available Zn; ACu:Available Cu. 下同 The same below郾
然常数 e为底数.对于一维或二维变量,互信息值一
般采用直方图和核概率密度函数方法获取. 本文利
用 k最近邻统计理论估计变量间的互信息值. 互信
息值越大,该变量被选择的机会越高[26-30] . 整个过
程通过 Matlab编程实现.
1郾 6摇 决策树 See5郾 0 算法
决策树算法有很多,See5郾 0 是其中比较常见的
一种,它是在 C4郾 5 基础上发展起来的决策树生成
算法. See5郾 0 决策树的构造方法为:只要选择某个
检验,并使进度的量度最大化,且当前的训练样本已
被区分,就不会再去探索其他选择.与一般决策树算
法不同,See5郾 0 在寻找合适的划分属性时,不是用
信息熵和信息增益为量度,而是以这两者为基础,提
出了增益比例的概念. 增益比例标准表示分区所生
成的有用信息的比例. 为了使得到的决策树所蕴含
的规则具有普遍意义,防止训练过度,必须适当控制
树的生长,对树进行修剪. See5郾 0 通常用 2 种修剪
方法来构建决策树,分别为前剪枝和后剪枝.前剪枝
是通过提前停止树的构造而对树“剪枝冶,后剪枝是
由“完全生长的冶树剪去分枝[16-17] . 此外,See5郾 0 还
具有生成一组分类器的 boosting集成技术.
本研究以土壤类型、地质类型、土地利用类型、
点到城镇的距离、点到工业用地的距离、点到道路的
距离、点到水域的距离、相对高程、坡度、坡向、平向
曲率、纵向曲率、切线曲率为自变量,以土壤质量分
级类别为因变量,通过决策树模型预测未知样点的
土壤质量等级.
2摇 结果与分析
2郾 1摇 土壤质量评价指标的基本统计特征
根据前述土壤质量评价方法,获取研究区土壤
质量评价指标的最小数据集(MDS)和土壤质量指
数.其中,MDS包括土壤耕层厚度(DEPTH)、pH、有
机质 (OM)、速效磷 (AP)、速效钾 (AK)、有效锌
(AZn)、有效铜(ACu).研究区土壤平均耕层厚度为
15郾 63 cm,变异系数为 14郾 3% ,属中等变异;土壤 pH
平均值为 5郾 69,说明土壤偏酸性;土壤有机质含量
是土壤肥力高低的重要指标, 其均值为 30郾 80
g·kg-1,相对较高;土壤速效钾含量较丰富,平均值
为 108郾 04 mg·kg-1;土壤微量元素中,有效锌和有
效铜含量较丰富,平均含量分别为 3郾 96 和 2郾 91
mg·kg-1 ,远高于鲁如坤[23]界定的临界浓度(表3) .
表 2摇 土壤质量分级标准
Table 2摇 Criteria for soil quality grade division
土壤质量等级
Soil quality grade
土壤质量指数
SQ
玉 SQ逸0郾 78
域 0郾 78>SQ逸0郾 68
芋 0郾 68>SQ逸0郾 58
郁 0郾 58>SQ
SQ:Soil quality index. 下同 The same below.
表 3摇 富阳市土壤质量评价指标及区域土壤质量指数的基本统计
Table 3摇 Descriptive statistics of soil quality evaluation indicators and soil quality index in Fuyang City
指标
Indicator
平均值
Mean
标准差
SD
中位值
Median
1 / 4 分位值
First quartile
3 / 4 分位值
Third quartile
变异系数
CV (% )
土壤耕层厚度 DEPTH (cm) 15郾 63 2郾 24 16郾 00 14郾 50 17郾 00 14郾 3
pH 5郾 69 1郾 06 5郾 40 4郾 90 6郾 25 18郾 6
有机质 OM (g·kg-1) 30郾 80 10郾 40 29郾 50 23郾 70 36郾 50 33郾 8
速效磷 AP (mg·kg-1) 38郾 08 52郾 99 18郾 00 9郾 70 38郾 99 139郾 2
速效钾 AK (mg·kg-1) 108郾 04 80郾 39 82郾 00 57郾 90 132郾 00 74郾 4
有效锌 AZn (mg·kg-1) 3郾 96 4郾 64 2郾 92 1郾 85 4郾 07 117郾 2
有效铜 ACu (mg·kg-1) 2郾 91 1郾 90 2郾 58 2郾 00 3郾 42 65郾 3
土壤质量指数 SQ 0郾 66 0郾 13 0郾 67 0郾 59 0郾 76 19郾 7
5542 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 林芬芳等: 互信息理论结合决策树算法的土壤质量预测摇 摇 摇 摇 摇
土壤速效磷和有效锌的变异系数均很高,属于强变
异,这可能与外界环境因素的影响有关.研究区土壤
质量指数的平均值为 0郾 66,根据全国耕地类型区、
耕地地力等级划分标准(NY / T 309—1996) [25],土
壤质量玉和域级的样本数之和仅占总样本数的
46郾 1% (表 4).
2郾 2摇 基于互信息理论的土壤质量影响因素的选择
无论是内在还是外在因素,与土壤质量既可能
存在线性关系,也可能存在非线性关系,因此,必须
选择一种能同时表达线性或非线性关系的方法. 本
研究仅利用互信息理论定量分析了城镇化进程和地
形因子等连续型变量对土壤质量的影响.
首先入选的影响土壤质量的关键因子是到城镇
的距离,它与土壤质量指数的相关性大小为 0郾 186,
然后是到水域的距离,两者的共同作用使土壤质量
互信息值增加到 0郾 343,最后,随着相对高程、到道
路的距离和到工业用地的距离等变量的相继入选,
互信息值达到 0郾 528(图 2). 城市化和工业化进程
中的产物,如建筑、街道、铁路等城市和工业设施是
改变土壤质量的重要人为因素. 人为活动引起的土
壤质量退化,无论是在范围还是在程度上均比自然
因子的影响严重[31] .
表 4摇 研究区土壤质量状况的样本数
Table 4摇 Sample number of soil quality status in study area
土壤质量等级
Soil quality grade
样本数
Sample number
百分比
Percentage
玉 458 19郾 3
域 636 26郾 8
芋 713 30郾 1
郁 565 23郾 8
图 2摇 基于互信息理论的土壤质量影响因子的选择
Fig. 2摇 Determination of factors affecting soil quality by mutual
information.
玉:到城镇的距离 Distance to town; 域:到水域的距离:Distance to wa鄄
ter aera; 芋:相对高程 Altitude; 郁:到道路的距离 Distance to road;
吁:到工业用地的距离 Distance to industry land.
2郾 3摇 基于不同特征组合的决策树模型的比较
自变量的数量和质量明显影响决策树模型的结
果.本研究采用两种特征方案:方案一,以所有辅助
因子(岩性类型、土地利用方式、土壤类型、到城镇
的距离、到道路的距离、到工业用地的距离、到河流
的距离、相对高程、坡度、坡向、平向曲率、纵向曲率
和切线曲率)为自变量;方案二,以互信息理论选取
的 5 个因子,即到城镇的距离、到河流的距离、相对
高程、到道路的距离和到工业用地的距离,和 3 个指
示变量为特征组合. 对两种方案获取的原始结果均
采用前剪枝和后剪枝相结合的方法进行修剪. 对于
前剪枝,分类数生长的停止阈值设为每个叶节点的
事件数量 n逸2,而对于后剪枝,pruning CF 值设为
25% .本文还利用 boosting 技术来产生复合决策树
分类器,以提高预测精度,分类器数设为 10 个.由于
产生的决策树可能比较庞大和复杂,因此,在产生决
策树后,可将其转化为决策规则.
摇 摇 由表 5 可以看出,无论是决策树还是决策规则,
方案二中训练集的精度均低于方案一,但检验集的
精度均高于方案一,说明方案二产生的决策树和决
策规则更易于推广,即经过互信息理论选择后的特
征组合更合理,对土壤质量等级的预测精度更高.将
决策树转成决策规则后,土壤质量等级的预测精度
表 5摇 基于不同特征组合的决策树和决策规则的结果精度
比较
Table 5摇 Accuracy comparison of the decision tree and de鄄
cision rule based on different feature combinations (%)
特征组合
Feature
combination
决策树
Decision tree
训练集
Train
检验集
Test
决策规则
Decision rule
训练集
Train
检验集
Test
方案一 Scheme 1 0郾 4 22郾 5 8郾 4 24郾 5
方案二 Scheme 2 1郾 8 11郾 5 11郾 3 17郾 5
表 6摇 决策树和决策规则结构中各分类器节点数和规则数
Table 6摇 Node and rule numbers of each classifer in the de鄄
cision tree and decision rule structure
分类器
Classifier
节点数
Node number
规则数
Rule number
0 467 187
1 396 157
2 406 153
3 417 156
4 427 172
5 442 171
6 442 176
7 434 156
8 421 176
9 438 172
654 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 应摇 用摇 生摇 态摇 学摇 报摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 23 卷
虽然明显降低,但还是达到 80%以上. 从结构复杂
角度分析(表 6),无论哪个分类器,决策树的节点数
几乎都逸400 个,而决策规则的结构显然较之简单
得多,规则数一般在 150 ~ 190.因此,在保证精度的
基础上,决策规则的转化可使规则更容易理解,知识
更易表达.
3摇 结摇 摇 语
土壤质量是土地利用、气象、地形、土壤、人为活
动等多因子综合作用的结果,充分挖掘这些内在和
外在因素的影响,有助于全面定量评价土壤质量.本
研究利用互信息理论方法选取了 5 个影响土壤质量
的关键因素:到城镇的距离、到水域的距离、相对高
程、到道路的距离和到工业用地的距离,说明城市及
其辐射区域内土地利用结构方式,如道路、工业、居
民地等,是驱动土壤质量演变的主要外在因素.通过
基于两种特征组合的决策树模型的比较可知,无论
是决策树还是决策规则,以互信息理论选取的因子
为预测变量的模型精度明显优于以全部辅助数据为
预测变量的模型,且分类精度均达到 80%以上. 说
明决策数结合互信息理论方法在充分利用连续型和
字符型数据的基础上,一方面精简了决策树方法的
输入参数,另一方面可有效地预测区域土壤质量等
级,为进一步探讨土壤质量的空间分布机制和土壤
管理提供了理论依据.
随着土壤质量评价向客观定量化、空间定量化
和应用性研究方向的发展,土壤质量的空间预测方
法显得尤其重要.互信息理论结合决策数模型的方
法在充分考虑自变量与变量之间线性和非线性关系
的同时,能有条件地对变量进行筛选,避免了干扰因
子的影响,提高了决策树模型的预测精度,且该方法
能兼顾字符型数据和数值型数据.因此,针对土壤质
量形成的复杂性,利用该方法对土壤质量进行评价
和预测,具有一定的优势和推广意义.但目前该方法
还存在不足,如基于互信息理论的变量选择结果缺
乏验证;鉴于工作量和数据的原因,以往的研究中未
将该方法与其他变量选择方法及土壤质量评价方法
进行比较;决策树模型的规则较繁琐且复杂,在下一
步的研究中,应继续予以加强和完善.
参考文献
[1]摇 Chen J. Rapid urbanization in China: A real challenge
to soil protection and food security. Catena, 2007, 69:
1-15
[2]摇 Zhang G鄄L (张甘霖), Zhu Y鄄G (朱永官), Fu B鄄J
(傅伯杰). Quality changes of soils in urban and subur鄄
ban areas and its eco鄄environmental impacts: A review.
Acta Ecologica Sinica (生态学报), 2003, 23(3):
539-546 (in Chinese)
[3]摇 Li G鄄L (李桂林), Chen J (陈摇 杰), Tan M鄄Z (檀满
枝), et al. Spatial correlation between non鄄agricultural
land expansion and soil quality in Suzhou City. Chinese
Journal of Applied Ecology (应用生态学报), 2007, 18
(12): 2835-2840 (in Chinese)
[4]摇 Qiu Y (邱摇 扬), Wang Y (王摇 勇), Fu B鄄J (傅伯
杰), et al. Spatiotemporal variation in soil quality and
its relation to the environmental factors. Progress in Ge鄄
ography (地理科学进展), 2008, 27(4): 42-50 ( in
Chinese)
[5]摇 Andrews SS, Karlen DL, Mitchell JP. A comparison of
soil quality indexing methods for vegetable production
systems in Northern California. Agriculture, Ecosystems
and Environment, 2002, 90: 25-45
[6]摇 Andrews SS, Karlen DL, Cambardella CA. The soil
management assessment framework: A quantitative soil
quality evaluation method. Soil Science Society of Ameri鄄
ca Journal, 2004, 68: 1945-1962
[7]摇 Qi YB, Darilek JL, Huang B, et al. Evaluating soil
quality indices in an agricultural region of Jiangsu Prov鄄
ince, China. Geoderma, 2009, 149: 325-334
[8]摇 Liu Z鄄F (刘占锋), Fu B鄄J (傅伯杰), Liu G鄄H (刘国
华), et al. Soil quality: Concept, indicators and its as鄄
sessment. Acta Ecologica Sinica (生态学报), 2006,
26(3): 901-913 (in Chinese)
[9]摇 Yao R鄄J (姚荣江), Yang J鄄S (杨劲松), Chen X鄄B
(陈小兵), et al. Fuzzy synthetic evaluation of soil
quality in coastal reclamation region of north Jiangsu
Province. Scientia Agricultura Sinica (中国农业科学),
2009, 42(6): 2019-2027 (in Chinese)
[10]摇 Castrignano A, Buondonno A, Odierna P, et al. Uncer鄄
tainty assessment of a soil quality index using geostatis鄄
tics. Environmetrics, 2008, 20: 298-311
[11]摇 Sun B, Zhou SL, Zhao QG. Evaluation of spatial and
temporal changes of soil quality based on geostatistical
analysis in the hill region of subtropical China. Geoder鄄
ma, 2003, 115: 85-99
[12]摇 Zhang X鄄Y (张秀英), Sun Q (孙摇 棋), Wang K (王
珂), et al. Assessing soil Zn content using decision tree
analysis. Environmental Science (环境科学), 2008, 29
(12): 3508-3512 (in Chinese)
[13]摇 Zhou B (周摇 斌), Wang F (王摇 繁). Spatial predic鄄
tion of soil properties based on decision tree modeling.
Chinese Journal of Soil Science (土壤通报), 2004, 35
(4): 385-390 (in Chinese)
[14] 摇 Sun W鄄W (孙微微), Hu Y鄄M (胡月明), Liu C鄄X
(刘才兴), et al. Soil quality grade evaluation based on
decision tree. Journal of South China Agricultural Uni鄄
versity (华南农业大学学报), 2005, 26(3): 108-110
(in Chinese)
[15]摇 Henderson BL, Bui EN, Moran CJ, et al. Australia鄄
wide predictions of soil properties using decision trees.
Geoderma, 2005, 124: 383-398
7542 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 林芬芳等: 互信息理论结合决策树算法的土壤质量预测摇 摇 摇 摇 摇
[16]摇 Kheir RB, Greve MH, Abdallah C, et al. Spatial soil
zinc content distribution from terrain parameters: A GIS鄄
based decision鄄tree model in Lebanon. Environmental
Pollution, 2010, 158: 520-528
[17]摇 Vega FA, Mat侏as JM, Andrade ML, et al. Classification
and regression trees (CARTs) for modelling the sorption
and retention of heavy metals by soil. Journal of Hazard鄄
ous Materials, 2009, 167: 615-624
[18]摇 Li L鄄P (李立萍), Zhang M鄄Y (张明友). An Intro鄄
duction to the Theory of Information. Chengdu: Univer鄄
sity of Electronic Science and Technology Press, 2005
(in Chinese)
[19]摇 Zhou C鄄H (周成虎), Zhang J鄄T (张健挺). Entropy鄄
based model for geo鄄data mining. Journal of Image and
Graphics (中国图象图形学报), 1999, 4(11): 946-
951 (in Chinese)
[20]摇 May RJ, Maier HR, Dandy GC, et al. Non鄄linear varia鄄
ble selection for artificial neural networks using partial
mutual information. Environmental Modelling & Soft鄄
ware, 2008, 23: 1312-1326
[21]摇 Guo BF, Damper RI, Gunn SR, et al. A fast separabil鄄
ity鄄based feature鄄selection method for high鄄dimensional
remotely sensed image classification. Pattern Recogni鄄
tion, 2008, 41: 1653-1662
[22]摇 Huang D, Chow TWS. Effective feature selection
scheme using mutual information. Neurocomputing,
2005, 63: 325-343
[23] 摇 Lu R鄄K (鲁如坤). Soil鄄plant Nutrition Principle and
Fertilization. Beijing: Chemical Industry Press, 1998
(in Chinese)
[24]摇 Li G鄄L (李桂林), Chen J (陈摇 杰), Sun Z鄄Y (孙志
英), et al. Establishing a minimum dataset for soil
quality assessment based on soil properties and land use
change. Acta Ecologica Sinica (生态学报), 2007, 27
(7): 2715-2724 (in Chinese)
[25]摇 Ministry of Agriculture of China (中华人民共和国农业
部). Classification of Type Regions and Fertility of Cul鄄
tivated Land in China ( NY / T 309—1996). Beijing:
China Standrads Press, 1997 (in Chinese)
[26]摇 Rossi F, Lendasse A, Francois D, et al. Mutual infor鄄
mation for the selection of relevant variables in spectro鄄
metric nonlinear modeling. Chemometrics and Intelligent
Laboratory Systems, 2006, 80: 215-226
[27]摇 Kraskov A, Stogbauer H, Grassberger P. Estimating
mutual information. Physical Review E, 2004, 69: 1 -
16
[28]摇 Lin F鄄F(林芬芳), Ding X鄄D (丁晓东), Fu Z鄄P (付
志鹏), et al. Application of mutual information to vari鄄
able selection in diagnosis of phosphorus nutrition in
rice. Spectroscopy and Spectral Analysis (光谱学与光谱
分析), 2009, 29(9): 2467-2470 (in Chinese)
[29]摇 Tan C (谭 摇 超), Qin X (覃 摇 鑫), Li M鄄L (李梦
龙). Ensemble partial least squares algorithm in mutual
information鄄induced subspace for near鄄infrared quantita鄄
tive calibration. Chinese Journal of Analytical Chemistry
(分析化学), 2009, 37 (12): 1834 - 1838 ( in Chi鄄
nese)
[30] 摇 Ding J (丁 摇 晶), Wang W鄄S (王文圣), Zhao Y鄄L
(赵永龙). General correlation coefficient between vari鄄
ables based on mutual information. Journal of Sichuan
University (Engineering Science) (四川大学学报·工
程科学版), 2002, 34(3): 1-5 (in Chinese)
[31]摇 Zhang H鄄L (张海林). Soil quality and sustainable of
soil management. Journal of Soil and Water Conservation
(水土保持学报), 2002, 16(6): 119-122 ( in Chi鄄
nese)
作者简介摇 林芬芳,女,1980 年生,博士研究生.主要从事土
壤遥感研究,发表论文 4 篇. E鄄mail: linfenfang@ 126. com
责任编辑摇 杨摇 弘
854 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 应摇 用摇 生摇 态摇 学摇 报摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 23 卷