免费文献传递   相关文献

Extraction of land use/cover information based on C5.0 Algorithm in Qiantang River drainage area

基于C5.0的钱塘江流域地区土地利用/覆被信息提取研究


选取钱塘江中游地区约348 km2为实验区,综合归一化植被指数、纹理信息和数字地形模型(DEM)派生的高程、坡度等辅助数据,对SPOT5影像的光谱特征进行扩展,建立基于C5.0算法的模型,实现对土地利用信息的自动提取,并将分类结果与基于传统像元的最大似然分类结果作比较。结果表明,训练样本的有效性和辅助特征数据的参与可排除干扰信息;随着样点数量的增加,分类精度提高;决策树向决策规则的转化,能够在保证精度的基础上使规则更易理解;利用C5.0算法的总精度达到94.68%,较最大似然分类法提高了7.37%,有效实现了高精度分类,是保证钱塘江流域地区土地利用遥感信息快速准确提取的方法之一。

Based on the 348 km2 experimental area located at the middle part of Qiantang River,the research integrated NDVI,texture features, elevation and slope features generated from DEM and other spatial data,extended SPOT5 image‘s spectrum features,and automatically extracted land-use information by C5.0 Algorithm.Comparing to the maximum likelihood classification,the result showed the validity of training samples and usage of assistant feature data could eliminate the disturbing information.When the number of sample points increased, the accuracy of classification could be improved subsequently.The rules were easy to understand while the accuracy was the same,when decision tree changed to the decision rules.By using C5.0 Algorithm,the total accuracy could reach 94.68%,which was 7.37% higher than maximum likelihood classification.C5.0 Algorithm achieved high accuracy classification,which is one of the quick and accurate methods to extract land-use information on Qiantang River drainage area.


全 文 :高玉蓉, 许红卫, 丁晓东. 基于 C5.0的钱塘江流域地区土地利用/覆被信息提取研究[J]. 生态科学, 2012, 31(5):481-487.
GAO Yu-rong, XU Hong-wei, DING Xiao-dong. Extraction of land use/cover information based on C5.0 Algorithm in Qiantang River
drainage area[J]. Ecological Science, 2012, 31(5): 481-487.

基于 C5.0 的钱塘江流域地区土地利用/覆被信息
提取研究

高玉蓉 1,2, 许红卫 2, 丁晓东 3,4

1. 杭州市环境保护科学研究院,杭州 310014
2. 浙江大学农业遥感与信息技术应用研究所,杭州 310029
3. 杭州师范大学理学院遥感与地球科学研究院,杭州 311121
4. 浙江省城市湿地与区域变化研究重点实验室,杭州 311121

【摘要】选取钱塘江中游地区约 348 km2为实验区,综合归一化植被指数、纹理信息和数字地形模型(DEM)派生的高程、坡度
等辅助数据,对 SPOT5 影像的光谱特征进行扩展,建立基于 C5.0 算法的模型,实现对土地利用信息的自动提取,并将分类结果
与基于传统像元的最大似然分类结果作比较。结果表明,训练样本的有效性和辅助特征数据的参与可排除干扰信息;随着样点
数量的增加,分类精度提高;决策树向决策规则的转化,能够在保证精度的基础上使规则更易理解;利用 C5.0 算法的总精度达
到 94.68%,较最大似然分类法提高了 7.37%,有效实现了高精度分类,是保证钱塘江流域地区土地利用遥感信息快速准确提取
的方法之一。
关键词:决策树;决策规则;SPOT5 影像;特征选择与提取;归一化植被指数
doi:10.3969/j.issn. 1008-8873.2012.05.002 中图分类号:TP79 文献标识码:A 文章编号:1008-8873(2012)05-481-07

Extraction of land use/cover information based on C5.0 Algorithm in Qiantang
River drainage area

GAO Yu-rong1, 2, XU Hong-wei2, DING Xiao-dong3, 4

1. Hangzhou Academy of Environmental Science, Hangzhou 310014, China
2. Institute of Agricultural Remote Sensing and Information Technology Application, Zhejiang University, Hangzhou 310029, China
3. Institute of Remote Sensing and Earth Sciences, College of Science, Hangzhou Normal University, Hangzhou 311121, China
4. Zhejiang Provincial Key Laboratory of Urban Wetlands and Regional Change, Hangzhou 311121, China

Abstract:Based on the 348 km2 experimental area located at the middle part of Qiantang River, the research integrated NDVI, texture features,
elevation and slope features generated from DEM and other spatial data, extended SPOT5 image’s spectrum features, and automatically
extracted land-use information by C5.0 Algorithm. Comparing to the maximum likelihood classification, the result showed the validity of
training samples and usage of assistant feature data could eliminate the disturbing information. When the number of sample points increased,
the accuracy of classification could be improved subsequently. The rules were easy to understand while the accuracy was the same, when
decision tree changed to the decision rules. By using C5.0 Algorithm, the total accuracy could reach 94.68%, which was 7.37% higher than
maximum likelihood classification. C5.0 Algorithm achieved high accuracy classification, which is one of the quick and accurate methods to
extract land-use information on Qiantang River drainage area.

Key words:decision tree; decision rules; SPOT5 image; feature selection and extraction; normalized difference vegetation index (NDVI)








收稿日期:2011-12-17收稿,2012-03-05接受
基金项目:地理空间信息工程国家测绘局重点实验室开放基金项目(J20050437);国家自然科学基金项目(31172023)
作者简介:高玉蓉(1980—),女,工程师,从事流域生态遥感研究,E-mail: bbolive@163.com
第 31卷 第 5期 生 态 科 学 31(5): 481-487
2012年 9月 Ecological Science Sep. 2012
1 引言(Introduction)

钱塘江是浙江省的第一大河流,干流兰江和新安
江从西向东贯穿皖南和浙北汇入东海。流域地理界于
118°21~120°30E,29°11~20°33N之间,其中 86.5%
在浙江省境内,占浙江省总面积的 47.2%。随着社会
经济的发展,流域内土地利用结构急剧变化,水资源
量逐年减少,引起的流域生态环境问题严重制约着当
地人民生活和社会经济可持续发展,因此快速获取高
精度的流域土地利用/覆被信息意义重大。
遥感技术以其信息量大、观测范围广、精度高、
速度快等优势,在土地利用/覆被信息调查中得到了
广泛的应用[1]。然而遥感图像数据量大,混合象元多,
如何有效地利用其进行多类别分类识别并得到较高
精度的专题信息一直是遥感应用研究的热点[2-3]。由
于人工目视解译和基于模式识别的传统自动分类法
存在劳动强度大、时效性差或难以灵活融入非遥感信
息等很多问题。近年来涌现出了不少根据人类学习模
式来自动提取信息的新方法,主要代表有人工智能神
经元网络法、决策树分类法、粗糙集理论和遗传算法
等[4]。其中,决策树是归纳学习技术应用于信息分
类领域的最重要成果之一,在国内外得到了广泛应
用[5-8]。决策树学习方法能够从无次序、无规则的
实例中推理出决策树表达形式的分类规则,其优点
在于作为非参算法,对训练样本点的分布没有特殊
要求;可以同时处理连续和离散数据;表达的分类
规则易于理解;生成规则和利用规则分类速度较
快,分类精度要高于或等同于其他分类算法[9-12]。
本文以城市化比较突出的钱塘江中游地区为例,
以 SPOT5影像作为基础数据源,引入决策树 C5.0算
法,在野外样地调查和分析地物光谱特征的基础上,
得出归一化植被指数(NDVI)和纹理指数,对坡度
和高程进行分级,确定辅助特征变量,建立分类模型,
实现对研究区域土地利用/覆被信息的自动提取。

2 材料与方法(Materials and methods)

2.1 研究区域及数据概况
研究区位于浙江省中西部,钱塘江中游,金衢
盆地北部边缘,包括兰溪市的女埠街道、云山街道、
马涧镇和香溪镇,面积约为 34 813.7公顷(如图 1)。
该地区属亚热带季风气候,温暖湿润,四季分明。根
据第 2次土壤普查结果,研究区的土壤类型以红壤、
岩性土和水稻土为主。土地利用分布特点主要表现
为:土地开发早,土地利用率较高,地类类型齐全,
土地利用多样化。
实验采用 2005年 3月 6日的 SPOT5多光谱与全
色光谱影像各 1景,并根据实际需要,收集了研究区
1:10 000地形图,1:10 000 DEM数据和 2005年
1:50 000土地利用现状图。在对 SPOT影像进行辐射
校正后,以 1:10 000地形图为基础,选取 70 个控制
点,对辐射校正后所得图像进行配准和几何精纠正,
经验证误差小于 1个像元。随后进行图像拉伸和边缘
增强处理,以增强图像的目视效果,提高解译精度。
最后从中切取覆盖试验区的大小为 2 074×2 811的子
影像进行研究(图 2)。

图 1 研究区位置图
Fig. 1 Location of the study area


图 2 研究区 SPOT5影像
Fig. 2 Remote sensing image of the satellite SPOT5 in study
area

2.2 研究方法
2.2.1 分类体系和样本选取
研究过程中进行野外调查,对整个研究区域的土
地利用类型及其分布有了全面的了解。依据本区实际
情况,将土地利用类型分为 5类:建设用地、水体、
耕地、林地、园地。在对土地利用实地调查和先验知
识的基础上,对 5种分类类型确定目视判读标志。
训练数据的质量在很大程度上影响制图精度[3],
然而目前很少有专家对决策树的采样标准有具体的
研究。为最大限度的保证选取样本的代表性和分类的
准确性,本研究尝试采用两种方案,如表 1所示。方
案一:选择光谱值相对均一,即 DN值的标准方差很
小的象元为样本区。考虑到同一地类的光谱特征差异
明显,将同一地类光谱特性相差较大的区域分别作为
独立地类设定,在决策树分类之后再将同一地类下不
同的子类归并到一起。方案二:由于同物异谱现象的
482 生 态 科 学 Ecological Science 31卷
存在,选择地类性质一致的象元作为样本区以接近实
际情况。由于山地的阴影与水体的光谱特性十分相
似,因此本方案只把林地阴面作为一个独立地类设
定,在决策树分类之后再与林地归并。选择总样本区
分别为 3 954个和 2 960个,按比例 7:3随机分成 2
部分。方案一训练样本 2 700个,测试样本 1 254个,
方案二训练样本 2 000个,测试样本 960个(表 1)。
2.2.2 特征选择与提取
图像的灰度和色调只是识别目标的主要依据之
一,目标的形状、大小、纹理结构、目标之间的相互
关系、活动目标的演变规律以及高程信息等都可以作
为目标识别的重要依据。Friedl等人[13]的研究表明,
多波段图像、纹理信息以及 DEM(数字高程模型) 的
综合应用可以显著提高遥感图像分类精度和地物的
识别能力。本文选择以下数据作为参与分类的数据:
典型地类光谱特征:针对 SPOT5 影像,多个样
本采集统计结果表明,各种地物由于其反射光谱在不
同波长的接收器上的反射强度不同,因此通过处理遥
感影像,借助不同波长间光谱强度记录的差异大小,
可以在一定程度上帮助区分或者融合不同的土地利
用类型。通过实地调查,在各典型地类选取样点进行
统计,得到波谱响应曲线(图 3)。不同地物具有不
同的光谱曲线及变化规律。不同波段上,地物之间的
光谱差异不均衡,如在绿波和短波红外上,水体和园
地的差异明显,而在红波和近红外上,曲线几乎重叠,
混淆较大。同种地物之间有时也存在明显的光谱差
异。因此在选取样本时,既要照顾到各种不同的背景
特征,使样本区具有代表性;又要考虑多设类别,在
背景特征差异太大时,分类后再根据实际情况合并。
植被指数:对于复杂的植被遥感,仅用原始影像
的个别波段或多个单波段数据分析对比来提取耕地、
林地信息是相当有限的。植被指数可以最为普遍的用
来反映绿色植物生长状况和分布,有助于增强遥感影
像的解译力。选择较为成熟的归一化植被指数
(NDVI),利用公式 1计算,结果见图 4。
NDVI=(NIR-R)/(NIR+R) (1)
其中:NIR和 R分别对应于 SPOT5影像的近红
外 B3和红光 B2波段(表 2)。纹理信息:纹理是一
种反映一个区域中像素灰度级的空间分布属性,表现
为图像灰度在空间上的变化和重复或图像中反复出
现的局部模式(纹理单元)及其排列规则。
纹理分析的基本方法有 3类:统计分析方法、结
构分析方法和频谱分析方法[14]。本文应用统计分析
方法中的灰度共生矩阵方法进行提取,得到研究区纹
理信息见图 5。从图中可以看出河流、道路、居民地
等典型地类的轮廓,这种纹理信息将有助于实现较精
确地分类。地形特征:由于地形起伏的影响,会使地
物的光谱反射特性产生变化,并且不同地物的生长地
域往往受海拔高度或坡度的制约,所以将高程信息和
坡度信息作为辅助信息参与分类。根据兰溪市的实际
情况结合本次研究的分类特点,将研究区高程和坡度
均分为 5个等级(表 3和表 4)。
本研究为了探究光谱特性、纹理以及数字地形要
素对分类精度的敏感性,对它们进行 6种组合(表 5)。

表 1研究区的训练样本数和测试样本数(以 AOI为单元)
Tab. 1 Numbers of training samples and testing samples at study area(one AOI as one cell)
方案一 Option 1 方案二 Option 2 土地利用类型
Land use 训练样本数
Training samples
测试样本数
Test samples
训练样本数
Training samples
测试样本数
Test samples
居民地(深蓝)Residentia(dark blue) 300 204
居民地(浅蓝)Residential(light blue) 42 19
居民地(发紫)Residential(violet) 150 85
独立工矿(发白)Independent industrial and mining(white) 12 2
独立工矿(发黄)Independent industrial and mining(yellow) 16 6
独立工矿(发红)Independent industrial and mining(red) 14 6

建设用地
Construction land
道路 Road 31 10
300 125
水体 Water 水体 Water 162 111 150 60
水田(黄绿)Farmland(yellow green) 711 279
水田(泛紫)Farmland(violet) 48 23
水田(泛红)Farmland(red) 35 12

耕地
Farmland 水田(泛蓝)Farmland(blue) 34 22
500 250
林地 Forest 724 288
裸地 Bare land 6 3 500 250

林地
Forest 山地阴影 Mountain shadows 72 65 50 25
园地 Gardenplot 园地 Gardenplot 343 119 500 250
合计 Total 2700 1254 2000 960

5期 高玉蓉,等. 基于 C5.0的钱塘江流域地区土地利用/覆被信息提取研究 483

表 2 SPOT5数据光谱波段和分辨率
Tab. 2 Spectral bands and resolution of SPOT-5 data
光谱波段
Spectral band
地面分辨率
Resolution/m
光谱范围
Spectral range/m
B1:Green 10 0.61~0.68
B2:Red 10 0.50~0.59
B3: NIR 10 0.78~0.89
B4: SWIR 20 1.58~1.75

表 3 研究区高程分级数据
Tab. 3 Grading of elevation in study area
项目
Item
平原
Plain
岗地
Hillock
丘陵
Hills
低山
Low hill
高山
High hill
高程
Elevation ( m) 60
60~
150
150~
500
500~
800 800
级别 Level 1 2 3 4 5

表 4 研究区坡度分级数据
Tab. 4 Grading of slope in study area
项目
Item
平坡
Flat
slope
微坡
Micro
slope
缓坡
Corrosion
slope
斜坡
Oblique
slope
陡坡
Steep
slope
坡度
Slope degree 0~2 2~6 6~15 15~25 25
级别 Level 1 2 3 4 5

表 5 特征数据组合表
Tab. 5 Combination list of different characteristic data
组合
Combination
特征数据组合
Combinations of characteric datas
A B1,B2,B3,B4
B B1,B2,B3,B4,NDVI
C B1,B2,B3,B4,rc,sl
D B1,B2,B3,B4,t1,t2,t3,t4
E B1,B2,B3,B4,rc,sl,t1,t2,t3,t4
F B1,B2,B3,B4,rc,sl,t1,t2,t3,t4
注:B1、B2、B3、B4、NDVI、rc、sl、t1、t2、t3、t4分别表
示波段 1、波段 2、波段 3、波段 4、归一化植被指数、高程、
坡度、波段 1 的纹理信息、波段 2 的纹理信息、波段 3 的纹
理信息、波段 4的纹理信息
Note:B1,B2,B3,B4,NDVI,rc,sl,t1,t2,t3,t4 are for
band 1, band 2, band 3, band 4, normalized difference vegetation
index, elevation, slope, and texture information of band 1, 2, 3
and 4.

2.2.3 C5.0 算法
决策树是以实例为基础的归纳学习算法,其根据
不同的特征,以树型结构表示分类或决策集合,产生
规则和发现规则。C5.0的构架基于亨特的 CLS方法,
是 ID3和 C4.5的改进算法[15-17],它将具有最高信息
增益率的属性作为树的每个结点的测试属性,结点分
割的标准采用信息增益比率(GrainRatio),可用公式
2和 3计算:
0
20
40
60
80
100
120
140
160
180
绿
Green

Red
近红外
NIR
短波红外
SWIR
归一化
植被指数
NDVI
波段



B
rig
ht
ne
ss
v
al
ue
建设用地 Construction land
水域 Water
耕地 Farmland
林地 Forest
园地 Gardenplot

图 3 典型地物的光谱曲线
Fig. 3 Spectral curves of typical land features


图 4 研究区 NDVI值
Fig. 4 Spectral curves of typical land features


图 5 研究区纹理特征影像
Fig. 5 Image of the texture character in study area
484 生 态 科 学 Ecological Science 31卷

( )( )
( )
Gain AGrainRatio A
SplitInfo A


1 2( ) ( , ,..., ) ( )mGain A I s s s E A  (3)
其中 A代表以属性A的属性值为基准进行分割;
I(s1,s2,…sm)为某个给定的样本分类所需的期望信息;
E(A)是由属性划分成子集的熵或期望信息;SplitInfo
表示通过把决策树的某一节点有属性 A 分为几个分
支所产生的信息量。
C5.0 用前剪枝与后剪枝相结合的方法对决策树
各叶子进行裁剪或合并,最后确定各叶子的最佳阈
值。C5.0增加了强大的 Boosting 算法以提高分类精
度,它实际上是依次建立一系列决策树,后建立的决
策树重点考虑以前被错分和漏分的数据,最后生成更
准确的决策树[10]。
3 结果与分析(Results and analysis)
3.1 特征数据和采样标准的敏感性分析
使用Rulequest公司根据C5.0算法开发的 See5.0
软件对 6种特征数据组合(SPOT5波段 1-4、纹理、
高程、坡度及 NDVI)和两种采样方案进行决策树分
析,并设定每个叶节点的事件数量 n不小于 2,pruning
CF为 25%的修剪(图 6和图 7)。结果得出:
(1)方案二和方案一在 6 种特征数据组合中的
精度分析曲线的走势相似。训练和测试样本集的总体
分类精度都在 85%以上,方案二比方案一的分类精度
均有所提高,说明方案二的采样更具代表性。主要是
方案一中样区地类的 DN 值过于单一,导致信息破
碎,不利于提取。方案二考虑到同一地类的整体性和
DN值间的平均性,便于决策树从中发现知识和生成
规则。
(2)6 种特征数据的组合中,总体分类精度最
高的是 E 组合。以方案二为例,仅采用影像光谱值
分类的精度最低,加入纹理信息,训练样本集的分类
精度从 86.3%提高到 89.1%。在次基础上加入高程、
坡度,使测试样本集的分类精度提高到 91.4%。归一
化植被指数的参与,效果不佳,是由于影像的时相为
3月份,植被长势不旺盛,植被信息不够丰富。
3.2 样本数敏感性分析
为测试决策树分类器对样本数大小的敏感性,从
方案二的训练样本总数 101 710个中随机抽取 2 960、
2 368、1 776、1 184、592共 5组训练样本,采用特
征数据 E 组合进行决策树学习,并统一用测试样本
进行精度评价,结果见图 8。结果表明,实验的整体
趋势是分类精度随着样点数量的增加而提高;尤其在
样点数从 592上升到 1 184,分类精度迅速提高;随
着样本量继续增加,分类精度呈缓慢上升;当样点数
为 2 960时,分类精度达到最高值 91.4%,说明决策
树对分类精度的提高是基于较大数量的训练样本之
上的。
3.3 决策树规则
为了使决策树模型更易读,可以把到达每个叶的
路径转换成 IF-THEN 生成规则,即把决策树重新写成
决策规则的集合。在方案二的采样标准上,将各个特
征数据组合产生的决策树转化为决策规则,每一条规
则的质量用两个指标来衡量——置信程度和提升值
(lift)。其中,置信程度用 Laplace 比值(n-m+1)
/(n-2)来进行评价,其中 n是该条规则所覆盖的训
练数据中的样本数;m是该条规则所分错的样本数。
提升值(lift)为置信度与该条规则所推断出的类别
在训练样本中出现的频率的比值。限于篇幅,本文以
规则 5为例说明规则的含义。
规则 5: (1136/3, lift 11.7):该规则所覆盖的样点
数为 1 136个,其中 3个被错分,提升值为 11.7。如
(波段 1(光谱值) <= 65&&波段 3(光谱值) > 60 &&
波段 4 (光谱值)> 64&&波段 4(光谱值) <= 77&&
坡度值<= 3&& 波段 1的纹理值> 18.75&&波段 4的
纹理值<= 68.361 11)那么(分类级别为:建设用地
[0.996])。其中,0.996为置信度值。
决策树转化为决策规则时,根据特征组合的排列
顺序,分别转化成 518、424、391、743、555、524
条规则,总体分类精度均比决策树有一定的提高,说
明决策规则的转化能在保证精度的基础上使规则更
容易理解其知识表达(表 5)。

0.82
0.84
0.86
0.88
0.9
0.92
0.94
0.96
0.98
A B C D E F
特征数据组合
Combination of characteric datas





%

Cl
as
sif
ic
at
io
n
ac
cu
ra
cy
(%
)
方案一 Option1
方案二 Option2

图 6 训练样区的决策树分析结果
Fig. 6 Results of decision tree analysis for training samples
3.4 精度评价
基于方案二的测试样本集和组合 E 的特征数据
集,进行 C5.0算法和最大似然分类法的象元级评价,
测试结果见表 6-7。
5期 高玉蓉,等. 基于 C5.0的钱塘江流域地区土地利用/覆被信息提取研究 485

(2)
0.82
0.84
0.86
0.88
0.9
0.92
A B C D E F
特征数据组合
Combination of characteric datas





%

Cl
as
sif
ic
at
io
n
ac
cu
ra
cy
(%
)
方案一 Option1
方案二 Option2

图 7 测试样区的决策树分析结果
Fig. 7 Results of decision tree analysis for test samples

80
82
84
86
88
90
92
0 1000 2000 3000 4000
样点数量Sample number





%)
Cl
as
si
fi
ca
ti
on
a
cc
ur
ac
y(
%)

图 8不同训练样本数下的总体分类精度
Fig. 8 Overall classification accuracy of the test samples
under different training samples

通过比较混淆矩阵得出,与最大似然分类法比
较,决策树方法的总体分类精度提高了 7.37%,Kappa
系数提高了 0.093 5,结果表明决策树方法明显好于
最大似然分类法。决策树分类的的生产者精度均在
90%以上,尤其是水体的生产者精度达到 98.79%。
经检验发现,水体错分的主要是小图斑,容易和居民
地混分。两种分类下主要的误判对象是耕地、林地和
园地,在最大似然分类中耕地的 1 979个象元被误判
为园地,林地的 1 603个象元被误判为园地,而园地
的 987个象元被误判为林地,说明三者间的混分性很
大,原因是三者的波谱特征十分接近,且高程和坡度
的界限并不明显。
4 结论(Conclusions)
本文根据钱塘江流域地区地物遥感信息的特点,
充分挖掘遥感资料信息,综合运用研究人员的经验,
通过 C5.0算法实现了该地区土地利用/覆被信息的高
精度快速提取,大大提高了分类效率。为探索钱塘江
流域地区土地利用/覆被遥感信息快速准确提取奠定
了重要基础。
研究表明,基于决策树学习从空间数据中获取分
类知识会受到参考信息的影响。参考样点的增加和合
理化采样标准能够提高决策树学习和分类的准确率;
遥感数据与各种辅助数据的综合分析,有助于解决
“同物异谱”、“异物同谱”现象;决策树转化为决策规
则,在保证精度的基础上,可获得更易理解的知识表
达。同时还发现,区域内耕地和园地、园地和林地的
混分现象比较严重,主要受该地区破碎地形和复杂光
谱特征的限制,受到土壤背景、空间关联、形状等多
因素的影响,因此对于选取特征变量的意义、计算方
法的改进及大面积应用等有待于进一步研究完善,以
使判别规则和分类结果更符合实际。

表 5 决策树转化为决策规则的精度比较
Tab. 5 Comparision of accuracy for conversion from decision tree to decision rulesets
分类精度 Classification accuracy 特征数据组合 Combination of characteric datas 规则数(条)Number of rules
决策树 Decision tree 86.3% -
决策规则 Decision rules 86.60% B1,B2,B3,B4 518
决策树 Decision tree 86.3% -
决策规则 Decision rules 86.80% B1,B2,B3,B4,NDVI 424
决策树 Decision tree 90.6% -
决策规则 Decision rules 90.90% B1,B2,B3,B4,rc,sl 391
决策树 Decision tree 89.1% -
决策规则 Decision rules 89.60% B1,B2,B3,B4,t1,t2,t3,t4 743
决策树 Decision tree 91.50% -
决策规则 Decision rules 92.20% B1,B2,B3,B4,rc,sl,t1,t2,t3,t4 555
决策树 Decision tree 91.4% -
决策规则 Decision rules 92.1%
B1,B2,B3,B4,rc,sl,t1,t2,t3,t4,
NDVI 524

486 生 态 科 学 Ecological Science 31卷
表 6 研究区 SPOT5影像最大似然分类精度评价误差矩阵
Tab. 6 Classification error matrix of SPOT5 classified image by maximun likelihood classification in study area
参考数据 reference data 土地利用类型
Land use 建设用地
Construction land
水体
Water
耕地
Farmland
林地
Forest
园地
Gardenplot
行和
Row sum
生产者精度
Generator precision
用户精度
User precision
建设用地
Construction land 6 291 198 649 1 9 7 148 96.18% 88.01%
水体 Water 43 6 141 32 3 0 6 219 96.72% 98.75%
耕地 Farmland 72 9 12 271 62 131 12 545 82.18% 97.82%
林地 Forest 2 0 0 10 078 987 11 067 85.79% 91.06%
园地 Gardenplot 133 1 1 979 1 603 5 905 9 621 83.97% 61.38%
列和 Column sum 6 541 6 349 14 931 11 747 7 032 46 600
总体精度 Overall precision:87.31%,Kappa:0.8379

表 7 研究区 SPOT5影像决策树分类精度评价误差矩阵
Tab. 7 Classification error matrix of SPOT5 classified image by decision tree classification in study area
参考数据 土地利用类型
Land use 建设用地
Construction land
水体
Water
耕地
Farmland
林地
Forest
园地
Gardenplot
行和
Row sum
生产者精度
Generator precision
用户精度
User precision
建设用地
Construction land 6 323 38 49 1 7 6 418 96.67% 98.52%
水体 Water 16 6 272 1 1 0 6 290 98.79% 99.71%
耕地 Forest 68 17 14 046 100 41 14 272 94.07% 98.42%
林地 Forest 18 13 0 10 976 481 11 488 93.44% 95.54%
园地 Gardenplot 116 9 835 669 6 503 8 132 92.48% 79.97%
列和 Column sum 6 541 6 349 14 931 11 747 7 032 46 600
总体精度 Overall precision:94.68%,Kappa:0.9314

参考文献(References)

[1] 贾树海,韩志根,吕默楠,王晶,谢东祺. 基于决策树的
辽宁省北部沙漠化信息提取研究[J]. 生态环境学报, 2011,
20(1):13-18.
[2] Defries R S, Hansen M C, Townshend J R G, Sohlberg R.
Global land cover classifications at 8 km spatial resolution:
The use of training data derived from landsat imagery in
decision tree classifiers[J]. International Journal of Remote
Sensing, 1998, 19(16): 3141-3168.
[3] Friedl M A, Strahler C E, Strabler A H. Maximizing land
cover classification accuracies produced by decision trees at
continental to global scales[J]. IEEE Transactions on
Geoscience Remote Sensing, 1997, 37(2): 969-977.
[4] 毛克彪,覃志豪,李昕,李海涛. 空间数据挖掘与 GIS集
成及应用研究 [J]. 测绘与空间地理信息 , 2004,
1(27) :14-17.
[5] Friedl M A, Brodley C E. Decision tree classification of land
cover from remotely sensed data[J]. Remote Sensing of
Environment, 1997, 61:399-409.
[6] 刘勇洪,牛铮,王长耀. 基于 MODIS 数据的决策树分类
方法研究与应用[J]. 遥感学报, 2005, 9(4):405-412.
[7] 吴见,彭道黎. 基于 T M影像的多伦县土地利用信息提取
[J]. 东北林业大学学报, 2010, 38(10):88-94.
[8] 黄添强,郭躬德,卓飞豹. 基于多分类器的复合决策树在
遥感分类中的应用[J]. 青岛大学学报:工程技术版, 2007,
22(4):60-64.
[9] 张爽,刘雪华,靳强. 决策树学习方法应用于生境景观分
类 [J]. 清华大学学报:自然科学版 , 2006, 46(9):
1564-1567.
[10] 齐红超,祁元,徐瑱. 基于 C5.0决策树算法的西北干旱
区土地覆盖分类研究—以甘肃省武威市为例[J]. 遥感技
术与应用, 2009, 24(5):648-653.
[11] 巩固,吕俊怀,黄永青,郝国生. 有效改进 C5.0算法的
方法[J]. 计算机工程与设计, 2009, 30(22):5197-5203.
[12] 朱梅红,石勇,李爱华,张东玲. 三种分类算法偏差-方
差结构的比较:MCLP,LDA 和 C5.0[J]. 中国科学院研究
生院学报, 2009, 26(4):443-450.
[13] Derek R P, Steven E F. Image texture processing and data
integration for surface pattern discrimination[J].
Photogrammetric Engineering and Remote Sensing, 1991,
57(4):413 - 420.
[14] 游浩辰,许章华,刘健,余坤勇,张新珠. GIS支持下的
山区遥感影像决策树分类研究[J]. 北京联合大学学报:自
然科学版, 2011, 25(1):34-45.
[15] Quinlan J R. Induction of decision trees[J]. Machine
Learning, 1986, 1:81-106.
[16] Quinlan J R. C4.5: Programs for Machine Learning[M]. San
Mateo, CA: Morgan Kaufmann, 1993.
[17] Lewis F, Douglas F. Identifying Markov Blankets with
Decision Tree Induction[C]. Proceedings of the Third IEEE
International Conference on Data Mining(ICDM03), 2003.

5期 高玉蓉,等. 基于 C5.0的钱塘江流域地区土地利用/覆被信息提取研究 487