Taking the Qihe County in Shandong Province of East China as the study area, soil samples were collected from the field, and based on the hyperspectral reflectance measurement of the soil samples and the transformation with the first deviation, the spectra were denoised and compressed by discrete wavelet transform (DWT), the variables for the soil alkali hydrolysable nitrogen quantitative estimation models were selected by genetic algorithms (GA), and the estimation models for the soil alkali hydrolysable nitrogen content were built by using partial least squares (PLS) regression. The discrete wavelet transform and genetic algorithm in combining with partial least squares (DWT-GA-PLS) could not only compress the spectrum variables and reduce the model variables, but also improve the quantitative estimation accuracy of soil alkali hydrolysable nitrogen content. Based on the 1-2 levels low frequency coefficients of discrete wavelet transform, and under the condition of large scale decrement of spectrum variables, the calibration models could achieve the higher or the same prediction accuracy as the soil full spectra. The model based on the second level low frequency coefficients had the highest precision, with the model predicting R2 being 0.85, the RMSE being 8.11 mg·kg-1, and RPD being 2.53, indicating the effectiveness of DWT-GA-PLS method in estimating soil alkali hydrolysable nitrogen content.
全 文 :基于 DWT鄄GA鄄PLS的土壤碱解氮含量
高光谱估测方法*
陈红艳1 摇 赵庚星1**摇 李希灿2 摇 王向锋3 摇 李玉玲4
( 1土肥资源高效利用国家工程实验室 /山东农业大学资源与环境学院, 山东泰安 271018; 2山东农业大学信息科学与工程学
院, 山东泰安 271018; 3垦利县国土资源局, 山东垦利 257500; 4齐河县农业局, 山东齐河 251100)
摘摇 要摇 以山东齐河县为研究区,实地采集土壤样本,在土样高光谱测试并进行一阶导数变
换的基础上,先运用离散小波变换(DWT)对土壤光谱去噪降维,然后采用遗传算法(GA)筛选
土壤碱解氮定量估测模型的参与变量,最后应用偏最小二乘(PLS)回归构建土壤碱解氮含量
的估测模型.结果表明: 离散小波变换结合遗传算法和偏最小二乘法(DWT鄄GA鄄PLS)用于土
壤碱解氮含量定量估测,不仅可压缩光谱变量、减少模型参与变量,而且可改善模型估测准确
度;较之于采用土壤全谱,小波离散分解 1 ~ 2 层低频系数构建的模型在参与变量大幅减少的
情况下,取得更准确或与之相当的预测结果,其中,基于第 2 层小波低频系数采用 GA 筛选变
量构建的 PLS模型的预测效果表现最好,预测 R2达到 0. 85,RMSE 为 8. 11 mg·kg-1,RPD 为
2. 53.说明 DWT鄄GA鄄PLS用于土壤碱解氮含量高光谱定量估测的有效性.
关键词摇 碱解氮摇 高光谱摇 离散小波变换摇 遗传算法
*国家自然科学基金项目(41271235)、国家科技计划项目(2013BAD05B06,2011BAD21B0601)、高校博士点基金项目(20103702110010)和山
东省自主创新专项(2012CX90202)资助.
**通讯作者. E鄄mail: zhaogx@ sdau. edu. cn
2013鄄03鄄19 收稿,2013鄄09鄄02 接受.
文章编号摇 1001-9332(2013)11-3185-07摇 中图分类号摇 S127, S153. 2摇 文献标识码摇 A
Hyper spectral estimation method for soil alkali hydrolysable nitrogen content based on dis鄄
crete wavelet transform and genetic algorithm in combining with partial least squares
(DWT鄄GA鄄PLS) . CHEN Hong鄄yan1, ZHAO Geng鄄xing1, LI Xi鄄can2, WANG Xiang鄄feng3, LI
Yu鄄ling4 ( 1National Engineering Laboratory for Efficient Utilization of Soil and Fertilizer Resources,
College of Resources and Environment, Shandong Agricultural University, Tai爷 an 271018, Shan鄄
dong, China; 2College of Information Science and Engineering, Shandong Agricultural University,
Tai爷an 271018, Shandong, China; 3Kenli County Bureau of Land and Resources, Kenli 257500,
Shandong, China; 4Qihe Bureau of Agriculture, Qihe 251100, Shandong, China) . 鄄Chin. J. Appl.
Ecol. ,2013,24(11): 3185-3191.
Abstract: Taking the Qihe County in Shandong Province of East China as the study area, soil sam鄄
ples were collected from the field, and based on the hyperspectral reflectance measurement of the
soil samples and the transformation with the first deviation, the spectra were denoised and com鄄
pressed by discrete wavelet transform (DWT), the variables for the soil alkali hydrolysable nitrogen
quantitative estimation models were selected by genetic algorithms (GA), and the estimation mod鄄
els for the soil alkali hydrolysable nitrogen content were built by using partial least squares (PLS)
regression. The discrete wavelet transform and genetic algorithm in combining with partial least
squares (DWT鄄GA鄄PLS) could not only compress the spectrum variables and reduce the model var鄄
iables, but also improve the quantitative estimation accuracy of soil alkali hydrolysable nitrogen con鄄
tent. Based on the 1-2 levels low frequency coefficients of discrete wavelet transform, and under
the condition of large scale decrement of spectrum variables, the calibration models could achieve
the higher or the same prediction accuracy as the soil full spectra. The model based on the second
level low frequency coefficients had the highest precision, with the model predicting R2 being 0. 85,
应 用 生 态 学 报摇 2013 年 11 月摇 第 24 卷摇 第 11 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇
Chinese Journal of Applied Ecology, Nov. 2013,24(11): 3185-3191
the RMSE being 8. 11 mg·kg-1, and RPD being 2. 53, indicating the effectiveness of DWT鄄GA鄄
PLS method in estimating soil alkali hydrolysable nitrogen content.
Key words: alkali hydrolysable nitrogen; hyper spectra; discrete wavelet transform; genetic algo鄄
rithm.
摇 摇 近年来,随着精准农业的发展,应用光谱技术快
速准确获取土壤参数信息已经成为研究热点. 土壤
氮素是植物生长发育的基础,自 20 世纪 80 年代光
谱数据应用于土壤氮素含量估测开始,土壤氮素的
定量遥感估测已成为最近几年研究较多的方向之
一[1-2] .
采用适当的光谱预处理和波长选择方法能够简
化和提取特征光谱信息,提高土壤参数定量模型的
预测能力[3-4] .在现有光谱预处理方法中,小波变换
(wavelet transform,WT)在信号去噪和数据压缩方面
具有独特的优势[5-7],如刘炜等[6]对土壤原始光谱
及其 A值的一阶导数进行小波去噪处理,改善了它
们与土壤有机质的相关性;Viscarra鄄Rossel和 Lark[7]
结合小波变换和回归方法预测土壤有机碳含量,不
仅提高了模型决定系数,而且压缩了数据、简化了模
型.但单纯依赖小波系数建模,参与变量仍较多,土
壤参数模型的实用性受到影响[8],仍需探索一定的
优化选择方法筛选建模变量. 遗传算法( genetic al鄄
gorithm,GA)作为一种通过模拟自然进化过程并行
搜索最优解的方法[9],在光谱分析中,结合偏最小
二乘(partial least squares,PLS)可用于多组分分析
的波长选择或谱区选择,其研究和应用日益成为热
点[10-12] .采用高分辨率的土壤全谱作为遗传算法的
搜索空间,其波长数目及优化搜索空间十分巨大,从
而影响寻优结果,因此现有研究多采用谱区选
择[13-14],如温健婷等[15]采用遗传算法进行土壤重
金属的谱区选择,并进行偏最小二乘建模,获得了较
高的土壤重金属高光谱估测精度;Li等[16]基于遗传
算法结合偏最小二乘在植物水分近红外光谱分析模
型中进行谱区选择,简化了分析模型,增强了模型的
稳健性.其中,适宜谱区区间大小和数目的选择是
关键.
本文采用离散小波变换对土壤光谱进行降维去
噪,将小波低频系数作为遗传算法的注入变量,进而
筛选土壤碱解氮估测模型的参与变量,构建其含量
的偏最小二乘回归估测模型,旨在探索土壤碱解氮
含量的高光谱估测方法,以简化模型,提高估测的准
确度和稳定性.
1摇 材料与方法
1郾 1摇 土壤样本及碱解氮化学分析
本文选择的研究区为山东齐河县,境内为黄河
冲积扇平原,土壤类型为潮土,肥力水平较高,其粘
土矿物以水云母为主.在研究区首先根据土壤质地、
肥力等级划分采样单元,每个采样单元的平均面积
为 26. 67 hm2,采用网格布点方式,每个采样单元采
用 10 点混合的方式采集 1 个混合土样,采样深度为
0 ~ 20 cm,取土 1 kg 左右,共采集土样 71 个. 将土
样自然风干、敲碎,剔除其他侵入体,过筛(2 mm),
并混合均匀,用四分法取样 200 g,分成两份,一份装
于盛样皿(直径 10 cm,深 2 cm)中,稍稍压平,使其
表面平整,用于土壤高光谱数据的采集;另一份再过
1 mm筛用于土壤碱解氮含量的碱解扩散法测定,先
用碱液(NaOH)处理过筛土样,易水解的有机氮及
铵态氮转化为氨,硝态氮则先经硫酸亚铁转化为铵,
以硼酸吸收氨,再用标准酸(H2SO4)滴定,并做空白
试验,然后计算水解性氮含量.
1郾 2摇 光谱测定及预处理
土壤高光谱数据采用美国 ASD Fieldspec 3 光
谱仪暗室采集,并对其进行噪音波段去除、断点校正
等处理,光谱测定条件、操作及预处理见文献[8,
17].将 400 ~ 2450 nm的反射率作为土壤原始光谱.
1郾 3摇 研究方法
1郾 3郾 1 光谱变换摇 本文对光谱反射率进行一阶导数
变换,以消除低频噪声对目标光谱的影响,导数变换
采用的计算公式见文献[8].
1郾 3郾 2 基于离散小波变换(discrete wavelet transform,
DWT)的光谱预处理方法摇 对土壤导数光谱进行离
散小波变换,舍去小波高频系数,提取小波低频系
数,能够一定程度上剔除由光谱仪精度、测试条件等
不确定因素影响的高频噪音,得到光谱基本信
息[18-19] . 目前,常用的小波系有 Haar、 Daubechies
(DB n)、Biorthogonal、Symlet 等,笔者曾在文献[8]
中探讨了小波适宜分解尺度并分析了上述常用的 4
种小波函数的表现,研究表明,1 ~ 5 层的小波低频
系数与原始光谱的相关性较高,各小波母函数对土
壤养分建模精度影响不大,其中,Bior 1. 3 建模精度
6813 应摇 用摇 生摇 态摇 学摇 报摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 24 卷
略高.因此,本文对土壤反射率的一阶导数光谱采用
Bior 1. 3 小波母函数进行 1 ~ 5 层离散分解,提取不
同分解层的小波低频系数,以用于遗传算法筛选变
量,相关计算采用 Matlab 7. 0 软件编程实现.
1郾 3郾 3 基于遗传算法和偏最小二乘(GA鄄PLS)的变
量筛选摇 本文采用遗传算法和偏最小二乘法结合
(GA鄄PLS)筛选模型变量.首先将土壤全谱和上述提
取的小波低频系数作为基因,并用 0 / 1 字符进行二
进制编码,将土壤碱解氮含量作为优化目标,随机生
成初始群体;然后采用 PLS 交叉校验均方根误差
(RMSECV)作为适应度函数,当 RMSECV 达到最小
或没有显著变化时,所筛选的变量和确定的因子数
用于建模预测,经过 5 次重复筛选后,确定选中频率
最高的变量参与建模. 在遗传算法中,种群大小、交
叉、变异算子等是主要影响因素,种群越大,收敛效
果越好,但计算量也会增大;对于交叉概率,一般染
色体都会参与交叉,但要考虑交叉后解的可行性和
运算速度;变异是为了避免把个体局限在较优的局
部解空间内,因此变异概率值通常设置较低[20] . 经
过多次反复计算,考虑到运算量和运算精确度,确定
相应参数为:种群大小 30,最大繁殖代数 100,交叉
概率 0. 5,变异概率 0. 01.采用 Matlab 7. 0 软件编程
实现变量筛选.
1郾 3郾 4 基于偏最小二乘(PLS)回归的估测模型建立
与验证摇 采用每次剔除样本组中的一个样品进行交
叉检验建模验证.首先将土样分组,按照土壤碱解氮
含量进行排序,每间隔 1 个样本选择 3 个样本作为
建模样本集,其余样本为验证样本集,并把土壤碱解
氮含量相同的 2 个建模样本再分开,有 1 个划入了
验证集. 71 个样本分为两组,一组 51 个用于建模,
另一组 20 个用于验证. 然后利用建模样本,运用
SAS 9. 0 软件,采用 PLS回归,分别对土壤全谱、1 ~
5 层小波低频系数和遗传算法筛选的各层变量建立
土壤碱解氮含量高光谱估测模型. PLS 分析采用舍
一交叉验证法(leave one out cross validation)确定主
成分数.并利用验证样本数据检验模型,模型精度用
R2、RMSE和 RPD进行评价.
2摇 结果与分析
2郾 1摇 样本土壤碱解氮含量状况
利用统计方法分析 71 个样本数据,样本碱解氮
含量最小值是 53. 0 mg· kg-1,最大值是 169郾 0
mg·kg-1,平均值为 111. 24 mg·kg-1,标准差为
25郾 51 mg·kg-1 .
2郾 2摇 基于 DWT提取的小波低频系数
利用 71 个土壤样本的数据,对土壤反射率的一
阶导数光谱采用 Bior 1. 3 小波母函数进行 1 ~ 5 层
离散分解,提取小波低频系数,将小波系数进行光谱
重构并与土壤全谱进行相关性分析. 由表 1 可以看
出,小波系数的数目随着分解层数的增加而逐渐减
少,下层数目约为上层数目的 1 / 2,数据逐渐得到压
缩;与土壤全谱的相关性也逐渐减小,即小波系数反
映输入光谱信息的能力逐渐减弱. 其中,1 ~ 3 层低
频系数和输入光谱数据的相关系数大于 0. 90,足以
表示光谱的整体特征,可用以代表输入土壤光谱;
4 ~ 5层的相关系数大于 0. 5,具有一定的相关性.
2郾 3摇 基于 GA鄄PLS筛选的变量
基于土壤全谱和各分解层的小波低频系数,采
用遗传算法结合偏最小二乘法筛选土壤碱解氮定量
模型的入选变量.采用遗传算法注入变量数目应少
于 200 个,以避免过度拟合现象的发生,对于光谱数
据,可通过求取若干个连续波长的平均值,减少注入
变量[21] .因此,对于变量数目超过 200 个的土壤全
谱和 1 ~ 3 层小波低频系数,本文先采用一定的间隔
划分为若干变量区间.
摇 摇 光谱区间大小直接影响遗传算法的准确度. 为
确定最适宜的区间划分大小,对于土壤全谱,本文基
于全部土壤样本的平均光谱,按照波长范围 2 倍递
增并且就近取奇数值的原则,分别采用波长 3、7、
15、31 和 71 nm 为区间大小均分原始光谱,然后求
取不同大小的区间光谱平均和最大标准偏差(表
2).标准偏差越小,区间数据越集中,反之,数据越
分散. 相对于其他区间大小变化,区间大小由 7 nm
减少到 3 nm,平均和最大标准偏差变化均较小,但
大于 7 nm的光谱区间标准差的差异显著.为了既保
障区间数据相近,又尽量减少变量数目,本文选择
7 nm作为划分土壤全谱区间的适宜大小.
表 1摇 各层小波低频系数及其重构光谱与原始光谱的相
关性
Table 1摇 Low frequency wavelet coefficients and the corre鄄
lation between its restructuring spectrum and original spec鄄
trum
分解层数
Decomposing
level
小波系数数目
Wavelet coefficient
number
压缩率
Compression
rate (% )
相关系数
Correlation
coefficient (R)
0 2051 100 1. 00
1 1028 50. 1 1. 00
2 516 25. 2 0. 96
3 260 12. 7 0. 93
4 132 6. 4 0. 80
5 68 3. 3 0. 56
781311 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 陈红艳等: 基于 DWT鄄GA鄄PLS的土壤碱解氮含量高光谱估测方法摇 摇 摇 摇 摇 摇
摇 摇 小波低频系数下层数目约为上层数目的 1 / 2,
参考土壤全谱 7 nm 的划分间隔和遗传算法注入变
量低于 200 的要求,对 1 ~ 3 层小波低频系数分别采
用 4、3、2 的间隔划分区间.
对划分的区间求取平均值并作为遗传算法的注
入变量,将土壤碱解氮含量作为优化目标,运用 GA
重复筛选 5 次,然后将选中区间内原波长点或系数
作为最终的建模变量.
由表 3 可以看出,采用遗传算法筛选变量,选中
变量数目相对小波系数大幅减少,最少只有 22 个,
最多为147个.可见,在小波系数的基础上,采用遗
表 2摇 区间大小分析
Table 2摇 Analysis on region size
区间大小
Region size (nm)
平均标准偏差
Average SD
最大标准偏差
Max SD
区间数目
Region number
3 1. 65伊10-6 8. 77伊10-4 684
7 1. 98伊10-6 9. 86伊10-4 293
15 5. 49伊10-5 1. 53伊10-3 137
31 1. 05伊10-4 1. 80伊10-3 66
71 1. 75伊10-4 1. 32伊10-3 29
传算法可减少模型参与变量.
摇 摇 对比光谱与各层小波系数曲线的相似性可见,
曲线整体趋势和走向保持一致,但随着小波分解层
数的增多,反映光谱噪声和微小吸收特征的信息逐
渐被剔除,光谱的基本信息被渐进反映;第 1 ~ 2 层
小波低频系数与原始光谱较相似,在反映土壤光谱
基本特征的同时保留了许多细节,诸如400 ~ 470、
表 3摇 小波系数及 GA筛选的变量
Table 3 摇 Wavelet coefficients and selected variables based
on GA
分解层数
Decompo鄄
sing
level
小波系数
数目
Wavelet
coefficient
number
区间
间隔
Interval
GA筛选
变量数目
Selected variable
number based
on GA
变量占小波系数
的百分比
Percentage of
selected variable to
wavelet coefficient
0 2051 7 147 7. 2
1 1028 4 111 10. 8
2 516 3 43 8. 3
3 260 2 25 9. 6
4 132 1 37 28. 0
5 68 1 22 32. 4
图 1摇 全谱、1 ~ 5 层小波低频系数及 GA筛选的变量
Fig. 1摇 Original spectrum, wavelet coefficients of levels 1-5 and selected variables based on GA.
8813 应摇 用摇 生摇 态摇 学摇 报摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 24 卷
900 ~ 1100、1700 ~ 1800 nm 及相应的小波系数中仍
有明显的毛刺,而 3 ~ 5 层小波低频系数曲线较光
滑,显然剔除了较多的细节特征(图 1).比较选中变
量位置的相近性可见,相对原始光谱,第 1 ~ 2 层小
波低频系数筛选的变量大多位置与之较一致,而且
表现为零散地分布在整个光谱或小波系数区间;3 ~
5 层小波低频系数筛选的变量位置与之差异较大,
而且大多集中连片分布,尤其是 4 ~ 5 层小波低频系
数筛选的变量.
2郾 4摇 基于 PLS的土壤碱解氮含量高光谱估测模型
分别基于土壤全谱、小波系数和遗传算法筛选
的变量,采用 PLS回归构建土壤碱解氮含量估测模
型,并进行模型验证和比较.
由表 4 可以看出,基于离散小波变换结合偏最
小二乘(DWT鄄PLS)构建的土壤碱解氮含量估测模
型中,土壤全谱和第 1 ~ 2 层低频系数建模精度较
高,第 3 ~ 5 层低频系数建模精度较低;而且基于第
1 ~ 2 层低频系数建模精度与土壤全谱基本相当,建
模集决定系数 ( R2 ) 在 0. 67 ~ 0. 71,均方根差
(RMSE)在 11. 88 ~ 12. 26 mg·kg-1,验证集 R2在
0郾 77 ~ 0. 78,RMSE在 10. 59 ~ 10. 64 mg·kg-1,相对
分析误差(RPD)大于 2. 00,可用于土壤碱解氮含量
的估测;土壤全谱建模变量达 2051 个,第 1 层和第
2 层小波低频系数分别约是全谱的 1 / 2 和 1 / 4. 可
见,基于小波变换 1 ~ 2 层低频系数既可压缩模型变
量,又可用于土壤碱解氮含量的高光谱估测.
摇 摇 由表 5 可以看出,基于离散小波变换结合遗传
算法和偏最小二乘(DWT鄄GA鄄PLS)的土壤碱解氮含
量估测模型,与基于离散小波变换结合偏最小二乘
(DWT鄄PLS)的估测模型(表 4)在精度变化趋势上
趋于一致,即土壤全谱和第1 ~ 2层低频系数模型精
度较高,第 3 ~ 5 层低频系数模型精度较低,而且基
于第 1 ~ 2 层低频系数的模型较之土壤全谱,在参与
变量大幅减少的前提下,模型精度略高或基本相当.
不同的是,采用 DWT鄄GA鄄PLS 得到的模型精度(表
5)普遍优于 DWT鄄PLS(表 4);基于土壤全谱和第
1 ~ 2层低频系数,DWT鄄GA鄄PLS 对土壤碱解氮含量
具有较准确的预测性,相对 DWT鄄PLS的模型决定系
数 R2提高了 4% ~14% ,均方根差降低 0. 46 ~ 2. 53
mg·kg-1,RPD 提高 0. 3 ~ 0. 5;且 DWT鄄GA鄄PLS 构
建的模型参与变量也明显少于 DWT鄄PLS,约是其对
应系数的 8%左右. 由此可见,相对 DWT鄄PLS,采用
DWT鄄GA鄄PLS可在模型参与变量大幅减少的情形
下,精度得到一定幅度的提高.根据预测精度确定最
佳模型为:基于第 2 层小波低频系数采用 GA 筛选
变量构建的PLS模型,该模型参与变量43个,建模
表 4摇 基于离散小波变换结合偏最小二乘(DWT鄄PLS)的土壤碱解氮估测模型
Table 4摇 Estimation models of soil alkali hydrolysable nitrogen content based on discrete wavelet transform and partial least
squares
小波系数
Wavelet
coefficient
建模集 Calibration set
R2 RMSE
(mg·kg-1)
预测集 Validation set
R2 RMSE
(mg·kg-1)
RPD
主成分数量
Component
number
变量数量
Variable
number
ca0 0. 71 11. 88 0. 78 10. 63 2. 09 3 2051
ca1 0. 70 11. 97 0. 78 10. 59 2. 10 3 1028
ca2 0. 67 12. 26 0. 77 10. 64 2. 05 3 516
ca3 0. 37 12. 60 0. 61 11. 76 1. 38 2 260
ca4 0. 35 12. 39 0. 59 11. 80 1. 26 2 132
ca5 0. 30 11. 98 0. 49 12. 10 1. 04 2 68
表 5摇 基于离散小波变换结合遗传算法和偏最小二乘(DWT鄄GA鄄PLS)的土壤碱解氮估测模型
Table 5摇 Estimation models of soil alkali hydrolysable nitrogen content based on discrete wavelet transform in combination
with genetic algorithm and partial least squares
小波系数
Wavelet
coefficient
建模集 Calibration set
R2 RMSE
(mg·kg-1)
预测集 Validation set
R2 RMSE
(mg·kg-1)
RPD
主成分数量
Component
number
变量数量
Variable
number
ca0 0. 82 9. 97 0. 85 8. 68 2. 48 6 147
ca1 0. 80 10. 49 0. 82 9. 58 2. 31 5 111
ca2 0. 71 11. 80 0. 85 8. 11 2. 53 7 43
ca3 0. 66 12. 34 0. 69 11. 48 1. 76 6 25
ca4 0. 54 12. 99 0. 64 11. 66 1. 63 4 37
ca5 0. 36 12. 53 0. 50 12. 02 1. 42 3 22
981311 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 陈红艳等: 基于 DWT鄄GA鄄PLS的土壤碱解氮含量高光谱估测方法摇 摇 摇 摇 摇 摇
表 6摇 3 种方法的模型结果与比较
Table 6摇 Model results and comparison of three methods
方法
Method
建模集 Calibration set
R2 RMSE
(mg·kg-1)
验证集 Validation set
R2 RMSE
(mg·kg-1)
RPD
变量数量
Variable
number
相关分析 Correlation analysis 0. 39 21. 03 0. 35 22. 05 0. 73 4
多元逐步回归 Stepwise multiple linear regression 0. 78 13. 27 0. 72 14. 27 1. 38 8
DWT鄄GA鄄PLS 0. 71 11. 80 0. 85 8. 11 2. 53 43
R2为 0. 71,建模 RMSE 为 11. 80 mg·kg-1,预测 R2
达到 0. 85,预测 RMSE为 8. 11 mg·kg-1(为样本碱
解氮平均含量的 7. 4% ),预测 RPD为 2. 53,具有较
好的预测准确性.
2郾 5摇 与传统特征波段筛选方法的比较
基于试验数据,分别利用相关分析、多元逐步回
归分析筛选的特征波段构建土壤碱解氮含量估测的
回归模型,其中,多元逐步回归设定变量的贡献显著
水平为 0. 05,方差膨胀因子小于 10,以消除变量间
多重共线性的影响.与 DWT鄄GA鄄PLS 方法的最佳结
果进行比较可见,DWT鄄GA鄄PLS 方法与传统的相关
分析和多元逐步回归法相比,模型参与变量相对较
多,但模型的预测精度和稳定性有大幅提高,可更好
地用于土壤碱解氮估测(表 6).
3摇 讨摇 摇 论
本文采用 DWT鄄GA鄄PLS 估测土壤碱解氮含量,
有效降低了模型复杂度,改善了预测准确度.现有研
究中,也有学者采用小波变换与遗传算法结合用于
土壤参数的光谱分析,并且与本文的研究结论相
似[22-24],如方利民等[23]基于可见 /近红外光谱将离
散小波变换、快速独立分量分析、遗传算法和 BP 神
经网络结合建立了土壤有机碳和阳离子交换量的
BP分析模型,并获得了较好的预测准确度. 原因在
于小波离散变换可消除光谱噪声,压缩光谱变量,注
入遗传算法可简化搜索空间;遗传算法可进一步筛
选待测参数的特征变量从而优化模型;加之,本文采
用偏最小二乘回归可消除变量间的多重共线性,这
些可有效简化模型,减少模型随机性,提高模型精
度,因此 DWT鄄GA鄄PLS用于土壤碱解氮含量的高光
谱估测具有较好的效果.
遗传算法可从全局最优角度搜索使目标函数值
较优的变量,是一种较理想的特征选择工具[25],但
该方法收敛速度慢、结构参数选取存在随机性.为提
高 GA分析的有效性、准确性和稳定性,也有学者对
GA注入变量进行了研究,如陈斌等[26]将相关系数
法生成的初始化波长作为启发性信息注入 GA 算法
中,简化搜索空间,引导搜索方向,从而达到快速收
敛的目的;李鹏飞等[27]利用反向区间偏最小二乘法
(BiPLS)对原始光谱波长进行初步定位,再用遗传
算法进行二次选择,减少了运算时间,提高了模型的
预测能力和精度.在光谱消噪降维中,小波变换是最
常用和有效的工具,本文将离散小波变换的低频系
数作为遗传算法的注入变量,将小波变换的压缩消
噪和遗传算法的特征选择相结合,同以往单纯将小
波系数作为模型变量相比[8],在进一步减少建模变
量的基础上,提高了预测精度和稳定性,取得了更好
的土壤碱解氮含量高光谱估测效果,对从复杂、重
叠、变动的光谱信号中提取有用信息并建立校正模
型具有积极的参考意义.
无论对小波低频系数及 GA变量筛选结果的分
析,还是对所构建估测模型精度的分析,基于 Bior
1. 3 函数 1 ~ 2 层小波低频系数构建的估测模型精
度均相当或略优于土壤全谱,而入选变量数目却大
幅减少,尤以第 2 层小波分解效果最佳.本文仅针对
山东省齐河县的潮土类型和土壤碱解氮进行估测,
对于其他差异较大的土壤类型或其他土壤参数的适
用性还有待研究核实.
在土壤光谱划分区间大小选择时,按照“波长
范围 2 倍递增并且就近取奇数值的原则冶,本文确
定 7 nm为最适宜的光谱区间划分大小,对于其他的
土壤全谱或 1 ~ 3 层小波系数区间大小划分方案,研
究结果是否相同,还有待进一步研究探索.
本文基于室内光谱,采用 DWT鄄GA鄄PLS 构建的
最佳模型有 43 个参与变量,在室内可采用计算机技
术或程序语言快速、自动实现碱解氮含量估测,对田
间原状土碱解氮估测具有参考意义,但推广到田间
原位实时测量,仍需进一步探索.今后将采用田间原
位光谱进行土壤碱解氮估测研究.
参考文献
[1]摇 Couillard A, Turgeon AJ, Shenk JS, et al. Near infra鄄
red reflectance spectorscopy for analysis of turf soil pro鄄
files. Crop Science, 1997, 37: 1554-1559
[2]摇 Zhang J鄄J (张娟娟), Tian Y鄄C (田永超), Yao X (姚
0913 应摇 用摇 生摇 态摇 学摇 报摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 24 卷
霞), et al. Application of wavelet packet analysis in es鄄
timating soil parameters based on NIR spectra: Spectro鄄
scopy and spectral analysis. Transactions of the Chinese
Society of Agricultural Engineering (农业工程学报),
2012, 28(12): 183-188 (in Chinese)
[3]摇 Ehsani MR, Upadhyaya SK, Fawcett WR. Feasibility of
detecting soil nitrate content using a mid鄄infrared tech鄄
nique. Transactions of the American Society of Agricul鄄
tural Engineers, 2001, 44: 1931-1940
[4]摇 Shen Y (申摇 艳), Zhang X鄄P (张晓平), Liang A鄄Z
(梁爱珍), et al. Near infrared spectroscopy in deter鄄
mining organic carbon and total nitrogen in black soil of
Northeast China. Chinese Journal of Applied Ecology
(应用生态学报), 2010, 21(1): 109-114 ( in Chi鄄
nese)
[5]摇 Cheng T, Rivard B, S佗nchez鄄Azofeifa A. Spectroscopic
determination of leaf water content using continuous
wavelet analysis. Remote Sensing of Environment, 2011,
115: 659-670
[6]摇 Liu W (刘摇 炜), Chang Q鄄R (常庆瑞), Guo M (郭
曼), et al. Application of wavelet transformation in de鄄
tection of organic matter content based on visible / near
infrared reflectance spectroscopy. Agricultural Research
in the Arid Areas (干旱地区农业研究), 2010, 28
(5): 241-246 (in Chinese)
[7] 摇 Viscarra鄄Rossel RA, Lark RM. Improved analysis and
modelling of soil diffuse reflectance spectra using wave鄄
lets. European Journal of Soil Science, 2009, 60: 453-
464
[8]摇 Chen H鄄Y (陈红艳), Zhao G鄄X (赵庚星), Li X鄄C
(李希灿), et al. Application of wavelet analysis for es鄄
timation of soil available potassium content with hyper鄄
spectral reflectance. Scientia Agricultura Sinica (中国
农业科学), 2012, 45(7): 1425-1431 (in Chinese)
[9] 摇 Chu X鄄L (褚小立), Yuan H鄄F (袁洪福), Lu W鄄Z
(陆婉珍). Progress and application of spectral data
pretreatment and wavelength selection methods in NIR
analytical technique. Progress in Chemistry (化学进
展), 2004, 16(4): 528-542 (in Chinese)
[10]摇 Michael F, Julio C, Leyden F, et al. Genetic algorithm
optimization in drug design QSAR: Bayesian鄄regularized
genetic neural networks ( BRGNN) and genetic algo鄄
rithm鄄optimized support vectors machines ( GA鄄SVM).
Molecular Diversity, 2011, 15: 269-289
[11]摇 Elliott GN, Worgan H, Broadhurst D, et al. Soil differ鄄
entiation using fingerprint fourier transform infrared
spectroscopy, chemometrics and genetic algorithm鄄based
feature selection. Soil Biology & Biochemistry, 2007,
39: 2888-2896
[12]摇 Zou X鄄B (邹小波), Zhao J鄄W (赵杰文). Methods of
characteristic wavelength region and wavelength selection
based on genetic algorithm. Acta Optica Sinica (光学学
报), 2007, 27(7): 1316-1321 (in Chinese)
[13]摇 Tu Z鄄H (屠振华), Ji B鄄P (籍保平), Meng C鄄Y (孟
超英), et al. Analysis of NIR characteristic wave鄄
lengths for apple flesh firmness based on GA and iPLS.
Spectroscopy and Spectral Analysis (光谱学与光谱分
析), 2009, 29(10): 2760-2764 (in Chinese)
[14]摇 Wang J鄄H (王加华), Han D鄄H (韩东海). Analysis of
near infrared spectra of apple SSC by genetic algorithm
optimization. Spectroscopy and Spectral Analysis (光谱
学与光谱分析), 2008, 28(10): 2308-2311 (in Chi鄄
nese)
[15]摇 Weng J鄄T (温健婷), Zhang X (张 摇 霞), Zhang B
(张摇 兵), et al. A study of band selection method for
retrieving soil lead content with hyperspectral remote
sensing data. Advances in Earth Science (地球科学进
展), 2010, 25(6): 625-629 (in Chinese)
[16]摇 Li L, Cheng Y, Ustin S, et al. Retrieval of vegetation
equivalent water thickness from reflectance using genetic
algorithm(GA)鄄partial least squares (PLS) regression.
Advances in Space Research, 2008, 41: 1755-1763
[17]摇 Chen H鄄Y (陈红艳), Zhao G鄄X (赵庚星), Li X鄄C
(李希灿), et al. Hyper鄄spectral estimation of soil or鄄
ganic matter content based on wavelet transformation.
Chinese Journal of Applied Ecology (应用生态学报),
2011, 22(11): 2935-2942 (in Chinese)
[18]摇 Si BC. Spatial scaling analysis of soil physical proper鄄
ties: A review of spectral and wavelet methods. Vadose
Zone Journal, 2008, 7: 547-562
[19]摇 Zheng L鄄H (郑丽华), Li M鄄Z (李民赞), Pan L (潘
娈), et al. Application of wavelet packet analysis in es鄄
timating soil parameters based on NIR spectra. Spectro鄄
scopy and Spectral Analysis (光谱学与光谱分析),
2009, 29(6): 1549-1552 (in Chinese)
[20]摇 Wang X鄄P (王晓平), Cao L鄄M (曹立明). Genetic
Algorithm: Theory, Application, Soft Implementation.
Xi爷an: Xi爷an Jiaotong University Press, 2002 (in Chi鄄
nese)
[21]摇 Mill佗n CP, Forina M, Casolino C, et al. Extraction of
representative subsets by potential functions method and
genetic algorithms. Chemometrics and Intelligent Labora鄄
tory Systems, 1998, 40: 33-52
[22]摇 Wang G鄄Q (王国庆), Shao X鄄G (邵学广). A dis鄄
crete wavelet transform鄄genetic algorithm鄄cross validation
approach for high ratio compression and variable selec鄄
tion of near鄄infrared spectral data. Chinese Journal of
Analytical Chemistry (分析化学), 2005, 33(2):191-
194 (in Chinese)
[23]摇 Fang L鄄M (方利民), Feng A鄄M (冯爱明), Lin M
(林 摇 敏). Rapid prediction of total organic carbon
content and CEC in soil using visible / near infrared spec鄄
troscopy. Spectroscopy and Spectral Analysis (光谱学与
光谱分析), 2010, 30(2): 327-330 (in Chinese)
[24]摇 Wang MH, Tseng YF. A novel analytic method of power
quality using extension genetic algorithm and wavelet
transform. Expert Systems with Application, 2011, 38:
12491-12496
[25]摇 Cho HW, Kim SB, Jeong MY, et al. Genetic algorithm鄄
based feature selection in high鄄resolution NMR spectra.
Expert Systems with Applications, 2008, 35: 967-975
[26]摇 Chen B (陈摇 斌), Wang H (王摇 豪), Lin S (林摇
松), et al. Analysis of near infrared spectroscopy of
beer alcohol content by correlation coefficients and ge鄄
netic algorithms. Transactions of the Chinese Society of
Agricultural Engineering (农业工程学报), 2005, 21
(7): 99-102 (in Chinese)
[27]摇 Li P鄄F (李鹏飞), Wang J鄄H (王加华), Cao N鄄N (曹
楠宁), et al. Selection of variables for MLR in Vis /
NIR spectroscopy based on BiPLS combined with GA.
Spectroscopy and Spectral Analysis (光谱学与光谱分
析), 2009, 29(10): 2637-2641 (in Chinese)
作者简介 摇 陈红艳,女,1979 年生,博士,讲师. 主要从事农
业遥感与信息技术研究,发表论文 13 篇. E鄄mail:chenhy@
sdau. edu. cn
责任编辑摇 杨摇 弘
191311 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 陈红艳等: 基于 DWT鄄GA鄄PLS的土壤碱解氮含量高光谱估测方法摇 摇 摇 摇 摇 摇