全 文 :收稿日期:!""#"#%& 接受日期:!""’"("’
基金项目:国家“’&)”项目(!""&**%"*)"!)资助。
作者简介:卢艳丽(%+#&—),女,内蒙古赤峰市人,博士,主要研究高光谱遥感技术在精准农业中的应用。,-./01:12314 5//67 89: 7 58
!通讯作者 ;91:"%"&’+%’&#),,-./01:3104 5//67 /57 58<br基于主成分回归分析的土壤有机质 高光谱预测与模型验证 卢艳丽,白由路!,杨俐苹,王红娟,孔庆波 (中国农业科学院农业资源与农业区划研究所,农业部植物营养与养分循环重点开放实验室,北京 %"""’%) 摘要:在室内条件下,利用 *=>!?""高光谱仪测定了风干土壤样品的光谱。通过相关分析对土壤有机质(=@A)光 谱敏感波段进行了初步筛选,利用逐步回归分析和主成分回归(BCD)分析等统计方法进行了显著性变量筛选、共 线性诊断、数据转换等处理,最终建立了东北黑土 =@A回归预测模型。模型所选的波段为均位于近红外波段。经 验证,模型预测值与实测值的决定系数 D! E "F’(",总均方根差 D=A, E "F!!&。 关键词:高光谱;土壤有机质;共线性诊断;主成分回归(BCD);模型 中图分类号:@!%!F%;=%?)F& G ! 文献标识码:* 文章编号:%""’?"?H(!""’)"&"#
!""#() (* +,"-./"-%’.&# 0&’& *(. /(# (.1&)% 2&’’-. -/’2&’()
3&/-0 () ".)"#- %(2"()-)’/ .-1.-//() &)&#,//
IJ K/8-10,L*M KN2-12!,K*OP I0-Q08R,S*OP TN8R-U2/8,V@OP W08R-
和 T/8a6就指出,影响土壤反射的因素主要有土壤
质地、表面粗糙度、氧化铁含量、土壤水分含量和有
机质含量。而腐殖质是影响土壤色调进而影响光谱
植物营养与肥料学报 !""’,%((&):%"#&%&#’(%等[)]研究表
明,土壤有机质含量与红光波段的反射率具有较强
的相关性,决定系数 *+ 可达 ,-.,);沙晋明等[/,]对
!个不同环境条件下形成的土壤样本剖面上的各个
土层进行光谱测量,发现有机质含量与土壤光谱在
紫外区的 01.-! 2波段、可见光区的./.−32波段
和近红外区的 1+4-/ 2波段附近有较好的负相关性。还有一些研究也确定了有机质影响波段范围在.,,!!,,2附近[//5/+]。何挺等[/0]运用光谱微分技
术、逐步回归分析等方法研究了土壤光谱反射特性
与土壤有机质之间的关系。结果表明反射率对数的
一阶微分对土壤有机质含量最为敏感并建立了相应
的回归预测模型。前人在利用多光谱或高光谱数据
对有机质反演的研究中,主要是利用敏感波段的反
射率及其特征参量的构建作为自变量进行回归分
析,进而获得土壤有机质的回归预测模型。如贺军
亮等[/4]利用 3,1!3// 2波段范围∗6∗43,!13,作为诊断指数对789进行了预测;何挺等[/0]利用!4)2、/.!/ 2、+/!12 0个波段的反射率对数的
一阶微分为自变量构成的回归方程对 789进行了
预测。尽管这些模型在预测土壤有机质含量上都具
有一定的效果,但是还存在很多问题。首先,利用单
一的光谱参量容易造成信息的损失。构建包含多波
段信息的复杂光谱诊断指数不但增加了计算和理解
上的难度,而且还可能会导致有用信息被掩盖,使得
模型预测的稳定性不好。通过逐步回归等分析方法
构建的模型,尽管模型中入选的波段均被验证为对
789具有显著回归作用,但是却忽略了不同波段反
射参量之间存在的“多重共线性”即自变量之间的自
相关的问题。而多重共线性存在是我们求出的回归
系数的符号及其数值理论不一致的主要原因[/3]。
本研究通过相关分析确定了土壤有机质含量的敏感
波段。并且利用 7:77/0-, ;<= >(?<@%&’! ()* +%,-.%/0-%12 13 ,4567%2& %2 21.-)*4,- 13 8)%24
11,/.期 卢艳丽,等:基于主成分回归分析的土壤有机质高光谱预测与模型验证
乘以矫正系数 !"!,再乘以常数 !"#"光谱仪 &’()*+,, 便携式光谱仪光谱范
围为 -+,!+,,./。在−+,!!,,,./范围内采样间隔为!"+,, ./范围内为 ./,输出波段数为!+,(重采样间隔为 ! ./)。
!""−土壤反射率测量将处理好的土样置于直径!+0/深 0/ 的容器中,装满后将土壤表面刮
平,进行室内光谱反射率的测量,操作过程在四周为
漆黑的实验室进行,+ 度视场角的光纤探头固定在
支架上,探头距土壤样本表面 -, 0/。光源为能够提
供平行光的 !,,,1卤光灯,距土壤表面 +, 0/,光源
天顶角为 !+2。每个土样测定 !, 条光谱反射率曲
线,去掉异常线后取平均作为该土样的光谱反射率
值。以白色参考板获取绝对反射率。
!"# 主成分回归分析原理及过程
在多元线性回归分析中,自变量之间会存在一
定程度的相关性。若相关程度较高,则会使各回归
系数估计的方差很大,较严重的多重共线性会导致
不能准确地解释因变量的变化。主成分回归是可以
诊断自变量间的共线性,并给出最终回归预测方程。
其主要步骤为(图 ):!)逐步回归,筛选回归显著的因子3个。)诊断共线性。若不存在共线性,则建立因变
量 4与 3个自变量的回归方程;若存在共线性,则
进行主成分分析和数据标准化,消除共线性。
-)用标准化的因变量和主成分进行回归,进而
建立标准化线性方程。
%)通过对步骤(-)得到的回归方程参数重组,转
化为原因变量和自变量的表达式。
图 主成分回归分析流程图 %)*+ ,-./0 1*/ 2/&3,&2)4 ,*52*3430 /4’/466&*3
!"7 模型的建立和验证
建模样本和验证样本均来自东北黑土,其中
!,,个样本用来建立模型,另外 %%个样本用来验证
模型。采用 *’56法对模型进行检验。
结果与分析"! 土壤有机质含量与光谱反射率不同变换形式
的一阶微分相关分析
对原始光谱求导数后对土壤有机质含量的变化
7#,! 植 物 营 养 与 肥 料 学 报 !%卷
敏感程度增强。土壤有机质含量与一阶导数光谱
(! " #)在、’ 4 ! " #和 56! " #]与 27的相关
性。从图 -可以看出,反射率对数形式的一阶导数
进一步增强了对土壤有机质含量的敏感程度。与
27相关达到显著水平的波段范围分别是 %-/!
%(/、((/!(&/、,&/!),/、’///!’-//、’(-/!’(,/和
’,//!’,)/ *+。
图 ! 土壤有机质含量与原始光谱反射率和一阶导数光谱相关分析
"#+-#1 2+,,)( 1’-,)-, +-3 ’(##-+* ()0*)1,+-1) +-3 #,/ 0#(/, 3)(#4+,#’- 565 基于反射率对数一阶导数(789: ; "<)土壤 有机质最优模型的选择 .8.8’ 逐步回归敏感变量的筛选和共线性诊断 选择反射率对数一阶导数与 27相关达到显著水平 的波段范围,并进行以 -/ *+或 (/ *+间隔对宽波 段的进一步细划,最终确定的波段范围分别是 %-/ !%(/、((/!(&/、,&/!0./、0.’!0(/、0(’!0&/、0&’ !&’/、&’’!&%/、&%’!&0/、&0’!)//、)/’!)-/、)-’ !),/、’///!’/(/、’/(’!’’//、’’/’!’’(/、’’(’! ’.//、’./’!’.(/、’.(’!’-//、’(-/!’(,/、’,//! ’,(/、’,(’!’,)/ *+。用以上波段的平均值(共 .’ 个变量)与 27进行逐步回归分析。经过逐步回归, 确定了只有 0.’!0(/、&’’!&%/、&%’!&0/、)-’! ),/、’///!’/(/、’/(’!’’//、’./’!’.(/、’,//! ’,(/ *+共 &个波段的特征值对 27回归作用显著, 被留在模型中(表 .)。表 .还列出了逐步回归结果 的回归系数和共线性统计量。其中共线性统计量包 括:容差(9:;<=>*?<)和方差膨胀因子(@A#)。其中, 容差 B ’"!.。因此,容差越小(接近 /),该自变量几 乎是其他自变量的线性组合。而方差膨胀系数是容 差的倒数,小容差导致大 @A#,故某自变量的小容差 和大 @A#均提示其共线性存在。从表 . 看出,入选 的变量中(;:C!(&’/! &%/))D与(;:C!(&%’!&0/))D之间,(;:E C!(’///! ’/(/))D与( ;:C!(’/(’"’’//))D之间存在高度共线 性。从其波长所在位置可以知道,这两组高度共线 性的变量的波长位置是相邻的。波段相邻或相近是 最容易发生高度共线性的一种情况。 .8.8. 最佳主成分回归模型的确定 由于逐步回 归选入模型中的变量存在高度共线性,必须将数据 进行标准化。因此,可通过主成分回归分析来完成。 表 -显示,& 个变量因子分析中的前 - 个主成分累 积解释的变异量为 )%8(’0F。由此可见,所选的 & 个变量在解释 27 时,可以用 - 个主成分来解释。 因此确定了用 -个主成分来代表 &个光谱变量包含 )0/’,期 卢艳丽,等:基于主成分回归分析的土壤有机质高光谱预测与模型验证 表 ! 回归系数及共线性诊断 "#%& ! ’&()%*( +,-. (*&/01(& ,&2,&((1-3 #34 5-%%13&#,1*6 41#23-(*15(
参数
!"#"$%&%#
标准化回归系数(!)
’&"()"#)*+%) #%,#%--*.( /.%00*/*%(&(!)
! 值
! 1"23%
"值
" 1"23%
共线性诊断 4.22*(%"#*&5 )*",(.-&*/-
容差
6.2%#"(/%
方差膨胀系数(789)
7"#*"(/% *(02"&*.( 0"/&.#-(789)
!: ;<=>? :<:>?
(2.,@(AB>CAD:))E D?
(2.,@(>:::C>:=:))E C ;
(2.,@(>G::C>G=:))E :<=GF B<=;F :<::: :<>AG =(2.,@(D;>CD=:))E : :<::? :<;?A B<;:D
(2.,@(>>:>C>>=:))E C :<=G: C BD B<=FF
(2.,@(>;::C>;=:)) :
(2.,@(>:=>C>>::))E C :
表 7 因子分析结果 8解释总变异量
"#H.(%(&
初始特征值
8(*&*"2 %*,%(1"23%-
平方和负荷量萃取
IJ&#"/&*.( -3- .0 -K3"#%) 2.")*(,- 总和 6.&"2 方差百分数 L .0 7"#*"(/% 累积百分数 4332"&*1%L
总和
6.&"2
方差百分数
L .0 7"#*"(/%
累积百分数
43$32"&*1%L
> =; >GG? :
B := :<:GA :
D :<::A :<>:= FF
的信息。最终建立的标准化主成分回归方程和转换
后有机质预测模型见式 >和式 ;。
最佳标准化主成分回归方程为:
M’N :<=>D4>C:<:B:4; O :<:=A4?(@; N GDB!!)(>)
转换后的 PQ预测模型为:
PQ(L)N C :<;?? O DB:( 2.,@(D;>CD=:))E O F>F( 2.R
,@(A>:CAB:))E O AG:( 2.,@(AB>CAD:))E O ABF( 2.,@(>:::C>:=:))E
O DG>(2.,@(>:=>C>>::))E O GA?(2.,@(>>:>C>>=:))E O >GDD(2.R
,@(>;::C>;=:))E O G?G(2.,@(>G::C>G=:))E(@; N GA>!!)(;)
!=7 模型检验
由图 B可见,反射率对数的一阶导数对土壤有
机质的预测值与实测值的决定系数 @; 为 :
&*"&%) PQ)和利用反射率对数的一阶微分(SPT@ C 9U)预测的土壤有机质含量(!#%)*/&%) PQ)进行 V#*,R 图 > ?@A预测值与实测值相关性比较 912B> C-./#,1(-3 -+ /,&415#*&4 #34 &(*1.#*&4 ?@A *(,插值,比较有机质化学测定值与实测值空间分布 上的差异。从插值后的空间分布情况来看,预测值 均与实测值具有一定的相关性(图 =)。 :A:> 植 物 营 养 与 肥 料 学 报 >B卷 图 ! "#预测值与实测值空间分布比较
%&’(! ")*+&*, -./)*0&1.2 .3 )045&-*+45 *25 41+&/*+45 "#6 讨论与结论 土壤反射光谱特性是土壤的基本特征之一,它 与土壤的物理性质有着密切的关系[!"]。土壤有机 质对土壤光谱反射率的影响在视觉上表现为暗黑色 的土壤比亮色的土壤有机质含量更高,这表明了土 壤有机质含量与可见光波段光谱反射率间的关 系[!#!%]。高光谱以其高分辨率、信息量大的特点在
反演土壤有机质含量上表现出强大的优势。
&’()*++高光谱仪能够提供包括可见光和近红外光
谱在内较详细的地物光谱信息。土壤有机质含量的
差异在可见光和近红外波段的光谱反射率都会有所
体现。人们总是希望能够充分利用全波段内有用的
光谱信息使得模型能够更精确、更实际地反演
’,-。基于此,许多研究者做了很多相关的研究。
例如周清等比较了不同波段反射率入选后模型的决
定系数的大小,以入选波段少决定系数大的原则来
确定最终反演模型[!.]。主成分回归不但可以消除
变量间共线性的影响,在保留原有信息的基础上还
有降维的作用。而且本研究通过相关分析、回归分
析和主成分分析等多种统计方法相结合,通过敏感
波段的筛选,并按照相关显著程度进一步将敏感波
段按不同波宽分段进行平均;剔出对 ’,-回归不
显著的变量;对剔出后的变量进行共线性诊断;建
立标准化主成分回归方程等过程,这在以往的研究
中未见报道。本研究最终建立消除了自变量间共线
性影响,又保留了全部有用信息的预测 ’,-的多元
线性回归模型。经过验证,利用反射率对数的一阶
导数对土壤有机质的预测达到了比较好的效果;在
空间分布上预测值与实测值也具有较好的相关性。
出现偏离的样品主要与不同区域有关,即对某些地
区的土壤预测出现偏高或偏低的现象,这可能是由
于不同地区土壤受到影响因素不同以及受影响程度
不同,导致土壤表现出一定的差异,近而导致了预测
受到一定的影响。进一步说明,利用预测值与实测
值的空间分布有利于寻找影响预测偏差的地理因
素,有利于模型的进一步修正和完善,这也是下一步
工作的重点。
参 考 文 献:
[!] /012 & - (,30425 670 8 8,-96:2;0 8 & !" #!!)N
[)] OHLL2; / P,’HKKHBF Q &,O0;;7C426 ’ RI ’07; L071BH62 9CK 0649C7:
L9BB26 E62K7:B70C 0A 1H6A9:2 9CK 1H=1H6A9:2 107;1 H17C4 9C ?@3 107; 12C>
106[/]I 80LEHB I R;2:B6 I &467:I,)++!,S):!M.!"*N [S] T7H P (,U962B V,JH W V !" # % 32;9B7C4 107; 1H6A9:2 L071BH62 B0 62>
A;2:B9C:2[/]I 32LI ’2C1I RCG760CI,)++),%!:)S%)M"N[M]J9;G90T′,<7B062;;0@I30;20A0649C7:L9BB267C0=;7B269B7C4BF22A>A2:B10A760C0C1E2:B69;2A;2:B9C:29CK:0;060A=69X7;79CB60E7:9;107;1[/]I@CB26C9BI/I32LI′2C1I,!..!.#.N
[*] (2L9BBY / & -,’0H19 & &,&;G21 - 8 !" #!.*N
["] 彭玉魁,张建新,何绪生,等 I 土壤水分、有机质和总氮含量的
近红外光谱分析研究[/]I 土壤学报,!..%,S*(M):**S**.N \2C4 ] Q,^F9C4 / W,O2 W ’ !" # % &C9;Z171 0A 107; L071BH62,06>
49C7: L9BB26 9CK B0B9; C7B6042C :0CB2CB 7C ;0211 7C 8F7C9 D7BF C296 7C>
A6962K 1E2:B601:0EZ[/]I &:B9 \2K0; I ’7CI,!..%,S*(M):**S**.N [#] U60DC ( /,U67:_;2LZ26 3 ’,-7;;26 \ 3I <9;7K9B70C 62‘H762L2CB1 A06 K7AAH12 62A;2:B9C:2 107; :F969:B267X9B70C L0K2;1 D7BF 9 :912 1BHKZ 0A ?@3 107; 8 E62K7:B70C 7C -0CB9C9[/]I J20K26L9,)++*,!).:)*!$<br)"#N [%] 汪周伟,钱淑萍 I 东北主要土壤反射光谱特性[/]I 土壤通报, !.%M,(*):)+.)!!N
P9C4 ^ P,a79C ’ \I ’07; 1E2:B69; 62A;2:B9C:2 :F969:B2671B7:1 7C
C06BF>291B[/]I 8F7CI /I ’07; ’:7 I,!.%M,(*):)+.)!!N[.]JHC19H;71V3I,Q0:F26−V,J67AA718TI′H6A9:21B6H:BH622AA2:B10C!%&’()*% ’%+"%!,()!% (( +-)!,.#) #+#." #’*().! /(,,%’ !#),%),[0]1
2’()!1 3435,6776,89(:):;96<;97=
[6>] 沙晋明,陈鹏程,陈松林,等 1 土壤有机质光谱响应特性研究
[0]1水土保持研究,:>>8,6>(:)::6<:9=
4?( 0 @,A?%) B A,A?%) 4 C !" #,.!()("D.#+#."
EE#)-",%F +’#/ #’*().! /(,%’.("[0]1 0 1 G%1 4#." H(,%’ A#)%’I1,:>>8,6>(:)::6<:9=
[66] J(-/*(’F)%’ @ K,4."I( C K,J.%?" C C !" #
#+ #."[0]1 3FI1 3*’#)1,67LM,8L:6<9=
[6:] 徐彬彬 1 土壤剖面的反射光谱研究[0]1 土壤,:>>>,(;)::L6
<:LN=
O- J J1 4,-FD #) E#." % 4E%!,’(" +%(,-’%#+#." #’*().! /(,,%’
[0]1 0 1 H-?() R).I1(S%#/1 T)+#’/1 4!. 1 5F1),:>>;,86(66):
7NM<7N7=
[69] 贺军亮,蒋建军,周路,等 1 土壤有机质含量的高光谱特性及
其反演[0]1 中国农业科学,:>>N,9>(8):;8L<;98=
P% 0 C,0.()* 0 0,Q?#- C !" #E%!,’(" !?(’(!,%’.,.!
()F ’%,’.%I(" #+ #." #’*().! /(,,%’ !#),%),[0]1 4!. 1 3*’.!1 4.)1, :>>N,9>(8):;8L<;98= [6M] 舒晓蕙,刘建平 1 利用主成分回归法处理多重共线性的若干 问题[0]1 统计与决策,:>>9,(6>)::M<:;= 4?- O P,C.- 0 B1 4#/% E’#U"%/ #+ !#"".)%(’.,D ,’%(,%F -.)* E’.)!.&
E"% !#/E#)%), ’%*’%$$.#)[0]1 4,(, 1 V%!1 &@(W1,:>>9,(6>)::M<
:;=
[6;] 徐金鸿,徐瑞松,夏斌,等 1 土壤遥感监测研究进展[0]1 水土
保持研究,:>>;,"8(:):6N<:>=
O- 0 P,O- G 4,O.( J !" #$ % G%$%(’!? (FI()!%$ #) $#." /#).,#’.)*
UD ’%/#,% $%)$.)*[0]1 G%$1 4#." H(,%’ A#)$%’I1,:>>;,"8(:):6N
<:>=
[6N] J%)1 V#’ 5,J().) 31 X%(’&.)+’(’%F ()("D$.$ ($ ( ’(E.F /%,?#F ,# $.&
/-",()%#-$"D %I("-(,% $%I%’(" $#." E’#E%’,.%$[0]1 4#." 4!. 1 4#!1 3/1
01,677M,M7:8;9<8N:=
[6L] @-,-# B Y,4?%E?%’F Y V,3"U’%!?, 3 !" #$ % B’%F.!,.#) #+ !(’U#)
/.)%’(".Z(,.#) ’(,%$ +’#/ F.++%’%), $#." E?D$.!(" +’(!,.#)$ -$.)* F.++-$%
’%+"%!,()!% $E%!,’#$!#ED[0]1 4#." J.#" 1 J.#!?%/1,:>>;,8L:6;ML
<6;;9=
[67] 周清,张杨珠,周斌,等 1 室内几何条件对土壤高光谱数据波
动性的影响[0]1 湖南农业大学学报(自然科学版),:>>9,8>
(6)::7<8:=
Q?#- [,Q?()* \ Q,Q?#- J !" #$ % 5++%!, #+ *%#/%,’.! !#)F.,.#)$ #)
$#." ?DE%’$E%!,’(" F(,( +"-!,-(,% !?(’(!,%’.$,.! .) "(U#’(,#’D ,%$,[0]1
0 1 P-)() 3*’.!1 R).I1(X(, 1 4!. 1),:>>9,8>(6)::7<8:=
:L>6 植 物 营 养 与 肥 料 学 报 69卷