免费文献传递   相关文献

遗传算法结合偏最小二乘法无损评价西洋梨糖度



全 文 :第2 9卷 , 第3期             光 谱 学 与 光 谱 分 析 Vol.29 , No.3 , pp678-681
2 0 0 9 年 3 月             Spectro scopy and Spectr al Analy sis March , 2009  
遗传算法结合偏最小二乘法无损评价西洋梨糖度
王加华 , 潘 璐 , 孙 谦 , 李鹏飞 , 韩东海*
中国农业大学食品科学与营养工程学院 , 北京 100083
摘 要 基于遗传算法的波段选择法在组合优化问题上具有很大的搜索优势 , 适应性很广。文章将该方法应
用于西洋梨糖度近红外光谱分析中 , 探讨数据优化筛选的可行性。光谱经多元散射校正或标准归一化处理
后进行波段选择 , 选择结果与样品中被测成分有关 , 4 个品种洋梨的最佳个体染色体编码有一定共性。分别
建立了四种洋梨的 GA-PLS 模型和全谱模型 , 早红考密斯 、五九香 、凯斯凯德和康佛伦斯的 GA-PLS 建模数
据点分别从 1 557 减少到了 434 , 496 , 310 和 496。GA-PLS/F r-PLS 模型的预测标准偏差分别为 0.428/
0.518 , 0.696/0.694 , 0.425/ 0.421和 0.567/0.633 , 其中早红考密斯和康佛伦斯 GA-PLS 模型的预测精度
明显优于全谱模型 , 而五九香和凯斯凯德的 GA-PLS 模型与全谱模型相近。结果表明 , 遗传算法用于 PLS
建立西洋梨糖度校正模型前的数据优化筛选是可行的 , 有效提高测量精度 , 减少建模变量。
关键词 近红外光谱;遗传算法;波段选择;偏最小二乘法;糖度;西洋梨
中图分类号:O657.3;S37  文献标识码:A  DOI:10.3964/ j.issn.1000-0593(2009)03-0678-04
 收稿日期:2007-10-08 , 修订日期:2008-01-12
 基金项目:国家科技支撑计划项目(2006BAD05A06)和国家自然科学基金项目(30571073)资助
 作者简介:王加华 , 1979年生 , 中国农业大学食品科学与营养工程学院博士研究生  e-mai l:w.jiahua@163.com
*通讯联系人  e-mai l:caundt@cau.edu.cn
引 言
  西洋梨(Pyrus communis linn)为欧美所栽培的梨代表品
种。我国引进品种较多如早红考密斯(Early Red Comice)、凯
斯凯德(Cascade)、 康佛伦斯(Confe rence)以及国内培育品种
五九香(英国巴梨×鸭梨)(Wujiuxiang)[ 1] 。西洋梨采收时果
实质地硬 , 不宜直接食用 , 通常需要在室温下经 7 ~ 10 d 后
熟期 , 果实变软后柔软多汁 , 具有香气 , 品质上等。具有独
特外形和颜色 , 优良的风味口感 , 深受消费者青睐 , 为了提
高西洋梨的附加值 , 就需求一种快速 、 准确 、 无损伤的方法
检测糖度 , 并对其鉴别分选。
最小二乘法(par tial least squa res , PLS)是目前多元校正
中最常用的方法之一 , 具有较强的抗干扰能力 , 可全波长或
根据相关性选取波段参与建模 , 在水果品质检测中得到广泛
的应用[ 2-5] 。筛选特征变量可以简化模型 , 更主要是剔除不
相干或非线性变量 , 提高预测能力 , 如无信息变量的消除法
(RUV)[ 6] 、间隔偏最小二乘法[ 7](iPLS)、 遗传算法[ 8](GA)
等。其中 GA 是应用较广泛的一种变量选取方法 , 给出了提
高分析结果准确性的一个重要途径[9-15] 。
本文采用一种基于遗传算法的波段选择方法(region se-
lecting by gene tic a lg orithms , R-SGA)[ 16] , 对西洋梨近红外
光谱进行优化后 , 建立了遗传优化谱区偏最小二乘法(GA-
PLS)模型;分析了各种西洋梨最优波段特点;考察了 GA-
PLS 模型预测精度。
1 实验材料和方法
1.1 实验材料
供试样品(2008 年北京奥运会推荐果品评选暨第六届中
国梨王擂台赛参赛样品)均产自北京大兴有机栽培产区梨园 ,
无外部缺陷 , 着色理想。实验前将梨置于室内(24 ℃, 相对
度 66%)10 h 至室温 , 样品的光谱采集和标准值测定当天完
成。总样品数为344 个 , 包含 4 个品种:早红考密斯 、凯斯凯
德 、 康佛伦斯和五九香 , 均包含不同成熟程度的样品。按糖
度排序 , 依3∶1比例将样品分为建模集和预测集 , 糖度最大
和最小样品置于建模集 。
1.2 光谱采集
利用 Antaris 傅里叶变换近红外光谱仪(The rmo N ico-
le t , 美国)积分球附件分别采集西洋梨的漫反射光谱 , 配备
InGaAs 检测器。积分球窗口直径为 9 mm , 样品承载台上套
装软质黑橡胶垫圈 , 防止外界光干扰。
每个样品采集赤道对称均匀 4 点 , 光谱保存为 log (1/
R), R为反射比 , 光谱范围 10 000 ~ 4 000 cm -1(1 557 个数
据点), 分辨率为 8.0 cm-1 , 扫描 16 次取平均 , 四点平均光
谱作为样品光谱。
1.3 标准值测定
梨样品采集完光谱后 , 在相应光谱扫描的 4 个位置测量
糖度 , 糖度测定具体参照食品卫生检验方法理化部分总则
(GBPT500911-2003)。用便携式数字折射计(PAL-1 型 , 日本
ATAGO 株式会社)测量梨糖度 , 四点平均值作为样品糖度
值。表 1 为西洋梨样品糖度的统计结果 , 可以看出样品具有
较好代表性 , 分布范围较宽。
Table 1 Statistics of soluble solids content(SSC, °Brix)meas-
ured by the standard destructive methods for Western
pear
Samples
In dexes
Early Red
Comice
Wujiuxiang Cascade Conference
Number of sam ples 124 100 56 64
Mean 14.8 14.1 14.6 14.3
M axim um 17.7 17.3 17.1 17.1
Minimum 10.5 11.3 11.9 9.8
SD* 1.50 1.50 1.37 1.78
CV **/% 10.12 10.64 9.40 12.44
  SD*:Standard deviat ion;CV**:C oeff icient of variat ion
1.4 化学计量学方法
Barnes 提出“消除趋势”法解决漫反射分析中出现的基线
漂移问题[ 17] 。在近红外光谱分析时 , 样品的均匀性 、 粒径大
小和光程长短也经常影响光谱的形状;光谱的标准归一化处
理(SNV)是解决测量光程变化较理想的方法 , 而多元散射校
正技术(SMC)则在解决样品的粒径不均匀或测样容器不一
致对光谱的影响上有良好的效果。本文预处理方法由 TQ7.2
和 OM NIC (Thermo N ico let , 美国)软件完成。
遗传算法波长选择时 ,如果波长数目较大 , 则遗传算法的
染色体的基因位数就很多 , 从而使优化搜索空间十分巨大。
对于近红外光谱分析 ,只需要选择某些波段 , R-SGA[ 15 , 16]是
将原全谱区间按照某种方法分割成 n 个子区间(这里区间数
目远小于波长点数目), 每个波段为一个基因 , 为了使遗传
算法对适应值较高的个体有更多的生存机会 , 对评价指标变
换得到适应值函数为 F=R/(1+RMSPCV), 其中 R 为 PLS
交叉校验预测值与标准值的相关系数 , RMSPCV 为交叉校
验预测均方差。经过遗传算法优化出的最佳个体染色体为 n
位 0-1 编码组合 , 若基因编为 1 , 建模时包括此波段;若为
0 , 不包括此波段。本文遗传算法计算程序用 Visual C ++
6.0 编写。
采用偏最小二乘法(PLS)建立样品糖度模型 , 波段采用
R-SGA 优化结果。采用交互验证法确定最佳因子数(Fac-
to r), 当交互验证标准偏差(RMS ECV)和预测残差平方和
(PRESS)最小时 , 其对应因子数为最佳因子数。
2 结果与讨论
2.1 光谱数据预处理
西洋梨近红外光谱包含了内部化学成分的信息 , 且受物
理特性(如质构 、颜色 、表皮厚度等)和采谱方式影响。为了
去除高频随机噪音以及样本不均导致的基线漂移的影响 , 采
用 TQ7.2 和 OM NIC 软件对原始光谱进行预处理。先对光谱
进行 MSC(或 SNV)处理 , 消除光程及梨果面弧度不同引起
的基线漂移。早红考密斯和凯斯凯德采用 SNV 处理 , 康佛
伦斯和五九香采用 MSC 处理 , 处理后光谱如图 1 所示。
Fig.1 Values of R(1+RMSPCV)vs PLS factor
1:C ascade;2:E.R.Comice;3:Conference;4:Wujiu xing
2.2 遗传算法优化
光谱进行 MSC(或 SNV)处理后 , 将整个光谱(1 557 数
据点)分为 25 个子区间 , 前 24 个子区间有 62 个数据点 , 最
后 1 个子区间有 69 个数据点 , 然后进行 R-SGA 运算 , 选择
最优光谱区间。
Table 2 Optimal genetic algorithm configurations
Parame ter
E.R.
Comice
Wujiuxiang Cascade Confe rence
Number o f g ene rations 40 40 40 40
Popula tion size 30 30 30 30
Mutation probability 0.01 0.01 0.01 0.01
Recombination probability 0.60 0.60 0.60 0.60
Crossover scheme
Single-
point
Sing le-
point
Sing le-
po int
Single-
point
  遗传算法的参数设定如表 2所示 , 在选择不同 PLS 因子
数时 , 遗传到当前进化代为止的最佳个体适应度 R/(1 +
RM SPCV)的变化趋势。由图 1中可以看出随着因子数的增
加 , 最佳个体适应度总体呈上升趋势。当因子数小于 8 或者
7(Cascade)时变化较慢;当大于 8 时 , 最佳个体适应度显著
增加 , 一方面由于 R增大 , 另一方面因为 RMSPCV 的减小。
从最佳个体适应度来看 , 很难确定某一 PLS 因子数条件下的
遗传结果为最优光谱区间。
由于遗传算法为一种非导数的随机优化算法 , 其中群体
的选择 、 交叉 、变异都带有很强的随机性 ,且 PLS 因子数的
选择不同时导致每一次选择的波段组合不会完全相同。本文
将 10 个(3 ~ 12)不同 PLS 因子数遗传结果的最佳个体染色
体编码列出 , 计算每个区间被选择(即染色体编码为 1)的概
率 , 选取概率大于或者等于0.5 的子区间 , 再把相邻(连续为
“ 1”)的子区间合并 , 作为最终保留区间。四种洋梨的R-SGA
679第 3 期                    光谱学与光谱分析
选择结果标示如图 2 , 其中早红考密斯共有 7 个波段被选 ,
合并相邻区间后为 4234.9 ~ 4 474 cm -1 , 4 713.2 ~ 4 952.3
cm -1 , 5 191.4~ 5 430.6 cm -1和 5 669.7~ 5 908.8 cm -1 , 共
有 434 个数据点;五九香有8 个波段被选 , 合并后为 4 474~
6 159 cm -1和 6 387.1 ~ 6 626.2 cm-1 , 共有 496 个数据点;
凯斯凯德共有 5 个波段被选 , 合并后分别为 4 000 ~ 4 234.9
cm -1 , 4 474 ~ 5 191.4 cm -1和 7 104.5 ~ 7 343.6 cm -1 , 共
310 个数据点;康佛伦斯共有 8 个波段被选 , 合并后为 4
234.9 ~ 4 713 cm -1 , 4 952.3 ~ 5 669.7 cm -1和 6 150 ~ 6
865.3 cm -1 , 共 496 个数据点(见图 2)。
  由于品种差异较大 , 如果皮厚度 、 质构 、 颜色等 , 导致
被选择波段存在较大差异 , 但是四种洋梨遗传结果也具有一
定的共性 , 如在 4 474 ~ 5 430 cm -1 和 6 387.1 ~ 6 626.2
cm -1波段被选择概率较高 , 是与蔗糖和葡萄糖等相关的
C—O和 C—H 键的一倍频 、二倍频和合频的吸收有关。
2.3 GA-PLS模型建立
选择遗传优化波段 , 采用 TQ7.2 建立洋梨 GA-PLS 模
型 , 同时建立全谱模型(F r-PLS)。由表 3 可以看出 , 早红烤
密斯和康佛伦斯的 GA-PLS 模型的 RMSEP 分别为 0.428 和
0.567 , 均低于其全谱模型的 0.518 和 0.633。五九香和凯斯
凯德的 GA-PLS 模型的 RMSEP 分别为 0.696 和 0.425 , 预
测精度稍差于全谱模型的 0.964 和 0.421 , 但建模所用数据
点远少于全谱 , 分别为 496 和 310 个。遗传算法优选的波段
与样品中被测成分有关 , 波段优化后大大减少参与建模变
量 , 说明光谱信息得到了充分的利用 , 同时克服了光谱数据
与成分含量的多重线性关系。
Fig.2 Spectral region selection accomplished by R-SGA for Early Red Comica(a),
Wujinuxiang(b), Cascade(c)and Conference(d)
Table 3 Results comparison for spectral regions selection
Cult ivar Pret reatm ent means Number of data PLS factor RC RMSEC RMSEP Notation
E.R.C omice SNV 434 9 0.970 0.364 0.428 R-SGA
1 557 8 0.961 0.412 0.518 Fu ll region
Wujiuxiang MSC+1st D 496 4 0.915 0.593 0.696 R-SGA
1 557 4 0.938 0.509 0.694 Fu ll region
Cascade SNV 310 7 0.960 0.371 0.425 R-SGA
1 557 6 0.956 0.390 0.421 Fu ll region
Conference MSC 496 8 0.969 0.435 0.567 R-SGA
1 557 7 0.955 0.529 0.633 Fu ll region
  1 st D:Firs t order derivat ive
3 结 论
  遗传算法在组合优化问题上具有很大的搜索优势 , 适应
性很广。本文主要研究了在近红外光谱无损检测西洋梨糖度
时 , 遗传算法进行优选波段的可行性;建立优选波段模型和
全谱模型 , 比较其预测精度。
在西洋梨被测样品中用此方法优选波长 , 结果表明:遗
传算法优选的波段与样品中被测成分有关 , 4 个品种洋梨的
遗传结果的最佳个体染色体编码有一定共性。比较建模结果
可以得出 , 遗传算法在早红考密斯和康佛伦斯的糖度有效波
680 光谱学与光谱分析                    第 29 卷
段选择上有较好效果 , 对于凯斯凯德和五九香稍差 , 需要扩
充样品数进一步进行研究。总之 , 遗传算法可用于 PLS 法建
立西洋梨糖度校正模型前的数据优化筛选 , 有效提高测量精
度 , 减少建模变量。
参 考 文 献
[ 1]  J IANG Guo-li ang(江国良).Th e New Variet ies and C ult ivation Technique of Pear(梨新品种与栽培新技术).Chengdu:Sichuan Universi-
t y Press(成都:四川大学出版社), 2002.
[ 2]  YING Yi-bin , LI U Yan-de , FU Xia-ping(应义斌 , 刘燕德 , 傅霞萍).Spect roscopy and Spect ral Analysis(光谱学与光谱分析), 2006 , 26
(1):63.
[ 3]  LI U Yan-de , YING Yi-bin , FU Xia-ping(刘燕德 , 应义斌 , 傅霞萍).Spect roscopy and Spect ral Analysis(光谱学与光谱分析), 2005 , 25
(11):1793.
[ 4]  FU Xia-ping , YING Yi-bin , LIU Yan-de , et al(傅霞萍 , 应义斌 , 刘燕德 , 等).Spect roscopy and Spect ral Analysis(光谱学与光谱分析),
2006 , 26(6):1038.
[ 5]  ZHAO Jie-w en , ZHANG H ai-dong , LIU M u-hua(赵杰文 , 张海东 , 刘木华).Acta Opt ica Sinica(光学学报), 2006 , 26(1):136.
[ 6]  Chen D , Cai W , Shao X.Analyt ica C himica Acta , 2007 , 598:19.
[ 7]  Zou X , Zhao J , Huang X , et al.Chemomet rics and Intelligent Laborato ry Sys tems , 2007 , 87:43.
[ 8]  H olland J H.Adaptat ion in Natural and Art ifi cial Sy stems , Universi ty of M ichigan Press , Ann Arbor , MI , 1975.
[ 9]  Chen Q , Zhao J , Zhang H , et al.J ou rnal of Near Inf rared Spect roscopy , 2005 , 13:327.
[ 10]  A rcos M J , Ort iz Villahoz Belen M C , Sarabia L A.Anal.Chim .Acta , 1997 , 339:63.
[ 11]  Li T H , Lucasius C B , Kateman G.Anal.Chim.Acta , 1992 , 268:123.
[ 12]  Bangalore A S , Shaffer R E , Small G W.Anal.Chem., 1996 , 68:4200.
[ 13]  B randye M.Smi th , Pau l J.Gemperline.Anal.Chim.Acta , 2000 , 423:167.
[ 14]  GU Xiao-yu , XU Ke-xin , WANG Yan(谷筱玉 , 徐可欣 , 汪 曣).Spect roscopy an d Spect ral Analysi s(光谱学与光谱分析), 2006 , 26
(9):1618.
[ 15]  Yibin Ying , Yande Liu.J ournal of Food Engineering , 2008 , 84:206.
[ 16]  ZHU Shi-ping , WANG Yi-ming , ZHANG Xiao-chao , et al(祝诗平 , 王一鸣 , 张小超 , 等).Transact ions of th e C hinese S ociety for Agri-
cultural Machinery(农业机械学报), 2004 , 35(5):153.
[ 17]  Barnes R J , Dhanoa S , Lis ter J.App l.Spect ros c., 1989 , 43(5):772.
Nondestructive Measurement of SSC in Western Pear Using Genetic
Algorithms and FT-NIR Spectroscopy
WANG Jia-hua , PAN Lu , SUN Qian , LI Peng-fei , HAN Dong-hai *
Co llege of Food Science and Nutritio nal Eng ineering , China Ag ricultural Univer sity , Beijing 100083 , China
Abstract An improved genetic alg o rithm was used to implement an automated w aveleng th selection pro cedure for use in building
multiv aria te calibration models based on par tial least squares reg ression(PLS).The region selecting by gene tic alg o rithms (R-
SGA)w as applied in building calibr ation model of soluble solid content(SSC)of Western pea r , and the number s of latent v aria-
ble s used to build calibr ation model wer e fur ther reduced.The Fourier transfo rm nea r infrar ed reflectance(FT-NIR)spectra
were processed by GA af te r MSC or SNV , and four PLS ca libra tion models w ere built by using the optimal combinations of these
sub-regions.Meanw hile , the full r egion selecting PLS (F r-PLS)models wer e developed.The R-SGA models v ariable s w ere
434 , 496 , 310 and 496 , fo r Early Red Comice , Wujiuxiang , Cascade and Kang Buddha , respectiv ely.Despite the complex ity of
the spectral data , the R-SGA procedure w as found to per form well(RMSEP=0.428 , 0.567 fo r Ea rly Red Comice and Kang
Buddha , re spectively), leading to ca libra tion models that significantly outperfo rm tho se ba sed on full-spect rum ana ly ses (RM-
SEP=0.518 , 0.633).The prediction pr ecision of GA-PLS models wa s similar to that of F r-PLS for Wujiuxiang and Cascade ,
with RMSEP of 0.696/ 0.694 and 0.425/ 0.421 respectively.This wo rk proved that the R-SGA could find optimal v alues fo r
sev eral dispar ate v ariable s asso ciated w ith the calibration model and that the PLS procedure could be integ rated into the objec tive
function driving the optimization.
Keywords FT-NIR spectr oscopy;Gene tic alg orithms;Region selecting;PLS;So luble solid content(SSC);Western pear
*Co rr esponding author (Received Oct.8 , 2007;accepted Jan.12 , 2008)  
681第 3 期                    光谱学与光谱分析