全 文 :基于近红外化学成分特征吸收光谱的野生台蘑鉴别模型研究
刘 洋 王 涛 左月明 *
(山西农业大学工学院 山西太谷 030801)
摘要 本文建出一种应用近红外光谱技术鉴别野生台蘑的新方法。 使用 FieldSpec3 便携式近红外光谱仪对包
括野生台蘑在内的 13 种蘑菇进行漫反射光谱采集。 将采集的数据经小波去噪后,对可见与近红外光谱(350~
2 500 nm)进行峰谷筛选,所得峰谷集经主成分分析降维,取方差贡献率大于 99.9%的 5 个主成分作为 BP 神经
网络的输入值,建立数学模型。该模型在偏差±0.05 内,对未知样本正确识别率为 100%。本结果表明利用近红外
漫反射光谱可以很好地鉴别野生台蘑。
关键词 野生台蘑; 鉴别; 近红外光谱; 主成分分析; BP 神经网络
文章编号 1009-7848(2012)02-0173-05
五台山蘑菇(俗称台蘑)是生长在山西五台山
海拔高、地温低、土质肥沃且天然无污染的五座台
顶的菌类植物。地理气候的特殊性使其香味浓郁,
口感独特。 台蘑富含人体所需的各种氨基酸和矿
物质,子实体可入药,是真正的绿色、有机、保健食
品 [1]。 然而野生台蘑价格昂贵, 市场最高售价达
320 元/500g,因此市场上频频有伪假、次等野生台
蘑冒充优等台蘑的现象发生。
常规的蘑菇品种鉴定技术主要有:1) 形态学
鉴定,如对外部形态、解剖结构 [2]、显微结构 [3]的观
察;2)同工酶分析鉴定 [4],根据一个基因编码一种
酶的规律, 运用同工酶进行亲缘关系远近分析及
品种间的鉴定;3)分子标记鉴别 [5],反映基因型在
DNA 水平上的某种差异特征, 通常也称为 DNA
指纹图谱。 上述鉴别方法周期长,成本高,并且容
易受到操作熟练程度的影响。
红外光谱分析技术在不破坏样品的前提下,
可给出样品的化学信息,再结合化学计量学方法,
能够实现对样品的定性、定量分析。 赵刚等[6]根据
傅里叶变换红外光谱(FTIR)5 个区的光谱峰值和
吸收强度比,鉴别担子菌木耳目、非褶菌目和伞菌
目 6 个科 9 个属的 10 种食用菌的子实体;赵德璋
等 [7]根据 FTIR 提供的块菌有关化学信息,对 5 种
云南野生块菌进行了鉴别;时有明 [8]等利用 FTIR
1200~1 000 cm-1范围内的差异并结合其它吸收峰
的特征,鉴别出不同产地的黑木耳。以上研究给出
了定性的鉴别结果, 还有待建立模型实现模式识
别的自动化。 杨海清[9]等通过主成分分析法(PCA)
对 375~1 025 nm 范围近红外光谱数据进行压缩
和主成分提取后,用遗传算法和 BP神经网络建模
对不同品源的香菇进行了鉴别。 目前常用的方法
是对宽谱带光谱信息进行压缩, 并结合相关判别
模型,鉴别农产品品种。
贺沛芳[10]等报道,野生台蘑每 100 g 干物质中
蛋白质含量在 34.24%~41.84% , 粗脂肪含量
1.18%~3.6%,还原糖含量 4.8%~24.1%,纤维素含
量 8.01%~10.99%。 史琦云[11]研究了人工栽培的香
菇、杏鲍菇、茶树菇中每 100 g 干物质中蛋白质含
量 8.37%~24.8%,粗脂肪含量 1.08%~2.82%,还原
糖含量 2.63%~5.2%, 纤维素含量 2.78%~8.14%。
可见野生台蘑的营养成分含量普遍要高于人工栽
培品种。蘑菇中的主要有机成分是碳水化合物、脂
类、蛋白质,这些化合物中 C-H、0-H、N-H 和 S-H
等含氢基团决定了近红外光谱的吸收带, 这些官
能团在近红外光谱区产生的振动谐波及其组合
带,代表了蘑菇中有机成分的化学信息。由于不同
收稿日期: 2010-02-15
基金项目: 国家自然科学基金项目(30871445);山西省留
学基金项目(98064)
作者简介: 刘洋,女,1979 年出生,博士生
通讯作者: 左月明
Vol. 12 No. 2
Feb. 2 0 1 2Journal of Chinese Institute of Food Science and Technology
中 国 食 品 学 报第 12 卷 第 2 期
2 0 1 2 年 2 月
中 国 食 品 学 报 2012 年第 2 期
种类蘑菇营养成分的差异, 导致相关基团在特征
吸收波长上的吸收差异也在近红外光谱上得到响
应。 本文采用近红外光谱分析技术获取野生台蘑
等 13 种蘑菇的光谱信息,建立数学模型,对蘑菇
的品种进行鉴别,旨在寻找一种快速、有效的野生
台蘑鉴别方法, 为野生菌类的鉴别和定量分析奠
定一定的基础。
1 试验设计
1.1 试验设备
采用美国 ASD(Analytical Spectral Device)公
司生产的 FieldSpec3 便携式近红外光谱仪, 该仪
器通过无线网络,由笔记本电脑操作控制。波长范
围:350~2 500 nm; 光谱分辨率:350~1 100 nm 区
间分辨率为 3 nm,1 100~2 500 nm 区间分辨率为
10 nm; 采样间隔:1.4 nm (350~1 000 nm区间),2
nm(1 000~2 500 nm 区间);探头视场角为 10°,入
射角 45°;光源是与光谱仪配套的 14.5 V 卤素灯。
分析软件为 ASD view Spec Pro 和 MATLAB7.3。
采用 QE-02高速(25 000 转/min)中药粉碎机对蘑
菇进行粉碎处理。
1.2 样品来源及光谱获取
共 13 种干样样品:山西五台县产 320 元/500
g(台蘑 320)、186 元/500 g(台蘑 186)、86 元/500 g
(台蘑 86)3 种价格的野生台蘑; 内蒙古根河大兴
安岭林区的 2 种野生东北蘑菇: 榛蘑、 黄油菇;8
种山西晋中产人工栽培蘑菇:人工台蘑、滑子菇、
茶树菇、鸡腿菇、牛肝菌、花菇、杏鲍菇、香菇。以上
样品分 2 次购进。 第 1 次购进后, 每种样品各取
10 个样本,共 130 个样本作为建模集;第 2 次购
进与第 1 次所购不同批次的 13 种蘑菇,每种样品
各取 5个样本,共 65个样本作为预测集。
所有样本碎后过 60目筛子,用规格 90 mm的
培养皿(外壁用墨汁涂黑)盛满,将样品表面刮平,
置于图 1 所示的自制暗箱(内壁用墨汁涂黑)内。
设定 h=150 mm,α=10°,β=45°,经计算:
w=tan(β- α2
)×h=tan(45- 102
)×150=125.9mn
w+z=tan(β+α2
)×h=tan(45+ 102
)×150=178.8mm
z=178.8mm-125.9mm=52.9mm
这样可确保视场域能锁定在样品表面范围,
且足够大的覆盖样品表面, 从而得到较多的漫反
射光谱信息。 测定前进行系统配置优化和白板校
正。光谱仪每次扫描时间为 0.1 s,输出的光谱线为
10 条原始扫描光谱自动平均所得, 所需时间为
1.0 s。
2 试验方法与结果
2.1 原始光谱
光谱仪首先采集到各样品在 350~2 500 nm
的反射率(R),根据吸光度 A=log(1/R),得如图 2
所示吸收光谱, 其横坐标为波长, 纵坐标为吸光
率。 由图 2 可知,13 种蘑菇近红外光谱的波形基
本一致,但吸光率有较大差别。 在波长 350~1 400
nm 范围,各样品谱线交叉较多,于 370 nm 处达到
光谱最大吸收峰值后, 谱线降低趋势逐渐由急到
缓,在 1 330 nm 处为最低。 此后光谱曲线起伏较
大,但总体呈上升趋势。在 1 400~2 500 nm范围,3
种野生台蘑的各处光谱吸收都高于其它人工栽培
蘑菇, 也印证了相关文献报道用常规化学方法测
定的野生台蘑主要化学成分普遍高于人工栽培蘑
菇,这为数学建模鉴别蘑菇品种奠定了基础。
2.2 光谱数据预处理
在实际测量中, 有用信号通常表现为低频或
是一些比较平稳的信号, 而噪声信号则表现为高
频信号,如图 2 中 350~450 nm 波段范围内的高频
174
第 12 卷 第 2 期
噪声,影响对全谱所载信息的利用。小波变换对近
红外光谱的去噪、 数据压缩和有效信息的提取方
面表现出不凡的优势。 利用小波变换中 wdencmp
函数对光谱数据进行去噪, 经过对几种不同小波
基的不同阶数及不同分解水平进行对比, 发现采
用小波基“coif”的 3 阶小波进行 4 水平分解,既能
滤除噪音又能保留特征波段。 再利用 MATLAB软
件 Simulink 工具箱中的 peakFinder 对去噪后的光
谱数据进行全谱的峰谷筛选, 共筛选出 195 个有
效特征波段的光谱数据,用于后续分析。
2.3 BP神经网络鉴别模型的建立及预测结果
为了防止神经网络输入层节点个数太多造成
的网络学习时间过长甚至过拟合, 首先对 peak-
Finder 筛选的 195 个波长点的光谱信息做主成分
分析。 当取 5 个主成分时,方差贡献率达 99.9%。
将主成分数 5作为 BP网络的输入层节点数,用符
号 1、2、3、4、5、6、7、8、9、10、11、12、13 来分别代表
台蘑 320、台蘑 186、台蘑 86、人工台蘑、黄油菇、
榛蘑、滑子菇、茶树菇、鸡腿菇、牛肝菌、花菇、杏鲍
菇、香菇等 13 种蘑菇的真实值,输出层节点数取
为 13。 网络结构通过如下公式[12]调整隐含层节点
数:
n1= n+m姨 +a
式中,n——输入层节点数;m——输出层节
点数;a——1~10 之间的常数。 优化后相关参数
为:隐含层节点数 14,最大训练次数 50,训练精度
0.00001。隐含层和输出层传递函数分别为“tansig”
和“purelin”,网络训练函数为“trainlm”。 所建模型
经 25次训练,达到令人满意的效果。
用所建模型对预测集中 65 个未知样本的预
测结果见表 1。 如果设定预测结果偏差在±0.05内
为预测正确,则预测准确率为 100%。
3 讨论
所建模型预测准确率为 100%, 是建立在
peakFinder 对近红外全波段(350~2 500 nm)峰谷
筛选的基础上, 使表征样品所含化学成分的近红
外特征吸收峰带能充分参与建模。 从图 2 分析出
的 1 195、1 499、1 728、1 934、2 176、2 310 nm 等明
显强吸收峰也在 peakFinder 筛选的峰谷集里,说
明 peakFinder 可以替代先期人工对谱图峰谷的筛
选。 有机物中 C-H、N-H、0-H和 S-H等含氢基团
决定了这些特征吸收峰 [13]。 多糖主要表现为 C-H
和 O-H 键的吸收,蛋白质分子主要表现为特征结
构肽键(CONH)及其和肽键相关基团的吸收,脂肪
主要表现在羧基中 C=O 键和不饱和脂肪酸分子
基于近红外化学成分特征吸收光谱的野生台蘑鉴别模型研究 175
中 国 食 品 学 报 2012 年第 2 期
链中-CH2、-CH3基的 C-H键的吸收。 以台蘑 186
的光谱曲线为例,1 934 nm 吸收峰为多糖-OH 基
伸缩振动和弯曲振动的合频吸收; 蛋白质中-NH
基团在 1 499 nm 处有 N-H 键伸缩振动一级倍频
吸收,2 176 nm 处有 N-H 键伸缩振动和弯曲振动
的合频吸收; 脂肪中-CH3 基团在 1 195 nm 处有
C-H 键的二级倍频吸收,-CH2 基团在 1 728 nm
处有 C-H 键伸缩振动的一级倍频吸收,-CH2 基
团在 2 310 nm 处有 C-H 键的伸缩振动和弯曲振
动的合频吸收。
4 结论
本文应用近红外光谱技术结合小波变换、主
成分分析及 BP 神经网络建立了野生台蘑鉴别模
型,该模型对 13 种未参与建模的样品识别正确率
为 100%。 对样品的光谱信息进行分析,得出 1 934、
2 176、2 310 nm 等波长处出现野生台蘑多糖、蛋
白质、脂肪的敏感吸收峰。基于整个试验过程和结
果分析,本方法检测成本低廉,可靠性高,推广性
强,容易在线实施。以后将进一步探讨这些光谱特
征与化学成分含量的关系, 进而开发廉价的蘑菇
营养成分分析仪器。
1 1 0.9943 0.0057 23 5 4.9885 0.0115 45 9 8.9891 0.0109
2 1 0.995 0.005 24 5 4.9974 0.0026 46 10 9.9986 0.0014
3 1 0.9981 0.0019 25 5 4.992 0.008 47 10 10.0006 -0.0006
4 1 0.9971 0.0029 26 6 5.9989 0.0011 48 10 9.9984 0.0016
5 1 0.999 0.001 27 6 5.9976 0.0024 49 10 9.996 0.004
6 2 1.9951 0.0049 28 6 6 0 50 10 10.0001 -0.0001
7 2 1.997 0.003 29 6 5.9999 0.0001 51 11 11.0003 -0.0003
8 2 1.9991 0.0009 30 6 5.9999 0.0001 52 11 11.0003 -0.0003
9 2 1.9945 0.0055 31 7 6.9999 0.0001 53 11 10.9974 0.0026
10 2 1.9987 0.0013 32 7 6.9888 0.0112 54 11 10.997 0.003
11 3 2.9934 0.0066 33 7 6.9937 0.0063 55 11 11.0003 -0.0003
12 3 2.9991 0.0009 34 7 6.9919 0.0081 56 12 11.9927 0.0073
13 3 2.9989 0.0011 35 7 6.9985 0.0015 57 12 12 0
14 3 2.9975 0.0025 36 8 7.9891 0.0109 58 12 12.0001 -0.0001
15 3 2.9992 0.0008 37 8 8.0004 -0.0004 59 12 12.0003 -0.0003
16 4 3.9917 0.0083 38 8 8.0004 -0.0004 60 12 11.9907 0.0093
17 4 3.9937 0.0063 39 8 8.0004 -0.0004 61 13 12.9942 0.0058
18 4 3.9908 0.0092 40 8 8.0004 -0.0004 62 13 12.9962 0.0038
19 4 3.9866 0.0134 41 9 8.9919 0.0081 63 13 12.9934 0.0066
20 4 3.9955 0.0045 42 9 8.9991 0.0009 64 13 12.9925 0.0075
21 5 4.9984 0.0016 43 9 8.9994 0.0006 65 13 12.995 0.005
22 5 4.999 0.001 44 9 8.9987 0.0013
样本号 真实值 预测值 误差 样本号 真实值 预测值 误差 样本号 真实值 预测值 误差
表 1 BP 模型对未知样本的预测结果
Table 1 The predicted results of unknown samples by BP model
176
第 12 卷 第 2 期
参 考 文 献
[1] 任宝生. 台蘑的驯化栽培及其产业化开发[J]. 山西林业科技, 2007, 4: 42-43.
[2] 初洋, 倪新江, 姜海华, 等. 侧耳属 3 种食用菌解剖学性状比较[J]. 中国食用菌, 2010, 29(2): 9-11.
[3] 刘剑虹, 刘刚,鼎珊,等. 几种牛肝菌显微结构的扫描电镜观察[J]. 电子显微学报, 2007, 26(1): 74-77.
[4] 傅安涛, 宋爱荣, 田雪梅, 等. 同工酶技术及其在我国食用菌研究中的应用[J]. 菌物研究, 2006, 4(4): 57-61.
[5] 吕长武, 吕杰, 陈恒雷, 等. RAPD 分子标记在食用菌研究中的应用[J]. 中国生物工程杂志, 2006, 26(1): 77-80.
[6] 刘刚, 刘剑虹, 杨爱明, 等. 食用菌的傅里叶变换红外光谱鉴别[J]. 光谱学与光谱分析, 2004, 24(8): 941-945.
[7] 赵德璋, 刘刚, 宋鼎珊, 等. 块菌的傅里叶变换红外光谱研究[J]. 光谱学与光谱分析, 2006, 26(8): 1445-1448.
[8] 时有明, 刘刚, 刘剑虹,等. 不同产地黑木耳的傅里叶变换红外光谱鉴别[J]. 光学学报, 2007, 27(1): 129-132.
[9] 杨海清, 何勇, 陈永明, 等. 应用可见/近红外光谱技术鉴别香菇品源的三维空间建模研究 [J]. 光谱学与光谱分析,
2008,28(6): 1233-1236.
[10] 贺沛芳, 杨怀民, 张治家, 等. 五台山野生食用菌资源营养价值及展望[J]. 中国食用菌, 2010, 29(3): 7-9.
[11] 史琦云, 邵威平. 八种食用菌营养成分的测定与分析[J]. 甘肃农业大学学报,2003, 38(3): 336-339.
[12] 飞思科技产品研发中心. 神经网络理论与 Matlab7 实现[M]. 北京:电子工业出版社, 2005.
[13] 严衍录, 赵龙莲, 韩东海,等. 近红外光谱分析基础与应用[M]. 北京:中国轻工业出版社, 2005: 31-40.
Study on Recognition Model for Wild Wu Tai Mushroom Based on the Chemical Composition
of Near Infrared Spectral Diagnosis
Liu Yang Wang Tao Zuo Yueming*
(Engineering College of Shanxi Agricultural University, Taigu 030801, Shanxi)
Abstract A new method for discrimination of wild Wu Tai Mushroom by means of Near infrared spectroscopy
(NIRS) was established. Visible and near infrared reflectance spectra of 13 different types of mushroom including 3 wild
Wu Tai Mushrooms were collected with a portable Near infrared spectrometer (ASD Fieldspec3). Spectra peaks and vales
were selected by peakFinder in Matlab after the spectral data was denoised by wavelet transform (WT). The first 5 prin-
cipal components (5PCS) were computed by principle component analysis(PCA), and their accumulated variance contri-
bution rate was more than 99.9%. Finally, a back propagation artificial neural network model (BP-ANNM) was built by
use of the 5 PCS as inputs to the BP-ANNM. The discrimination rate of 100% was achieved for unknown samples. It
suggested that wild Wu Tai Mushroom could be identified very well with NIRS.
Key words wild Wu Tai mushroom; discrimination; near infrared spectroscopy (nirs); principal component analysis
(pca); back propagation artificial neural network (bp-ann)
基于近红外化学成分特征吸收光谱的野生台蘑鉴别模型研究 177