免费文献传递   相关文献

基于主成分分析和聚类分析的不同产地绒柄牛肝菌红外光谱鉴别研究



全 文 :第3 6卷,第6期             光 谱 学 与 光 谱 分 析 Vol.36,No.6,pp1726-1730
2 0 1 6年6月             Spectroscopy and Spectral Analysis  June,2016  
基于主成分分析和聚类分析的不同产地绒柄牛肝菌红外光谱鉴别研究
杨天伟1,2,张 霁2,李 涛3,王元忠2*,刘鸿高1*
1.云南农业大学农学与生物技术学院,云南 昆明 650201
2.云南省农业科学院药用植物研究所,云南 昆明 650200
3.玉溪师范学院资源环境学院,云南 玉溪 653100
摘 要 采用傅里叶变换红外光谱结合主成分分析和聚类分析建立快速鉴别不同产地绒柄牛肝菌的方法。
采集15个产地绒柄牛肝菌样品的红外光谱信息,用多元散射校正(multiplicative signal correction,MSC)、
二阶求导(Second derivative,SD)、Norris平滑的组合方法对原始光谱进行优化处理,MSC+SD+ND(15,
5)预处理后的光谱数据进行主成分分析和聚类分析,并通过主成分载荷图分析不同产地绒柄牛肝菌样品差
异的原因。结果显示,该方法的重现性,精密度及稳定性的RSD值分别为0.17%,0.08%,0.27%,表明方
法稳定、可靠。主成分分析的前3个主成分累积贡献率达到87.24%,能表达红外光谱的主要信息,主成分
得分散点图中同一产地样品成簇聚集,不同产地样品分布于相对独立的空间,能有效区分不同产地样品。主
成分载荷图显示,随主成分贡献率降低,主成分所捕获的样品信息减少,其中PC1在3 571,2 958,1 625,
1 456,1 405,1 340,1 191,1 143,1 084,935,840,727cm-1波数捕获大量样品信息,归属为糖类、蛋白
质、氨基酸、脂肪、纤维素等化学物质的吸收峰,表明这些化学物质含量的差异是区分不同产地绒柄牛肝菌
样品的主要依据。基于离差平方和法(Ward method)及欧氏距离(Euclidean distance)进行聚类分析,能直观
显示不同产地样品的分类情况及样品之间的相关性,15个产地样品基本能够按照产地来源正确聚类,正确
率为93.33%。傅里叶变换红外光谱结合主成分分析和聚类分析,可以有效鉴别绒柄牛肝菌产地来源,并且
能够分析不同产地样品具有差异的原因,为野生食用菌的鉴别分类和应用研究提供可靠依据。
关键词 红外光谱;主成分载荷分析;绒柄牛肝菌;鉴别
中图分类号:TS201.2  文献标识码:A   DOI:10.3964/j.issn.1000-0593(2016)06-1726-05
 收稿日期:2014-12-30,修订日期:2015-03-23
 基金项目:国家自然科学基金项目(31260496,31160409,31460538)和云南省教育厅科学研究基金项目(2013Z074)资助
 作者简介:杨天伟,1989年生,云南农业大学农学与生物技术学院硕士研究生  e-mail:yangtianweizj@126.com
*通讯联系人  e-mail:boletus@126.com;honggaoliu@126.com
引 言
  牛肝菌是大型真菌担子菌的重要类群,因其风味独特,
食药用价值高而深受国内外消费者喜爱,市场价格逐年上
扬[1-2]。我国牛肝菌资源丰富,开发利用潜力巨大,其中云南
气候独特,植被多样,为野生菌的生长提供良好环境,成为
我国乃至世界牛肝菌种类最多和产量最大的地区之一[3-4]。
绒柄牛肝菌(Boletus tomentipes)又名黑牛肝、毛脚牛肝菌、
大巴菌,是森林中最常见的牛肝菌种类之一[2],其子实体含
有蛋白质、脂肪、糖类、氨基酸、矿质元素等多种营养物
质[5]。大量研究发现野生食用菌中矿质元素含量高于人工菌
和一般的蔬菜,氨基酸的构成明显优于大豆蛋白,与肉类、
鸡蛋相当[6-9],可作为氨基酸、矿质元素等人体营养物质的
来源,经常食用可以提高免疫力,具有抗氧化、抗病毒、防
病治病等功效[10-12]。然而牛肝菌营养物质的含量与种类及产
地息息相关,不同产地、种类对营养物质的富集情况具有差
异[13],准确区分不同产地、种类野生牛肝菌一方面可为牛肝
菌的深入开发利用提供基础,另一方面可以减少因误采、误
食引起的中毒现象。
传统的野生食用菌鉴别主要根据野生食用菌的形态特
征、生长习性、地理分布、食用经验、产地记述及受伤变色
反应等进行鉴别分类,民间还存在以貌择食的现象,因误食
有毒野生菌而引起中毒现象时有发生[13];市场上不良商贩
为牟取利益将不同种类、品质或有毒牛肝菌混合出售,以次
充好,严重扰乱市场秩序、威胁消费者健康[14-15]。野生牛肝
菌种类丰富,种间形态相似性高,为其鉴别、分类带来了巨
大困难;近年来菌物学者通过DNA分子测序法结合牛肝菌
的形态特征建立了牛肝菌的分子系统发育树,同时通过
DNA测序发现了多个新物种[16-18],将食用菌的分类研究推
向分子水平,促进了食用菌分类研究的发展,然而分子生物
学方法操作复杂,分析昂贵,需要具备专业知识。此外高效
液相色谱、紫外光谱、红外光谱等色谱、光谱指纹图谱技术
也应用到菌物的分类鉴别研究中[19-21],其中高效液相色谱法
和紫外光谱法一般需用有机溶剂提取样品特征成分,操作复
杂、价格昂贵、污染环境。
傅里叶变换红外光谱具有快速、简便、样品用量少且无
需前处理等优点[22-23]。目前红外光谱结合化学计量学方法已
被广泛用于食品质量控制[24-25],中药材种类鉴别和道地性研
究[26-27],农业上种子品种鉴别和优良品种选育等[28-29],为食
品、医药、农业等行业的发展提供科学依据。采集了云南15
个地区75个绒柄牛肝菌子实体的红外光谱信息,通过平滑、
求导、多元散射校正等方法对光谱进行预处理,运用主成分
分析和聚类分析对绒柄牛肝菌红外光谱数据进行分析,建立
快速鉴别不同产地绒柄牛肝菌的方法。
1 实验部分
1.1 样品
绒柄牛肝菌样品由云南农业大学刘鸿高教授鉴定,样品
来源见表1。
表1 绒柄牛肝菌样品来源
Table 1 Sources of Boletus tomentipes samples
产地
编号
来源
子实体
编号
产地
编号
来源
子实体
编号
1# 玉溪峨山富良棚 1~5  9# 曲靖泽州桂花树村 41~45
2# 普洱思茅区梅子湖 6~10 10# 个旧市乍甸镇 46~50
3# 玉溪峨山小街 11~15 11# 香格里拉县 51~55
4# 楚雄姚安前场 16~20 12# 玉溪易门六街 56~60
5# 楚雄南华天申堂 21~25 13# 玉溪峨山岔河 61~65
6# 玉溪易门铜厂 26~30 14# 红河石屏县 66~70
7# 楚雄南华沙桥 31~35 15# 大理鹤庆 71~75
8# 普洱南邦河 36~40
1.2 仪器
红外光谱仪为美国Perkin Elmer公司生产的Fronter型
傅里叶红外光谱仪,配有 DTGS检测器,光谱分辨率为4
cm-1;YP-2型压片机(上海市山岳科学仪器有限公司);
FW-100型粉碎机(天津市华鑫仪器厂);80目标准筛盘(浙
江上虞市道墟五四仪器厂);KBr为分析纯(天津市风船化学
试剂科技有限公司)。
1.3 绒柄牛肝菌红外光谱信息采集
绒柄牛肝菌样品采集后清洗干净,50℃烘干,粉碎过80
目筛,保存备用。取少量样品在50℃下烘干12h,KBr晶体
在105℃烘干5h,以减少样品和KBr中水分对实验结果的
影响。称取(1.5±0.2)mg样品和(100±2)mg KBr粉末,用
玛瑙研钵混合磨细,放入压片模具,压成厚度均匀的薄片,
进行红外光谱测定。设定光谱扫描范围:4 000~400cm-1,
累积扫描次数16次,每个样品重复测定3次,取平均光谱。
重复称取7份样品,制备 KBr压片,测定红外光谱信
息,根据7份样品红外光谱相似度的RSD值考察方法重现
性;取一片样品重复测定7次,以相似度RSD值考察精密
度;取一片样品分别在0,10,20,30,40,50,60min时测
定红外光谱(每次测完立即放到红外线灯下,以防吸潮),计
算红外光谱相似度,考察稳定性。
1.4 光谱预处理及数据分析
绒柄牛肝菌红外光谱采集后用平滑、多元散射校正、标
准正态变量、一阶导数、二阶导数的不同组合方式进行预处
理,消除或减小仪器噪音干扰,提高光谱分析准确度。光谱
预处理后采用主成分分析、聚类分析法处理光谱数据。
2 结果与讨论
2.1 绒柄牛肝菌红外光谱解析
图1为前4个产地绒柄牛肝菌的平均红外光谱,由图可
看出,不同产地绒柄牛肝菌红外光谱的峰形、峰位、峰高等
基本相似,反映出不同产地绒柄牛肝菌的化学组分基本相
似。3 285cm-1附近宽大的吸收峰主要是糖类、蛋白质、脂
类、纤维素等羟基的 O—H 伸缩振动及蛋白质、氨基酸的
N—H伸缩振动;2 925cm-1附近归属为蛋白质、多糖、纤维
素等甲基(—CH3)的伸缩振动;1 652cm-1附近明显的吸收
峰主要为蛋白质酰胺Ⅰ带的 C O 伸缩振动;1 545cm-1附
近归属为蛋白质酰胺Ⅱ带的的 C O 伸缩振动;1 456cm-1
附近归属为亚甲基的弯曲振动;1 072~1 021cm-1明显的吸
收峰为糖类、蛋白质等的C—O和C—C伸缩振动;绒柄牛
肝菌的这些特征吸收峰与其化学成分主要为蛋白质、糖类、
氨基酸、维生素等结论相符。
图1 绒柄牛肝菌红外光谱
Fig.1 Infrared spectra of B.tomentipes
2.2 光谱预处理
红外光谱信息采集时受仪器噪音、实验环境、样品差异
等多方面的干扰。适当的光谱预处理在红外光谱分析中是必
要和有效的,它可以减少或消除干扰,便于提取有用信息,
提高光谱分析的准确性和针对性。本实验采用多元散射校
正、标准正态变量、一阶导数、二阶导数、平滑等多种光谱
预处理方法进行处理,结果见表2。由表2可知,采用 MSC
+SD+ND(15,5)预处理组合方式样品错判数仅为1,样品
7271第6期                    光谱学与光谱分析
正确识 别 率 为 98.7%,前 10 个 主 成 分 累 积 贡 献 率 为
98.4%,能够描述红外光谱的大量信息。因此选择 MSC+
SD+ND(15,5)光谱预处理方法。
表2 光谱预处理结果
Table 2 Results of the spectral pretreatment
预处理方式 错判数 正确识别率/% 前10个主成分贡献率/%
无 5  93.3  99.1
MSC+FD+ND(15,5) 3  96.0  97.8
MSC+FD+SG(7,2) 4  94.6  96.7
MSC+SD+ND(15,5) 1  98.7  98.4
MSC+SD+SG(7,2) 5  93.3  92.9
SNV+FD+ND(15,5) 2  97.3  97.4
SNV+FD+SG(7,2) 4  94.69  6.0
SNV+SD+ND(15,5) 2  97.3  96.7
SNV+SD+SG(7,2) 6  92.0  92.8
  方法学考察的红外光谱分别计算重现性、精密度、稳定
性的平均光谱,并作为标准,采用TQ软件定性分析模块的
相似度匹配方法计算样品的相似度。结果显示考察重现性样
品的相似度匹配值在99.76~99.98之间,RSD为0.17%;
精密度的相似度匹配值介于99.89~100之间,RSD 为
0.08%;稳定性的相似度匹配值在99.63~99.96之间,RSD
为0.27%,表明该方法稳定、可靠。
2.3 主成分分析
主成分分析法以降维的方式将多个原始变量,综合为少
数几个变量,使综合后的变量能够表达原始变量的主要信
息,提高数据分析速率[30]。将绒柄牛肝菌的红外光谱经过
MSC+SD+ND(15,5)预处理后的数据转置后导入SIMCA-
P软件进行主成分分析。第一主成分得分为46.93%,是绒
柄牛肝菌红外光谱的最重要信息,第二、第三主成分得分分
别为27.60% 和 12.71%,前三个主成分累积贡献率为
87.24%,仅12.76%信息丢失,能够反映红外光谱大量信
息。图2为前三个主成分的得分散点图,由图可看出,同一
图2 前3个主成分得分散点图
Fig.2 Scatter plot of the first three
principal components scores
产地绒柄牛肝菌样品的得分分布能够成簇聚集,不同产地样
品可以按产地来源聚集在不同的区域,反映出不同产地绒柄
牛肝菌样品具有差异性;表明红外光谱经适当预处理结合主
成分分析法能有效区分绒柄牛肝菌产地来源。
2.4 主成分载荷分析
主成分载荷图能够显示不同变量对主成分的贡献大小,
获取更多不同产地绒柄牛肝菌样品的差异信息。主成分分析
结果表明PC1是主成分分析中最重要的成分,由主成分载荷
图(图3)可知,PC1在3 571,2 958,1 625,1 456,1 405,
1 340,1 191,1 143,1 084,935,840,727cm-1等波数附近
捕获大量信息,即在这些波数附近有吸收峰的物质对第一主
成分的贡献较大;对PC2贡献较大的吸收峰主要有3 622,
2 958,1 619,1 482,1 280cm-1等;PC3较PC1和PC2所捕
获的信息量较少,其中2 946,1 599,1 405,1 283cm-1等吸
收峰对PC3贡献较大。通过光谱解析结合绒柄牛肝菌化学成
分信息可知主成分载荷图的吸收峰主要归属为糖类、蛋白
质、氨基酸、脂肪、纤维素等。由于前3个主成分累积贡献
率达到87.24%,能反映绒柄牛肝菌红外光谱的主要信息,
因此可知糖类、蛋白质、氨基酸、纤维素等物质成分含量的
差异对区分不同产地绒柄牛肝菌贡献较大,表明不同产地绒
柄牛肝菌因土壤背景、地质地貌等生长环境的差异所积累的
糖类、蛋白质、氨基酸、脂肪、纤维素等含量存在差异。
图3 前3个主成分的载荷图
Fig.3 Loading plot of the first three
principal components
2.5 聚类分析
聚类分析以“物以类聚”的思想,通过计算样品间的聚类
统计量(距离、相关系数等),逐步将相关性最大的样品聚在
一起,直到所有样品归为一类。将绒柄牛肝菌红外光谱经主
成分分析的因子得分值(累积贡献率达到99.7%)作为变量,
以欧氏距离(Euclidean distance)为样品相似度的距离公式,
采用离差平方和法(Ward’s method)对15个产地样品进行聚
类分析。图4为基于 Ward法进行聚类分析的树形图,树形
图可以直观显示每个样品的聚类情况及样品之间的相似程
度。由图4可知只有5个样品聚类错误,其余样品均能够正
确分类,聚类正确率为93.33%;大部分采自同一地区的绒
柄牛肝菌子实体在距离小于5时能够根据产地聚在一起,而
部分产地样品(如3#、4#等)距离大于5时才能聚在一起,
表明同一产地绒柄牛肝菌子实体的化学成分存在微小差异。
8271 光谱学与光谱分析                    第36卷
图4 不同产地绒柄牛肝菌聚类分析树状图
Fig.4 Dendrogram of B.tomentipes from different
regions by clustering analysis
不同产地样品根据差异大小先后聚为一类,其中采自普洱思
茅区梅子湖(2#)地区的样品与其余产地样品最后才聚为一
类,反映出采自2#产地的样品与其他产地样品差异最大,
该产地样品较易于区分。绒柄牛肝菌样品聚类分析结果反映
出,采自同一地区的绒柄牛肝菌子实体之间及采自不同地区
的样品之间化学组分或成分含量有差异,表明绒柄牛肝菌样
品的化学组成及含量可能与个体差异和生长环境有关。
3 结 论
  采用傅里叶变换红外光谱结合主成分分析和聚类分析法
对不同产地绒柄牛肝菌进行鉴别分析,运用TQ软件选择最
佳光谱预处理方式,结果显示红外光谱经 MSC+SD+ND
(15,5)预处理,样品正确识别率为98.7%。红外光谱预处理
后进行主成分分析,前3个主成分累积贡献率达到87.24%,
能表达样品的主要信息;主成分得分散点图显示同一产地样
品能够成簇聚集,不同产地样品分布于相对独立的区域。前
三个主成分载荷图反映出不同产地绒柄牛肝菌样品中糖类、
蛋白质、氨基酸、脂肪、纤维素等化学物质含量存在差异,
这些化学物质的差异对鉴别不同产地样品贡献较大。将主成
分分析的因子得分作为变量,对15个产地样品进行聚类分
析,结果显示,同一产地样品基本能正确聚类,所有样品的
聚类正确率为93.33%。采用傅里叶变换红外光谱结合主成
分分析、聚类分析法能够直观、快速鉴别不同产地绒柄牛肝
菌样品,能为野生食用菌的分类和品质评价提供有效方法。
 
References
[1] Yin L L,Shi G Q,Tian Q,et al.Journal of Food Science,2012,77(8):T151.
[2] LI Tai-hui,SONG Bin(李泰辉,宋 斌).Acta Edulis Fungi(食用菌学报),2002,9(2):22.
[3] MAO Xiao-lan(卯晓岚).The Macrofungi in China(中国大型真菌).Zhengzhou:Henan Science and Technology Press(郑州:河南科学技
术出版社),2000,322.
[4] Feng B,Xu J,Wu G,et al.PLoS One,2012,7(5):e37567.
[5] LI Tao,WANG Yuan-zhong,LI Rong-chun(李 涛,王元忠,李荣春).Acta Edulis Fungi(食用菌学报),2009,15(4):70.
[6] Kalac P,Svoboda L.Food Chemistry,2000,69(3):273.
[7] Kalac P.Food Chemistry,2009,113(1):9.
[8] YIN Jian-zhong,ZHOU Ling-xian(殷建忠,周玲仙).Food Research and Development(食品研究与开发),2008,29(7):133.
[9] Wang X M,Zhang J,Wu L H,et al.Food Chemistry,2014,151:279.
[10] Ramírez-Anguiano A C,Santoyo S,Reglero G,et al.Journal of the Science of Food and Agriculture,2007,87(12):2272.
[11] Vamanu E,Nita S.BioMed Research International,2012,2013:1.
[12] NI Zong-yao(倪宗耀).Edible and Medicinal Mushrooms(食药用菌),2013,21(1):22.
[13] LI Shu-hong,ZHAO Yong-chang,YU Fu-qiang,et al(李树红,赵永昌,于富强,等).Edible Fungi of China(中国食用菌),2011,30
(5):34.
[14] Dentinger B T M,Suz L M.Peer J PrePrints,2014,2:e570.
[15] Sitta N,Floriani M.Economic Botany,2008,62(3):307.
[16] Zhao K,Wu G,Feng B,et al.Mycological Progress,2014,13(4):1127.
[17] Li Y C,Feng B,Yang Z L.Fungal Diversity,2011,49(1):125.
[18] Zeng N K,Cai Q,Yang Z L.Mycologia,2012,104(6):1420.
9271第6期                    光谱学与光谱分析
[19] Dubost N J,Beelman R B,Peterson D,et al.International Journal of Medicinal Mushrooms,2006,8:215.
[20] YANG Tian-wei,LI Tao,ZHANG Ji,et al(杨天伟,李 涛,张 霁,等).Food Science(食品科学),2014,35(16):105.
[21] ZHOU Zai-jin,LIU Gang,REN Xian-pei(周在进,刘 刚,任先培).Laser and Infrared(激光与红外),2009,39(11):1158.
[22] Jawaid S,Talpur F N,Afiridi I H,et al.Analytical Methods,2014,6:5269.
[23] HAN Lin-na,ZHOU Feng-qin(韩琳娜,周凤琴).The Journal of Light Scattering(光散射学报),2011,23(2):181.
[24] Che Man Y B,Marina A M,Rohman A,et al.International Journal of Food Properties,2014,17(2):354.
[25] Alamprese C,Casale M,Sineli N,et al.LWT-Food Science and Technology,2013,53(1):225.
[26] Yao X,Peng Y,Zhou Q,et al.Journal of Molecular Structure,2010,974(1):161.
[27] Zhao Y,Zhang J,Yuan T,et al.PloS One,2014,9(2):e89100.
[28] Lu Y Z,Du C W,Yu C B,et al.Computers and Electronics in Agriculture,2014,107:58.
[29] Lu Y Z,Du C W,Yu C B,et al.Analysis Methods,2014,6(5):1412.
[30] Abdi H,Wiliams L J.Wiley Interdisciplinary Reviews:Computational Statistics,2010,2(4):433.
Discrimination of Boletus Tomentipes from Different Regions Based on
Infrared Spectrum Combined with Principal Component Analysis and
Cluster Analysis
YANG Tian-wei 1,2,ZHANG Ji 2,LI Tao3,WANG Yuan-zhong2*,LIU Hong-gao1*
1.Colege of Agronomy and Biotechnology,Yunnan Agricultural University,Kunming 650201,China
2.Institute of Medicinal Plants,Yunnan Academy of Agricultural Sciences,Kunming 650200,China
3.Colege of Resources and Environment,Yuxi Normal University,Yuxi 653100,China
Abstract With the aim of establishing a rapid method to discriminate Boletus tomentipes samples from different regions,FTIR
spectroscopy with the aid of principal component analysis and clustering analysis were used in the present study.The information
of infrared spectra of B.tomentipes samples originated from 15regions has been colected.The original infrared spectra was pre-
treated by multiplicative signal correction(MSC)in combination with second derivative and Norris smooth.The spectral data
were analyzed by principal component analysis and cluster analysis after the optimal pretreatment of MSC+SD+ND(15,5),
and the reasons for the differences of B.tomentipes samples from different regions could be explained through the principal com-
ponent loading plot.The results showed that,the RSDs of repeatability,accuracy and stability of the method were 0.17%,
0.08%and 0.27%,respectively,which indicated the method was stable and reliable.The cumulative contribution of first three
principal components of PCA was 87.24% which could reflect the most information of the samples.Principal component scores
scatter plot displaying the samples from same origin could clustered together and samples from different areas distributed in a rel-
atively independent space.Which can distinguish samples colected from different origins,effectively.The loading plot of princi-
pal component showed that with the principal component contribution rate decreasing,the captured sample information of princi-
pal component was also reducing.In the wave number of 3 571,2 958,1 625,1 456,1 405,1 340,1 191,1 143,1 084,935,
840,727cm-1,the first principal component captured a large amount of sample information which attributed to carbohydrates,
proteins,amino acids,fat,fiber and other chemical substances.Which showed that the different contents of these chemical sub-
stances may be the basis of discrimination of B.tomentipes samples from different origins.Cluster analysis based on ward meth-
od and Euclidean distance has shown the classification and correlation among samples.Samples originated from 15regions could
be clustered correctly in accordance with the basic origins and the correct rate was 93.33%.Which can be used to identify and
analyze B.tomentipes colected from different sites.Fourier transform infrared spectroscopy combined with principal component
analysis and cluster analysis can be effectively used to discriminate origins of B.tomentipes mushrooms and the reasons for the
differences of B.tomentipes samples from different regions could be explained.This method could provide a reliable basis for
discrimination and application of wild edible mushrooms.
Keywords Infrared spectroscopy;Principal component loadings analysis;Boletus tomentipes;Discrimination
*Corresponding authors (Received Dec.30,2014;accepted Mar.23,2015)  
0371 光谱学与光谱分析                    第36卷