免费文献传递   相关文献

应用支持向量机预测绞股蓝茶浸提液中药用成分的含量



全 文 :书第 36 卷第 4 期 浙江师范大学学报(自然科学版) Vol. 36,No. 4
2013 年 11 月 Journal of Zhejiang Normal University(Nat. Sci.)

Nov. 2013
文章编号:1001-5051(2013)04-0450-09
应用支持向量机预测绞股蓝茶浸提液中
药用成分的含量
*
孙 彬, 娄和强, 姜 曌, 吕洪飞
(浙江师范大学 化学与生命科学学院,浙江 金华 321004)
摘 要:通过支持向量机数学模型预测了绞股蓝茶浸提液中的总酚含量、总黄酮含量及其自由基清除能力,其
中浸提条件包括 11 个浸提温度、5 个浸提时间及 3 个料液比.在 4 个涉及的支持向量机基本核函数中,径向
基核函数表现出最佳的预测效果.在径向基核函数下,用 3 种参数优化方法:网格参数优化法、遗传优化算法
和粒子群优化算法,分别对其模型进行了参数优化.通过比较发现,用粒子群优化算法的径向基核函数支持向
量机模型达到了最佳的预测效果,其测试集的相关系数分别达到了 0. 962 8(预测总酚含量) ,0. 979 7(预测总
黄酮含量)和 0. 951 3(预测自由基清除能力).
关键词:绞股蓝;支持向量机;总酚;总黄酮;自由基清除能力
中图分类号:TS272. 4 文献标识码:A
Using support vector machine to predict the medicinal ingredients
of water extracts of Gynostemma pentaphyllum
SUN Bin, LOU Heqiang, JIANG Zhao, L Hongfei
(College of Chemistry and Life Science,Zhejiang Normal University,Jinhua Zhejiang 321004,China)
Abstract:The total phenols,flavonoids,and antioxidant activity of Gynostemma pentaphyllum water extracts
were predicted by using support vector machine(SVM). The extraction conditions included 11 incubation tem-
peratures,five incubation times and three different materials to water ratios. Among the four basic kernel func-
tions,namely,linear,polynomial,RBF and sigmoid,used in the study,the RBF had the best performance.
Three parameter optimization methods,namely,grid search,genetic algorithm,and particle swarm optimiza-
tion,were investigated. The results showed that the RBF SVM optimized by particle swarm optimization pro-
duced the best correlation coefficients for the testing sets (0. 962 8 for total phenol content,0. 979 7 for total
flavonoids content,and 0. 951 3 for DPPH radical scavenging activity).
Key words:Gynostemma pentaphyllum;support vector machine(SVM);phenols;flavonoids;scavenging ac-
tivity
* 收文日期:2013-04-02;修订日期:2013-05-23
基金项目:金华市科技项目(2010-3-078;2010-3-079)
作者简介:孙 彬(1988 -) ,男,浙江金华人,硕士研究生.研究方向:植物学.
通信作者:吕洪飞. E-mail:luhongfei63@ yahoo. com. cn
绞股蓝(Gynostemma pentaphyllum)系葫芦科
绞股蓝属多年生草质藤本植物. 该属植物目前全
世界已知有 16 种 3 变种,分布于我国南部、越南
北部、韩国南部和日本. 我国已知有 14 种 3 变
种[1],主要分布于陕西、云南、贵州、湖南、湖北、
山东等省.绞股蓝是一种国家卫生部公布的药食
两用植物[2],除了作为传统中药材治疗高血压、
高血脂等心脑血管疾病外,绞股蓝叶代茶饮也历
史悠久,长期饮用明显具有增强免疫力、调节人体
生理机能、减缓衰老、降血压、降血脂、预防癌症等
保健功效.因此,绞股蓝加工成干品作为一款保健
茶也是其主要的消费形式.
支持向量机(SVM)是 1988 年首次由 Vap-
nik[3]提出的,如径向基函数网络和多层感知器网
络一样,可应用于非线性回归及模式分类.由于支
持向量机在模式识别方面的出色表现,已成功应
用于手写识别技术[4]、微粒鉴别技术[5]、面部识
别技术[6]、植物分类[7]等方面,农业与食品技术
领域[8]也有所涉及. LIBSVM 是台湾大学林智仁
等[9]开发设计的一个简单、易于使用和快速有效
的支持向量机非线性回归与模式识别的软件包,
能极大地简化支持向量机的应用过程,因而在机
器学习领域颇受欢迎. 在 SVM 模型的建立过程
中,核函数的选择和参数优化直接影响模型的预
测或者分类性能[10-11]. 径向基核函数(RBF)在支
持向量机中的应用最为广泛[12]. 在参数优化方
面,除了应用最广的网格参数寻优法[13],粒子群
优化算法[14]和遗传优化算法[15]也能显著提高支
持向量机的模型性能,达到模型参数的最佳选择
的目的.
本研究的目的是通过建立数学模型来预测不
同提取温度、时间和料液比下浸提绞股蓝细粉所
得提取液中总黄酮、总酚的含量及其抗氧化活性,
并通过比较不同核函数及不同参数优化算法下
SVM模型的预测结果,寻求最佳的预测模型. 本
研究有助于优化草本茶的提取条件,并为工业上
提取草本活性物质提供数学模型.
1 材料与方法
1. 1 实验材料
市售绞股蓝茶,产于中国陕西省平利县的绞
股蓝良好农业规范(GAP)生产基地,出产日期为
2012 年 3 月,在实验开始前置于零下 20 ℃冰箱
中密封保存.
1. 2 提取过程和样品制备
首先,将绞股蓝茶研成细粉,过 60 目筛,弃粗
存细.每份绞股蓝茶细粉称取 0. 5 g 左右置于三
角烧瓶中,按不同料液比要求加入不同体积的蒸
馏水,并用保鲜膜封口. 设置 50,55,60,65,70,
75,80,85,90,95 和 100 ℃共 11 个温度水平水浴
加热,每 5 min 震荡摇匀 1 次. 期间,按所要求的
时间将相应的材料从水浴中取出,并及时用 15 ℃
冷水冷却,在室温下抽滤,收集滤液定容于 50 mL
容量瓶中,即得待测样品溶液.为了防止营养物质
损失,提取液在分析完成之前均在 4 ℃下保存.
1. 3 总黄酮含量的测定
绞股蓝中总黄酮含量参考 Bonvehi等[16]的比
色法测定.取 0. 1 mL 新鲜制备的绞股蓝茶浸提
液,加入 1. 5 mL甲醇,0. 1 mL 20 g /L氯化铝水溶
液,0. 1 mL 1 mol /L乙酸钾水溶液和 3. 2 mL蒸馏
水,混匀,于室温放置 30 min 后,在 415 nm 波长
下测定吸光度.按芦丁标准溶液测定的标准曲线
计算提取液中的总黄酮浓度,最后以每 1 g 绞股
蓝茶中含有芦丁的毫克数表示绞股蓝茶中的总黄
酮含量(单位:mg /g).
1. 4 总酚含量的测定
参考 Emmons 等[17]使用的福林酚比色法测
定绞股蓝茶浸提液中的总酚含量.具体步骤如下:
取 0. 1 mL 制备不久的提取液,加入 8. 7 mL 蒸馏
水,0. 5 mL福林酚试剂和 0. 7 mL 200 g /L Na2CO3
溶液,混匀,于 40 ℃水浴锅中反应 40 min 后,在
波长 755 nm处测定吸光度.按没食子酸标准溶液
测定的标准曲线计算提取液中的总酚浓度,最后
以每 1 g绞股蓝茶中含有没食子酸的毫克数表示
绞股蓝茶中的总酚含量(单位:mg /g).
1. 5 自由基清除能力的测定
绞股蓝茶浸提液的自由基清除能力以 2,2-
二苯基-1-三硝基笨肼自由基(DPPH)的清除量来
计算.操作步骤参考文献[18]:取 0. 1 mL 绞股蓝
茶浸提液,加入 0. 03 g /L DPPH甲醇溶液 10 mL,
封口摇匀,于黑暗中反应 30 min 后,在波长 517
nm处测定吸光度.绞股蓝茶浸提液的自由基清除
能力按如下公式计算:
Ax = A0 - (A1 - As) ; (1)
154第 4 期 孙 彬,等:应用支持向量机预测绞股蓝茶浸提液中药用成分的含量
自由基清除能力 =
0. 397 6Ax + 0. 005 1. (2)
r2 = 0. 999 6. 其中:A0 为 DPPH 溶液黑暗中静置
30 min后的吸光度;A1 代表绞股蓝茶浸提液与
DPPH溶液于暗处反应 30 min 后的吸光度;As 代
表浸取液本身的吸光值;自由基清除能力的单位
为 μmol /g.
标准曲线由生育酚标准溶液测得.
1. 6 支持向量机分析
LIBSVM软件包中集成了 C-SVC(应用于模
式分类) ,nu-SVC(应用于模式分类) ,one-class-
SVM(应用于模式识别) ,epsilon-SVR(应用于非
线性回归)和 nu-SVR(应用于非线性回归)模型,
其中 C-SVC为默认选择模型.本研究内容均基于
LIBSVM(3. 12版)中的 epsilon-SVR 模型,通过
Matlab(7. 9. 0. 529版本,R2009b)实现.以下是 ep-
silon-SVR模型介绍:
Vapnik[3]于 1988 年提出,与大多数线性回归
模型类似,例如最小二乘法,支持向量机的目的也
是寻求一个数学模型
f(x)= ωT·x + b(ω,x∈ Rd). (3)
式(3)中,ω和 b分别是权值向量和偏移量.
给定一个数据集(xi,yi) ,xi 为输入向量,yi
为 xi 相应的输出向量,模型(3)的参数最终通过
最小化下式来确定:
min
ω,b,ξ,ξ*
1
2 ω
T·ω + C∑
n
i = 1
(ξi + ξ
*
i ). (4)
s. t.
yi - ω
T·xi - b≤ ε + ξi;
ωT·xi + b - yi ≤ ε + ξ
*
i ;
ε,ξi,ξ
*
i ≥ 0
{

(5)
式(4)中:n是样本量;ξi 和 ξ
*
i 分别代表训练误差
的上限和下限;常数项 C(惩罚参数,C > 0)决定
了模型 f(x)和差异大于容忍度 ε 的样本数量之
间的平衡[19].
在给定的式(4)和式(5)中定义的模型优化
函数可以通过拉格朗日乘子法转化为以下形式表
现:
f(x)= ∑
n
i = 1
(ai - a
*
i )K(xi,x j)+ b. (6)
式(6)中:ai 和 a
*
i (且 a
*
i ≥0,a
*
i ≥C)为拉格朗日
乘子;K(xi,x j)则被定义为核函数
[20-21],而核函数
有多个选择.因此,要使非线性向量集映射到一个
线性回归的多维空间中,选择一个合适与否的核
函数决定了其回归性能的优劣[22].在 LIBSVM 软
件包中集成了 4 种基本的常见的核函数,列举如
下:
1)线性核函数:
K(xi,x j)= x
T
i·x j; (7)
2)多项式核函数:
K(xi,x j)= (γx
T
i·x j + coef 0)
d; (8)
3)径向基核函数:
K(xi,x j)= exp(- γ‖xi - x j‖)
2; (9)
4)双曲线核函数:
K(xi,x j)= tanh(γx
T
i·x j + coef 0). (10)
径向基核函数(RBF)是一个高斯函数,在
4 个核函数中应用最多. 其中,在式(8)和式(10)
中,本研究只涉及其默认参数,即 coef 0 = 0.
支持向量机模型的预测性能是通过比较均方
误差(MSE)及平方相关系数(r2)决定的,两者计
算公式如下:
MSE = 12∑
n
i = 1
(f(xi)- yi)
2; (11)
r2 =
(n∑
n
i = 1
f(xi)yi -∑
n
i = 1
f(xi)∑
n
i = 1
yi)
2
(n∑
n
i = 1
f(xi)
2 - (∑
n
i = 1
f(xi) )
2 (n∑
n
i = 1
y2i - (∑
n
i = 1
yi)
2)
. (12)
式(11)和式(12)中:n 表示样本数量;f(xi)表示
xi 通过 SVM模型所得的预测值;yi 是真实值. 在
模型中作为输入和输出的数据均先归一化处理.
为了提高模型预测的精准度,优化核函数参
数 g 和惩罚参数 C 是必不可少的. 然而,目前并
没有国际公认的模型参数优化方法. 本文运用了
最为广泛使用的网格参数寻优法.首先,将一对初
始参数(C,g)代入模型中;然后,训练集被随机分
配到 k个相互排斥的大小相近的子集中;接着,模
型用其中 k - 1 个子集作为训练集,剩余的 1 个子
集作为测试集,该过程重复 k次,直至每个子集均
作为测试集出现,记录下此过程中产生的最佳及
254 浙江师范大学学报(自然科学版) 2013 年
平均交互验证均方误差(CV-MSE) ;最后,大量不
同的(C,g)参数被代入模型重复进行以上步骤,
选取均方误差最小的(C,g)值作为最佳模型参
数[23].
除了网格参数寻优法外,本研究也尝试了另
外 2 种启发式算法:遗传优化算法(GA)和粒子群
优化算法(PSO).
遗传优化算法基于自然界进化演变的原理,
最早由 Goldberg等[24]引入,后经 Holland[25]证实.
遗传优化算法是可以在复杂多维度搜索空间中寻
求全局最优解决方案的参数优化算法. 在遗传优
化算法步骤中,寻找最优解是从一个初始化的潜
在解决方案开始的,记为一个种群,而每一个种群
则由一定数目的个体组成.因此,在第一代种群产
生后,以优胜劣汰、适者生存的原理逐代演化产生
越来越好的近似解.在每一代,根据问题域中个体
适应度的大小选择个体,并通过遗传学的遗传算
子进行选择、交叉和变异,产生出新的更优化的种
群.最后,末代种群中的最优个体即是问题的最优
解.
粒子群优化算法是 1995 年 Kennedy 和 Eber-
hart[26]首次提出的,源于对鸟类捕食行为的研究.
每个粒子都代表机制优化问题的一个潜在最优
解,用速度、位置和适应度 3 个指标表示该例子的
特征.适应度由适应度函数计算得到. Pbest 被定
义为一个搜索到最佳位置的粒子,即具有最佳适
应度;而 Gbest 则是所有粒子均搜索到最佳位置
上,即均具备最佳适应度.每个粒子都会朝着各自
的最优位置移动,而全局的最优解则由粒子群中
所有粒子搜索到的最佳位置决定[27].粒子的位置
更新是通过自己现有的位置及速度计算的. 速度
算法如下所示:
vi,d(t + 1)= wvi,d(t)+
c1 r1(pi,d(t)- xi,d(t) )+
c2 r2(pg,d(t)- xi,d(t) ) ; (13)
vi,d ∈[- vmax,vmax]. (14)
式(13)和式(14)中:pi,d表示编号为 i的搜索到最
佳位置的粒子;pg,d表示目前所有粒子处于全局最
佳位置;t表示迭代次数;r1 和 r2 表示 2 个范围在
[0,1]的随机数函数;c1 和 c2 为非负常数,称为加
速因子;w为惯性权重,首次被文献[28]引进,用
以平衡局部运算和全局运算;速度被限制在
[- vmax,vmax]范围内,vmax是由当前和目标位置决
定的边界值.综上所述,每个粒子的新位置由下式
计算得到:
xi,d(t + 1)= xi,d(t)+ vi,d(t + 1). (15)
2 结 果
2. 1 浸提结果分析
提取工艺可以被诸多因素优化,如提取时
间[29-30]、提取温度[31-32]、料液比、提取溶液类型[33]
和其他辅助技术[30].水提取由于其简单性和运营
成本低,一直是生产工艺中使用最多的方法,一般
国内植物性饮品的制作也都是基于水提取.目前,
已有研究人员研究了草本提取物中的营养成分和
抗氧化活性[34-35].支持向量机在食品科学领域已
有大量应用,如:枣干的分类[36]、蛋白含量预
测[37]、水果表面损伤检测[38-39]等. 从现有的研究
报道来看,本文通过 SVM模型预测绞股蓝浸提液
中生物活性成分含量的研究尚属首次. 本研究的
目的是为了论证支持向量机具有预测不同提取条
件下浸提液中有效成分含量的潜力.
实验结果如图 1 所示,随着浸提时间、浸提温
度的增加,绞股蓝茶浸提液中总酚含量、总黄酮含
量及其清除自由基的能力总体上均有上升趋势.
浸提温度越高,浸提液中各项指标升高得越快.
图 1 不同浸提温度及浸提时间下
绞 股蓝浸提液中的总酚含量(料液比为 1 ∶ 30)
从图 2 可知,自由基清除能力与总黄酮含量、
总酚含量密切相关,两者的相关系数分别为
0. 941 6和0. 931 5. 有关抗氧化活性与酚类物质
含量相关性的类似研究已有蔬菜[40]和药用植
物[41]方面的报道.
354第 4 期 孙 彬,等:应用支持向量机预测绞股蓝茶浸提液中药用成分的含量
图 2 绞股蓝浸提液中总黄酮含量
及总酚含量与自由基清除能力的相关性
2. 2 不同核函数对预测结果的影响
本实验中,以绞股蓝茶的浸提时间、浸提温度
和料液比作为输入向量,所得的浸提液中总黄酮
含量和总酚含量及其自由基清除能力作为输出向
量,建立了 3 个数学模型,用以分别预测绞股蓝浸
提液中的总黄酮含量、总酚含量及其自由基清除
能力.如表 1 所示,本实验涉及了 11 个不同的提
取温度,每个温度下共设置了 5 个提取时间及
3 个不同的料液比.因此,每个模型均有 165 个数
据点,其中随机选择 120 /165 个数据点组成训练
集,其余的 45 /165 个数据点组成测试集.
如“材料与方法”部分所阐述的,选择一个合
适的核函数是建立 SVM模型的关键.本研究中最
佳核函数的选择是通过比较模型在各自核函数下
计算得到的相关系数和均方误差来进行的.因此,
本实验尝试了几个不同项数的多项式函数和 4 个
基本核函数分别构建的数学模型. 表 2 是不同项
数参数下的多项式核函数 SVM模型的预测结果,
其中多项式模型中项数参数 d 的范围为 2 ~ 6;
表 3是在默认参数下(C = 0,g = 0) ,SVM 模型对
训练集和测试集的预测结果.
表 1 绞股蓝茶浸提处理的温度-时间组合
提取温度 /℃ 提取时间 /min
50 30 60 90 120 150
55 30 60 90 120 150
60 25 50 75 100 125
65 25 50 75 100 125
70 20 40 60 80 100
75 20 40 60 80 100
80 15 30 45 60 75
85 15 30 45 60 75
90 10 20 30 40 50
95 10 20 30 40 50
100 5 10 15 20 25
从表 2 和表 3 可知:当 d = 2 时,多项式核函
数模型在预测总酚含量时达到最佳相关系数;而
双曲线核函数下模型的预测结果最差,相关系数
明显小于其他核函数下模型的预测结果:预测总
酚含量时测试集的相关系数仅为 0. 378 5;预测总
黄酮含量时的相关系数为 0. 447 3;预测自由基清
除能力时的相关系数为 0. 314 1,而其均方误差却
比其他的预测结果大.图 3 是 SVM模型在不同核
函数下预测绞股蓝茶浸提液中总酚含量时训练集
和测试集的结果.表 3 和图 3 表明,径向基核函数
下 SVM模型表现出最佳的预测精度,其测试集相
关系数分别达到了0 . 9396(预测总酚含量的结
表 2 默认参数(C = 0,g = 0)下不同项数参数下的多项式核函数模型的预测结果
检测项目 数据集 性能参数
多项式核函数的项数
2 3 4 5 6
总酚
训练集
测试集
MSE
r2
MSE
r2
0. 005 1
0. 944 5
0. 007 1
0. 923 0
0. 005 9
0. 916 8
0. 007 4
0. 903 2
0. 009 4
0. 852 6
0. 007 4
0. 879 1
0. 014 4
0. 749 7
0. 013 7
0. 785 5
0. 018 7
0. 680 1
0. 016 5
0. 725 4
总黄酮
训练集
测试集
MSE
r2
MSE
r2
0. 005 1
0. 934 9
0. 005 7
0. 914 3
0. 005 4
0. 908 2
0. 006 6
0. 895 4
0. 008 2
0. 828 0
0. 008 6
0. 889 6
0. 011 7
0. 757 7
0. 011 9
0. 772 0
0. 015 3
0. 698 7
0. 016 6
0. 649 0
自由基清除能力
训练集
测试集
MSE
r2
MSE
r2
0. 005 8
0. 922 8
0. 006 5
0. 855 4
0. 007 5
0. 896 1
0. 008 6
0. 861 0
0. 012 4
0. 785 2
0. 010 4
0. 882 0
0. 016 7
0. 698 0
0. 017 1
0. 703 0
0. 021 4
0. 586 6
0. 025 3
0. 656 9
454 浙江师范大学学报(自然科学版) 2013 年
表 3 默认参数(C = 0,g = 0)下不同核函数 SVM模型的预测结果
检测项目 数据集 性能参数
核函数
线性 多项式 径向基 双曲线
总酚
训练集
测试集
MSE
r2
MSE
r2
0. 008 3
0. 830 1
0. 005 9
0. 881 6
0. 005 9
0. 916 8
0. 007 4
0. 903 2
0. 005 3
0. 911 6
0. 002 7
0. 939 6
0. 031 6
0. 389 7
0. 040 8
0. 378 5
总黄酮
训练集
测试集
MSE
r2
MSE
r2
0. 006 9
0. 843 2
0. 005 3
0. 859 2
0. 005 4
0. 908 2
0. 006 6
0. 895 4
0. 004 3
0. 903 2
0. 003 7
0. 926 9
0. 030 7
0. 359 4
0. 026 6
0. 447 3
自由基清除能力
训练集
测试集
MSE
r2
MSE
r2
0. 010 5
0. 803 9
0. 007 0
0. 826 7
0. 007 5
0. 896 1
0. 008 6
0. 861 0
0. 005 5
0. 894 6
0. 008 5
0. 921 9
0. 028 3
0. 417 9
0. 046 1
0. 314 1
图 3 不同核函数 SVM模型对绞股蓝茶浸提液总酚含量预测的训练集和测试集的回归结果
果) ,0. 926 9(预测总黄酮含量的结果)和0. 921 9
(预测自由基清除能力的结果).径向基核函数的
SVM模型不仅容易施行,而且能将非线性问题有
效地映射到无限维空间达到回归或模式识别的目
的.因为,径向基函数适合于处理非线性关系的问
题[42].
2. 3 不同参数优化方法对预测结果的影响
为了进一步提高 SVM模型的预测性能,参数
优化是必不可少的.以预测总酚含量为例,不同参
数优化算法下径向基核函数 SVM 模型的预测结
果如图 4 所示.其中:图 4(a)是通过网格优化算
法优化参数得到的优化曲面;而图 4(b)和图 4
(c)分别是由粒子群优化算法和遗传优化算法得
到的均方误差(MSE)曲线. 在粒子群优化算法下
粒子系数设为 20,迭代次数为 100;遗传优化算法
下种群大小设为 20,进化代数值是 100.
554第 4 期 孙 彬,等:应用支持向量机预测绞股蓝茶浸提液中药用成分的含量
图 4 不同参数优化算法下径向基核函数 SVM模型对绞股蓝浸提液总酚含量的参数优化结果
图 5 不同算法参数优化后径向基核函数 SVM模型
对绞股蓝浸提液总酚含量预测的训练集和测试集回归结果
表 4 不同参数优化算法下径向基核函数 SVM模型的预测结果
检测项目 数据集 性能参数
参数优化算法
网格寻优 粒子群算法 遗传算法
总酚
训练集
测试集
MSE
r2
MSE
r2
0. 001 2
0. 977 5
0. 002 4
0. 957 2
0. 001 1
0. 972 9
0. 004 0
0. 962 8
0. 001 3
0. 972 3
0. 002 2
0. 961 9
总黄酮
训练集
测试集
MSE
r2
MSE
r2
0. 000 6
0. 986 0
0. 000 9
0. 977 9
0. 000 6
0. 983 1
0. 001 1
0. 979 7
0. 000 4
0. 990 0
0. 001 8
0. 954 9
自由基清除能力
训练集
测试集
MSE
r2
MSE
r2
0. 000 4
0. 992 9
0. 004 2
0. 917 0
0. 001 9
0. 960 0
0. 002 9
0. 951 3
0. 001 6
0. 966 4
0. 003 1
0. 942 3
图 5 为不同的参数优化方法下径向基核函数
SVM模型预测绞股蓝提取液中总酚含量的训练
集和测试集的回归结果.由表 4 可知,粒子群优化
算法下径向基核函数 SVM 模型获得的测试集相
关系数方面达到了最佳效果:预测总酚含量的相
关系数为 0. 962 8,预测总黄酮含量的相关系数为
0. 979 7,预测自由基清除能力的相关系数为
0. 951 3.通过比较图 3(c)和图 5 可知,参数优化
可增加 SVM模型的预测精度.在粒子群算法优化
参数后,SVM模型预测总酚含量的测试集相关系
数从 0. 939 6 上升到 0. 962 8,预测总黄酮含量的
相关系数从 0. 926 9 上升到 0. 979 7,预测自由基
清除能力的相关系数从 0. 921 9 上升到0. 951 3.
此外,网格参数优化法下 SVM 模型预测总酚含
量、总黄酮含量及自由基清除能力的测试集相关
系数分别提高到了 0. 957 2,0. 977 9 和 0. 917 0.
遗传算法优化下 SVM模型预测总酚含量、总黄酮
含量及自由基清除能力的测试集相关系数分别提
654 浙江师范大学学报(自然科学版) 2013 年
高到了 0. 961 9,0. 954 9 和0. 942 3.
虽然 3 种参数优化方法下的预测结果无显著
性差异[43],但如表 4 所示,通过比较训练集和测
试集的预测结果,表明粒子群优化算法比其他
2 个算法具有更好的泛化能力. 粒子群优化算法
不仅在优化 SVM模型中表现突出,在模糊云分类
器[44]中的应用效果也十分明显. 因此,通过粒子
群优化算法优化的 SVM 预测模型可以凭借网络
结构简单、收敛速度快、泛化能力强的特点而建立
一个良好的数学模型. 本研究结果表明,SVM 模
型不仅可以预测绞股蓝茶浸提液中的总酚、总黄
酮等活性物质的含量及浸提液清除自由基的能
力,而且获得了较为精确的预测结果.
3 讨论与小结
本研究通过 SVM 模型成功预测了绞股蓝水
提取液中总酚和总黄酮的含量及其自由基清除能
力.如表 4 所示,SVM 模型的预测精度已达到了
较高的水平,表明该模型可以用于预测绞股蓝茶
浸提液中的总酚、总黄酮等活性物质的含量及浸
提液的自由基清除能力.根据本实验结果,建议使
用径向基核函数并用粒子群优化算法进行参数优
化. SVM不仅可广泛用于天然植物提取物中总
酚、总黄酮等活性物质的含量分析,也可推广应用
于食品加工过程中营养物质的控制.
参考文献:
[1]卢金清,肖波,陈黎,等.分光光度法测定绞股蓝中总皂苷的含量[J].湖北中医杂志,2007,29(1) :50.
[2]张涛,张育松.福建甜味绞股蓝茶的保健成分及其市场现状和展望[J].亚热带农业研究,2008,4(2) :154-157.
[3]Vapnik V. Statistical learning theory[M]. New York:John Wiley and Sons Inc,1988.
[4]Bahlmann C,Haasdonk B,Burkhardt H. On-line handwriting recognition with support vector machines—A Kernel Approach[C]/ /Eighth Inter-
national Workshop on Frontiers in Handwriting Recognition (IWFHR02). Washington:IEEE Computer Society,2002:49-54.
[5]Barabino N,Pallavicini M,Petrolini A,et al. Support vector machines vs multi-layer perceptrons in particle identification[C]/ /Proceedings of
the European Symposium on Artifical Neural Networks. Belgium:D-Facto Public,1999:257-262.
[6]Guo Yingchun. An integrated PSO for parameter determination and feature selection of SVR and its application in STLF[C]. Proceedings of the
Eighth International Conference on Machine Learning and Cybernetics. Baoding:[Conference Publications],2009:359-364.
[7]Lü Hongfei,Jiang Wu,Ghiassi M,et al. Classification of Camellia (Theaceae)species using leaf architecture variations and pattern recognition
techniques[J]. PLoS One,2012,7(1) :e29704.
[8]Lou Heqiang,Hu Ya,Wang Bin,et al. Dried jujube classification using support vector machine based on fractal parameters and red,green and
blue intensity[J]. International Journal of Food Science and Technology,2012,47(9) :1951-1957.
[9]Chang C C,Lin C J. LIBSVM:a library for support vector machines[J]. ACM TIST,2011,2(3) :1-27.
[10]宋晖,薛云,张良均,等.基于 SVM分类问题的核函数选择仿真研究[J].计算机与现代化,2011(8) :133-136.
[11]郭雷,肖怀铁,付强,等.非均衡数据目标识别中 SVM模型多参数优化选择方法[J].红外与毫米波学报,2009,28(2) :141-145.
[12]李晓宇,张新峰,沈兰荪,等.一种确定径向基核函数参数的方法[J].电子学报,2005,33(12A) :2459-2463.
[13]江伟,罗毅,涂光瑜,等.基于多类支持向量机的变压器故障诊断模型[J].水电能源科学,2007,25(1) :52-55.
[14]杨朝霞,方健文,李佳蓉,等.粒子群优化算法在多参数拟合中的应用[J].浙江师范大学学报:自然科学版,2008,31(2) :173-177.
[15]吴景龙,杨淑霞,刘承水,等.基于遗传算法优化参数的支持向量机短期负荷预测方法[J].中南大学学报:自然科学版,2009,40(1) :
180-184.
[16]Bonvehí J S,Torrent M S,Lorente E C. Evaluation of polyphenolic and flavonoid compounds in honeybee-collected pollen produced in spain
[J]. J Agric Food Chem,2001,49:1848-1853.
[17]Emmons C L,Peterson D M,Paul G L. Antioxidant capacity of oat (Avena sativa L.)extracts. 2. In vitro antioxidant activity and contents of
phenolic and tocol antioxidants[J]. Journal of Agricutural and Food Chemistry,1999,47:4894-4898.
[18]Maisuthisakul P,Pongsawatmanit R,Gordon M H. Assessment of phenolic content and free-radical scavenging capacity of some Thai indigenous
plants[J]. Food Chemistry,2007,100(4) :1409-1418.
[19]stün B,Melssen W,Oudenhuijzenb M,et al. Determination of optimal support vector regression parameters by genetic algorithms and simplex
optimization[J]. Analytica Chimica Acta,2005,544(1 /2) :292-305.
[20]Belousov A,Verzakov S,Frese J V. A flexible classification approach with optimal gen eralisation performance:support vector machines[J].
Chemometrics and Intelligent Laboratory Systems,2002,64(1) :15-25.
754第 4 期 孙 彬,等:应用支持向量机预测绞股蓝茶浸提液中药用成分的含量
[21]Smola A J,Schlkopf B. A tutorial on support vector regression[J]. Statistics and Computing,2004,14(3) :199-222.
[22]Vapnik V. The nature of statistical learning theory[M]. New York:Springer-Verlag,1995.
[23]Duan Kaibo,Keerthi S S,Poo A N. Evaluation of simple performance measures for tuning SVM hyperparameters[J]. Neurocomputing,2003,
51:41-59.
[24]Goldberg D E,Holland J H. Genetic algorithms in search,optimization,and machine learning[J]. Machine Learning,1988,3(2 /3) :95-99.
[25]Holland J H. Adaptation in natural and artificial systems:An introductory analysis with applications to biology,control,and artificial intelli-
gence[M]. Oxford:University of Michigan Press,1975.
[26]Kennedy J,Eberhart R. Particle swarm optimization[J]. Neural Networks,1995,4:1942-1948.
[27]Guo Guodong,Li S Z,Chan K L. Face recognition by support vector machines[C]/ /Proceedings of IEEE International Conference on Auto-
mate Face and Gesture Recognition. Washington:IEEE Computer Society,2000:196-201.
[28]Shi Yuhui,Eberhart R. A modified particle swarm optimizer[C]/ /Evolutionary Computation Proceedings,1998. IEEE World Congress on
Computational Intelligence. Anchorage:IEEE,1998:69-73.
[29]Maeda-Yamamoto M,Nagai H,Suzuki Y,et al. Changes in O-methylated catechin and chemical component contents of Benifuuki green tea
(Camellia sinensis L.)beverage under various extraction conditions[J]. Food Science and Technology Research,2005,11(3) :248-253.
[30]Pan Xuejun,Niu Guoguang,Liu Huizhou. Microwave-assisted extraction of tea polyphenols and tea caffeine from green tea leaves[J]. Chemical
Engineering and Processing,2003,42(2) :129-133.
[31]Sharma V,Gulati A,Ravindranath S D. Extractability of tea catechins as a function of manufacture procedure and temperature of infusion[J].
Food Chemistry,2005,93(1) :141-148.
[32]Xia Tao,Shi Siquan,Wan Xiaochun. Impact of ultrasonic-assisted extraction on the chemical and sensory quality of tea infusion[J]. Journal of
Food Engineering,2006,74(4) :557-560.
[33]Yau N,Huang Y. The effect of membrane-processed water on sensory properties of Oolong tea drinks[J]. Food Quality and Preference,2000,
11(4) :331-339.
[34]Yang Xingbin,Zhao Yan,Yang Ying,et al. Isolation and characterization of immunostimulatory polysaccharide from an herb tea,Gynostemma
pentaphyllum Makino[J]. Journal of Agricultural and Food Chemistry,2008,56(16) :6905-6909.
[35]Nagai T,Myoda T,Nagashima T. Antioxidative activities of water extract and ethanol extract from field horsetail (tsukushi)Equisetum arvense
L[J]. Food Chemistry,2005,91(3) :389-394.
[36]Lou Heqiang,Hu Ya,Wang Bin,et al. Jujube classification using support vector machine based on fractal parameters and red,green and blue
intensity[J]. International Journal of Food Science and Technology,2012,47(9) :1951-1957.
[37]Wu Di,He Yong,Feng Shuijuan,et al. Study on infrared spectroscopy technique for fast measurement of protein content in milk powder based
on LS-SVM[J]. Journal of Food Engineering,2008,84(1) :124-131.
[38]Zheng Hong,Lü Hongfei. A least-squares support vector machine (LS-SVM)based on fractal analysis and CIELab Aparameters for the detec-
tion of browning degree on mango (Mangifera indica L.) [J]. Computers and Electronics in Agriculture,2012,83:47-51.
[39]Lü Hongfei,Zheng Hong,Lou Heqiang,et al. Bruise detection on red bayberry using fractal analysis and support vector machine[J]. Journal of
Food Engineering,2011,104(1) :149-153.
[40]Kaur C,Kapoor H C. Anti-oxidant activity and total phenolic content of some Asian vegetables[J]. International Journal of Food Science and
Technology,2002,37(2) :153-161.
[41]Pietta P,Simonetti P,Mauri P. Antioxidant activity of selected medicinal plants[J]. Journal of Agricultural and Food Chemistry,1998,46
(11) :4487-4490.
[42]Hong W,Dong Yucheng,Chen L,et al. SVR with hybrid chaotic genetic algorithms for tourism demand forecasting[J]. Applied Soft Compu-
ting,2011,11(2) :1881-1890.
[43]Alba E,Garcia-Nieto J,Jourdan L,et al. Gene selection in cancer classification using PSO /SVM and GA /SVM hybrid algorithms[C]/ /Evolu-
tionary Computation,2007. Singapore:IEEE,2007:284-290.
[44]Lü Hongfei,Pi Erxu,Peng Qiufa,et al. A particle swarm optimization-aided fuzzy cloud classifier applied for plant numerical taxonomy based
on attribute similarity[J]. Expert System,2009,36(5) :9388-9397.
(责任编辑 薛 荣)
854 浙江师范大学学报(自然科学版) 2013 年