全 文 :中草药 Chinese Traditional and Herbal Drugs 第 46 卷 第 7 期 2015 年 4 月 ·990·
最小二乘支持向量机和偏最小二乘法在栀子中间体纯化工艺近红外定量分
析中的应用
吴 莎 1,刘启安 2, 3,李 云 2, 3,刘 茜 2, 3,宋亚玲 2, 3,吴建雄 2, 3,毕宇安 2, 3,王振中 2, 3,
萧 伟 2, 3*
1. 北京中医药大学,北京 100102
2. 江苏康缘药业股份有限公司,江苏 连云港 222001
3. 中药制药过程新技术国家重点实验室,江苏 连云港 222001
摘 要:目的 应用近红外(NIR)光谱技术建立热毒宁注射液栀子中间体纯化工艺关键质控成分的定量分析模型。方法 测
定样品中山栀苷、京尼平苷酸、去乙酰车叶草酸甲酯、京尼平龙胆双糖苷、栀子苷、绿原酸和总酸的量,扫描 NIR 光谱,
经过异常点的剔除、最佳光谱预处理方法的选择、最佳建模波段的选择,分别用偏最小二乘法(PLS)和最小二乘支持向量
机法(LS-SVM)建立定量校正模型,并用此模型对 18 个未知样品进行预测。结果 山栀苷、京尼平苷酸、去乙酰车叶草
酸甲酯、京尼平龙胆双糖苷、栀子苷、绿原酸和总酸的 PLS 模型和 LS-SVM 模型对未知样品的预测相对偏差(RSEP)均小
于 3%,说明 2 种方法均产生较好的拟合效果和预测能力。但是山栀苷和总酸的 LS-SVM 模型预测误差明显小于 PLS 模型,
京尼平苷酸、去乙酰车叶草酸甲酯、京尼平龙胆双糖苷、栀子苷和绿原酸的 LS-SVM 模型和 PLS 模型预测误差接近。结论
LS-SVM 法较 PLS 法预测性能更好,建立的模型可以用于热毒宁注射液栀子中间体纯化工艺关键质控成分的快速检测。
关键词:近红外光谱;偏最小二乘法;最小二乘支持向量机法;粒子群算法;热毒宁注射液
中图分类号:R284.2 文献标志码:A 文章编号:0253 - 2670(2015)07 - 0990 - 08
DOI: 10.7501/j.issn.0253-2670.2015.07.010
Application of least squares support vector machines and partial least squares in
quantitation on purification of Gardenia jasminoides intermediate using NIR spectroscopy
WU Sha1, LIU Qi-an2, 3, LI Yun2, 3, LIU Qian2, 3, SONG Ya-ling2, 3, WU Jian-xiong2, 3, BI Yu-an2, 3,
WANG Zhen-zhong2, 3, XIAO Wei2, 3
1. Beijing University of Chinese Medicine, Beijing 100102, China
2. Jiangsu Kanion Pharmaceutical Co., Ltd., Lianyungang 222001, China
3. State Key Laboratory of New-tech for Chinese Medicine Pharmaceutical Process, Lianyungang 222001, China
Abstract: Objective To establish the quantitative models for analyzing the content of critical quality indicators in the purification
process of Gardenia jasminoides intermediate in Reduning Injection using near-infrared (NIR) spectroscopy. Methods The contents
of shanzhiside, geniposidic acid, deacetyl asperulosidic acid methyl ester, genipin-1-β-D-gentiobioside, geniposide, chlorogenic acid,
and total acid were determined by the reference method and NIR spectra were acquired. After removing the outliers, selecting the
optimal spectral preprocessing method and selecting the best spectral wavelength, partial least squares (PLS) and the least squares
support vector machines (LS-SVM) were used to build the models for predicting the contents of the above quality indicators in 18
unknown samples. Results For shanzhiside, geniposidic acid, deacetyl asperulosidic acid methyl ester, genipin-1-β-D-gentiobioside,
geniposide, chlorogenic acid, and total acid, the relative standard errors of prediction (RSEP) was lower than 3% for PLS models and
LS-SVM models, indicating both methods could exhibit the satisfactory fitting results and predictive abilities. However, the LS-SVM
models of shanzhiside and total acid showed lower predictive errors than PLS models. For geniposidic acid, deacetyl asperulosidic acid
methyl ester, genipin-1-β-D-gentiobioside, geniposide, and chlorogenic acid, both models have the closer predictive errors.
收稿日期:2014-11-17
基金项目:科技部重大新药创制:现代中药创新集群与数字制药技术平台(2013ZX09402203)
作者简介:吴 莎(1988—),女,博士研究生,研究方向为中药质量控制及过程分析。Tel: 13601215863 E-mail: wusha729@163.com
*通信作者 萧 伟,研究员级高级工程师,博士,研究方向为中药新药的研究与开发。Tel: (0518)81152367 E-mail: kanionlunwen@163.net
中草药 Chinese Traditional and Herbal Drugs 第 46 卷 第 7 期 2015 年 4 月 ·991·
Conclusion S-SVM shows better predictive performance than PLS. The established NIR quantitative models can be used for rapidly
measuring the content of critical quality indicators in the purification process of G. jasminoides intermediate in Reduning Injection.
Key words: near-infrared spectroscopy; partial least squares; least squares support vector machines; particle swarm optimization;
Reduning Injection
热毒宁注射液处方由青蒿、金银花、栀子 3 味
中药组成,临床上用于治疗上呼吸道感染[1]。方中
栀子为茜草科植物栀子 Gardenia jasminoides Ellis
的干燥成熟果实,主要含有环烯醚萜类、有机酸类
和色素类成分[2],具有抗炎、镇痛、抗病毒等药理
作用[3-4]。从 2005 年上市以来,热毒宁注射液因抗
病毒、抗菌退热疗效显著,作用迅速,得到广大医
生和患者的欢迎。继 2010 年热毒宁注射液被批准为
甲型 H1N1 流感[5]和手足口病临床用药,2014 年 10
月热毒宁注射液又被批准为登革热诊疗用药。
栀子中间体纯化是热毒宁注射液中间体生产过
程中重要工艺单元之一,它在富集药效成分的同时
除去脂溶性杂质,但是纯化过程容易受到加热、搅
拌、pH 等工艺参数的干扰而影响药效成分量。近红
外(near infrared,NIR)光谱技术凭借其样品处理
简单、分析快速、无需消耗试剂的特点[6],是目前
发展最快的过程分析技术之一,被越来越多地应用
于中药研究领域,包括药材产地鉴别[7-8]、有效成分
定量测定[9-10]和制药过程的在线监控[11-12]。因此考
虑将 NIR 光谱分析技术引入栀子中间体纯化工艺
中,实现关键质控成分的实时监测。
本研究以热毒宁注射液栀子中间体纯化工艺为
研究对象,选择山栀苷(shanzhiside,SZS)、京尼
平苷酸(geniposidic acid,GA)、京尼平龙胆双糖苷
( genipin-1-β-D-gentiobioside , GG )、 栀 子 苷
(geniposide,GS)、去乙酰车叶草酸甲酯(deacetyl
asperulosidic acid methyl ester,DAAME)、绿原酸
(chlorogenic acid,CA)和总酸(total acid,TA)为
关键质控成分,分别运用偏最小二乘法(partial least
squares,PLS)和最小二乘支持向量机法( least
squares support vector machines,LS-SVM)建立 NIR
定量分析模型,快速检测关键质控成分的量,为在
线质量控制提供可行性实验依据与技术支撑。
1 仪器与材料
Luminar 5030 型 AOTF 近红外光谱分析仪,美
国 Brimrose 公司;配有 InGaAs 检测器,SNAP 光
谱信号采集软件、Unscrambler 7.8 数据处理软件,
挪威 CAMO 软件公司;Matlab R2012a 数据处理软
件,美国 MathWorks 软件公司;Agilent 1290 超高
效液相色谱仪,美国安捷伦科技有限公司,配有
DAD 检测器、四元梯度泵、在线脱气装置、自动进
样器;Mettler Toledo XP6 电子天平,梅特勒-托利
多仪器上海有限公司;H1650-W 台式高速离心机,
湖南湘仪实验室仪器开发有限公司;Milli-Q
Academic 纯水机,美国 Millipore 公司。
对照品去乙酰车叶草酸甲酯(批号 111786-
200801)和栀子苷(批号 110749-201115)均购自中
国食品药品检定研究院;对照品山栀苷(批号
BBP01688)购自云南西力生物技术有限公司;对照
品绿原酸(批号 MUST-13031401)和京尼平苷酸(批
号 MUST-13121502)均购自成都曼思特生物科技有
限公司;对照品京尼平龙胆双糖苷(批号 131120)
购自成都普菲德生物技术有限公司。上述对照品质
量分数均为 98%以上。乙腈,色谱纯,Tedia 公司;
水为超纯水;栀子中间体纯化溶液来自江苏康缘药
业股份有限公司。
2 方法
2.1 样品收集及划分
从栀子中间体纯化工艺开始至结束,每隔 5 分
钟取 50 mL 溶液作为 1 份样品,每批取样 16 个,
共取样 11 批,批号为 Z140305、Z140306、Z140307、
Z140308、Z140309、Z140310、Z140401、Z140402、
Z140405、Z140406、Z140408。在 Matlab 软件上采
用 Kennard-stone 样本划分方法,按照 9∶1 的比例,
将获得的 176 个样本分为训练集(158 个样本)和
预测集(18 个样本)。
2.2 NIR 光谱采集
在室温条件下,采集样品的 NIR 投射光谱。光
谱扫描范围 1 100~2 300 nm,波长增量 2 nm,扫
描次数 300 次,分辨率 1 nm。每个样品采集 3 张光
谱,取平均光谱进行分析。样品的原始光谱、一阶
导数光谱和二阶导数光谱见图 1。
2.3 UPLC 测定
2.3.1 色谱条件 色谱柱为 Agilent Zorbax SB-C18
(100 mm×3.0 mm,1.8 μm);预柱 Agilent UPLC
Guard Zorbax SB-C18(5 mm×3.0 mm,1.8 μm);流
中草药 Chinese Traditional and Herbal Drugs 第 46 卷 第 7 期 2015 年 4 月 ·992·
图 1 NIR 原始光谱 (A)、一阶导数光谱 (B) 和二阶导数光谱 (C)
Fig. 1 NIR of original spectra (A), spectra obtained with first derivative (B), and spectra obtained with second derivative (C)
动相为乙腈-0.1%磷酸水溶液,梯度洗脱:0~10
min,5%~10%乙腈;10~15 min,10%~20%乙腈;
15~30 min,20%~30%乙腈;体积流量 0.4 mL/min;
进样量 2 μL;柱温 30 ℃;238 nm 下测定山栀苷、
京尼平苷酸、去乙酰车叶草酸甲酯、京尼平龙胆双
糖苷和栀子苷,327 nm 下测定绿原酸。
2.3.2 对照品储备液的制备 分别精密称取山栀
苷、京尼平苷酸、去乙酰车叶草酸甲酯、京尼平龙
胆双糖苷、栀子苷和绿原酸对照品适量,加 50%甲
醇制成质量浓度分别为 28.08、15.14、61.54、113.68、
770.20、36.40 mg/L 的混合对照品储备液。
2.3.3 供试品溶液的制备 精密称定 50 mL 量瓶,
加入 1 mL 栀子中间体纯化溶液,精密称定,用 50%
甲醇稀释至刻度,摇匀,离心,精密吸取 1 mL 上
清液,置 10 mL 量瓶中,用 50%甲醇稀释至刻度,
摇匀,离心,上清液过 0.22 μm 微孔滤膜,即得。
2.3.4 线性关系考察 分别精密量取不同体积的混
合对照品储备液,将其配成不同质量浓度的对照品
溶液,按上述色谱条件进样分析,以峰面积积分值
(Y)对质量浓度(X)进行线性回归分析,得到各
对照品的回归方程和线性范围:山栀苷 Y=5.512 X-
1.07,R2=0.999 7,线性范围 4.21~42.12 μg/mL;
京尼平苷酸 Y=6.144 X-0.90,R2=0.999 7,线性
范围 2.27~22.71 μg/mL;去乙酰车叶草酸甲酯 Y=
6.738 X-2.03,R2=0.999 9,线性范围 9.23~92.31
μg/mL;京尼平龙胆双糖苷 Y=3.631 X-0.73,R2=
0.999 9,线性范围 17.05~170.52 μg/mL;栀子苷
Y=6.833 X-6.05,R2=0.999 9,线性范围 115.53~
1 155.30 μg/mL;绿原酸 Y=13.736 X-6.95,R2=
0.999 8,线性范围 5.46~54.60 μg/mL。
2.3.5 精密度考察 按“2.3.3”项下方法制备供试
品溶液,连续进样 6 次,按“2.3.1”项下色谱条件
测定,记录峰面积,结果山栀苷、京尼平苷酸、去
乙酰车叶草酸甲酯、京尼平龙胆双糖苷、栀子苷和
绿原酸峰面积的 RSD 分别为 0.37%、1.09%、0.32%、
0.55%、0.18%、0.27%,说明仪器的精密度良好。
2.3.6 重复性考察 按“2.3.3”项下方法重复制备
6 份供试品溶液,按“2.3.1”项下色谱条件进样测
定,结果山栀苷、京尼平苷酸、去乙酰车叶草酸甲
酯、京尼平龙胆双糖苷、栀子苷和绿原酸平均质量
分数分别为 8.12、2.55、12.08、22.30、145.91、6.07
mg/g,RSD 分别为 1.17%、1.36%、0.63%、1.08%、
0.72%、0.92%,说明该方法的重复性良好。
2.3.7 稳定性考察 按“2.3.3”项下方法制备供试
品溶液,室温下放置,分别在不同时间点(0、2、4、
8、16、24 h)进样,按“2.3.1”项下色谱条件测定,
记录峰面积,结果山栀苷、京尼平苷酸、去乙酰车
叶草酸甲酯、京尼平龙胆双糖苷、栀子苷和绿原酸
峰面积的 RSD 分别为 1.08%、1.27%、0.68%、0.79%、
0.42%、0.70%,说明样品溶液中各成分在室温下 24
h 内稳定。
2.3.8 加样回收率考察 精密称定 50 mL 量瓶,加
入 0.5 mL 栀子中间体纯化溶液,精密称定,分别精
密加入适量山栀苷、京尼平苷酸、去乙酰车叶草酸
甲酯、京尼平龙胆双糖苷、栀子苷、绿原酸对照品,
用 50%甲醇定容至刻度,摇匀,离心,精密吸取 1 mL
上清液,置 10 mL 量瓶中,用 50%甲醇稀释至刻度,
摇匀,离心,上清液过 0.22 μm 微孔滤膜滤过。同
法制备 6 份,按“2.3.1”项下色谱条件进样测定,
计算加样回收率,并计算 RSD。结果平均回收率分
别为 100.32%、 102.86%、 98.76%、 100.92%、
100.72%、99.04%,RSD 分别为 1.31%、1.87%、
1.66%、1.51%、1.12%、1.01%。
2.4 总酸测定
2.4.1 供试品溶液的制备 精密称定 50 mL 量瓶,
加入 1 mL 栀子中间体纯化溶液,精密称定,用 50%
1 100 1 500 1 900 2 300 1 100 1 500 1 900 2 300 1 100 1 500 1 900 2 300
λ/nm
A B C
中草药 Chinese Traditional and Herbal Drugs 第 46 卷 第 7 期 2015 年 4 月 ·993·
甲醇稀释至刻度,摇匀,离心,精密吸取 1 mL 上
清液,置 10 mL 量瓶中,用 50%甲醇稀释至刻度,
摇匀,离心,再精密吸取 2 mL 上清液,置 10 mL 量
瓶中,用 50%甲醇稀释至刻度,摇匀,离心,即得。
2.4.2 标准曲线的绘制 精密称取绿原酸对照品
5.030 mg 置 50 mL 量瓶中,加 50%甲醇定容至刻度,
摇匀,得到含绿原酸 100.6 mg/L 的对照品储备液。
精密吸取储备液各 1、2、3、4、5 mL,分别置于
20 mL 量瓶中,加 50%甲醇稀释至刻度,摇匀,以
50%甲醇为空白,在 324 nm 波长处测定吸光度(A)
为 A1,在 400 nm 波长下测定 A 为 A2,以 ΔA=(A1-
A2) 为纵坐标(Y),以质量浓度(C)为横坐标(X),
绘制标准曲线Y=51.250 58 X-0.000 12,r=0.999 9。
2.5 UPLC 色谱图
根据上述色谱条件和供试品的制备方法,检测
样品溶液中山栀苷、京尼平苷酸、去乙酰车叶草酸
甲酯、京尼平龙胆双糖苷、栀子苷和绿原酸的量。
混合对照品溶液和样品溶液的 UPLC 图见图 2。
1-山栀苷 2-京尼平苷酸 3-去乙酰车叶草酸甲酯 4-京尼平龙胆双糖苷 5-栀子苷 6-绿原酸
1-shanzhiside 2-geniposidic acid 3-deacetyl asperulosidic acid methyl ester 4-genipin-1-β-D-gentiobioside 5-geniposide 6-chlorogenic acid
图 2 混合对照品溶液 (A) 和样品溶液 (B) 的 UPLC 图
Fig. 2 UPLC of mixed reference solutions (A) and sample solutions (B)
2.6 模型建立及模型性能评价
分别应用PLS和LS-SVM方法建立光谱数据与
质控指标间的定量模型。以相关系数(correlation
coefficient,R)、校正均方根误差(root mean square
errors of calibration,RMSEC)、交叉验证均方根误
差(root mean square errors of cross-validation,
RMSECV)为指标优化建模参数,以 R、预测均方
根误差( root mean square error of prediction,
RMSEP)和预测相对偏差(relative standard error of
prediction,RSEP)为指标考察模型预测准确性。
3 结果与讨论
3.1 异常点的剔除
NIR 在采集的过程中,可能由于环境温湿度的
变化或样品粒度、黏度等物理性状的变化,从而引
起样品吸光度或特征峰强度异常[13]。因此在建立模
型之前,需要先剔除异常点。异常点根据杠杆值和
残差的大小进行判断,杠杆值越大,残差越小,说
明数据对模型贡献越大,反之,数据对模型贡献
较小[14]。以栀子苷为例,见图 3,样本 36、60、83
图 3 栀子苷模型中异常点
Fig. 3 Outliers in geniposide calibration model
残差很大,但杠杆值较小,说明它们为异常点,需
要从校正模型中剔除。同理,剔除山栀苷模型的异
常点 36、60、83,京尼平苷酸模型的异常点 14、104,
去乙酰车叶草酸甲酯模型的异常点 4、14,京尼平
龙胆双糖苷模型的异常点 36、83,绿原酸模型的异
常点 63,总酸模型的异常点 109。
3.2 光谱预处理方法的选择
NIR 容易受到溶液的均匀性、固体颗粒杂质等
因素的干扰,导致基线偏移或漂移[15]。对光谱进行
1 2
3
4
5 6
3
2
1 4
5 6
0 5 10 15 20 25 30 0 5 10 15 20 25 30
t/min
238 nm 324 nm
238 nm 324 nm
A
B
1 200
900
600
300
0
残
差
0 0.05 0.10 0.15 0.20
杠杆值
36
60
83
中草药 Chinese Traditional and Herbal Drugs 第 46 卷 第 7 期 2015 年 4 月 ·994·
适当的预处理,可以消除干扰,更好地提取特征光
谱信息。从图 1 中可以看出,光谱经过二阶导数处
理后,噪音信号明显放大,所以分别使用原始光谱
和一阶导数处理后的光谱在 1 100~2 300 nm 建模
比较,结果见表 1,发现山栀苷、京尼平苷酸、去
乙酰车叶草酸甲酯、京尼平龙胆双糖苷、栀子苷、
绿原酸和总酸光谱经过一阶导数结合 Savitzky-
Golay 平滑(S-G)和标准正则变换(standard normal
variate,SNV)处理后,所建模型 RMSEC 和
RMSECV 更低,建模效果更好。
表 1 不同光谱预处理方法对模型性能的影响
Table 1 Effect of different spectral pretreatments on
calibration model performance
化合物 预处理方法 R RMSEC RMSECV
山栀苷 原始光谱 0.925 8 0.264 2 0.286 3
一阶导数+S-G+SNV 0.956 1 0.204 9 0.237 8
京尼平苷酸 原始光谱 0.963 7 0.145 4 0.179 6
一阶导数+S-G+SNV 0.969 3 0.128 2 0.156 4
去乙酰车叶 原始光谱 0.913 2 0.857 6 1.028 0
草酸甲酯 一阶导数+S-G+SNV 0.935 0 0.840 4 0.996 3
京尼平龙胆 原始光谱 0.911 7 0.875 7 0.936 7
双糖苷 一阶导数+S-G+SNV 0.965 7 0.616 8 0.662 0
栀子苷 原始光谱 0.933 7 4.854 5 5.263 9
一阶导数+S-G+SNV 0.967 9 3.144 6 3.604 6
绿原酸 原始光谱 0.924 0 0.281 8 0.326 7
一阶导数+S-G+SNV 0.941 0 0.252 6 0.283 1
总酸 原始光谱 0.937 9 1.307 0 1.385 9
一阶导数+S-G+SNV 0.963 9 0.904 9 0.962 6
3.3 建模波段的选择
研究比较了不同的光谱波段对建模效果的影
响,R 越高,RMSEC 与 RMSECV 越低说明所建模
型越好,结果如表 2 所示,山栀苷、京尼平苷酸、
京尼平龙胆双糖苷、栀子苷和总酸的最佳建模波
段是 1 100~2 300 nm,去乙酰车叶草酸甲酯的最佳
建模波段是 1 500~1 850 nm,绿原酸的最佳建模波
段是 1 100~1 850 nm。
3.4 定量模型的建立
根据选定的最佳光谱预处理方法和最佳建模波
段,应用留一交叉验证法建立各成分的 PLS 和 LS-
SVM 定量校正模型。对于 PLS 模型,应用主成分
分析(principle component analysis,PCA)选择山
栀苷、京尼平苷酸、去乙酰车叶草酸甲酯、京尼平
表 2 不同波段对模型性能的影响
Table 2 Effect of different wavelengths on calibration
model performance
化合物 波段/nm R RMSEC RMSECV
山栀苷 1 100~2 300 0.956 1 0.204 9 0.237 8
1 100~1 400 0.889 2 0.314 9 0.351 2
1 500~1 850 0.925 7 0.265 5 0.312 6
1 100~1 850 0.935 6 0.246 4 0.284 5
1 900~2 300 0.881 7 0.314 3 0.373 7
京尼平苷酸 1 100~2 300 0.969 3 0.128 2 0.156 4
1 100~1 400 0.948 2 0.172 2 0.185 6
1 500~1 850 0.954 6 0.160 2 0.188 6
1 100~1 850 0.968 0 0.135 1 0.164 1
1 900~2 300 0.935 0 0.187 8 0.231 0
去乙酰车叶 1 100~2 300 0.935 0 0.840 4 0.996 3
草酸甲酯 1 100~1 400 0.915 4 0.943 2 1.097 4
1 500~1 850 0.944 1 0.802 0 0.924 0
1 100~1 850 0.916 6 0.923 3 1.092 2
1 900~2 300 0.892 3 0.984 5 1.162 7
京尼平龙胆 1 100~2 300 0.965 7 0.616 8 0.662 0
双糖苷 1 100~1 400 0.915 6 0.931 9 1.023 0
1 500~1 850 0.932 4 0.827 5 0.885 6
1 100~1 850 0.949 7 0.738 3 0.798 9
1 900~2 300 0.881 5 0.944 6 1.035 6
栀子苷 1 100~2 300 0.967 9 3.144 6 3.604 6
1 100~1 400 0.925 5 4.989 1 5.287 2
1 500~1 850 0.916 5 5.620 8 6.121 6
1 100~1 850 0.951 0 4.140 9 4.713 1
1 900~2 300 0.893 7 6.534 7 6.971 1
绿原酸 1 100~2 300 0.941 0 0.252 6 0.283 1
1 100~1 400 0.902 2 0.306 4 0.334 6
1 500~1 850 0.914 5 0.284 0 0.310 4
1 100~1 850 0.947 1 0.239 3 0.271 4
1 900~2 300 0.883 6 0.335 0 0.404 7
总酸 1 100~2 300 0.963 9 0.904 9 0.962 6
1 100~1 400 0.924 9 1.422 4 1.473 0
1 500~1 850 0.941 6 1.270 6 1.379 4
1 100~1 850 0.954 9 1.058 1 1.118 1
1 900~2 300 0.931 0 1.297 5 1.435 7
龙胆双糖苷、栀子苷、绿原酸和总酸的最佳主成分
数分别是 6、8、8、7、6、6、5。对于 LS-SVM 模
型,应用径向基核函数(radial basis function,RBF)
作为训练函数。RBF 中最重要的参数为回归误差权
中草药 Chinese Traditional and Herbal Drugs 第 46 卷 第 7 期 2015 年 4 月 ·995·
重 γ 和核参数 σ2,它们在很大程度上决定算法的学
习和泛化能力[16],因此,采用粒子群算法(particle
swarm optimization,PSO)对 γ 和 σ2 进行全局寻
优[12]。LS-SVM 和 PSO 算法均在 Matlab 软件平台
上自主编制。两参数 γ 和 σ2 的搜索范围分别设为
10−1~103和 10−2~102,初始化粒子数设为 30,PSO
最大循环迭代数为 100。结果各成分用 PSO 算法搜
索到的最优参数分别为山栀苷:γ=52.8,σ2=3.6;
京尼平苷酸:γ=538.4,σ2=89.6;去乙酰车叶草酸
甲酯:γ=366.9,σ2=73.9;京尼平龙胆双糖苷:γ=
244.2,σ2=29.6;栀子苷:γ=853.1,σ2=44.2;绿
原酸:γ=211.6,σ2=78.6;总酸:γ=457.4,σ2=
61.8。各成分的 PLS 和 LS-SVM 模型参数见表 3,
从中可以看出,LS-SVM 模型 R 更高,RMSEC 和
RMSECV 更低,拟合效果更好。
表 3 校正集和交叉验证集模型参数
Table 3 Model parameters of calibration and cross-
validation sets
校正集 交叉验证集 化合物 建模方法
R RMSEC R RMSECV
PLS 0.956 1 0.204 9 0.950 3 0.227 8山栀苷
LS-SVM 0.987 3 0.124 2 0.975 5 0.163 9
PLS 0.969 3 0.128 2 0.958 2 0.146 4京尼平苷酸
LS-SVM 0.977 9 0.107 1 0.962 1 0.123 8
PLS 0.944 1 0.802 0 0.929 6 0.972 2去乙酰车叶
草酸甲酯 LS-SVM 0.964 3 0.732 0 0.950 7 0.924 8
PLS 0.965 7 0.616 8 0.960 9 0.662 0京尼平龙胆
双糖苷 LS-SVM 0.981 0 0.530 3 0.971 4 0.601 8
PLS 0.967 9 3.144 6 0.958 8 3.404 6栀子苷
LS-SVM 0.982 6 2.918 5 0.973 5 3.229 6
PLS 0.977 1 0.239 3 0.959 0 0.277 6绿原酸
LS-SVM 0.984 3 0.213 0 0.969 1 0.262 8
PLS 0.963 9 0.904 9 0.956 9 0.962 6总酸
LS-SVM 0.979 7 0.805 3 0.967 1 0.885 2
3.5 模型预测
用所建立的模型预测预测集 18 个样本中各成
分的量。以 R、RMSEP 和 RSEP 为指标评价模型预
测性能,当 RSEP 小于 8%,可以认为所建模型预测
准确性能够满足质量控制要求[17]。从表 4 中可以看
出,所有成分的 RSEP 值皆小于 3%,说明 PLS 和
LS-SVM 2 种模型预测准确性均较好,但是 LS-SVM
模型较 PLS 模型 RMSEP 和 RSEP 值更低,预测误
表 4 预测集模型参数
Table 4 Model parameters of prediction set
化合物 建模方法 R RMSEP RSEP/%
PLS 0.948 1 0.579 9 1.86 山栀苷
LS-SVM 0.961 7 0.419 2 1.35
PLS 0.946 0 0.159 2 2.22 京尼平苷酸
LS-SVM 0.957 3 0.135 6 1.95
PLS 0.923 0 1.458 1 2.62 去乙酰车叶
草酸甲酯 LS-SVM 0.947 9 1.213 8 2.43
PLS 0.956 3 1.490 1 1.62 京尼平龙胆
双糖苷 LS-SVM 0.965 9 1.348 5 1.47
PLS 0.953 1 7.079 5 1.25 栀子苷
LS-SVM 0.964 0 6.359 1 1.12
PLS 0.950 7 0.423 7 1.72 绿原酸
LS-SVM 0.962 6 0.383 1 1.56
PLS 0.954 3 2.729 1 2.07 总酸
LS-SVM 0.958 9 2.176 3 1.55
差更小。对 PLS 和 LS-SVM 模型各成分的预测值进
行配对样本检验。具体方法为计算成对数据的差值
(d),对 d 进行正态性检验,如果 d 服从正态分布,
则使用 2 组配对样本 t 检验,如果 d 不服从正态分
布,则使用非参数检验中的 Wilcoxon 秩和检验,结
果山栀苷、京尼平苷酸和栀子苷 Wilcoxon 秩和检验
的 P 值分别为 0.004、0.277 和 0.199;去乙酰车叶
草酸甲酯、京尼平龙胆双糖苷、绿原酸和总酸 t 检
验的 P 值分别为 0.446、0.372、0.074 和 0.036,说
明山栀苷和总酸 2 种模型的预测值间差异有统计学
意义。从图 4 中可以看出,PLS 和 LS-SVM 2 种模
型对山栀苷和总酸的量预测差异比较显著,
LS-SVM 模型预测值与 UPLC 测定值更加接近,这
与表 4 中山栀苷和总酸 LS-SVM 模型的 RSEP 值明
显低于 PLS 的 RSEP 值相吻合。
4 结论
NIR 分析常用的建模方法有偏最小二乘法、人
工神经网络法(artificial neural networks,ANN)和
支持向量机法(support vector machines,SVM)等。
LS-SVM 是支持向量机方法的扩展,能够进行线性
和非线性的多元建模,它相比 SVM 提高了运算速
度和收敛精度[18],它也可以从全局最优角度出发,
有效地避免 ANN 算法容易陷入局部最优的问题[19]。
鉴于中药成分的复杂性,栀子中间体纯化溶液的
NIR 信息和质控指标的量信息间可能包含复杂的非
线性关系,本实验考虑分别用 PLS 和 LS-SVM 2 种
中草药 Chinese Traditional and Herbal Drugs 第 46 卷 第 7 期 2015 年 4 月 ·996·
图 4 预测集样品各成分 UPLC 实测值、PLS 预测值和 LS-SVM 预测值相关性
Fig. 4 Correlation among UPLC-measured value, PLS-predicted value, and LS-SVM-predicted value of each sample in
prediction set
方法构建关键质控成分的定量分析模型。
从结果来看,山栀苷、京尼平苷酸、去乙酰车
叶草酸甲酯、京尼平龙胆双糖苷、栀子苷、绿原酸
和总酸的 PLS 模型和 LS-SVM 模型预测集 RSEP 均
小于 3%,预测性能较好,但是山栀苷和总酸的 LS-
SVM 模型 RMSEP 和 RSEP 值明显低于 PLS 模型。
对于京尼平苷酸、去乙酰车叶草酸甲酯、京尼平龙
胆双糖苷、栀子苷和绿原酸,这 2 种模型 RMSEP
和 RSEP 值差异不大,LS-SVM 模型稍优。整体来
看,LS-SVM 模型对上述 7 个成分的预测性能更好。
本研究建立的栀子中间体纯化工艺关键质控成
分的 NIR 定量分析模型,操作简单,预测误差较小,
有望在此基础上扩大校正集和预测集样本容量,建
立此过程 NIR 在线监控模型,实现关键质控成分的
量的实时监测,并结合自动化控制技术,从根本上
保障热毒宁注射液产品质量的安全、有效、均一、
稳定。
参考文献
[1] 罗佩施, 吴礼武. 热毒宁治疗急性上呼吸道感染伴发
热的疗效观察 [J]. 临床合理用药, 2010, 16(2): 69-70.
[2] 付小梅, 侴桂新, 王峥涛. 栀子的化学成分 [J]. 中国
天然药物, 2008, 6(6): 418-420.
[3] 方尚玲, 刘源才, 张庆华, 等. 栀子苷镇痛和抗炎作用
的研究 [J]. 时珍国医国药, 2008, 19(6): 1374-1376.
[4] 曹泽彧, 常秀娟, 赵忠鹏, 等. 热毒宁注射液抗 A16 型
柯萨奇病毒的研究 [J]. 中草药 , 2014, 45(10):
1450-1455.
[5] 王振中, 鲍琳琳, 孙 兰, 等. 热毒宁注射液抗甲型
H1N1流感病毒作用机制研究 [J]. 中草药, 2014, 45(1):
8
7
6
5
UPLC
PLS
LS-SVM
质
量
分
数
/(m
g·
g−
1 )
质
量
分
数
/(m
g·
g−
1 )
质
量
分
数
/(m
g·
g−
1 )
2.0
1.8
1.6
1.4
1.2
1.0
0.8
16
13
10
7
UPLC
PLS
LS-SVM
UPLC
PLS
LS-SVM
0 6 12 18 0 6 12 17 0 6 12 18
样品号
山栀苷 去乙酰车叶草酸甲酯京尼平苷酸
UPLC
PLS
LS-SVM
UPLC
PLS
LS-SVM
PLS
LS-SVM
UPLC
27
24
21
18
15
160
150
140
130
120
110
100
6.5
6.0
5.5
5.0
4.5
质
量
分
数
/(m
g·
g−
1 )
质
量
分
数
/(m
g·
g−
1 )
质
量
分
数
/(m
g·
g−
1 )
京尼平龙胆双糖苷 栀子苷 绿原酸
0 6 12 18 0 6 12 18 0 6 12 18
样品号
40
35
30
25
UPLC
LS-SVM
PLS
质
量
分
数
/(m
g·
g−
1 )
0 6 12 18
样品号
总酸
中草药 Chinese Traditional and Herbal Drugs 第 46 卷 第 7 期 2015 年 4 月 ·997·
90-93.
[6] 杨海龙, 臧恒昌, 胡 甜, 等. 近红外漫反射光谱法对
不同产地山楂的定性鉴别和定量分析 [J]. 药物分析杂
志, 2014, 34(3): 396-401.
[7] 杜 敏, 巩 颖, 林兆洲, 等. 样品表面近红外光谱结
合多类支持向量机快速鉴别枸杞子产地 [J]. 光谱学与
光谱分析, 2013, 33(5): 1211-1214.
[8] 孙丽英, 杨天鸣, 王云英, 等. 不同产地黄柏的近红外
指纹图谱鉴别分析 [J]. 计算机与应用化学 , 2008,
25(3): 329-332.
[9] 雷敬卫, 樊明月, 郭艳利, 等. 近红外光谱法快速测定
木香中木香烃内酯与去氢木香内酯的含量 [J]. 天然药
物研究与开发, 2014, 26(7): 1062-1066.
[10] 李 伟, 孙素琴, 覃洁萍, 等. 近红外漫反射法测定杜
仲中松脂醇二葡萄糖苷的含量 [J]. 中国中药杂志 ,
2010, 35(24): 3318-3321.
[11] 魏惠珍, 张五萍, 毛红梅, 等. 近红外光谱法在白芍提
取物纯化过程中快速质量控制研究 [J]. 中草药, 2013,
44(9): 1128-1133.
[12] 金 叶, 杨 凯, 吴永江, 等. 基于粒子群算法的最小
二乘支持向量机在红花提取液近红外定量分析中的应
用 [J]. 分析化学, 2012, 40(6): 925-931.
[13] 闵顺耕, 李 宁, 张明祥. 近红外光谱分析中异常值的
判别与定量模型优化 [J]. 光谱学与光谱分析, 2004,
24(10): 1205-1209.
[14] Wu Z, Xu B, Du M, et al. Validation of a NIR
quantification method for the determination of
chlorogenic acid in Lonicera japonica solution in ethanol
precipitation process [J]. J Pharm Biomed Anal, 2012,
62(25): 1-6.
[15] 袁洪福. 在线近红外光谱分析技术及其应用 [A] // 第
三届中国在线分析仪器应用及发展国际论坛暨展览会
论文 [C]. 北京: 中国仪器仪表学会, 2010.
[16] 徐 冰, 王 星, Dhaene Tom, 等. 基于遗传算法的多
目标最小二乘支持向量机在近红外多组分定量分析中
的应用 [J]. 光谱学与光谱分析, 2014, 34(3): 638-642.
[17] Wu Y J, Jin Y, Li Y R, et al. NIR spectroscopy as a
process analytical technology (PAT) tool for on-line and
real-time monitoring of an extraction process [J]. Vib
Spectrosc, 2012, 58(1): 109-118.
[18] Pochet N L M M, Suykens J A K. Support vector
machines versus logistic regression: improving
prospective performance in clinical decision-making [J].
Ultrasound Obstet Gynecol, 2006, 27(6): 607-608.
[19] 林关成, 李亚安. 基于 ANN 与 SVM 的分类和回归比
较研究 [J]. 声学技术, 2008, 27(4): 226-230.