免费文献传递   相关文献

基于野韭菜挥发性成分的色谱保留指数神经网络预测



全 文 :第 49 卷 第 1 期
Vol. 49 No. 1
山 东 大 学 学 报 (理 学 版)
Journal of Shandong University(Natural Science)
2014 年 1 月
Jan. 2014
收稿日期:2013-06-25;网络出版时间:2013-12-10 10∶ 16
网络出版地址:http:/ /www . cnki. net /kcms /detail /37. 1389. N. 20131210. 1016. 001. html
基金项目:江苏省自然科学基金资助项目(09KJD150012) ;徐州市科技计划资助项目(XX10A060) ;徐州市绿色技术重点实验室资助项目
(SYS2012009)
作者简介:堵锡华(1963 -) ,男,教授,主要从事药物、食品构效关系研究. Email:dxh@ xzit. edu. cn
文章编号:1671-9352(2014)01-0050-04 DOI:10. 6040 / j. issn. 1671-9352. 0. 2013. 305
基于野韭菜挥发性成分的色谱
保留指数神经网络预测
堵锡华,史小琴,冯长君,李亮
(徐州工程学院化学化工学院,江苏 徐州 221111)
摘要:为研究野韭菜挥发性成分的性质,预测其色谱保留指数,运用 MATLAB 相关自编程序计算得到了野韭菜挥
发性成分的分子形状指数和电性拓扑态指数,将这两类参数作为分子结构描述参数,借助多元逐步回归法优化筛
选了其中结构参数2K、3K、4K、I2 和 I6,建立了野韭菜挥发性成分色谱保留指数的 QSRR 模型,相关系数为 0. 963,
通过对模型的稳定性和预测能力进行检验,检验的相关系数 r 也稳定在 0. 963 左右。用这 5 个筛选出的结构参数
作为人工神经网络的输入层参数,采用 5-2-1 的网络神经结构,利用 BP算法建构神经网络模型,总相关系数达到
0. 996的优级相关,利用此模型计算得到的预测值与实验值吻合度较为理想,相对平均误差仅为 1. 67%,结果显示
BP神经网络所得结果优于多元线性回归方法。
关键词:野韭菜;人工神经网络;色谱保留指数;挥发性成分;定量结构 -保留相关性
中图分类号:TS207;O6-051 文献标志码:A
Prediction of chromatograph retention index by artificial neural network by
study on volatile constituents of wild chinese chives
DU Xi-hua,SHI Xiao-qin,FENG Chang-jun,LI Liang
(School of Chemistry and Chemical Engineering,Xuzhou Institute of Technology,Xuzhou 221111,Jiangsu,China)
Abstract:In order to study on the features of aromatic composition in wild Chinese chives and predict its chromato-
graphic retention index of volatile constituents molecules,self-designed programs are run in MATLAB to get the molec-
ular shape index and electrotopological state index of volatile constituents of wild Chinese chives. The two indexes are
used as molecular structure parameters,and by using multiple stepwise regression method,we screen and optimize the
structure parameters 2K、3K、4K、I2 and I6 to establish a QSRR model of chromatographic retention index of volatile con-
stituents of wild Chinese chives. The correlation coefficient of regression equation reaches 0. 963. By examining the sta-
bility and predictive ability of the model,we find the correlation coefficient r of the inspection is stable at around 0. 963.
The five structural parameters are used as the input neurons of the artificial neural network and a 5-2-1 network architec-
ture is employed. A satisfying neural network model is constructed with the back-propagation(BP)algorithm. The
gross correlation coefficient R is 0. 996,which shows a significant correlation. The forecasted values is basically tally
with experimental values that we get from the model with only 1. 67% mean relative error. It can be seen that the results
of back-propagation network are better than those of multiple linear regression methods.
Key words:wild Chinese chive;artificial neural network(ANN) ;chromatograph retention index;volatile constituents;
quantitative structure-retention relationship (QSRR)
第 1 期 堵锡华,等:基于野韭菜挥发性成分的色谱保留指数神经网络预测 51
0 引言
野韭菜(wild Chinese chive)富含多种对人体有
益的营养元素,具有温中下气、益阳补肾、提神健胃
和散瘀解毒等作用,对烦热、食欲减少、尿频等症有
较好的疗效,故兼有较高的食用和药用价值。目前,
对野韭菜的研究工作并不多见[1-3],主要集中在其
挥发性成分的分析检测方面,利用定量结构 -保留
相关性(QSRR)方法对野韭菜花精油挥发性成分的
保留指数进行研究尚未见报道。
近年来,QSRR 方法已成为色谱分析工作研究
的一种简单、有效的手段[4-6],已成为色谱科学研究
中一个新的重要分支,受到环境、药物、食品检测研
究工作者的关注,对此许多学者[7-9]做了大量开创
性的工作。本文在前面[10-11]工作的基础上,根据文
献[1]检测出的 37 种野韭菜花精油挥发性成分的色
谱保留指数,利用相关应用软件计算得到分子形状
指数及其电性拓扑态指数,并对野韭菜花精油挥发
性成分的色谱保留指数(RI)进行回归分析,发现通
过有机结合这两种指数与野韭菜挥发性成分的色谱
保留性质有良好的相关性,所建模型也具有较好的
稳定性和预测能力。
人工神经网络(Artificial neural network,ANN)
方法具有结构简单、自适应强、能模拟任意非线性输
入 /输出关系等特点,将神经网络方法应用于野韭菜
性质研究未见有报道。因此本文利用人工神经网络
BP算法,以多元线性回归方法中筛选出的 5 个变量
作为输入层,输出层为野韭菜挥发性成分的色谱保
留指数,所建立的 BP 模型为:训练集 R = 0. 997、测
试集 R = 0. 987、验证集 R = 0. 997,总体 R = 0. 996。
结果表明,采用神经网络方法建立的模型相关性得
到明显的提高,预测值与实验值的符合程度更高,模
型稳定性和预测能力更强。
1 分子形状指数mK 和电性拓扑态指
数 Im 的计算
应用 Chemoffice2005 软件中 ChemDraw Ultra
9. 0 软件构建文献[1]中检测出的野韭菜花精油挥发
性成分中有色谱保留指数值的 29 个分子的分子结
构,在 MATLAB 环境下,根据文献自编程序[12-13]计
算得到多种参数作为结构描述符,使用统计软件
SPSS13. 0 回归,经过反复多次优化筛选分析,选取
分子形状指数中的2K、3K 和4K、电性拓扑状态
(E-State)指数中的 I2 和 I6,将这 5 个参数作为变
量,与野韭菜花精油挥发性分子的色谱保留指数进
行回归分析,两者有良好的相关性。这些参数值见
表 1。
表 1 野韭菜挥发性成分的参数值
Table 1 Parameter values of the volatile constituents
in wild Chinese chive
序号 化合物 2K 3K 4K I2 I6
1 己醛 5. 830 5. 830 2. 002 4. 209 0. 982
2 糠醛 1. 818 0. 824 0. 514 0 5. 403
3 2-乙烯基-2-丁烯醛 3. 498 2. 063 1. 005 0 4. 000
4 反-2-己烯醛 5. 570 5. 570 1. 762 2. 128 4. 201
5 癸醛 9. 830 9. 830 5. 881 9. 812 1. 020
6 大茴香醛 3. 247 1. 745 1. 659 0 0. 805
7 顺-9-十六烯醛 15. 570 15. 570 11. 589 14. 925 5. 723
8 3-己烯-1-醇 5. 700 5. 700 1. 881 2. 143 4. 038
9 糠醇 1. 909 0. 885 0. 568 -0. 007 4. 997
10 苯甲醇 2. 478 1. 331 0. 934 0. 140 0
11 2-甲基-3-辛醇 5. 723 5. 493 3. 208 4. 649 0
12 苯乙醇 3. 254 1. 859 1. 489 1. 005 0
13 2,4-二甲基-2,6-庚
二烯-1-醇
5. 243 5. 004 2. 803 1. 152 3. 966
14 4-乙烯基愈创木酚 3. 324 1. 667 1. 851 0 1. 696
15 桉叶油素 2. 007 1. 099 1. 211 5. 315 0
16 大茴香脑 3. 938 2. 204 2. 200 0 4. 071
17 14-甲基-十五酸甲

14. 204 15. 734 11. 022 15. 119 0
18 甲基烯丙基二硫醚 5. 440 5. 731 1. 643 1. 057 1. 904
19 甲基丙烯基二硫醚 5. 440 5. 731 1. 643 0 4. 089
20 二甲基三硫醚 5. 050 5. 050 1. 294 0 0
21 二烯丙基二硫醚 7. 180 7. 373 3. 285 2. 053 3. 807
22 甲基甲硫基甲基二
硫醚
6. 050 6. 297 2. 207 1. 210 0
23 甲基烯丙基三硫醚 6. 790 6. 790 2. 909 1. 047 1. 911
24 2,5-二甲基-1,3,4-
五硫三环
2. 555 1. 780 1. 145 0 0
25 二甲基四硫醚 6. 400 6. 627 2. 537 0 0
26 二烯丙基三硫醚 8. 530 8. 530 4. 601 2. 045 3. 818
27 甲硫基甲磺酰基甲

3. 837 5. 933 1. 250 0. 764 0
28 2-正戊基呋喃 4. 286 2. 724 2. 292 4. 937 5. 720
29 2-甲 基-5-乙 基-吡

2. 625 1. 525 1. 195 1. 077 0
2 多元线性回归模型
2. 1 拓扑参数与色谱保留指数的相关性
目前对食品、药品挥发性成分的检测多以气相
色谱质谱联用(GC-MS)技术为主[14-15],该法虽然操
作简便,但往往需要借助色谱保留指数等相关数据
52 山 东 大 学 学 报 (理 学 版) 第 49 卷
辅佐分析才能准确地对各组分进行结构鉴定。野韭
菜中挥发性成分较为复杂,含有醛类、酮类、醇类、酯
类、酚类、醚类、硫醚类、芳香类等种类繁多的化学成
分[1],故利用构效研究方法对野韭菜花精油挥发性
成分的保留指数进行预测,可为野韭菜定性分析提
供一种非常简便有效的手段。将计算得到的分子形
状指数和电性拓扑态指数与文献[1]中 37 种挥发性
成分中有保留指数值(RI)的 29 种分子进行回归分
析,得到线性回归方程如下:
RI = - 184. 795 2K + 63. 536 3K + 295. 0604K -
56. 390I2 - 22. 758I6 + 1 203. 626。 (1)
n = 29,r = 0. 963,r2adj = 0. 912,S = 77. 149,F =
59. 236。
式中 n 为样本数,r 为相关系数,r2adj为调整判定系
数,S 为标准误差,F 为 Fischer 检验值。方程的相
关系数虽然只有 0. 963,但对包含有近十个种类分
子放在一起进行回归得到的方程已属不易。根据式
(1)估算野韭菜花精油香味分子的保留指数,估算
值与实验值基本吻合,两者的相对误差为 4. 99%,
基本符合检测要求。
2. 2 稳健性检验
为检验式(1)模型的稳定性及对其他分子保留
指数的预测能力,采用典型的 Jackknifed 法对模型
(1)进行稳定性检验,从 29 个分子中每次剔除 1
个,用剩余分子回归,这样共得到 29 个方程,相关系
数均在 0. 963 左右,其中只有剔除 34 号甲硫基甲磺
酰基甲烷分子时,得到的相关系数最大,达到
0. 979,这可能与磺酰基与硫原子之间的相互影响较
大,导致保留指数值明显偏大有关,但总的来说,所
建模型(1)的总体稳健性良好,相关数据见表 2。
如对方程(1)采用 MINITAB 分析软件的逐一
剔除法进行检验,得到交叉检验相关系数 RCV
2 =
0. 813,同时根据 FIT(Kubinyi函数)计算公式:
FIT = R
2(y - b - 1)
(y + b2) (1 - R2)
, (2)
式中:y 为化合物样本数,b 为变量数。计算得到
FIT = 5. 484,这里可以看出 R2CV大于 0. 5,FIT 值也
较大,说明模型有良好的稳健性和预测能力。
表 2 Jackknifed相关系数的检验
Table 2 Inspection of jackknifed correlation coefficient
剔除分子 相关系数 剔除分子 相关系数 剔除分子 相关系数 剔除分子 相关系数 剔除分子 相关系数
1 0. 961 7 0. 952 13 0. 963 19 0. 963 25 0. 963
2 0. 967 8 0. 962 14 0. 966 20 0. 963 26 0. 963
3 0. 963 9 0. 966 15 0. 965 21 0. 963 27 0. 979
4 0. 962 10 0. 964 16 0. 966 22 0. 964 28 0. 969
5 0. 963 11 0. 966 17 0. 951 23 0. 963 29 0. 966
6 0. 964 12 0. 963 18 0. 963 24 0. 964
3 人工神经网络模型
人工神经网络作为一种新的数学模型,由于具
有出色的非线性函数逼近能力,可实现高符合度的
网络输入符与输出目标之间的非线性映射关系。人
工神经网络中的 BP神经网络模型目前应用最为广
泛,它是一种反向传播算法的前馈神经网络,可以精
确实现任意有限训练样本集的拟合,所以该方法被
广泛地应用到环境科学等研究工作中[18-19]。BP 网
络由一个输入层、一个输出层、一个或多个隐蔽层神
经元组成。这里以对野韭菜挥发性成分色谱保留指
数起主要作用的2K、3K、4K、I2 和 I6 作为输入层神经
元参数,输出层一个参数即色谱保留指数,经过反复
测试计算最优化的网络拓扑结构为 5 - 2 - 1。为了
防止目标函数过小出现的“过拟合、过训练”现象,
本文将数据集分为训练集、验证集和测试集 3 组,训
练集有 18 个分子、测试集有 6 个分子、验证集有 5
个分子,建立模型得到的相关系数分别为:训练集
R = 0. 997、测试集 R = 0. 987、验证集 R = 0. 997,它
们与总相关系数 R = 0. 996 较为接近,说明本文所
建模型较为稳定。通过计算得到的预测值与实验值
非常吻合,相对平均误差为 1. 67%,相关数据见表
3,该模型的权重和偏置见表 4。
表 3 保留指数实验值和预测值
Table 3 Experimental values and predicted values of
chromatograph retention index
序号
RI
实验值预测值
相对
误差
序号
RI
实验值预测值
相对
误差
1 803 810 0. 87 16 1 275 1 251 -1. 88
2 831 865 4. 09 17 1 894 1 894 0
3 840 818 -2. 62 18 908 936 3. 08
4 846 819 -3. 19 19 922 949 2. 93
5 1 193 1 192 -0. 08 20 973 968 -0. 51
6 1 248 1 246 -0. 16 21 1 090 1 088 -0. 18
7 1 809 1 799 -0. 55 22 1 121 1 072 -4. 37
第 1 期 堵锡华,等:基于野韭菜挥发性成分的色谱保留指数神经网络预测 53
续表 3
序号
RI
实验值预测值
相对
误差
序号
RI
实验值预测值
相对
误差
8 850 834 -1. 88 23 1 132 1 127 -0. 44
9 858 875 1. 98 24 1 151 1 141 -0. 87
10 1 035 1 020 -1. 45 25 1 211 1 234 1. 90
11 1 085 1 117 2. 95 26 1 288 1 325 2. 87
12 1 111 1 103 -0. 72 27 1 351 1 349 -0. 15
13 1 260 1 197 -5. 00 28 978 978 0
14 1 304 1 319 1. 15 29 1 013 1 033 1. 97
15 1 019 1 012 -0. 69
4 结语
影响色谱保留值的因素较多,根据色谱分离原
理,决定色谱保留值大小的主要是各种组分和固定
相之间的分子间作用力,这些作用力包括色散力、定
向力 、诱导力及其氢键作用力等,有时可能主要取
决于色散力大小,有时还取决于定向力和诱导力大
小,而当固定相及其分析条件一定时,作用力的大
小则与组分分子的特性密切相关[20]。这里采用了
分子形状指数和电性拓扑状态指数,这两个指数不
表 4 BP-NN 模型的权重和偏置
Table 4 Weights and bias of BP-ANN model
层间变化 权 重 偏置
从输入层到隐蔽层
- 0. 223 77 0. 190 46 0. 213 07 - 1. 173 80 2. 781 80 - 0. 239 08
- 1. 102 50 - 0. 113 28 - 6. 878 10 - 12. 311 00 - 11. 348 00 - 3. 899 10
从隐蔽层到输出层 1. 865 90 0. 511 39 0. 692 01
但能反映不同组分分子的体积大小,而且还能揭示
分子中原子的固有电性以及原子所处的局部环境,
包含了相关分子的电子结构信息、极性大小和分子
大小等方面较多的信息,能较好地解释食品中挥发
性组分的色谱保留机理。由于野韭菜的挥发性成分
比较复杂,有多个种类,分子中存在醛基、酯基、羰
基、羟基以及杂环等,因此这些基团在分子中的位置
和所处的环境,因相互间影响大小而有所差别,故也
会影响保留指数的大小。通过考察文献[1]中野韭
菜花精油挥发性成分的保留指数与其结构的关系,
发现随着碳原子数逐渐增加,分子增大,相应色谱保
留指数也逐渐增大,同碳原子的醇保留值要大于醛,
这说明羟基的作用较为明显。另外杂原子数越多,
相应的保留指数也增大。分子形状指数能较好地反
映分子的空间结构,它随着分子碳原子数的增多而
逐渐增大;电性拓扑态指数则能较好地反映分子的
电性结构,所以两者有机的结合,能较好地反映出野
韭菜花精油挥发性成分的性质变化规律。通过比较
可以看出,神经网络模型得到的结果明显好于多元
回归模型,模型相关系数达到了 0. 99 以上的优级
相关,预测的相对平均误差仅为 1. 67%,这说明建
构神经网络模型的网络结构 比较合理,参
数2K、3K、4K、I2 和 I6 是影响野韭菜挥发性成分色谱
保留指数的主要因素,它们之间有良好的非线性关
系。故利用本文建构的预测模型来预测野韭菜挥发
性成分的保留指数,对野韭菜成分的定性分析有一
定的实际意义。
参考文献:
[1]郑福平,孙宝国,刘玉平,等. 同时蒸馏萃取 -气质联机
分析腌渍野韭菜花香成分[J]. 食品科学,2009,30
(22) :247-249.
[2]杨梦云,郑福平,段艳,等.溶剂萃取 /溶剂辅助风味蒸发
-气相色谱 /质谱联用分析野韭菜花挥发性成分[J].食
品科学,2011,32(20) :211-216.
[3]BLOCK E,NAGANATHAN S,PUTMAN D,et al. Al-
lium chemistry:HPLC analysis of thiosulfinates from on-
ion,garlic,wild garlic (ramsoms) ,leek,scallion,shal-
lot,elephant (great-headed)garlic,chive,and Chinese
chive. Uniquely high allyl to methyl ratios in some garlic
samples[J]. Journal of Agricultural and Food Chemistry,
1992,40(12) :2418-2430.
[4]苏越,王呈仲,郭寅龙. 基于准确质量测定和保留指数
的 GC-MS 分析薄荷挥发性成分[J].化学学报,2009,67
(6) :546-554.
[5] ZHU Wanping,YANG Shanbin,LIAO Limin,et al.
Structural characterization of volatile components of Rosa
Banksiae Ait for estimation and prediction of their linear
retention indices and retention times[J]. Chinese Journal
of Structural Chemistry,2009,28(4) :391-396.
[6]ZHAO Wei,LIANG Guizhao,CHEN Yuzhen,et al. A
new quantitative structure—retention relationship model
for predicting chromatographic retention time of oligonu-
cleotides[J]. Science China Chemistry,2011,54(7) :
1064-1071.
(下转第 64 页)
64 山 东 大 学 学 报 (理 学 版) 第 49 卷
[6]谢安东,周玲玲,阮文,等. 自辐射场下 PuO 分子光谱
研究[J]. 物理学报,2012,61(4) :043302-043304.
[7]COOPER G,OLNEY T N,BRION C E. Absolute UV
and Soft X-ray photoabsorption of ethylene by high resolu-
tion dipole (e,e)spectroscopy[J]. Chem Phys,1995,
194(1) :175-184.
[8]MARTIN J M L,SUNDERMANN A. Correlation con-
sistent valence basis sets for use with the Stuttgart—Dres-
den—Bonn relativistic effective core potentials:The at-
oms Ga—Kr and In—Xe[J]. J Chem Phys,2001,114:
3408-3420.
[9] HUBER K P,HERZBERG G. Molecular Spectra and
Molecular Structure IV Constants of Diatomic Molecules
[M]. New York:Van Nostrand Reinhold Company,
1979:618.
(编辑:于善清)
(上接第 53 页)
[7]王天瑞,李美萍,冯彦琳,等. 食品包装材料中酯类化学
物质的 QSRR应用研究[J].食品科学,2010,31(22) :
398-402.
[8]施介华,江峰,严巍,等. 烃类化合物在不同色谱柱上的
定量结构-保留相关性研究[J].分析化学,2005,33(2) :
181-186.
[9]LIAO Limin,ZHU Jun,LI Jianfeng,et al. QSRR Study
on the components of styrax japonicus sieb flowers using
improved molecular electronegativity-distance vector (I-
MEDV) [J]. Chinese Journal of Structural Chemistry,
2011,30(1) :105-110.
[10]堵锡华. 多溴代二苯并呋喃 /噻吩热力学性质的定量
构效关系[J].化工学报,2010,61(12) :3059-3066.
[11]堵锡华. 香梨酒香气成分保留时间的定量构效关系研
究[J].食品科学,2011,32(2) :218-221.
[12]胡黔楠,梁逸曾,王亚丽,等. 直观队列命名法的基本
原理及其在矩阵与拓扑指数计算中的应用[J]. 计算
机与应用化学,2003,20(4) :386-390.
[13]张婷,梁逸曾,赵晨曦,等. 基于分子结构预测气相色
谱程序升温保留指数[J]. 分析化学,2006,34(11) :
1607-1610.
[14]程明,杨立新,杨连菊,等. 河北涞水野生五灵脂挥发
性成分 GC-MS 研究[J]. 中国中药杂志,2011,36
(24) :3480-3483.
[15]赵金凤,周春兰,周凤琴,等. 乳香挥发性成分 GC-MS
分析[J].中国中药杂志,2011,36(8) :1050-1053.
[16]孙宗保,赵杰文,邹小波,等. HS-SPME /GC-MS /GC-O
对镇江香醋特征香气成分的确定[J].江苏大学学报,
2010,31(2) :139-144.
[17]苗志伟,柳金龙,官伟,等. 北京产干黄酱中挥发性风
味成分分析[J].食品科学,2011,32(20) :151-156.
[18]冯长君,沐来龙,杨伟华,等. 用拓扑指数和神经网络
研究有机污染物的生物富集因子[J].化学学报,2008,
66(19) :2093-2098.
[19]杨胜龙,邬旸,于红霞,等. 基于 GLM 模型和神经网络
研究芳烃化合物对藻类毒性[J].环境科学学报,2012,
32(6) :1487-1496.
[20]卢佩章,戴朝政,张祥民. 色谱基础理论[M]. 北京:化
学工业出版社,1998:206-207.
(编辑:于善清)