免费文献传递   相关文献

用Kier逆指数与神经网络研究木香花挥发性化学成分的保留时间



全 文 :用 Kier逆指数与神经网络研究木香花
挥发性化学成分的保留时间
刘延庆 1 ,冯长君 2*
(徐州工程学院 1.天然药物研究中心;2.化学化工学院 ,江苏 徐州 221008)
  摘要 基于对著名的 Kier连接性指数(mXtv)修正 , 定义了一种新型分子连接性指数—Kier逆指数(mKtv, )并
计算了木香花挥发油中 46种有机成分的 Kier逆指数值。使用最佳变量子集回归(LBR)建立了 46种有机成分的
气相色谱保留时间(tR, min)与其 Kier逆指数的三元数学模型 ,其传统相关系数(R)为 0.930,逐一剔除法(LOO)交
叉验证系数(Q)为 0.914。该模型具有高度稳健性与良好的预测能力 , 影响有机物气相色谱保留时间的主要因素
是分子大小与空间形状。依此 3个 Kier逆指数作为神经网络输入层结点 , 采用 3∶5∶1的网络结构 ,利用 BP算法得
到一个良好模型 , 其相关系数(R)为 0.994, 显示了两者之间具有良好的非线性关系。结果表明 , Kier逆指数对有
机物气相色谱保留时间的表征是合理的 、有效的 , 所建模型能较好解释其递变规律。
关键词 木香花;气相色谱保留时间;Kier逆指数;定量结构保留相关(QSRR)
中图分类号:R284.1  文献标识码:A  文章编号:1001-4454(2009)04-0539-04
收稿日期:2008-08-12基金项目:国家自然科学基金(20776149);环模拟与污染控制国家重点联合实验室基金(KJ2007001);江苏省高校自然科学基金(08KJD610003);徐州工程学院培育课题(XKY2008313)*通讯作者:冯长君 , E-mail:fengcj@xzit.edu.cn。
  木香花(RosabanksiaeAit)系蔷薇科植物 ,木质
藤本。木香花的花和叶有较强的清除自由基活性 ,
根和叶具有止痛止血之功效 ,而引起人们广泛研
究 〔1-3〕。刘应煊等 〔4〕采用色谱 、色谱 -质谱联用仪分
析了木香花挥发油化学成分 ,并给出了其中 45种有
机物的色谱保留时间(tR, min)图谱 。朱万平等〔5〕采
用分子电性距离矢量(MEDV)表征了这些木香花挥
发油化学成分的分子结构 ,并运用多元线性回归方
法建立了这 46个化学成分在 Ultra2柱上气相色谱
保留时间(tR)与 MEDV的 QSRR模型 ,其十元 、六元
两个 QSRR模型的复相关系数(R)分别为 0.906和
0.903。本文对 Kier和 Hal的分子连接性指数
(mXvt)〔6, 7〕的计算方法予以修正 , 构建其逆指数
(mKvt)。将各阶mKvt与上述 46种木香花挥发性成分
的气相色谱保留时间(tR)〔5〕拟合 ,经最佳变量子集
回归(Leaps-and-Boundsregresion, LBR)得三元 QS-
RR模型 ,其复相关系数(R)为 0.930,逐一剔除法
(leave-oneout, LOO)交互校验复相关系 (Q)为
0.914。结果表明所建模型具有良好的预测能力与
总体稳健性。人工神经网络(ANN)〔8〕利用计算机
来模拟生物神经网络的某些结构和功能 ,具有强大
的非线性处理能力 、自组织协调及容错能力 ,已广泛
用于定量构效关系(QSAR)的研究中〔9〕。把进入三
元 QSRR模型的 3个 Kier逆指数作为神经网络的输
入节点 ,建立了 3∶5∶1型 BP-ANN的 QSRR模型 ,其
R为 0.994,明显优于 LBR结果。
1 mKvt的建立方法
定量构效关系(QSAS)的探索始于药物设计 ,即
通过揭示结构与其生物活性的相关性预测新物质的
生物活性 ,并指导新药物的合成。常用的 QSAR方
法有辛醇 /水分配系数法 、线性溶剂化能法及拓扑指
数法等 ,但以后者最为简便 ,因它几乎不需查找任何
化学参数 。拓扑指数是以分子的二维结构为基础 ,
通过图论的方法构建结构参数 ,以反映分子中原子
间的连接方式与次序。迄今已报道了 400余种拓扑
指数 ,其中以 Kier等人的价连接性指数(mXtv)的应
用最为广泛。 Kier等人在分子隐氢图的邻接矩阵基
础上 ,定义分子的价连接性指数(mXtv):
mXνt=΢(δviδvj…)-0.5 (1)
式中:mXvt是一个指数体系 ,由 (m+1)个指数
组成;m表示相应指数的阶数 , m=0, 1, 2……;t代
表子图的类型 ,即将分子结构剖析成若干种局部拓
扑图 ,常用以下 4种子图 ,见图 1。
图 1 分子结构的基本子图的类型
  图 1中的 a、b、c、d分别称为链 、星 、星 -链 、环
状子图 ,依次对应t为p、c、pc及ch;δvi为原子点价 ,
·539·JournalofChineseMedicinalMaterials  第 32卷第 4期 2009年 4月
DOI :10.13863/j.issn1001-4454.2009.04.027
  表 1  木香花挥发油中 46种组分及其色谱保留时间(tR)的构效关系
No. 化合物名称 0Kvp 2Kvp 5Kvpc tR/minExp. Cal.1 Cal.2
1 乙缩醛 acetal 12.4590 37.8060 0.0000 3.54 10.50 6.20
2 辛烷 octane 10.4850 15.3140 0.0000 4.96 8.66 5.38
3 糠醛 furfural 13.8270 58.4860 0.0000 6.11 11.20 6.31
4 异戊酸 isovalericacid 11.8320 35.7370 0.0000 6.31 9.35 6.21
5 呋喃甲醇 2-furanmethanol 13.2960 53.6670 0.0000 6.77 10.57 6.77
6 苯乙烷 ethylbenzene 13.0740 46.2150 0.0000 6.95 10.91 6.95
7 对二甲苯 p-xyene 12.9280 49.8560 0.0000 7.27 10.19 7.56
8 戊酸 pentanoicacid 11.9280 33.0360 0.0000 7.85 9.86 6.89
9 壬烯 1-nonene 12.6320 20.2420 0.0000 8.22 12.81 10.15
10 苯甲醛 benzaldehyde 14.8420 54.0740 0.0000 12.70 13.91 11.23
11 蘑菇醇 1-octen-3-ol 13.7710 31.7920 0.0000 13.22 14.03 11.77
12 癸烷 decane 13.3140 20.9710 0.0000 15.21 14.22 13.86
13 桉叶油素 cineol 16.8380 93.6120 88.2790 16.85 21.18 17.45
14 苯甲醇 benzyl-mehtanol 14.3110 49.7110 0.0000 16.93 13.23 14.73
15 苯乙醛 henzeneacetaldehyde 16.2560 54.2850 0.0000 18.01 16.98 19.78
16 3, 3, 6-三甲基-1, 5-庚二烯-4-醇
3, 3, 6-trimethyl-1, 5-heptadien-4-ol 16.8460 62.1380 32.2940 19.20 20.06 18.25
17 氧化里呐醇 linalooloxide 19.3920 97.1780 78.4650 19.35 25.56 18.98
18 十一烷 undecane 14.7280 23.7990 0.0000 20.21 17.01 20.17
19 苯乙醇 phenylethylalcohol 15.7250 51.8590 0.0000 20.30 16.09 20.99
20 冰片烯 2-bornene 15.0250 85.4350 117.9200 21.52 20.55 21.52
21 顺-马鞭草烷醇 cis-verbenol 17.5780 95.5080 39.3630 21.72 18.56 21.20
22 冰片 borneol 16.9430 94.7240 134.5100 22.14 25.09 21.99
23 萜烯醇 terpenol 15.6750 58.5370 21.9090 22.47 17.04 22.47
24 α-松油醇 p-Menth-1-en-8-ol 16.9430 66.6780 21.9090 22.12 18.92 23.78
25 十二烷 dodecane 16.1420 26.6270 0.0000 23.34 19.79 23.02
26 6-甲基十二烷 6-methyldodecane 17.4600 33.4330 0.0000 24.68 21.92 25.59
27 4-甲基十二烷 4-methyldodecane 17.4600 33.4330 0.0000 24.84 21.92 25.59
28 2-甲基十二烷 2-methyldodecane 17.4600 31.8940 0.0000 24.94 20.24 25.86
29 紫苏醛 perilla 18.3020 65.3430 0.0000 24.76 20.24 25.86
30 十三烷 tridecane 17.5560 29.4560 0.0000 25.82 22.57 24.44
31 紫苏醇 perillaalcohol 17.7710 61.1820 0.0000 26.44 19.53 24.40
32 丁香油酚 eugenol 21.4420 96.8180 0.0000 26.65 23.63 26.65
33 丁香酚甲醚 eugenolmethylether 22.6560 103.3100 0.0000 28.31 25.57 28.31
34 榄香脂素 elemicin 26.3730 130.7300 0.0000 28.34 30.67 28.05
35 匙叶桉油烯醇 spathulenol 23.9670 129.5400 39.6620 28.36 28.81 29.02
36 氧化石竹烯 caryophyleneoxide 25.8630 136.1100 23.8990 28.84 30.93 28.97
37 绿花白千层醇 viridiforol 24.5530 138.7400 89.6200 29.12 33.18 28.50
38 韦得醇 widdrol 23.1850 108.7600 55.7370 31.33 30.71 32.50
39 法尼醇 farnesol 24.5030 66.4140 0.0000 33.40 33.68 33.40
40 δ-杜松醇 δ-cadinol 24.5530 114.0000 49.9580 33.62 32.65 33.35
41 α-杜松醇 α-cadinol 24.5530 114.0000 49.9580 33.66 32.65 33.35
42 松樟脑 junipercamphor 17.4240 102.0500 111.1900 33.90 23.41 33.76
43 正十九烷 nonadecane 26.0420 46.4260 0.0000 37.74 39.26 37.41
44 棕榈酸 n-hexadecanoicacid 27.4850 64.1480 0.0000 38.74 40.46 38.76
45 二十烷 eicosane 27.4560 49.2550 0.0000 39.37 42.04 39.46
46 二十一烷 heneicosane 28.8700 52.0830 0.0000 40.92 44.82 41.04
·540· JournalofChineseMedicinalMaterials  第 32卷第 4期 2009年 4月
  表 2  tR与 mKt的最佳变量子集回归结果
No. R2 R RK Q2 Q S F Variable
1 0.806 0.898 0.866 0.790 0.889 4.509 183.184 0Kpv
2 0.825 0.908 0.888 0.808 0.899 4.339 101.182 0Kpv, Kchv
3 0.865 0.930 0.896 0.835 0.914 3.852 89.775 0Kpv, 2Kpv, 5Kpcv
4 0.873 0.934 9.04 0.833 0.912 3.780 70.563 0Kpv, 2Kpv, 5Kpcv, 3Kpv
5 0.875 0.935 0.918 0.820 0.906 3.799 56.001 0Kpv, 2Kpv, 5Kpcv, 3Kpv, Kchv
6 0.888 0.942 0.921 0.831 0.912 3.647 51.354 0Kpv, 2Kpv, 5Kpcv, 3Kpv, 4Kpv, 5Kpv
7 0.891 0.944 0.924 0.815 0.903 3.633 44.541 0Kpv, 2Kpv, 5Kpcv, 3Kpv, Kchv, 4Kpv, 5Kpv
表征原子结构信息 。本文将式(1)中指数 “ -0.5”
修改为 “0.5” ,由此构建新的价连接性指数(mKvt),
谓之 Kier逆指数:
mKvt=΢(δviδvj…)0.5 (2)
本文利用 MATLAB软件计算了 11 种mKvt:
0Kvp、1Kvp、2Kvp、3Kvp、4Kvp、5Kvp、3Kvc、4Kvc、4Kvpc、5Kvpc、Kvch以及
相应这 11种的 Kier价连接性指数(mXvt)。
2  木香花挥发性成分的 QSRR模型
将木香花中所含 46种挥发性有机成分的气相
色谱保留时间(tR)(虽然文献 〔5〕注明此数据来源
于文献 〔4〕,但与文献 〔4〕对照发现:其一是多了十
一烷;其二是 “二戊烷 ”应为 “α-松油醇 ”, “二十六
烷 ”应为 “二十一烷”,均已改之)〔5〕(见表 1)。作为
因变量 ,相应每种化合物的 11种 Kier逆指数作为
自变量构建数据集。应用最佳子集回归选择最佳变
量组合 ,建立相应 QSRR模型(见表 2)。对所得的
不同参数组合模型进行 LOO交叉验证 ,即每次抽取
45个化合物作为样本 ,剔除 1个化合物作为被预测
对象;再由预测值与实验值进行线性回归 ,即得交叉
验证系数(Q及 Q2 ,见表 2)。由表 2可见 ,随着模型
中变量数的增多 ,其 Q2呈锯齿状变化 ,先是增大至
0.835,而后下降再至极大点 0.831。而以 0.835最
大 ,说明该三元数学模型具有最好的稳定性及预测
能力 ,相应模型参数为:
tR=-12.587+2.188×0Kvp+0.082×5Kvpc-0.110×2Kvp (3)
n=46, R2 =0.865, Q2 =0.835, R=0.930, S=3.852, F=
89.775。
式中:n, R2 , Q2 , R, S, F依次为样本数 、削减误
差比例(亦称判定系数)、逐一剔除法的交互验证系
数 、传统相关数 、估计标准误差及 Fisher检验值 。按
式(3)给出的计算值(见表 1中的 “Cal.1”)与相应
实验值(见表 1中的 “Exp.”)基本吻合。将 11种
Kier价连接性指数(mXvt)与这些挥发性成分的气相
色谱保留时间(tR)拟合 ,其结果见表 2中的 “RK” ,
其相关性差于mKvt。
  用变异膨胀因子 (Varianceinflationfactors,
VIF)〔10〕评价模型(3)中各自变量之间是否存在多
重相关性 。VIF的定义式为:
VIF=1/(1-R2) (4)
式中:R2为自变量集中某一变量与余下变量的
判定系数 。如 VIF=1 ,表明各自变量间完全不相
关;当 VIF<5时 ,说明变量间没有明显的自相关性 ,
所建模型是稳定的;当 VIF>5时 ,说明变量间存在
明显的共线性 ,所建模型不能用于估算与预测 。模
型(3)中0Kvp与5Kvpc、2Kvp的 VIF=1.848, 2Kvp与 5Kvpc、0Kvp
的 VIF=2.846, 5Kvpc与 0Kvp、2Kvp的 VIF=1.830,它们
的 VIF都小于 5 ,证明该模型中变量间没有明显的
自相关性 ,具有良好的稳健度及预测能力。
3 木香花挥发性成分的 BP-QSRR模型
本文采用误差反应传输人工神经网络即 BP
(back-propagation)算法构建预测木香花挥发性成分
的 QSRR模型 ,其前馈多层神经网络蔽层的激活函
数为 sigmoid函数 ,输出层的转移函数为线性转移函
数 ,所有网络都是由单个输入层 、隐蔽层 、输出层构
成 ,利用 Levenberg-Marquardt训练函数进行训练。
将进入模型(3)中的 3个结构参数 0Kvp、5Kvpc、2Kvp作
为输入层单元 。为了避免过拟合 、过训练 ,本文将寻
找最佳隐蔽层单元数(H)的 Andrea规则与许禄规
则〔11〕综合为:
2.2>ρ(=N/M)≥1 (5)
其中 N、M分别是样本数和网络总权重 。当 ρ
≥2.2时 ,网络中的权重过少 ,此网络不能充分抽提
试样中有用信息 ,也就不能构建出好的数学模型;而
当 ρ<1.0时 ,网络中连接权重过多 ,会抽提出试样
中噪声信息予以拟合。 M被定义为:
M=(I+1)H+(H+1)Q (6)
式(6)中:I, H, Q分别是输入层 、隐蔽层和输出
层的单元数 ,本文的 I=3, Q=1,及 N=46 ,取 ρ=
1.7可得 H=5.2。至此 ,本文采用 3∶5∶1的网络结
构建立模型 ,其中输出层为有机物的 tR,为了进一步
避免过拟合 、过训练 ,将数据集分成三组:训练集 、验
证集和测试集 ,各集化合物数依次为 28个 、9个 、9
·541·JournalofChineseMedicinalMaterials  第 32卷第 4期 2009年 4月
个 。所设验证集的目的是监控训练过程 ,即当验证
集误差开始上升便自动停止训练 ,以防网络的过训
练 ,并可减少训练时间 。由此建立的 BP-QSRR模型
为:训练集的 R=0.994、验证集的 R=0.998、测试
集的 R=0.998,均与总体的相关系数(R=0.994)
比较接近 ,说明所建模型是稳定的 ,不存在过训练 、
过拟合现象。该模型给出的预测值 (见表 1的
“Cal.2”)与实验值非常吻合 ,明显好于多元线性回
归结果。该模型的权重和偏置〔12〕列于表 3。
  造成模型(3)计算误差较大的一个重要原因是
它把 tR与 0Kvp、5Kvpc、2Kvp的非线性关系作为线性关系
处理 ,因而人工神经网络给出更优的结果。
  表 3  BP-ANN模型的权重和偏置
权重 偏置
从输入层到隐蔽层
 0.66384 -1.3623  2.2087 -0.24384
 1.486 -0.74542 -4.8721 -1.7556
-75.32 -173.21 -522.03 -231.82
 24.342 -6.511  72.555 -6.198
-2.815  1.5448 -9.9134  0.85604
从隐蔽层到输出层 -1.1089 -0.86378 -0.22369  2.1963 -2.7263 -0.5017
4  结果与讨论
4.1  化合物的气相色谱保留时间在其他条件恒定
下 ,显著受固定相与溶质分子间的作用力控制 ,其间
作用力越大 , tR越大。分子间力包括取向力 、诱导
力 、色散力和氢键 ,通常以色散力(或氢键)为主 〔13〕。
木香花中所含 46种挥发性化合物为弱极性 、无极性
分子 ,它们与固定相 Ultra2之间的作用力主要是色
散力。影响色散力的主要结构因素是分子的大小与
空间形状。化合物分子的体积越大 ,其变形性越大 ,
相应瞬间偶极越强 ,其与固定相之间的色散力越大 。
分子中所含碳原子支化度越大 ,分子中各个原子与
固定相距离较近 ,其间作用力较大。因此 ,它们的气
相色谱保留时间随之增大 。由图 1可知 , 0Kvp主要
反映分子的大小 , 5Kvpc、2Kvp则与分子形状相关。因
此 ,式(3)的削减误差比较(即 R2)为 86.5%,只有
近 1 /7的影响 tR的其它因素未被揭示 。相应 BP-
QSRR模型给出的削减误差比例(R2)高达 98.8%,
再次证明式(3)中的 0Kvp、5Kvpc、2Kvp及常数项共同揭
示了影响 tR的本质因素 。
4.2  三元回归模型(3)与 BP-QSRR模型的 R依
次为 0.930、0.994,表明0Kvp、2Kvp、5Kvpc对木香花中所
含 46种挥发性化学成分分子结构的表征是合理的 ,
确实揭示了影响 tR的本质因素 ,并较好解释了其递
变规律 。
4.3  此相关性明显好于电性距离矢量(MEDV)与
Kier价连接性指数(mXvt),这既说明本文对 Kier价
连接性指数的修正是成功的 ,也为估算其他有机物
分子的保留行为提供一种简便方法。
参 考 文 献
[ 1] 刘俊 , 梅文莉 ,崔海滨 , 等.白木香种子挥发油的化学成
分及抗菌活性研究 [ J] .中药材 , 2007, 31(3):340-342.
[ 2] 申彦晶 , 赵树进 .白木香核型与 GiensaC-带带型研究
[ J] .中药材 , 2007, 30(7):762-765.
[ 3] 毛春芹 , 陆兔林 .木香挥发油份 β-环糊精包合物的制
备研究 [ J] .中药材 , 2002, 25(8):580-582.
[ 4] 刘应煊 , 余爱农 .木香花挥发油的化学成分分析 [ J] .
精细化工 , 2007, 24(8):782-785.
[ 5] 朱万平 ,梅虎 , 舒茂 ,等 .木香花挥发性组分的化学结构
表征及其保留时间的估计和预测 [ J] .中国中药杂志 ,
2008, 33(5):609-611.
[ 6] 郭宗儒 .药物分子设计 [ M] .北京:科学出版社 , 2006:
477.
[ 7] Kier, L.B., Hal, L.H.MolecularConnectivityinStruc-
ture-ActivityAnalysis[ M] .England:REsearchStudies
Press, 1986:82.
[ 8] 姚美村 ,乔延江 , 袁月梅 ,等 .基于人工神经网络方法的
中药功效归类研究 [ J] .中国中药杂志 , 2003, 28(7):
689-691.
[ 9] 赵筱萍 ,范骁辉 , 余杰 ,等 .一类基于组效关系神经网络
模型的中药药效预测方法 [ J] .中国中药杂志 , 2004, 29
(11):1082-1085.
[ 10] 李吉来 ,杭烨超 , 耿彩云 ,等 .苯砜基羧酸酯类急性毒
性的 QSAR研究 [ J] .高等学校化学学报 , 2007, 28
(1):117-120.
[ 11] 许禄 ,邵学广 .化学计量学方法 [ M] .北京:科学出版
社 , 2004:441.
[ 12] YangHongwei, JiangZhanpeng, ShiShaoqi.Anaerobic
biodegradabilityofaliphaticcompoundsandtheirquanti-
tativestructurebiodegradabilityrelationship[ J] .Science
oftheTotalEnvironment, 2004, 322:209-219.
[ 13] 冯长君 ,堵锡华 .胺类化合物 Kowáts指数的拓扑研究
[ J].色谱 , 2001, 19(2):124-127.
·542· JournalofChineseMedicinalMaterials  第 32卷第 4期 2009年 4月