免费文献传递   相关文献

香茶菜属植物二萜化合物核磁共振碳谱模拟



全 文 : 第 58 卷 第 4 期   化   工   学   报        Vo l. 58 No. 4
  2007 年 4 月   Journal o f Chemical Industry and Eng ineering (China)    April 2007
研究简报 香茶菜属植物二萜化合物核磁共振碳谱模拟
仝建波1 , 张生万1 , 2 , 马云霞1 , 3 , 李改仙3
(1 山西大学化学化工学院 , 山西 太原 030006;2 山西大学生命科学与技术学院 , 山西 太原 030006;
3 晋中学院化学化工系 , 山西 晋中 030600)
关键词:香茶菜属植物二萜化合物;定量结构波谱相关;13C NMR化学位移;原子电性作用矢量;原子杂化状态
指数
中图分类号:O 641. 1      文献标识码:A 文章编号:0438 - 1157 (2004) 04 - 0975 - 05
Spectroscopic simulation of 13C nuclear magnetic resonance
of diterpenoids of isodon species
TONGJianbo
1 , ZHANGShengwan1 , 2 , MA Yunxia 1 , 3 , LI Gaixian3
(1 S chool o f Chemistry and Chemical Engineering , S hanx i University , Tai yuan 030006 , Shan xi , China;
2 School o f L i f e Science and Technology , S hanx i University , Taiyuan 030006 , S hanx i , China;
3Department o f Chemistry and Chemical Engineering , J inz hong College , J inzhong 030600 , Shan xi , China)
Abstract:Atomic electronegat ivity interaction vector (AEIV) and atomic hybridizat ion state index (AHSI)
were used for establishing the quanti tat ive structure-spectro scopy relationship (QSSR)model of 13C NMR
chemical shif ts of isodon diterpenoid compounds.Multiple linear reg ression (MLR) and computational
neural netw o rk (CNN) were used to create the models , and the estimat ion stabili ty and generalization
ability of the models w ere st rict ly analyzed by both internal and ex ternal validations. The established M LR
and CNN models w ere co rrelated w ith experimental values and the co rrelation coef ficients of model
e stimation , leave-one-out (LOO) cross-validation (CV), and predicted values of ex ternal samples w ere
Rcum = 0. 9724 , RCV =0. 9723 , Qext = 0. 9738 (MLR);R cum = 0. 9957 , Qext =0. 9956 (CNN ),
respectively. T he results indicated that CNN gave significant ly be tter prediction of 13C NMR chemical shif ts
fo r isodon diterpenoids than M LR. Satisfacto ry resul ts show ed that AEIV and AHSI we re obviously g ood
fo r modeling 13C NMR chemical shif t s o f isodon di terpenoid compounds.
Key words:diterpenoids of isodon species;quantitative structure-spectrum relationship;13 C NMR
chemical shi ft;atomic electronegat ivity inte raction vector;atomic hybridization state index
  2006 - 05 - 24收到初稿 , 2006- 07- 05收到修改稿。
联系人:张生万。 第一作者:仝建波 (1975—), 男 , 博士研
究生。
基金项目:山西省工业攻关项目基金 (2006031204);山西省
研究生创新基金项目。
 
引 言
核磁共振 (NMR) 技术在化合物结构鉴定 、
构型 、构象 、反应机理研究中起着极其重要的作
用[ 1-3] 。碳原子作为有机化合物的骨架 , 其 NMR
谱被广泛地应用于对有机化合物结构鉴定等的研
究[ 4-5] 。因此 , 通过化合物结构参数与其13 C NMR
化学位移的定量关系来定量预测未知化合物的13 C
  Received date:2006- 05- 24.
Corresponding author:ZHANG Shengw an. E - mail:z sw an
@sxu. edu. cn
Foundat ion item:supported by Indust ry Innovation Foundat ion of
Shanxi Province (2006031204) and the Graduate S tudent Innovation
Foundation of Shanxi Province.
 
NMR化学位移 , 即碳谱模拟[ 6-8] , 可为鉴定化合
物结构 、探讨反应机理 、 揭示13 C NMR化学位移
随结构的变化规律提供理论依据 。香茶菜属
(Isodon) 植物属唇形科 (Labiatae)-罗勒亚科
(Ocimoideae), 种类很多 , 植物资源非常丰富 , 具
有清热解毒 、活血化淤 、 抗菌消炎 、抗肿瘤 、治疗
各种肝炎等功效 , 对各种癌症患者有缓解症状的作
用[ 9-10] 。本文从分子二维结构出发 , 利用不同种类
原子对目标原子作用效果建立的原子电性作用矢量
(AEIV)[ 11] 来描述等价碳原子所处化学微环境特
征;并利用原子杂化状态指数 (AHSI) 描述原子
杂化状态 。以此建立起表征不同有机物等价共振原
子所处化学环境和自身状态的定量结构波谱
(QSSR) 模型 , 对 350 个香茶菜属植物二萜化合
物中 7000 个碳原子进行碳谱 (13 C NMR) 模拟 。
在对模型的检验过程中 , 采用内部及外部双重验证
的办法对所得模型稳定性能进行深入分析和检验 ,
均取得了令人满意的结果 。
1 原理及方法
1. 1 原子电性作用矢量
众所周知 , 有机化合物分子中原子的核磁共振
谱化学位移受到很多因素的影响 , 其中原子所处的
局部化学微环境以及自身的杂化状态对其化学位移
影响最大 。因此 , 在模拟化合物中不同等价共振碳
原子的化学位移时必须考虑这两方面的因素 。
首先 , 研究影响原子化学微环境因素的表达方
式 , 基于分子中原子之间存在着相互作用 , 各个相
连的原子都对等价碳施加影响 。因此构建化合物的
分子结构化方法 , 探寻分子中各等价碳原子的化学
位移变化规律 , 就要充分考虑碳原子周围的化学环
境。由于分子中各等价原子的化学位移大小与其周
围电子云分布有关 , 该分布与周围各键合原子的电
负性及相隔距离相关[ 12] , 并且具有不同化学性质
的原子对目标原子的作用效果不尽相同 。本文采用
原子电性作用矢量 (AEIV) 表征原子的这一局部
环境特征 。
原子电性作用矢量将有机化合物分子中的原子
按其所在元素周期表的主族进行分类 , 即将有机物
分子中常见原子分为 5类 , 结果见表 1 。原子电性
作用矢量考虑的是分子中某一指定原子受到的来自
其他各类原子的作用 , 且具有不同化学性质的原子
对目标原子的作用效果不尽相同 , 其具体运算公
式为
vi ,k = ∑al l(j)
j ∈k , j≠i
χj
d 6i , j
 (1 ≤ k ≤5) (1)
式中 k 为原子类型;i 为目标原子;j 为分子中
属于第 k 种类型的所有原子 (j ≠i);χ为原子相
对电性大小 , 即以碳原子的电负性为基准得到其他
原子与其的比值大小 , 均采用鲍林电负性标度 , 例
如氧的相对电负性为:3. 44 /2. 55 =1. 349;d ij 表
示第 i 个原子到第 j 个原子之间的距离 , 是从原子
i通过一个或多个化学键连接到原子 j 的所有路径
中各个相对键长加合的最小值。对于键长则取化学
键相对于碳碳单键的键长大小 , 即C —C单键的相
对键长为 1 , 则C —O 、 C C 、 C O的相对键长
分别 为 dC—O =0. 143 nm /0. 154 nm =0. 927 ,
dC C =0. 134 nm /0. 154 nm=0. 870 , dC O=0. 122
nm /0. 154 nm=0. 792。分别用 v H 、 vC 、 vN 、 vO 、
vX 表示各类原子对中心碳原子的作用项 。
表 1 有机化合物中常见原子类型划分
Table 1 Division of atomic type of atoms
in organic compounds
Type of atoms Families of periodic table Atoms
1 IA H
2 IVA C
3 VA N , P
4 VIA O , S , Se
5 VIIA F , Cl , Br , I
1. 2 原子杂化状态指数
为描述原子自身杂化状态对其化学位移的影
响 , 引入原子杂化状态指数 (atomic hybridization
state index , AHSI)[ 11] , 用于表征原子自身的杂化
状态。计算方法为
AHSI = ν/4 2 /n 2δσ+π+1 /δσ (2)
式中 ν是原子价层电子数;n 为该原子价电子层
主量子数;δσ+π是σ和 π键总电子数;δσ为成σ键
电子数 。表 2列出了碳和氧两种原子不同杂化类型
的 AHSI 值。
表 2 碳 、氧两种原子不同杂化状态的 AHSI值
Table 2 AHSI of different hybridization state
of carbon and oxygen atom
Hyb ridiz at ion state of atom AH SI
Csp3 1. 2500
Csp2 1. 6667
C sp 2. 5000
O sp3 1. 8371
O sp2 3. 6742
976 化   工   学   报   第 58 卷 
2 结果与讨论
2. 1 数据集选取及划分
所选 350个香茶菜属植物二萜化合物中碳原
子13C NM R化学位移数据取自文献 [ 13] 。将 350
个萜类化合物分子中的母体碳原子编号 , 第 1号分
子的 1 ~ 20个碳原子为第 1 ~ 20号原子 , 第 2号分
子的 1 ~ 20个碳原子为第 21 ~ 40号原子 , 依次类
推 , 第 350号分子的 1 ~ 20 个碳原子为第 6981 ~
7000号原子 。
为深入研究 A EIV 、 AHSI 与甾族化合物
1 3
C NMR化学位移内在联系 , 用多元线性回归
(MLR)、神经网络 (CNN) 这两种典型线性及非
线性方法进行建模。另外对所建模型的外部预测能
力和真实有效性进行验证是定量构效关系中非常重
要的一个部分 , 其中留一法 (LOO) 交叉检验
(CV)[ 14] 复相关系数 RCV是目前较为广泛使用的一
种模型验证方法 , 然而 T ropsha 等[ 15-17] 最近研究
结果表明 , RCV的大小与模型预测能力并无明显相
关关系 , 对模型预测能力的评价只能通过外部样本
集即测试集来进行 , 模型外部预测能力可用
Qext(ex ternal Q)[ 17] 来衡量。
Qex t = 1 - ∑
te st
i=1
(y i - y^ i)2
∑test
i=1
(yi - yt r)2
(3)
式中 y i和 y^ i 分别为测试集中样本的实验值和预
测值;y tr为训练集样本实验的平均值。鉴于此 ,
从 350个化合物中每隔 5个化合物抽取一个组成测
试集 (test set), 共 70个;剩余 280个化合物作为
训练集 (t raining se t)。
2. 2 模型建立
MLR是一种经典的建模方法 , 它对自变量和
因变量加以线性拟合以得到最小二乘 (LS) 意义
下的最佳结果。将各分子结构原子编号并将原子数
目 、 类型及连接关系输入计算机 , 由利用 C 语言
自编应用程序 AEIV. exe 进行识别 、找寻最短路径
并计算 AEIV 描述子。对训练集中 280 个化合物
5600个碳原子的 AEIV 、 AHSI 与其13 C NMR 化
学位移建模。
CS =- 206. 6203 - 1. 4878v H - 0. 6824vC +
11. 0302v O +209. 4488AH SI
n = 5600 , m =4 , Rcum = 0. 9724 ,
SD =11. 18 , F =24299. 99 (4)
CV 建模
n =5600 , m = 4 , RCV =0. 9723 ,
SDCV =11. 20 , FCV =24213. 42
式中 n 为样本数;m 为变量数;R 为复相关系
数;SD是标准偏差;F是 F 检验统计量 。
另外使用式 (3) 对 350个香茶菜属植物二萜
化合物 7000样本进行拟合与预测 , 并将计算结果
与实验值相关情况绘于图 1中 , 其相关统计参数列
于表3中 。可以看到A EIV 及AHSI 与香茶菜属植
物二萜化合物13C NMR化学位移有较好的相关性 ,
具体表现为图 1中大部分样本分布于过原点 45°直
线周围 , 且绝大多数残差点均在二倍标准偏差
(SD) 以内。但值得提出的是图 1 中出现了 “条
带” 现象 , 图 1中部分样本的计算结果误差较大。
可能有以下几种原因所致:(1) AEIV和 AHSI描
述子解释香茶菜属植物二萜化合物的结构特征不充
分;(2) 样本自身结构的特殊性;(3) 建模方法没
有充分表达结构参数与性质之间的联系。经分析发
现误差较大的样本有羰基中的碳原子以及与多个氧
原子相连的碳原子 , 这可能是由于上述描述子没有
表达出电负性较大的氧原子对碳原子强的去屏蔽效
应所致;另外本文所用描述子A EIV 和AHSI 与香
茶菜属植物二萜化合物中13C NMR 化学位移间可
能存在非线性关系 , 而利用 MLR建模体现不出该
信息。
图 1 多元线性回归模型对 5600 个训练
集样本估计值及对 1400 个测试集样本
预测值与实验观测值相关情况
Fig. 1 P lo t of estimated values of 5600 samples
in training set as we ll a s predicted
values of 1400 samples in test set
versus observ ed va lue s(MLR model)
 
977  第 4 期   仝建波等:香茶菜属植物二萜化合物核磁共振碳谱模拟
为深入研究上述 4个描述子与香茶菜属植物二
萜化合物中13C NMR谱化学位移之间的隐含关系 ,
使用误差反传 (BP) 算法训练前馈型多层感知机
(FMLP) 来实现该类 目的 (CNN 模型使 用
NeuroSo lutions for M atlab 神经网络工具包基于
Matlab7. 0环境实现)[ 18-19] 。所采用带有偏置 (bi-
as) 节点 CNN 神经网络相关参数为:网络层数:
3;输入向量维数:4+1bias (4个描述子);隐含
层神经元数目:40+1bias;输出层神经元数目:
1;隐含层传递函数:Sigmoid;输出层传递函数:
Linear;网络权值初始化方法:Nguyen-Widrow
法;训练规则:带动量项及自适应学习速率的梯度
递减法;初始学习速率η:0 ~ 1之间随机赋值;初
始动量项δ:0 ~ 1之间随机赋值;数据预处理:自
定标化。为防止网络出现过拟合 , 以 1400 个测试
集样本作为监控集 , 并以训练过程中监控集均方根
误差平方 (MSE) 达最小来确定网络权值 。由此
最终获得 CNN 模型对 5600 个训练集样本拟合结
果及对 1400测试集样本预测值相关统计参数 , 见
表 3 、图 2。可看到 CNN 建模结果明显优于 MLR
线性模型 , 这可能是由于所选描述子与香茶菜属植
物二萜化合物中13C NMR谱化学位移存在一定的
非线性关系 , CNN 拟合使计算精度进一步提高
所致 。
图 2 人工神经网络回归模型对 5600个训练集样
本估计值及对 1400个测试集样本预测值
与实验观测值相关情况
F ig. 2 Plot o f e stimated values o f 5600 sample s
in training set as w ell as predicted
value s o f 1400 samples in test set versus
observed value s(CNN model)
从上述结果可看出 , 利用 AEIV与 AHSI描述
子所建回归模型对香茶菜属植物二萜化合物
13C NMR化学位移值模拟结果具有较高精度;且
用 CNN 所建模型的稳定性明显优于 MLR模型。
表 3 不同回归模型的统计参量比较
Table 3 Statistical data of fitting result by models
Models
Training
set
T es t
set
Rcum RCV Qex t SD SDCV
M LR 5600 1400 0. 9724 0. 9723 0. 9738 11. 18 11. 20
CN N 5600 1400 0. 9957 — 0. 9956 4. 69 —
    Note:Rcum —cumulat ive mul tiple correlation coef fi cient of
t raining set;RCV —cumu lative cross-validated Rcum of t rainin g set;
Qex t—external Q of test set;SD— s tandard deviat ion of t raining set;
SDCV —cross-validated s tandard deviation of t raining set.
3 结 论
分子中各个原子之间存在着相互作用 , 各个相
连的原子都对等价碳施加影响 , 同时原子自身状态
对其化学位移也有影响 。因此 , 要构建分子中各等
价碳原子的化学位移变化规律 , 就要充分考虑碳原
子本身及其周围的化学环境 。为表征原子局部环境
特征 , 用AEIV 与AHSI描述子对香茶菜属植物二
萜化合物13C NM R谱化学位移进行模拟 , 得到令
人满意的结果。所建模型不仅在一定程度上阐明了
香茶菜属植物二萜化合物13C NMR 谱化学位移与
其分子结构信息之间的关系 , 同时也为模拟有机化
合物分子 NMR谱化学位移提供了一种新方法 。值
得提出的是本文所用描述子是基于二维空间提出
的 , 因而不能分辨诸如顺反异构 、手性等三维空间
问题 , 对此还需做进一步的研究 。
References
[ 1]  Wil liam S P. Protein associat ion studied by NMR
diffus om et ry. Curr. Op in. Co lloid. In. , 2006 , 11:19
[ 2]  Witkow ski S , Maciejew ska D , Waw er I. 13C NM R studies
of conformation al dynamics in 2 , 2 , 5 , 7 , 8-
pentamethylch roman-6-ol derivat ives in solut ion and the
solid state. J. Chem. Soc. , P erkin Trans. 2 , 2000
(7):1471
[ 3]  Neuvonen H , Neuvonen K. Correlat ion analysis of carbonyl
carbon 13C NM R chemical shif t s , IR absorpt ion f requen cies
and rate coef ficien ts of nucleophilic acyl subst itut ions. A
novel explanation for the subs ti tuent depen dence or
reactivity. J. Chem. Soc. , Perkin Trans. 2 , 1999
(7):1497
[ 4]  Beger R D , Bolton P H. Protein andψdihed ral s rest rain ts
determined f rom mu lt idimensional hypersu rface correlations
of backbone chemical shi ft s and thei r use in the
determination of protein tertiary st ructu res. J. Biomol.
978 化   工   学   报   第 58 卷 
NMR , 1997 , 10:129
[ 5]  Wishart D S , S ykes B D. Chemical shif t s as a tool for
st ructure determination. Method s Enzy mo l. , 1994 ,
239:363
[ 6]  Kvasnicka V. An application of neural netw ork s in
chemist ry. P redict ion of 13C NMR chemical shif t s. J.
Ma th. Chem. , 1991 , 6:63
[ 7]  Grant D M , Pau l E G. Carbon-13 nu clear m agnet ic
resonance (Ⅱ):C hemical shif t s data for the alkanes. J.
Am. Chem. Soc. , 1964 , 86:2984
[ 8]  Lindeman L P , Adams J Q. Carb on-13 nuclear m agnet ic
shif t s for the res onance spect romet ry. Chemical shif ts for
the paraf fin s th rou gh C9. Ana l. Chem. , 1971 , 43:1245
[ 9]  Zhang Y , Liu J W , Jia W , Zhao A H , Li T. Dist inct
immunosu ppres sive effect by Isod on serra ext ract s. In t.
Immunopharmacol. , 2005 , 5:1957
[ 10]  Ulb elen A. Cardioactive and an tib acterial terpen oid s f rom
salvia species. P hy tochemistr y , 2003 , 64:395
[ 11]  Zhou Peng (周鹏), Mei Hu (梅虎), Zhou Yuan (周原),
Tian Feifei (田菲菲), Li Zhiliang (李志良). Chin. J.
Ana l. Chem. (分析化学), 2006 , 34 (2):200
[ 12]  Liu S S , Liu H , Yu B M , Li Z. Inves tigat ion on
quant itative relation ship betw een chemical shi ft of carb on-13
nuclear magnet ic resonance spect ra and molecular topological
st ructure based on a novel Atomic Dis tance-E dge Vector
(ADEV). J. Chemometr. , 2001 , 15 (5):427
[ 13]  Sun H andong (孙汉董), Xu Yun long (许云龙), Jian g Bei
(姜北). Diterpenoids f rom Isodon Species (香茶菜属植物
二萜化合物). Beijing:S cien ce Pres s , 2001
[ 14]  Wold S. Cross-validat ion estimation of th e number of
components in factor and principal components m odels.
Technometrics , 1978 , 20:897
[ 15]  Golbraikh A , T rop sha A. Bew are of q2  J. Mo l. Graphics
Mod. , 2002 , 20:269
[ 16]  Gramat ica P , Pilut ti P , Papa E. Validated QSAR
prediction of OH tropospheric degradation of VOCs:
spli t ting in to t raining-t es t set s and consensu s modeling. J.
Chem. I n f. Compu t. Sci. , 2004 , 44:1794
[ 17]  T ropsha A , Gram at ica P , Gom bar V K. Th e im portance of
being earn est: validat ion is the absolu te essent ial for
successful applicat ion and in terpretat ion of QSPR m odels.
QS AR Comb. Sci. , 2003 , 22:69
[ 18]  Peng Qianrong (彭黔荣), Yang Min (杨敏), Shi Yanfu
(石炎福), Yu H uarui (余华瑞), Liu Zh on gxiang (刘钟
祥). Arti ficial neu ral netw ork b ased on hybrid genetic
algori thm and prediction of mel ting point s of organic
compounds. J ournal o f Chemica l In dustry an d
E ngineer in g (China) (化工学报), 2005 , 56 (10):1922
[ 19]  Jiang Kaiy u (姜开宇), Su T on gyi (苏同义), Wang
Minjie (王敏杰), Yu Tongmin (于同敏). Simu lation on
rule of shrin kage of large CPUE based on neural netwo rk.
Journal o f Chemica l Indu str y and E ngineer ing (China)
(化工学报), 2005 , 56 (8):1520
979  第 4 期   仝建波等:香茶菜属植物二萜化合物核磁共振碳谱模拟