全 文 :中草药 Chinese Traditional and Herbal Drugs 第 42 卷 第 2 期 2011 年 2 月 • 318 •
紫杉醇类似物抗癌活性与分子结构的定量构效关系
陈 艳,堵锡华
徐州工程学院化学化工学院,江苏 徐州 221008
摘 要:目的 为了寻找新一代紫杉醇类抗癌药物,研究紫杉醇类似物分子结构和抗癌活性(PIDact)之间的定量构效关系。
方法 基于电性状态拓扑指数和电性距离矢量,应用最佳子集回归的方法建立了 PIDact 值和紫杉醇类似物分子结构的定量结
构–活性相关(QSAR)模型,并对模型进行了交互检验和外部检验,用 43 个紫杉醇类似物训练集样本构建的 QSAR 模型
预测了外部 10 个检验集的 PIDact 值。结果 所建立模型具有较高的估计相关系数及 LOO(leave-one-out)检验相关系数。
结论 模型具有良好估计能力与稳定性,训练集模型具有良好预测能力。
关键词:紫杉醇类似物;构效关系;抗癌活性;电性状态拓扑指数;电性距离矢量
中图分类号:R286.91 文献标志码:A 文章编号:0253 - 2670(2011)02 - 0318 - 06
Relationship between anticancer activity and molecular structure
of paclitaxel analogues
CHEN Yan, DU Xi-hua
School of Chemistry and Chemical Engineering, Xuzhou Institute of Technology, Xuzhou 221008, China
Abstract: Objective To develop a new generation of anticancer drugs of paclitaxel, the quantitative structure-anticancer activity
(PIDact) relationship (QSAR) of paclitaxel analogues was studied. Methods Based on the electrotopological state index and
electronegativity distance vector, the QSAR model was developed by Leaps-Bounds regression (best subset, LBR), and was validated
using cross and external-validation. PIDact values of ten external validation were predicted by the QSAR model built from the training
set with 43 paclitaxel analogues. Results The model had higher calibrated correlation coefficient and LOO (leave-one-out) validated
correlation coefficient. Conclusion The model has estimated ability and good stability, and the training set model has good predictive
ability.
Key words: paclitaxel analogues; structure-effect relationship; anticancer activity; electrotopological state index; electronegativity
distance vector
紫杉醇是从红豆杉属植物的树皮中提取出来的
抗癌药物,其新颖的分子结构、独特的抗癌作用机
制和良好的抗癌活性引起了化学和药学工作者的关
注,成为当今抗癌药物研究的热点[1-2]。但紫杉醇在
临床应用中因其来源有限[3],溶解度差而受到限制,
从而激发了科学家们开展紫杉醇化合物合成、半合
成和结构修饰的广泛兴趣。通过合成、半合成的方
法[4-7],解决了资源有限的问题;通过结构修饰即对
紫杉醇各部位官能团或骨架进行改造修饰,将修饰
后的各类似物进行构效关系研究,以期获得溶解度
好,抗癌活性高的紫杉醇类似物[8]。
所谓构效关系研究就是建立药物分子结构与实
验可测的药效学数据相关联的定量构效关系
(QSAR)模型,并利用 QSAR 预测所设计化合物的
药效学数据,从而为药物分子结构修饰与改造提供
理论依据,是当前药物设计的重要方法之一[9-11]。
石丙兴等[12]利用比较分子力场分析(CoMFA)方法
对 98 个紫杉醇衍生物进行了三维定量构效关系
(3D-QSAR)分析,许旋等[13]应用分子力学、量子
化学、BP 神经网络模式识别等方法研究 10 位包
含-OH 和-OAc 的 43 个紫杉醇类似物电子结构与药
效的定量关系,均取得了较好的结果。本研究在前
收稿日期:2010-04-17
基金项目:江苏省自然科学基金资助项目(09KJD150012);徐州市科技计划研究项目(XM08C015, XX10A060)
作者简介:陈 艳(1968—),女,江苏太仓人,硕士,教授,从事药物和有机污染物的构效关系研究。
Tel: (0516)85608307 13852106096 E-mail: chenyan681110@126.com
中草药 Chinese Traditional and Herbal Drugs 第 42 卷 第 2 期 2011 年 2 月 • 319 •
期研究的基础上[14-15],将片断拓扑指数与紫杉醇类
似物抗癌活性进行相关分析,建立了较为满意的预
测模型。
1 数据来源与计算方法
1.1 数据来源
从文献[11-12]中选取 53 个 10 位包含-OH 和-OAc
的紫杉醇类似物(结构母核见图 1 和 2),紫杉醇及
其衍生物的活性以 PIDact(PIDact=−lg [ID50(A)/
ID50(T)]act)表示,其中,ID50(T) 和 ID50(A) 分别为
使微管蛋白解聚速度下降一半时所需紫杉醇和其类
似物的浓度。PIDact 数值越大,抗癌活性越高。
O
R4O
R1
R3
R2
O
OH
4
7
10
23
911
O
OHO
H
OAcHO
13
1 2
3 5
6
1
图 1 紫杉醇类似物 1~51 的结构母核
Fig. 1 Main structure of paclitaxel analogues 1—51
O
R4O
R1
O
O
OHO
H
OAcHO
图 2 紫杉醇类似物 52 和 53 的结构母核
Fig. 2 Main structure of paclitaxel analogues 52 and 53
1.2 拓扑指数的选取
拓扑参数直接由拓扑图衍生,此类参数可细分
为两类,即结构片段特征和拓扑指数[16]。紫杉醇分
子是个结构复杂的大分子,有些拓扑指数的计算由
于其结构的庞大而受到限制,本研究根据所要研究
的基团的位置,截取特征结构片段,计算其拓扑指
数。对于紫杉醇衍生物可以提取的特征结构片段见
图 3。
O
O
O
OH OR4
R1
R3
R2
13
12
11
10
9
23 1
图 3 紫杉醇类似物的特征结构片段
Fig. 3 Characteristic fragment of paclitaxel analogues
采用两类拓扑指数来表征紫杉醇分子的结构,
即电性拓扑状态指数和电性距离矢量。首先应用
ChemDraw Ult ra 9.0 软件分别构建所选 53 个紫杉
醇类似物的特征结构片段,然后在 Matlab 环境下,
调用上述分子结构,应用文献[17-18]的方法编制程
序,计算得到 19 种电性拓扑状态指数(53 种紫杉
醇片段分子涉及的原子结构类型,以 ej 表示)及 54
种电性距离矢量(以 mj 表示),共有 73 个描述子。
根据统计学原理,变量值的个数少于 5%的自变量,
其对因变量的贡献可以忽略不计。因此首先对自变
量集中自变量值少于 3(53×5%)的自变量予以剔
除,剩余 44 个描述子来表征分子的结构。
1.3 定量结构-PIDact相关分析方法
将每种化合物的 44 种描述子作为自变量(X),
相应的 PIDact 值为因变量(Y)构建数据集,应用最
佳子集回归(Leaps-Bounds regression)选择最佳变
量组合,建立相应 QSAR 模型。以逐一剔除法
(leave-one-out,LOO)交互检验判断其稳定性与预
测能力,同时引入 Kubinyi 函数(Kubinyi function,
FIT)[19-20],FIT 值越大,所建的模型越稳定,预测
能力越高。其计算公式如下:
FIT=
)1)((
)1(
22
2
Rby
byR
−+
−−
式中 y 为化合物数,b 为变量数,R2为判定系数
2 结果与讨论
2.1 拓扑指数与紫杉醇类似物活性的 QSAR 模型
将所选的 53个紫杉醇类似物的PIDact实验值及
其两种拓扑指数 44 个描述子引入 SPSS 统计软件,
在 95%置信区间内,就上述化合物数据集进行多元
统计分析,经最佳变量子集回归构建 QSAR 模型,
见表 1。对所得的不同参数组合模型进行 LOO 交叉
验证,即每次抽取 53 个化合物作为样本,剔除 1
个化合物作为被预测对象,再由预测值与实验值进
行线性回归,即得交叉验证系数(Q 及 Q2,见表 1)。
可见,随着变量数的增多,R 和 R2在逐渐增大,从
模型 1 到模型 8,Q 和 Q2 都在不断增加,但从模型
6 开始,涨幅开始变缓,而且模型 6 的 FIT 值最大,
所以本研究选用该六元数学模型为最佳 QSAR 模型:
PIDact=−2.071+0.033e13+0.147e14-0.023e16+0.471e18+
0.041m18-2.740m82
n=53,R=0.902,R2=0.813,Q=0.869,Q2=0.755,
S=0.272,F=33.339
式中 n、R2、R、Q2、Q、S、F 依次为样本数、
判定系数、相关系数、交叉验证系数、估计标准误差
及 Fisher 检验值。根据 Q2 和 FIT 值,可以认为该模
中草药 Chinese Traditional and Herbal Drugs 第 42 卷 第 2 期 2011 年 2 月 • 320 •
型具有总体稳健性与良好的预测能力。按此方程给
出的计算值(PIDcal1)列于表 2,与实验值基本吻合。
为了直观地反映方程的线性显著性,以 PIDact
为横坐标,PIDcal 为纵坐标,得图 4。
表 1 PIDact与 ej 及 mj 的最佳变量子集回归结果
Table 1 Results of PIDact and ej, mj with Leaps-Bounds regression
序号 R R2 Q Q2 S F FIT 变量
1 0.627 0.393 0.578 0.335 0.466 33.003 0.547 e18
2 0.725 0.526 0.673 0.453 0.416 27.692 0.973 e18, e16
3 0.759 0.576 0.710 0.504 0.398 22.171 1.074 e18, e16, m18
4 0.790 0.624 0.743 0.552 0.378 19.928 1.154 e18, e16, m18, e13
5 0.827 0.683 0.785 0.616 0.351 20.300 1.298 e18, e16, m18, e13, e14
6 0.902 0.813 0.869 0.755 0.272 33.339 2.247 e18, e16, m18, e13, e14, m82
7 0.912 0.832 0.880 0.774 0.261 31.914 2.185 e18, e16, m18, e13, e14, m82, m36
8 0.918 0.843 0.881 0.776 0.255 29.674 2.019 e18, e16, m18, e13, e14, m82, m36, m77
9 0.922 0.850 0.881 0.776 0.253 27.010 1.818 e18, e16, m18, e13, e14, m82, m36, m77, m15
表 2 紫杉醇类似物的结构和活性
Table 2 Structures and activities of paclitaxel analogues
类似物 R1 R2 R3 R4 PIDact PIDcal1 PIDcal2
1 Ph NHBz H Ac 0.00 −0.33
2 Ph H H H −0.65 −1.17
3 Ph NHBz H H −0.11 −0.07
4 Ph NHCO2-t-Bu H H 0.30 0.25
5 Ph NHCO2-t-Bu H Ac 0.30 −0.09
6* 4-OHPh NHBz H Ac 0.10 −0.04 0.00
7 3,4-Cl2-phenyl NHBz H Ac −0.85 −0.37
8 Ph NHBz H Ac −1.48 −1.48
9 Ph NHBz H H −1.48 −1.08
10* Ph NHCO2-t-Bu H H −1.00 −1.18 −1.34
11 Ph NHCO2-n-Bu H Ac 0.10 −0.10
12 Ph NHCOCOCH3 H Ac −0.54 −0.81
13 Ph NHCO-t-Bu H Ac −0.42 −0.36
14* Ph NHCOCH2-t-Bu H Ac 0.16 −0.34 −0.37
15 t-Bu NHBu H H −0.25 −0.10
16 t-Bu NHCO2-t-Bu H H 0.42 0.20
17 i-PrCH2 NHCO2-t-Bu H H 0.11 0.20
18 t-BuCH2 NHCO2-t-Bu H H −0.16 0.22
19 PhCH=CH NHCO2-t-Bu H H −0.16 0.24
20* (CH3)2C=CH NHCO2-t-Bu H H 0.19 0.20 0.17
21 t-Bu NHCO-c-C3H6 H H 0.02 −0.10
22 t-Bu NHCO-c-C4H8 H H 0.17 −0.08
23 t-Bu NHCO-c-C5H10 H H −0.18 −0.06
24 Ph TsNH H H −0.70 −0.52
25* Ph 2-sulfoBzNH H H −0.74 −0.45 −0.24
中草药 Chinese Traditional and Herbal Drugs 第 42 卷 第 2 期 2011 年 2 月 • 321 •
续表 2
类似物 R1 R2 R3 R4 PIDact PIDcal1 PIDcal2
26 4-ClPh NHBz H Ac −0.38 −0.34
27 3-ClPh NHBz H Ac −0.64 −0.35
28 4-FPh NHBz H Ac −0.04 −0.39
29* 4-MePh NHBz H Ac −0.38 −0.32 −0.34
30 4-MeOPh NHBz H Ac 0.10 0.23
31 2-Furyl NHBz H Ac 0.05 −0.25
32* 3-Furyl NHBz H Ac 0.05 −0.05 −0.08
33 2-Pyridyl NHBz H Ac 0.16 0.15
34 3-Pyridyl NHBz H Ac 0.30 0.31
35 4-Pyridyl NHBz H Ac 0.40 0.30
36 Ph 4-ClBzNH H Ac −0.38 −0.34
37 Ph 2,4-Cl2BzNH H Ac −0.32 −0.38
38* Ph 3-ClBzNH H Ac −0.30 −0.35 −0.37
39 Ph 4-MeBzNH H Ac −0.20 −0.32
40 Ph 2-MeBzNH H Ac −0.28 −0.32
41 Ph 4-FBzNH H Ac −0.08 −0.39
42 Ph 4-NO2-BzNH H Ac −0.30 −0.34
43 Ph 2-FuroyNH H Ac 0.10 0.48
44* Ph NH-CO-4-MeOPh H Ac 0.30 0.29 0.28
45 Ph GluNH H H 0.00 −0.14
46 Ph NH2 H Ac −1.64 −1.44
47 4-NMe2Ph NHBz H Ac −0.66 −0.31
48 Ph 4-CF3BzNH H Ac −0.78 −0.45
49 Ph OH H H −0.48 −0.85
50 CH3 OH H Ac −1.78 −1.18
51 Ph H H H −1.23 −1.17
52* Ph - - H −1.36 −1.49 −1.59
53 CH3 - - Ac −2.00 −1.78
图 4 紫杉醇类似物的 PIDact 实验值和计算值的相关性
Fig. 4 Correlation between PIDact observed values
and calculated values of paclitaxel analogues
2.2 模型稳健性的再检验
2.2.1 模型中变量自相关性的检验 评价模型的稳
定性及是否存在自相关性,可用变异膨胀因子
(variance inflation factors,VIF)[21]予以判定。如
VIF=1,表明各自变量间完全不相关;当 VIF<5
时,说明变量间没有明显的自相关性,所建模型是
稳定的;当 VIF>5 时,说明变量间存在明显的共
线性,所建模型不能用于估算与预测。
VIF=1/(1-R2)
式中,R2 为自变量 X 中某一变量与余下变量的
判定系数。模型 6 中各自变量的自相关矩阵(VIF
值和自相关系数 R2)见表 3。可知,各自变量的 VIF
值均大于 1 且小于 5,说明所得模型是稳健的。
-2.0
-1.5
-1.0
-0.5
0.0
0.5
−2.0 −1.5 −1.0 −0.5 0.0 0.5
PIDact
PI
D
ca
l
0.5
0.0
−0.5
−1.0
−1.5
−2.0
中草药 Chinese Traditional and Herbal Drugs 第 42 卷 第 2 期 2011 年 2 月 • 322 •
表 3 模型 6 中各描述符的自相关矩阵与 VIF 值
Table 3 Self-correlation matrix and VIF values described in model 6
变量 e13 e14 e16 e18 m18 m82 R2 VIF
e13 1 0.491 1.965
e14 0.632 1 0.736 3.788
e16 0.358 0.464 1 0.545 2.198
e18 0.091 0.349 0.658 1 0.500 2.000
m18 0.209 0.117 0.272 0.249 1 0.129 1.148
m82 0.607 0.827 0.448 0.266 0.064 1 0.709 3.436
2.2.2 模型的外部检验 将 53 个紫杉醇类似物的
活性数据分为两部分:即训练集和测试集(表 2 中
用*号标记)。从全部数据中随机选取 43 个有机物的
活性数据作为训练集进行 QSAR 分析,建模条件与
全部数据集的最佳 QSAR 模型产生条件相同,多元
线性回归分析结果:PIDact=−2.411+0.040e13+
0.153e14-0.017e16+0.439e18+0.043m18-3.023m82,
n=43,R=0.901,R2=0.813,F=26.016,S=0.282。
可见,训练集所建立的 QSAR 模型的拟合质量
与全部数据的 QSAR 模型很接近,说明模型很稳定。
用基于训练集数据所建立的QSAR模型来预测测试
集中紫杉醇类似物的活性,预测结果(PIDcal2)列
于表 2,表明基于训练集所建立的 QSAR 模型很好
地预测了测试集中紫杉醇类似物的活性。
紫杉醇的抗癌作用是通过与微管受体之间的相
互作用,进而促进微管蛋白装配成稳定的微管,继
而抑制癌细胞内的微管解聚[22]。这种作用与紫杉醇
的化学结构相关,包括紫杉醇的空间结构和电子结
构。电性拓扑状态指数是表征分子空间拓扑信息
与电性性质的描述子,其不仅可编码原子间电性
相互作用,还可编码原子间的拓扑环境。同时考
虑到分子的生物活性应是该分子中各连接原子之
间相互作用的函数,同时引入电性距离矢量,它是
基于分子中的各原子固有属性、原子间的连接关系、
原子间的距离等因素对分子结构进行数值化表征的
一组参数,所以两类拓扑指数联合共同揭示了影响
紫杉醇抗癌活性的因素。进入模型的 e13、e14、e16、
e18、m18、m82,他们对应的子结构片段为−OH、−O−、
C=O、−NH−,说明在所选的结构片段中,影响紫杉
醇类似物抗癌活性的因素是这 4 种子结构片段。
3 结论
基于电性状态指数和电性距离矢量描述子对
53 种紫杉醇类似物的分子结构与抗癌活性进行研
究,通过最佳子集回归选取的 6 个描述子与 PIDact
具有良好的相关性,所得的 QSAR 模型不仅对内部
样本具有良好的估计能力,同时对外部样本具有良
好的预测能力,可用于紫杉醇衍生物抗癌活性的估
算和预测。
参考文献
[1] 赵 锐, 赵玮玮. 抗癌植物药紫杉醇研究进展与动态
[J]. 中草药, 2009, 40(7): 1172-附 2.
[2] 黄 歆, 杨尚金. 与微管作用的抗肿瘤天然产物的研
究进展 [J]. 现代药物与临床, 2010, 25(1): 1-5.
[3] Gragg G M , Schepartz S A , Suffness M, et al. The taxol
supply crisis [J]. J Nat Prod, 1993, 56(10): 1657-1668.
[4] Yin D L, Liu R W, Wang D H, et al. Synthesis of an
alogues of paclitaxel with 14-side chain from sinenxan A
[J]. J Chin Pharm Sci, 1999, 8: 191-200.
[5] Chen S H, Huang S, Kant J, et al. Synthesis of 7-deoxy-
and 7,l0-dideoxytaxol via radical intermediates [J]. J Org
Chem, 1993, 58: 5028-5029.
[6] 孔建强, 王 伟, 朱 平, 等. 紫杉醇生物合成的研究
进展 [J]. 药学学报, 2007, 42(4): 358-365.
[7] 刘万宏, 姚 波, 祝顺琴, 等. 紫杉醇前体生物合成途
径及生物技术研究进展 [J]. 中草药 , 2009, 40(8):
1327-1331.
[8] 邓成华, 梅兴国, 余广鳌. 紫杉醇的结构修饰及构效关
系 [J]. 天然产物研究与开发, 1998, 11(2): 72-81.
[9] 袁传能, 许 旋, 徐志光. C(4)取代紫杉醇类似物的定量
构效关系研究 [J]. 分子科学学报, 2008, 24(6): 417-421.
[10] 李 燕, 王永华, 房 华, 等. 紫杉醇类衍生物的定量
结构-抗癌活性关系研究进展 [J]. 中国药理学通报,
2008, 24(3): 288-293.
[11] 田丹碧, 章 靖, 祝艳琳, 等. 紫杉醇构效关系及类似
物生物活性的研究进展 [J]. 南京师范大学学报: 工程
技术版, 2007, 7(4): 48-54.
[12] 石炳兴, 梁世乐, 元英进, 等. 紫杉醇衍生物的三维定
量构效关系研究 [J]. 高等学校化学学报, 2000, 21(3):
401-406.
中草药 Chinese Traditional and Herbal Drugs 第 42 卷 第 2 期 2011 年 2 月 • 323 •
[13] 许 旋, 徐志广, 罗一帆, 等. 紫杉醇类似物抗癌活性
构效关系的神经网络模式识别研究 [J]. 华南师范大学
学报: 自然科学版, 2005, 4: 73-80.
[14] 陈 艳, 堵锡华. 基于分子电性距离矢量预测 PBTAs
的热力学性质 [J]. 石油化工高等学校学报 , 2009,
22(4): 29-33.
[15] 堵锡华, 陈 艳, 高淑云. 10-OAc 抗癌活性与拓扑参
数的相关性 [J]. 华中科技大学学报 : 自然科学版 ,
2009, 37(9): 130-132.
[16] 许 禄, 邵学广. 化学计量学方法 [M]. 北京: 科学出
版社, 2004.
[17] 胡黔楠, 梁逸曾, 王亚丽, 等. 直观队列命名法的基本
原理及其在矩阵与拓扑指数计算中的应用 [J]. 计算机
与应用化学, 2003, 20(4): 386-390.
[18] 张 婷, 梁逸曾, 赵晨曦, 等. 基于分子结构预测气相
色谱程序升温保留指数 [J]. 分析化学, 2006, 34(11):
1607-1610.
[19] Saiz-Urra L, Gonzaez M P, Teijeira M. 2D-auto-
correlation descriptors for predicting cytotoxicity of naph-
thoquinone ester derivatives against oral human epider-
moid carcinoma [J]. Bioorg Med Chem, 2007, 15:
3565-3571.
[20] Saiz-Urra L, Gonzaez M P, Teijeira M. QSAR studies
about cytotoxicity of benzophenazines with dual inhi-
bition toward both topoisomerases I and II: 3D-MoRSE
descriptors and statistical considerations about variable
selection [J]. Bioorg Med Chem, 2006, 14: 7347-7358.
[21] 李吉来, 杭烨超, 耿彩云, 等. 苯砜基羧酸酯类急性毒
性的 QSAR 研究 [J]. 高等学校化学学报, 2007, 28:
117-120.
[22] 崔 萍, 霍长虹, 李力更, 等. 作用于微管的天然产物
[J]. 中草药, 2010, 41(1): 139-147.