免费文献传递   相关文献

硝基苯类化合物对斜生栅藻毒性的HQSAR分析



全 文 :中国环境科学 2009,29(7):751~755 China Environmental Science

硝基苯类化合物对斜生栅藻毒性的 HQSAR 分析
罗 坤,高士祥*,王连生 (南京大学环境学院,污染控制与资源化研究国家重点实验室,江苏 南京 210093)

摘要:利用分子全息定量结构-活性相关关系(HQSAR)技术研究了 25 种硝基苯类化合物对斜生栅藻的急性毒性与其结构之间的相关关系.
应用偏最小二乘回归技术(PLS)建立了定量模型.在碎片长度为 1~7、碎片区分参数为原子类型、化学键类型和连接性条件下,得到最佳模
型(Q2=0.921,R2=0.992).为检验模型的预测能力,将数据集分成训练集和预测集.模型对预测集的预测结果与实测值吻合较好,表明模型的预
测能力良好.最后利用色码图对模型中不同原子的贡献进行了解释.
关键词:取代硝基苯类化合物;急性毒性;分子全息定量结构-活性相关关系(HQSAR);色码
中图分类号:X131 文献标识码:A 文章编号:1000-6923(2009)-0751-05

HQSAR study of acute toxicity of a set of nitro aromatic compounds to Scenedesmus obliquus. LUO Kun, GAO
Shi-xiang*, WANG Lian-sheng (State Key Laboratory of Pollution Control and Resource Reuse, School of the
Environment, Nanjing University, Nanjing 210093, China).China Environmental Science, 2009,29(7):751~755
Abstract:Hologram quantitative structure activity relationships (HQSAR) were performed on acute toxicities of 25
substituted nitro benzenes to Scenedesmus obliquus. Quantitative models were obtained using the partial least square (PLS)
technique. The most significant HQSAR model (Q2=0.921, R2=0.992) was obtained using atom, bond and connection as
fragment distinction and 1~7 as fragment size. Dataset was divided into training set and testing set in order to examine the
predictability of the model. The predicted values of the testing set were in good agreement with the experimental values,
suggesting that the model had a fine predictability. In addition, the contributions of different atoms to toxicity were
explored with colour coding figures.
Key words:nitro aromatic compounds;acute toxicity;hologram quantitative structure-activity relationship (HQSAR);
color coding

硝基苯类化合物作为重要的化工原料和中
间体广泛用于医药、农药、炸药、染料、造纸、
纺织等领域.美国 EPA 已把硝基苯、2,4-二硝基
甲苯及 2,6-二硝基甲苯等列为优先监测污染
物 [1-2].在环境毒理学研究中,定量结构-活性关系
(QSAR)技术具有弥补基础数据的缺失、降低昂
贵的测试费用、减少动物实验、评估数据的不确
定性等优势[3],因此进行硝基苯类化合物的结构
与其毒性的 QSAR 研究具有重要的意义.
分子全息是一种新的分子结构表征技术.分
子全息结构-活性相关技术(HQSAR)是将化合物
的生物活性与以分子全息图形式表示的分子结
构之间建立相关关系,应用偏最小二乘(PLS)方
法建立定量模型.该技术只需要化合物的二维结
构和生物活性数据作为输入参数.既不同于传统
二维方法需要进行物理化学等参数的计算和选
择,也不需要像三维方法那样涉及化合物活性构
象的确定与分子叠合,该法分析快速、预测能力
强、使用简单,是一种高效的 QSAR 方法,已在内
分泌干扰物[4]和医药化学[5-7]研究上有所应用.已
有学者利用量子化学[8-9]和拓扑学[10]等方法,建
立了硝基苯类化合物的结构-毒性关系模型,但
这些模型对分子描述符的计算与选择较为繁琐.
目前尚未见到 HQSAR 技术在硝基苯类化合物
结构毒性关系方面的应用.为此作者研究了 25种
取代硝基苯类化合物对斜生栅藻(Scenedesmus
obliquus)的急性毒性与其结构之间的相关关系,
收稿日期:2008-12-05
基金项目:国家自然科学基金资助项目(20737001,20677024)
* 责任作者, 教授, ecsxg@nju.edu.cn
752 中 国 环 境 科 学 29 卷

运用 HQSAR 技术建立定量模型, 并对模型的拟
合能力、预测能力及稳健性进行了检验.
1 HQSAR 技术的原理
1.1 分子全息的产生
分子全息的产生十分类似于 UNITY 指纹的
生成.在 UNITY 中,一定大小的碎片可拆分并编
成二进制的指纹 ,然后使用循环冗余码校验
(CRC)算法将每一相应的碎片映射为 0~231 内的
伪随机整数,这种映射对每个 SLN (SYBYL line
notation)串都是唯一且可重复的[11].通过这种映
射,就可实现“拆分”过程.分子全息将分子的二
维结构拆分成 M 个原子到 N 个原子之间相连原
子的所有可能的线形和分支碎片,其产生方法与
上述方法的主要区别在于,分子全息并不是象二
进制位串那样对每一位点以 0 或 1 的形式编码,
而是保留计数方法且以上述每一位点的倍数储
存,这样一个分子可表示为一个整形串.例如:
UNITY 指纹: 0 0 1 1 0 0 0 1 1 1 1 0 0 0 0,
分子全息: 0 0 6 18 0 0 0 12 5 14 42 0 0 0 0.
在上例中,化学结构含有 97(6+18+12+5+14+
42)个碎片.
不同的结构碎片根据碎片区分参数加以区
分.碎片区分参数包括原子类型(A)、化学键类型
(B)、连接性(Co)、手性(Ch)、氢原子(H)和氢键
供体与受体(DA).
1.2 偏最小二乘分析(PLS)
分子全息生成过程中会产生大量的分子结
构描述符,一般采用偏最小二乘分析方法建立分
子全息和化合物的生物活性之间的定量关系,采
用逐一剔除(LOO)交叉验证方法来确定模型的
预测能力和稳健程度,以及模型的最佳主成分数.
一旦建立了一个最佳预测的 HQSAR 模型,PLS
会自动产生一个将分子全息与化合物相应的生
物活性相关联的数学模型.这个方程的形式如式
(1)所示:
0 i i
i
X C C N= +∑ (1)
式中:X为生物活性数值;C0为常数项;Ci为从PLS
分析得到的第 i 个存储单元(bin)的系数;Ni 为该
单元里的数值.
值得注意的是,当分子全息使用偏最小二乘
法分析计算产生 QSAR 模型时,对特定生物活性
贡献大的碎片可能映射到全息图上同一存储单
元中,这样用PLS就不能区分,这种现象称为碎片
碰撞,结果导致模型预测能力较差.HQSAR 运行
使用几个不同的全息长度建模并选择产生最佳
模型的全息长度,从而有效减少碎片碰撞的发生.
2 材料与方法
2.1 急性毒性数据
25 种取代硝基苯类化合物对斜生栅藻的急
性毒性来自文献[2].
2.2 HQSAR 模型构建
使用 Tripos 公司 SYBYL7.3 软件包中的
Sketch Molecule构建 25种取代硝基苯类化合物
的分子结构.采用 Tripos分子力场进行能量优化,
用 Gasteiger-Huckel 方法计算原子净电荷,能量
收敛标准为 0.05kcal/(mol·Å).分子全息长度采
用 53~401 之间的 12 个质数,使用不同的碎片区
分参数组合在不同的碎片长度范围内产生分子
全息.
2.3 偏最小二乘分析
采用 SYBYL 内置的 SAMPLS 模块进行偏
最小二乘分析,采用 LOO 交叉验证程序确定最
佳主成分数(PCs)和相应的最小标准预测偏差
(SEP),交叉验证相关系数平方(Q2)反映模型的
预测能力及稳健程度.根据确定的 PCs 进行非
交叉验证分析得到 HQSAR 模型,所得相关系数
平方(R2)和标准估计误差(SEE)表征模型的拟
合能力.
3 结果与讨论
3.1 碎片区分参数的确定
使用默认的碎片长度(4~7)范围,研究了不同
的碎片区分参数组合对模型结果的影响.结果见
表 1.由表 1 可见,使用碎片区分参数为 A/B/Co,
可以得到最佳的模型结果.
3.2 碎片长度的确定
采用最佳的碎片区分参数 A/B/Co,选择了不
7 期 罗 坤等:硝基苯类化合物对斜生栅藻毒性的 HQSAR 分析 753

同的碎片长度来考察不同碎片长度对模型结果
的影响,结果见表 2.由表 2 可见,碎片长度为 1~7
时模型结果最佳.
表 1 碎片区分参数对 HQASAR 结果的影响
Table 1 Influence of fragment distinctions on the results
of HQSAR
区分参数 全息长度 Q2 SEP PCs
A/B/Co 59 0.920 0.199 6
A/B/H 199 0.886 0.225 4
A/B/Ch 71 0.889 0.234 6
A/B/DA 353 0.856 0.267 6
A/B 257 0.881 0.242 6
A/DA 71 0.874 0.250 6
A/C/DA 257 0.873 0.251 6
A/B/Co/H 353 0.866 0.238 3
A/B/Co/DA 151 0.842 0.272 5
表 2 碎片长度对 HQSAR 结果的影响
Table 2 Influence of fragment size on the results of
HQSAR
碎片长度 Q2 SEP R2 SEE BL PCs
1~3 0.788 0.292 0.873 0.227 61 2
3~10 0.794 0.319 0.977 0.106 53 6
1~4 0.797 0.293 0.908 0.197 151 3
2~5 0.880 0.243 0.980 0.099 83 6
3~6 0.912 0.209 0.987 0.081 59 6
5~8 0.846 0.268 0.981 0.094 151 5
6~9 0.759 0.327 0.972 0.111 97 4
7~10 0.656 0.381 0.904 0.201 53 3
1~7 0.921 0.188 0.992 0.064 59 6

3.3 最佳模型的评价
综上所述,使用碎片区分参数为 A/B/Co,碎
片长度为 1~7 得到的模型最佳.在分子全息长度
为59时产生最佳分子全息模型, Q2为0.921, SEP
为 0.188;非交叉验证相关系数平方(R2)为 0.992,
标准估计误差为 0.064,最佳主成分数为 6.表 3 列
出了最佳 HQSAR 模型对 25 种化合物对斜生栅
藻急性毒性的拟合值和交叉验证预测值.
在QSAR分析过程中,R2和Q2是检验模型质
量的重要标准.R2≥0.9 表明所建立的模型具有
良好的相关性.本研究所得最佳模型 R2>0.9,表明
所建模型具有良好的相关性. Q2 可检验模型的
预测能力 .一般认为 Q2>0.5,模型比较稳定 ;
Q2>0.9,则模型的稳定性非常优秀[12].本研究所
得最佳模型的 Q2>0.9,表明该模型具有很好的
稳定性.另一个评价模型好坏的指标是 SEE,当
SEE 与数值范围的比例小于 10%时,可以认为
模型良好 [13].本研究得到最佳模型的 SEE 为
0.064,毒性数据的数值范围为 2.26,比值约为
2.8%,<10%的标准.
表 3 25 种取代硝基苯的 pEC50实测值、拟合值与
预测值
Table 3 Observed values, fitting values and crossvalidated
values of pEC50 for 25 nitro aromatic compounds
pEC50 编号 化合物名称
实测值 拟合值 预测值
1 对硝基甲苯 3.74 3.70 3.47
2 邻-二硝基苯 5.04 5.04 5.15
3 间-二硝基苯 4.85 4.78 4.67
4 对-二硝基苯 4.96 4.93 4.58
5 2,4-二硝基甲苯 4.52 4.64 4.75
6 2,6-二硝基甲苯 4.06 4.01 4.18
7 邻-硝基氯苯 3.94 3.90 3.92
8 间-硝基氯苯 3.95 3.89 3.84
9 对-硝基氯苯 4.01 4.01 4.03
10 硝基苯 3.26 3.42 3.54
11 3,4-二氯硝基苯 4.52 4.56 4.51
12 2,5-二氯硝基苯 4.31 4.32 4.37
13 2,4-二硝基氯苯 5.52 5.54 5.48
14 邻-硝基苯胺 3.33 3.36 3.51
15 间-硝基苯胺 3.48 3.49 3.45
16 对-硝基苯胺 3.40 3.39 3.34
17 2,4-二硝基苯胺 4.68 4.69 4.66
18 邻-硝基苯酚 3.51 3.51 3.56
19 间-硝基苯酚 3.75 3.69 3.64
20 对-硝基苯酚 3.57 3.59 3.67
21 邻-硝基苯甲醚 3.44 3.43 3.55
22 间-硝基苯甲醚 3.71 3.70 3.67
23 对-硝基苯甲醚 3.65 3.57 3.54
24 间-硝基溴苯 4.32 4.29 3.93
25 对-硝基溴苯 3.88 3.95 4.08

3.4 HQSAR 模型的检验
建立 QSAR 模型的重要目的是预测未知化
合物的活性.因此,模型的预测能力比拟合能力更
为重要[14].为进一步检验 HQSAR 模型的预测能
力和稳健性,将 25种取代硝基苯类化合物的急性
754 中 国 环 境 科 学 29 卷

毒性数据分为训练集和测试集 2 部分.在数值区
间里均匀选取 5 种化合物为测试集,余下 20 种作
为训练集. schüürmann 等[15]通过数学计算和实
际模型证明了在计算预测相关系数(q2)时应使用
测试集的数学平均值,而不应使用训练集的数学
平均值进行计算,否则会造成对模型预测能力的
过高评价.本研究中训练集和测试集的平均值分
别为 4.054和 4.066,相差较小,从而降低了这种过
高评价的程度.
在与全部数据集最佳 HQSAR 模型相同的
产生条件下进行偏最小二乘分析,结果如下: Q2
为 0.905, SEP为 0.224; R2为 0.986,标准估计误差
为 0.086,最佳主成分数为 5.可见,基于训练集建
立的 HQSAR 模型与全部数据的 HQSAR 模型接
近,这说明模型稳健.
相对于模型的拟合能力来说,模型对测试
集化合物的预测能力则显得更为重要.用基于
训练集数据建立的 HQSAR 模型来预测测试集
中 5 种取代硝基苯类化合物的急性毒性,结果
见表 4.
表 4 5 种取代硝基苯类化合物的 pEC50预测结果
Table 4 Observed values and predicted values of pEC50
for 5 nitro aromatic compounds
序号 化合物 实测值 预测值
1 对-硝基苯胺 3.40 3.39
2 间-硝基苯甲醚 3.71 3.70
3 邻-硝基氯苯 3.94 3.98
4 间-硝基溴苯 4.32 3.79
5 对-二硝基苯 4.96 4.63

比较发现,预测值与实测值接近.回归分析得
到如下相关关系:
pEC50(实测)=1.204pEC50(预测) – 0.628 (2)
n=5, R2=0.852, SEP=0.268, F=17.238, P=0.025
式(2)表明,基于训练集建立的 HQSAR 模型
可以对测试集中的取代硝基苯类化合物的急性
毒性进行较好的预测.但间-硝基溴苯的预测偏
差较大,这可能是因为预测集中只有一种含溴原
子的化合物,从而使溴原子的代表性不够.而预测
集化合物数量较小,因此预测相关系数偏低.
3.5 HQSAR 模型的应用域
该 HQSAR 模型可应用于一系列对斜生栅
藻的急性毒性在 3.26~3.55 之间的含有甲基、氨
基、甲氧基、硝基及氯原子等取代基团的硝基苯
类化合物.
3.6 HQSAR 模型的色码解释
HQSAR 通过可视化的模型图来指示各原
子对活性的影响.正性贡献和负性贡献分别用
蓝色系和红色系表示.自橙色、橙红色到红色负
性影响依次增大;自黄色、蓝绿色到绿色正性贡
献依次增大;白色则表示贡献中性.
另外,HQSAR 要求分子有一定的相似性,但
又有所差别,所以一个体系的分子会有某一相似
的结构,称为分子的最大公共结构(MCS) ,用青色
表示.利用色码能够直观而简便地获取许多有用
的信息.


图 1 HQSAR 模型的色码图
Fig.1 Color coding figures of HQSAR model
(a),(b)分别为 2,4-二硝基氯苯考虑和不考虑 MCS 的色码图;(c),(d)分
别为 2,4-二硝基甲苯和邻-硝基苯甲醚不考虑 MCS 的色码图
以毒性最大的 2,4-二硝基氯苯以及 2,4-二
硝基甲苯和邻-硝基苯甲醚为例对HQSAR模型
进行色码解释(图 1).2,4-二硝基氯苯 6号碳原子
上的氢原子及 2 号取代硝基上的氧原子均呈绿
色,这表明它们对活性有正性贡献,其原因可能
是它们分别作为氢键供体和受体原子与生物受
7 期 罗 坤等:硝基苯类化合物对斜生栅藻毒性的 HQSAR 分析 755

体分子形成氢键,因而产生正性贡献.一般认为
MCS 在不同分子中对活性的贡献一致,因此在
预测各个化合物活性时忽略 MCS 的贡献而只
考虑不同取代基的影响.实际上在不同的取代
基下 MCS 对活性的贡献并不是完全相同的.由
图 1(b、c、d)中可以看出,苯环上碳原子和氢原
子对活性贡献的大小是不同的.因此,在预测具
体某个化合物的活性时,应考虑取代基与母体
之间的相互作用,从而使预测的结果更加准确.
4 结论
4.1 采用 HQSAR 技术研究了 25 种取代硝基苯
类化合物对斜生栅藻的急性毒性与其结构之间
的关系,建立了稳健的预测能力较强的定量模型.
4.2 最佳模型的 Q2 为 0.921, SEP 为 0.188; R2
为 0.992, SEE 为 0.064;最佳主成分数为 6.
4.3 模型对预测集的预测结果与实测值吻合
较好.
参考文献:
[1] 刘钦伟,陈国树,彭在姜,等.环境中微量硝基苯同系物的分析进
展 [J]. 环境与开发, 2000,15(1):7–10.
[2] 郎佩珍.松花江中有机物的变化及毒性 [M]. 长春:吉林科学技
术出版社, 1998:141–199.
[3] 陈景文,李雪花,于海瀛,等.面向毒害有机物生态风险评价的
(Q)SAR 技术:进展与展望 [J]. 中国科学(B 辑):化学, 2008,
38(6):461-474.
[4] de B Salum L, Polikarpov I, Andricopulo A D. Structural and
chemical basis for enhanced affinity and potency for a large series
of estrogen receptor ligands:2D and 3D QSAR studies [J]. Journal
of Molecular Graphics and Modeling, 2007, 26:434–442.
[5] Nair P C, Srikanth K, Sobhia M E. QSAR studies on CCR2
antagonists with chiral sensitive hologram descriptors [J].
Bioorganic and Medicinal Chemistry Letters, 2008,18:1323–
1330.
[6] Nair P C, Sobhia M C. Fingerprint directed scaffold hopping for
identification of CCR2 antagonists [J]. Journal of Chemical
Information and Modeling, 2008,48(9): 1891–1902.
[7] Kulkarni S S, Patel M R, Talele T T. CoMFA and HQSAR
studies on 6,7-dimethoxy-4-pyrrolidylquinazoline derivatives as
phosphodiesterase10A inhibitors [J]. Bioorganic and Medicinal
Chemistry Letters, 2008,16:3675–3686.
[8] Zvinavashe E, Murk A J, Vervoort J, et al. Quantum chemistry
based quantitative structure-activity relationships for modeling
the (sub)acute toxicity of substituted mononitrobenzenes in
aquatic systems [J]. Environmental Toxicology and Chemistry,
2006,25(9):2313–2321.
[9] Katritzky A R, Oliferenko P, Oliferenko A, et al. Nitrobenzene
toxicity: QSAR correlations and mechanistic interpretations [J].
Journal of Physical Organic Chemistry, 2003, 16:811–817.
[10] Agrawal V K, Khadikar P V. QSAR Prediction of Toxicity of
Nitrobenzenes [J]. Bioorgainic and Medicinal Chemistry, 2001,9:
3035–3040.
[11] Ash S, Cline M, Homer R. SYBYL line notation: a versatile
language for chemical structure representation [J]. J. Chem. Inf.
Comput. Sci., 1997,37:71–79.
[12] Eriksson L, Jaworska J, Worth A P, et al. Methods for reliability
and uncertainty assessment and for applicability evaluations of
classification and regression-based QSARs [J]. Environ. Health
Persp., 2003,111(10): 1361–1375.
[13] So S S, Karplus M. A comparative study of ligand –receptor
complex binding affinity prediction methods based on glycogen
phosphorylase inhibitors [J]. Journal of Computer- Aided
Molecular Design, 1999,13:243–258.
[14] 周家驹,王 亭.药物设计中的分子模型化方法 [M]. 北京:科
学出版社, 2001:88.
[15] Schüürmann G, Ebert R U, Chen J, et al. External validation and
prediction employing the predictive squared correlation
coefficient-test set activity mean vs training set activity mean [J].
J. Chem. Inf. Model., 2008,48(11):2140–2145.

作者简介:罗 坤(1983-),男,安徽合肥人,南京大学环境学院硕士
研究生,主要从事定量结构活性相关关系研究.发表论文 1 篇.