免费文献传递   相关文献

红外光谱与人工神经网络相结合识别栽培、野生黄芩和粘毛黄芩



全 文 :第22卷 , 第6期        光 谱 学 与 光 谱 分 析 Vol.22 , No.6 , pp945-948
2 0 0 2年 1 2月        Spectroscopy and Spectral Analysis December , 2002 
红外光谱与人工神经网络相结合识别栽培 、 野生黄芩和粘毛黄芩
徐永群1 ,2 , 孙素琴1* , 周 群1 , 蔡少青3
1.清华大学化学系 , 北京 100084
2.湖北黄冈师范学院化学系 , 湖北黄冈 438000
3.北京大学生药系 , 北京 100083
摘 要 为了识别栽培黄芩 、野生黄芩和粘毛黄芩 ,采用非线性-线性 、线性-线性 、非线性-非线性三种模式的
人工神经网络(ANN)分别分析各种黄芩的红外谱 。我们采用42个样本作训练集 , 34个样本作检验集 ,用各种
模式的ANN 进行了监督性训练。当训练目标误差平方和定为 0.01 时 ,各类 ANN对训练集中三类黄芩样本识
别的正确率均为 100%, 但对检验集样本识别的结果各不相同 ,其识别的正确率与隐含层节点数 S1有关。我
们发现当S1较大时 ,识别正确率反而下降 , 可能此时网络的非线性程度过高 ,使其不适合于该类样本集的训
练。线性—线性型ANN 识别的结果随 S1 的变化不很大 , 但识别的正确率不高 , 基本在 85%左右。非线性—
线性型ANN 识别的结果最佳。当 S1 为 3时 , 其识别正确率超过了 97%。因此该法可用以简便 、快速 、准确地
识别这三种黄芩药材。
主题词 FTIR;模式识别;ANN;栽培黄芩;野生黄芩;粘毛黄芩
中图分类号:O657.31  文献标识码:A  文章编号:1000-0593(2002)06-0945-04
 收稿日期:2001-12-14,修订日期:2002-02-20
 基金项目:国家中医药管理局科技重大项目 ,国中医药科 2001ZDZX01
 作者简介:徐永群 , 1956年生 ,黄冈师范学院化学系副教授 *通讯联系人
引 言
  黄芩系唇形科植物黄芩 Scutellaria baicalensis Georgi 的干
燥根 ,含有黄酮 、查尔酮 、二氢黄酮 、甙类和二萜等类化合物。
具有清热燥湿 、泻火解毒 、止血 、安胎等作用。试验表明黄酮
和黄芩甙的生理活性最为显著。正品黄芩系多年生草本 , 花
蓝紫色 ,偏生于花序一边 , 果皮黑褐色 ,无毛 , 根较粗 ,圆锥形 ,
长 5~ 20 cm ,直径 0.5~ 2.5 cm ,老根中心腐朽 ,中空。分布于
我国北部各省区 ,以东北 、华北最丰富 ,常生于海拔为 1 000~
2 000 m 的向阳坡上。同属植物粘毛黄芩植株矮小 , 花冠淡
黄 ,植株密被腺毛及柔毛 , 根圆柱行 ,长 5~ 6 cm ,直径 0.3 ~ 1
cm , 多年生根坚实而不空 , 主产华北地区 , 生于海拔 700 ~ 1
000 m 的沙砾 、荒山坡。由于所含成分与正品黄芩的差异较
小 ,故可作正品黄芩的代用品入药。黄芩历来以野生为主 ,近
年来 ,随着以黄芩为主药的药品制剂品种的不断增多 , 用量增
大 ,野生黄芩已满足不了药用需求 , 因而栽培黄芩逐步成为黄
芩药材的主要商品来源。
一些研究表明 ,栽培黄芩 、野生黄芩和粘毛黄芩的主要药
用成分的含量有些微小的差别。如冯卫生等人用薄层扫描法
测定了河南栽培与野生黄芩中黄芩甙的含量 , 发现栽培黄芩
甙含量略低于野生黄芩[ 1] ;张齐家等人将不同人测得的黄芩
甙的含量进行平均后 , 发现粘毛黄芩黄芩甙的含量略低于正
品黄芩[ 2] 。郭顺星等人的研究认为 ,野生黄芩的质量优于栽
培黄芩;鲁南制药厂在生产银黄口服液的过程中发现 , 栽培黄
芩质量较好 , 其中原因有待进一步探讨。但习惯上以河北北
部产正品黄芩为道地药材 , 质量最佳[3] 。郑育平等认为 , 仅以
黄芩甙含量的高低作为评价黄芩质量的标准 ,似不十分恰当 ,
因为它不能反映其内诸化学成分的协同作用[ 4] 。总之 ,由于
生长条件的不同和不同种类的黄芩其所含成分还是有区别
的 , 故原始药材的质量也是有差异的。因此 , 区分和鉴别不同
种类的药材 , 对于药材质量的控制也是一项非常有意义的工
作。
本研究建立在孙素琴等人提出的利用红外 、拉曼光谱法
对不同种中药材及其真伪品药材进行无损快速鉴别的基础之
上[ 5 , 6] ,用三种不同模式的人工神经网络(Artificial neural net-
works ,简称 ANN)识别栽培黄芩 、野生黄芩和粘毛黄芩。 结果
表明 ,无损药材红外光谱的重复性好 , 从光谱中提取的用于
ANN计算的特征数据规律明显 , 用隐含层节点数为 3 的非线
性-线性型 ANN的识别的正确率可达 97%。 实验结果表明采
用人工神经网络技术可鉴别不同类型的黄芩。
1 实验部分
1.1 仪器设备和参数设置
采用 Perkin Elmer公司 Spectrum GX红外光谱仪 , DTGS 检
测器 ,测定范围 4 000 ~ 400 cm-1 , 扫描次数 16 次 , 分辨率
4 cm-1 。
1.2 样品来源和处理
样品来源:黄芩样品均由北京医科大学药学院生药系蔡
少青教授课题组采集并鉴定。
样品处理:黄芩样品剪成小块 ,放入研钵中研磨 ,所得粉
末全部过 100目筛。取约 3 mg 过筛后的黄芩粉末和约250 mg
的KBr粉末一起研磨均匀 ,压片测定红外光谱。
1.3 BP 神经网络系统的设计依据
采用MathWorks 公司推出的一套高性能可视化数值计算
软件MATLAB , 基于 MATLAB 5.2 神经网络工具箱 , 设计出了
不同产地黄芩的 BP神经网络鉴别系统。
1.4 ANN模型
  用于模式识别的三层 ANN 结构如图 1 所示 ,由输入层 、
隐含层和输出层构成 ,它是依样本的输入值和目标值采用误
差反向传播算法来反复调整权重和阈值的一种神经网络模
型 ,调整过程为网络训练的过程 , 当网络输出值与目标值的误
差达到了指定的误差值后 ,即可停止训练 , 在训练中 ,网络自
动理出规则 ,并将所得到的知识表达在权重和阈值之中 ,训练
后的网络可实现信息处理和预报等工作。基于红外光谱识别
三类黄芩的ANN 的输入值为红外光谱中不同波数处的吸光
度值 A1 , A2 , …… , An , 输出值为不同类黄芩的二进制编码 T1
和 T2 , 如野生黄芩编码为 10 , 即 T1 =1;T2 =0 ;此代码在训
练集中为目标值 ,在预测集中为样品种类的编码。
Fig.1 BP artificial neural networks with 3 layers
2 结果讨论
2.1 样品分类
将采集到的黄芩样品分为栽培黄芩 、野生黄芩和粘毛黄
芩三大类 ,具体种类编码和产地编码如表 1 所示。
2.2 特征吸光度值的提取及数据预处理
三类黄芩样品典型的红外光谱如图 2 所示 , 从图中可看
出 ,在 1 800 ~ 1 000 cm -1范围内 , 其峰位置和峰强度均有较明
显的差异 ,这一差异为三类黄芩的识别奠定了一定的数学基
础 ,因此特在 1 450 ~ 1 250 cm -1间 , 每隔 5 cm -1 , 选取一个红
外吸光度值 A i , 共取 41 个数据点 , 这 41 个吸光度值分别可
反映出不同类型黄芩的特征吸收 ,故作为 ANN的输入值。
Table 1.Codes of class and producing areas for scullcaps
编号 采集地区 黄芩种类 种类编码
98001 山东莱阳县 栽培黄芩(两年生) 01
98002 山东莱阳县 栽培黄芩(一年生) 01
98004 山西榆社县 栽培黄芩(一年生) 01
98007 山西榆社县 栽培黄芩(两年生) 01
98008 山西榆社县 栽培黄芩(一年生) 01
98010 河北隆化县 栽培黄芩(四年生) 01
98011 河北隆化县 栽培黄芩(两年生) 01
98017 河北易县 栽培黄芩(四年生) 01
98003 山东文登县 野生黄芩 10
98005 山西榆社县 野生黄芩 10
98006 山西榆社县 野生黄芩 10
98009 山西武乡县 野生黄芩 10
98012 河北隆化县 野生黄芩 10
99001 黑龙江龙江县 野生黄芩 10
99002 黑龙江杜蒙县 野生黄芩 10
99004 内蒙翁牛特旗 野生黄芩 10
99005 内蒙固阳县 野生黄芩 10
98013 内蒙翁牛特旗 野生黄芩 10
98014 内蒙固阳县 野生黄芩 10
98013 内蒙翁牛特旗 粘毛黄芩 11
98014 内蒙固阳县 粘毛黄芩 11
98015 内蒙固阳县 粘毛黄芩 11
Fig.2 FTIR spectra of three classes of scullcaps
Scutellaria vi scidula Bge:a.Neimenggu guyang;b.Neimenggu niute wild scutel-
laria baicalensis georgi:c.Heilongjiang longjiang;d.Shanxi Yushe cultivated
scutellaria baicalensi s georgi:e.Shanxi Yushe;f.Shandong Laiyan
  在 ANN 训练前 , 合理地对数据进行预处理是非常重要
的 , 合理的数据可改善网络性能 ,缩短收敛时间。为此 ,特对
原始数据作以下处理:
对吸光度 Ai 进行归一化处理 , 归一化公式为 Ai =(Ai -
Amin) (Amax -Amin),其中 Amax 为同一光谱图中所选取的透光
率中的最大透光率 , Amin 为最小透光率;其目的是缩小样本
在测定时所造成红外吸光度的差异 ,使样本数据具有一致性。
若用 m个样本训练网络 , 则网络的输入值构成矩阵 A , 目
标值构成矩阵 T , 两矩阵的具体形式如下:
946     光谱学与光谱分析               第 22卷
A =
A1 ,1 A1 , 2 … A1 , n
A2 ,1 A2 , 2 … A2 , n
… … … …
Am , 1 Am ,2 … Am , n
T =
T1 , 1 T1 , 2
T2 , 1 T2 , 2
… …
Tm ,1 Tm ,2
  根据网络权重和阈值调整公式以及 Sigmoid 型转换函数
输出值的范围 ,分别对 A、t矩阵作以下处理[ 7 , 8] :
对 A 矩阵中的所有元素进行变换 , 第 j列元素变换公式
为Ai , j =(Ai , j -Amin , j +0.1) (Amax , j -Amin , j+0.1),其
中 Amin , j和Amax , j 分别为第 j列元素的最小值和最大值 ,其目的
是要避开0 值;对 T矩阵中的所有元素进行变换 ,其变换公式
为 Ti , j = Ti , j ×0.9+0.05 , 其目的是使 T 值落在 0.05 ~ 0.95
之间 ,这样靠近数据变化区间端点的网络输出值就有一波动
范围 ,使得网络的收敛性能较好。
2.3 ANN的设计
MATLAB是 MathWorks公司推出的一套高性能可视化数
值计算软件 ,十分适用于科技计算 , 本研究基于 MATLAB 5.2
神经网络工具箱 , 设计出了三类黄芩的 ANN 识别程序 , 其主
要语句及训练参数如下 ,其中 ,Minmaxp为 A′中每一行的极小
和极大值构成的 n ×2 阶矩阵;S1为隐含层节点数;TF1 , TF2
分别为第一和第二层转换函数的代号 , 其具体形式可为非线
性函数 Tansig 和线性函数 Sxuholq两种。
net=newff(minmaxp , [ S1 2] ,{TF1 TF2});
%创建 41×S1×2 型的三层ANN;
net.trainparam.epochs=100;
%设置最大训练批次数为 100。
net.trainparam.goal=0.01;
%设置训练目标误差平方和为 0.01。
net.trainparam.show=5;
%每隔 5个训练批次显示一次训练结果。
net=train(net , A′, T′);
  %用 Levenberg-Marquardt学习规则训练网络。
2.4 识别结果
  本研究采用了三种不同类型的人工神经网络 ,即非线性-
线性 、线性-线性 、非线性-非线性 。所谓非线性-线性型人工神
经网络就是指输入层转换函数为 tansig , 输出层转换函数为
purelin 时的人工神经网络 , 其它类型的人工神经网络如此类
推 , 在此不再一一赘述。采用 42 个样本作训练集 , 34个样本
作检验集 , 分别对不同模式的 ANN 进行了监督性训练 ,其训
练和监督样本集见表 2。当训练目标误差平方和定为 0.01
时 , 各类 ANN 对训练集中三类黄芩样本识别的正确率均为
100%,但对检验集样本识别的结果均不一样 , 并识别的正确
率与隐含层节点数有关(见图 3), 曲线 3 为非线性-非线性
型 ANN识别的结果 , 从该曲线可看出 , 当隐含层节点数较多
时 , 识别正确率不是升高而是下降 , 可能的原因是 S1较大时 ,
网络的非线性程度过高 ,使网络模型不适合于该类样本集的
训练;曲线 2为线性-线性型 ANN 识别的结果 ,此结果随 S1的
变化不很大 , 但识别的正确率不很高 , 基本在 85%左右;曲线
1为非线性-线性型 ANN识别的结果 , 从图中可看出 , 该类型
ANN识别效果最佳 , 特别是当隐含层节点数为 3时 , 识别正确
率达到了 97%,在对 34 个监督集样本的识别中 , 仅 hqi98010d
一个样本识别错误 , 即该样本目标值为 T1 = 0 , T2 = 1 , 而预
测值为 T1 =0.509 4 , T2 = 0.254 1 , 无法将其归为何类 , 通过
对该样本原始数据的分析 ,发现该样本为奇异样本。
Fig.3 Correct rate-mumber of hidden neurons
1.TF1 =′tansig′   TF2 =′purelin′;
2.TF1 =′purelin′ TF 2=′purelin′;
3.TF1 =′tansig′ TF2 =′tansig′
Tab.2 Training and monitoring samples of artificial neural networks
集 黄芩类别 样本数 样本
训练集
01 17
Hq98001d hq98002d hqz98004 hqz98007 hq98008d hqi98010 hqi98011d Hqi98001 hqi98002
hqi98004 hqi98007 h98001 hqi98004 h98008 hqi98002 Hr98007b hq98008c
10 18
I980032 hqz98005 h98006 h98009 i980121 h99002 i990051 hqi98003 I980052 h98006
hr98009a hqi98012 hqi99001 hqi99002 hqi99004 Hqi99005 h99004 h99001
11 7 H9801310 h980135 h9801416 h9801510 h9801511 h9801316 h9801410
监督集
01 15
Hqz98001 h98002 hr98004a h98007 hqz98008 hqi98010 hq98011d hqi98001 hr98008a
Hq98008b hqi98010d hr98008a hq98007c hqi98001 hqi98007
10 17
I980031 i990051 hqz98006 hq98009 i980121 hqd98012 h99001 hqz99002 h99005
I980123 i990052 hqi98005 hqi98005 i980051 hqi98012 h99002 i990052
11 2 H980145 h9801516
   说明:表中黄芩编号前后所加的字母或数字 ,均表示该号样品重复测定的不同的样本。
947第 6期               光谱学与光谱分析
3 结 论
  采用三种不同模式的人工神经网络对栽培黄芩 、野生黄
芩和粘毛黄芩进行了识别 , 从监督集识别结果来看 , 隐含层节
点数为 3 的非线性-线性型人工神经网络的识别能力最强 , 其
识别正确率可达 97%。该法具有简便 、快速 、准确等特点。
参 考 文 献
 [ 1]  FENG Wei-sheng , YI Chun-ru , DU Tian-xin andQIN Shan-lin(冯卫生 ,翼春茹 ,杜天信 ,秦山林).Journal of Traditional Chinese Medicine of Henan
(河南中医学刊), 1994 , 9(4):5.
 [ 2]  ZHANG Qi-jia ,WANG Qi-di(张齐家 ,王启迪).Acta Chinese Medicine and Pharmacology ,(中医药学报)1998, 5:35.
 [ 3]  ZHOU Chang-zheng , LI Jian-xiu(周长征 ,李建秀).Journal of Shandong Col lege of Traditional Chinese Medicine ,(山东中医学院学报))1994, 18
(3):198.
 [ 4]  ZHENG Yu-ping ,WU Wan-zheng , LI Zhao-hui(郑育平 ,吴万征 ,李朝晖).Sciences of Trace Elements of Guangdong(广东微量元素科学), 1996 , 3
(3):55.
 [ 5]  SUN Su-qin , ZHANG Xuan , QIN Zhu and HU Xin-yao(孙素琴 ,张 宣 ,秦 竹 , 胡鑫尧).Spectroscopy and Spectral Analysi s(光谱学与光谱分
析), 1999 , 19(4), 542.
 [ 6]  SUN Su-qin, ZHOU Qun , YU Jian-yuan(孙素琴 ,周 群 ,郁鉴源).Chinese Journa l of Analytical Chemistry(分析化学), 2000, 28(2):211.
 [ 7]  XU Yong-qun , CHEN Nian-you , ZHU Yi-quan(徐永群 ,陈年友 , 朱怡权).Computer and Applied Chemistry(计算机与应用化学), 2000 , 17(6):
514.
 [ 8]  XU Yong-qun , CHEN Nian-you(徐永群 ,陈年友).Computer and Applied Chemistry(计算机与应用化学), 2001 , 18(2):160.
Recognition of Three Classes of Skullcaps by FTIR Spectroscopy
Combined with Artificial Neural Networks
XU Yong-qun1 , 2 , SUN Su-qin1 , Zhou Qun1 and CAI Shao-qing3
1.Department of Chemistry , Tsinghua University , Beijing 100084 , China
2.Department of Chemistry , Huanggang Normal University , Huanggang 438000 , China
3.Department of Natural Medicine , Peking University , Beijing 100083 , China
Abstract In order to recognition of three classes of skullcaps(cultivated , wild Scutellaria baicalensis Georgi and Scutellaria viscidula Bge)
three kinds of models of artificial neural networks(ANN), nonlinear-linear , linear-linear and nonlinear-nonlinear model ,were used combined with
their infrared spectra.Skullcaps samples were collected by Fourier Transform Infrared(FTIR)spectra.42 samples were gathered as a train set ,
and 34 samples as a test set , then their supervision trains were performed using three models each.When the summation of error square of train
target was selected as 0.01 , the correct rate for recognition of three classes of skullcaps using each ANN was 100% for the train set , but was dif-
ferent for the test set , which depended on the number of node in hidden layer , S1.It was found that with the increase of S1 , the correct rate would
decrease oppositely.This may be caused by the high degree of the non-linearity of the networks , so that the models of networks were not fit for the
train of this kind of sample set.When using linear-linear model of ANN varied with S1 in some extent , the correct rate was generally about 85%.
Recognizability obtained using nonlinear-linear model of ANN was the best.Its correct rate of recognition was >97%when S1=3 , and so this
method can be used to recognize three of skullcaps simply , rapidly , and accurately.
Keywords FTIR;Pattern recognition;ANN;Scutellaria baicalensis;Scutellaria bge
(Received Dec.14 , 2001;accepted Feb.20 , 2002)  
948     光谱学与光谱分析               第 22卷