免费文献传递   相关文献

Wood Identification Method Based on Microstructure Images in Cross-Section

基于横切面微观构造图像的木材识别方法


提出一种基于核主成分分析(KPCA)和自适应增强(AdaBoost)的木材识别算法。通过把图像投影到KPCA高维空间,利用PCA方法对该空间中的数据进行特征提取和压缩,使用Gentle AdaBoost进行分类。结果表明:本方法对基于横切面微观构造图像的木材识别,具有较高的识别率和算法鲁棒性且运行时间快的特点。

In this paper, a new method based on kernel principle component analysis(KPCA) and AdaBoost was proposed for wood identification. After wood images projecting into a high-dimensional space of KPCA, PCA method was used to extract features and compress those features. Then these well-prepared features were classified with Gentle AdaBoost. The experimental results showed that our method based on microstructure images in cross section had some good performances, such as higher discrimination, robustness and efficiency in running time.


全 文 :第 49 卷 第 11 期
2 0 1 3 年 11 月
林 业 科 学
SCIENTIA SILVAE SINICAE
Vol. 49,No. 11
Nov.,2 0 1 3
doi:10.11707 / j.1001-7488.20131116
收稿日期: 2012 - 12 - 19 ; 修回日期: 2013 - 06 - 21。
基金项目: 国家自然科学基金项目 ( 60970082 ) ; 浙江农林大学人才启动项目 ( 2013FR059 ) ; 浙江农林大学研究生科研创新项目
(3122013240224)。
* 汪杭军为通讯作者。
基于横切面微观构造图像的木材识别方法*
刘子豪1 祁亨年1 张广群1 汪杭军2
(1.浙江农林大学信息工程学院 临安 311300; 2.浙江农林大学天目学院 临安 311300)
摘 要: 提出一种基于核主成分分析 (KPCA)和自适应增强 (AdaBoost)的木材识别算法。通过把图像投影到
KPCA 高维空间,利用 PCA 方法对该空间中的数据进行特征提取和压缩,使用 Gentle AdaBoost 进行分类。结果表
明: 本方法对基于横切面微观构造图像的木材识别,具有较高的识别率和算法鲁棒性且运行时间快的特点。
关键词: 核主成分分析; 自适应增强; 图像压缩; 木材识别; 计算机视觉
中图分类号: S781; TP391 文献标识码: A 文章编号: 1001 - 7488(2013)11 - 0116 - 06
Wood Identification Method Based on Microstructure Images in Cross-Section
Liu Zihao1 Qi Hengnian1 Zhang Guangqun1 Wang Hangjun2
(1 . School of Information Engineering,Zhejiang A & F University Lin’an 311300;
2 . Tianmu College,Zhejiang A & F University Lin’an 311300)
Abstract: In this paper,a new method based on kernel principle component analysis ( KPCA) and AdaBoost was
proposed for wood identification. After wood images projecting into a high-dimensional space of KPCA,PCA method was
used to extract features and compress those features. Then these well-prepared features were classified with Gentle
AdaBoost. The experimental results showed that our method based on microstructure images in cross section had some good
performances,such as higher discrimination,robustness and efficiency in running time.
Key words: kernel principle component analysis ( KPCA ); AdaBoost; image compression; wood identification;
computer vision
为了防止名贵家具造假、木材流通中非法交易
行为,以及鉴别古树名木年份的需要,基于木材微观
图像的计算机识别技术应运而生。近几年来越来越
多的专家和学者将计算机视觉技术应用于木材微观
图像的分类中,并取得了一些可喜的成就。
基于视觉的木材识别领域可分为 2 个研究方
向: 一是基于图像分割的木材识别,它通过提取图
像中的木材语义特征来识别木材的树种 (刘镇波,
2004; 王秀华,2005; 管雪梅,2006; 黄慧,2006);
二是基于图像纹理的木材识别。目前图像分割技术
在国际上还是一个难题,近几年来越来越多的学者
对利用木材图像的整体纹理信息来判别树种产生了
很大的兴趣。比如,何涛等 (2009)将两方向二维
PCA 算法运用到木材体视图数据库中,这种木材图
像获取途径比微观图像采集具有更大的便捷性; 方
益明等(2010)利用傅里叶变换对木材图像进行处
理得到一组傅里叶变换功率谱图后,再利用独立成
分分析算法提取功率谱图的整体特征,用 SVM 在一
定程度上实现树种鉴别; 汪杭军等(2011)采用主成
分分析方法( PCA),通过提取“特征树”特征后,利
用最近邻(KNN)和支持向量机 ( SVM)分别进行了
针叶材分类的研究。
上面介绍的基于纹理特征的木材图像识别研究
是基于 PCA 的特征提取方法。作为一种经典的特征
提取和降维方法,PCA 需要很大的存储空间且计算复
杂,而核主成分分析(KPCA)方法可以将低维的数据
空间映射到高维数据空间,在此空间中利用 PCA 提
取样本的非线性特征,找出数据之间的关联性。
在分类器上,SVM 对于不同数据样本的分类需
要优化设置参数,且速度较慢。Freund 和 Schapire
在 1995 年基于 PAC( probably approximately correct)
理论提出一种可以把若干弱分类器集合成强分类器
第 11 期 刘子豪等: 基于横切面微观构造图像的木材识别方法
的分类算法———AdaBoost ( Freund et al.,1997),克
服了 Boosting 需要提前知道每次训练中弱学习算法
对训练样本的正确率的下限和精确度不高的缺陷。
该分类器广泛应用于人脸识别(Yang et al.,2005)、
红外目标检测(吴燕茹等,2011)等,并有了一些扩
展。Lienhart 等 ( 2002 ) 对 4 种 AdaBoost 算 法
(Discrete AdaBoost,Real AdaBoost,Gentle AdaBoost
和 Logit AdaBoost)进行了性能对比,并得出 Gentle
AdaBoost 算法在基于 CART 树的分类器下性能要高
于其他几种算法。
基于以上分析,本文采用 KPCA 将木材样本映
射到高维空间,再使用 PCA 对高维空间数据降维和
特征提取后,通过 Gentle AdaBoost 分类器对待测试
样本进行分类。结果表明,本方法可以实现对木材
树种的有效分类。
1 材料与方法
1. 1 试验材料
本试验的木材样本取自浙江农林大学木材标本
馆。选 取 青 杨 ( Populus cathayana )、云 杉 ( Picea
asperata)(早材)、云杉(晚材)、鹅掌楸( Liriodendron
chinensis)、桤 木 ( Alnus cremastogyne )、凹 叶 厚 朴
( Magnolia officinalis subsp. biloba )、大 叶 锥
( Castanopsis megaphylla )、 枫 香 ( Liquidambar
formosana)、红淡比(Cleyera japonica)、红豆杉(Taxus
chinensis)、华南青皮木( Schoepfia chinensis)、金钱松
(Pseudolarix amabilis)、落叶松 ( Larix gmelinii) (早
材)、落叶松 (晚材)、麻栎( Quercus acutissima)、栗
(Castanea mollissima)、米槠(Castanopsis carlesii)、东
北杨(Populus girinensis)、山核桃(Carya cathayensis)、
树参(Dendropanax dentiger)、檀香(Santalum album)、
巴 比 亚 檀 香 ( Santalum papuanum )、百 日 青
(Podocarpus neriifolius)和紫弹树(Celtis biondii)24 种
木材样本,并采用 OLYMPUS BX51 显微镜和 DP70 数
码显微成像系统采集显微图像。将所得到的原始图
像按照一定的比例进行截取,要求截取区域尽量不要
靠近轮界线,可含少量木射线,但不含断裂、树脂道等
其他组织或较大杂质,然后缩放至 200 × 200 像素统
一大小的子区域,并将上一步获得的 200 × 200 像素
子区域图像转换为 256 级灰度图像。
试验用到的 24 种木材样本共包括 1 248 幅图
像,每个树种类别中的样本数量并不相等。测试试
验中,K -折交叉检验是常用的数据集检验方法,可
以确保样本集均匀分布且试验样本的推广误差降到
最低。但是该检验方法样本选择方式是随机的,不
能确保每个类中的样本均匀分布于每次选择的样本
中。Zeng 等 ( 1999 ) 提出了 DBSCV ( distribution-
balanced stratified cross-validation)方法,克服了子样
本中各类别分配不均的情况,使选择子样本中类别
数所占的比例与总体数据中每个类所占的比例相
同,从而确保训练和测试数据的代表性,保证了试验
结果的可靠、准确。本试验采用 10 - 折的 DBSCV
检验方法,共做 10 次试验,最后的准确率是 10 次重
复试验的均值。
1. 2 基于 KPCA 木材特征提取
核方法(Scholkopf et al.,1999)是解决非线性模
式分析问题的一种有效途径,而核主成分分析
(KPCA)作为其中比较有代表性的算法受到广泛重
视。它的基本原理是通过非线性函数把输入空间映
射到高维空间,在特征空间中进行数据处理。其关键
在于通过引入核函数,把非线性变换后的特征空间内
积运算转换为原始空间的核函数计算,从而大大简化
计算量。因此可将 KPCA 作为提取木材微观图像特
征的方法,将低维的图像数据空间映射到高维数据空
间,在此空间中利用 PCA 对提取样本进行非线性特
征提取高阶特征。具体过程如图 1 所示。
图 1 KPCA 特征提取过程
Fig. 1 Process of KPCA features extraction
假设有 M 个 Rd 空间中的木材样本图像 x1,
x2,…,xM,有非线性映射 φ,将每个样本依次投影
到高维特征空间 Φ 中( Rd 维数远小于 Φ ),该过程
表示为:
( x1,x2,…,xm) ∈ R
d →
φ
[Φ( x1),Φ( x2),…,Φ( xm)]∈ Φ。 (1)
在满足 Φ 空间中数据中心化条件∑
M
j = 1
φ( xj) =
0 后,特征空间中的协方差矩阵为:
C = 1
M∑
M
j = 1
Φ( xj)Φ ( xj)
T。 (2)
其特征值 λ 和特征向量 v,则有:
711
林 业 科 学 49 卷
Cν = λν。 (3)
考虑把 v 表示为 Φ 空间中所有特征向量
Φ( x1),Φ( x2),…,Φ( xM) 所张成的空间:
v = ∑
M
i = 1
α iΦ( xi)。 (4)
其中 α i 为特征系数,将式(2)和式(4)代入式
(3),则有:
1
M∑
M
j = 1
Φ( xj)Φ ( xj)[ ]T ∑M
i = 1
α iΦ( xi[ ]) =
λ ∑
M
i = 1
α iΦ( xi[ ]) 。 (5)
式(5)两边右乘 Φ( xi),则有:
1
M∑
M
j = 1
Φ( xj)Φ ( xj)[ ]T ∑M
i = 1
α iΦ( xi)Φ( xi[ ]) =
λ ∑
M
i = 1
α iΦ( xi)Φ( xi[ ]) 。 (6)
根据 Mercer 准则( Lienhart et al.,2003),定义
M × M 的核矩阵 K,其中每个元素为:
Kij = [φ( xi)·φ( xj)]。 (7)
其中“·”为向量内积。把式(7)代入式(6)后可简
化为:
MλKα = K2α。 (8)
由于核矩阵 K 非退化,式(8)两边同时乘以 K -1
后可简化为:
Mλα = Kα。 (9)
使用 PCA 方法求解式(9)得到特征值由大到小
排列: λ1 ≥ λ2 ≥…≥ λ r,其对应的特征向量为 α1,
α2,…,α r,保留较大特征值所对应的特征向量,张
成一个高维“特征树”空间:
U p = (α1,α2,…,α t),( t < r)。 (10)
每幅木材微观图像可以投影到由式(10)张成的子
空间,并对应于子空间中的一点。同样,式(10)可以计
算测试样本 yi 在该特征空间上的投影系数:
Wi = U
T
p ( yi - m)。 (11)
其中,m 表示所有训练样本的均值。这样一幅图像
通过投影到子空间,利用式(11)得到的系数正交化
后可得到 KPCA 子空间系数作为木材图像识别
依据:
W kpca = (W1,W2,…,Wt)。 (12)
该式即为木材图像所对应 KPCA 特征。
1. 3 Gentle AdaBoost 分类算法
常用的 AdaBoost 算法有 Real AdaBoost,Discrete
AdaBoost, Logit AdaBoost 和 Gentle AdaBoost
(Friedman et al.,2000)。其中,Discrete AdaBoost 要
求输出结果限制定在二值范围之内,Real AdaBoost
将要求放宽到实值,而对于 Logit AdaBoost 和 Gentle
AdBoost 却没有固定要求。同时试验结果表明,
Gentle AdaBoost 通常可以取得更好的效果,常用于
集成分类中。其具体过程如图 2 所示。
图 2 Gentle AdaBoost 算法过程示意
Fig. 2 Picture of Gentle AdaBoost algorithm process chart
Gentle AdaBoost 方法分类过程如下:
1) 设有 n 个样本,每个样本对应的标签之间的
关系可以记为: ( x1,y1),( x2,y2),…,( xn,yn),其
中 yi ∈ { - 1,1},yi = 1 表示为类别归属为 y1 的类
别,yi = - 1 表示为类别归属为 yi ≠ 1 的类别。
2) 初始化: wi = 1 / n( i = 1,2,…,n) 和
H( x) = 0;
3) for m = 1:M
A. 计算弱分类器: fm ( x) = Pm ( y = 1 | x) - Pm
( y = - 1 | x),其中 Pm ( y = 1 | x) =

y i = 1
wi

y i = 1
wi + ∑
y i = - 1
wi

Pm( y = - 1 | x) =

y i = - 1
wi

y i = 1
wi + ∑
y i = - 1
wi
表示当前权值下正
负样本的概率。
811
第 11 期 刘子豪等: 基于横切面微观构造图像的木材识别方法
B. H( x) = H( x) + fm( x) ;
C.权重更新: wi = wi·exp[- yi·fm( xi)]( i =
1,2,…,n) ;
D.权值归一化: wi = wi /∑
n
i = 1
wi ;
4 ) 生 成 强 分 类 器: sign[H( x)] =
sign[∑
M
m = 1
fm( x)](其中 sign 表示符号函数),利用 M
个弱分类器生成一个强分类器,增强样本分类能力。
2 结果与分析
2. 1 算法识别率和时间比较
为了提高木材图像识别算法效率,首先对木材
数据库中每幅微观图像截取 92 × 112 像素尺寸大
小; 然后分别采用 PCA,FisherTrees 子空间方法来
对比 KPCA 算法; 另外,采用 FDA,SVM 分类器来对
比 Gentle AdaBoost 算法,采用对比试验的方法来检
验本文算法性能。其中,KPCA 方法选取多项式核
函数作为其核函数: K( i,j) = [a( x·y) + b]d,其
中设置 a = 1,b = 1,d = 0. 7,训练次数 T = 100。在
3. 0 GHz CPU /2G 内存下采用 MATLAB 2011b 进行
仿真试验。采用 libsvm-3. 12 工具箱实现 SVM 训练
与测试算法,其中 SVM 分类器选择线性核函数,惩
罚因子设置为 100,核函数参数 σ = 0 . 01。使用 1. 2
节 KPCA 算法和 1. 3 节中 Gentle AdaBoost 分类算
法,分别得出 PCA,FisherTrees,KPCA 与 FDA,SVM,
Gentle AdaBoost 算法的识别率和运行时间,具体结
果如表 1 所示。
从表 1 可以看出,不同分类和特征提取算法的
性能差异很大,识别率在 50% ~ 90. 13%之间变化,
而分类错误样本数量从 12 变化到 62。KPCA 与
Gentle AdaBoost 组合方式的识别效果要优于其他方
法,其中最高可达到 90. 13%。对于 Gentle AdaBoost
分类器,PCA 和 FisherTrees 忽略了隐藏在数据之间
高于二阶的相互映射关系,而 KPCA 可将低维数据
空间映射到高维数据空间,把隐藏的高维信息显现
出来,从而可以获得有效的木材特征信息。而
KPCA 在 Gentle AdaBoost 中表现出了较高的识别
率。对于 3 种特征提取算法,只有 PCA 在 SVM 中
的识别率好于在 Gentle AdaBoost 分类器中的效果,
这是因为 SVM 会寻找对分类间隔贡献最大的特征
维并赋予其不同的权值。从这点来看,它符合 PCA
特征空间的特性,但 SVM 运行所用的平均时间几乎
是 Gentle AdaBoost 的 3 倍多,可见 AdaBoost 算法时
间效率很高,对于 KPCA 与 Gentle AdaBoost 算法结
合具有优越性。
表 1 本文算法的对比试验结果
Tab. 1 Experiment comparison results of our algorithm
分类算法
Classification
algorithm
特征提
取算法
Feature
extraction
algorithm
识别率
Recognition
rate(% )
分类错误样
本数量
Numbers of
misclassified
sample
时间
Time / s
PCA 51. 62 60 6. 53
FDA FisherTrees 50. 00 62 6. 95
KPCA 50. 49 62 6. 40
PCA 87. 81 15 4. 96
SVM FisherTrees 52. 50 59 2. 40
KPCA 78. 32 27 4. 70
PCA 77. 04 29 0. 84
Gentle AdaBoost FisherTrees 69. 00 39 0. 66
KPCA 90. 13 12 0. 82
接下来考察正确识别的样本图像和错误识别的
样本图像,以分析算法和样本的特点。从表 1 可看
到,KPCA + Gentle AdaBoost 的识别率是最高的,但
仍有 10%左右的错误率。图 3 显示了分类正确的
部分木材样本,而图 4 列出了分类错误的样本。
从图 3 和图 4 可以看出,针叶材和阔叶材的不
同对分类识别率具有较大的影响。在分类正确的样
本中,针叶材样本占了相当大的比例; 而在分类错
误的样本中,则全部是阔叶材样本。这可以从针叶
材和阔叶材的显微构造来解释: 针叶材主要由管胞
组成,它在显微图像上的整体形态和排列方式都呈
现一定的规律。通过 KPCA 提取的识别特征,可以
很好地捕捉到这些特征,具有大小和排列相似的管
胞所形成的特征会归为同一个类别。然而对于阔叶
材,情况则不同。从图 4 可以看出,由于图像截图的
不同,主要的木材细胞组织,例如导管、木射线和轴
向薄壁组织,即使在同一树种中,其大小、分布也存
在着较大差异,而且其中细胞含有的杂质、图像的噪
声等因素也会影响最终的识别结果。因此,针对阔
叶材的特点,如何采取改进措施是进一步提高整个
木材识别效果的一条途径。
2. 2 图像尺寸与识别率的关系
为了获得不同的图像尺寸,采用 Matlab 的
imresize 函数,获得木材数据库样本图像对应的
16 × 16、32 × 32、64 × 64 和 100 × 100 共 4 种分辨率
的图像数据库,然后用不同的特征提取方法和分类
算法得到 ROC 曲线图,如图 5 ~ 7 所示。
ROC 曲线对于算法好坏的判断标准就是曲线
的位置与 X 轴、Y 轴所围成的面积大小。从图 5 ~ 7
可以看出,随着图像尺寸由 16 × 16 变为 100 × 100,
不同算法的识别率均有一定程度的提高。这也说明
911
林 业 科 学 49 卷
了分辨率高的图像所含识别的有效信息多,从而在
其上的识别效果就好。对于 SVM 与 FDA 分类器,
它们对大尺寸图像的分类识别较佳,通常是在
100 × 100时,其识别效果达到最优。但是这样的结
果对于 Gentle AdaBoost 分类器来说则不一定是最
好的。在 KPCA 与 Gentle AdaBoost 相结合的情况
下,当图像的尺寸为 16 × 16 时,样本的误识率是最
少的。因此,采用本文的方法,可以选择合理的图像
分辨率进行特征提取和分类操作,以获得快速、准确
的木材识别结果。
图 3 KPCA + Gentle AdaBoost 组合下分类正确的部分样本
Fig. 3 Part of samples which are correctly classified under the KPCA and Gentle AdaBoost
图 4 KPCA + Gentle AdaBoost 组合下分类错误的样本
Fig. 4 Samples which are incorrectly classified under the KPCA and Gentle AdaBoost
图 5 Gentle AdaBoost 分类器下图像尺寸与 3 种特征提取算法的关系
Fig. 5 Relationship among three kinds of feature extraction algorithm under Gentle AdaBoost
3 结论
本文提出了一种基于 KPCA + Gentle AdaBoost
木材识别算法,克服了仅使用子空间特征提取方法
分类效果不佳的问题。通过提取 KPCA 特征,生成
高维空间后,利用 PCA 方法对高维空间中的数据进
行特征提取,并采用交叉验证得到如下结果:
1) 总体上来看,Gentle AdaBoost 分类器的分类
021
第 11 期 刘子豪等: 基于横切面微观构造图像的木材识别方法
图 6 SVM 分类器下图像尺寸与 3 种特征提取算法的关系
Fig. 6 Relationship among three kinds of feature extraction algorithm under SVM
图 7 FDA 分类器下图像尺寸与 3 种特征提取算法的关系
Fig. 7 Relationship among three kinds of feature extraction algorithm under FDA
效果要好于 SVM 分类器。
2) KPCA 方法可以获得隐藏在数据内部的高
阶信息,对于 KPCA + Gentle AdaBoost 的合成方法能
够达到最好的识别效果。
3) Gentle AdaBoost 采用小比例尺寸的图像即
可获得较好的分类效果,而对于 SVM 和 FDA 却需
要大尺寸比例的图像。
4) 在同等情况下,针叶材的分类正确率高于阔
叶材的分类正确率。
综上所述,由核主成分分析 (KPCA)方法提取
的特征具有较强空间描述能力,结合分类能力强的
AdaBoost,能够获得较好的木材树种识别效果。
参 考 文 献
方益明,郑红平,冯海林 . 2011. 基于傅里叶变换和独立成分分析
的木材显微图像特征提取与识别 . 浙江农林大学学报,27(6) :
826 - 830.
管雪梅 . 2006.基于计算机视觉技术的木材细胞图像分割的研究 . 哈
尔滨:东北林业大学硕士学位论文 .
何 涛,张世禄,汪杭军 . 2009. 基于两方向二维主成分分析木材识
别的研究 .林业机械与木工设备,37(10) : 13 - 14.
黄 慧 . 2006. 基于木材组织构造的数字图像处理系统研究 . 南京:
南京林业大学硕士学位论文 .
刘镇波 . 2004. 木材显微图像特征参数提取与树种判别方法研究 .
哈尔滨:东北林业大学硕士学位论文 .
汪杭军,汪碧辉 . 2011. 一种新的针叶材自动识别方法 . 林业科学,
47(10) : 141 - 145.
王秀华 . 2005. 木材横切面构造特征计算机视觉分析与树种分类识
别研究 . 哈尔滨: 东北林业大学硕士学位论文 .
吴燕茹,程咏梅,赵永强,等 . 2011.利用 KPCA 特征提取的 Adaboost
红外目标检测 . 红外与激光工程,40(2) :339 - 343.
Freund Y,Schapire R E. 1997. A decision-theoretic generalization of
on-line learning and an application to boosting. Journal of Computer
and System Sciences,13(55) : 119 - 139.
Friedman J,Hastie T,Tibshirani R. 2000. Additive logistic regression:
a statistical view of boosting. Annals of Statistics, 28 ( 2 ) :
337 - 407.
Lienhart R,Kuranov A,Pisarevsky V. 2002. Empirical analysis of
detection cascades of boosted classifiers for rapid object detection.
MRL Technical Report.
Lienhart R,Maydt J. 2003. Empirical analysis of detection cascades of
boosted classifiers for rapid object detection. Pattern Recognition,
2781:297 - 304.
Scholkopf B,Smola A,Muller K R. 1998. Nonlinear component analysis
as a kernel eigenvalue problem. Neural Computation,10 ( 5 ) :
1299 - 1319.
Scholkopf B,Mika S,Burges C J C. 1999. Input space versus feature
space in kernel-based methods. IEEE Trans on Neural Networks,10
(5) : 1001 - 1016.
Yang P,Shan S,Chen X. 2005. AdaBoost gabor fisher classifier for face
recognition. IEEE Trans Image Processing,17(7) :278 - 291.
Zeng X,Martinez T R. 1999. Distribution-balanced stratified cross-
validation for accuracy estimation. Journal of Experimental &
Theoretical Artifical Intelligence,12(1) :1 - 12.
(责任编辑 石红青)
121