全 文 :收稿日期:2008-05-22;修回日期:2009-04-08.
基金项目:国家科技支撑重大项目 (2007BAD65B02-6;2006BAC01A08);国家科技部 “973” 项目 (2007CB106800).
第一作者简介:关法春 (1976-), 男 , 在读博士 , 研究方向为生态学.
基于遗传算法的投影寻踪模型
对小花碱茅最佳收获期的判定
关法春1 ,2 , 梁正伟1
(1.中国科学院东北地理与农业生态所 , 吉林 长春 130012;2.中国科学院研究生院 , 北京 100049)
摘 要:针对小花碱茅实际生产中最佳收获期难于客观确定的问题 , 提出基于加速遗传算法的投影寻踪模型用于解决小花
碱茅 (Puccinellia tenuiflora)最佳收获期的判定问题 , 该模型通过优化指标投影方向 , 将多维数据指标 (样本评价指标)转
换到低维子空间 , 并根据投影函数值的大小评价出各样本的优劣 , 最大限度地避免了权重矩阵取值的人为干扰。结果表
明:初花期收获各指标投影函数值最大 , 这个时期收获的牧草具有相对较高的营养价值和产量 , 并具有相对较低的粗纤维
含量 , 因而这个时期收获综合评价值最高。图 1 , 表 2 , 参 18。
关键词:小花碱茅;最佳收获期;评定;遗传算法;投影寻踪
中图分类号:S156.4 文献标识码:A 文章编号:1001-0068 (2009)03-0336-04
Evaluation on the Optimal Harvest Time of Puccinellia tenuiflora
Based on RAGA-PP Model
GUAN Fa-chun1 , 2 , LIANG Zheng-wei1
(1.Northeast Institute of Geography and Agricultural Ecology , Chinese Academy of Sciences , Changchu 130012 , China;
2.Graduate University of Chinese Academy of Sciences , Beijing 100049 , China)
Abstract:In order to ascertain the optimal harvest time of Puccinellia tenuiflora in practical production scientifically , PPC (Projection Pursuit
Classification)model based on RAGA(Real coding based Accelerating Genetic Algorithm)was applied.Projection direction was optimized and
high-dimension data were converted into low-dimension space with PPC , and the value of projection indexes was obtained.Based on these projec-
tion function values , the sequence of samples from the big to the small was gained.At the same time , subjective impact on weight matrix farthest
could be avoided with PPCmodel.The results showed that the initial bloom stage have the biggest value of projection indexes , and its comprehen-
sive evaluation is the best.Puccinellia tenuiflora harvested in the initial bloom stage had higher nutritive value , higher output and lower coarse
fiber content.This model offered a new method to solve the evaluating problem of the optimal harvest time of Puccinellia tenuiflora.
Key words:Puccinellia tenuiflora;the optimal harvest time;evaluation;RAGA;PPC
小花碱茅 (Puccinellia tenuiflora)又名星星草 ,
属禾本科碱茅属 , 多年生草本植物 , 是我国 “三
北” 地区改良盐碱土地的优良先锋植物和发展草地
农牧业的优良草种。小花碱茅不同时期收获对牧草
利用价值影响极大 , 适期收获是碱茅生产中的关键
环节之一。长期以来在生产实践中人们往往只是凭
经验从牧草产量 、营养 、 适口性等方面的指标来确
定最佳收获时期 , 由于涉及的评价指标种类较多 ,
不同人评价的侧重点也不同 , 适期收获受人为主观
因素影响较大 , 难以客观地对小花碱茅的最佳收获
期进行准确判断 。
为此采用投影寻踪 (Projection Pursuit , PP)技
术来科学判定小花碱茅的最佳收获期 。投影寻踪技
术于 1974 年由 Friedman and Tukey 首先提出[ 1] , 此
后有许多学者对此进行了更为深入的研究[ 2-4] 。投
影寻踪是统计学 、应用数学和计算机学科相交叉 ,
用来分析和处理高维数据 , 尤其是非线性 、 非正态
高维数据的一种新兴统计方法 , 该方法将高维数据
(产量指标 、 营养指标等)投影到低维子空间上 ,
借助基于实数编码的加速遗传算法 (Real coding
based Accelerating Genetic Algorithm , 简称 RAGA),
建立投影寻踪模型 , 经多次运算寻找最佳投影方
向 , 寻找能反映原高维数据结构或特征的投影 , 形
成评价指标值 (函数投影值), 按其大小对目标进
第 25卷第 3 期
2009 年 8 月
农 业 系 统 科 学 与 综 合 研 究
SYSTEM SCIENCES AND COMPREHENSIVE STUDIES IN AGRICULTURE
Vol.25 , No.3
Aug., 2009
行排序[ 5] 。与灰色关联分析和经验判断方法相比 ,
投影寻踪模型对无用干扰数据和缺失的数据敏感性
较低[ 6] , 因而它具有稳健性好 、抗干扰性强和准确
度高等优点 , 近年来 , 该模型广泛地用于图象处
理[ 7-8] 、航海导航[ 9]和评价预测[ 10-13]等领域。将
投影寻踪模型应用于小花碱茅适宜收获期的客观评
价 , 可以避免采用灰色关联法 、层次分析法等方法
专家赋权的人为主观因素干扰 , 在生产上将具有非
常重要的现实指导意义 , 并为牧草的相关评价问题
提供了一条新的方法与思路。
1 小花碱茅适宜收获期综合评价模型
的构建
1.1 PP模型建模步骤[ 14-15]
由于 PP 方法的基本原理及方法 , 可以将多维
数据降为一维 , 且形成的新指标具有整体分散和局
部凝聚的特征 , 故可以根据其投影值大小来做聚类
分析 , 这种将 PP 用来做聚类分析的模型 , 即为
PPC模型 (Projection Pursuit Classification Model), 其
建模过程包括如下几步:
步骤 1:评价指标集的归一化处理 。
设小花碱茅适宜收获期评价指标的样本集为
{x* (i , j) i=1 , 2 , … , n;j=1 , 2 , … , p},
其中 x* (i , j)为第 i个杂交组合样本第 j个指标
值 , n 、 p 分别为杂交组合样本的个数和评价指标
的数目 。为消除各指标值的量纲和统一各指标值的
变化范围 , 可采用下式进行极值归一化处理 。
对于越大越优的指标:
x (i , j)=x
* (i , j) -xmin (j)
xmax (j)-xmin (j) (1-a)
对于越小越优的指标:
x (i , j)=xmax (j)-x * (i , j)
xmax (j)-xmin (j) (1-b)
式中:xmax (j)、 xmin (j)分别为第 j 个指标值的
最大值和最小值 , x (i , j)为指标特征值归一化
的序列。
步骤 2:构造投影指标函数 θ(a)。
PP方法就是把 p维数据 {x* (i , j) i=1 ,
2 , … , n , j =1 , 2 , …, p}综合成以 a = {a
(1), a (2), a (3), …, a (p)}为投影方向的
一维投影值
z (i)=∑p
j=1a (j) x (i , j) i=1 , 2 , …, n (2)
然后根据 {z (i) i =1 , 2 , … , n}的一维
散布图进行分类 。式 (2)中 a为单位长度向量 。
综合投影指标值时 , 要求投影值 z (i)的散
布特征应为:局部投影点尽可能密集 , 最好凝聚成
若干个点团;在整体上投影点团之间尽可能散开。
因此 。投影指标函数可以表达成:
Q (a)=SzDz (3)
式中:Sz 为投影值z (i)的标准差 , Dz 为投影值
z (i)的局部密度 , 即:
Sz = ∑
n
i=1 (z (i)-E (z))2
n-1 (4)
Dz=∑n
i=1∑
n
j=1 (R-r (i , j))·u (R-r (i , j))
(5)
式中:E (z)为序列 {z (i) i =1 , 2 , …, n}
的平均值;R 为局部密度的窗口半径 , 它的选取既
要使包含在窗口内的投影点的平均个数不太少 , 避
免滑动平均偏差太大 , 又不能使它随着的增大而增
加太高 , 可以根据试验来确定 , 一般可取值为
0.1Sz ;r (i , j)表示样本之间的距离 , r (i , j)
= z (i)-z (j) ;u (t)为一单位阶跃函数 ,
当 t≥0时 , 其值为 1 , 当 t<0时其函数值为 0。
步骤 3:优化投影指标函数。
当各指标值的样本集给定时 , 投影指标函数
Q (a)只随着投影方向 a的变化而变化。不同的投
影方向反映不同的数据结构特征 , 最佳投影方向就
是最大可能暴露高维数据某类特征结构的投影方
向 , 因此可以通过求解投影指标函数最大化问题来
估计最佳投影方向 , 即:
最大化目标函数:max:Q (a)=Sz·Dz (6)
约束条件:s.t:∑p
j=1a
2 (j)=1 (7)
这是一个以 {a (j) j =1 , 2 , … , p}为优
化变量的复杂非线性优化问题 , 用传统的优化方法
处理较难。因此 , 应用模拟生物优胜劣汰与群体内
部染色体信息交换机制的基于实数编码的加速遗传
算法 (RAGA)来解决其高维全局寻优问题。
步骤 4:分类与优序排列 。
把由步骤 3 求得的最佳投影方向 a*代入式
(2)后可得各样本点的投影值 z* (i)。将 z* (i)
与 z * (j)进行比较 , 二者越接近 , 表示样本 i 与j
越倾向于分为同一类。若按 z* (i)值从大到小排
序 , 则可以将杂交组合样本从优到劣进行排序。
1.2 基于实数编码的加速遗传算法 (RAGA)[ 16-17]
基于实数编码的加速遗传算法 (Real coding
basedAccelerating Genetic Algorithm , 简称 RAGA)包
337第 3 期 关法春等:基于遗传算法的投影寻踪模型对小花碱茅最佳收获期的判定
括以下几个步骤:
求解如下最优化问题:max:f (X)
s.t.:a j≤xj≤bj
步骤 1:在各个决策变量的取值变化区间随机
生成组均匀分布的随机变量 (实数);
步骤 2:计算目标函数值 , 从大到小排列;
步骤 3:计算基于序的评价函数 (用 eval (V)
表示);
步骤 4:进行选择操作 , 产生新的种群;
步骤 5:对步骤 4产生的新种群进行交叉操作;
步骤 6:对步骤 5产生的新种群进行变异操作;
步骤 7:进化迭代;
步骤 8:进入步骤 1 , 重新运行SGA
上述1 ~ 7步骤构成标准遗传算法 (Standard Ge-
netic Algorithm , 简称 SGA)。由于 SGA 不能保证全局
收敛性 , 在实际应用中常出现在远离全局最优点的
地方SGA即停滞寻优工作。为此 , 可以采用第 1次 、
第2次进化迭代所产生的优秀个体的变量变化区间
作为变量新的初始变化区间[ 13] , 算法进入步骤 1 ,
重新运行 SGA , 形成加速运行 , 则优秀个体区间将
逐渐缩小 , 与最优点的距离越来越近。直到最优个
体的优化准则函数值小于某一设定值或算法运行达
到预定加速次数 , 结束整个算法运行 。此时 , 将当
前群体中最佳个体指定为RAGA的结果 。
将PPC模型中投影指标函数 Q (a)求最大作
为目标函数 , 各个指标的投影 a (j)作为优化变
量 , 运行 RAGA上述 8个步骤 , 即可求得最佳投影
方向 a* (j)及相应的投影值 z (i), 将 z (i)按
其值大小进行比较 , 从而求得评价结果 。
2 实例分析
2.1 试验地概况
试验在中国科学院东北地理与农业生态所大安碱
地生态试验站内进行 (N 45°35′58″~ 45°36′28″, E123°50′
27″~ 123°51′31″), 试验地土壤类型以碱化草旬土 (Al-
kali meadow soil)为主 , 植被组成较简单均一 , 建群种
有羊草 (Leymus chinensis)、芦苇 (Phragmites commu-
nis)、小花碱茅 (Puccinellia tenuiflora)、虎尾草 (Chlo-
ris virgata)和角碱蓬 (Suaeda glauca)等 , 呈斑块化分
布。采样地土壤基本情况见表 1。
表 1 供试土壤的基本理化性质
pH
EC
(mS/ cm)
全氮
mg/ kg
全磷
mg/kg
全钾
mg/ kg
速效氮
mg/ kg
速效磷
mg/ kg
速效钾
mg/kg
有机质
%
10.20 1.29 1 305.90 294.90 1.33 26.21 21.91 285.16 0.64
2.2 试验材料与试验设计
2007年在小花碱茅的抽穗期 、 初花期 、 盛花
期 、乳熟期 、成熟期陆续进行采样 , 采用 50cm ×
50cm的铁框 , 随机向草地抛出 , 贴茎基收割铁框
内的牧草 , 测得牧草含水量[ 15] , 3次重复 , 风干样
用于营养成分测定。根据牧草质量评价指标的完全
性原则 、简捷易得性原则 、 相对独立性原则和客观
性原则 , 选取了样品各测定指标 , 除了水分和产量
指标外 , 还包括粗蛋白 、粗脂肪 、粗纤维 、无氮浸
出物 、 粗灰分 、钙 、磷等 7个指标进行 , 测定分析
工作在东北农业大学动物营养所内进行 , 测定方法
参见参考文献 [ 18] , 测定结果见表 2。
表 2 小花碱茅不同生育期营养成分 %、 g/m2
生育期 水分 粗蛋白 粗脂肪 粗纤维 无氮浸出物 粗灰分 钙 磷 产量
抽穗期 11.91±0.26 16.31±0.35 3.33±0.24 30.79±3.23 27.17±1.34 9.69±0.47 0.18±0.01 0.45±0.05 117.33±17.73
初花期 8.67±0.24 12.53±0.47 3.35±0.15 31.02±2.26 43.15±2.72 9.97±0.63 0.29±0.04 0.28±0.02 194.14±27.71
盛花期 11.69±0.60 7.02±0.25 2.33±0.19 36.27±2.40 42.24±2.28 8.14±0.53 0.12±0.02 0.16±0.02 203.31±26.25
乳熟期 8.65±0.30 6.63±0.34 3.04±0.35 38.45±1.98 43.47±3.39 9.41±0.14 0.33±0.04 0.20±0.03 243.30±22.14
成熟期 8.59±0.45 4.46±0.34 2.49±0.16 40.25±2.88 42.68±3.00 10.12±0.79 0.18±0.02 0.13±0.02 259.33±24.19
注:表中数据为平均数Mean±标准差 SD。
2.3 结果与分析
首先将评价指标的测定值进行归一化处理 , 对
于水分 、粗蛋白 、粗脂肪 、无氨浸出物 、 粗灰分 、
钙 、磷 、产量指标 , 采用公式 (1-a)归一化处理;
对于粗纤维指标 , 采用公式 (1-b)归一化处理。
采用 MATLAB 6.5软件编程处理数据 , 选定父
代初始种群规模为 n =400 , 交叉概率 pc=0.80 ,
变异概率 pm=0.80 , 优秀个体数目选定为 20个 ,
α=0.05 , 加速次数为 20 , 得出最大投影指标值
为:0.457 0 , 各个状态变量的最佳投影方向 a*=
(0.351 3 , 0.151 0 , 0.489 1 , 0.455 9 , 0.118 2 ,
338 农业系统科学与综合研究 第25卷
0.385 0 0.434 4 , 0.228 3 , 0.061 1), 将 a*代入
式 (2)后即得各个实验样本综合评价的函数投影
值 z* (j)=(1.752 7 , 2.367 4 , 0.223 7 , 1.752
8 , 1.161 3)。将 z* (j)从大到小排列 , 可得各试
验样本的优劣顺序。样本优序关系见图 1。
图 1 不同生育期综合评判函数投影值排序 (排序后)
综合评判函数投影值的排序结果表明 (图 1):
函数投影值最高的初花期各指标的投影值为2.367 4 ,
收获期综合评价结果高于其它 , 说明初花期进行收
获比较适宜。从初花期小花碱茅的综合指标来看 ,
其营养价值粗蛋白 、粗脂肪等营养价值指标相对较
高 , 粗纤维含量较低 , 牲畜适口性强 , 而且具有较
高的收获产量 , 因此初花期收获最好 , 其次为乳熟
期 、抽穗期 、成熟期。盛花期的牧草由于这个时期
的植株营养库主要供应生殖生长用于开花授粉 , 籽
粒尚未形成 , 营养水平较低 , 而且植株茎秆已经纤
维木质化 , 粗纤维含量较高 , 直接影响了函数投影
值大小 , 因此在各收获期排序中列在最后。
3 结论与讨论
在吉林省大安市地区 , 小花碱茅一般每年的 6
月中旬开始进入开花期 , 这个时期也是植株生长变
化最快的时期 , 从小花碱茅开始开花到盛花期 , 一
般只有 5d ~ 6d时间 , 所以要求小花碱茅植株 30%开
花即进行收割作业 , 在进入盛花期前结束收获作业。
小花碱茅在初花期进行及早收获 , 还有助于植株节
省养分消耗 , 在分蘖节上及早进行分蘖 , 提高植株
二次营养期的光合产物积累量 , 为翌年的植株生长
繁育奠定基础。此外 , 6月中旬大安市地区尚未进
入雨季 , 天气晴朗干燥 , 也非常适宜牧草收割晾晒
等作业。因此 , 小花碱茅于 6月中旬初花期收获可
与其他生产环节相适应 , 收获作业可操作性很强 。
基于遗传算法的投影寻踪模型在牧草适宜收获
期评价中的应用 , 为牧草生产提供了一种新的数学
研究方法 , 该方法对牧草各指标具有的模糊性 、 不
确定性的高维数据进行降维处理 , 从而实现分析高
位数据的目的 , 能够对生产实践进行指导。今后还
可以根据生产实际需要引入生产投入等其他方面的
指标进行分析 , 以期能够更加准确地指导生产实践。
参考文献:
[ 1] Friedman J H , J W Tukey.A projection pursuit algorithm for ex-
ploratory data analysis [ J] .IEEE.Trans.Compute , 1974, 23:
881-889.
[ 2] Jö rg , Polzehl.Projection pursuit discriminant analysis [ J] .Computa-
t ional Statistics &Data Analysis , 1995 , 20:141-157.
[ 3] Angela Montanari , Laura Lizzani.A projection pursuit approach to
variable selection [ J] .Computational Statist ics &Data Analysis ,
2001 , 35:463-473.
[ 4] WANG Min , WANG Zhuofu , XIAO Jianhong , et al.Projection
pursuit model and its application in integrative evaluation of econom-
ic benefits of China s paper industry [ J] .China Pulp&Paper ,
2007 , 26 (1):55-59.
[ 5] 付 强 , 赵小勇.投影寻踪模型原理及其应用 [ M] .北京:
科学出版社 , 2006.
[ 6] 王晓原 , 刘海红.基于投影寻踪自回归的短时交通流预测
[ J] .系统工程 , 2006 , 24 (3):20-24.
[ 7] Lesa M.Kennedy , Mitra Basu.Application of projection pursuit
learning to boundary detection and deblurring in images [ J] .Pattern
Recognit ion , 2000 , 33:2019-2031.
[ 8] Safavian S R.Projection pursuit image compression with variable block
size segmentation [ J] .IEEE Signal Process Lett , 1997, 4:117-
120.
[ 9] FlickThmas E.Pattern classification using projection pursit [ J] .Pat-
tern Recognit Let.1990 , 23 (12):1367-1376.
[ 10] 张礼兵 , 程吉林 , 金菊良 , 等.农业灌溉水质评价的投影
寻踪模型 [ J] .农业工程学报 , 2006 , 22(4):15-18.
[ 11] Liu H X , Yao X J , Liu M C , et al.Prediction of gas-phase re-
duced ion mobility constants(K0)based on the multiple linear re-
gression and projection pursuit regression [ J] .Talanta , 2007 , 71
(1):258-263
[ 12] Fu Qiang , Xie Yonggang , Wei Zimin.Application of projection pur-
suit evaluation model based on real-coded accelerating genetic algo-
rithm in evaluating wetland soil quality variations in the Sanjiang Plain
[ J] .China.Pedosphere(Beijing), 2003 , 13(3):249-256.
[ 13] Gilliama , James P.Dunyaka , Douglas A.Smitha , et al.Using pro-
jection pursuit and proper orthogonal decomposition to identify inde-
pendent flow mechanisms [ J] .Journal of Wind Engineering and In-
dust rial Aerodynamics , 2004 , 92:53-69.
[ 14] 金菊良 , 刘永芳 , 丁 晶 , 等.投影寻踪模型在水资源工
程方案优选中的应用 [ J] .系统工程理论方法应用 , 2004 ,
13 (1):81-84
[ 15] 付 强 , 梁 川.节水灌溉系统建模与优化技术 [M] .成
都:四川科学技术出版社 , 2002.
[ 16] 张欣莉.投影寻踪及其在水文水资源中的应用 [M] .成
都:四川大学出版社 , 2000.
[ 17] Holland J H.Genet ic algorithms [ J] .Scientifi c American , 1992
(4):44-50.
[ 18] 杨 胜.饲料分析及饲料质量检测技术 [ M] .北京:中国
农业大学出版杜 , 1993.
339第 3 期 关法春等:基于遗传算法的投影寻踪模型对小花碱茅最佳收获期的判定