免费文献传递   相关文献

Nonlinear Screening Indexes of Drought Resistance at Rice Seedling Stage Based on Support Vector Machine

基于支持向量机非线性筛选水稻苗期抗旱性指标


Screening indexes of drought resistance in crops is a puzzler with a few samples, multi-index and non-linear characteristics. Rationality of linear regression model and the indexes obtained by linear screening based on empirical risk minimization are debated. On the contrary, support vector machine based on structural risk minimization has the advantages of non-linear characteristics, fitting for a few samples, avoiding the over-fit, strong generalization ability and high prediction precision, etc. In this paper, setting the survival percentage under repeated drought condition as the target and support vector regression as the nonlinear screen tool, six integrated indicators including plant height, proline, malondialdehyde, leaf age, area of the first leaf under the central leaf and ascorbic acid, were highlighted from 24 morphological and physiological indicators in 15 paddy rice cultivars. The results showed that support vector regression model with the six integrated indicators had a more distinct improvementin fitting and prediction precision than the linear reference models. Considering the simplicity of indicators measurement, the support vector regression model with the only six morphological indicators including shoot dry weight, area of the second leaf under the central leaf, root shoot ratio, leaf age, leaf fresh weight and area of the first leaf under the central leaf was also feasible. Furthermore, an explanatory system including the significance of regression model and the importance of single indicator was established based on support vector regression and F-test.


全 文 :作物学报 ACTA AGRONOMICA SINICA 2010, 36(7): 1176−1182 http://www.chinacrops.org/zwxb/
ISSN 0496-3490; CODEN TSHPA9 E-mail: xbzw@chinajournal.net.cn

本研究由教育部新世纪优秀人才支持计划项目(NCET-06-0710),高等学校博士学科点专项科研基金项目(200805370002),湖南省教育厅青年基
金项目(05B025)和湖南省研究生科研创新项目(CX2009B151)资助。
第一作者联系方式: E-mail: zhmyuan@sina.com
Received(收稿日期): 2009-12-31; Accepted(接受日期): 2010-04-16.
DOI: 10.3724/SP.J.1006.2010.01176
基于支持向量机非线性筛选水稻苗期抗旱性指标
袁哲明 谭显胜
湖南农业大学生物安全科学技术学院 / 湖南省作物种质创新与资源利用重点实验室, 湖南长沙 410128
摘 要: 作物抗旱性指标筛选具小样本、多指标和非线性等特点, 传统的基于经验风险最小原则经线性筛选获得的
综合指标及在此基础上建立的线性回归模型的合理性受到质疑; 基于结构风险最小原则的支持向量机具适于小样
本、非线性、泛化推广能力优异等诸多优点, 但可解释性差。本文以 15个水稻品种苗期反复干旱存活率为因变量, 从
24个形态生理指标中经支持向量回归(SVR)非线性筛选得苗高、脯氨酸、丙二醛、叶龄、心叶下倒一叶面积、抗坏
血酸等 6 个综合指标, 以此建立的 SVR 模型拟合精度与留一法预测精度均明显优于参比线性模型; 如考虑指标测量
的简易性, 仅以地上部干重、心叶下倒二叶面积、根冠比、叶龄、叶鲜重、心叶下倒一叶面积等 6个形态指标进行评
估同样可行。为增强 SVR 的解释能力, 基于 F 测验对 SVR 模型建立了非线性回归显著性与单因子重要性显著性的
测验方法。
关键词: 水稻; 苗期; 抗旱性指标; 支持向量机; 非线性筛选
Nonlinear Screening Indexes of Drought Resistance at Rice Seedling Stage
Based on Support Vector Machine
YUAN Zhe-Ming and TAN Xian-Sheng
College of Bio-safety Science and Technology / Hunan Provincial Key Laboratory of Crop Germplasm Innovation and Utilization, Hunan Agricul-
tural University, Changsha 410128, China
Abstract: Screening indexes of drought resistance in crops is a puzzler with a few samples, multi-index and non-linear character-
istics. Rationality of linear regression model and the indexes obtained by linear screening based on empirical risk minimization
are debated. On the contrary, support vector machine based on structural risk minimization has the advantages of non-linear char-
acteristics, fitting for a few samples, avoiding the over-fit, strong generalization ability and high prediction precision, etc. In this
paper, setting the survival percentage under repeated drought condition as the target and support vector regression as the nonlinear
screen tool, six integrated indicators including plant height, proline, malondialdehyde, leaf age, area of the first leaf under the
central leaf and ascorbic acid, were highlighted from 24 morphological and physiological indicators in 15 paddy rice cultivars.
The results showed that support vector regression model with the six integrated indicators had a more distinct improvement in
fitting and prediction precision than the linear reference models. Considering the simplicity of indicators measurement, the sup-
port vector regression model with the only six morphological indicators including shoot dry weight, area of the second leaf under
the central leaf, root shoot ratio, leaf age, leaf fresh weight and area of the first leaf under the central leaf was also feasible. Fur-
thermore, an explanatory system including the significance of regression model and the importance of single indicator was estab-
lished based on support vector regression and F-test.
Keywords: Rice; Seedling stage; Drought resistance index; Support vector machine; Non-linear screening
筛选和利用抗旱性强的水稻品种, 对提高旱作
水稻产量与水分利用效率和加快抗旱高产水稻新品
种的选育进程有重要意义[1]。传统以抗旱系数(干旱
胁迫区产量/对照区产量)评定品种抗旱性的方法费
工费时, 以幼苗反复干旱存活率为指标的方法具有
理论依据充分、实验周期短、容量大、重复性强、
易活体鉴定和环境影响小等诸多优点 [2], 但其鉴定
周期仍嫌长[1]。前人曾测定 15个水稻品种第一次干
旱处理 120 h 后的 10 个形态指标相对值与 14 个生
理指标相对值, 以反复干旱存活率为因变量, 经相
第 7期 袁哲明等: 基于支持向量机非线性筛选水稻苗期抗旱性指标 1177


关分析与主成分分析, 确立了 4 个指标相对值为水
稻苗期抗旱性的综合指标, 期望进一步缩短鉴定周
期[1]。但其采用逐步线性回归筛选自变量建立的多
元线性回归模型存在诸多弊端, 获得的抗旱性综合
指标应用价值存疑。传统建模方法如多元线性回归、
逐步线性回归、偏最小二乘回归的主要缺陷是: (1)
变量间存在多重相关、样本数未充分大于自变量个
数时多元线性回归等应用受限。(2)多元线性回归、
偏最小二乘回归不能减少自变量个数以减轻测试强
度。(3)逐步线性回归基于线性筛选变量结果存疑 ,
特别在变量间存在多重相关时更是如此[3]。人工神
经网络具有很好的非线性逼近能力, 但存在模型结
构难以确定、可解释性差、易于出现过度训练和训
练不足、陷入局部最小等缺陷[4]。上述回归模型均
基于经验风险最小 , 要求样本充分大或无限大 [5];
因此基于经验风险最小的回归模型在小样本前提下
可能并不适用或虽可应用但远非最优。在自变量间
存在多重线性相关且自变量对因变量有非线性影响
时 , 如何从一个小样本(n=15)和多自变量(m=24)数
据集中筛选获得少量自变量以减轻测试强度, 并使
其对因变量变异的解释较大且泛化推广能力较强 ,
一直是研究者所期待解决的难题。
支持向量机(support vector machine, SVM)是机
器学习领域的集大成者 [5], 最初用于语音识别等模
式识别即支持向量分类(support vector classification,
SVC), 现已扩展到回归预测即支持向量回归
(support vector regression, SVR)[6]。SVM基于结构风
险最小, 较好地解决了小样本、非线性、过拟合、
维数灾难和局部极小等问题, 泛化推广能力优异[7-8],
但可解释性差[9-10]。为此, 本文首先基于 SVR 构建
了非线性变量筛选方法; 在此基础上以 15个水稻品
种苗期的 24个形态生理指标为自变量, 以反复干旱
存活率为因变量, 比较了 SVR模型、逐步线性回归
模型及经相关分析与主成分分析获得的多元线性回
归模型[1]等 3 种模型的拟合精度与留一法预测精度;
为增强 SVR的可解释性, 进一步基于 F测验对 SVR
模型建立了回归显著性与单因子重要性显著性的测
验方法。
1 支持向量机简介
1.1 经验风险最小原则与过拟合
分类和回归分析的任务是通过对给定经验数据
集的学习, 推断其函数依赖关系, 从而对未知或无
法测量的数据进行预测和判断。学习的目标在于使
期望风险最小化 , 但由于可利用的信息只有样本 ,
期望风险无法计算, 传统学习方法采用经验风险最
小原则, 即用样本训练误差估计期望风险, 设计学
习算法使它最小化。
用经验风险最小原则代替期望风险最小化并没
有经过充分的理论论证, 实际上, 即使可以假定当 n
趋向于无穷大时, 经验风险趋近于期望风险, 在很
多问题中的样本数目也离无穷大相去甚远。在有限
样本下 , 训练误差小并不总能导致好的预测效果 ,
某些情况下, 训练误差过小反而会导致推广能力的
下降, 即真实风险的增加, 这就是过拟合或过学习
问题[11]。
1.2 VC维与结构风险最小原则
统计学习理论认为, 学习机器的实际风险(期望
风险)由经验风险(训练误差)与置信范围组成。置信
范围与 VC维 h及样本数 n有关。VC维是由 Vapnik
和 Chervonenkis 提出的表示机器学习能力的指标。
对一个指示函数集, 如果存在 h 个样本能够被函数
集中的函数按所有可能的 2h种形式分开, 则称函数
集能够把 h个样本打散; 函数集的VC维就是它能打
散的最大样本数目 h。VC维越大则学习机器越复杂,
但置信范围也随之增大。如果数据服从某个固定但
未知的分布, 要使机器的实际输出与理想输出之间
的偏差尽可能小 , 则应当遵循结构风险最小原则 ,
即同时最小化经验风险和置信范围。SVM正是结构
风险最小原则的体现者[11]。
1.3 小样本与转导推理
很多实际问题的目标仅仅是求出未知函数在目
标点(如测试集)的值, 经典参数统计理论采用归纳
法分两步解决, 第一步(特殊到一般, 归纳), 利用一
定的归纳原则从一个给定的函数集解决一个一般性
问题。第二步(一般到特殊, 演绎), 从一般性问题出
发, 计算目标点的值。当拥有信息量只够解决欲求
问题, 却不足以解决一个一般性问题时, 用一个给
定的函数集来直接估计目标点上的函数值, 形成了
一种新的从特殊到特殊的推理方法——转导推理。
小样本集推理的主要原则是, 如果对欲求解的
某一问题只拥有有限的信息, 那么应该直接求解问
题, 而决不能求解一个更一般的问题来作为一个中
间步骤。因为, 可能所拥有的信息足以直接求解问
题, 但不足以解决一个更一般的中间问题。SVM 正
是小样本转导推理的具体实现者[11]。
1178 作 物 学 报 第 36卷

1.4 SVR基本原理
SVM 起初是用于解决线性可分情况下两类样
本的分类问题(SVC), 其核心思想是找到一个最优
分类超平面, 使两类样本的分类间隔最大化。SVR
与 SVC相似, 但 SVR所求超平面是使所有样本点到
超平面的距离为最小。对于线性回归问题, 问题变
为寻求一个最优超平面, 使得在给定精度 ε 条件下
可以无误差的拟合 y, 即所有样本点到最优超平面
的距离都不大于 ε; 对于非线性回归问题, 可通过核
函数变换将样本映射到一个高维特征空间中用线性
回归来解决。通常, 特征空间具很高甚至无穷维数,
致使空间变换后计算量巨增而面临维数灾难等问
题。幸运的是 SVM中待解对偶问题只包含一个变换
后特征空间内积运算, 而这种运算能在原空间中通
过核函数来实现。根据 Mercer定理可构造系列核函
数, 常见如线性核、多项式核、径向基核和 sigmoid
核等[5]。
2 数据与方法
2.1 数据
15 个杂交水稻组合名称和编号为冈优 527(1)、
新香优 527(2)、D优 363(3)、D优 527(4)、冈优 363(5)、
宜香 9 号(6)、冈优 827(7)、中优 368(8)、内香优 9
号(9)、冈优 188(10)、协优 527(11)、II优 H103(12)、
冈优 202(13)、内香优 18(14)、II优 363(15)。第一次
干旱处理 120 h后的 10个形态指标相对值为 x1叶龄、
x2 苗高、x3 心叶下倒一叶面积、x4 心叶下倒二叶面
积、x5叶鲜重、x6根数、x7根长、x8地上部干重、x9
根干重、x10根冠比, 14个生理指标相对值为 x11过氧
化物酶、x12 超氧化物歧化酶、x13 过氧化氢酶、x14
硝酸还原酶、x15 叶绿素 SPAD 值、x16 氨基酸、x17
抗坏血酸、x18 硝态氮、x19 谷胱甘肽、x20 可溶性蛋
白质、x21丙二醛、x22可溶性糖、x23脯氨酸、x24类
胡萝卜素。各品种反复干旱存活率(y, %)与形态生理
指标相对值数据引自文献[1]。
2.2 支持向量机 LIBSVM 2.8软件包
LIBSVM 2.8软件包简单易用, 含 4个常用程序,
Svmscale 用于对数据规格化 , Svmtrain 用于训练 ,
Svmpredict 用于预测, Gridregression.py 用于自动搜
索惩罚系数 C、核函数参数 g、损失函数参数 p的最
优组合(C∈[−1, 6], g∈[−8, 0], p∈[−8, −1], 步长均为
1)。各程序用法及其参数设置参见文献[12]。
2.3 基于 SVR的非线性变量筛选
径向基核在大多数数据集上都比其他核函数表现
出更优的泛化推广性能[13]。本文通过试算采用径向基
核。假定多输入单输出回归模型有 n 个样本、m 个输
入变量, 基于全部变量以留一法(原始变量 svmscale规
格化)依均方误差(Mean Squared Error, MSE)最小标准
逐次剔除对提高预测精度有不利影响的变量: 对第
一轮筛选, 记 1 2( , , ..., , ..., )MSE i mx x x x 为m个输入变量的均
方误差, 1 2 1 1( , , ..., , , ..., )MSE i i mx x x x x− + 为剔除第 i个输入变
量后的均方误差 ; 如 1 2 1 1( , , ..., , , ..., )min[MSE ]i i mx x x x x− + >
1 2( , , ..., , ..., )MSE i mx x x x , 表明没有变量可剔除 , 汰选结
束; 反之, 剔除第 i个变量后进入下一轮筛选(注意
此时 m 变为 m-1), 直至没有变量可剔除为止[14]。
汰选结束后的保留变量用于后续建模预测。
2.4 基于 SVR的模型回归显著性测验
以往评估 SVR模型优劣时多为比较MSE, 存在
不同数据集间不具可比性、模型是否可用不能给出
定性判断等问题。假定筛选结束后的保留变量个数
为 m′, 为检验 SVR模型是否回归显著, 可采用统计
量 F 进行检验。若 ( , 1)F F m n mα ′ ′> − − , 则表明在α
水平上 SVR模型非线性回归显著。
/
/( 1)
U mF
Q n m
′= ′− −
2
1
ˆ( )
n
i
i
U y y
=
= −∑
2
1
ˆ( )
n
i i
i
Q y y
=
= −∑
1
1 n
i
i
y y
n =
= ∑
其中, U为回归平方和, 它反映由自变量的变化所引
起的 Y的波动; Q为剩余平方和, 为计算误差与其他
原因引起的误差和; ˆiy 为第 i 样本回代 SVR 模型的
拟合值, yi为第 i个样本的实测值[15]。
2.5 基于 SVR的单因子重要性显著性测验
如自变量 xj对因变量 y 有重要影响, 则预测值
yˆ 将随 xj 的变化而明显变化。将自变量 xj 固定为
jx (可视为 xj的零水平)[14], 代入 SVR 模型, 由预测
值可得到回归平方和 Uj、剩余平方和 Qj, 则 U−Uj
代表了描述符 xj对增加回归平方和的贡献。在多元
线性回归模型中, SSy=Q+U, 其中 SSy 为离差平方
和。但在 SVR模型中, SSy≠Q+U。为使各自变量间
重要性具可比性, 注意到 Uj、Qj的大小仅具相对意
义, 可采用 Qj′=Qj/(Qj+Uj)×SSy、Uj′=Uj/(Qj+Uj)×SSy
将 Qj、Uj规格化到 SSy= Qj′+Uj′; 同样, 采用 Q′=Q/
(Q+U)×SSy、U′=Q/(Q+U)×SSy将 Q、U规格化到 SSy=
第 7期 袁哲明等: 基于支持向量机非线性筛选水稻苗期抗旱性指标 1179


Q′+U′。令 Vj=U′−Uj′=Qj−Q′, 则可用统计量 Fj对自变
量 xj 的重要性进行显著性测验 , 其自由度为 (1,
n−m′−1)。
2
1
( )
n
i
i
SSy y y
=
= −∑
/1
/( 1)
j
j
V
F
Q n m
= − −
2.6 参比模型
多元线性回归模型(MLR): 原文作者采用相关
性分析, 基于形态指标筛选得到 x1、x3、x5、x7等 4
个指标, 基于生理指标筛选得 x11、x12、x13、x16、x17、
x19、x20、x21等 8 个指标, 最后对上述 12 个指标经
主成分分析后筛选得 x1、x5、x12、x19等 4 个综合指
标; 并以此分别建模[1]。
逐步线性回归模型(SLR): 采用 SLR 筛选因子,
基于形态指标得 x5、x6、x7、x8、x9、x10等 6个指标;
基于生理指标得 x14、x16、x18、x19、x20、x21、x22、
x23等 8个指标; 基于全部 24个指标得 x7、x8、x17、
x19、x21、x22等 6个综合指标; 并以此分别建模[15]。
2.7 评价指标
各模型拟合精度用均方误差 MSE 及决定系数
R2 表示。评估模型优劣更应注重其泛化推广能力即
独立预测能力, 在小样本时多采用留一法预测, 即
每次拿出一个样本作独立测试, 以剩下的 n–1 个样
本训练建模, 依次获得 n 个样本的预测值, 再计算
其 MSE与 R2值。
2
1
1 ˆMSE ( )
n
i i
i
y y
n =
= −∑
2
12
2 2
1 1
ˆ ˆ( ) ( )
ˆ ˆ( ) ( )
n
i i
i
n n
i i
i i
y y y y
R
y y y y
=
= =
⎡ ⎤− ⋅ −⎢ ⎥⎣ ⎦=
− ⋅ −

∑ ∑

式中, yi 为真值, y为真值的平均值, ˆiy 为拟合值或
预测值, n为样本数。
3 结果与分析
3.1 基于 SVR 的水稻苗期抗旱性指标非线性筛
选与单因子重要性分析
从 10个形态指标出发, 基于 SVR的水稻苗期抗
旱性指标非线性筛选过程见表 1。6个保留形态指标
的单因子重要性均达到极显著水平 , F 值顺序为
Fx8=4783, Fx4=4769, Fx10=3188, Fx1=2696, Fx5=2563,
Fx3=1973。
类似地, 从 14个生理指标出发, 基于 SVR非线
性筛选获得的 7 个保留生理指标的单因子重要性均
达到极显著水平 , 顺序为 Fx22=4476, Fx18=3383,
Fx11=3627, Fx14=2313, Fx19=2292, Fx17=1962,
Fx16=1374。从全部 24个指标出发, 基于 SVR非线性
筛选获得的 7 个保留综合指标的单因子重要性均达
到极显著水平, 顺序为 Fx2=4794, Fx23=3733, Fx21=
2751, Fx1=2637, Fx3=2258, Fx17=1083。
可见, 基于 SVR非线性筛选获得的保留指标与
王贺正等[1]经相关性与主成分分析获得的保留指标
(MLR 模型)、经逐步线性回归线性筛选获得的保留
指标(SLR模型)有较大差异(表 2~表 4)。
3.2 各模型拟合与留一法预测精度比较
由表 2~表 4 可知, 从 R2与 MSE 看, 无论是基
于形态指标、生理指标还是综合指标, 也无论是拟
合还是留一法预测, SVR模型均优于参比模型。MLR
与 SLR模型的留一法预测精度相比拟合精度多有明
显下降, 显示参比模型泛化推广能力较差; 与此相
反, SVR 模型拟合与留一法预测均有较优表现。在
SVR 模型中, 单以形态指标或生理指标均略逊于综
合指标, 表明以 x2、x23、x21、x1、x3、x17等 6个综合
指标评估水稻苗期抗旱性最为适宜; 但若考虑指标
测量难易程度, 仅以 x8、x4、x10、x1、x5、x3等 6 个
形态指标进行评估同样可行。

表 1 基于形态指标的非线性变量筛选及其 MSE值
Table 1 Screening variables and their MSE based on morphological indicators
轮次
Round
汰选前MSE
MSE before
screening
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
淘汰变量
Variables
screened
1 96.26 93.90 61.29 177.43 83.68 113.79 76.13 90.23 81.51 100.65 161.92 x2
2 61.29 73.84 — 175.12 63.89 85.03 52.49 69.61 63.00 65.03 148.83 x6
3 52.49 53.47 — 129.23 50.83 64.45 — 34.48 45.15 48.57 102.34 x7
4 34.48 116.95 — 158.00 56.29 59.46 — — 46.24 12.93 89.69 x9
5 12.93 101.59 — 119.46 30.80 41.15 — — 26.08 — 53.77 —

1180 作 物 学 报 第 36卷

表 2 各模型基于形态指标的拟合值与留一法预测值
Table 2 Fitting and prediction values of different models based on morphological indicators
SVR model
(x8, x4, x10, x1, x5, x3)
MLR model
(x1, x3, x5, x7)
SLR model
(x5, x6, x7, x8, x9, x10) 品种编号
Cultivar
code
反复干旱存活率
Survival percentage under
repeated drought condition
(%, y)
拟合
Fitting
留一法
Leave-one-out
拟合
Fitting
留一法
Leave-one-out
拟合
Fitting
留一法
Leave-one-out
1 86.81 86.81 89.22 96.71 108.22 84.68 83.84
2 71.98 71.98 69.72 73.25 73.86 78.63 81.88
3 72.04 72.04 74.74 67.02 66.64 68.81 63.17
4 76.91 76.91 73.80 71.55 70.56 75.35 69.27
5 64.89 64.89 62.08 55.08 51.26 71.29 75.05
6 66.76 66.76 63.99 71.70 73.08 67.37 67.84
7 53.81 53.81 61.31 64.97 71.73 60.80 64.94
8 35.64 35.64 32.66 40.45 42.28 36.91 37.50
9 59.84 59.84 62.98 59.53 59.15 54.06 53.17
10 38.91 38.91 44.47 41.57 43.47 39.66 40.61
11 50.91 50.91 53.51 56.80 63.09 52.58 58.33
12 86.24 86.24 83.20 78.23 73.57 81.43 76.72
13 72.78 72.78 68.74 64.92 60.99 65.01 57.46
14 47.10 47.10 50.32 49.18 50.34 45.84 44.83
15 78.28 78.28 80.99 71.93 70.19 80.49 83.27
决定系数 R2 1.0000 0.9470 0.8243 0.5958 0.9225 0.7483
均方误差 MSE 0.00 13.29 42.29 111.15 18.67 62.21


表 3 各模型基于生理指标的拟合值与留一法预测值
Table 3 Fitting and prediction values of different models based on physiological indicators
SVR model
(x22, x18, x11, x14, x19, x17, x16)
MLR model
(x11, x12, x13, x16, x17, x19, x20, x21)
SLR model
(x14, x16, x18, x19, x20, x21, x22, x23) 品种编号
Cultivar
code
反复干旱存活率
Survival percentage
under repeated drought
condition (%, y)
拟合
Fitting
留一法
Leave-one-out
拟合
Fitting
留一法
Leave-one-out
拟合
Fitting
留一法
Leave-one-out
1 86.81 86.87 88.12 87.37 91.52 89.39 99.19
2 71.98 72.04 79.10 76.21 89.15 71.54 71.43
3 72.04 71.98 71.08 75.78 86.61 71.22 70.54
4 76.91 76.85 76.62 76.57 75.45 78.52 79.47
5 64.89 64.95 65.85 70.04 76.16 64.54 63.54
6 66.76 66.82 57.61 62.18 59.80 66.19 59.32
7 53.81 53.87 54.78 61.94 64.68 53.80 53.79
8 35.64 36.25 38.75 33.93 26.56 33.73 19.92
9 59.84 59.78 57.52 57.61 38.53 60.26 63.12
10 38.91 38.85 36.12 42.04 55.77 40.31 44.50
11 50.91 50.85 44.67 48.19 46.31 55.26 58.23
12 86.24 78.98 78.59 77.26 72.91 82.04 79.56
13 72.78 72.84 75.25 71.75 71.30 70.52 70.01
14 47.10 47.04 45.51 47.25 47.83 46.37 40.42
15 78.28 78.34 78.83 74.78 72.75 79.20 84.12
决定系数 R2 0.9873 0.9343 0.9266 0.6347 0.9835 0.8825
均方误差 MSE 3.54 17.88 17.67 125.22 3.97 46.22
第 7期 袁哲明等: 基于支持向量机非线性筛选水稻苗期抗旱性指标 1181


表 4 各模型基于综合指标的拟合值与留一法预测值
Table 4 Fitting and prediction values of different models based on integrated indicators
SVR model
(x2, x23, x21, x1, x3, x17)
MLR model
(x1, x5, x12, x19)
SLR model
(x7, x8, x17, x19, x21, x22) 品种编号
Cultivar code
反复干旱存活率
Survival percentage under
repeated drought condition
(%, y)
拟合
Fitting
留一法
Leave-one-out
拟合
Fitting
留一法
Leave-one-out
拟合
Fitting
留一法
Leave-one-out
1 86.81 86.69 82.35 94.98 102.02 89.98 92.97
2 71.98 72.10 77.95 80.37 89.69 77.83 81.19
3 72.04 71.91 71.50 70.50 70.35 68.82 67.75
4 76.91 76.79 76.12 72.10 71.29 75.79 75.53
5 64.89 64.77 62.76 69.36 71.43 67.88 73.53
6 66.76 66.63 64.11 67.74 68.39 63.41 62.30
7 53.81 53.86 53.86 61.02 68.74 50.40 47.78
8 35.64 35.52 40.15 43.47 45.94 35.29 33.77
9 59.84 59.72 55.97 58.78 57.09 59.59 58.99
10 38.91 39.03 41.10 40.79 42.30 42.70 44.26
11 50.91 51.04 53.11 49.86 49.48 51.33 52.02
12 86.24 86.11 85.08 73.25 71.31 83.02 81.31
13 72.78 72.66 69.30 66.38 64.22 71.28 70.13
14 47.10 47.22 49.57 46.40 45.74 48.90 54.48
15 78.28 78.40 79.60 67.89 66.65 76.69 75.61
决定系数 R2 1.0000 0.9672 0.8280 0.6592 0.9666 0.8942
均方误差 MSE 0.01 8.95 41.39 93.89 8.05 26.74


4 讨论
作物抗旱性是受多基因控制的复杂性状, 因此
从形态、生理、生化等众多指标中筛选能反映作物
抗旱性的几个综合指标(相对值)来鉴定作物的抗旱
性是必要的。然而, 由于作物抗旱性研究中样本往
往较小、指标众多、各指标间存在多重共线性关系、
各指标与抗旱性间可能存在复杂的非线性关系等原
因 , 如何从所有自变量集合中筛选获得一个最优
子集, 使其对因变量变异的解释较大且泛化推广能
力较强, 仍是一个挑战性难题。文献[1]基于经验风
险最小原则经简单线性相关、主成分分析与线性筛
选获得含 x1叶龄、x5叶鲜重、x12超氧化物歧化酶、
x19谷胱甘肽等 4个指标的自变量子集, 认为各指标
相对独立有助于建立较优模型。事实上, 这一尝试
在理论上并无确凿的证据, 因为某一指标与其他多
个指标相关, 也可以认为该指标更有代表性从而更
应该入选最优子集; 在实践上, 以基于综合指标的
拟合为例(表4), 文献[1]经主成分分析与线性筛选获
得的 MLR 模型(R2=0.8280)甚至劣于简单的 SLR 模
型(R2=0.9666)就是明显的例证。基于经验风险最小
的线性 MLR 模型与 SLR 模型的共同缺点是往往模
型拟合精度尚可, 但泛化推广能力有限(例如以留一
法预测时)。本文中, 基于综合指标, MLR 模型与
SLR模型拟合的决定系数分别为 0.8280、0.9666; 但
当采用留一法预测时 , 其决定系数迅速下降到
0.6592、0.8942 (表 4)。然而, 评估模型(包括筛选后
的所谓最优指标子集)优劣恰恰更注重的是其独立
预测能力。
与此相反, SVM 基于结构风险最小, 较好地解
决了小样本、非线性、过拟合、维数灾难和局部极
小等问题, 泛化推广能力优异。本文中, 基于综合指
标, SVR模型留一法预测决定系数(0.9672)仅比拟合
决定系数(1.0000)稍差, 甚至优于 MLR 模型与 SLR
模型拟合决定系数, 充分显示了其优异的泛化推广
能力(表 4)。SVM在理论上具有坚实的基础, 在实践
上已在语音识别、图像识别、时间序列预测、生物
信息学等多个模式识别与预测领域得到广泛应用 ,
作物科学研究工作者有必要掌握这一利器。诚然 ,
SVM 也有自身缺陷, 其主要缺点是可解释性差。本
文基于 F测验, 建立了 SVR模型非线性回归性能的
显著性测验方法与单因子重要性的显著性测验方法,
增强了 SVR的可解释性。
1182 作 物 学 报 第 36卷

5 结论
以幼苗反复干旱存活率为标准, 从全部 24个指
标中经 SVR 非线性筛选得 x2苗高、x23脯氨酸、x21
丙二醛、x1叶龄、x3心叶下倒一叶面积、x17抗坏血
酸等 6 个综合指标, 以此评估水稻苗期抗旱性较为
适宜。如考虑指标测量的简易性, 仅以 x8地上部干
重、x4 心叶下倒二叶面积、x10 根冠比、x1 叶龄、x5
叶鲜重、x3心叶下倒一叶面积等 6 个形态指标进行
评估同样可行。
References
[1] Wang H-Z(王贺正), Li Y(李艳), Ma J(马均), Zhang R-P(张荣
萍), Li X-Y(李旭毅), Wang R-Q(汪仁全). Screening indexes of
drought resistance during seedling stage in rice. Acta Agron Sin
(作物学报), 2007, 33(9): 1523–1529 (in Chinese with English
abstract)
[2] Hu R-H(胡荣海), Chang X-P(昌小平), Wang H(王环). The
physiological base and utilization of repeated drought method.
Acta Agric Boreali-Sin (华北农学报), 1996, 11(3): 51–56 (in
Chinese with English abstract)
[3] Wang H-W(王惠文), Wu Z-B(吴载斌), Meng J(孟洁). Partial
Least-Squares Regression Linear and Nonlinear Methods (偏最
小二乘回归的线性与非线性方法). Beijing: National Defense
Industry Press, 2006. pp 34–54 (in Chinese)
[4] Chakraborty K, Mehrotra K, Mohan C K, Ranka S. Forecasting
the behavior of multivariate time series using neural networks.
Neural Networks, 1992, 5: 961−970
[5] Vapnik V N. The Nature of Statistical Learning Theory. New
York: Springer-Verlag Press, 1995. pp 5–78
[6] Liang Y C, Sun Y F. An improved method of support vector ma-
chine and its applications to financial time series forecasting.
Prog Nat Sci, 2003, 13: 696−700
[7] Tan X-S(谭显胜), Yuan Z-M(袁哲明), Zhou T-J(周铁军), Wang
C-J(王春娟), Xiong J-Y(熊洁仪). Multi-KNN-SVR combinato-
rial forecast and its application to QSAR of fluorine-containing
compounds. Chem J Chin Univ (高等学校化学学报), 2008,
29(1): 95–99 (in Chinese with English abstract)
[8] Ma G L, Cheng Y Y. Predicting caco-2 permeability using sup-
port vector machine and chemistry development kit. Journal of
Pharmacy & Pharmaceutical Sciences, 2006, 9: 210–221
[9] Huang Z, Chen H, Hsu C J, Chen W H, Wu S S. Credit rating
analysis with support vector machines and neural networks: a
market comparative study. Decision Support Systems, 2004, 37:
543–558
[10] Anderson D C, Li W, Payan D G, Noble W S. A new algorithm
for the evaluation of shotgun peptide sequencing in proteomics:
support vector machine classification of peptide MS/MS spectra
and SEQUEST scores. J Proteome Res, 2003, 2: 137–146
[11] Deng N-Y(邓乃扬), Tian Y-J(田英杰). New Method in Data
Mining–Support Vector Machine (数据挖掘中的新方法——支
持向量机). Beijing: Science Press, 2004. pp 152–154 (in Chi-
nese)
[12] Chang C C, Lin C J. LIBSVM: a library for support vector ma-
chines. Taibei, Taiwan: National Taiwan University, 2001
[2009-02-27]. http://www. csie.ntu.edu.tw/~cjlin/libsvm
[13] Chen Y(陈渊), Yuan Z-M(袁哲明), Zhou W(周玮), Xiong
X-Y(熊兴耀). A novel QSAR model based on geostatistics and
support vector regression. Acta Phys-Chim Sin (物理化学学报),
2009, 25(8): 1587–1592 (in Chinese with English abstract)
[14] Yuan Z-M(袁哲明), Zhang Y-S(张永生), Xiong J-Y(熊洁仪).
Multidimensional time series analysis based on support vector
machine regression and its application in agriculture. Sci Agric
Sin (中国农业科学), 2008, 41(8): 2485–2494 (in Chinese with
English abstract)
[15] Tang Q-Y(唐启义), Feng M-G(冯明光). DPS Data Processing
System—Experimental Design, Statistical Analysis and Data
Mining (DPS数据处理系统——实验设计、统计分析及数据挖
掘). Beijing: Science Press, 2007. pp 628–629 (in Chinese)