免费文献传递   相关文献

A New Algorithm for Conformity and Its Application

一种新的符合度算法及其应用


在总结分析了几种常用综合评价方法的基础上, 提出了一种反映观察值与理论值之间相似性的新算法——符合度。该算法就评价信息个体(观察值)与标准值(期望值)的马氏距离, 再由马氏距离转化为评价对象与标准的接近程度, 即符合度(r)。首先进行指标数(p)、相似度(r)与马氏距离(d)的模拟试验, 再通过曲面拟合的方法找出它们之间的关系模型。通过大量抽样试验, 验证符合度的次数分布与原先设定的符合度的良好对应关系, 说明模型的可行性与可靠性。小麦RVA性状指标, 利用该算法分析扬麦系统若干品种之间的接近程度, 并评价多变数复杂效应回归分析模拟试验的结果。符合度算法不需要数据标准化处理, 直接利用原始数据, 减少了计算工作量, 降低了因数据标准化处理方法不同而引起的评价结果差异, 同时由于不需要赋权, 排除了主观性的影响, 保证了信息的完整性以及评价结果的可靠性。

This article


全 文 :作物学报 ACTA AGRONOMICA SINICA 2016, 42(1): 141148 http://zwxb.chinacrops.org/
ISSN 0496-3490; CODEN TSHPA9 E-mail: xbzw@chinajournal.net.cn

本研究由国家农业信息化工程技术研究中心开放课题“小麦育种材料评价研究”项目资助。
This study was supported by open project of the National Agricultural Information Engineering Center.
* 通讯作者(Corresponding author): 顾世梁, E-mail: slgu@yzu.edu.cn, Tel: 0514-87979358
第一作者联系方式: E-mail: zhanghui881007@126.com, Tel: 18606517137
Received(收稿日期): 2015-02-05; Accepted(接受日期): 2015-09-06; Published online(网络出版日期): 2015-10-13.
URL: http://www.cnki.net/kcms/detail/11.1809.S.20151013.1508.004.html
DOI: 10.3724/SP.J.1006.2016.00141
一种新的符合度算法及其应用
张 慧 1,2 顾世梁 1,* 李 韬 1
1扬州大学农学院, 江苏扬州 225009; 2桐庐县农业技术推广中心, 浙江杭州 311500
摘 要: 在总结分析了几种常用综合评价方法的基础上, 提出了一种反映观察值与理论值之间相似性的新算法——
符合度。该算法就评价信息个体(观察值)与标准值(期望值)的马氏距离, 再由马氏距离转化为评价对象与标准的接近
程度, 即符合度(r)。首先进行指标数(p)、相似度(r)与马氏距离(d)的模拟试验, 再通过曲面拟合的方法找出它们之间
的关系模型。通过大量抽样试验, 验证符合度的次数分布与原先设定的符合度的良好对应关系, 说明模型的可行性与
可靠性。以小麦 RVA 性状为指标, 利用该算法分析扬麦系统若干品种之间的接近程度, 并评价多变数复杂效应回归
分析模拟试验的结果。符合度算法不需要数据标准化处理, 直接利用原始数据, 减少了计算工作量, 降低了因数据标
准化处理方法不同而引起的评价结果差异, 同时由于不需要赋权, 排除了主观性的影响, 保证了信息的完整性以及
评价结果的可靠性。
关键词: 符合度; 综合评价; 计算机模拟; 马氏距离
A New Algorithm for Conformity and Its Application
ZHANG Hui 1,2, GU Shi-Liang 1,*, and LI Tao 1
1Agricultural College of Yangzhou University, Yangzhou 225009, China; 2Agricultural Extension Station of Tonglu County, Hangzhou 311500, China
Abstract: This article proposed a new algorithm of conformity using original data to calculate similarities between the target ob-
ject and the expected value based on the Mahalanobis distance, providing an objective and reasonable analysis. Firstly, simulation
experiments were conducted to obtain Mahalanobis distance (d) related to number (p) of different variables (traits) and similarity
(r). Then, a surface fitting method was used to establish the function relationship between conformity (r) and index number (p), as
well as Mahalanobis distance (d). Monte Carlo experiment for frequency distribution of conformity verified its good performance
of the relationship model. The simulation results fully validated the feasibility and reliability of the model. Conformity algorithm
was applied to calculate the similarity of a panel of Yangmai wheat varieties released in recent years referring to RVA parameters.
The assessment of simulated multivariate regression for complex effects was also conducted. This study showed that conformity
algorithm using raw data directly instead of standardized data reduces the work load and decreases inconsistency in similarity
assessment with different data processing methods. In addition, conformity algorithm does not need weight assignment to each
trait, thus can eliminate potential subjective impacts on traits or data and guarantee integrity of information and reliability of
evaluation results.
Keywords: Conformity algorithm; Comprehensive evaluation; Computer simulation; Mahalanobis distance
在农学和生物学领域中 , 常会遇到对研究对象的个
体或群体进行评价的问题。所谓评价就是参照一定的标准,
评判与比较研究对象的价值或优劣的一种认知和决策过
程[1], 如育种过程中对目标品种(系)与参照品种优劣程度
的评价、农作物产品品质分级标准的归属或模拟试验中统
计数与参数(期望值、标准值)接近程度的评价。依据个体
(或群体 )的多个性状 (指标 ), 以有利于从整体的角度客
观、合理、公正地全面评价。所谓多指标综合评价方法, 就
是把不同方面的多个指标的信息汇集成一个综合指标 ,
来反映被评价对象的整体情况。这包括灰色关联度法、
TOPSIS法、主成分分析法等[2-6]。多指标综合评价方法一
般包括评价指标选择、构建指标体系、选择综合评价模型、
142 作 物 学 报 第 42卷


数据标准化处理、确定指标权重等过程, 从而综合分析得
出结论[7-8]。目前可以用作综合评价方法考虑问题的侧重
点不尽相同, 在实际应用中仍然存在各种缺陷和不足。其
中, 数据标准化处理虽然能够解决不同指标(性状)因量纲
和变异度的差异对评价具不同作用的问题 , 但也会较大
程度削弱不同指标所包含信息量的差异 , 降低综合评价
的可靠性[9-12]。另外, 在评价过程中, 由于评价体系的各
个评价指标的重要程度不同, 大多数采用赋权的方式来体
现。权重的确定主要应用主观赋权法和客观赋权法[13-14]。前
者多根据专家经验; 后者则根据性状之间的相关关系或
各性状的变异度(的倒数)或遗传力等, 而不同的权重系数,
往往会导致很不相同甚至相反的评价结论 , 这样就大大
降低了评价的可靠性[15-20]。
随着人们对研究的不断深化 , 所面临的评价对象日
趋复杂, 人们对综合评价精准度的要求相应提高。符合度
(conformity), 又称吻合度、接近度, 是指多变数观察样本
与真值(理论值、期望值、经验值、标准值)之间或两个或
多个多变数样本之间接近程度的量化指标。本文通过模拟
试验, 产生不同类型的多变数样本与期望值(标准值)之间
符合度量化关系的数据资料 , 利用曲面拟合获得模拟试
验的样本数据与符合度的关系模型。在此基础上, 通过进
一步抽取一定条件下的大量样本 , 计算符合度的次数分
布。通过符合度分布的平均数、标准差等特征数值验证符
合度计算过程的可行性和可靠性。这种新型的符合度关系
能准确地衡量多变数样本与某些标准值之间的接近程度,
也可用于评价模拟试验中统计估计值与设定参数之间接
近程度, 从而可以量化评价不同统计分析方法的优劣。符
合度指标衡量多变数样本个体之间的相似性 , 还可用于
相互比较评价或聚类分析等。
1 材料与方法
1.1 抽样试验
若有多指标(多变数)样本 X, 欲求算其中某一个体 xi
与某一标准值 e之间的符合度(接近度、吻合度、恢复度)
r。设 X为具有 p个指标(变数)和 n个观察值(个体)的矩阵,
标准值 e是具有 p个指标的向量。
11 12 1
221 22
1 2
n
n
p p pn
x a a
ax a
x x x
        
X


   

,
1
2
( )
j
j
j j
pj
x
x
x
x
         

X ,
1
21
p
x
x
x
n
x
          
1 X ,
1
2
p
e
e
e
        
e
这里 1为 n×1全是 1的列向量, X的各行与 e的各行
为对应指标。xj=X(j)为 X 矩阵的第 j 列, 可视为该多变数
样本的第 j个个体。欲求样本中的个体 x与 e的接近程度
r(x, e), 应尽量排除 p 个指标(变数)的量纲和变异度的影
响, 同时也应考虑变数间相关性对符合度的作用, 寻找计
算 x 与 e 的合适距离, 并由距离转化为符合度关系, 对这
一过程需进行模拟和抽样试验。
假设一个标准值为 e’ =(e1, e2,…, eP)。若 X是一组正
态或均匀分布的随机数, 可理解为随机向量 x与 e之间的
相似性亦即符合度近乎为 0。若 x 与 e 完全一样, 则它们
之间的符合度即为 1; 而 x 与 e 有一定程度的关联, 其符
合度应是介于 0和 1之间的某个数值。当有 50%的关联时,
符合度应为 0.5左右。关联程度越小, 符合度越趋近于 0,
关联程度越大, 符合度越趋于 1。根据这一思路, 构建基
于随机数 x与 e的中间变数 y。
y = (1–λ)x+λe (1)
其中 λ 即为取值 0 到 1 间的符合度值。取公差为 0.01 的
等差数列, 产生随机变数 x 并由式(1)得到相应的中间变
数 y。即当 λ 为 0.1时, x 与 y 存在 0.1的相似性, 当 λ为
0.5时, x与 y存在 0.5的符合度, 以此类推, 从而通过中间
变数 y进而研究合适的距离和符合度的关系。
1.2 距离选择
本研究中符合度的计算是由 y和 e之间的距离转化而
来, 所以距离函数的选择对符合度函数的确定比较重要。
常用的距离有欧氏距离、马氏距离、切氏距离和闵氏距离
等。其中欧氏距离应用最为广泛, 但是它有明显的缺点,
主要是受量纲与变异度的影响过大 , 即变异度大的指标
(变数)在距离计算中所占的分量比变异度小的指标(变数)
大。若变数的变异度与距离计算的重要性不成比例, 则这
样的距离就不能很好地反映它们的客观真实性。当对原数
据进行标准化后, 则各指标对距离计算的分量完全相同,
这在很多时候也并不恰当, 因为在很多综合评价过程中,
并非所有指标对评价主体的重要性完全一致 , 所得距离
有时(或多数情况下)不能满足实际要求。欧氏距离的另一
个缺陷是未能考虑多个变数间相关性对距离计算的作用,
而相关程度越大, 欧氏距离与客观真实距离的偏差越大。
最初我们也曾试验以欧式距离计算符合度的过程 , 但在
重抽样过程中(2.3节)出现明显偏差, 因而被否定。
马氏距离不受量纲和变异度的影响 , 两点之间的马
氏距离与原始数据的测量单位无关; 由标准化数据和中
心化数据(即原始数据与均值之差)算出的两点间的马氏
距离相同。更重要的是马氏距离还考虑了变数间相关性的
作用, 所算距离更能体现个体间的远近关系。马氏(平方)
距离公式如下:
2 1 1( ) ( ), ( ) ( )ij i j i j ij i j i jd x x x x d x x x x
       S S

(2)
其中, xi和 xj分别为第 i和 j个个体的 p个变数(指标)
所组成的向量, S为样本方差协方差矩阵。
1
1 1 1( )( ) (I )
1 1
n
j j
j
x x x x
n n n
      S X J X (3)
第 1期 张 慧等: 一种新的符合度算法及其应用 143


其中, I 和 J 分别为 n 阶单位阵和全 1 阵。该 S 为 p
阶方阵, 对角线元素为各变数的方差, 非对角线元素为对
应变数的协方差。它们包含了 X 变数在 p 维空间散布的
信息, 因此又称为信息阵。而在本研究中, y与 e之间的马
氏平方距离(下文简记为马氏距离)如下:
1( ) ( )yed y e y e
  S (4)
在不同相似度(符合度)条件下随机抽样得到 x并计算
y 与 e 之间的马氏距离, 距离随符合度有明显的负向趋势
但波动较大。随着抽样次数的增加, 平均距离随符合度的
变化趋势明显, 波动变小。试验表明, 30次抽样的平均距
离与符合度的关系趋于稳定。可用于拟合反映两者关系的
方程式。
1.3 指标数设定
在大量随机的试验中发现, 试验数据 X的量纲、变异
度对计算马氏距离没有影响, 但指标数量(p)对马氏距离
的尺度有较大影响。因而除了上述符合度与距离的抽样试
验外 , 我们还进行了指标数在距离计算过程中影响的抽
样试验。考虑到大部分样本评价问题在 5~25个指标之间,
模拟试验的指标数在 3~30之间, 本研究的指标数为 3、5、
10、15、20、25和 30 共 7个水平, 了解指标数在距离和
符合度之间关系的作用。从而根据抽样结果确定符合度依
指标数和马氏距离的函数关系。
1.4 Monte Carlo模拟研究
符合度依指标数和马氏距离的函数关系能否成立 ,
还应在一定条件下重新抽样 , 再根据函数关系式计算符
合度数值, 大量抽样获取符合度的次数分布, 用于检验上
述计算距离及符合度的过程是否符合实际。在指定符合度
条件下随机抽取5000个样本 , 代入函数关系方程算得符
合度次数分布图。如果方程合适, 那么在给定符合度 r的
情况下, 将指标数、距离代入模型中计算所得 r应该与设
定结果一致, 从而证实符合度计算过程可行性。
1.5 扬麦系统小麦品种间 RVA值的相似度比较
选取2011年扬州大学农学院大田正季播种的扬麦系
统小麦品种11个, 测定其面粉淀粉糊化特性, 参数有峰值
黏度、糊化时间、低谷黏度、最终黏度和糊化温度(剔除2
个次级性状回复值和崩解值 , 消除方差协方差阵的奇异
性, 马氏距离得以计算), 每品种3个重复。比较扬麦系统
的11个品种之间的相似程度并利用其符合度进行聚类分
析。
1.6 统计数与模拟设定的符合度比较
在许多模拟试验中, 要评价模拟结果的优劣, 直观比
较不能客观反映真实情况。对一个多变数复杂效应回归分
析模拟试验中效应的回归估值与期望值之间的接近程度以
量化的形式表示出来, 可用于客观准确的评价模拟试验。
2 结果与分析
2.1 符合度与马氏距离的关系
根据设定的随机变量、中间变量和符合度的关系, 采
用随机抽样的方式计算符合度与马氏距离的关系 , 单次
抽样(每一符合度条件下只抽一个随机向量)所得距离与
符合度有明显的负向趋势但波动较大。随着抽样次数的增
加, 波动变小。在符合度很低时, 距离较大, 随着符合度
的增加, 距离变小, 当两者非常接近时, 距离趋于 0。距离
随符合度的增加而单调降低, 其散点图成线性排列, 但并
非简单的直线, 在符合度的高端, 曲率明显。模拟试验中
发现, x 和/或 e 的数值乘以一定的倍数, 这种关系并无改
变 , 即符合度与马氏距离的关系不随量纲与变异度变化
而改变, 适合各种类型多变数样本的评价。
显然 , 马氏距离可很好地描述个体与标准值之间的
符合程度。但由于马氏距离会大于 1或远大于 1。而我们
更希望得到的符合度数值介于 0~1 之间, 0代表没有相似
性, 1 代表完全符合。随着距离的增大, 符合度越来越小,
误差亦有所增加(图 1, 前述散点图 X、Y 轴互换)。在实
际使用中 , 我们不能事先得到符合度 , 必须先计算样本
(平均数)与目标值之间的距离, 再确定符合度与距离的数
量关系。

图 1 符合度依马氏距离关系图
Fig. 1 Relationship between Mahalanobis distance and
similarity

2.2 符合度函数
由于指标数也在很大程度上影响距离与符合度的关
系, 利用曲面拟合方式, 寻找指标数 p, 马氏距离 d 与符
合度 r的函数关系式, 根据数据点在三维空间中的分布情
况和各类变数方程的特点, 经大量模型选择和比较分析,
确定如下模型:
5 7 9 10
1 2 3 4 6 8
1( , )
1     

 b b b bb b p b pd b p b d b p d
r p d
e
(5)
本研究选择 C-E算法进行曲线、曲面拟合[21-22], 该算
法无需提供导数与偏导数, 无需提供特定初值, 实现最优
拟合的能力较强。拟合结果如图2, 各参数值及显著性 t
测验值见表2。
2.3 Monte Carlo模拟研究
随机抽取 5000个样本 X(p=20), 按 y=(1–λ)x+λe计算
马氏距离 d以及由 d和 p通过式(5)计算获得 5000个符合
度 r, 绘成次数分布图。若符合度计算方程合适, 那么在
144 作 物 学 报 第 42卷


表 1 模型拟合统计数及测验
Table 1 Simulated conformity function and its statistics
参数序号
No.
bi
statistics
ti
t-value
参数序号
No.
bi
statistics
ti
t-value
1 –7.2593 –9.14 6 10.0670 12.88
2 0.0455 3.23 7 0.0922 12.09
3 –0.00189 –11.24 8 97.2280 12.27
4 –1.6640 –4.11 9 –3.6622 –51.33
5 0.3606 5.23 10 3.2996 53.95
RSS=0.1186, MSE=0.00016, R2=0.9982, significant when |t|>2.


图 2 模型拟合曲面图
Fig. 2 Surface fitting for conformity with variables and
distance

表 2 Monte Carlo抽样试验符合度分布的平均值(r)、方差(s2)
和标准差(s)
Table 2 Means (s), variance (s2), and standard deviation (s) of
conformity distribution in Monte Carlo experiment
设定 Defined r s2 s
0.05 0.0806 0.00579 0.0761
0.25 0.2483 0.00773 0.0879
0.45 0.0450 0.00873 0.0934
0.50 0.0502 0.00721 0.0849
0.55 0.5514 0.00733 0.0856
0.75 0.7714 0.00521 0.0722
0.95 0.9268 0.00050 0.0224

给定符合度(λ)情况下, 将指标数值、检测值代入模型中计
算所得 r 应该与设定结果一致, 且在中等程度符合度时,
其符合度的抽样分布接近于平均数为 0.5的正态分布。如
表 2 和图 3 所示, 当设定 λ=0.5 时, 其 r 分布平均数为
0.502, 标准差为 0.0849, 分布接近正态, 准确度高, 误差
小。除了很小符合度(λ=0.05)时略有偏差外, r的分布与设
定情况充分符合, 证明该方法的可行性。
由图 4和图 5可见, 各符合度分布均以设定值为中心,
但随着设定符合度偏离 0.5, 它们的分布呈现左偏或右
偏。符合度较高, 甚至接近于 1 时, 分布相对集中, 误差
较小; 在符合度接近于 0 时, 由于抽样数据的随机性, 符
合度形成明显的偏态分布 , 说明对于评价对象与目标之
间符合度较低的情形, 符合度的估计具有一定的偏差。

图 3 与标准 e的符合度为 0.5的检验图
Fig. 3 Histogram of conformity under similarity of 0.5 e

图 4 与标准 e的符合度为 0.45 (左)、0.55 (右)的次数分布图
Fig. 4 Histogram of conformity under similarity conditions 0.45 (left) and 0.55 (right)
第 1期 张 慧等: 一种新的符合度算法及其应用 145



图 5 与标准 e的符合度的次数分布图
Fig. 5 Distribution of conformity with under similarity conditions 0.05 (left) and 0.95 (right)

检验证明 , 按一定符合度给出的随机数据计算所得
的符合度的分布结果与期望的结果相吻合 , 该符合度关
系式能够准确地反映实际符合度关系。
3 符合度算法的应用实例
3.1 扬麦系统中各品种 RVA值的相似度比较
最合理的计算马氏距离的方差协方差阵应为误差方
差协方差阵 Se, 但误差偏小, 只能用总方差协方差阵 S。
首先利用全部的原始数据计算出该样本的方差协方差阵,
用于计算马氏距离 d。
272602.9 261356.6 354925.9 133.5 932.1
261356.6 278222.0 370162.7 153.3 970.4
= 354925.9 370162.7 502551.4 200.0 1348.5
133.5 15.3 200.0 0.1 0.5
932.1 970.4 1348.5 0.5 41.8
        
S
将选取的扬麦系统 11个品种的 RVA值分别代入马氏
距离计算公式, 得到品种之间的马氏距离 d (表 3), 由式(5)
计算符合度, 得出 RVA值之间的相似程度(表 4)。
以 RVA特征值计算扬麦系统 11个材料间的相似性可
以较好地反映这些材料间的 RVA 特征之差异。如扬麦 5
与扬麦16的 RVA 特征值最为接近, 扬麦10号与扬麦14的
RVA 特征值也很接近, 其相对接近的还有扬麦9号与扬麦
158。以符合度作为相似度值系统聚类(图6)。相似系数在
0~1之间, 可较好地避免其他类型的相似系数出现负数的
情况, 更好地体现个体间的相似性。同时也可避免用距离
等不相似系数出现大于或远大于1的数值, 对个体间不相
似程度的描述有一定程度的扭曲。
3.2 符合度在回归模拟试验中的应用
图 7显示一个复杂系统新型回归分析方法, 即重复筛
选回归(ISR)模拟。图中前后对角线左侧为设定的效应真
值, 右侧对应位置为 100次模拟试验回归估计的平均值。
方柱位置代表效应项(对角线位置为主效、非对角线位置
为互作项)对应的标记项, 方柱的高度为效应值(以方柱顶
上的数值表示)。可以看出, 这些效应项的回归估计值非
常接近真值。
效应项的回归估值与真值的接近程度或称效应的恢
复度如何衡量, 客观的判断离不开数量化指标的协助。本
试验设定的效应真值 e以及 100次筛选逐步回归的模型试
验的回归估值平均数 x 见表 5, 建立了方差-协方差阵 S
(未列出)。计算得出 d=0.2510, r=0.9089, 该数值较高, 说明
重复筛选回归分析的效应估计能够较好地符合设定真值。

表 3 扬麦系统(YM)各品种 RVA值之间的马氏距离 d
Table 3 Distance between the varieties based on their RVA characters
品种 Variety YM5 YM6 YM9 YM10 YM11 YM13 YM14 YM15 YM16 YM17
YM6 7.42
YM9 7.08 11.54
YM10 4.03 1.81 8.48
YM11 5.26 5.57 4.34 4.36
YM13 4.97 7.08 11.95 4.72 15.99
YM14 1.97 2.09 7.02 0.93 3.02 5.13
YM15 2.22 8.67 4.25 2.59 2.02 9.21 3.00
YM16 0.58 4.53 9.11 0.75 5.52 3.21 2.26 3.62
YM17 6.58 21.84 6.11 8.63 11.64 13.15 12.17 4.23 8.96
YM158 9.10 13.88 1.89 8.58 8.17 8.05 9.11 6.34 10.26 6.00

146 作 物 学 报 第 42卷


表 4 扬麦系统(YM)各品种间 RVA的相似度(符合度)
Table 4 Conformities among RVA parameters of YM varieties
品种 Variety YM5 YM6 YM9 YM10 YM11 YM13 YM14 YM15 YM16 YM17
YM6 1.28E–25
YM9 3.10E–22 0.00#
YM10 0.00 0.30 7.49E–39
YM11 3.31E–9 8.06E–11 1.88E–5 1.65E–5
YM13 7.77E–8 3.70E–22 0.00 8.12E–7 0.00
YM14 0.25 0.21 1.37E–21 0.56 0.02 1.45E–8
YM15 0.17 1.18E–41 3.78E–5 0.08 0.23 1.93E–50 0.02
YM16 0.67 4.52E–6 7.99E–49 0.62 1.44E–10 0.01 0.16 0.00
YM17 9.25E–18 0.00 3.04E–14 4.84E–41 0.00 0.00 0.00 4.47E–5 2.47E–46
YM158 1.34E–48 0.00 0.27 2.28E–40 1.41E–34 4.19E–33 7.78E–49 7.42E–16 3.84E–71 1.69E–13
#表中数字若小于 1E–100以 0.00表示。Value less than 1E–100 was labeled as 0.00.


图 6 扬麦系统 11个小麦品种的 RVA值据符合度聚类
Fig. 6 Hierarchical clustering dendrogram for the 11 varieties
according to conformity
4 讨论
4.1 符合度的特点
本研究提出的符合度新算法是一种量化样本间或者
样本与标准之间接近程度的方法。虽然马氏距离也可较
好地描述个体与标准值之间的符合程度 , 但由于马氏距
离会大于或远大于 1, 更合理的符合度数值应介于 0~1
之间, 0代表没有相似性, 1代表完全符合, 这与符合度的
概念更加相称, 量值更加准确。另外, 基于 0~1 之间符
合度数值的聚类分析等多变数分析比用基于距离的分析
能更好地体现个体之间的亲疏远近 , 因为聚类等多变数
分析将较大程度地过度强化大数值的作用而忽略小数值
的作用。
比较现有的综合评价方法 , 该算法的优势在于无需
数据标准化处理, 以原始数据直接计算, 简化了计算, 也
降低了因无量纲化处理方式不同而导致的结果差异; 另
外, 符合度算法综合考虑各指标的信息, 指标没有重要程
度之分, 不需要赋予权重, 保证了原始信息的完整性, 也
排除了主观赋权的随意性[14-15]。
4.2 缺失值的处理
在实际数据的应用中往往会出现某个指标缺失的情
况, 缺值计算的主要困难在于此时的方差协方差矩阵 S会
出现异常或偏差 , 缼本研究提出了如下相对简单的处理
值数据的方差协方差阵修正公式。
S*=S+0.0001+diag[nEE’/(0.5n+c)]+0.0001diag[n/(0.5n+c)]
(6)
式中, n为数据总个数, c是非缺值数据个数。这主要在于
缼降低有 值指标(变数)在多变数评价中的影响力。
多指标系统的样本观察值(测定值、样本值)与标准值
(理论值、期望值)之间的吻合程度总体上比较复杂。我们
尝试用其他多种计算符合度、恢复度的方法, 但效果不如
本文提出的符合度计算方法 , 该算法基本实现了客观合
理地描述样本与理论值或个体相互间符合度的数量化计
算。当然, 用单个的数值衡量其符合度仍有可能失之偏颇。
准确的综合评价有时仍需辅以另外的一个或多个指标。
4.3 变数相关程度的影响
在本试验中, 随机变数 X 服从正态(或均匀)分布, 得
出指标数(p)和马氏距离(d)计算符合度的函数关系, 也得
到了重抽样试验的验证。但当变数间有很强的相关关系时,
符合度与马氏距离等的关系式会有一定程度的偏差。
4.4 方差协方差矩阵选择
马氏距离的计算取决于观察样本的方差协方差阵 S,
采用何种方差协方差也至关重要。当 n个多变数观察个体
没有重复观察值时 , 总的样本方差协方差阵是唯一的选
择, 但这事实上并不合理。当观察个体有重复观察值时,
总的方差协方差阵(S)可分解为组间(B)和组内(W)两部分
(S=B+W)。而用于评价个体相似性、符合度计算的合适的
马氏距离应选择 W, 这代表观察样本去除个体间差异的
本质的内在的信息阵, 可更好地描述个体间的相似程度。
4.5 基于表型或基因型的聚类
聚类分析可根据试验材料的表型 , 也可根据基因型
进行。两种聚类结果的一致性取决于基因型与表型性状之
第 1期 张 慧等: 一种新的符合度算法及其应用 147



图 7 效应真值与估计值的比较
Fig. 7 Comparison between true effects and estimations

表 5 回归模拟试验的效应值、真值(e)和回归估计平均数( x )
Table 5 Effect estimates and corresponding parameters
序号
No.
效应项
Effect
e x 序号
No.
效应项
Effect
e x
1 a 100.0 99.986 10 X320 –5.0 –5.012
2 X20 1.7 1.689 11 X355 4.2 4.203
3 X35 3.0 3.021 12 X35–X280 2.0 1.995
4 X80 –3.8 –3.813 13 X100–X335 –2.5 –2.490
5 X125 3.5 3.514 14 X130–X180 2.7 2.689
6 X160 –3.8 –3.808 15 X110–X195 –3.2 –3.212
7 X205 –3.7 –3.694 16 X220–X305 –3.5 –3.510
8 X250 –4.3 –4.297 17 X145–X265 2.9 2.882
9 X290 4.5 4.503 18 X250–X355 3.8 3.777

间的一致性。若注重于品种的整体相似性, 应以能综合反
映品种特性的基因型数据的聚类更为合适; 若就某些农
艺性状的表现对品种分类 , 则依据这些农艺性状聚类更
为合适, 因为在大多数情况下, 获得的基因型数据与表型
数据并不对应。本研究并未对与小麦面粉 RVA 性状相关
的基因型进行测定, 根据 RVA 表型计算符合度(相似性)
并据此聚类 , 这与品种整体特性的相似性和分类特性不
一定等价。
References
[1] 顾基发. 评价方法综述. 见: 许国志. 科学决策与系统工程
——中国系统工程学会第六次年会论文集.北京: 中国科学技
术出版社, 1990. pp 5–7
Gu J F. Evaluation method review. In: Xu G Z ed. Scientific De-
cision-Making and System Engineering. Proceedings of 6th Con-
ference of the Systems Engineering Society of China. Beijing:
China Science and Technology Press, 1990. pp 5–7 (in Chinese)
[2] Chen S J, Hwang C L, Hwang F P. Fuzzy Multiple Attribute De-
cision Making: Methods and Applications (Lecture Notes in
Economics and Mathematical Systems), Springer-Verlag, 1992.
pp 163–287
[3] Hwang C L, Masud A S M. Multiple Objective Decision Mak-
ing—Methods and Applications. New York: Springer-Verlag,
Berlin-Heidelberg, 1979. pp 2–325
[4] Peng Y X, Yi S Z. The multi-hierarchy integrated evaluation
method of enterprise’s credit grade. In: Proceedings of ISAHP,
1999. pp 125–128
[5] Savoy J. Statistical inference in retrieval effectiveness evaluation.
Inf Proc & Manag, 1997, 33: 495–512
[6] Yuan Z, Wang H, Liu L Z, Liang T. Researching the comprehen-
sive use of fuzzy comprehensive evaluation and Markov chain//
IT in Medicine & Education, 2009. ITIME’09. IEEE Interna-
148 作 物 学 报 第 42卷


tional Symposium on. IEEE, 2009. pp 476–479
[7] 陈凯华, 张孝远. 模糊综合评价模型的改进及应用. 甘肃科学
学报, 2006, 18(3): 111–115
Chen K H, Zhang X Y. Application of the improved fuzzy com-
prehensive appraisal model. J Gansu Sci, 2006, 18(3): 111–115
(in Chinese with English abstract)
[8] 程鹤, 耿双军. 模糊综合评价的改进模型. 统计与决策, 2007,
(13): 136–137
Cheng H, Geng S J. The improved model of fuzzy comprehensive
evaluation. Stat & Decision, 2007, (13): 136–137 (in Chinese)
[9] 田钦谟. 模糊综合评价中的若干问题. 模糊系统与数学, 1996,
10(2): 62–69
Tian Q M. Several problems in fuzzy comprehensive evaluation.
Fuzzy Systand Math, 1996, 10(2): 62–69 (in Chinese with English
abstract)
[10] 王宗军. 综合评价的方法、问题及其研究趋势. 管理科学学报,
1998, 1(1): 73–79
Wang Z J. On the methods, problems and research trends of
comprehensive evaluation. J Manag Sci China, 1998, 1(1): 73–79
(in Chinese with English abstract)
[11] 杜栋, 庞庆华. 现代综合评价方法与案例精选. 清华大学出版
社有限公司, 2005
Du D, Pang Q H. Modern Comprehensive Evaluation Method
and Case Selection. Beijing: Tsinghua University Press Co., Ltd.
2005 (in Chinese)
[12] 马立平. 现代统计分析方法的学与用(三): 统计数据标准化
——无量纲化方法. 北京统计, 2000, (3): 34–35
Ma L P. Learning and using in analysis methods of modern statis-
tical: (3) Statistical data standardization, dimensionless method. J
Beijing Stat, 2000, (3): 34–35 (in Chinese)
[13] 叶宗裕. 关于多指标综合评价中指标正向化和无量纲化方法
的选择. 浙江统计, 2003, (4): 24–25
Ye Z Y. The choice of multi-index comprehensive evaluation in-
dex in positive and dimensionless. J Zhejiang Stat, 2003, (4):
24–25 (in Chinese)
[14] 易平涛, 张丹宁, 郭亚军, 高立群. 动态综合评价中的无量纲
化方法. 东北大学学报(自然科学版), 2009, 30: 889–892
Yi P T, Zhang D N, Guo Y J, Gao L Q. Study on dimensionless
methods in dynamic comprehensive evaluation. J Northeastern
Univ (Nat Sci), 2009, 30: 889–892 (in Chinese with English ab-
stract)
[15] 张卫华, 赵铭军. 指标无量纲化方法对综合评价结果可靠性
的影响及其实证分析. 统计与信息论坛, 2005, 20(3): 33–36
Zhang W H, Zhao M J. The influence of undimensionalization on
the reliability of comprehensive evaluation results and an em-
pirical analysis. Stat & Inf Forum, 2005, 20(3): 33–36 (in Chi-
nese with English abstract)
[16] 孙威武. 评价因素权重向量的确定方法. 统计与决策, 2002,
(7): 17–18
Sun W W. The method to determine the weights of evaluation
factors vector. Stat & Decision, 2002, (7): 17–18 (in Chinese)
[17] 王雪标, 龚兆仁, 郑晓薇. 线性综合评价函数的充要条件及权
系数的确定. 系统工程理论与实践, 2000, 20(10): 58–62
Wang X B, Gong Z R, Zheng X W. Linear synthetical evaluation
function and the determination of its weighting coefficients. Syst
Eng-Theory & Practice, 2000, 20(10): 58–62 (in Chinese with
English abstract)
[18] Grabowski M, Wallace W A. An expert system for maritime pi-
lots: Its design and assessment using gaming. Manag Sci, 1993,
39: 1506–1520
[19] Guo Y J, Yao Y, Yi P T. Method and application of dynamic com-
prehensive evaluation. Syst Eng-Theory & Practice, 2007, 27(10):
154–158 (in Chinese with English abstract)
[20] 王大将, 周庆敏, 常志玲, 孙洁. 一种新的多指标综合评价方
法. 统计与决策, 2007, (7): 137–138
Wang D J, Zhou Q M, Chang Z L, Sun J. A new method of
multi-index comprehensive evaluation. Stat & Decision, 2007, (7):
137–138 (in Chinese)
[21] 顾世梁, 万林生, 黄丽娟, 王文平. 曲线和曲面拟合的改进缩
张算法. 作物学报, 2007, 33: 583–589
Gu S L, Wan L S, Huang L J, Wang W P. Improved contrac-
tion-expansion algorithm for curve and surface fitting. Acta
Agron Sin, 2007, 33: 583–589 (in Chinese with English abstract)
[22] 顾世梁 , 惠大丰 , 莫惠栋 . 非线性方程最优拟合的缩张算
法. 作物学报, 1998, 24: 513–519
Gu S L, Hui D F, Mo H D. The optimal fitting of nonlinear
equation with contraction-expansion algorithm. Acta Agron
Sin, 1998, 24: 513–519 (in Chinese with English abstract)