全 文 : 文章编号:1007-4961(2008)01-0026-05
杨属相似品种检索算法的设计与实现
李金戈1 , 冯秀兰1 ,周建仁2 ,黄发吉2 ,杨玉林2 ,王 琼2
(1北京林业大学信息学院 ,北京 100083;2国家林业局植物新品种保护办公室 ,北京 100714)
摘要:我国有丰富的杨属种质资源 ,为杨属新品种的培育提供了育种材料。在杨属新品种的审批过程中 ,需要
查找出一组相似品种与该新品种进行比较 , 以确定该品种是否具有特异性 ,从而确定该品种是否符合授予品
种权的基本条件。本文提出了杨属不同品种之间的“质量性状距离” 、“数量性状距离”和“质量性状距离波动
系数”等概念 ,设计并实现了杨属相似品种检索算法。
关键词:杨属;相似品种;质量性状距离;数量性状距离;SQL开发
中图分类号:TP 311.132 文献标识码:A
Design and realization of algorithm for searching poplar similar varieties
LI Jin-ge1 , FENG Xiu-lan1 ,ZHOU Jian-ren2 ,HUANG Fa-ji2 ,
YANG Yu-lin2 ,WANG Qiong2
(1 School of Information Science and Technology , Beijing Forestry University ,
Beijing 100083 , China;2 The Office for the Protection of New Varieties of Plants ,
State Forestry Administration ,Beijing 100714 ,China)
Abstract:Poplar germplasm resources are abound in China , which provides breeding materials for the cultivation of poplar
new varieties.And in the approval process of the variety , it is necessary to find out a group of similar varieties which are
compared with the new poplar variety for assessing the distinctness and granting plant breeder s rights.In this paper , some
concepts about Populus are put forward , such as Qualitative Characteristics Distance , Quantitative characteristics Distance ,
Fluctuation Coefficient of Qualitative Characteristics Distance and so on.Then , the algorithm for searching poplar similar va-
rieties is designed and realized.
Key words:Populus;similar varieties;Qualitative Characteristics Distance;Quantitative Characteristics Distance;SQL de-
velopment
收稿日期:2007-11-24;修改稿收期:2008-01-15
作者简介:李金戈(1985-),男 ,山东济宁人 ,北京林业大学在读硕士研究生 ,研究方向为计算机网络与操作系统。
通讯作者:冯秀兰 ,女 ,北京林业大学信息学院副教授 ,Email:f engxl@bjfu.edu.cn。
杨属(Populus L.)是杨柳科(Salicacae)的一个
属 ,通常所说的杨树是指杨属所有树种的统称 。中
国具有丰富的杨属种质资源 ,杨属 5个派在中国都
有分布 ,各派内的种数达到 53 个 ,占世界杨属种数
的一半以上[ 1] 。由于杨属许多树种具有速生 、适应
性强 、分布范围广等优点 ,在中国的人工林栽培上占
有重大比例 ,具有重要的经济价值 ,并产生了巨大的
生态和社会效益 。国内丰富的杨属种质资源为杨属
新品种的培育提供了育种材料 。
1999年我国正式加入国际植物新品种保护联
盟 ,国家林业局为此专门成立了植物新品种保护办
公室 ,负责包括杨属在内的植物新品种权的审查 ,以
知识产权的形式保护育种人的合法权益 ,进一步促
进了我国杨属新品种的培育工作[ 2] 。
目前 ,我国在对林木新品种进行审查的过程中 ,
主要是邀请专家到申请品种所在地进行实地审查。
在此期间 ,专家将根据测试指南 ,进行现场观测 ,对
申请品种进行特异性 、一致性和稳定性测试 。在对
第23卷 第1期 河 北 林 果 研 究 Vol.23 No.1
2 0 0 8年 3月 HEBEI JOURNAL OF FORESTRY AND ORCHARD RESEARCH Mar.2008
申请品种进行特异性测试的过程中 ,专家首先根据
自己的经验推荐出申请品种的相似品种 ,然后根据
测试指南比较相似品种与申请品种 ,以确定该申请
品种是否具有特异性 。专家推荐相似品种的方法受
人为因素的影响较大 ,操作起来存在诸多不便 。本
文在对杨属各性状特征进行分析的基础上 ,设计并
实现杨属相似品种的检索算法 ,为杨属新品种的审
查提供有效的辅助手段。
1 相关概念
植物新品种 ,是指经过人工培育的或者对发现
的野生植物加以开发 ,具备新颖性 、特异性 、一致性
和稳定性并有适当的命名的植物品种[ 2] 。其中 ,特
异性是指申请品种权的植物新品种应当明显区别于
在递交申请以前已知的植物品种[ 2] 。为获取新品种
的品种权 ,植物新品种培育人应先向审查机关提交
申请 ,然后进行申请品种的特异性 、稳定性和一致性
测试。其中 ,申请品种的特异性测试是为了找出申
请品种的特异性 ,根据测试指南对申请品种和它的
相似品种所做的一系列的比较工作[ 3~ 7] 。
在测试指南中 ,植物性状被划分为:质量性状
(Qualitative characteristics , QL)、数量性状(Quantita-
tive characteristics , QN)和假性质量性状(Pseudo -
qualitative characteristics , PQ)。
1.1 质量性状
质量性状(QL)是指那些表达状态不连续的性
状。这些性状各表达状态之间的界限非常清楚 ,并
且每一种表达状态对应一个状态代码 ,同一性状下
各表达状态的顺序并不重要 ,如“植株性别”这一质
量性状可分为雄性和雌性两种表达状态 ,分别用状
态代码1和 9表示 。这种性状通常不受环境影响 。
若两个品种的一个或多个质量性状的表达状态
不同 ,则可以认为这两个品种具有明显差异。
1.2 数量性状
数量性状(QN)是那些表达包括两种极端之间
所有变化的性状。这些性状的表达是一种一维 、连
续 、线性的范围记录 ,可以分为几种状态以便描述 ,
如“植株的茎干长度”这一数量性状可以分为极短 、
短 、中等 、长和极长五种状态 ,分别用状态代码 1 、3 、
5 、7和 9表示 。
由于品种的数量性状受测试地点 、年份 、环境差
异或表达程度等因素的影响 ,该性状下各状态的差
异并不是判定特异性的绝对标准。
1.3 假性质量性状
对于假性质量性状(PQ)而言 ,其表达至少是部
分连续的 ,但有一维以上的差别 ,且不能仅靠定义线
性范围的两端来给予充分描述。如“叶片形状”这一
假性质量性状可以分为卵形 、椭圆形 、圆形 、倒卵形 ,
分别用状态代码 1 、2 、3和 4表示。这种性状与质量
性状(不连续性状)类似 ,需要确认表达的各个状态
以便充分描述性状的范围 ,因此 ,称为假性质量性
状 。对于假性质量性状 ,用不同状态来确定特异性
可能是不充分的 。因为在特定情况下 ,在同一假性
质量性状上状态代码相同的两个品种在该假性质量
性状上可能是有明显区别的 。
由于质量性状 、数量性状和假性质量性状的不
同特点 ,在对申请品种进行特异性测试的过程中 ,首
先考虑该品种的质量性状 ,然后再考虑其数量性状 ,
而假性质量性状用的较少。
2 杨属相似品种检索算法
2.1 质量性状距离和数量性状距离
设两个杨属品种 a 和b , Fa-QL-i和Fb-QL-i为杨
属品种 a 和 b 的第 i 个质量性状的状态代码 ,
Fa -QN-i和Fb-QN-i为杨属品种a 和b 的第 i 个数量
性状的状态代码。当某一性状特征(质量性状 、数量
性状或假性质量性状)不确定时 ,其状态代码为 0。
根据植物的质量性状(QL)、数量性状(QN)和假性
质量性状(PQ)的定义及性质 ,在杨属相似品种的检
索中 ,应该以质量性状为主 ,以数量性状为辅 ,现给
出如下两个定义。
定义 1:品种 a 和b 对应质量性状的状态代码
的特殊差值之和称为品种 a 与b 的质量性状距离 ,
其中 ,品种 a和b 相对于该属第 k 个质量性状的状
态代码的特殊差值为:
dQL-k =
0 , Fa-QL-k ×Fb-QL-k ≠0
且 Fa-QL-k =Fb-QL-k
1 ,其他
所以 ,品种 a与b 的质量性状距离为:
DQL =∑m
k=1
dQL-k 。
定义2:品种 a 和 b 对应数量性状的状态代码
的差值绝对值之和称为品种 a 与 b 的数量性状距
离 ,所以 ,品种 a 与b的数量性状距离为:
DQN =∑n
i=1
Fa-QL-i -Fb-QL-i 。
27 第 1期 李金戈等:杨属相似品种检索算法的设计与实现
2.2 杨属相似品种检索算法
检索杨属品种 a 的相似品种就是从杨属已知
品种中查找出一组品种 ,使得品种 a 与这组品种在
性状特征方面存在较少的明显差异 。由于数量性状
不是判定特异性的绝对标准 ,并且易受测试地点 、年
份 、环境差异或表达程度等因素的影响 ,在检索杨属
相似品种时 ,应以质量性状距离为主要指标 ,而数量
性状距离作为有效的参考 。
为了更加灵活地控制检索出的相似品种的范
围 ,引入“质量性状距离波动系数”(一个非负整数)
这一概念 。质量性状距离波动系数是检索出的一组
相似品种与原品种之间质量性状距离最大值与最小
值的差值 ,反映了相似品种与原品种间质量性状距
离的波动范围。质量性状距离波动系数的值越小 ,
检索出的品种的相似度越高 ,但数量越少;质量性状
距离波动系数的值越大 ,检索出的品种的相似度越
低 ,但数量越多 。
杨属相似品种检索算法的步骤:
(1)输入品种 c 的各性状状态代码(Fc-QL-1 ,
Fc-QL-2 , … ,Fc-QL-m ;Fc-QN-1 , Fc-QN -2 , …, Fc-QN-n)
及质量性状距离波动系数 λ;
(2)根据定义1 ,计算品种 c与杨属已知品种数
据库内各已知品种的质量性状距离 DQL (如图 1所
示),其中 ,F -QL -i 为杨属已知品种第 i个质量性
状状态代码;
(3)求取 DQL的最小值 Dmin=min(DQL);
(4)从已知品种数据库内检索出与品种 c的质
量性状距离在 Dmin和 Dmin+λ之间的品种 c1 , c2 , … ,
cj ;
(5)根据定义 2 ,计算品种 c 与品种 c1 , c2 , … ,
cj 的数量性状距离 DQN(如图 2所示),其中 , F -QN
-i 为杨属已知品种第 i个数量性状状态代码;
6)输出检索出的相似品种 c1 , c2 , … , cj 及相应
的质量性状距离DQL和数量性状距离DQN 。
3 杨属相似品种检索算法的实现
3.1 杨属已知品种数据库的设计
鉴于数据安全性 、操作方便性和运行效率等方
面的综合考虑 , 数据库选用 SQL Server 2005 。杨属
已知品种数据库是以杨属的性状特征为基础设计
的。
杨属已知品种数据库内各数据表之间的关系比
较简单 ,从数据库完整性 、数据冗余等方面考虑 ,各
图 1 计算质量性状距离 DQL的流程
Fig.1 Process chart for computing DQL
图 2 计算数量性状距离 DQN的流程
Fig.2 Processing chart for computing DQN
数据表的设计如下:
(1)杨属已知品种性状表(yang-varieties)
本数据表以数字形式存储杨属已知品种各性状
信息。除序列号的字段类型为 bigint和品种名称的
字段类型为 nvarchar 外 ,其他字段类型均为 tinyint ,
其数据字典如表 1所示 。
28 河 北 林 果 研 究 第 23卷
表 1 数据表 yang-varieties的数据字典
Table 1 The data dictionary of the date table
named “ yang-varieties”
字段名
Field name
类型
Type
说明
Note
pz-id bigint 序列号(主键)
pz-name nvarchar(50) 杨属已知品种名称
F-QL-1 tinyint 第 1个质量性状
F-QL-m tinyint 第m 个质量性状
F-QN-1 tinyint 第 1个数量性状
F-QN-n tinyint 第 n个数量性状
F-PQ-1 tinyint 第 1个假性质量性状
F-PQ-k tinyint 第 k个假性质量性状
(2)杨属性状描述表(yang-des)
本数据表为杨属已知品种性状表的辅助表 ,主
要用来解释和说明杨属已知品种性状表内数字信息
的含义等 。
3.2 算法的实现
在杨属已知品种数据库的基础上 ,运用数据库
开发语言 SQL , 实现杨属相似品种检索算法[ 8~ 10] 。
由于杨属已知品种数据库内已知品种的数量将不断
增加 ,数据量非常大 ,直接利用 SQL 语言在数据库
SQL Server 2005的环境下开发将会大大提高杨属相
似品种的检索效率。该算法实现过程中的关键代码
如下:
@Dmin为杨属已知品种与输入品种 c的质量
性状距离的最小值 , Fc-QL-1 , Fc-QL-2 , … ,
F c-QL-m为输入品种 c 的各个质量性状状态代
码 ,Fc-QN-1 ,Fc-QN-2 , … ,Fc-QL-n ,为输入品种 c
的各个数量性状状态代码 , @t为质量性状距
离波动系数λ
SELECT @Dmin =min(
(CASE WHEN F-QL-1-*Fc-QL-1 , ◎0 AND
F-QL-1=F c-QL-1 THEN 0 ELSE 1 END)+…
+(CASE WHEN F-QL-m*Fc-QL-m ◎0 AND
F-QL-m=Fc-QL-m THEN 0 ELSE 1 END))
FROM yang-varieties
SELECT pz-name as 品种名称 ,
(CASE WHEN F-Q--1*Fc-QL-1 ◎0 AND F-
QL-1=Fc-QL-1 THEN 0 ELSE 1 END)+…+
(CASE WHEN F-QL-m *Fc-QL-m ◎0 AND F-
QL-m=Fc-QL-m THEN 0 ELSE 1 END)
as质量性状距离 ,
Abs(Convert(int , F-QN- 1)-Convert(int ,
Fc-QN-1))+…+Abs(Convert(int ,F-QN-n)-
Convert(int ,Fc-QN-n))
as数量性状距离
FROM yang-varieties
WHERE质量性状距离>=@Dmin AND 质量
性状距离<=@Dmin +@t
ORDER BY 质量性状距离 ,数量性状距离
4 结果与讨论
现以“毛白杨(1313)”为输入品种 ,应用杨属相
似品种检索算法查找出“毛白杨(1313)”的相似品
种 ,结果如图 3 和图 4 所示 。其中 ,图 3 中选用的
“质量性状距离波动系数”为 1 ,检索出的相似品种
与“毛白杨(1313)”之间的质量性状距离分别为 3和
4 ,两值相差 1(即各质量性状距离间的波动为 1);而
图 4中选用的“质量性状距离波动系数”为 0 ,检索
出的相似品种与“毛白杨(1313)”之间的质量性状距
离最小且都为3(即各质量性状距离间无波动)。
图 3 λ=1 时的检索结果
Fig.3 Searched similar varieties(λ=1)
图 4 λ=0 时的检索结果
Fig.4 Searched similar varieties(λ=0)
与目前由专家根据自己的经验推荐申请品种的
相似品种的方法相比 ,该算法减少了查找杨属相似
品种过程中的人为因素 ,提高了杨属新品种的审查
效率和准确性。但由于一些已知品种某些性状特征
(下转第36页)
29 第 1期 李金戈等:杨属相似品种检索算法的设计与实现
0.84531;运用最小距离运用法则平均精度为
78.17%,KAPPA COEFFICIENT =0.73269;而运用平
行六面体运算法则平均精度可达到 90.41%,KAPPA
COEFFICIENT=0.87655。
由此可见 ,运用最小距离运算法则精度太低 ,达
不到生产需要。
运用平行六面体法则精度比较高 ,kappa 系数也
最大 ,但是由于本次研究只是对树种进行了分类 ,并
没有对那些建筑用地 、道路 、荒山荒地等非林业用地
进行划分 ,由于同谱异物和同物异谱现象的不可避
免性 ,肯定会有错分现象 ,但是运用平行六面体法则
进行分类 ,在混淆矩阵中 ,被分为树种其他类的概率
为零 ,不符合实际情况。
运用最大似然法则 ,平均精度达到了要求 ,并且
没有忽略同物异谱和同谱异物现象 。
2.3 结果与分析
本研究利用塞罕坝机械林场的大唤起林场的二类
调查数据和最大似然分类结果进行统计计算。得出了
桦树 、落叶松 、云杉 、樟子松 、柞树等5种树种在二类调
查和遥感图像分类结果中所占的百分比(见表 4)。
由表 4可以看出 ,桦树在 5种树种中的百分比 ,分
类结果和二类调查结果基本一致 ,落叶松 、樟子松 、云
杉和柞树的结果也都相差不大 ,能够满足生产需要。
表 4 分类结果与二类调查结果对比
Table 4 The contrast and analysis of the classification
results and the Secondary Forest Resource Inventory results
树种名称
Tree
面积
Are
百分比 %
Percent
象元素
Pixels
百分比 %
Percent
桦树
落叶松
云杉
樟子松
柞树
4 145.7
8 910.1
157.3
325.6
2 071.6
26.56
57.08
1.01
2.09
13.27
6 175 416
12 117 917
204 937
991 107
3 993 436
26.30
51.60
0.87
4.22
17.01
3 小结
提高训练区选取质量 ,对“同物异谱”现象采用
类型细分方法是提高分类精度的一种有效措施 。在
对塞罕坝机械林场进行树种分类时 ,应采用最大似
然分类法。
参考文献:
[ 1] 郑明国.ERDAS软件支持下的土地利用土地覆盖分类研究—以
郑州市土地利用 土地覆盖制[ D] .开封:河南大学 , 2002.
[ 2] 刘文敬.内蒙古草地沙化遥感监测图像自动分类方法研究[ D] .
北京:北京林业大学 , 2005.
[ 3] 孙家扌丙 ,舒 宁 ,关泽群.遥感原理 、方法及应用[M] .北京:测绘
出版社 , 1997.
(编辑 刘彦琴)
(上接第 29页)
的数据不易获取(在数据库中 ,这些性状的状态代码
被填补为 0),必然会对相似品种的检索产生一些影
响。因此 ,为了更好地在杨属新品种的审批过程中
应用杨属相似品种检索算法 ,除了尽量收集并填补
杨属已知品种各性状数据外 ,还应该在检索出一组
相似品种后 ,通过专家筛选 ,选出比较合适的相似品
种。
参考文献:
[ 1] 秦光华 ,姜岳忠.中国和外来杨属种质资源[ J] .山东林业科技 ,
2006 ,(6):60-63.
[ 2] 中华人民共和国国务院令(第 213号).中华人民共和国植物新
品种保护条例[ J] .林业植物新品种保护公报 , 2000 ,(1):1-5.
[ 3] 李晓辉 ,李新海 ,张世煌.植物新品种保护与 DUS 测试技术[ J] .
中国农业科学 , 2003, 36(11):1419-1422.
[ 4] 李兰芬.浅谈植物新品种保护及 DUS测试[ J] .黑龙江农业科学 ,
2005 ,(3):48-49.
[ 5] 陆峻君 ,王 威 ,白玉亭 ,等.植物新品种特异性 、一致性和稳定
性测试[ J] .新疆农业科学 , 2003 , 40(6):378-380.
[ 6] Bart Kiewiet.Plant variety protection in the European Community [ J] .
World Patent Information , 2005 , 27(4):319-327.
[ 7] Jones H , Jarman R J , Austin L , et al.The management of variety refer-
ence col lections in distinctness , uniformity and stability testing of wheat
[ J] .Euphytica , 2003 ,132(2):175-184.
[ 8] 张慕博 ,冯秀兰.杨属已知品种数据库管理信息系统的研建[ J] .
林业资源管理 , 2006,(3):94-96.
[ 9] 张小艳.中文主观题自动批改中相似句子检索算法[ J] .南京师
范大学学报(工程技术版), 2007 , 7(2):62-66.
[ 10] 王 珊 ,萨师煊.数据库系统概论(第四版)[ M] .北京:高等教
育出版社 , 2006.
(编辑 刘彦琴)
36 河 北 林 果 研 究 第 23卷