杨属相似品种检索算法的设计与实现-文献传递-植物通论文库

摘要：我国有丰富的杨属种质资源,为杨属新品种的培育提供了育种材料。在杨属新品种的审批过程中,需要查找出一组相似品种与该新品种进行比较,以确定该品种是否具有特异性,从而确定该品种是否符合授予品种权的基本条件。本文提出了杨属不同品种之间的"质量性状距离"、"数量性状距离"和"质量性状距离波动系数"等概念,设计并实现了杨属相似品种检索算法。

全文：　文章编号:1007-4961(2008)01-0026-05
杨属相似品种检索算法的设计与实现
李金戈1 , 冯秀兰1 ,周建仁2 ,黄发吉2 ,杨玉林2 ,王　琼2
(1北京林业大学信息学院 ,北京　100083;2国家林业局植物新品种保护办公室 ,北京　100714)
摘要:我国有丰富的杨属种质资源 ,为杨属新品种的培育提供了育种材料。在杨属新品种的审批过程中 ,需要
查找出一组相似品种与该新品种进行比较 , 以确定该品种是否具有特异性 ,从而确定该品种是否符合授予品
种权的基本条件。本文提出了杨属不同品种之间的“质量性状距离” 、“数量性状距离”和“质量性状距离波动
系数”等概念 ,设计并实现了杨属相似品种检索算法。
关键词:杨属;相似品种;质量性状距离;数量性状距离;SQL开发
中图分类号:TP 311.132　　　　　　文献标识码:A
Design and realization of algorithm for searching poplar similar varieties
LI Jin-ge1 , FENG Xiu-lan1 ,ZHOU Jian-ren2 ,HUANG Fa-ji2 ,
YANG Yu-lin2 ,WANG Qiong2
(1 School of Information Science and Technology , Beijing Forestry University ,
Beijing 100083 , China;2 The Office for the Protection of New Varieties of Plants ,
State Forestry Administration ,Beijing 100714 ,China)
Abstract:Poplar germplasm resources are abound in China , which provides breeding materials for the cultivation of poplar
new varieties.And in the approval process of the variety , it is necessary to find out a group of similar varieties which are
compared with the new poplar variety for assessing the distinctness and granting plant breeder s rights.In this paper , some
concepts about Populus are put forward , such as Qualitative Characteristics Distance , Quantitative characteristics Distance ,
Fluctuation Coefficient of Qualitative Characteristics Distance and so on.Then , the algorithm for searching poplar similar va-
rieties is designed and realized.
Key words:Populus;similar varieties;Qualitative Characteristics Distance;Quantitative Characteristics Distance;SQL de-
velopment
收稿日期:2007-11-24;修改稿收期:2008-01-15
作者简介:李金戈(1985-),男 ,山东济宁人 ,北京林业大学在读硕士研究生 ,研究方向为计算机网络与操作系统。
通讯作者:冯秀兰 ,女 ,北京林业大学信息学院副教授 ,Email:f engxl@bjfu.edu.cn。
　　杨属(Populus L.)是杨柳科(Salicacae)的一个
属 ,通常所说的杨树是指杨属所有树种的统称。中
国具有丰富的杨属种质资源 ,杨属 5个派在中国都
有分布 ,各派内的种数达到 53 个 ,占世界杨属种数
的一半以上[ 1] 。由于杨属许多树种具有速生、适应
性强、分布范围广等优点 ,在中国的人工林栽培上占
有重大比例 ,具有重要的经济价值 ,并产生了巨大的
生态和社会效益。国内丰富的杨属种质资源为杨属
新品种的培育提供了育种材料。
1999年我国正式加入国际植物新品种保护联
盟 ,国家林业局为此专门成立了植物新品种保护办
公室 ,负责包括杨属在内的植物新品种权的审查 ,以
知识产权的形式保护育种人的合法权益 ,进一步促
进了我国杨属新品种的培育工作[ 2] 。
目前 ,我国在对林木新品种进行审查的过程中 ,
主要是邀请专家到申请品种所在地进行实地审查。
在此期间 ,专家将根据测试指南 ,进行现场观测 ,对
申请品种进行特异性、一致性和稳定性测试。在对
第23卷第1期河　北　林　果　研　究 Vol.23 No.1
2 0 0 8年 3月 HEBEI JOURNAL OF FORESTRY AND ORCHARD RESEARCH Mar.2008
申请品种进行特异性测试的过程中 ,专家首先根据
自己的经验推荐出申请品种的相似品种 ,然后根据
测试指南比较相似品种与申请品种 ,以确定该申请
品种是否具有特异性。专家推荐相似品种的方法受
人为因素的影响较大 ,操作起来存在诸多不便。本
文在对杨属各性状特征进行分析的基础上 ,设计并
实现杨属相似品种的检索算法 ,为杨属新品种的审
查提供有效的辅助手段。
1　相关概念
植物新品种 ,是指经过人工培育的或者对发现
的野生植物加以开发 ,具备新颖性、特异性、一致性
和稳定性并有适当的命名的植物品种[ 2] 。其中 ,特
异性是指申请品种权的植物新品种应当明显区别于
在递交申请以前已知的植物品种[ 2] 。为获取新品种
的品种权 ,植物新品种培育人应先向审查机关提交
申请 ,然后进行申请品种的特异性、稳定性和一致性
测试。其中 ,申请品种的特异性测试是为了找出申
请品种的特异性 ,根据测试指南对申请品种和它的
相似品种所做的一系列的比较工作[ 3～ 7] 。
在测试指南中 ,植物性状被划分为:质量性状
(Qualitative characteristics , QL)、数量性状(Quantita-
tive characteristics , QN)和假性质量性状(Pseudo -
qualitative characteristics , PQ)。
1.1　质量性状
质量性状(QL)是指那些表达状态不连续的性
状。这些性状各表达状态之间的界限非常清楚 ,并
且每一种表达状态对应一个状态代码 ,同一性状下
各表达状态的顺序并不重要 ,如“植株性别”这一质
量性状可分为雄性和雌性两种表达状态 ,分别用状
态代码1和 9表示。这种性状通常不受环境影响。
若两个品种的一个或多个质量性状的表达状态
不同 ,则可以认为这两个品种具有明显差异。
1.2　数量性状
数量性状(QN)是那些表达包括两种极端之间
所有变化的性状。这些性状的表达是一种一维、连
续、线性的范围记录 ,可以分为几种状态以便描述 ,
如“植株的茎干长度”这一数量性状可以分为极短、
短、中等、长和极长五种状态 ,分别用状态代码 1 、3 、
5 、7和 9表示。
由于品种的数量性状受测试地点、年份、环境差
异或表达程度等因素的影响 ,该性状下各状态的差
异并不是判定特异性的绝对标准。
1.3　假性质量性状
对于假性质量性状(PQ)而言 ,其表达至少是部
分连续的 ,但有一维以上的差别 ,且不能仅靠定义线
性范围的两端来给予充分描述。如“叶片形状”这一
假性质量性状可以分为卵形、椭圆形、圆形、倒卵形 ,
分别用状态代码 1 、2 、3和 4表示。这种性状与质量
性状(不连续性状)类似 ,需要确认表达的各个状态
以便充分描述性状的范围 ,因此 ,称为假性质量性
状。对于假性质量性状 ,用不同状态来确定特异性
可能是不充分的。因为在特定情况下 ,在同一假性
质量性状上状态代码相同的两个品种在该假性质量
性状上可能是有明显区别的。
由于质量性状、数量性状和假性质量性状的不
同特点 ,在对申请品种进行特异性测试的过程中 ,首
先考虑该品种的质量性状 ,然后再考虑其数量性状 ,
而假性质量性状用的较少。
2　杨属相似品种检索算法
2.1　质量性状距离和数量性状距离
设两个杨属品种 a 和b , Fa-QL-i和Fb-QL-i为杨
属品种 a 和 b 的第 i 个质量性状的状态代码 ,
Fa -QN-i和Fb-QN-i为杨属品种a 和b 的第 i 个数量
性状的状态代码。当某一性状特征(质量性状、数量
性状或假性质量性状)不确定时 ,其状态代码为 0。
根据植物的质量性状(QL)、数量性状(QN)和假性
质量性状(PQ)的定义及性质 ,在杨属相似品种的检
索中 ,应该以质量性状为主 ,以数量性状为辅 ,现给
出如下两个定义。
定义 1:品种 a 和b 对应质量性状的状态代码
的特殊差值之和称为品种 a 与b 的质量性状距离 ,
其中 ,品种 a和b 相对于该属第 k 个质量性状的状
态代码的特殊差值为:
dQL-k =
0 , Fa-QL-k ×Fb-QL-k ≠0
且 Fa-QL-k =Fb-QL-k
1 ,其他
所以 ,品种 a与b 的质量性状距离为:
DQL =∑m
k=1
dQL-k 　。
　　定义2:品种 a 和 b 对应数量性状的状态代码
的差值绝对值之和称为品种 a 与 b 的数量性状距
离 ,所以 ,品种 a 与b的数量性状距离为:
DQN =∑n
i=1
Fa-QL-i -Fb-QL-i 　。
27　第 1期　　　　　　　　李金戈等:杨属相似品种检索算法的设计与实现　　　　　　　　　　
2.2　杨属相似品种检索算法
检索杨属品种 a 的相似品种就是从杨属已知
品种中查找出一组品种 ,使得品种 a 与这组品种在
性状特征方面存在较少的明显差异。由于数量性状
不是判定特异性的绝对标准 ,并且易受测试地点、年
份、环境差异或表达程度等因素的影响 ,在检索杨属
相似品种时 ,应以质量性状距离为主要指标 ,而数量
性状距离作为有效的参考。
为了更加灵活地控制检索出的相似品种的范
围 ,引入“质量性状距离波动系数”(一个非负整数)
这一概念。质量性状距离波动系数是检索出的一组
相似品种与原品种之间质量性状距离最大值与最小
值的差值 ,反映了相似品种与原品种间质量性状距
离的波动范围。质量性状距离波动系数的值越小 ,
检索出的品种的相似度越高 ,但数量越少;质量性状
距离波动系数的值越大 ,检索出的品种的相似度越
低 ,但数量越多。
杨属相似品种检索算法的步骤:
(1)输入品种 c 的各性状状态代码(Fc-QL-1 ,
Fc-QL-2 , … ,Fc-QL-m ;Fc-QN-1 , Fc-QN -2 , …, Fc-QN-n)
及质量性状距离波动系数 λ;
(2)根据定义1 ,计算品种 c与杨属已知品种数
据库内各已知品种的质量性状距离 DQL (如图 1所
示),其中 ,F -QL -i 为杨属已知品种第 i个质量性
状状态代码;
(3)求取 DQL的最小值 Dmin=min(DQL);
(4)从已知品种数据库内检索出与品种 c的质
量性状距离在 Dmin和 Dmin+λ之间的品种 c1 , c2 , … ,
cj ;
(5)根据定义 2 ,计算品种 c 与品种 c1 , c2 , … ,
cj 的数量性状距离 DQN(如图 2所示),其中 , F -QN
-i 为杨属已知品种第 i个数量性状状态代码;
6)输出检索出的相似品种 c1 , c2 , … , cj 及相应
的质量性状距离DQL和数量性状距离DQN 。
3　杨属相似品种检索算法的实现
3.1　杨属已知品种数据库的设计
鉴于数据安全性、操作方便性和运行效率等方
面的综合考虑 , 数据库选用 SQL Server 2005 。杨属
已知品种数据库是以杨属的性状特征为基础设计
的。
杨属已知品种数据库内各数据表之间的关系比
较简单 ,从数据库完整性、数据冗余等方面考虑 ,各
图 1　计算质量性状距离 DQL的流程
Fig.1　Process chart for computing DQL
图 2　计算数量性状距离 DQN的流程
Fig.2　Processing chart for computing DQN
数据表的设计如下:
(1)杨属已知品种性状表(yang-varieties)
本数据表以数字形式存储杨属已知品种各性状
信息。除序列号的字段类型为 bigint和品种名称的
字段类型为 nvarchar 外 ,其他字段类型均为 tinyint ,
其数据字典如表 1所示。
28　　　　　　　　　　　　　　　　　河　北　林　果　研　究　　　　　　　　　　　　　　第 23卷
表 1　数据表 yang-varieties的数据字典
Table 1　The data dictionary of the date table
named “ yang-varieties”
字段名
Field name
类型
Type
说明
Note
pz-id bigint 序列号(主键)
pz-name nvarchar(50) 杨属已知品种名称
F-QL-1 tinyint 第 1个质量性状
  
F-QL-m tinyint 第m 个质量性状
F-QN-1 tinyint 第 1个数量性状
  
F-QN-n tinyint 第 n个数量性状
F-PQ-1 tinyint 第 1个假性质量性状
  
F-PQ-k tinyint 第 k个假性质量性状
　　(2)杨属性状描述表(yang-des)
本数据表为杨属已知品种性状表的辅助表 ,主
要用来解释和说明杨属已知品种性状表内数字信息
的含义等。
3.2　算法的实现
在杨属已知品种数据库的基础上 ,运用数据库
开发语言 SQL , 实现杨属相似品种检索算法[ 8～ 10] 。
由于杨属已知品种数据库内已知品种的数量将不断
增加 ,数据量非常大 ,直接利用 SQL 语言在数据库
SQL Server 2005的环境下开发将会大大提高杨属相
似品种的检索效率。该算法实现过程中的关键代码
如下:
@Dmin为杨属已知品种与输入品种 c的质量
性状距离的最小值 , Fc-QL-1 , Fc-QL-2 , … ,
F c-QL-m为输入品种 c 的各个质量性状状态代
码 ,Fc-QN-1 ,Fc-QN-2 , … ,Fc-QL-n ,为输入品种 c
的各个数量性状状态代码 , @t为质量性状距
离波动系数λ
SELECT @Dmin =min(
(CASE WHEN F-QL-1-＊Fc-QL-1 , ◎0 AND
F-QL-1=F c-QL-1 THEN 0 ELSE 1 END)+…
+(CASE WHEN F-QL-m＊Fc-QL-m ◎0 AND
F-QL-m=Fc-QL-m THEN 0 ELSE 1 END))
FROM yang-varieties
SELECT pz-name as 品种名称 ,
(CASE WHEN F-Q--1＊Fc-QL-1 ◎0 AND F-
QL-1=Fc-QL-1 THEN 0 ELSE 1 END)+…+
(CASE WHEN F-QL-m ＊Fc-QL-m ◎0 AND F-
QL-m=Fc-QL-m THEN 0 ELSE 1 END)
as质量性状距离 ,
Abs(Convert(int , F-QN- 1)-Convert(int ,
Fc-QN-1))+…+Abs(Convert(int ,F-QN-n)-
Convert(int ,Fc-QN-n))
as数量性状距离
FROM yang-varieties
WHERE质量性状距离>=@Dmin AND 质量
性状距离<=@Dmin +@t
ORDER BY 质量性状距离 ,数量性状距离
4　结果与讨论
现以“毛白杨(1313)”为输入品种 ,应用杨属相
似品种检索算法查找出“毛白杨(1313)”的相似品
种 ,结果如图 3 和图 4 所示。其中 ,图 3 中选用的
“质量性状距离波动系数”为 1 ,检索出的相似品种
与“毛白杨(1313)”之间的质量性状距离分别为 3和
4 ,两值相差 1(即各质量性状距离间的波动为 1);而
图 4中选用的“质量性状距离波动系数”为 0 ,检索
出的相似品种与“毛白杨(1313)”之间的质量性状距
离最小且都为3(即各质量性状距离间无波动)。
图 3　λ=1 时的检索结果
Fig.3　Searched similar varieties(λ=1)
图 4　λ=0 时的检索结果
Fig.4　Searched similar varieties(λ=0)
与目前由专家根据自己的经验推荐申请品种的
相似品种的方法相比 ,该算法减少了查找杨属相似
品种过程中的人为因素 ,提高了杨属新品种的审查
效率和准确性。但由于一些已知品种某些性状特征
(下转第36页)
29　第 1期　　　　　　　　李金戈等:杨属相似品种检索算法的设计与实现　　　　　　　　　　
0.84531;运用最小距离运用法则平均精度为
78.17%,KAPPA COEFFICIENT =0.73269;而运用平
行六面体运算法则平均精度可达到 90.41%,KAPPA
COEFFICIENT=0.87655。
由此可见 ,运用最小距离运算法则精度太低 ,达
不到生产需要。
运用平行六面体法则精度比较高 ,kappa 系数也
最大 ,但是由于本次研究只是对树种进行了分类 ,并
没有对那些建筑用地、道路、荒山荒地等非林业用地
进行划分 ,由于同谱异物和同物异谱现象的不可避
免性 ,肯定会有错分现象 ,但是运用平行六面体法则
进行分类 ,在混淆矩阵中 ,被分为树种其他类的概率
为零 ,不符合实际情况。
运用最大似然法则 ,平均精度达到了要求 ,并且
没有忽略同物异谱和同谱异物现象。
2.3　结果与分析
本研究利用塞罕坝机械林场的大唤起林场的二类
调查数据和最大似然分类结果进行统计计算。得出了
桦树、落叶松、云杉、樟子松、柞树等5种树种在二类调
查和遥感图像分类结果中所占的百分比(见表 4)。
由表 4可以看出 ,桦树在 5种树种中的百分比 ,分
类结果和二类调查结果基本一致 ,落叶松、樟子松、云
杉和柞树的结果也都相差不大 ,能够满足生产需要。
表 4　分类结果与二类调查结果对比
Table 4　The contrast and analysis of the classification
results and the Secondary Forest Resource Inventory results
树种名称
Tree
面积
Are
百分比 %
Percent
象元素
Pixels
百分比 %
Percent
桦树
落叶松
云杉
樟子松
柞树
4 145.7
8 910.1
157.3
325.6
2 071.6
26.56
57.08
1.01
2.09
13.27
6 175 416
12 117 917
204 937
991 107
3 993 436
26.30
51.60
0.87
4.22
17.01
3　小结
提高训练区选取质量 ,对“同物异谱”现象采用
类型细分方法是提高分类精度的一种有效措施。在
对塞罕坝机械林场进行树种分类时 ,应采用最大似
然分类法。
参考文献:
[ 1] 郑明国.ERDAS软件支持下的土地利用土地覆盖分类研究—以
郑州市土地利用土地覆盖制[ D] .开封:河南大学 , 2002.
[ 2] 刘文敬.内蒙古草地沙化遥感监测图像自动分类方法研究[ D] .
北京:北京林业大学 , 2005.
[ 3] 孙家扌丙 ,舒　宁 ,关泽群.遥感原理、方法及应用[M] .北京:测绘
出版社 , 1997.
(编辑　刘彦琴)
(上接第 29页)
的数据不易获取(在数据库中 ,这些性状的状态代码
被填补为 0),必然会对相似品种的检索产生一些影
响。因此 ,为了更好地在杨属新品种的审批过程中
应用杨属相似品种检索算法 ,除了尽量收集并填补
杨属已知品种各性状数据外 ,还应该在检索出一组
相似品种后 ,通过专家筛选 ,选出比较合适的相似品
种。
参考文献:
[ 1] 秦光华 ,姜岳忠.中国和外来杨属种质资源[ J] .山东林业科技 ,
2006 ,(6):60-63.
[ 2] 中华人民共和国国务院令(第 213号).中华人民共和国植物新
品种保护条例[ J] .林业植物新品种保护公报 , 2000 ,(1):1-5.
[ 3] 李晓辉 ,李新海 ,张世煌.植物新品种保护与 DUS 测试技术[ J] .
中国农业科学 , 2003, 36(11):1419-1422.
[ 4] 李兰芬.浅谈植物新品种保护及 DUS测试[ J] .黑龙江农业科学 ,
2005 ,(3):48-49.
[ 5] 陆峻君 ,王　威 ,白玉亭 ,等.植物新品种特异性、一致性和稳定
性测试[ J] .新疆农业科学 , 2003 , 40(6):378-380.
[ 6] Bart Kiewiet.Plant variety protection in the European Community [ J] .
World Patent Information , 2005 , 27(4):319-327.
[ 7] Jones H , Jarman R J , Austin L , et al.The management of variety refer-
ence col lections in distinctness , uniformity and stability testing of wheat
[ J] .Euphytica , 2003 ,132(2):175-184.
[ 8] 张慕博 ,冯秀兰.杨属已知品种数据库管理信息系统的研建[ J] .
林业资源管理 , 2006,(3):94-96.
[ 9] 张小艳.中文主观题自动批改中相似句子检索算法[ J] .南京师
范大学学报(工程技术版), 2007 , 7(2):62-66.
[ 10] 王　珊 ,萨师煊.数据库系统概论(第四版)[ M] .北京:高等教
育出版社 , 2006.
(编辑　刘彦琴)
36　　　　　　　　　　　　　　　　　河　北　林　果　研　究　　　　　　　　　　　　　　第 23卷

杨属相似品种检索算法的设计与实现

相关文献