免费文献传递   相关文献

TWO POLYTHETIC-AGGLOMERATIVE CLUSTERING STRATEGIES

以平均距离为基础的两种多元等级聚合新策略



全 文 : 一 ≯
I ,
热带 亚热带植物学报 1996 4(4):1 8—23
Journal oy Tropical and Subtropical Botany
以平均距离为基础的两种多元等级聚合新策略

张金屯
(山西大学生命科学系,太原03006 [} 、/4-2-
摘要 本文基于扩展的 Lance和 WilKams的多元聚音模型之上,提出两种新的聚合第 略:新组 内平均
距离法和加权平均距离法.过两个方法既考虑 了组间距离,同时也考虑组内的同质性 ,聚娄结果更好
本文用 山西中条山荆条灌丛的数据作为这两种方法的应用实例,结果较好地描述了群落娄 型问的关系,
生态意义明确 这两个方法分辨力较强,适合群落低级单位的分类.宜于群落生志关系的研究.
关键词 数量分类;聚音分析;植被分析 新纽内平均距离法:加权平均距离法
TW O POLYTHETIC AGGLOM ERATIVE
CLUSTERING STRATEGIES
Zhang Jintun
(Dept cal Science.Shanxi University.Taiyuan 030006)
Abstract Based on extended Lance and W illiams model,two polythetic agglomerative clus
tering strategies,j.e the Average distance of new cluster and the W eighted average distance,
are introduce d in this paper.As an example,vegetation data of shrub Vi~ex negundo var
heterophylla. collected from Zhongtiao mountains in Shanxi Province Were analysed with
these two new methods The Results illustrate that the two methods are effective and Success
『ul in describing the relationships between vegetation clusters They have some advantages
compared with fuzzy equivalence clustering and group averaging,and arc partically suitable
r vegetation classfication at association level
Key words Numerical classification; Cluster analysis; Vegetation analysis; Average
distance of new cluster; Weighted average distance
多元等级聚合方法是在数量分类中占有重要位置的一类方法 在生物学、生态学、医学、地
学等学科中得到了广泛的应用 ,葭类方法首先要计算距离矩阵D.然后根据一定的原则和程序.
将样方一一合并,直到合成为一组 由于聚合策略的不同而导致产生不同的方法 聚合策略指的
是如何定义一个样方或一个样方组与新形成样方组间的距离,比如最近邻体法将一个样 ‘和一个
样方组间的距离定义为该样方与这组中最近一个样方问的距离,两个样方组问的距离定义为两个
组中最近的两个样方间距离[4-51 这类方法最初是基于同一个模型之上 J
Dc + =CtADc^ + BD∞+flD t + lDc —DcBl (1)
995—12—25收稿,l996-10—03修回
维普资讯 http://www.cqvip.com
第 4期 张金屯:以平均距离为基础的两种多元等级聚合新策略 1 9
这 里 Dc
, +n表示样方(或样方,1)c与样方组 A+B之间的距离系数,Dc D∞.D 分别
表示样方 c和 A,样方 c和 B、样方 A和 B之阿的距离系数。 B, 和 都是常数,它们
取不同的值就代表不同的聚合策略,而形成不同的方法
以模型 (I)为基础的方法都是以寻求组间距离摄小化.而没有考虑组内关系 。近年来一些学
者扩展了模型 (1),使其既要考虑组内的距离,也要参考组内样方问的同质性,以求得到更合理
的聚类结果。模型 (1)可 以扩展为 0:
Dc + =gADc + BD∞+ D瑚+ lD 一Dc口l+ cDc+ D^ +五月D日 (2)
这里 Dc,D 和 D 分别表示样方组 c,A和 B组内各样方对之间的平均距离或平方和或方差.
如果 C A和B只有一个样方,则 ,D 和Dh就等于 0,2c,i 雨『^ 是常数。这样 , H ,
, , 2^ , ^的取值不同,将代表不同的聚合策略
这一模型更为通用,可以证明以前的方法都符合该模型,只是它们的 2 ^,2 均等于 0。
基于模型(2),一些学者引入新组内平方和法及新组内方差法等聚合新方法,并在一定范围内
得到了应用 这里我们引入两个以平均距离为基础的多元聚合新策略而产生两种新方法 ,它们
是莉组内平均距离法 (Average distance of rtew duster)和加权平均距离法 (Weighted average
distance)。我们以山西省中条山地区的荆条灌丛数据作为这两种新方法的分析例子。
1 方法
1.1 新组 内平均距离法
该方法把样方和一个样组问的距离定义为组内平均距离,要使得合并后新组 内的平均距离最
小,如果两个样方或两个样方组 A和 B合并为一个耘组 A+B,使得:
D + min{D/S(A+ )) (3)
则它们应摄先合并。所以,该方法也可以叫做新组内平均联结法
要计算组18平均距离,首先要计算组内距离和,即:
D = L ∑ (4)
¨ B 。 {一 B
D ÷ ∑ (5)
这里 D 和 D 口分别代表样方组 A和样方组 A+B的组内距离和。
=( )为样方组A内的样方对的数目: =r : ), 和 分别是样方组A和B所
含的样方数,d 表示样方j和 k问的欧氏距离。同理得:
。c。 亡置 。c 击 d jk 。。 去 + 1
不难看出.当样方组 C和样方组 A+B台并为新组 C+A+B时.新组内的距离和为:
.: ⋯D、 +bpoD +b⋯D 。一6 一 D 一b 。 (6)
维普资讯 http://www.cqvip.com
热带亚热带植物学报 第 4卷
用新组 内距 离和 除以 b 就得到新组 C+A+B的组 内平均距离 ,即 :
Dc
,
A~s= bcA%+鲁Dcs+ DAB- bc Dc- bA DA- bB D8
这里6: 1
、’ ,
/1i=/1C+ + 为新组 C+B+A的样方总数。(7)式是模型(2)的特殊形式
1.2 加权平均距离法
加权平均距离法要使得新组内平均距离增加最小,如果两个样方合并为一组 A+B 只要:
D +日=min {D1S(A+B)一l/2DIS(A)一l/2DIS(B)} (8)
则样方组 A和 B应最先合并,加权平均距离法忽略了样方组的大小,因此,样方组 A+B的平
均距离为 D1S(A+B)=D 8+l/2D^ +1/2D日 (9)
司理:
DIS(C+A)=Dc^ +l/2Dc+l/2 (1o)
DIS(C+B) D +l/2Dc+l/2D8 (11)
样方组 C+A+B的平均距离为 D1S(c+A+B)=Ub [bc.4DIS(C+A)+bc~D1S(C+B)+
6^ 1S(A+B)一6c% 一6 一6 日】 (12)
洋方组 C和 A+B合并前的平均距离为 DIS(C A+B)=l/2D +I/2D1S(A+B) fl31
将 (9)一(11)式代人(12)和(13)式后,并由(12)式减去(13)式,就得到样方组 C和 A+B合并后
的平均距离增加量:
‰坩: %+鲁Des+(半一了1 一 Dc一
D )
(1a)式也是模型 (2)的特殊形式。
以上两个方法的模型系数列人表 l中。
表 1 两种聚台方法的聚台策略 (系散)
Table l Clustering strategies oef n of the two agglomerative me~ods
2 植被数据
本文数据用山西中条山的荆条(Vitex negundo var船f r叩 №)灌丛数据,研究地位于东经
维普资讯 http://www.cqvip.com
第 4期 张金屯:以平均距离为基础的两种多元等级聚合新策略 2
l15=l 5 l12。0O 北纬 35。O0 35。25 .海拔 500—1O00m。年均温 13.3℃ ,7川份均温
26.1℃,元月份均温 一0.8℃,年降水量 667.6ram.群落种类组成丰富。灌木层荆条 占绝对优势,
还有黄刺梅 (Rosa xanthina), 小 叶 鼠李 (Rhamnus parrifolia),红 叶(Cotinus coyyY~3ria vat.
cinerea)等。下层以蒿类 (Artemisia spp),白羊草 (Bothriochloa is幽口Pm“m),披 钊。苔 (Carex
lanceo[ata),翻白草 (Potentilta discolor】等为主。关于群落的生态环境和组成的详细描述见参考
文献[11】。原始数据经简缩后由 3O个植物种和 4l_个样方构成矩阵 该数据曾用模糊等价聚类
(Fuzzy equivalence clustering)和组平均法(Group averaging)进行过分类⋯】.结果 41个样方被
分为 l】个组,代表 l】个群丛,其中包括 3个过渡性明显的群丛⋯1
3 结果分析和讨论
以上数据用本文的两种新方法分析 计算在山西大学生命科学系生态室 AST386微机上完成
两种方法的聚合树状图见图 1
1 0 20 3O 《b) 10 20 aO
I 两种方法的聚合结果 (a)新组内平均距离往 (b)加投平均距离挂
Dendrograms of ca)Average distance of new cluster and(b)Weighted average distance
们 " " 蛐 札蛆 0 ¨ ¨ H¨ ∞“ ¨ ¨” ¨柚蛐
; 他¨H¨ ”¨ ” 柏弛 ∞“ 趴 "鹅蛐 儿 ¨ ” 媳蚰
维普资讯 http://www.cqvip.com
热带亚热带植物学报 第 4卷
新组内平均距离法分类结果 (图 】a)与模糊等价聚类和组平均聚类结果基本一致,将 4】个样
方分为 12个群丛,即{1—5},{6—7j,{8—10}.{l1—1 5j,{l6—17j,{32—33j,{22,25j,
{23—24j,(2O一2lj,{26—3l},{1 8—19j,{34—41}。因此,可以说新组内平均距离法较好地
反映了群落类型之间的关系,分类结果具有明确的生态意义。不同的是它将样方组{22—25j分为
两组:{23—24j,{22,25j。从DCA排序图(图 21上可以看出,样方组{22—25}分布较为松散,
说明组内样方间的相似性或同质性较低.即组内差异较火。所以.该组分为两组也不为怪,说明新
组 内平均距离法分辨力更强。生态分析表明,水分和海拔高度是制约各群丛分异和分布的主要因
子。本文研究地位于中条山主峰以西,来 自东面的湿润气流受主峰阻隔,雨量少于主峰以西地区,
因此群丛多属中旱生类型,如群丛{6—7},{8—10j,{16—1 7j等为典型旱生类型,而群丛 {1
— 5},{l1—1 5},{32—3 3j等为中旱生类型。在海拔较高的地方,水分条件优越,分布着覆盖度
大,生长繁茂的群丛,草本层以喜湿的披针苔草为主,如群丛{22,25},{23—24j,{34—41 j
等。在海拔较低的地方 多分布着中旱生类型,如群丛(6—7),{16—17)等。在同一地方,海拔
影响更明显。详细的生态解释见参考文献fl11
2 41 样 方的 Dctrcndcd Co rrespondence Anal so,is摊 J t-r:l
Fig 2 Detrended Correspondcnce Analysis o rdination plot of 41 quadrats
维普资讯 http://www.cqvip.com
第 4期 张金屯:以正均距离为基础的两种多元等级聚台新策略 23
加权平均距离法分类结果 【图 lb)也是将 41个样 方分 为 l2组,{1—2,4—5j,{3,2O一
2l}.{16一l7).{26—3】),f22,25),f 32—33}.{8一lO},{l1一l 5),{23—24j.{6—7),
{l 8—19},{34—41) 该方法 与模糊 聚类,组平 均法结果基本一致,不 同的 也是 将样 方组
J2—25}分为了两组,这一点同新组 内平均距离法结粜吻合。另外该方法将样方 3与样方组
{20—21)合为一组,这是因为样方3具有过渡性.兼有样方组{1—2.4—5]和样厅组{20—2lj的
特征,这一点可 从 4】个样方的除趋势对应分析 (DCA)排序图上看出来 (图 2) 很H』]显样方 3
介于这两个样方组的中间。
从本文分析来看,新组 内平均距离法和加权平均距离法都是有效的植被数量分类方法。理沦
上讲,这两个方法基于模型(2)之上,比基于模型(1)的多元聚合方法更具优越性,因为.这两个
方法既考虑了组间的距离关系,同时也考虑了组内的同质性 这样聚类 的结果,使得同组内更相
似,而组间距离更岍显,有利于最后的解释 本文所用的数据量不算大,有些优点难于表现 出
来。这两个方法的结果与模糊等价聚类的结粜基本一致,与组平均法也基本吻合,但分辨力较强,
在低级分类中具有优越性,在群落的详细研究中较为适宜。新组内平均距离法和加权平均距离法
具备多元等级聚合分类的基本特征,它们是空间保持,也是单调的,在多元聚类方法中是较好的
方法。模型 (2)比模型(1)更具有代表性,它包含了模型 (1),并且扩展了聚台途径。很可能基 于
这一模型之上,会有更多的新方法出现,这方面需要进一步研究。
这两个新的聚合方法可以使用备种类型的数据。在生态学中.二元数据,各种数量数据或综
合指标均可使用。在其它学科中也是如此。
参考文献
1 Greig~Smith P Quantitative Plant Ecology 3rd Edition.London Blackwcl Scientific Publications.1983
2 Ortoei ll_M ultivarlatc Analys~ in Vegetation Research 2rd ed Junk.The Hague,1978
3 i音熙 .卢 掸愚 .植物 生志学 的数量分娄 方法 ,北京 :科 学 出版 社 .1981
4 张盎屯.植被数量生态学方法 北京:巾围科学拄求出版杜,I 995
5 张盘屯 擅槛数量丹析 法的发展.当代生志学博论 北京:lf国科学控术ll{版社,I992 249—265
6 Lance G N.Williams W A gencral theory of classificatory sorting strategk.s I Hierarchical systems Cornput
J.t967,9:373—380
7 Podan[J New combinatorial clustering methods Vcgctation,1989.8t:61—77
8 Podani J M ultivariate AJxal~is in Ecology and S~ztematics SPB Academic Publishing.Thc Hague— l 994
9 Sneath P H A Sokal R R Numerical Taxonomy 2nd ed Freeman Sun Francisco,1973
10 Anderberg M R Cluster Analys~ for Application W flcy,New Yo rk,1973
11 张盘屯.模糊聚类在荆条灌丛分类t 的丘邝 植物生态学与地植物学丛刊.1 985.9(4):306—3l3
维普资讯 http://www.cqvip.com