免费文献传递   相关文献

Comparison of merged and non-merged similarity clustering analysis methods

合并与不合并:两个相似性聚类分析方法比较



全 文 :
摇 摇 摇 摇 摇 生 态 学 报
摇 摇 摇 摇 摇 摇 摇 渊杂匀耘晕郧栽粤陨 载哉耘月粤韵冤
摇 摇 第 猿猿卷 第 员员期摇 摇 圆园员猿年 远月摇 渊半月刊冤
目摇 摇 次
前沿理论与学科综述
新一代 蕴葬灶凿泽葬贼系列卫星院蕴葬灶凿泽葬贼 愿 遥感影像新增特征及其生态环境意义 徐涵秋袁唐摇 菲 渊猿圆源怨冤噎噎噎噎
两种自然保护区设计方法要要要数学建模和计算机模拟 王宜成 渊猿圆缘愿冤噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎
家域研究进展 张晋东袁灾葬灶藻泽泽葬 匀哉蕴蕴袁欧阳志云 渊猿圆远怨冤噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎
浅水湖泊生态系统稳态转换的阈值判定方法 李玉照袁刘摇 永袁赵摇 磊袁等 渊猿圆愿园冤噎噎噎噎噎噎噎噎噎噎噎噎
辐射传输模型多尺度反演植被理化参数研究进展 肖艳芳袁周德民袁赵文吉 渊猿圆怨员冤噎噎噎噎噎噎噎噎噎噎噎
微囊藻毒素对陆生植物的污染途径及累积研究进展 靳红梅袁常志州 渊猿圆怨愿冤噎噎噎噎噎噎噎噎噎噎噎噎噎噎
个体与基础生态
年龄尧性别及季节因素对千岛湖岛屿社鼠最大活动距离的影响 叶摇 彬袁沈良良袁鲍毅新袁等 渊猿猿员员冤噎噎噎噎
寄主大小及寄生顺序对蝇蛹佣小蜂寄生策略的影响 詹月平袁周摇 敏袁贺摇 张袁等 渊猿猿员愿冤噎噎噎噎噎噎噎噎噎
两种苹果砧木根系水力结构及其 孕灾曲线水分参数对干旱胁迫的响应
张林森袁张海亭袁胡景江袁等 渊猿猿圆源冤
噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎
噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎
三种根系分泌脂肪酸对花生生长和土壤酶活性的影响 刘摇 苹袁赵海军袁仲子文袁等 渊猿猿猿圆冤噎噎噎噎噎噎噎噎
种群尧群落和生态系统
象山港春季网采浮游植物的分布特征及其影响因素 江志兵袁朱旭宇袁高摇 瑜袁等 渊猿猿源园冤噎噎噎噎噎噎噎噎噎
洞头海域网采浮游植物的月际变化 朱旭宇袁黄摇 伟袁曾江宁袁等 渊猿猿缘员冤噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎
狗牙根与牛鞭草在三峡库区消落带水淹结束后的抗氧化酶活力 李兆佳袁熊高明袁邓龙强袁等 渊猿猿远圆冤噎噎噎噎
三亚岩相潮间带底栖海藻群落结构及其季节变化 陈自强袁寿摇 鹿袁廖一波袁等 渊猿猿苑园冤噎噎噎噎噎噎噎噎噎噎
长期围封对不同放牧强度下草地植物和 粤酝真菌群落恢复的影响 周文萍袁向摇 丹袁胡亚军袁等 渊猿猿愿猿冤噎噎噎
北京松山自然保护区森林群落物种多样性及其神经网络预测 苏日古嘎袁张金屯袁王永霞 渊猿猿怨源冤噎噎噎噎噎
藏北高寒草地生态补偿机制与方案 刘兴元袁龙瑞军 渊猿源园源冤噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎
辽东山区次生林生态系统不同林型树干茎流的理化性质 徐天乐袁朱教君袁于立忠袁等 渊猿源员缘冤噎噎噎噎噎噎噎
施氮对亚热带樟树林土壤呼吸的影响 郑摇 威袁闫文德袁王光军袁等 渊猿源圆缘冤噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎
人工高效经营雷竹林 悦韵圆 通量估算及季节变化特征 陈云飞袁江摇 洪袁周国模袁等 渊猿源猿源冤噎噎噎噎噎噎噎噎
新疆典型荒漠区单食性天花吉丁虫磷元素含量对环境的响应 王摇 晶袁 吕昭智袁宋摇 菁 渊猿源源缘冤噎噎噎噎噎噎
双斑长跗萤叶甲越冬卵在玉米田的空间分布型 张摇 聪袁葛摇 星袁赵摇 磊袁等 渊猿源缘圆冤噎噎噎噎噎噎噎噎噎噎噎
舟山群岛四个养殖獐种群遗传多样性和遗传结构 林杰君袁鲍毅新袁刘摇 军袁等 渊猿源远园冤噎噎噎噎噎噎噎噎噎噎
景观尧区域和全球生态
乡镇尺度金塔绿洲时空格局变化 巩摇 杰袁谢余初袁孙摇 朋袁等 渊猿源苑园冤噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎
合并与不合并院两个相似性聚类分析方法比较 刘新涛袁刘晓光袁申摇 琪袁等 渊猿源愿园冤噎噎噎噎噎噎噎噎噎噎噎
资源与产业生态
基于投入产出表的中国水足迹走势分析 王艳阳袁王会肖袁张摇 昕 渊猿源愿愿冤噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎
基于 酝砸陨悦耘杂模型的气候融资模拟分析 朱潜挺袁吴摇 静袁王摇 铮 渊猿源怨怨冤噎噎噎噎噎噎噎噎噎噎噎噎噎噎噎
黄东海陆架区沉积物中磷的形态分布及生物可利用性 张小勇袁杨摇 茜袁孙摇 耀袁等 渊猿缘园怨冤噎噎噎噎噎噎噎噎
鄱阳湖采砂南移扩大影响范围要要要多源遥感的证据 崔丽娟袁翟彦放袁邬国锋 渊猿缘圆园冤噎噎噎噎噎噎噎噎噎噎
温度尧盐度及其互作效应对吉富罗非鱼血清 陨郧云鄄陨与生长的影响 强摇 俊袁杨摇 弘袁王摇 辉袁等 渊猿缘圆远冤噎噎噎
城乡与社会生态
福建省城镇鄄交通系统的景观分隔效应 张天海袁罗摇 涛袁邱全毅袁等 渊猿缘猿远冤噎噎噎噎噎噎噎噎噎噎噎噎噎噎
研究简报
青藏高原高寒草原区工程迹地面积对其恢复植物群落特征的影响 毛摇 亮袁周摇 杰袁郭正刚 渊猿缘源苑冤噎噎噎噎
黄土山地苹果树树体不同方位液流速率分析 孟秦倩袁王摇 健袁张青峰袁等 渊猿缘缘缘冤噎噎噎噎噎噎噎噎噎噎噎噎
期刊基本参数院悦晕 员员鄄圆园猿员 辕 匝鄢员怨愿员鄢皂鄢员远鄢猿员源鄢扎澡鄢孕鄢 预 怨园郾 园园鄢员缘员园鄢猿猿鄢圆园员猿鄄园远
室室室室室室室室室室室室室室
封面图说院 清晨的天山马鹿群要要要家域是动物行为学和保护生物学的重要概念之一袁它在动物对资源环境的适应与选择袁种群
密度及社会关系等生态学过程研究中有着重要的作用遥 马鹿属于北方森林草原型动物袁在选择生境的各种要素中袁
隐蔽条件尧水源和食物的丰富度是最重要的指标遥 野生天山马鹿是中国的特产亚种袁主要分布在北天山深山海拔
员缘园园要猿愿园园皂地带的森林草原中袁在高山至谷地之间不同高度的坡面上袁马鹿按季节尧昼夜变化的不同进行采食遥
彩图及图说提供院 陈建伟教授摇 北京林业大学摇 耘鄄皂葬蚤造院 糟蚤贼藻泽援 糟澡藻灶躁憎岳 员远猿援 糟燥皂
第 33 卷第 11 期
2013 年 6 月
生 态 学 报
ACTA ECOLOGICA SINICA
Vol. 33,No. 11
Jun. ,2013
http: / / www. ecologica. cn
基金项目:河南省基础与前沿技术研究计划项目(河南省昆虫区系研究(082300430370));河南省重点实验室建设专项(河南昆虫地理分布及区
划研究(112300413221))
收稿日期:2012鄄03鄄09; 摇 摇 修订日期:2012鄄12鄄14
*通讯作者 Corresponding author. E鄄mail: renyd@ 126. com
DOI: 10. 5846 / stxb201203090319
刘新涛,刘晓光,申琪,张书杰, 杨党伟, 任应党.合并与不合并:两个相似性聚类分析方法比较.生态学报,2013,33(11):3480鄄3487.
Liu X T, Liu X G, Shen Q, Zhang S J, Yang D W, Ren Y D. Comparison of merged and non鄄merged similarity clustering analysis methods. Acta Ecologica
Sinica,2013,33(11):3480鄄3487.
合并与不合并:两个相似性聚类分析方法比较
刘新涛1,刘晓光1,申摇 琪2,张书杰3, 杨党伟1, 任应党1,*
(1. 河南省农业科学院植物保护研究所, 河南省农作物病虫害防治重点实验室,
农业部华北南部作物有害生物综合治理重点实验室, 郑州摇 450002;
2. 河南中医学院, 郑州摇 450008;3 郑州大学生物工程系, 郑州摇 450001)
摘要:以山西省 4638 种昆虫在 7 个地理小区的分布、内蒙古 7766 种昆虫在 14 个地理小区的分布和中国 16804 属昆虫在 67 个
生态区域的分布 3 组数据为样本,用传统的层层合并的相似性聚类分析法(SCA)和新的不需合并的多元相似性聚类分析法
(MSCA)进行运算分析,对比结果表明,不合并法都能得到既符合统计学逻辑,又符合地理学、生物学逻辑的结果;合并法在参
与小区较少时,还能够得到与不合并法类似的结果,随着参与小区的增多,聚类结构发生变化,以致聚类功能彻底丧失。 无论两
种聚类结果差异大小,其性质都迥然不同:不合并法的相似性系数是固有的、互相独立的、同时存在的,聚类结果是所有小区之
间关系亲疏、距离远近的状态;合并法的每个相似性系数都是合并的依据或结果,前一个系数是后一个系数产生的条件,后一个
系数是前一个系数消亡的结果,严格按照顺序,当最后一个系数产生时,前面所有系数和所有小区都已不复存在,聚类结果只是
记录不断合并、不断消亡的过程。 因此在肯定合并法历史价值的同时,认为申效诚等创建的多元相似性系数公式及多元相似性
聚类分析法摈弃合并降阶这一产生偏差和错误的根源,能够得出相对客观的聚类结果,是生物地理学研究领域有效的聚类分析
工具,必将推动生物地理学定量研究迈入一个新阶段。
关键词:多元相似性聚类分析; 多元相似性系数; 生物地理学
Comparison of merged and non鄄merged similarity clustering analysis methods
LIU Xintao1, LIU Xiaoguang1, SHEN Qi2, ZHANG Shujie3, YANG Dangwei1, REN Yingdang1,*
1 Institute of Plant Protection, Henan Academy of Agricultural Sciences; The Key Laboratory of Crops Pests and Diseases Control of Henan Province; The Key
Laboratory of Integrated Pest Management on Crops in the Southern Region of North China; the Agriculture Ministry of China, Zhengzhou 450002, China
2 Henan University of Traditional Chinese Medicine, Zhengzhou, 450008, China
3 Bioengineering Department of Zhengzhou University, Zhengzhou 450001, China
Abstract: Distribution data of 4638 species in seven geographic regions of Shanxi Province were examined as a small
sample, of 7766 species in 14 geographic regions of Inner Mongolia as a medium sample, and of 16804 genera in 67
ecological regions of China as a large sample. Statistical analyses of the three data groups were conducted separately, using
a traditional merged method (similarity clustering analysis, SCA) and a new non鄄merged method (multivariate similarity
clustering analysis (MSCA)). A critical comparison of the two methods demonstrates that the non鄄merged method can
attain a result suitable for both logistics of biological statistics and geography, regardless of the scale of the data. The
merged method (SCA) may achieve a result closely resembling that of the non鄄merged method when dealing with a fewer
number of geographic regions. However, with an increased number of geographic regions, the clustering structure with the
merged method may create a change at a different level — so much as to cause a complete loss of functionality. Regardless
http: / / www. ecologica. cn
of the magnitude of difference between results of the two kinds of clustering, their nature will be totally different. The non鄄
merged method similarity coefficients are inherent, independent of each other and exist simultaneously, the clustering result
reflects the relationship and distance of all involved geographic regions, and all the coefficients are easily calculated with no
strict orders. In the merged method, however, every coefficient was considered to be founded upon or be the result of
clustering. The non鄄merged coefficient is the basis for the merged coefficient忆s emergence, which is a result of the non鄄
merged coefficient忆s disappearance after merging. All of the calculations depend on input data and the deduced result is
strictly in alphabetical order. It should be noted that the newest or final coefficients were worked out or generated, whereas
the non鄄merged coefficients as well as the involved geographic regions had to be eliminated or discarded. The newest
clustering coefficients were constantly generated, subsequently disappearing with the circulation. MSCA, in agreement with
the value and huge contribution by SCA methods, can correct errors or inaccuracy that caused by merging or descending
order during clustering by SCA method. It especially avoids some lost branches in the clustering result that are very
important to the relationship, and cannot find any similarity level that requires indication in some detail. In summary, the
MSCA method can solve many of the problems of the SCA method. The clustering achieves greater accuracy, which makes
the results fit ecological reality. Also, our modified MSCA method can easily perform macroscopic clustering analysis of
ecosystem data, which has never been completely accomplished before.
Key Words: multivariate similarity clustering analysis; multivariate similarity coefficients; biogeography
1901 年 Jaccard提出的用于生物区系比较的相似性系数计算公式[1],由于简明、准确,迅速得到人们普遍
认可,在生物学等自然科学以及社会科学的众多领域被广泛应用[2],以相似性作为尺度的聚类分析技术
(SCA)也日渐普及。 由于 Jaccard的公式只能计算 2 个地区间的相似性系数,于是“合并降阶冶便成为相似性
聚类分析方法中的核心技术环节,并被奉为经典。 人们在大中型相似性聚类分析的运算中得不到既符合统计
学逻辑,又具有地理学、生物学意义的结果时,往往只怀疑自己的基础数据欠缺,而不去质疑“合并冶的合理
性,只能将研究和数据束之高阁。 申效诚等从创立多元相似性系数计算公式入手[3鄄4],彻底摈弃层层合并的
环节,创建了新的多元相似性聚类分析方法(MSCA) [5鄄6],经过多类群、多地理区域的运算实验[7鄄11],不仅简便
省时,而且聚类能力强大合理。
为了更直接鲜明地对比 SCA和 MSCA由于合并与不合并所产生的差异,选用小、中、大型 3 组数据,分别
用两种方法运算,比较聚类结果。 以便为 MSCA的广泛应用、为生物地理学的发展提供科学依据。
1摇 材料与方法
1. 1摇 材料
所用材料均来自我们建造的中国昆虫分布数据库:山西省 4638 种昆虫在 7 个小区的分布;内蒙古自治区
7766 种昆虫在 14 个小区的分布;中国 16804 属昆虫在 67 个生态区域的分布。
1. 2摇 方法
用 Jaccard的二元相似性系数计算公式将上述材料分别制出 7伊7、14伊14、67伊67 的相似性系数三角矩阵
备用。
1. 2. 1摇 传统的聚类分析法(SCA)
选择相似性系数最大的两个小区首先聚类,将这两个小区的分布资料合并为一个新的小区,使参与聚类
的小区降为 n-1 个,再用 Jaccard的公式计算 n-1 个小区的两两相似性系数,排成 n-1伊n-1 矩阵,重新选择相
似性系数最大的两个小区予以合并,使参与聚类的小区数降为 n-2 个。 如此反复,直至全部小区聚类完成。
最后,根据聚类与合并的顺序作出支序图。
Jaccard公式: SI=C / (A+B-C)
式中,SI是两个小区间的相似性系数,A、B分别是两个小区的种类数,C是两个小区的共有种类数。
1843摇 11 期 摇 摇 摇 刘新涛摇 等:合并与不合并:两个相似性聚类分析方法比较 摇
http: / / www. ecologica. cn
1. 2. 2摇 多元相似性聚类分析法(MSCA)
选择相似性系数最大的两个小区首先聚类,但不将这两个小区的分布资料合并,而是将其视为一个“单
元群冶,与其它没有聚类的 n-2 个小区一同进入下一轮聚类分析。 每轮均挑选相似性系数最大者聚类,扩大
原单元群或形成新的单元群,如此反复,直到聚类完成。 相似性系数采用申效诚等创立的多元相似性系数公
式计算。 最后作出支序图。
申效诚等的公式: SIn =移Hi / nS=(移Si-移Ti) / nS
式中,SIn 是要比较的 n个小区间的相似性系数;Si、Hi、Ti 分别是 i小区的种类数、共有种类数、独有种类数,且
满足 Si-Ti =Hi;S为 n个小区的总种类数。 这些数据都可以从数据库的查询表上直接获得。
两个公式原理完全相同,前者是后者在 n为 2 时的一个特例。 后者是前者在 n大于 2 时的通式。 也即本
文要比较的两个方法的区别在于合并与不合并所引起的差异。
例如表 1 的山西省 7 个小区中,5、6 小区的相似性系数最大(0. 412),合并法是将其合并成一个有 1413
种(974+1021-582)昆虫的新小区,然后全省降为 6 个小区,再重新寻找相似性最大的两个小区予以合并,直
到最后。
不合并法是不将 5、6 小区合并,而是将其视为新的聚类单元进入下一轮比较,当计算新聚类单元(包含
5、6 小区)与其它任一小区(1、2、3、4、7 小区)间的相似性系数时,参与计算的是 3 个小区即 n = 3,在这一轮
中,(5、6)和 3 小区间的相似性系数最大,因此,((5、6)、3)聚在一起形成了新的聚类单元;在下一轮比较时,
将计算((5、6)、3)分别与 1、2、4、7 小区之间的相似性系数(共 4 个),以及(1 和 2)、(1 和 4)、(1 和 7)、(2 和
4)、(2 和 7)、(4 和 7)小区间的相似性系数(共 6 个),挑选其中相似性系数最大者(1 和 4 小区)聚成一类;再
下一轮比较,需要比较的聚类单元有:2 小区、(1、4 小区)、((5、6)、3 小区)和 7 小区,计算相似性系数时,n 值
是实际参与的小区数,如计算(1、4 小区)与((5、6)、3 小区)之间的相似性系数时,实际参与的小区数是 5 个
小区即 n=5。 依次类推,直至全部小区聚类完成。
2摇 结果与分析
2. 1摇 山西省昆虫分布的聚类分析结果比较
山西省共记录 4638 种昆虫,其中有省下分布记录的有 2619 种,分布在 7 个小区内的种类数、共有种类数
及其相似性系数如表 1。
表 1摇 山西省各地理小区的昆虫种类(对角线)、共有种类数(上三角)和相似性系数(下三角)
Table 1摇 The insect species number (on diagonal line), shared species number (above diagonal) and similarity coefficient ( below diagonal) in
every regions in Shanxi Province
地区 Region 1 2 3 4 5 6 7
五台山 855 318 335 361 415 367 437
太行山 0. 288 566 392 277 392 433 332
中条山 0. 218 0. 328 1020 294 433 544 393
恒山 0. 347 0. 331 0. 231 547 392 337 373
晋中平原 0. 294 0. 342 0. 277 0. 347 974 582 497
晋南丘陵 0. 243 0. 375 0. 363 0. 274 0. 412 1021 457
吕梁山 0. 314 0. 275 0. 246 0. 326 0. 343 0. 298 972
使用合并法和不合并法分别得到两个聚类图(图 1,图 2)。
比较图 1 和图 2,图 2 中 7 个小区在相似性系数为 0. 30 时聚为两群。 1、4、7 小区聚为一群,以中低山地
为主,居该省北、西方;其余 4 小区为一群,以平原、丘陵、低山为主,居该省中、东、南部,7 个小区的总相似性
系数为 0. 248。 图 1 中 7 个小区起初并为 3 个新小区,(1、4、7),(2、3),(5、6)各为一新小区。 2、3 为低山,5、
6 则为平原丘陵,生态学意义更为突出,但它们难以以更低的相似性系数合并在一起,其生态学意义在高一级
的聚类中丧失。 7 个小区最后的相似性系数为 0. 308,最多可在 0. 32 处区分成两个新小区,同样找不到辨别 3
2843 摇 生摇 态摇 学摇 报摇 摇 摇 33 卷摇
http: / / www. ecologica. cn
个新小区的相似性水平。 两种聚类方法的结果在地理学、生物学上不存在差异,聚类结构基本没有变化。 在
统计上的差异:第一,相似性系数的含义不同,合并法最后的相似性系数 0. 308 是最终合并成的山地区与平原
区之间的相似性系数,必须层层合并到最后才能完成,完成时,7 个小区已不复存在,支序图只是合并过程图;
不合并法的相似性系数 0. 248 确实是 7 个小区的总相似性系数,它不受聚类过程的影响,也不因聚类结构变
动而变化,甚至可以最先计算出来;第二,合并法在 2、3 合并区和 5、6 合并区之间的相似性系数 0. 382 比 2、3
合并时的系数 0. 328 还高,这种“倒挂冶现象是由合并引起的后果,致使支序图出现“凹陷冶,不再是典型的梯
形结构。
图 1摇 山西省昆虫分布合并法聚类图
摇 Fig. 1 摇 The clustering graph of insect fauna of Shanxi Province
by merge method
图 2摇 山西省昆虫分布不合并法聚类支序图
摇 Fig. 2 摇 The clustering graph of insect fauna of Shanxi Province
by non鄄merged method
2. 2摇 内蒙古自治区昆虫分布的聚类结果比较
内蒙古自治区有昆虫 7766 种,有区下分布记录的共 5543 种。 分布在 14 个小区的种类数、共有种类数和
相似性系数如表 2,两种聚类法得到两个支序图(图 3,图 4)。
表 2摇 内蒙古各地理小区的昆虫种类(对角线)、共有种类数(上三角)和相似性系数(下三角)
Table 2摇 The insect species number (on diagonal line), shared species number (above diagonal) and similarity coefficient ( below diagonal) in
every regions in Inner Mongolia
地区
Region 01 02 03 04 05 06 07 08 09 10 11 12 13 14
01 1466 473 405 342 797 542 391 483 281 502 569 438 433 329
02 0. 222 1134 496 371 380 430 390 561 290 278 453 398 480 411
03 0. 199 0. 308 972 431 338 386 344 504 289 243 392 358 555 420
04 0. 157 0. 204 0. 269 1060 300 301 295 372 266 235 331 277 433 382
05 0. 389 0. 178 0. 168 0. 140 1680 489 395 387 243 558 508 400 392 293
06 0. 259 0. 230 0. 220 0. 156 0. 237 1169 391 472 277 327 605 479 427 314
07 0. 195 0. 232 0. 220 0. 174 0. 206 0. 228 935 418 234 276 436 432 436 342
08 0. 221 0. 315 0. 301 0. 196 0. 176 0. 248 0. 243 1208 298 280 481 446 578 413
09 0. 145 0. 187 0. 201 0. 171 0. 128 0. 168 0. 160 0. 179 758 219 288 245 291 258
10 0. 309 0. 183 0. 175 0. 158 0. 376 0. 218 0. 209 0. 176 0. 183 661 395 311 270 240
11 0. 261 0. 231 0. 211 0. 169 0. 236 0. 328 0. 246 0. 240 0. 165 0. 256 1280 484 451 331
12 0. 232 0. 249 0. 242 0. 183 0. 217 0. 308 0. 316 0. 275 0. 146 0. 256 0. 291 863 422 336
13 0. 182 0. 241 0. 316 0. 220 0. 169 0. 205 0. 237 0. 294 0. 161 0. 156 0. 208 0. 237 1341 452
14 0. 170 0. 271 0. 312 0. 260 0. 156 0. 190 0. 247 0. 260 0. 199 0. 198 0. 190 0. 254 0. 269 794
摇 摇 01 呼伦贝尔高原; 02 锡林格勒高原; 03 乌兰察布高原; 04 阿拉善沙漠; 05 大兴安岭北段; 06 大兴安岭南段;07 赤峰山地; 08 察哈尔; 09
贺兰山; 10 大兴安岭北段山前平原; 11 大兴安岭南段山前平原; 12 辽河上游平原;13 河套地区; 14 鄂尔多斯
图 4 中,在相似性系数 0. 20 的水平上,14 个小区聚为两类,一类内蒙古的东北部,以大兴安岭等山地为
主要地理特征,另一类在内蒙古西南部,以高原沙漠为主要地理特征,14 个小区的总相似性系数为 0. 159。 图
3 中,起初 12 个小区分别合并为 6 个新小区,在以后的 7 次系数计算中,有 3 次出现了“倒挂冶,而且由于合
3843摇 11 期 摇 摇 摇 刘新涛摇 等:合并与不合并:两个相似性聚类分析方法比较 摇
http: / / www. ecologica. cn
图 3摇 内蒙古昆虫分布合并法聚类图
Fig. 3摇 The clustering graph of insect fauna of Inner Mongolia by merge method
图 4摇 内蒙古昆虫分布不合并法聚类支序图
Fig. 4摇 The clustering graph of insect fauna of Inner Mongolia by non鄄merged method
并,第 9 小区贺兰山和第 10 小区大兴安岭北段山前平原面积最小、昆虫种类最少,被排斥在外,直到最后是贺
兰山和全内蒙古的比较,相似性系数为 0. 086,聚类结构产生较大变化,找不到一个合适的相似性水平把 14
个小区划分成几个有统计学和生态学意义的“类冶来。 “并而不类冶,常常是合并法的最终结果。
图 4 中,也出现一次“倒挂冶,2、8 小区之间相似性系数为 0. 315,3、13 小区之间为 0. 316,但 2、8、3 三者的
相似性系数为 0. 317,3 小区只能放弃 13 小区,和 2、8 小区聚在一起,由于 2、8 没有合并,可以将 3 个小区
并列。
2. 3摇 中国昆虫属级分布的聚类结果比较
数据库记录到的中国昆虫共 91179 种,隶属于 16804 属,按生态条件将全国分成 67 个基础地理单元,对
于 16904 属在 67 个单元中的分布,用两个聚类方法得到两个支序图(图 5,图 6)。
图 6 中,67 个基础地理单元在相似性系数为 0. 25 时,聚合为 9 群,每群所辖单元在地理上都相邻相连,在
昆虫区系性质上都具有相同或相似的成分构成,可以不加任何修饰地作为我国昆虫的 9 个分布区。 图 5 中,
67 个单元最后合并成两区,一个是由 5 个单元合并,包括东北的小兴安岭、三江平原,西北的阿尔泰山,和新
疆南部的帕米尔高原、昆仑山,违背地理学逻辑;另一个由其余 62 个单元合并而成,没有生态学和生物地理学
价值。 66 个相似性系数中,除去 23 个有意义的最低层次系数外,其余 43 个中有 21 个系数是倒挂的。 整个过
程,除是一场数字游戏外,没有出现任何有积极意义的结果。
3摇 结论与讨论
3. 1摇 两种聚类方法的差异显而易见,随着比较单元的增多愈加剧烈
摇 摇 使用同一组数据,两种聚类分析方法得到不同的结果,而且随着参与比较的地理单元的增多,差异愈加剧
4843 摇 生摇 态摇 学摇 报摇 摇 摇 33 卷摇
http: / / www. ecologica. cn
图 5摇 中国昆虫属级分布合并法支序图
摇 Fig. 5 摇 The clustering graph of generic fauna from China by
merge method
图 6摇 中国昆虫属级分布不合并法支序图
摇 Fig. 6摇 The clustering graph of generic fauna from China by non鄄
merged method
烈,从相似性系数大小,到聚类结构变化,再到聚类功能丧失与否。 这不是使用计算公式的错误,而是由于合
并改变了原参与小区资料的性质所引发的变化。 在参与比较的地理单元较少时(例如 7 个以下),聚类结构
还不至于发生不合理变动,聚类结果还有一些应用价值。 参与小区达到 10 个以上,聚类结果则难堪相信。 所
以目前聚类分析的报道多是较少地理单元的应用,多地理区域、多单元参与的报告寥若晨星。 这也是人们已
经看到合并法的应用局限性的结果。
两种方法的计算,简便程度也差别颇大。 以手工计算为例,从制成二元相似性系数表开始,到绘出支序图
5843摇 11 期 摇 摇 摇 刘新涛摇 等:合并与不合并:两个相似性聚类分析方法比较 摇
http: / / www. ecologica. cn
为止,合并法和不合并法的 3 个对比分别为 130min和 50min,4. 5h和 1. 8h,7d和 2d。 合并法所浪费的时间主
要在合并数据的环节。
3. 2摇 两种聚类方法的性质迥然不同,认识须逐步到位
无论两种方法的结果差异大小,即使完全相同的情况下,其性质也决然不同。 不合并法的每一个相似性
系数都是所辖小区的共同的相似性关系,不受所辖小区之间的聚类顺序变动的影响;每一个系数都是独立的,
它的产生没有顺序,既可从下到上,也可从上到下,又可从中间任何层次算起;所有系数都是同时存在的。 所
以,不合并法的支序图是一个“状态冶,一个所参与地理单元在共同存在的情况下表明彼此关系亲疏、距离大
小的状态。
合并法的每一个相似性系数都是有关小区经过多次合并而成的两个新小区的相似性关系,受有关小区之
间的合并顺序变动的影响;每一个系数都不是独立的,它的产生遵循从下到上的顺序,前一个系数是后一个系
数产生的条件,后一个系数是前一个系数消亡的结果;所有系数都不可能同时存在。 所以,合并法的支序图是
一个“过程冶,一个所参与地理单元不断消亡新单元不断产生的过程,一个不断肯定又不断否定的过程。
相似性系数越聚越高的“倒挂冶是两个方法都遇到的现象,但其性质也不相同。 不合并法的倒挂是由于
涉及到的 3 个或 4 个小区互相都有较高的相似性,聚类后的共同相似性系数更高的罕见现象,只出现在聚类
过程中的初级层次,极少出现在较高层次,出现频次不高,出现时可以用并列法表示;合并法中的倒挂是由于
合并后的两个新小区之间的较高的相似性,它主要出现在合并过程的较高层次,而且频次很高,几占较高层次
的 1 / 2。 由于涉及到的小区已经合并,没有办法再把已经合并消失掉的它们并列,只能使支序图出现凹陷,失
去正常的梯形结构。
3. 3摇 合并法的历史作用值得肯定,终结其历史阶段的条件已经具备
1848 年,植物学领域首先提出相似性的概念,1901 年,Jaccard 提出了计算两个地区间生物区系的相似性
系数公式,由于其简便性、科学性,迅速得到科学界认可。 此后,人们又相继提出 40 余个相似性公式,但都未
动摇 Jaccard公式的经典地位,成为多学科、多领域中相似性计算的最基础、最常用、最直观方法。 由于
Jaccard公式不能计算多地区的相似性系数,在相似性聚类分析中采用“合并降阶冶的办法,能够在较少小区比
较时得到相对满意的结果,实现了人们多区比较的愿望,使生物地理由定性研究向定量研究发展迈出了第一
步,其历史性价值不容低估。 随着其局限性的逐渐显现,人们曾试图对合并后的二元系数进行修饰改良[12],
但由于未脱离合并的窠臼,也难以达到预期的效果。 因此在经历了短期的热情之后,众多领域的中大型聚类
需求得不到满足,其积极作用便逐渐消失,以致成为制约生物地理发展的瓶颈。 申效诚等人创建的多元相似
性系数公式及 MSCA法,彻底摈弃合并降阶这一产生偏差和错误的根源,能够得出相对客观的聚类结果,是生
物地理学研究领域有效的聚类分析工具,必将使生物地理学的定量研究迈入一个新阶段。
References:
[ 1 ]摇 Jaccard P. Distribution de la flore alpine dans le Bassin des Dranses et dams quelque region vasines. Bulletin de la Societe vaudoise des Sciences
naturelles. Lausanne. 1901,37: 241鄄272.
[ 2 ] 摇 Zhan Y L. Coeeficient of Similarity An Important Parameter in Floristic Geography, Geographical Research, 1998, 17(4): 429鄄434
[ 3 ] 摇 Shen X C, Sun H, Zhao H D. A discussion about the method for multivariate similarity analysis of fauna. Acta Ecologica Sinica, 2008, 28(2):
849鄄854.
[ 4 ] 摇 Shen X C, Wang A P. A Simple Formula for Multivariate Similarity Coefficient and Its Contribution Rate in Analysis of Insect Fauna. Journal of
Henan Agricultural Sciences, 2008,(7):67鄄69.
[ 5 ] 摇 Shen X C, Wang A P. Zhang S J. Studies on the Fauna of Noctuidae摇 域. Distribution and Similarity of Noctuidae in China. Acta Agriculturae
Boreali鄄Sinica, 2008, 23(5):151鄄156.
[ 6 ] 摇 Shen X C, Zhang S J, Ren Y D. The elements of insect fauna in China and distribution characteristics. Journal of Life Science, 2009, 3(7):
19鄄25.
[ 7 ] 摇 Zhao H D, Shen X C. A study on the Biogeography of Family Arctiidat in China / / Shen X C, Zhang R Z, Ren Y D. Classification and Distribution
6843 摇 生摇 态摇 学摇 报摇 摇 摇 33 卷摇
http: / / www. ecologica. cn
of Insects in China,Beijing: China Agricultural Science and Technology Press, 2008, 381鄄388.
[ 8 ] 摇 Sheng M L, Shen X C. Distribution and Multivariate Similarity Clastering Analysis of Ichneumonidae in Every Provinces, China / / Shen X C, Zhang
R Z, Ren Y D. Classification and Distribution of Insects in China,Beijing: China Agricultural Science and Technology Press, 2008, 389鄄393.
[ 9 ] 摇 Shen X C, Ren Y D, Wang A P. Zhang S J. A multivariate similarity clustering analysis for geographical distribution of insects,spiders and mites
in Henan Province. Acta Ecologica Sinica, 2010, 30(16): 4416鄄4426.
[10] 摇 Shen X C, Sun H, Ma X J. The multivariate similarity clustering analysis for 40,000 species of insect and spider fauna in China. Journal of Life
Science, 2010, 4(2): 35鄄40.
[11] 摇 Ren Y D, Shen X C, Sun H, Ma X J. The Fauna Element and Geographical Distribution of Insect, Spider and Mite in Henan, China. Acta
Agriculturae Boreali鄄Sinica, 2011, 26(1):204鄄209
[12]摇 Ward J H. Heirarchical grouping to optimize an objective function. Journal of the American Statistical Association. 1963, 58: 236鄄244.
参考文献:
[ 2 ]摇 张镱锂. 植物区系地理研究中的重要参数———相似性系数. 地理研究,1998,17(4):429鄄434.
[ 3 ] 摇 申效诚,孙浩,赵华东. 昆虫区系多元相似性分析方法. 生态学报,2008,28(2):849鄄854.
[ 4 ] 摇 申效诚,王爱萍. 昆虫区系多元相似性的简便计算方法及其贡献率. 河南农业科学,2008,(7):67鄄69.
[ 5 ] 摇 申效诚,王爱萍,张书杰. 夜蛾科昆虫区系研究摇 域.中国各省区夜蛾的分布及相似性分析. 华北农学报,2008,23(5):151鄄156.
[ 6 ] 摇 申效诚, 张书杰, 任应党. 中国昆虫区系成分构成及其分布特点. 生命科学,2009,3(7):19鄄25.
[ 7 ] 摇 赵华东,申效诚. 中国灯蛾科昆虫的生物地理学研究 / /申效诚,张润志,任应党.昆虫分布与分类. 北京:中国农业科学技术出版社,2008,
381鄄388.
[ 8 ] 摇 盛茂领,申效诚. 中国各省区姬蜂科昆虫的分布及多元相似性聚类分析 / /申效诚,张润志,任应党.昆虫分布与分类. 北京:中国农业科学
技术出版社,2008,389鄄393.
[ 9 ] 摇 申效诚,任应党,王爱萍,张书杰. 河南昆虫、蜘蛛、蜱螨地理分布的多元相似性聚类分析.生态学报,2010,30(16):4416鄄4426.
[10] 摇 申效诚,孙浩,马晓静. 中国 40000 种昆虫蜘蛛区系的多元相似性聚类分析. 生命科学,2010,4(2):35鄄40.
[11] 摇 任应党,申效诚,孙浩,马晓静. 河南昆虫、蜘蛛、蜱螨的区系成分和分布地理研究. 华北农学报,2011,26(1):204鄄209.
7843摇 11 期 摇 摇 摇 刘新涛摇 等:合并与不合并:两个相似性聚类分析方法比较 摇
叶生态学报曳圆园员猿年征订启事
叶生态学报曳是由中国科学技术协会主管袁中国生态学学会尧中国科学院生态环境研究中心主办的生态学
高级专业学术期刊袁创刊于 员怨愿员 年袁报道生态学领域前沿理论和原始创新性研究成果遥 坚持野百花齐放袁百家
争鸣冶的方针袁依靠和团结广大生态学科研工作者袁探索自然奥秘袁为生态学基础理论研究搭建交流平台袁促
进生态学研究深入发展袁为我国培养和造就生态学科研人才和知识创新服务尧为国民经济建设和发展服务遥
叶生态学报曳主要报道生态学及各分支学科的重要基础理论和应用研究的原始创新性科研成果遥 特别欢
迎能反映现代生态学发展方向的优秀综述性文章曰研究简报曰生态学新理论尧新方法尧新技术介绍曰新书评价和
学术尧科研动态及开放实验室介绍等遥
叶生态学报曳为半月刊袁大 员远 开本袁猿园园 页袁国内定价 怨园 元 辕册袁全年定价 圆员远园 元遥
国内邮发代号院愿圆鄄苑袁国外邮发代号院酝远苑园
标准刊号院陨杂杂晕 员园园园鄄园怨猿猿摇 摇 悦晕 员员鄄圆园猿员 辕 匝
全国各地邮局均可订阅袁也可直接与编辑部联系购买遥 欢迎广大科技工作者尧科研单位尧高等院校尧图书
馆等订阅遥
通讯地址院 员园园园愿缘 北京海淀区双清路 员愿 号摇 电摇 摇 话院 渊园员园冤远圆怨源员园怨怨曰 远圆愿源猿猿远圆
耘鄄皂葬蚤造院 泽澡藻灶早贼葬蚤曾怎藻遭葬燥岳 则糟藻藻泽援 葬糟援 糟灶摇 网摇 摇 址院 憎憎憎援 藻糟燥造燥早蚤糟葬援 糟灶
本期责任副主编摇 朱永官摇 摇 摇 编辑部主任摇 孔红梅摇 摇 摇 执行编辑摇 刘天星摇 段摇 靖
生摇 态摇 学摇 报渊杂匀耘晕郧栽粤陨摇 载哉耘月粤韵冤渊半月刊摇 员怨愿员 年 猿 月创刊冤
第 猿猿 卷摇 第 员员 期摇 渊圆园员猿 年 远 月冤
粤悦栽粤 耘悦韵蕴韵郧陨悦粤 杂陨晕陨悦粤摇渊杂藻皂蚤皂燥灶贼澡造赠袁杂贼葬则贼藻凿 蚤灶 员怨愿员冤摇灾燥造郾 猿猿摇 晕燥郾 员员 渊允怎灶藻袁 圆园员猿冤
编摇 摇 辑摇 叶生态学报曳编辑部
地址院北京海淀区双清路 员愿 号
邮政编码院员园园园愿缘
电话院渊园员园冤远圆怨源员园怨怨憎憎憎援 藻糟燥造燥早蚤糟葬援 糟灶泽澡藻灶早贼葬蚤曾怎藻遭葬燥岳 则糟藻藻泽援 葬糟援 糟灶
主摇 摇 编摇 王如松
主摇 摇 管摇 中国科学技术协会
主摇 摇 办摇 中国生态学学会
中国科学院生态环境研究中心
地址院北京海淀区双清路 员愿 号
邮政编码院员园园园愿缘
出摇 摇 版摇
摇 摇 摇 摇 摇 地址院北京东黄城根北街 员远 号
邮政编码院员园园苑员苑
印摇 摇 刷摇 北京北林印刷厂
发 行摇
地址院东黄城根北街 员远 号
邮政编码院员园园苑员苑
电话院渊园员园冤远源园猿源缘远猿耘鄄皂葬蚤造院躁燥怎则灶葬造岳 糟泽责早援 灶藻贼
订摇 摇 购摇 全国各地邮局
国外发行摇 中国国际图书贸易总公司
地址院北京 猿怨怨 信箱
邮政编码院员园园园源源
广告经营
许 可 证摇 京海工商广字第 愿园员猿 号
耘凿蚤贼藻凿 遭赠摇 耘凿蚤贼燥则蚤葬造 遭燥葬则凿 燥枣
粤悦栽粤 耘悦韵蕴韵郧陨悦粤 杂陨晕陨悦粤
粤凿凿院员愿袁杂澡怎葬灶早择蚤灶早 杂贼则藻藻贼袁匀葬蚤凿蚤葬灶袁月藻蚤躁蚤灶早 员园园园愿缘袁悦澡蚤灶葬
栽藻造院渊园员园冤远圆怨源员园怨怨
憎憎憎援 藻糟燥造燥早蚤糟葬援 糟灶
泽澡藻灶早贼葬蚤曾怎藻遭葬燥岳 则糟藻藻泽援 葬糟援 糟灶
耘凿蚤贼燥则鄄蚤灶鄄糟澡蚤藻枣摇 宰粤晕郧 砸怎泽燥灶早
杂怎责藻则增蚤泽藻凿 遭赠摇 悦澡蚤灶葬 粤泽泽燥糟蚤葬贼蚤燥灶 枣燥则 杂糟蚤藻灶糟藻 葬灶凿 栽藻糟澡灶燥造燥早赠
杂责燥灶泽燥则藻凿 遭赠摇 耘糟燥造燥早蚤糟葬造 杂燥糟蚤藻贼赠 燥枣 悦澡蚤灶葬
砸藻泽藻葬则糟澡 悦藻灶贼藻则 枣燥则 耘糟燥鄄藻灶增蚤则燥灶皂藻灶贼葬造 杂糟蚤藻灶糟藻泽袁 悦粤杂
粤凿凿院员愿袁杂澡怎葬灶早择蚤灶早 杂贼则藻藻贼袁匀葬蚤凿蚤葬灶袁月藻蚤躁蚤灶早 员园园园愿缘袁悦澡蚤灶葬
孕怎遭造蚤泽澡藻凿 遭赠摇 杂糟蚤藻灶糟藻 孕则藻泽泽
粤凿凿院员远 阅燥灶早澡怎葬灶早糟澡藻灶早早藻灶 晕燥则贼澡 杂贼则藻藻贼袁
月藻蚤躁蚤灶早摇 员园园苑员苑袁悦澡蚤灶葬
孕则蚤灶贼藻凿 遭赠摇 月藻蚤躁蚤灶早 月藻蚤 蕴蚤灶 孕则蚤灶贼蚤灶早 匀燥怎泽藻袁
月藻蚤躁蚤灶早 员园园园愿猿袁悦澡蚤灶葬
阅蚤泽贼则蚤遭怎贼藻凿 遭赠摇 杂糟蚤藻灶糟藻 孕则藻泽泽
粤凿凿院员远 阅燥灶早澡怎葬灶早糟澡藻灶早早藻灶 晕燥则贼澡
杂贼则藻藻贼袁月藻蚤躁蚤灶早 员园园苑员苑袁悦澡蚤灶葬
栽藻造院渊园员园冤远源园猿源缘远猿
耘鄄皂葬蚤造院躁燥怎则灶葬造岳 糟泽责早援 灶藻贼
阅燥皂藻泽贼蚤糟 摇 摇 粤造造 蕴燥糟葬造 孕燥泽贼 韵枣枣蚤糟藻泽 蚤灶 悦澡蚤灶葬
云燥则藻蚤早灶 摇 摇 悦澡蚤灶葬 陨灶贼藻则灶葬贼蚤燥灶葬造 月燥燥噪 栽则葬凿蚤灶早
悦燥则责燥则葬贼蚤燥灶
粤凿凿院孕援 韵援 月燥曾 猿怨怨 月藻蚤躁蚤灶早 员园园园源源袁悦澡蚤灶葬
摇 陨杂杂晕 员园园园鄄园怨猿猿悦晕 员员鄄圆园猿员 辕 匝 国内外公开发行 国内邮发代号 愿圆鄄苑 国外发行代号 酝远苑园 定价 怨园郾 园园 元摇