全 文 :云南大学学报 (自然科学版), 2003 , 25 (增刊):75 ~ 77 CN 53-1045/N ISSN 0258-7971
Journal of Yunnan University
SAS系统在川百合形态变异式样研究中的运用
何显静1 , 王兵益2 , 虞 泓1 , 3
(1.云南大学 生命科学学院 生态遗传学实验室 , 云南 昆明 650091;
2.云南大学 生命科学学院 生态学与生物资源学重点学科实验室 , 云南 昆明 650091;
3.云南英茂生物技术实验室 ,云南 昆明 650106)
摘要:以川百合 2 个居群形态性状数据为例 , 介绍 SAS8 版本在分析川百合形态变异式样中的具体运用.
包括描述性分析 、巢式方差分析 、R-聚类分析以及 Q -聚类分析.并对各个分析结果进行说明.为快速掌握及
运用 SAS 系统分析物种形态变异式样的相关问题提供帮助.
关键词:SAS 系统;描述统计;巢式方差分析;R-聚类分析;Q-聚类分析
中图分类号:Q949.718.23 文献标识码:A 文章编号:0258-7971(2003)S-0075-03
SAS(statistical analysis sy stem)系统是大型集
成系统.由北卡罗来纳州(North Carolina)州立大
学研制并推出[ 1] .在数据处理和统计分析领域 ,该
系统已成为国际上的标准软件系统 ,广泛运用于解
决社会科学和自然科学中的实际问题.目前为止 ,
SAS 系统已推出了多个版本.其中有最新的基于
Window s的 8版本.该版本在原有的基础上增加了
10多个过程.使 SAS软件内容更加丰富 ,几乎覆盖
了实用数理统计方法的所有方面[ 2] .在 8版本SAS
系统统计分析功能的使用中 ,除通过编程方法外 ,
对一些常用分析功能也可用简便的菜单系统完成.
本文以百合属(Lil ium)卷瓣组(Sect.S ino-
martagon Comber)川 百 合 (Lilium dav idii
Duchartre)[ 3]昆明西山居群(CX)和大理鹤庆居群
(CJ)为研究对象 ,着重介绍运用 8版本进行描述性
分析 、巢式方差分析 、R-聚类分析和 Q -聚类分
析的具体过程.为川百合形态多样性研究提供有效
的分析手段和方法.
1 材料与方法
用直尺和卡尺测量引种于昆明小哨乡英茂实
验室引种驯化基地内的川百合茎基部直径(A)、株
高(B)、植株基部叶长(C)、植株基部叶宽(D)、植
株中部叶长(E)、植株中部叶宽(F)、植株顶部叶
长(G)、植株顶部叶宽(H)、外花瓣长(I)、外花瓣
宽(J)、内花瓣长(K)、内花瓣宽(L)、雌蕊长(M)、
花丝长(N)、花药长(O)和花药宽(P).每一性状
重复测量 3次.以性状为列 ,观察值为行输入各数
据.数值缺损时 ,用“ .”代替.将此数据表存储为带
制表符的纯文本文件.
1.1 DATA步 在编程窗口中写入下列语句:
data sasuser.lily;
input popS indS A B CD E F G H I J K L M N O
P;
cards;
粘贴入纯文本文件中的数据;
run;
在命令框中提交命令后 ,SAS系统便建立了一
个名为“ lily”的 SAS 永久数据库.Data语句指定所
生成的数据库是名为 lily 的永久数据库.input 语
句输入数据库的变量.符号“ S ”指定居群(pop)和
个体(ind)变量为字符型变量.cards语句执行在作
业流中输入数据.标点“ ;”表示数据输入结束.run
语句表示运行.SAS数据集也可在“分析员应用”菜
单空白数据表中直接输入.
1.2 SAS过程步 计算川百合各性状的矩统计量
收稿日期:2003-03-02
基金项目:国家自然科学基金资助项目(31060073);云南大学省级生物技术人才培养基地资助项目.
作者简介:何显静(1976- ),女 ,硕士生 ,主要从事植物生态遗传学研究.
和分位数 ,从而概括各性状的特点 ,用数值描述出多
样性的丰度.这就是简单的描述性分析.可通过下拉
式菜单完成.以川百合顶部叶宽为例 ,过程如下:
选择 Solut ions ※Analysis ※ Interactive Data
Analy sis.打开 Sasuser 库中名为 lily 的数据集.选
择Analyze※Dist ribution(Y),在变量表中点中变
量 H ,再点击 Y 键.将 H 变量指定为要分析的Y
变量.单击 Output 键 ,选择 Moments 表和 Quan-
tiles表 ,点击 OK 键.在输出窗口中 ,SAS 系统给出
了关于 H 变量的矩统计表(Moments表)和分位数
表(Quantiles表).
为了进一步了解川百合形态多样性在居群间
和个体间的分配情况 ,就要进行巢式方差分析.这
一分析可用下列编程语句完成.
proc nested data=sasuser.lily;
class pop ind;
run;
提交命令后 ,输出窗口中则生成了各个性状方
差百分率在居群间以及个体间的分配情况数据表.
Nested语句指定用永久数据库中名为 lily 的数据
集进行巢式方差分析.Class语句指定分析方差百
分率在居群间和个体间的分配情况.
川百合各形态性状间具有相关性.可通过 R-
聚类分析了解它们之间的关系.
proc varclus data=sasuser.lily out tree=O1;
proc tree data=O1 ho rizontal g raphics;
run;
Varclus语句指定用永久数据库中 lily 数据集
进行变量聚类分析 ,并将分析结果输入名为 O1 的
临时数据集中.聚类方法缺损时 ,用主成分分析法.
Tree语句将临时数据集 O1 中储存的结果画成水
平的 、清晰的谱系图.
在以上分析的基础上 ,用类平均法(AVE),最
大似然法(EML)或最短距离法(SIN)等方法对川
百合居群或个体进行聚类分析 ,即 Q-聚类分析.
proc cluster data=sasuser.lily method=ave
std pseudo ccc outt ree=O2;
id=ind;
proc tree data=O2 ho rizontal g raphics;
run;
Cluster语句指定用永久数据库中 lily 数据集
进行系统聚类分析.方法选用类平均聚类法.参数
std要求对数据作标准化变换;pseudo 要求输出伪
F 和伪 t 2 统计量;ccc 要求输出立方聚类准则
(CCC)及 R 2 的近似期望(ERSQ).将结果存入名
为 O2 的临时数据集中.Id语句指定输出结果中识
别个体名.Tree 语句画出谱系图.
2 结果与分析
2.1 描述统计 表 1是变量 H 的矩统计量表.从偏
度值上看 ,变量 H 的分布稍向右边偏斜.从峰度值
可看出变量 H 的分布与正态分布相似.分位数表
(表 2)给出了变量 H 的变异性以及百分位数信息.
表 1 川百合顶叶宽度的矩统计量
Tab.1 The moments of top leaf s w idth of Lilium davidii
名称 数值 名称 数值
平均数 Mean 0.8643 变异系数 CV 25.5813
标准差 std Dev 0.2211 偏度 Skew ness 0.9327
方差 Variance 0.0489 峰度 Kurtosis 0.0616
表 2 川百合顶叶宽度的分位数表
Tab.1 The Quantiles of top leaf s width of Lilium dav idii
百分位数 数值 百分位数/ % 数值
100% Max 2 99.0 2
75% Q 3 1 97.5 1
50% Med 8 95.0 1
25% Q 1 7 90.0 1
0% Min 6 10.0 6
极差 Rang 9 5.0 6
四分位极差 Q3-Q1 3 2.5 6
众数 Mode 7 1.0 6
2.2 巢式方差分析 SAS 系统计算了各个性状在
居群间和个体间的方差分配量.平均有 28.66%的
变异存在于居群间 ,有 71.34%的变异存在于个体
间 ,误差为 0.川百合居群内的多样性大于居群间
的多型性 ,变异主要来自于个体间.
2.3 R-聚类分析 主成分分析将变量分为 4个
类 ,即A ,B ,C ,D类(图 1).这 4类对区分川百合这 2
个居群的贡献率达 73.53%.各类贡献率较为接近.
2.4 Q-聚类分析 从图 2 可以看出川百合 2个
居群的 20个个体相互混杂在一起 ,不易区分.由三
76 云南大学学报(自然科学版) 第 25 卷
类群合并为二类群的过程中 , R 2 值变化最大 ,从
0.412迅速变为 0.122;半偏 R 2 在聚为二类时有
最大值 0.2 904.因此 ,这 20个个体分为 3类最为
合理 ,即 A , B ,C类.A类包括 CX居群的 8个个体
和CJ居群的 3个个体;B类包括CX居群的2个个
体;C 类包括了 CJ居群的 7个个体.
图 1 变量聚类图
F ig.1 Variations collection of illustrative pla tes of L ilium da-
vidii
图 2 系统聚类图
Fig 2.Phy logenetic tree of L ilium davidii
3 讨 论
除描述统计外(也可用 Mean 语句编写),本文
所有运算均用编程语句完成.因为无论是高版本或
低版本 ,编程命令是通用的.在 SAS8版本中 ,巢式
方差分析和聚类分析只有通过编程实现.而在低版
本(6.02)中可进入 Menu 菜单 S TAT 模块 , 选择
Nested或 Cluster ,进入下一级菜单 ,通过选择所需
参数完成运算.然而 ,6.02版本只在 DOS 环境中运
行 ,并且仅有 3个窗口 ,数据的输入和结果的输出
都较为烦琐.8 版本不仅统计功能较为强大 ,而且
不同的窗口间可进行交互运作 ,操作更简便 、更快
捷.
参考文献:
[ 1] 杜荣骞.生物统计学[ M] .北京:高等教育出版社 ,
1999.
[ 2] 高惠璇.实用统计方法与 SAS 系统[ M] .北京:北京大
学出版社 , 2001.
[ 3] 汪发缵 ,唐 进.中国植物志(第 14 卷)百合科[ M] .
北京:科学出版社 , 1980.
Usage of SAS in study the morphological diversity of Lilium davidii Duchartre
HE Xian-jing1 , WANG Bing-yi2 , YU Hong1 , 3
(1.Labora tory of Ecological Genetics , Schoo l of Life Science , Yunnan University , Kunming 650091 , China;
2.Labo rato ry of Key Discipline-Ecology and Bioresource , School of Life Science , Yunnan University , Kunming 650091 , China;
3.I nmol Laboratory of Biotechnolog y , Kunming 650106 , China)
Abstract:Statist ical analysis sy stem(SAS)was used to invest ig ate the morpholog ical diversity of Lilium
davidii Duchartre.The detailed steps , including descriptive analysis , nested analysis ,Q and R cluster analy ses ,
had been presented in this paper.The analytical results suggested that the morphological diversity was in abun-
dance and this statistical analysis system w as a useful tool for diversity study.
Key words:statistical analysis system;descriptive analy sis;nested analy sis;Q-cluster analy ses;R-clus-
ter analyses
77增刊 何显静等:SAS 系统在川百合形态变异式样研究中的运用