数据统计分析不充分或不正确,是导致中国科研工作者在国际期刊投稿中遭拒的主要原因之一。过去20年,统计方法学及计算机软件在统计应用方面已有重大进展。但是,大多数中国植物病理学家仍然使用传统的方差分析或普通的分析方法去分析一些数据,而这些数据其实可用更合适的方法分析。本文简要介绍一些适于植物病理学常见数据的统计分析方法,希望对广大科研工作者有所帮助,也希望加强与应用统计学家的科研合作。
One of main reasons for rejection of manuscript written by Chinese scientists by international journals is the inadequate or incorrect statistical data analysis. Over the last two decades, there have been significant developments in statistical methodology and implementation of statistics as computer software. However, most plant pathologists in China are still using conventional ANOVA or ordinary analysis for types of data that should be analyzed by more appropriate methods. In this short paper, we briefly introduce some statistical methods that are most likely to be appropriate for common data types encountered in plant pathology. We hope this would enable researchers to read more in a particular topic and to collaborate with applied statisticians.
全 文 :植物病理学报
ACTA PHYTOPATHOLOGICA SINICA 45(1): 1 ̄6(2015)
收稿日期: 2014 ̄02 ̄06ꎻ 修回日期: 2014 ̄10 ̄14
基金项目: 国家自然科学基金资助项目(31471731)ꎻ高等学校学科创新引智计划(B07049)ꎻ“后稷学者”人才专项(Z111021008)资助
通讯作者: 胡小平ꎬ教授ꎬ主要从事植物病害流行学研究ꎻE ̄mail: xphu@nwsuaf.edu.cn
第一作者: 徐向明ꎬ研究员ꎬ主要从事植物抗病遗传及病害流行学研究ꎻE ̄mail: xiangming.xu@emr.ac.ukꎮ
doi:10.13926 / j.cnki.apps.2015.01.001
专题评述
植物病理学中常见数据的统计分析方法
徐向明1ꎬ2ꎬ 胡小平1∗
( 1西北农林科技大学植物保护学院 /旱区作物逆境生物学国家重点实验室ꎬ中国 杨凌 712100ꎻ 2东茂林研究所ꎬ英国 肯特州郡 ME19 6BJ)
摘要:数据统计分析不充分或不正确ꎬ是导致中国科研工作者在国际期刊投稿中遭拒的主要原因之一ꎮ 过去 20年ꎬ统计方
法学及计算机软件在统计应用方面已有重大进展ꎮ 但是ꎬ大多数中国植物病理学家仍然使用传统的方差分析或普通的分
析方法去分析一些数据ꎬ而这些数据其实可用更合适的方法分析ꎮ 本文简要介绍一些适于植物病理学常见数据的统计分
析方法ꎬ希望对广大科研工作者有所帮助ꎬ也希望加强与应用统计学家的科研合作ꎮ
关键词:一般线性模型ꎻ 广义线性模型ꎻ 方差分析ꎻ 植物病理学
Statistical analysis of data commonly occurred in plant pathology XU Xiang ̄ming1ꎬ2ꎬ
HU Xiao ̄ping1 ( 1State Key Laboratory of Crop Stress Biology in Arid Areas and College of Plant Protectionꎬ Northwest
A&F Universityꎬ Yangling 712100ꎬ Chinaꎻ 2East Malling Researchꎬ Kentꎬ ME19 6BJꎬ UK)
Abstract: One of main reasons for rejection of manuscript written by Chinese scientists by international journals
is the inadequate or incorrect statistical data analysis. Over the last two decadesꎬ there have been significant de ̄
velopments in statistical methodology and implementation of statistics as computer software. Howeverꎬ most
plant pathologists in China are still using conventional ANOVA or ordinary analysis for types of data that should
be analyzed by more appropriate methods. In this short paperꎬ we briefly introduce some statistical methods that
are most likely to be appropriate for common data types encountered in plant pathology. We hope this would en ̄
able researchers to read more in a particular topic and to collaborate with applied statisticians.
Key words: general linear modelꎻ generalized linear modelꎻ ANOVAꎻ plant pathology
中图分类号: S431.2ꎻ S431.3 文献标识码: A 文章编号: 0412 ̄0914(2015)01 ̄0001 ̄06
对于科研工作者而言ꎬ在同行审阅的国际期刊
上发布研究结果是有压力的ꎮ 由于投稿数量不断
增加ꎬ而期刊的卷(期)并未同步增长ꎬ导致拒稿率
不断提高ꎮ 作者曾与一些国际期刊资深编辑进行
讨论ꎬ大家认为研究者特别是中国科研工作者稿件
被拒的主要原因之一是使用不恰当的统计方法分
析数据ꎬ并从中得出结论ꎮ 还有ꎬ即使使用了正确
的统计方法ꎬ但没有在文章中清楚地呈现ꎮ 本文旨
在介绍植物病理学中常见数据相关的统计方法新
进展ꎬ以期对科研工作者的数据分析有所帮助ꎮ
1 植物病理学中常见的数据类型
使用恰当的统计方法分析试验数据才能得出
客观的结论ꎮ 人们感兴趣的变量有它固有的变异
性ꎬ无论怎样很好地实施试验ꎬ变量在重复单元之
间或重复试验之间总会有差异ꎮ 人们几乎不可能
观察到感兴趣的总(群)体ꎬ而只能开展试验去研
究感兴趣总体的样本ꎬ从样本推断总体会有很多不
确定性ꎬ需要统计和量化这些不确定性ꎮ 必须强调
的是除了正确的数据统计分析外ꎬ恰当的试验设计
植物病理学报 45卷
也很关键ꎮ 这里暂不讨论试验设计中的区组、随机
化和重复问题ꎮ
常规方差分析是科研工作者最熟悉的方法ꎮ
该方法有 4 个假设ꎬ即:(1)每个数据相互独立ꎻ
(2)残差呈正态分布ꎻ(3)残差方差相等(或“同质
化”)ꎻ(4)残差和平均数(处理效应)是加性的ꎮ
任何违反一个或多个假设都会导致常规方差分析
结论在不同程度上的不准确性ꎮ 统计分析和后续
的显著性检验主要取决于数据的分布特征ꎮ 这里
先介绍植物病理学中一般数据类型的特征ꎮ
1.1 发病率
通常以统计一个小区发病植株(或植株单元ꎬ
如叶片)的数目ꎬ或者估计发病植株所占的比率为
基础ꎬ推测病叶率、病果率或病株率等ꎮ 另一种数
据类型是百分率ꎬ如萌发率ꎬ数字(频数)和比率都
可以使用ꎮ 例如ꎬ20 片叶中有 10 片发病ꎬ就等于
50%的病叶率ꎮ 但必须注意的是ꎬ当使用比率数据
时ꎬ必须给出评估单元的总数量ꎬ因为它会影响比
率的准确性(或不确定性)ꎮ 例如ꎬ将 2 个中有 1
个发病的比率与 20个中有 10个发病的比率相比ꎬ
人们更相信后者ꎮ
从评估单元的角度来看ꎬ一个单元只能是发生
病害或者未发生病害两种类型ꎬ因此发病率是一个
二进制变量ꎮ 从整体来看ꎬ发病率是一个含有自然
分母(总数)的可计数变量ꎮ 例如ꎬ在总的评估单
元数目中发病单元所占的数目(Y / NꎬY ̄发病的数
目ꎬN ̄观察的总数目ꎬ如 5 / 10)ꎮ 可以看出ꎬ发病率
应遵循平均数为 p 和方差为 p(1-p) / N 的二项分
布ꎬ当样本容量 (N)很大时ꎬ发病率可以近似为一
个连续变量ꎬ近似于正态分布ꎮ 以前ꎬ在普通的回
归分析中ꎬ推荐用反正弦函数对发病率数据进行转
换ꎬ从而使发病率数据更近于正态分布ꎮ 随着统计
理论和计算能力方面的进步ꎬ这种分析方法通常不
再被使用ꎬ而是在假定发病率数据符合二项分布的
条件下ꎬ采用广义线性回归法分析ꎮ
1.2 病害严重度
病害严重度是衡量植物组织相对的或绝对的
发病面积ꎮ 对于很多病害而言ꎬ严重度是植物表面
的病斑面积ꎬ通常用占整个植物(观察单元)面积
的比例或百分数表示ꎮ 观察单元可以是叶片、根、
茎、果实等ꎮ 当观察值是面积(相对的或绝对的)
时ꎬ严重度就是一个连续变量ꎬ可以用很多连续变
量分布中的一个来描述ꎬ包括正态分布ꎮ 因此ꎬ这
些数据经一定转换后ꎬ可以使用普通回归模型进行
分析ꎮ
1.3 病害分级
与发病率相比ꎬ病害严重度是一个更准确的指
标ꎬ开发病害分级标准有助于对病害的评估ꎬ但很
耗时ꎮ 分级通常是发病程度的顺序排列ꎬ属有序分
类变量ꎮ 在对这类数据进行分析时必须注意几个
问题:除非病害级数在病害严重度上是线性的ꎬ否
则计算平均级数值是无意义的ꎮ 举一个例子来说
明这个问题ꎮ 假定一种病害有 4 个级别:0 级ꎬ无
病ꎻ1级ꎬ0<发病面积⩽5%ꎻ2 级ꎬ5%<发病面积<
25%ꎻ3级ꎬ发病面积⩾25%ꎮ 在调查的 20 张叶片
中 0级病叶 10 张ꎬ2 级病叶 10 张时ꎬ其平均病级
数是 1.0ꎬ这完全不同于 20 片叶均为 1 级的情况ꎬ
前者的发病面积大约在 6.6%ꎬ后者大约在 2.5%ꎮ
由于病害级数在病害严重度上是非线性的ꎬ计
算平均数和采用传统的方差分析法分析病害级数
数据是不正确的ꎮ 对于这种类型的数据有 2 种分
析方法可以使用:第一种ꎬ在分析数据之前ꎬ先将病
害级数转换回到病害严重度(每一个级数等于该
级数病害严重度的平均值ꎻ在上面的例子中ꎬ1 级
为相当于 2.5%病害严重度)ꎮ 第二种ꎬ可以采用基
于多项分布的广义线性模型ꎬ这种方法叫做比例优
势模型(Proportional Odds Model ̄POM)ꎮ
1.4 病害密度
对于很多病害来说ꎬ统计每个植株或单位面积
上的病斑数(或其他侵染单元)ꎬ常被当作一种严
重度ꎮ 例如ꎬ估计每张叶片上的白粉病斑数或锈菌
孢子堆数ꎮ 虽然它是一个计数变量ꎬ但与发病率数
据不同的是它没有固有的自然分母ꎮ 例如ꎬ人们并
不知道叶片上孢子堆或病斑可能的最大数量ꎮ 同
样的ꎬ来自于孢子捕捉器的孢子数也可以作为病害
密度的测量指标ꎮ 对于这种计数数据可以用泊松
分布、负二项分布等来描述ꎮ 以前是先将病害密度
数据进行对数转换ꎬ然后进行普通回归分析ꎬ现在
应该假定数据符合泊松分布的条件下使用广义线
性模型进行分析ꎮ 通常一张叶片上的病斑分布不
是随机分布ꎬ而是受局部传播或微气候条件的影响
呈聚集分布ꎮ 在这种情况下ꎬ可以假定数据符合负
2
1期 徐向明ꎬ等:植物病理学中常见数据的统计分析方法
二项分布ꎬ采用广义线性模型进行分析ꎮ
1.5 相关联的观测值
在植物病理学研究中ꎬ人们不仅仅对某一时间点
上病害的发展感兴趣ꎬ对特定样本或处理病害的时间
动态更感兴趣ꎬ而且了解病害的时间发展动态对病害
管理是至关重要的ꎮ 这类数据叫作重复测量数据ꎬ但
同一个处理的时序观测值间有相关性ꎮ 例如ꎬ第一次
观测的发病率是 10%ꎬ那么第二次观测的结果不应小
于 10%ꎮ 同样的ꎬ有时候开展试验的田间小区可能与
相邻田块是关联的ꎬ这样就会导致观测值中的非处理
相关性ꎮ 例如ꎬ病害发展通常从一个位点开始ꎬ从这
一点产生的孢子就会局部传播ꎬ导致相邻小区菌源量
水平与之相似ꎬ与远处小区不同ꎮ
在撰写试验报告时ꎬ要注意术语混淆问题ꎮ 准
确度是指观察值与真实值之间的接近程度ꎮ 精确
度是指同一个处理不同观察值之间的彼此接近程
度ꎮ 通常并不知道试验的真实值ꎬ因此无法得到准
确度ꎬ只能得到较高的精确度(更高的重复性)ꎮ
2 统计分析的基本原理
试验的目的是为了评估处理效应的大小和与
其它变量间的关系ꎬ以及估计这些关系的不确定程
度ꎮ 统计分析作为一种工具是为了达到估计参数
及其不确定性ꎮ 假设目的变量(如病害严重度)遵
循某一分布ꎬ通常利用算数平均数和方差去概括该
分布特征ꎮ 平均值表示的是分布的中心位点ꎬ而方
差表示的是从中心位点的分散程度ꎮ 人们感兴趣
的通常是平均数(处理效应)ꎬ但有时感兴趣的也
可能是某一变量的变异性ꎮ 例如ꎬ真菌毒素污染小
麦的可能范围ꎮ 依据处理效应(或变量间的关系)
相对于该处理效应(或关系)不确定程度的大小ꎬ
可以推断是否有真实处理作用(或关系)ꎮ
统计分析的复杂程度是由问题决定的ꎬ没有固定
的对所有可能情形都是最好的统计分析方法ꎮ 每个
特定问题都有其适合的分析方法ꎮ 即使对于相同的
数据ꎬ回答不同的问题可能需要使用不同的分析方
法ꎮ 每种方法都有它自己的假定ꎮ 因此ꎬ有必要了解
这些基本假定ꎬ否则可能会导致得出错误的结论ꎮ
我们选用常规方差分析来总结统计分析的基
本原理和过程ꎮ 每组(处理)内重复观察值是有变
化的(用方差表示)ꎬ不同处理平均数间也是有差
异的ꎬ这可能源于自然变化(相同与组内误差)和
处理效应ꎮ 如果没有处理效应(无效假设)ꎬ那么
组间和组内的变异(方差)应该是相等的ꎮ 因此ꎬ
可以使用这 2个方差的比值来确定是否有处理效
应-方差比率ꎮ 使用 F 分布确定得到的比率大于
(或等于)从观察数据所得到方差比率值的概率ꎬ
如果该概率小于所定显著性的概率(通常为 5% 或
1%)ꎬ就表明有处理效应ꎮ 该分析方法的前提是假
定观察值符合上述 4 个假设ꎮ F 概率是在假定从
一个正态分布总体(也就是说在无效假设成立的
前提下ꎬ所有观察值都来自于同一分布总体)中随
机抽样ꎬ利用 F 分布数学公式计算出的概率ꎮ 如
果数据不符合这些假设ꎬ显著性检验就不可靠了ꎮ
基本的统计方法ꎬ如 t测验、配对测验、常规方
差分析等可以用回归分析来描述ꎬ唯一的区别在于
回归分析的数据类型ꎮ 方差分析中回归分析的自
变量是分类变量(处理因素ꎬ如品种、杀菌剂等)ꎮ
在“传统”的回归分析中ꎬ自变量是连续变量ꎬ如温
度、株高和杀菌剂的剂量等ꎮ 在协方差分析中ꎬ回
归分析的自变量包含分类变量和连续变量ꎮ 因此ꎬ
这里以回归模型的形式来阐述数据分析ꎮ
2.1 一般线性模型(普通回归)
一个自变量的简单线性模型为:
Yij = μi+ εij =α+Xij β i+ εij
Yij是第 i个处理的第 j 个观察值ꎬμi是第 i 个
处理的期望值ꎬ可由线性回归模型 (α +Xβ)预测ꎬ
α 为总平均值 ꎬεij是残差ꎮ 在方差分析中ꎬX 是代
表处理水平的设计矩阵(1或 0)ꎬβ是处理效应ꎻ在
回归分析中ꎬX 是连续变量ꎬα 为截距ꎬβ 是斜率
(一个自变量的效应)ꎮ 上面的公式可以很容易地
通过矩阵的方式扩展为多个自变量(α也包含在斜
率矩阵中)ꎮ μi可使用回归分析来估算ꎮ
如前所述ꎬ方差分析必须同时符合 4个基本假
设ꎬ如果分布不同或非可加性都会使处理效应与误
差混淆ꎻ非正态分布或处理间的方差不等会影响显
著性检测的可靠性ꎮ 在回归分析中ꎬ还存在自变量
共线性问题及影响点问题(一个或者几个异常数
据点对参数的影响)等ꎮ
除了评估处理效应(β)外ꎬ还需要评估误差方
差(σ2)来评价处理效应的不确定性(每个处理的
分布均值(μi)和共同误差方差(σ2))ꎮ 对于正态
分布而言ꎬ均值与方差分布是不相关的ꎬ可以使用
最小二乘法估计参数ꎮ
3
植物病理学报 45卷
在拟合回归方程后ꎬ需要检查残差(非原始数
据)是否符合这几个假设ꎮ 常见的统计分析软件包
都能提供针对这几个假设的数据或图形ꎮ 如果与一
个或多个假设相违背时ꎬ应当寻求替代分析方法ꎬ最
简单的办法是进行数据转换ꎮ 例如ꎬ误差和处理均
值是非可加性的ꎬ而是倍数关系时ꎬ可以使用对数转
换使之符合可加性ꎮ 对数转换经常被用来减少处理
间的方差异质性ꎻ反正弦转换经常用于百分比数据ꎬ
特别是当观察值小于 0.3 或者大于 0.7 的情况下ꎮ
转换并不能消除所有与假设违背的情况ꎬ可能会在
回转时引致偏差ꎮ 建立在转换后数值为基础的统计
推断往往不容易在原始测量尺度上解释ꎮ
必须强调的是ꎬ如果感兴趣的变量不呈正态分
布(例如ꎬ发病率数据呈二项式分布)ꎬ这时就不应
该试图转换数据ꎬ而应该试图寻找一个新方法来解
决问题ꎮ 近年来ꎬ在统计方法和计算机计算能力方
面都取得了重大进展ꎮ 现在ꎬ可以利用回归模型拟
合不符合正态分布的数据 (见广义线性模型部
分)ꎮ 因此ꎬ对常见非正态分布(如二项式分布、泊
松分布、负二项分布)的数据进行数据转换后再进
行普通回归(例如方差分析)一般是不会被接受
的ꎬ例如ꎬ发病率数据经反正弦转换后ꎬ进行简单的
方差分析ꎮ 这类型数据经过转换进行简单方差分
析得出的结论ꎬ远没有经过广义线性模型直接分析
得出的可靠ꎮ 一般情况下ꎬ最好选择不需数据转换
的数据分析方法ꎮ
除了转换数据外ꎬ在特定条件下其它测试显著
性的方法也可以使用ꎮ 例如ꎬ可以用排列和随机化
法进行显著性分析ꎬ而不是 F 测验ꎮ 如果数据不
服从一般的分布ꎬ可使用不依赖分布类型的数据分
析方法(非参数法ꎬ如秩序法)ꎮ 如果误差不是独
立的(空间、时间或时空上相关)ꎬ就应该使用混合
模型ꎬ特别是对于有大的邻近效应的重复测量数据
和田间数据的分析ꎮ
2.2 广义线性模型
广义线性模型是将普通回归模型拓展到适合非
正态分布数据的分析方法ꎮ 广义线性模型公式为:
Yij = h(μi) + εij
这里 h(μi) = Xi β 和一般线性模型是一样
的ꎮ 在广义线性模型中ꎬ假定(1)处理效应和 εij
(误差)是可加性的ꎻ(2)εij相互独立和具有相同的
分布ꎻ(3) εij遵循指数分布ꎮ 具体的指数分布是比
较难理解的ꎬ但在植物病理学中所常见的分布如正
态、二项、泊松、负二项和 γ 分布等都属于指数分
布ꎮ 因此ꎬ一般线性模型是依变量遵循正态分布的
广义线性模型的一个特例ꎮ
在广义线性模型中 y 的期望值仍然是 μiꎬ但
是它的一个函数(称为关联函数)与自变量成线性
关系ꎮ 广义线性模型有 3 个组成部分:首先ꎬ需要
指定一个分布类型ꎮ 其次ꎬ一个自变量的线性模型
(Xβ)ꎮ 第三ꎬ使用关联函数 g()= h-1(Xβ)将线性
模型和分布函数的平均值(及处理效应)联系起
来ꎮ 处理效应通过 g()转换为自变量的线性函数ꎮ
该转换确保了预测的正确性ꎮ 例如ꎬ发病率(p)的
取值范围是从 0 到 1ꎬ如果不做数据转换ꎬ将它直
接与自变量回归ꎬ在很多情况下ꎬ预测的 p 值将在
(0ꎬ 1)之外ꎮ 对于二项分布而言ꎬ常用的关联函数
是 logit [ ln(p / (1-p))]ꎬ因此 ln(p / (1-p))= Xβ
确保了 p ( =exp(Xβ) / (1+exp(Xβ)))在正确(0-
1)范围内ꎮ 要强调的是ꎬ通过这个函数的数据转
换和通常进行线性回归之前的数据转换是不同的ꎬ
关联数据转换应用到期望平均值(μi)ꎬ而传统的
数据转换是应用到个体的观察值ꎮ
一旦确定了分布类型和关联函数ꎬ那么拟合一
个广义线性模型的方法与一般线性模型的方法是
相似的ꎮ 因此ꎬ只需要知道数据的分布类型和模型
的适用范围(关联函数)ꎮ 数据分析软件包通常对
于一个特定分布有它系统默认的关联函数ꎬ比如
logit适于二项分布ꎬ对数适于泊松分布等ꎮ 而正态
分布的关联函数就是其本身(成为普通回归模型)ꎮ
选择关联函数和确定随机变量的分布是分开进行
的ꎬ需要参考统计程序包的说明或统计学书籍ꎮ
除正态分布外ꎬ其他所有分布的方差随着平均
值而变化ꎬ如泊松分布的方差和它的平均值相等ꎮ
因此参数估计一般是通过最大似然迭代法来估计
的ꎮ 重要的是不需要知道算法是如何工作的ꎬ而是
要知道为何使用广义线性模型进行分析ꎮ
模型的评估是基于相当于普通回归中方差的
Devianceꎮ Deviance是 log 似然值的最大值和一个
饱和模型(完美拟合:有一个观察值就有一个参数)
的 log的最大似然值之间的差值ꎮ Deviance 越大ꎬ
拟合越差ꎮ 模型的检验方法和普通回归模型相似ꎮ
把病害分级数据(3 个或更多的有序分类级
别)当作连续数据分析是不正确的ꎬ有几种可能的
数据分析方法:一是比例优势模型(POM)ꎮ POM
4
1期 徐向明ꎬ等:植物病理学中常见数据的统计分析方法
预测在类别 j中或超出每个处理的 ln(odds)(Odd
是一个事件的概率比值ꎬ如发病的概率与未发病概
率的比值)ꎬ评估 ln( odds)是如何被自变量影响
的ꎬ其本质是对二项分布数据进行广义线性模型分
析的拓展ꎬ在二项分布数据(发病或未发病)中只
有两种结果ꎬ但是在病害级数数据中要多于两个结
果ꎮ 其二减少多类级别到两个类别ꎬ例如发病与未
发病ꎬ然后进行二项分布广义线性模型的分析ꎮ
2.3 线性或广义线性混合模型
普通线性和广义线性模型适合于只有一个随
机或误差来源的数据ꎮ 在很多情况下ꎬ误差有很多
来源ꎬ一个混合模型可包含一个以上的误差来源ꎮ
例如ꎬ在测试杀菌剂的效果时ꎬ可以在多地对随机
选择的品种植株进行病害发展过程观测(看看杀
菌剂的持久性)ꎬ在这里ꎬ个体植株、受试品种、受
试地点和每个观察的剩余变异等都会有随机变异ꎮ
众所周知ꎬ在农业试验中的裂区设计有 2个误差来
源(大区与小区)ꎮ
标准的方差分析法可以用来分析有一个以上
误差来源的平衡数据ꎬ但不能分析植物病理学中常
见的不平衡数据ꎮ 这些数据可以使用 REML(Re ̄
stricted [或 Residual] Maximum Likelihood)方法
进行分析ꎮ 使用 REML 方法ꎬ也可以运用 meta 分
析ꎬ对感兴趣处理的不同数据集同时分析来获得综
合评估ꎬ这也是当今的热点问题之一ꎮ 由于研究者
来自不同的组织机构ꎬ所做的试验相似但不同ꎬ常
规统计方法无法从这些试验中得到综合性结果ꎮ
如之前所述ꎬ在田间病害试验中由于接种点及
局部传播问题ꎬ邻近小区的病害在空间上是相关
的ꎬ而且受盛行风向的进一步影响ꎬ这将违背方差
分析的一个假设ꎬ即观测值的独立性ꎮ 采用每个小
区处理的随机分配法只能消除特定处理与单个小
区的系统误差ꎬ但不能消除空间上的相关性ꎮ 这种
空间上相关的数据可以用 REML 方法来分析ꎬ可
以明确如何在二维空间中模拟空间相关性ꎬ从而得
到有关处理效应的更可靠的结论ꎮ 在 REML 分析
方法中ꎬ不同类型的模型可以用来模拟空间相关
性ꎬ比如自回归模型、幂模型等ꎮ
在植物病理学研究中的次级抽样技术也很容易
导致相关联的观测值ꎮ 例如ꎬ在有 3个区组ꎬ每一个
区组有 4个小区(4个处理)的随机区组设计中ꎬ从每
个小区中随机选取 10株植物观察病害发展情况ꎬ可
以用随机区组设计的方差分析来分析每个小区 10株
植物的平均值ꎮ 但如果每个植株的观测值被直接用
来进行传统的方差分析就不正确了ꎬ因为在相同小区
中的 10个植株处于同一环境下具有一定的相关性ꎬ
需要用混合模型进行分析ꎬ要理解试验单元(小区)和
观测单元(个体植株)之间的差异ꎮ
植物病理学中一个常用数据类型是对同一植
株或处理病害发展的重复评价ꎮ 如果研究重点是
每个处理中病害发展的时间动态ꎬ则可以拟合病害
发展曲线(通常是非线性模型ꎬ在这篇文章中没有
涉及)ꎬ比较处理间的参数ꎮ 另一方面ꎬ因为同一
个处理的观察值在时间上是关联的ꎬ使用传统的方
差分析来分析该类数据是不对的ꎬ而应使用重复测
量的方差分析法ꎮ 观测值间的时间相关性可能是
不相等的ꎬ相近的观察值较相远的观察值的相关性
更大ꎬ而重复测量方差分析的假定是同等相关性ꎬ
在这种情况下ꎬ应该使用 REML 分析方法ꎮ 对于
重复测量数据还有几种先进的分析方法ꎬ如随机相
关系数模型等ꎮ
在混合模型中ꎬ有时需要确定哪一个因子是混
合的ꎬ哪一个是随机的ꎬ但没有一个清晰的定义ꎮ
如果仅仅对特定的处理(一个特定的水平)感兴
趣ꎬ那么这个因子应该被视为固定的ꎮ 另一方面ꎬ
如果试验处理是一个群体的一个随机样本ꎬ那么这
个因子可被认为是随机的ꎮ 例如ꎬ在测验 2个品种
在 5个县的抗病性试验中ꎬ如果对 2 个品种在这 5
个县的表现特别感兴趣ꎬ那么这些县就可以被当做
固定因子(这 2个品种只是种植在这 5 个县)ꎮ 如
果这 5个县是一个很大区域中的一个随机样点ꎬ这
2个品种将会在这一大片区域种植ꎬ那么这些县应
该被视为随机因子ꎮ 有时ꎬ所有的试验因子都是随
机因子ꎮ 例如ꎬ想评估地域和品种对小麦赤霉菌毒
素变异性的影响ꎬ那么地域和品种就被视为随机因
子ꎬ应该从所有可能的地域和品种中随机选取ꎮ
在普通线性回归分析中(假设数据服从正态
分布)ꎬ通常使用方差分析或 REML 混合模型分析
几种变异来源ꎮ 广义混合线性模型是比较新的方
法ꎬ它拓展了广义线性模型框架ꎬ允许在线性模型
中包括可加性随机效应ꎬ仍然是当前的研究热点ꎮ
2.4 2种模型的比较
在方差分析中ꎬ当整体有显著处理效应时ꎬ可
以使用两两比较法比较 2 个处理水平间的差异ꎮ
5
植物病理学报 45卷
在一个给定的回归模型里ꎬ常用 t测验确定一自变
量的斜率参数是否大于 0ꎮ 同样的ꎬ在比较 2 个模
型的相同自变量的斜率ꎬ可以使用 t测验去估计这
2个斜率是否相等ꎮ 但在进行多重比较时(尤其是
在方差分析中有很多配对比较)ꎬ可能得出假的显
著效应ꎮ 例如ꎬ假定显著水平设定为 5%ꎬ即使 20
对间没有显著差异ꎬ也可能会在 20 对中有 1 对的
结果被确定为有显著差异ꎮ
以上的两两比较分析相当于 2个模型的比较ꎮ
但 2个模型的比较常常不仅是只比较一个参数ꎬ而
是要同时评估多个参数的差异性ꎮ 当比较 2 个模
型时ꎬ人们不会问“一个模型是对还是错”ꎬ而是问
“哪一个模型对这些数据的拟合程度更好”? 一个
模型的优势是相对于其他模型来说的ꎮ 比较 2 个
模型时ꎬ要知道它们是否是嵌套关系ꎮ
“嵌套模型”是一个很重要的概念ꎬ非线性模
型、广义线性模型和混合模型的比较和假设检验都
基于这个概念ꎮ 当一个模型的所有项出现在另外
一个模型中时ꎬ那么这 2 个模型是嵌套的ꎬ前者嵌
套在后者中ꎬ也就是说简单模型源于较大的模型ꎮ
例如ꎬ假定模型 A是 y=a+bxꎬ模型 B是 y=aꎬ那么
模型 B就是模型 A 的嵌套模型ꎬ因为在模型 A 中
加一个限制条件 b=0ꎬ就可以得到模型 Bꎮ 模型比
较基于一个原则ꎬ即用 2个模型残差的差异来衡量
这些限制因子是否合理ꎮ 如果 2 个残差之间没有
显着差异ꎬ那么就并不需要额外的参数(b)ꎮ 也就
是说ꎬ模型 A中参数 b等于零ꎮ
对于具有正态分布误差的嵌套回归模型(包括非
线性回归)的比较ꎬ可以使用 F ̄测验ꎮ 假定大模型的
残差平方和 SSf的自由度为 mꎬ嵌套模型有 q个限制
参数ꎬ残差平方和为 SSrꎬ可以通过自由度为 q 和 m
的 F ̄测验ꎬ确定是否可以接受 q个限制条件:
方差比值=
SSr - SSf
q
/
SSf
m
这是比较多项参数模型的一个很强大的技术ꎮ 例
如ꎬ使用逻辑斯蒂曲线拟合 4个品种上的某病害发
展数据ꎬ也许有人会问是否有一个对于所有品种共
同的速率参数? 可以拟合一个针对每个模型的不
同参数的完整模型ꎬ然后对所有的品种拟合一个具
有相同速率参数的逻辑斯蒂模型ꎬ使用 F ̄检验评
估 4个品种的速率参数是否相等ꎮ
比较 2 个 GLM(非正态分布数据)模型或者
混合模型ꎬ也是常常通过嵌套模型的概念来评估
的ꎬ只不过是用 2 个嵌套模型之间的 deviances 差
异和卡平方测验来进行评估ꎮ
如果 2个模型不是嵌套的且有不同数量的参
数ꎬ那么以上介绍的方法将不能用来比较ꎮ 比较非
嵌套模型是基于几个常用信息标准ꎮ 最常用的是
Akaike 信息量准则(Akaike information criterionꎬ
AIC)ꎬ它考虑了模型参数的数量ꎬAIC 值越小ꎬ表
明模型越好ꎮ
3 结束语
本文没有介绍与植物病理学相关的其它一些数
据统计分析方法ꎬ例如非线性模型拟合、存活分析、
时间序列分析等方法ꎮ 希望研究者在使用程序软件
包分析数据之前能够多思考ꎬ多与应用统计学家讨
论ꎮ 有兴趣的话ꎬ也可以参考一些教科书[1~7]ꎮ
参考文献
[1] Cox D Rꎬ Snell E J. Analysis of binary data [M] .
London: Chapman and Hall / CRC Pressꎬ 1989.
[2] McCullagh Pꎬ Nelder J A. Generalized linear models
[A] . Monographs on Statistics & Applied Probability
[M] . London: Chapman and Hall / CRC Pressꎬ 1989.
[3] Miller R G J. Beyond ANOVA: Basics of applied
statistics [ M ] . London: Chapman and Hall / CRC
Pressꎬ 1997.
[4] Plant R E. Spatial data analysis in ecology and agricul ̄
ture using R [M] . London: Chapman and Hall / CRC
Pressꎬ 2012.
[5] Qian S S. Environmental and ecological statistics with
R [M] . London: Chapman &Hall / CRC Pressꎬ 2009.
[6] Schabenberger Oꎬ Pierce F J. Contemporary statistical
models for the plant and soil sciences [M] . London:
Chapman &Hall / CRC Pressꎬ 2001.
[7] Whitlock M Cꎬ Schluter D. The analysis of biological
data [M] . Colorado: Roberts and Company Publi ̄
shersꎬ 2008.
责任编辑:于金枝
6