免费文献传递   相关文献

长蒴黄麻产叶量的多元回归与偏相关的R语言分析



全 文 :长蒴黄麻产叶量的多元回归与偏相关的 R语言分析
温 岚 陈基权 戴志刚 龚友才 刘 倩 李 楠 粟建光
(中国农业科学院麻类研究所,410205,湖南长沙)
摘 要 黄麻的主要产量性状之间存在相关
性,长蒴黄麻 MW-1 以收获叶片为目的,影响产叶量
的主要因素包括株高、茎粗、皮厚及分枝数,揭示这
些因素对产叶量影响大小的研究非常重要。本试验
设计种植密度梯度以形成产量性状上的差异,获得
不同水平的 5 个产量性状数据集,应用 R 语言对长
蒴黄麻 MW-1 产叶量建立多元线性回归模型,得到
多元回归方程:产叶量 =(0. 0036 ×株高 + 0. 0372 ×
茎粗 + 0. 0265 ×分枝数 - 1. 37)2,并分析各产量性
状之间的相关性,研究结果显示产叶量和分枝数、皮
厚和茎粗两两间存在极显著正相关,茎粗和株高存
在显著正相关,而分枝数和株高之间呈负相关。
关键词 长蒴黄麻;产叶量;多元回归;相关性;R
语言
长蒴黄麻(Corchorus olitorius L. )是我国重要的
纤维作物,长蒴黄麻具有适应性强、生长迅速、生物
产量大等特点,在纺织领域具有重要作用和广阔的
发展前景。早期研究大多集中在提高纤维品质和产
量方面。近年来,黄麻叶片在菜用、吸附材料等领域
的利用价值越来越为人们所重视,因而提高长蒴黄
麻叶产量成为黄麻育种的主要目的之一。长蒴黄麻
的主要数量性状包括株高、茎粗、皮厚和分枝数等,
长蒴黄麻的叶产量与各产量性状之间有着直接或间
接的联系,但是,哪一个性状对叶产量起主要作用仍
不确定[1 - 2]。本试验通过设计不同种植密度,以形
成黄麻在株高、茎粗、皮厚、分枝数以及鲜叶产量上
的差异,在 R语言环境下分析以上 5 个产量性状的
相关性并建立多元回归模型,从而揭示叶产量与其
他产量性状线性关系的密切程度[3 - 6]。
1 材料与方法
1. 1 试验材料
长蒴黄麻,品种为 MW-1。
作者简介:温岚,助理研究员,从事作物遗传育种和种质资源研究
粟建光为通信作者,研究员,从事麻类作物种质资源研究
基金项目:农业部种质资源保护项目(NB2012 - 2130135)
收稿日期:2012 - 11 - 21
1. 2 试验地点
中国农业科学院麻类研究所湖南望城试验
基地。
1. 3 小区设计
土壤为红壤,前作黄麻,试验前统一整地施肥,
并给予足够的土壤肥力。采用撒播后进行定株留苗
的方式确定种植密度。2012 年 5 月 30 日播种,6 月
20 日初定苗,7 月 12 日定苗。试验按 4 水平 4 重复
处理方式进行,共 16 个小区,每小区净面积为
20m2。水平Ⅰ:株行距为 10cm,留苗数为 52. 500 万
株 /hm2;水平 Ⅱ:株行距均为 15cm,留苗数为
44. 439 万株 /hm2;水平Ⅲ:株行距均为 30cm,留苗
数为 11. 109 万株 /hm2;水平Ⅳ:株行距均为 45cm,
留苗数为 4. 938 万株 /hm2。生长过程中统一进行中
耕、除草、灌溉,减少由于农事操作和管理技术引起
的差异[7]。
1. 4 收获与测产
收获时间为 2012 年 9 月 12 日,收获时每小区
随机选取 20 株植株测产,测定内容为:株高(X1) ,
茎粗(X2) ,皮厚(X3) ,分枝数(X4)以及鲜叶重量
(多元回归方程中为 Y,相关性分析中为 X5)。
1. 5 统计分析
应用 R语言的函数 lm( )建立多元回归模型,采
用逐步回归(step)法作进一步回归分析,通过残差
分析对回归模型进行诊断,获得最佳的回归模型,
cor函数计算各产量性状间的简单系数,偏相关系数
的计算公式如下[8 - 9]:
rij =
- Cij
C iiC槡 jj
2 结果与分析
2. 1 产叶量与其他产量性状的多元线性回归分析
建立各产量性状数据集 Y、X1、X2、X3 和 X4,调
用函数 lm( )建立多元线性回归方程,运行结果如图
1。从结果看出,可得到的回归方程为:Y(产叶
94
作物杂志 Crops 2013. 1
DOI:10.16035/j.issn.1001-7283.2013.01.016
量)= 0. 0065X1 (株高) + 0. 0253X2 (茎粗) +
0. 3151X3(皮厚)+ 0. 0666X4(分枝数)- 2. 459。然
而该回归方程的系数显著性并不高,有两个系数没
有通过 t检验(X2 和 X3) ,说明选择的 4 个性状全部
构造方程,效果不好,须选择相关性强的变量以建立
“最优”回归方程。
图 1 R语言环境下长蒴黄麻 MW-1
产叶量的多元回归模型
2. 2 回归模型的优化
采用逐步回归法的计算函数 step( ) ,从一组可
供选择的模型(见图 2)中选择 AIC(赤池信息量)最
小的最佳模型,来达到删除自变量的目的。
图 2 长蒴黄麻 MW-1 产叶量的不同回归模型分析
从图 2 看出,用全部变量作回归方程时,ATC统
计量值为 - 92. 88,如去除变量 X3(皮厚) ,ATC 统计
量的值为最小(- 93. 13) ,程序自动去掉变量 X3(皮
厚) ,进入下一轮计算,在下一轮计算中无论去掉哪
一个变量,ATC 统计量值均会升高,程序自动终止
计算,得到最优回归方程。
用 lm. step( )< - step(lm. reg)命令作逐步回
归,再用 summary( )提取相关回归信息。结果见图
3,显示相关系数的平方 R2 = 0. 9843,表明数据中
98. 43%可由回归方程来描述,经过逐步回归分析后
的系数显著性水平有很大提高,用于回归方程检验
的 F统计量的 p 值(8. 486e - 11)与用于回归系数
检验的 t统计量的 p 值均很小(< 0. 05) ,由此得到
最优的回归方程:Y(产叶量)= 0. 0063X1(株高)+
0. 0382X2(茎粗)+ 0. 0733X4(分枝数)- 2. 56。此
方程说明,株高、茎粗和皮厚对产叶量的贡献均为
正,主茎每增加 1cm,产叶量将增加 0. 0063kg,茎粗
每增加 1mm,产叶量将增加 0. 0382kg,分枝数每增
加 1 枝,产叶量将增加 0. 0733kg。
图 3 逐步回归分析后的“最优”回归模型
2. 3 回归诊断
为诊断建立回归模型的观测值中有无异常值,
以判断回归模型的拟合优度,本试验采用残差分析
的方法对回归模型进行诊断,R语言下,分别用函数
residuals( )和 rstandard( )分别计算残差和标准化
残差。
残差的计算结果如下:
标准化残差的计算结果如下:
标准化残差的绝对值≥2 的观测点认为是可疑
点,第 9 组数据的标准化残差为 - 2. 17,为异常点,
从图 4 中也可以直观地看出,残差图和标准化残差
图从左向右逐渐散开,残差的绝对值随预测值的增
加也有明显增加的趋势,表示关于误差的方差齐性
的假定不成立,此时,应考虑对相应变量 Y(产叶量)
作变换,这里考虑使用最常见的开放变换,Z = f
(Y)。
在新的平方变换下进行回归分析,函数 update
05
作物杂志 Crops2013. 1
图 4 残差与标准化残差图
( )用于对回归模型按照给定的方差稳定化变换进
行修正,并进行回归诊断,相应的 R程序为 lm. new_
reg < - update(lm. reg,sqrt(. )~ . ) ,得到新的回归
系数估计值,并由此得到新的回归方程为:
Y =(0. 0036X1 + 0. 0372X2 + 0. 0265X4 - 1. 37)
2
最后调用函数 rstandard(lm. new_reg)和 predict
(lm. new_reg) ,画出变换后的标准化残差散点图,如
图 5 所示,散点图的趋势大有改善。
图 5 平方变换后的标准化残差散点图
2. 4 5 个产量性状的简单相关和偏相关
R语言未直接提供偏相关系数的函数,可先调
用函数 cor. test( )对 5 个产量进行 Pearson相关性分
析,得出简单相关系数,同时对其作 t 检验,判断其
显著性。从表 1 可以看出,除株高(X1)和分枝数
(X4)呈显著正相关外,其余性状之间均呈极显著正
表 1 5 个产量性状的简单相关系数 rij及其显著性检验
性状 株高(X1) 茎粗(X2) 皮厚(X3) 分枝数(X4) 产叶量(X5)
株高(X1) 1
茎粗(X2) 0. 8850** 1
皮厚(X3) 0. 7994** 0. 9192** 1
分枝数(X4) 0. 7181* 0. 8222** 0. 8692** 1
产叶量(X5) 0. 9014** 0. 9419** 0. 9298** 0. 9261** 1
注:* 表示 0. 05 显著水平,**表示 0. 01 极显著水平,下同
相关。
令 Xi 和 Xj 的简单相关系数为 rij,根据偏相关
系数的解法,由简单相关系数 rij(i,j = 1,2…,5)组
成矩阵 R =(rij)5 × 5,矩阵 R 中的主对角线元素 rij为
各性状的自身相关系数,均为 1,且 R 中以主对角线
为轴形成对称,即有 rij = rji。然后求其逆矩阵 R
- 1 =
(Cij)5 × 5,R
- 1中的元素也是以主对角线为轴而对称
的,即有 Cij = Cji。令 Xi 和 Xj 的偏相关系数为
rij·,解得 Cij后即有
rij. =
- Cij
C iiC槡 jj
调用 R 语言中的 matrix( )创建矩阵 R =
(rij)5 × 5,函数 solve( )求其逆矩阵 R
- 1 =(Cij)5 × 5,
将结果代入以上公式,求得偏相关系数如表 2 所示。
表 2 5 个产量性状的偏相关系数 rij·及其显著性检验
性状 株高(X1) 茎粗(X2) 皮厚(X3) 分枝数(X4)
茎粗(X2) 0. 0812*
皮厚(X3) 0. 0048 0. 1123**
分枝数(X4) - 0. 0870 0. 0190 0. 0027
产叶量(X5) 0. 0326 0. 0053 - 0. 0328 0. 6282**
通过检验,判断其显著性得出,产叶量与分枝数呈极
显著正相关,偏相关系数达 0. 6282,茎粗和皮厚呈
极显著正相关,偏相关系数达 0. 1123。茎粗和株高
呈显著正相关,相关系数为 0. 0812,其余产量性状
之间的偏相关性均未达到显著水平。
3 讨论
3. 1 产叶量的多元回归
长蒴黄麻 MW-1 以收获叶片部位为目的,产叶
量的分析可为其栽培技术和育种提供重要的理论依
据。种植密度对植物生长的影响直接表现在光合作
用上,光合作用的差异进而造成了各产量性状的差
异,试验设计了 4 个水平种植密度来造成各产量性
状上的差异,测得了 5 个产量性状用以进行多元回
归分析和偏相关分析。未经回归诊断的模型,虽然
具有显著性水平很高的回归系数,但是经过进一步
分析发现,观察值中具有异常点,异常值的存在往往
会引起回归模型的不稳定性[10],经开放变换后,得
到了多元回归方程:产叶量 = (0. 0036 × 株高 +
0. 0372 ×茎粗 + 0. 0265 ×分枝数 - 1. 37)2,该方程
15
作物杂志 Crops 2013. 1
经残差分析,散点图趋势大有改善。
3. 2 偏相关和简单相关的关系
偏相关系数表达的实际意义是在 M-2(M 为考
察的自变量个数)个自变量保持一定时,指定的 2
个变量之间相关的密切程度,当考察的多个变量两
两之间存在相关性时,偏相关系数可以帮助排除
假象相关,找到真实联系最为密切的变数[11 - 13]。
前人研究表明,黄麻的株高、茎粗、皮厚和分枝数
之间是存在相关性的,本试验再次证明了这一观
点,从表 1 和表 2 可以看出,简单相关系数与偏相
关系数的结论不一致,后者显示在 5 个产量性状
中,仅产叶量和分枝数、皮厚和茎粗存在极显著正
相关,茎粗和株高存在显著正相关,而分枝数和株
高之间呈负相关。造成这些不同情况的关键原因
在于自变量之间错综复杂的相关性,当应用偏相
关方法分析时,由于清除了自变量相关的混淆,因
而能表现出所考察的两个自变量的单独关系[13]。
反之,如果 5 个产量性状之间彼此独立,则不会发
生偏相关和简单相关之间的差异。这也说明了本
试验对产量性状进行偏相关分析的必要性。
3. 3 R语言在本研究中的应用
目前使用最为广泛的三大著名统计分析软件
是 SAS、SPSS和 S-Plus,均需要昂贵的版权费用,更
新慢且要大量的维护费用。R 语言是属于 GNU
(General Public Licence)系统的一个自由、免费、源
代码开放的软件,是一个有着强大统计分析及作
图功能的软件系统,由新西兰奥克兰大学的 RossI-
haka和 RobertGentleman 两位学者建立,因此简称
R语言,作为一个免费的统计软件,它有 UNIX、
LINUX、MacOS和 WINDOWS版本[4]。R 语言具有
丰富的统计方法,对数据的统计分析是通过程序
命令完成的,快捷方便。在多元回归分析中,R 语
言提供了丰富的函数支持回归模型的建立、诊断
和修正[6]。本试验首次应用 R 语言对黄麻的产量
性状进行统计分析,通过逐步回归和修正,得到了
“最佳”的回归模型。由于 R语言是一个优秀的矩
阵运算语言,对本研究中多元数据进行了直观分
析(简单相关) ,R 语言中的矩阵运算函数方便快
捷地计算出了 5 个产量性状之间的偏相关系数,
真实地揭示了作为随机变量的产量性状之间的相
关程度。
参考文献
[1]龚友才,粟建光,戴志刚,等. 引进长果黄麻品种多点生态适应
性鉴定与评价.中国麻业科学,2007,29(5) :249 - 254.
[2]龚友才,粟建光,戴志刚,等. 国外引进优良黄麻种质生物学鉴
定与利用.植物遗传资源学报,2008,9(4) :531 - 535.
[3]Emmanuel Paradis. R for Beginners (Chinese) [EB /OL]. (2006-
04-01) [2012-03-28]. http:/ /wenku. baidu. com /view /bc4b69ec
0975f46527d3e1db. html.
[4]汤银才. R语言与统计分析.北京:高等教育出版社,2008.
[5]王斌会.多元统计分析及 R 语言建模. 广州:暨南大学出版社,
2009.
[6]王斌会. R语言统计分析软件教程.北京:中国教育文化出版社,
2007.
[7]盖钧镒.试验统计方法.北京:中国农业出版社,2000.
[8]张尧庭,方开泰.多元统计分析引论.北京:科学出版社,1982.
[9]陈希孺.概率论与数理统计. 安徽:中国科学技术大学出版社,
2009.
[10]张祯勇,高明文,肖启银,等.基于 R 语言的“3414”肥效试验的
统计分析.中国农学通报,2011,27(27) :127 - 134.
[11]陈荣江,赵晖,朱明哲,等. 小麦产量性状与品质性状的对应分
析及偏相关分析.土壤与作物,2012(1) :21 - 26.
[12]吕文彦,邵国军,曹萍,等. 辽宁省水稻品质兼及品质与产量关
系的研究Ⅱ.对应分析与偏相关分析.辽宁农业科学,2006(6) :
1 - 5.
[13]L.沃塞曼.张波,代金,等(译). 统计学完全教程. 北京:科学出
版社,2008.
Multivariate Statistical and Partial Correlation Analysis
on Jute (Corchorus olitorius L.)by R Language
Wen Lan,Chen Jiquan,Dai Zhigang,Gong Youcai,
Liu Qian,Li Nan,Su Jianguang
(Institute of Bast Fiber Crops,Chinese Academy of Agricultural Sciences,Changsha 410205,Hunan,China)
Abstract Relevance exists in the main economical characters of jute and leaf is the main harvest part of Corchorus
olitorius MW-1. Thus revealing how the height,stem diameter,thickness of skin and number of branches influence
the leaf yield is very important. In this study,we designed density gradient to form the yield character difference and
obtained data sets,then we used R language to establish a multiple regression equation:the leaf yield =(0. 0036 ×
25
作物杂志 Crops2013. 1
一套优异稻种资源的纹枯病抗性评价
刘 毅 陈 亮 付 冬 楼巧君 罗利军
(上海市农业生物基因中心,201106,上海)
摘 要 2008 年在湖北恩施、2009 年和 2010
年在海南陵水分别采取自然诱病和人工接种方法对
158 份中国水稻微核心种质和 137 份“全球水稻分
子育种计划”亲本材料进行了抗纹枯病大田鉴定和
评价,未发现免疫材料,抗病和中抗材料的比例分别
为 0. 3%和 13. 9%;大多数属于感病范围,中感、感
病和高感材料的比例分别为 40. 0%、25. 8% 和
20. 0%。其中 BR24、Hnankar、解放籼、秕五升、赤壳
糯、红旗 5 号、泽谷、寸谷糯和旱麻稻在 3 年 2 地的
鉴定中均达中抗水平;Serendahkuninmdaysia、SAI-
BUI-BAO、Giza14 和香稻在个别年份中达抗病水平。
在海南 2 年试验中测定了各材料的纹枯病病级、相
对病斑长、相对病斑高、抽穗期和株高,通过分析,发
现纹枯病病级与相对病斑长和相对病斑高呈极显著
正相关,而与抽穗期和株高呈极显著负相关,相对病
斑长和相对病斑高可以作为抗性鉴定和评价的指标
之一。
关键词 水稻;纹枯病;抗性鉴定;稻种资源
水稻纹枯病(Rhizoctonia solani Kühn)是水稻生
产上的重要病害之一,随着矮秆、多蘖、高产品种的
推广和施肥、栽培方式的不断提高,稻田病原物的累
积增多,病害渐趋普遍和严重,我国南方一些稻区纹
枯病已高居水稻三大病害之首[1]。由于其病原菌
作者简介:刘毅,硕士研究生,主要从事水稻抗病育种研究
陈亮和罗利军为联合通信作者
基金项目:农业部转基因重大专项(2008ZX08001 - 002)
收稿日期:2012 - 09 - 29
具有强腐生性和宽寄主范围,一般认为难以找到较
高水平的抗源。此外,病害始于植株基部,以菌丝体
在植株表面和体内侵染蔓延。病害程度不仅与初始
菌量有关,也与田间小气候及影响小气候的植株性
状有关,故对水稻品种乃至分离群体中个体抗病程
度的评价方法不易标准化[2]。国内外学者在水稻
抗纹枯病材料的发掘研究方面做了大量工作,但仍
未发现免疫材料,高抗的资源也很少。利用抗病品
种是防治该病最经济、有效的途径,而种质资源的抗
性鉴定和抗源材料的筛选是抗病育种的前提和基
础。本研究目的是采用自然诱病和人工牙签接种法
对中国水稻微核心种质和“全球水稻分子育种计
划”亲本材料进行多年多点的纹枯病抗性鉴定和评
价,为抗病品种的选育提供依据。
1 材料与方法
1. 1 材料
供试材料共 295 份。包括 158 份中国水稻微核
心种质和 137 份全球水稻分子育种亲本材料。其
中,2008 年 192 份,2009 年 286 份,2010 年 287 份。
供试菌株为立枯丝核菌,由上海市农业科学院
生态环境保护研究所张穗研究员提供。
1. 2 方法
抗性鉴定分别于 2008 年在湖北省恩施市农业
科学院试验田,采取自然诱病方法,2009 年和 2010
年在海南省陵水县上海市农业科学院试验基地,采
用人工牙签接种法进行。每份材料种 3 行,每行
櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓櫓
7
plant height + 0. 0372 × stem diameter + 0. 0265 × branching number - 1. 37)2,and then,the correlation between
various production traits were analyzed. The study results showed that there were highly significant positive relation-
ship between the leaf yield and number of branches,thick-skinned and the stem diameter. There were significant
positive relationship between the stem diameter and plant height,and negative correlation between the number of
branches and plant height.
Key words Corchorus olitorius L.;Leaf yield;Multivariate statistical;Correlation;R language
35
作物杂志 Crops 2013. 1