免费文献传递   相关文献

PCA和PLS-DA用于晒青毛茶级别分类研究



全 文 :茶叶科学 2015,35(2):179~184
Journal of Tea Science 投稿平台:http://cykk.cbpt.cnki.net

收稿日期:2014-09-10 修订日期:2014-10-17
作者简介:刘彬球(1989— ),男,江西九江人,硕士研究生,主要从事普洱茶研究。E-mail:liu-binqiu@163.com
PCA 和 PLS-DA 用于晒青毛茶级别分类研究
刘彬球,陈孝权,吴晓刚,张偎,王子浩
大益集团勐海茶业有限责任公司,云南 勐海 666200
摘要:利用主成分分析法(Principal Component Analysis, PCA)和偏最小二乘法判别分析(Partial Least Squares
Discriminant Analysis, PLS-DA)对晒青毛茶进行级别分类,并通过统计分析找出重要理化成分。结果表明:
PCA 和 PLS-DA 均可以直观地对晒青毛茶级别进行分类,其中能够稳定地分类出 3 级毛茶,而难以将 6 级和 9
级毛茶明显地分类。通过 PCA 载荷图(Loadings plot)和 PLS-DA 变量重要性因子(Variable important for the
projection,VIP)分布图可得出氨基酸含量为级别分类的重要理化成分,其中赖氨酸(Lys)、脯氨酸(Pro)
和苯丙氨酸(Phe)是对级别分类最重要的 3 种氨基酸组分。
关键词:晒青毛茶;级别分类;主成分分析;偏最小二乘法判别分析
中图分类号:TS272.5 文献标识码:A 文章编号:1000-369X(2015)02-179-06

Study of Pu′er Raw Materials Grade Classification
by PCA and PLS-DA
LIU Binqiu, CHEN Xiaoquan, WU Xiaogang, ZHANG Wei, WANG Zihao
Menghai Tea Industry Co., Ltd, in TAETEA Group, Menghai, Yunnan 666200, China
Abstract: Two classification methods for Pu′er raw materials were explored using principal component analysis
(PCA) and partial least squares discriminant analysis (PLS-DA), and the important physical and chemical
compositions were identified through the statistical analysis. The results revealed that both PCA and PLS-DA could
directly classify the grades of Pu ′er raw materials, particularly for the grade 3, but not for that of grade 6 and 9. The
PCA loadings plot and PLS-DA variable important for the projection plot indicated that the contents of amino acids
were the important physical and chemical components for classification. Lysine (Lys), proline (Pro) and
phenylalanine (Phe) were three most important physical and chemical compositions.
Keywords: Pu′er raw materials tea, grade classification, PCA, PLS-DA


普洱茶是以地理标志保护范围内的云南
大叶种[Camellia sinensis Var.assamica(Mast.)
Kitamura]晒青毛茶为原料,利用一定工艺制
成的具有独特品质特征的茶叶 [1]。作为普洱茶
的原料,晒青毛茶的优劣直接关系到普洱茶的
品质。虽然理化成分与成品普洱茶级别之间的
关系已有相关报道 [2-5],但与晒青毛茶级别之
间的关系报道较少[6]。目前,晒青毛茶级别主
要依据感官品质特征进行评定,结果存在个体
误差且需要经验。因此为使得晒青毛茶的级别
分类更科学直观,需要对晒青毛茶多项理化成
分含量进行多元统计分析,找出级别与理化成
分含量之间存在的关系。
主 成 分 分 析 ( Principal Component
DOI:10.13305/j.cnki.jts.2015.02.011
180 茶 叶 科 学 35 卷

Analysis, PCA)和偏最小二乘法判别分析
(Partial Least Squares Discriminant Analysis,
PLS-DA)已经广泛用于食品、药品和农产品
等的快速识别[7-12]。本研究主要利用 PCA 和
PLS-DA对晒青毛茶的多项理化成分进行统计
分析,建立数学模型对晒青毛茶进行级别分
类,并找出重要的理化成分。
1 材料与方法
1.1 材料
本研究共涉及 57 个晒青毛茶样。茶样均
为 2014 年春茶(勐海县内),大益集团勐海
茶业有限责任公司提供,并由储运部依据晒青
毛茶感官品质特征进行级别评定 [13]。
1.2 检测方法
水浸出物含量测定,参照《GB/T 8305—
2013 茶 水浸出物测定》;茶多酚和儿茶素类
含量测定,参照《GB/T 8313—2008 茶叶中茶
多酚和儿茶素类含量的检测方法》;咖啡碱含
量测定,参照《GB/T 8312—2013 茶 咖啡碱
测定》;可溶性糖总量测定,蒽酮-硫酸比色
法;游离氨基酸总量测定,茚三酮显色法;总
黄酮含量测定,比色法 [14];氨基酸组分,柱
前衍生反相高效液相法 [15]。
1.3 数据处理
1.3.1 数据处理方法
PCA 分析是揭示多变量数据或样本之间
内在关系的一种方法,旨在利用降维的思想,
把多指标转化为几个综合指标,降低观测空间
的维数,以获取最主要的信息,通常可以通过
少数几个主成分即可最大限度地描述数据特
点。PLS-DA 分析是基于偏最小二乘法(Partial
Least Squares, PLS)回归的一种判别方式,在
构造因素时考虑到了辅助矩阵以代码形式提
供的类成员信息[12]。
PCA 是一种非监督分析,反应数据的原
始情况,有利于了解数据的整体情况并对数据
从整体上进行把握,可有效发现并剔除异常样
本,当组间差异较小而组内差异较大时则难以
得出正确结论。而 PLS-DA 为有监督分析,人
为加入分组变量,可弥补 PCA 方法的不足,
强化组间差异。
1.3.2 数据处理软件
ECXEL 2010(Microsoft,USA)用于数
据收集和整理; SIMCA-P 11.5( Umetrics,
Sweden)用于 PCA 和 PLS-DA 分析。
2 结果与分析
2.1 PCA 和 PLS-DA 分析
SIMCA-P11.5 软件对检测结果(共 28 项)
进行预处理,最后以 PCA 和 PLS-DA 模型正贡
献率的 12 个理化成分为自变量建立数学模型。
PCA模型包含6个主成分,拟合参数为R2X=0.942、
Q
2
=0.557;PLS-DA 模型包含 2 个主成分,拟
合参数为 R2X=0.871、Q2=0.579。R2X 越接近 1
表明模型越稳定,Q2>0.5 表明预测率较高[16],
分析结果均可以通过得分图(Scores plot)展
示。各样本在第一主成分和第二主成分构成的
平面上的投影得分值就是空间坐标,能够直观
地反映样本间的相似或差异性[17]。如果两个样
本之间差异明显,那么这两个坐标点在得分图
上的位置相对较远,反之亦然。
图 1 是 PCA(图 1-a)和 PLS-DA(图 1-b)
的得分图,横坐标 t1 和纵坐标 t2 分别代表每
个样品在主成分 PC1 和 PC2 上投影的得分值。
在图 1 中,PCA 和 PLS-DA 基本可以将所有
样本分为两组(Ⅰ组和Ⅱ组),累积解释度分
别为 72.2%(图 1-a)和 87.1%(图 1-b)。通
过 Hotelling T2 分布图(图 2)可以解释样本
间差异,因 PCA 模型(图 1-a)中样本点 1、
30、31 和 PLS-DA 模型(图 1-b)中样本点 31
均存在显著性差异,故 PCA 模型无法对样本
点 1、30 和 31 进行归类,PLS-DA 模型无法
对样本点 31 进行归类。
综上所述,PCA 和 PLS-DA 都可以对晒
青毛茶进行一定的分类,而且 PLS-DA 的分类
效果更加突出。由于 PCA 是在没有进行预先
2 期 刘彬球,等:PCA 和 PLS-DA 用于晒青毛茶级别分类研究 181

分类的情况下,通过每个样本点在得分图上的
位置来显示样本的分类信息,因此分类结果更
加客观。PCA 和 PLS-DA 可以相互加以验证,
使分类结果更加科学合理。由图 1 可知,Ⅰ组
和Ⅱ组之间的样本点可以完全区分,而Ⅱ组内
的样本点几乎难以区分,根据感官品质进行级
别评定的结果表明,Ⅰ组的样本全为 3 级,Ⅱ
组的样本分别为 6 级和 9 级。说明,PCA 和
PLS-DA 均能够将 3 级毛茶从所有样品中区分
开,具有一定的实用意义。

























2.2 重要理化成分分析
结合 PCA 载荷图(Loadings plot)和
PLS-DA 变量重要性因子(Variable important
for the projection,VIP)分布图分析,找出对
晒青毛茶级别分类重要的理化成分。PCA 载
荷图(图 3)表明理化成分的分布情况,其分
布情况与 PCA 得分图(图 1-a)中样本点的分
布和位置对应。如图 3 所示,总黄酮含量与级
别呈负相关,而与赖氨酸(Lys)、脯氨酸(Pro)
和苯丙氨酸(Phe)等氨基酸含量则呈正相关。
VIP 值(图 4)可以量化 PLS-DA 的每个
变量对分类的贡献,VIP 值越大,变量在晒青
毛茶不同级别间的差异越显著。由图 4 所示,
PLS-DA 分析计算出 VIP 值,发现有 8 个理化
成分的 VIP 值>1。其中,赖氨酸(Lys)、
脯氨酸(Pro)和苯丙氨酸(Phe)是对分类作
用最重要的 3 个变量。其结果与 PCA 载荷图
分析结果基本一致,结合 PCA 和 PLS-DA 的
图 1 PCA(a)和 PLS-DA(b)得分图
Fig. 1 Scores plot of PCA(a) and PLS-DA (b)
R
2
X[1]=0.580
R
2
X[2]=0.142
R
2
X[1]=0.741
R
2
X[2]=0.132
t2

t2

t1
t1
182 茶 叶 科 学 35 卷

结果可知,晒青毛茶的氨基酸组分含量与其
级别的相关性较大,可以为晒青毛茶的级别
分类提供一定的理论支持。茶叶中氨基酸的
组成、含量以及它们的降解产物和转化产物
直接影响茶叶品质,其中茶氨酸是茶叶中含
量最高的一类氨基酸,由图 4 可知茶氨酸的
VIP 值<1,表明茶氨酸与晒青毛茶级别无明显
的相关性。



































图 3 PCA 分析载荷图
Fig. 3 Loadings plot of PCA
图 2 PCA(a)和 PLS-DA(b)的 Hotelling T2 值分布图
Fig. 2 Hotelling T2 value of PCA (a) and PLS-DA(b)
(b)
H
o
te
ll
in
g
T
2
r
a
n
g
e
[
C
o
m
p
.1
-2
]
H
o
te
ll
in
g
T
2
r
a
n
g
e
[
C
o
m
p
.1
-2
]
样本号 Sample number
样本号 Sample number
2 期 刘彬球,等:PCA 和 PLS-DA 用于晒青毛茶级别分类研究 183
















3 讨论
在本研究中发现,PCA 和 PLS-DA 模型
可明显地将 3 级晒青毛茶分类出来,难以区分
6 级和 9 级。可能由于 6 级和 9 级毛茶嫩度相
近,叶片含量都比较高,而理化成分与毛茶芽
叶之间存在着一定的相关性 [18],因此难以通
过对理化成分的分析来区分 6 级和 9 级毛茶。
茶叶游离氨基酸含量对茶汤滋味具有一
定的影响,在茶叶品质鉴定中是一项重要理化
指标。本文得出,氨基酸组分含量与晒青毛茶
级别的相关性较明显,其中赖氨酸(Lys)、
脯氨酸(Pro)和苯丙氨酸(Phe)是晒青毛茶
级别分类最重要的 3 种理化成分。但是文中结
论表明作为茶叶特征物质的茶氨酸(The)与
级别的相关性不明显,这可能与台地茶老叶和
幼叶的茶氨酸含量十分相近[19]有关。
4 结论
建立 PCA 和 PLS-DA 模型,其中 PCA 模
型包含 6 个主成分,拟合参数为 R2X=0.942、
Q
2
=0.557,可以对晒青毛茶级别稳定分类;
PLS-DA 模型包含 2 个主成分,其拟合参数为
R
2
X=0.871、Q2=0.579,其分类结果与 PCA 分
析一致。通过 PCA 和 PLS-DA 的分析结果进
行相互验证,得出科学客观的分类结果。
通过 PCA 和 PLS-DA 得分图(图 1)能
够比较直观地将所有样本分为两组,经评定得
出Ⅰ组样本为 3 级晒青毛茶,Ⅱ组样本分别为
6 级、9 级晒青毛茶,说明 PCA 和 PLS-DA 分
析可以用于级别未预知的晒青毛茶进行分类。
通过 PCA 载荷图(图 3)和 PLS-DA 的
VIP 值图(图 4)找出对晒青毛茶级别分类起
着重要作用的理化成分,结果发现茶叶中的氨
基酸组分含量是晒青毛茶级别分类的重要理
化成分,其中赖氨酸(Lys)、脯氨酸(Pro)
和苯丙氨酸(Phe)起着较为显著的作用。

参考文献
[1] 蔡新 , 张理珉 , 杨善禧 , 等 . 中华人民共和国国家标准
GB/T 22111—2008 地理标志产品 普洱茶 [S]. 北京 : 中
国标准出版社 , 2008.
[2] 王茹芸 , 李亚莉 , 周红杰 . 普洱茶中氨基酸与贮期、级别
及 品 质 关 系 的 研 究 [J]. 西 南 农 业 学 报 , 2013,25(4):
1222-12226.
[3] 吕海鹏 , 林智 , 张悦 , 等 . 不同等级普洱茶的化学成分及
抗氧化活性比较[J]. 茶叶科学 , 2013, 33(4): 386-395.
[4] 吕海鹏 , 林智 , 张悦 , 等 . 普洱茶中主要矿质元素分析[J].
茶叶科学 , 2013, 33(4): 411-419.
图 4 PLS-DA 模型 VIP 图
Fig. 4 VIP plot of PLS-DA
注:1. 赖氨酸,2. 脯氨酸,3. 苯丙氨酸,4. 丝氨酸,5. 亮氨酸,6. 异亮氨酸,7. 表没食子儿茶素没
食子酸酯,8. 氨基酸总量,9. 天冬氨酸,10. 茶氨酸,11. 苏氨酸,12. 黄酮类。
Note: 1. Lys, 2. Prol, 3. Phe, 4 Ser, 5. Leu, 6. Isoleucine, 7. EGCG, 8. AA total, 9. Asp, 10. The, 11. Thr, 12.
Flavoniod.
1 2 3 4 5 6 7 8 9 10 11 12
184 茶 叶 科 学 35 卷

[5] 张新富 , 龚加顺 , 周红杰 , 等 . 云南普洱茶中多酚类物质
与品质的关系研究[J]. 食品科学 , 2007, 28(1): 230-233.
[6] 陈孝权 , 肖海军 , 孙鲁云 , 等 . 云南主产区晒青毛茶品质
成分研究 [J]. 安徽农业科学 , 2013, 41(11): 5018-5022,
5043.
[7] 李志伟 . 基于主成分分析法的茶叶特征性指标分类 [J]. 安
徽农业科学 , 2014, 42(7): 2109 -2110, 2160.
[8] 丁长春 ,方向京 ,赵艳丽 , 等 . 近红外漫反射光谱法快速鉴
别石斛属植物[J]. 光谱学与光谱分析 , 2014, 34(1): 82-86.
[9] 龚自明 , 王雪萍 , 高士伟 , 等 . 湖北绿茶香气组分的主成
分分析[J]. 湖北农业科学 , 2013, 52(23): 5780-5784.
[10] 郭洁丽 , 毛立新 , 杨小兰 . 恒能量同步荧光光谱法结合主
成分分析法对山西老陈醋的鉴别研究 [J]. 食品工程 ,
2014(1): 55-58.
[11] Qimeng Fan, Chaoyin Chen, Yuping Lin, et al. Fourier
Transform Infrared (FT-IR) Spectroscopy for discrimination of
Rhizoma gastrodiae (Tianma) from different producing areas
[J]. Journal of Molecular Structures, 2013(1051): 66-71.
[12] 杨忠 , 任海青 , 江泽慧 , 等 . PLS-DA 法判别分析木材生物
腐朽的研究[J]. 光谱学与光谱分析 , 2008, 28(4): 793-796.
[13] 陆松候 . 茶叶审评与检验[M]. 3 版 . 北京:中国农业出版社 ,
2000: 208-209.
[14] 陈金娥 , 杨雯婷 , 刘勇麟 , 等 . 微波萃取-响应面法优化绿
茶黄酮提取工艺[J]. 食品研究与开发 , 2013, 34(3): 19-23.
[15] 徐飞 , 谭乐和 , 陈鹏 , 等 . OPS-FMOC 柱前衍生反相高效
液相测定糯米香茶叶片中的氨基酸 [J]. 热带作物学报 ,
2012, 32(8): 1482-1486.
[16] 余欣尉 , 吴谦 , 吕望 , 等 . 基于液相色谱-质谱联用技术的
肺癌细胞代谢组学分析[J]. 色谱 , 2013, 31(7): 691-696
[17] 徐丹 , 孟宇 , 胡波 , 等 . 基于 HPLC-MS/MS Q-TOF 分析糖
尿病肾病维持性血透患者含糖透析的代谢特征 [J]. 中国
病理生理杂志 , 2013, 29(3): 455-461.
[18] 陈保 , 姜东华 , 吕生 , 等 . 云抗 10 号大叶种茶晒青芽叶的
生化特性研究[J]. 茶叶科学技术 , 2013(1): 1-4.
[19] 折改梅 , 张香兰 , 陈可可 , 等 . 茶氨酸和没食子酸在普洱
茶中的含量变化[J]. 云南植物研究, 2005, 27(5): 572-576.


从 FAO 网站下载世界各国茶叶数据的方法
联合国粮农组织网站中公布有大量世界各国各种农作物相关统计数据,其数据量大范围广,
几乎涉及所有国家,时间跨度也很长,是撰写相关论文时很有用的参考资料。下面简介利用该
网站获取数据的方法。
第一步:打开 FAO 网站(http://www.fao.org/),进入“FAO Home”。
第二步:可点击选择“中文”(或“English”等语种),进入中文主页。
第三步:点击左侧“统计资料”,进入下一页面后,再点击“FAOSTAT”,进入“FAOSTAT”
页面。
第四步:点击“Production”并下拉出现的“Download”,然后再在展开的页面中点击“Crops”,
进入下一步检索页面。
第五步:在“Countries”、“Items”、“Elements”、“Years”等选择框内进行选择(可
以选择多项),再点击下面的“Excel”按钮,便可得到检索结果。
一次下载资料的数量有一定限制,下载资料的文件类型可根据实际需要选择,对于大量数
据下载,一般可选用 Excell 文件类型。其他资料的检索过程基本类似。网站上的有些布局和结
构会随时间而有所变化,检索方法也可能出现一些微调。

(供稿:朱永兴)

DOI:10.13305/j.cnki.jts.2015.02.012