全 文 :作物学报 ACTA AGRONOMICA SINICA 2014, 40(11): 20522056 http://zwxb.chinacrops.org/
ISSN 0496-3490; CODEN TSHPA9 E-mail: xbzw@chinajournal.net.cn
本研究由江苏省高校“青蓝工程”科技创新团队和江苏省作物学优势学科项目资助。
* 通讯作者(Corresponding author): 徐辰武, E-mail: cwxu@yzu.edu.cn, Tel: 0514-87979358
第一作者联系方式: E-mail: wangwei-2002@sohu.com
Received(收稿日期): 2014-04-03; Accepted(接受日期): 2014-09-16; Published online(网络出版日期): 2014-10-08.
URL: http://www.cnki.net/kcms/detail/11.1809.S.20141008.0950.004.html
DOI: 10.3724/SP.J.1006.2014.02052
江苏省稻米重金属镉检测多级抽样最优试验方案的探讨
王 伟 1,3 宋 雯 2 尹双义 1 徐辰武 1,*
1 扬州大学农学院生物统计与试验设计教研室 , 江苏扬州 225009; 2 江苏省农业科学院食品质量安全与检测研究所 , 江苏南京
210014; 3 河南科技学院生命科技学院, 河南新乡 453003
摘 要: 为了探讨江苏省稻米重金属镉检测多级抽样最佳试验方案, 本文以一个三级抽样检测结果为例, 经方差分析 F
检验, 发现地市间和样点村间差异均极显著, 各级误差方差以地市间最大。在此基础上, 探讨了在一定精确度保证下的
最优配置抽样方案。结果表明, 为了提高调查的精确度, 在经费许可的条件下可采用随机抽取 6个地市, 每个地市随机
抽取 20 个样点村或农技推广站, 每个样点村随机重复 2 次的抽样方案; 若资金较为紧张, 在保证当前精确度的基础上,
亦可以采用随机抽取 6个地市, 每个地市随机抽取 10个样点村或农技推广站, 每个样点村随机重复 2次的抽样方案。
关键词: 多级抽样; 稻米; 重金属; 最优方案
Discussion of Multistage Sampling Optimum Test Plans on Rice Cadmium De-
tection for Jiangsu Province
WANG Wei1,3, SONG Wen2, YIN Shuang-Yi1, and XU Chen-Wu1,*
1 Group of Biostatistics and Experiment Design, College of Agriculture, Yangzhou University, Yangzhou 225009, China; 2 Institute of Food Safety and
Inspection, Jiangsu Academy of Agricultural Sciences, Nanjing 210014, China; 3 Life Science and Technology College, Henan Institute of Science
and Technology, Xinxiang 453003, China
Abstract: A three stage sampling survey as a real example was used to investigate the optimal plan of the sampling survey for
cadmium in rice in Jiangsu Province. F-test showed that differences of the survey among cities and sampling villages were both
very significant, and the error variance among cities was the largest in the experiment. In this paper, considering the survey ex-
penses, the optimal sampling plan was explored under a certain accuracy. The results indicated that six cities were randomly sam-
pled and twenty villages or agricultural extension stations were selected at random from each city, with twice sampling in each
village in order to increase the precision of the survey. If there is a lack of funds, on the basis of ensuring the current sampling
accuracy, we suggest that ten villages or agricultural extension stations from each city can be sampled alternatively.
Keywords: Multistage sampling; Rice; Heavy metal; Optimal sampling plan
水稻是我国的主要粮食作物之一 , 总产量居世界首
位。我国工业的迅猛发展一定程度上导致了大量稻田含有
重金属, 重金属在水稻体内累积, 通过食物链传递, 对人
和动物的生命和健康构成严重威胁 , 直接影响我国的粮
食安全 [1]。近年来, 稻米中重金属的污染问题倍受关注,
而且国际上对重金属的环境标准也日益严格[2]。准确地检
测江苏省稻米的重金属是揭示稻米重金属污染情况的重
要环节。重金属镉的毒性很强, 虽然不是水稻生长必需元
素, 但很容易被水稻的根系吸收[3]。由于江苏省种植面积广,
很难全面检测稻米重金属含量, 因而采用合适的抽样方案
才是高效简便准确地检测稻米重金属镉污染的可行方法。
抽样调查的目的在于用所得到的调查数据来推断总
体, 因此, 无论哪一种抽样调查方法, 都要注意精度和费
用2个问题[4]。各种抽样方法都各有优缺点且适用于不同
的环境。很多情况下, 特别是在复杂的、大规模的抽样调
查中往往采取多级抽样。多级抽样, 亦称多阶抽样, 是一
种先通过抽取若干级中间单元 , 再抽取基本调查单元的
抽样方法[5], 对每个抽中的初级单元再抽样能够充分发挥
抽样效率, 节省人力和物力。多阶抽样适用于抽样调查涉
及范围广、抽样框不明确、或总体范围太大、无法直接抽
取样本等情况。农业调查研究可以遇到两级或两级以上多
级抽样问题[6], 抽样前往往不了解总体的变异程度, 也无
第 11期 王 伟等: 江苏省稻米重金属镉检测多级抽样最优试验方案的探讨 2053
法确定抽样误差的大小和各级抽样样本的最优配置。所以
应在正式抽样前进行一次小型多级抽样试验 , 分析各级
抽样误差, 以便研究确定一个最佳抽样方案。张宗秀等[7]
采用二阶抽样的方法将遥感与地面调查相结合 , 对如何
提高森林资源抽样的精度进行了研究。张启贤[8]根据精度
与费用之间的关系 , 确定当第一阶抽样为有放回概率比
率规模抽样(PPS)、第二阶抽样为简单随机抽样时, 二阶
抽样的样本容量最优分配。对稻米重金属多级抽样方案的
优化问题, 未见相关文献报道。本文探讨稻米重金属镉检
测的多级抽样最佳试验方案 , 对稻米重金属含量的调查
研究有一定的指导意义。
1 材料与方法
1.1 样品的采集与处理
原始样品稻米分别来源于江苏省农业科学院随机抽
取的泰州市、南通市、扬州市、连云港市、徐州市5个地
区, 每个地区随机抽取30个样点村或农技推广站, 每个样
点村随机调查2个样点, 共计300个样品。对采购的大米样
品分别用去离子水淘洗(约2~3次), 风干并用粉碎机磨成
粉末状, 过20目筛, 分别转移至密封袋, 干燥保存待用。
1.2 检测方法
用电子天平称取样品0.5 g, 转移至三角烧瓶中, 加入
10 mL混合酸(硝酸∶高氯酸= 5∶1)浸泡过夜。次日于可
调电热板上微火消解至溶液澄清透明, 冒白烟。冷却后转
移至25 mL比色管, 用去离子水反复少量清洗三角烧瓶,
并把洗液同时转移至比色管, 再用去离子水定容。用石墨
炉原子吸收分光光度法测定样品中镉元素的含量。
1.3 统计分析
按照系统分组资料进行多级抽样数据方差分析[6]。其
中, 5个地市作为一级抽样(rA=5), 即5个组; 每个地市随
机抽取30个样点村或农技推广站作为二级抽样 (rB=30),
即每个组内有30个亚组; 每个样点村重复2次(rC=2)作为
三级抽样。
2 结果与分析
2.1 江苏省稻米重金属镉检测多级抽样试验的方差分析
由表 1 可知 , 连云港市稻米平均镉含量最大 , 为
0.0992 mg kg–1; 其次是南通市、泰州市和徐州市, 分别为
0.0827、0.0600和 0.0570 mg kg–1; 扬州市最小, 为 0.0270
mg kg–1。最大值出现在泰州市, 为 0.1900 mg kg–1。五地
市最大值均小于食品安全国家标准(GB2762-2012)中食品
镉限量 0.2 mg kg–1。样品检验均合格。
由表 2结果可知, 无论是地市间还是市内样点村间差异
均达到极显著水平。根据三级抽样误差方差的求法, 可由表
2 期望均方公式计算出第三阶抽样误差 2ˆ 0.0001eC , 第二
阶抽样误差 2ˆ 0.00025eB , 第一阶抽样误差 2ˆ 0.0008eA 。
表明, 江苏省稻米重金属镉调查的抽样误差主要来自于地
市间, 其次是样点村的抽样误差, 重复间抽样误差最小。
2.2 考虑样本容量和精确度时抽样方案的探讨
为了制定最佳抽样方案, 确定合适的样本容量, 首先
应计算出各级抽样中每增加一次重复时 , 对减少误差方
差的效率关系, 也就是各阶抽样每增加一次重复时, 对于
提高试验精确度的效率。详见表 3。
表 1 江苏省稻米重金属镉含量特征
Table 1 Characteristics of heavy metal cadmium in rice in Jiangsu Province (mg kg–1)
区域
District
最小值
Minimum
平均数
Average
标准差
Standard deviation
中位数
Median
最大值
Maximum
泰州市 Taizhou city 0.0017 0.0600 0.0549 0.0555 0.1900
南通市 Nantong city 0.0100 0.0827 0.0377 0.1000 0.1400
扬州市 Yangzhou city 0.0002 0.0270 0.0360 0.0147 0.1800
连云港市 Lianyungang city 0.0014 0.0992 0.0683 0.1065 0.1800
徐州市 Xuzhou city 0.0006 0.0570 0.0673 0.0130 0.1600
表 2 江苏省稻米重金属镉方差分析结果
Table 2 Variance analysis results of heavy metal cadmium in rice in Jiangsu Province
变异来源
Sources of variation
自由度
df
平方和
SS
方差
MS
期望均方
EMS
F值
F-value
地市间 City 4 0.1944 4.86×10–2 2 2 22 60 eC eB eA 83.6936**
市内样点村间 Village 145 0.0842 5.81×10–4 2 22eC eB 5.8458**
误差 Error 150 0.0149 9.93×10–5 2eC
总变异 Total 299 1.0516
**表示 0.01水平差异显著。** indicates significance at 0.01 probability level.
2054 作 物 学 报 第 40卷
表 3 各抽样环节增加 r对于减少误差方差的效率
Table 3 The efficiency of reducing error variance by increasing r at each sampling stage
环节 Operation
A B C
ri
2ˆeA
Ar
r每增加 1所减少的方差
Reduced variance with
increasing 1 of r
2ˆeB
Br
r每增加 1所减少的方差
Reduced variance with
increasing 1 of r
2ˆeC
Cr
r每增加 1所减少的方差
Reduced variance with
increasing 1 of r
1 0.000800 — 0.0002500 — 0.000100 —
2 0.000400 0.000400 0.0001250 0.0001250 0.000050 0.000050
3 0.000267 0.000133 0.0000830 0.0000420 0.000033 0.000017
4 0.000200 0.000067 0.0000625 0.0000205 — —
5 0.000160 0.000040 0.0000500 0.0000125 — —
6 0.000130 0.000030 — — — —
表 3结果表明, 这个抽样如果在每一环节上仅重复一
次, 则标准差为:
2 2 2ˆ ˆ ˆ 0.0340 eA eB eCs
要减少这一变异, 则首先需使 rA=2, 因为 rA从 1增至
2, 可使误差方差减少 0.0004, 它和其他环节增加 r的效率
相比是最大的, 此时标准误为:
2
2 2ˆ ˆ ˆ 0.0274
2
eAy eB eCs
若仍嫌 0.0274ys 太大, 则需 rA=3, 此时标准误为:
2
2 2ˆ ˆ ˆ 0.0248
3
eAy eB eCs
若仍嫌 0.0248ys 太大, 则需 rB从 1 增加到 2, 以使
误差方差减少 0.000 125, 这个过程可以类推下去, 直至
ys 达到预定的要求为止。
由表 3可知, rC=2最优, 因其由 2增加至 3时, 方差
0.000 017已经非常小了; rA可适当增加至 6, 因为此时每
增加 1, 减少的方差为 0.000 03; rB的取值也不宜太多, 因
其从 4增加至 5时, 方差已减至 0.000 012 5, 也太小了。
目前, 5个地市作为一级抽样(rA=5), 每个地市随机抽
取 30 个样点村或农技推广站作为二级抽样(rB=30), 每个
样点村重复 2次作为三级抽样(rC=2), 平均数标准误为
2 2 2ˆ ˆ ˆ
0.01478
5 30 2
eA eB eCys 。
综上, rC=2最优; rA可适当增加至 6。所以该试验可以适
当增加 1个地市数, 适当减少样点村数, 每个村 2次重复检
测。因此, 固定第一阶抽样 6 个地市(rA=6)和第三阶抽样
(rC=2), 仅减少样点村至 10, 其减少与精确度的关系见表 4。
由表 4 可知, 在 rA=6 和 rC=2 时, 随着样点村由下到
上从 10个增加到 30个, 精确度逐渐增加, 但是增加很缓
慢。考虑到对抽样精确度的要求 , 我们不妨假设使
<0.0140ys , 则当 rB=19 时 , =0.014 02ys , 当 rB=20 时 ,
=0.01399ys , 但要使 <0.0140ys , 需要 rB≥20 才能满足要
求。随着 rB的不断增大, 抽样精确度不断增加, rB多大才
算合适呢?这还需要考虑抽样成本的问题。
2.3 考虑成本和精确度时对抽样方案的探讨
现以上述稻米重金属镉抽样结果来计算调查费用并
探讨最佳抽样方案。调查总费用用 c表示, 则 c = rA cA + rA
rB cB+ rA rB rC cC, 其中 cA= 一个地市的调查费(元); cB=
一个样点村的调查费(元); cC= 一个样品的采样成本及其
检测费用(元)。
假设 cA=5、cB=5、cC=80, 当 rA=5、rB=30、rC=2时, 则
c =5×5+5×30×5+5×30×2×80=24775(元)。
对于江苏省稻米重金属镉的多级抽样方案的探讨总
体思路是适当增加地市数、减少样点村, 每个样点村至少
重复 2 次取样。表 4 列出了仅改变 rB时 ys 和抽样成本的
变化。从中可以看出, ys 随 rB的增大逐渐减小, 说明精确
度不断提高; 但同时抽样成本随 rB的增大也不断增加, 并
且 rB每增加 1相应的成本就增加 990元, 呈线性关系。为
确定最佳抽样方案, 可以通过与原抽样方案作比较, 计算
出 rA=6, rC=2, rB由 10增至 30时, 所组成的新的抽样方案
相对于原抽样方案所增加的精确度与减少的成本的百分
数, 其变化趋势见图 1和图 2。
由图 1 可以看出, 相对于原方案所增加的精确度的百
分数随 rB的增加而不断增大, 但同时相对原方案增加的精
确度的百分数的变化逐渐放缓, 即精确度随 rB的增加不断
提高, 但提高的速度逐渐减小。由图 2可知, 相对原方案所
减少的成本百分数随 rB的增加而减少, 并且可以明显地看
出, 当 rB增至 25 时, 相对原抽样方案减小的成本为负值,
即新抽样方案的成本已超过了原抽样方案的成本。
在 <0.0140ys 的基础上, 若要求新的抽样方案的成本
小于 rA=5、rB=30、rC=2时所需的成本, 即 c<24775, 则需
综合考虑成本和精确度 2 个因素。考虑到当 rB<20 时,
0.0140ys , 当 rB>24时 c>24775; 所以 rB应取值 20、21、
22、23和 24。考虑到当 rB=20时, 0.013 99ys , c=19 830;
当 rB=24时, 0.013 92ys , c=23 790; 两者 ys 相差 0.000 07, c
相差 3960 元; 成本相差较多, 但 ys 相差的很小, 并且 rB
对提高精确度的效用随着 rB 增大又有所减小。所以综合
分析成本和精确度 2个因素可得当 rB=20时成本最低, 精
确度又达到要求, 为最佳抽样方案。
第 11期 王 伟等: 江苏省稻米重金属镉检测多级抽样最优试验方案的探讨 2055
表 4 仅减少样本村时 ys 的值和抽样成本
Table 4 ys and sampling costs relative to the original plan when only sampling villages were reduced
第一阶抽样数 rA 第二阶抽样数 rB 第三阶抽样数 rC 标准误 ys 抽样成本 Sampling cost
5 30 2 0.01478 24775
6 30 2 0.01384 29730
6 29 2 0.01385 28740
6 28 2 0.01387 27750
6 27 2 0.01388 26760
6 26 2 0.01389 25770
6 25 2 0.01390 24780
6 24 2 0.01392 23790
6 23 2 0.01394 22800
6 22 2 0.01395 21810
6 21 2 0.01397 20820
6 20 2 0.01399 19830
6 19 2 0.01402 18840
6 18 2 0.01404 17850
6 17 2 0.01407 16860
6 16 2 0.01411 15870
6 15 2 0.01414 14880
6 14 2 0.01418 13890
6 13 2 0.01423 12900
6 12 2 0.01429 11910
6 11 2 0.01435 10920
6 10 2 0.01443 9930
图 1 相对于原方案增加的精确度的百分数随 rB的变化关系
Fig. 1 Relationship between rB and the percentage of
increasing precision relative to the original plan
综上所述, 在 <0.0140ys , c<24 775 (rA=5, rB=30, rC=2
时原抽样方案的成本), cA=5元、cB=5元、cC=80元的条件
下, 江苏省稻米重金属镉检测最佳多级抽样方案为 rA=6、
rB=20、rC=2。此时 0.013 99ys , c=198 30。若此时仍嫌成
本太大 , 则在牺牲精确度但仍保证当前抽样精确度
<0.0148ys 的基础上, 可使 rA=6、rB=10、rC=2时, 此时调
查费用 c =6×5+6×10×5+6×10×2×80=9930 (元), 此时标准
误 =0.014 43ys 。
图 2 相对于原方案减少的成本的百分数随 rB的变化关系
Fig. 2 Relationship between rB and the percentage of
decreasing costs relative to the original plan
3 讨论
方差是计算样本量的基础 , 因此关于如何计算多阶
抽样样本量的讨论需从研究多阶抽样的方差开始[9]。对于
各级样本, 样本容量太小, 数据精度不够, 统计推断的可
信度降低; 容量太大, 又会造成人力物力的浪费, 且调查
周期延长就会丧失抽样调查相对于全面调查的优越性[10]。
一般情况下, 确定一个抽样方案的最适抽样数, 本质
上是使试验达到较高精确度和较低成本 , 但较高精确度
2056 作 物 学 报 第 40卷
和较低成本是一对矛盾。刘爱芹[11]对随机抽样中样本容
量确定的影响因素进行分析 , 其中提到样本容量的影响
因素的定性分析。如果样本容量较大, 那么统计推断的精
度较好, 但费用较高; 如果样本量较小, 那么统计推断的
精度较差, 但费用较低。我们面对的问题就是如何协调二
者之间的矛盾, 使得可以确定一个样本容量, 它既可以满
足一定的精度需求, 又不至花费太多。通过调节各级的样
本数 , 使得抽样方案在达到我们调查所要求的精确度情
况下, 具有调查费用较少的各级适合样本配置数, 也就达
到抽样设计方案的要求。
目前, 我们可以考虑为了提高调查的精确度, 在经费
许可的条件下采用 rA=6、rB=20、rC=2, 即江苏省随机抽
取 6 个地市, 每个地市随机抽取 20 个样点村或农技推广
站, 每个样点村随机重复 2次检测的抽样方案; 若资金较
为紧张, 在保证当前精确度的基础上, 亦可以采用 rA=6、
rB=10、rC=2, 即江苏省随机抽取 6个地市, 每个地市随机
抽取 10个样点村或农技推广站, 每个样点村随机重复 2
次检测的抽样方案。然而, 至于最佳抽样方案的设计需要
根据实际情况和具体要求 , 通过相关决策者和研究人员
共同商讨决定。
References
[1] Fu J J, Zhou Q F, Liu J M, Liu W, Wang T, Zhang Q H, Jiang G B.
High levels of heavy metals in rice (Oryza sativa L.) from a typi-
cal E-waste recycling area in southeast China and its potential
risk to human health. Chemosphere, 2008, 71: 1269–1275
[2] 柯庆明, 梁康迳, 郑履端, 朱燕, 方辉, 梁义元, 郭玉春, 林文
雄. 福建省水稻稻米重金属污染的对应分析. 应用生态学报,
2005, 16: 1918–1923
Ke X M, Liang K J, Zheng L D, Zhu Y, Fang H, Liang Y Y, Guo
Y C, Lin W X. Corresponding analysis on rice grain heavy metal
pollution in Fujian Province. Chin J Appl Ecol, 2005, 16:
1918–1923 (in Chinese with English abstract)
[3] Clemens S. Molecular mechanisms of plant metal tolerance and
homeostasis. Planta, 2001, 212: 475–486
[4] 张咪咪, 徐丽, 林筱文. 我国抽样调查方法的最新进展. 统计
与决策, 2010, (8): 1
Zhang M M, Xu L, Lin X W. The latest progress of sampling
methods in China. Statist & Decision, 2010, (8): 1 (in Chinese)
[5] 李金昌. 应用抽样技术(第 2 版). 北京: 科学出版社, 2010. p
188
Li J C. Application of Sampling Techniques, 2nd edn. Beijing:
Science Press, 2010. p 188 (in Chinese)
[6] 莫惠栋. 农业试验统计(第 2 版). 上海: 上海科学技术出版社,
1992. p 287
Mo H D. Agricultural Experimentation, 2nd edn. Shanghai:
Shanghai Scientific and Technical Publishers, 1992. p 287 (in
Chinese)
[7] 张宗秀, 高天雷, 张文. 双重二阶抽样提高森林资源抽样精度
的研究. 四川林业科技, 2013, 34(5): 8–12
Zhang Z X, Gao T L, Zhang W. Double second stage sampling to
improve sampling accuracy of forest resources research. J
Sichuan For Sci & Technol, 2013, 34(5): 8–12 (in Chinese with
English abstract)
[8] 张启贤. 二阶抽样下样本容量的最优分配. 三明学院学报,
2008, 25(2): 134–137
Zhang Q X. Optimal allocation of survey sampling of two-stage
sampling. J Sanming Univ, 2008, 25(2): 134–137 (in Chinese
with English abstract)
[9] 王文颖. 多阶段抽样的精度控制及样本量计算. 统计研究,
1997, (5): 66–70
Wang W Y. The precision control and sample size calculation of
multistage sampling. Stat Res, 1997, (5): 66–70 (in Chinese with
English abstract)
[10] 姚淑霞, 张铜会. 随机抽样必要样本容量的确定方法及其应
用. 干旱区研究, 2012, 29: 547–552
Yao S X, Zhang T H. A method for determining necessary sample
size in random sampling and its application. Arid Zone Res, 2012,
29: 547–552 (in Chinese with English abstract)
[11] 刘爱芹. 随机抽样中样本容量确定的影响因素分析. 山东财
政学院学报, 2006, (5): 60–64
Liu A Q. Analysis of influencing factors in determination of sam-
ple size in random sampling. J Shandong Univ Finance, 2006, (5):
60–64