Predicting potential geographical distributions and patterns of the relic plant Gymnocarpos przewalskii using Maximum Entropy and Genetic Algorithm for Rule-set Prediction


Aims Understanding the geographical distribution and patterns of endemic species is critical to biodiversity conservation and biogeographical history reconstruction of the area occupied by the species. The ecological niche models (ENMs) are useful techniques to explore the links between the species distribution and the environmental data. The displayed potential habitats for the species, in turn can enable the examination of the predictive abilities of various ENMs. We attempt to determine the potential geographic distributions of the Tertiary relic plant Gymnocarpos przewalskii based on the model of maximum entropy (MAXENT) and genetic algorithm for rule-set prediction (GARP). Methods Based on sixteen sampled localities and seven environmental layers (isothermality, maximum temperature, minimum temperature, annual precipitation, potential evapotranspiration ratio (PER), altitude and soil types), we conducted predictions of G. przewalskii using MAXENT and GARP models. The spatial distribution maps of G. przewalskii with the different environmental suitable values (MAXENT) or overlap index (GARP) displayed the distribution patterns clearly. Important findings The potential distributions of G. przewalskii with the highest environment suitability are predicted at first in the middle of Hexi corridor and the western Yumen of Gansu Province, the north of Ningxia-Hui Autonomous Region, and the part of the Wulate banner of Inner Mongolia in China. The others are mainly in northwestern Tarim Basin and small isolated areas in northwestern Qaidam Basin. Both MAXENT and GARP produced good predictions for G. przewalskii. However, GARP predicted larger and more continuous suitable habitats around the species’ locations and some isolated and fragmented spatial predictions where the species has never been found or collected before. MAXENT predicted a distribution that is a logical proportion of the study area and removed most of the unlikely isolated habitats.

马松梅1,2 张明理1,3* 张宏祥1,2 孟宏虎1,2 陈 曦4*
1中国科学院干旱区生物地理与生物资源重点实验室, 中国科学院新疆生态与地理研究所, 乌鲁木齐 830011; 2中国科学院研究生院, 北京 100049;
3中国科学院植物研究所, 北京 100093; 4新疆遥感与地理信息系统应用实验室, 中国科学院新疆生态与地理研究所, 乌鲁木齐 830011
关键词 规则集遗传算法模型, 裸果木, 留一法, 最大熵模型, 潜在分布区
Predicting potential geographical distributions and patterns of the relic plant Gymnocarpos
przewalskii using Maximum Entropy and Genetic Algorithm for Rule-set Prediction
MA Song-Mei1,2, ZHANG Ming-Li1,3*, ZHANG Hong-Xiang1,2, MENG Hong-Hu1,2, and CHEN Xi4*
1Key Laboratory of Biogeography and Bioresource in Arid Land, Xinjiang Institute of Ecology and Geography, Chinese Academy of Sciences, Ürümqi 830011,
China; 2Graduate University of Chinese Academy of Sciences, Beijing 100049, China; 3Institute of Botany, Chinese Academy of Sciences, Beijing 100093,
China; and 4Xinjiang Laboratory of Geographic Information System and Remote Sensing Application, Xinjiang Institute of Ecology and Geography, Chinese
Academy of Sciences, Ürümqi 830011, China
Aims Understanding the geographical distribution and patterns of endemic species is critical to biodiversity
conservation and biogeographical history reconstruction of the area occupied by the species. The ecological niche
models (ENMs) are useful techniques to explore the links between the species distribution and the environmental
data. The displayed potential habitats for the species, in turn can enable the examination of the predictive abilities
of various ENMs. We attempt to determine the potential geographic distributions of the Tertiary relic plant Gym-
nocarpos przewalskii based on the model of maximum entropy (MAXENT) and genetic algorithm for rule-set
prediction (GARP).
Methods Based on sixteen sampled localities and seven environmental layers (isothermality, maximum tem-
perature, minimum temperature, annual precipitation, potential evapotranspiration ratio (PER), altitude and soil
types), we conducted predictions of G. przewalskii using MAXENT and GARP models. The spatial distribution
maps of G. przewalskii with the different environmental suitable values (MAXENT) or overlap index (GARP)
displayed the distribution patterns clearly.
Important findings The potential distributions of G. przewalskii with the highest environment suitability are
predicted at first in the middle of Hexi corridor and the western Yumen of Gansu Province, the north of
Ningxia-Hui Autonomous Region, and the part of the Wulate banner of Inner Mongolia in China. The others are
mainly in northwestern Tarim Basin and small isolated areas in northwestern Qaidam Basin. Both MAXENT and
GARP produced good predictions for G. przewalskii. However, GARP predicted larger and more continuous suit-
able habitats around the species’ locations and some isolated and fragmented spatial predictions where the species
has never been found or collected before. MAXENT predicted a distribution that is a logical proportion of the
1328 植物生态学报 Chinese Journal of Plant Ecology 2010, 34 (11): 1327–1335

study area and removed most of the unlikely isolated habitats.
Key words Genetic Algorithm for Rule-set Prediction (GARP), Gymnocarpos przewalskii, leave one out, Maximum
Entropy (MAXENT), potential geographic distribution

样性, 探索物种分布格局, 以及解决各种有关生
(Margules & Sarkar, 2000; Guisan & Thuiller, 2005)。
但对于大多数地区和物种来说, 通常缺乏详细的地
理分布信息 , 野外数据收集不仅非常耗时费力
(Ottaviani et al., 2004), 而且依靠采样获得的物种分
布数据通常不够完整, 很容易受采集路线或记录错
误等主观影响, 可能使得分布记录不能够代表物种
真正的地理分布界限(Graham et al., 2004)。所以, 目
生态位模型(ecological niche models, ENMs) (Guisan
& Harrell, 2000)。ENMs主要利用生态位原理, 将物
种的已知分布点, 例如标本馆的标本记录, 转换成
物种假定的分布界限 (da Fonseca, 2000), 不仅可以
区, 而且能够清楚地估计出潜在的分布格局。
ENMs也叫物种分布模型(species distribution
models), 它主要依赖物种的已知分布数据和一系
量, 地理分布通常被限制在狭小和有限的区域内,
因而也更容易受到外界的干扰而灭绝(Linder, 1995;
Peterson & Watson, 1998)。因此, 利用ENMs预测特
有种的潜在地理分布及格局, 将会对分布区的生物
非常有用的指导 (Linder, 1995; Caldecott et al.,
目前, ENMs已经在很多地区被成功地应用于
预测物种的潜在分布区。但是, 每种模型都有其自
身的优缺点, 很多模型的对比研究都表明, 最大熵
模型(MAXENT; Phillips et al., 2006)和规则集遗传
算法模型(GARP; Stockwell & Peters, 1999)具有较
好的预测能力(Stockwell & Peterson, 2002; Tsoar et
al., 2007)。更重要的是, MAXENT和GARP也非常适
合模拟具有较少分布数据的稀有或濒危物种 ,
预测, GARP可以在样本≥10的情况下取得较好的
预测结果(Pearson et al., 2007)。本研究基于野外调
查的有限分布数据, 选择MAXENT和GARP为预测
工具, 在地理和生态空间上模拟裸果木的潜在分
布, 分析其分布格局及原因, 并比较两个模型的预
裸果木(Gymnocarpos przewalskii)隶属于石竹
科裸果木属(Gymnocarpos), 高20–100 cm, 为超旱
生小灌木, 叶片稍肉质, 线形; 聚伞花序, 花小, 不
显著; 瘦果, 喜生于荒漠区海拔1 000–2 600 m的砾
10个种, 从西到东分布于佛得角群岛(大西洋岛国)
和金丝雀群岛(大西洋岛国), 分布中心在非洲的最
东部, 即“非洲之角”。裸果木在地理上与其他种呈
隔离分布, 主要分布在我国西北地区, 少量分布在
蒙古南部(Oxelman et al., 2002)。裸果木为亚洲中部
荒漠区第三纪孑遗植物, 稀有种, 是1987年我国首
批公布的第一批II级保护植物(傅立国, 1992)。我们
对16个裸果木的自然居群进行了野外调查, 发现只
有在甘肃阿克塞县和新疆乌恰县的两个居群中, 裸
果木为优势种, 个体数量较多。在其他地区的居群
中, 裸果木的个体数量稀少, 很多还遭到骆驼的啃
食, 并且其生境因采矿、修路等人为干扰遭到了严
重的破坏, 亟待保护。
前人对裸果木的研究 , 主要体现在分类学
(Bittrich, 1993; Petrusson & Thulin, 1996; Oxelman et
al., 2002)、孢粉学(党荣理和姜彦成, 1996)和引种
(刘生龙等, 1995), 以及形态解剖学、细胞学、组织
培养(汪之波等, 2004)等方面。关于裸果木的分布区,
(2007)利用标本分布数据和环境因子的关系, 从理
的基础上, 利用MAXENT和GARP模拟裸果木的潜
在地理分布, 旨在解决两个问题: (1)模拟并分析裸
果木的生态位、潜在分布及格局; (2)比较MAXENT
马松梅等: 利用最大熵模型和规则集遗传算法模型预测孑遗植物裸果木的潜在地理分布及格局 1329

doi: 10.3773/j.issn.1005-264x.2010.11.010
1 研究区域概况及材料方法
1.1 研究区域概况
的适生区域, 基于其16个居群的实际分布状况, 选
择向东和向南各扩展100 km (73°40′–114°40′ E,
32°3′–49°11′ N)的范围, 作为研究区域。具体地理范
围, 在行政区划上主要包括新疆全境、甘肃全境、
木盆地; 高原有阿拉善高原和鄂尔多斯高原。高原
四周为几个巨大的山系所环绕: 南部有青藏高原外
围的昆仑山和祁连山; 东部有贺兰山和狼山; 北部
我国年降水量不足200 mm, 干燥度大于4, 水文网
稀疏且多呈内流性, 并以干旱土和荒漠植被为标志
特征的广大地区, 包括新疆的准噶尔盆地、塔里木
1.2 数据获取和研究方法
1.2.1 裸果木分布数据
根据标本记载, 我们于2009年7–10月对裸果木
的大部分自然分布区进行了野外调查, 共调查到16
个居群, 其中甘肃6个, 内蒙古1个, 宁夏1个, 新疆
1.2.2 环境图层数据
所用的7个环境因子包括: 等温性(昼夜温差与

表1 裸果木16个居群的基本情况
Table 1 Basal information of the 16 populations of Gymnocarpos przewalskii
Location of population
Altitude (m)
Beside highway, Baiyin Township, Sunan County
99°34′ E 38°52′ N 2 513 砾石山坡
Gravel slopes
Heihe River, Dingxin Town, Jinta County
99°30′ E 40°18′ N 1 180 山前洪积扇
Piedmont diluvial
Behind Shuixia Village, Changma Township, Yumen City
96°42′ E 39°48′ N 2 312 干河床
Dry wash
Behind hydropower station, Subei County
94°53′ E 39°29′ N 2 213 干河床
Dry wash
Beside highway, Akesai County
94°16′ E 38°28′ N 2 636 砾石干河滩
Gravel dry beach
Nearby the Liuyuan County station
95°24′ E 39°6′ N 1 789 砾石洪积扇
Gravel diluvial
Shapotou, Zhongwei City
105°11′ E 37°31′ N 1 128 干河床砾石堆
Gravel pile of the dry
Beside highway, Alashan Zuoqi
105°42′ E 38°48′ N 1 625 山坡砾石
Hillside gravel
Beside highway, Miao’ergou, Hami City
93°35′ E 43°5′ N 1 173 砾石干河滩
Gravel dry beach
Pasture of Beita Mountain, Qitai County
90°28′ E 44°59′ N 1 134 石质残丘
Rocky remnant dunes
轮台县塔尔拉克乡北5 km
5 km to north Taerlake Township, Luntai County
84°15′ E 41°46′ N 979 砾石戈壁
Gravel gobi
Qianfo Caves, Kezier Township, Kuche County
82°24′ E 41°48′ N 1 179 河滩砾石堆
Gravel pile of the beach
拜城县北10 km
10 km to north Baicheng County
81°50′ E 41°49′ N 1 260 砾石堆
Gravel pile
柯坪县县城北10 km公路旁
Beside highway, 10 km to north Keping County
79°4′ E 40°33′ N 1 175 水坝旁山坡
Slopes beside the Dam
疏附县乌帕乡东10 km公路旁
Beside highway, 10 km to east Wupa Township, Shufu County
75°50′ E 39°25′ N 1 359 山前洪积扇
Piedmont diluvial
乌恰县康苏镇东5 km公路旁
Beside highway, 5 km to east Kangsu Town, Wuqia County
75°06′ E 39°42′ N 2 198 砾石戈壁
Gravel gobi
1330 植物生态学报 Chinese Journal of Plant Ecology 2010, 34 (11): 1327–1335

asia.html), 土壤数据来自国际地圈 -生物圈计划
(IGBP-DIS, 2000)。并计算了一个反映温度和降水的
综合指标——PER, PER系由生物温度和年平均降
水量两个图层进行栅格计算得到 (蒋霞和倪健 ,
均温度(蒋霞和倪健, 2005), 根据Holdridge等(1971)
的定义, 介于0–30 ℃之间, 所有不在这个范围内,
即小于0 ℃和大于30 ℃的温度都用0 ℃代替。PER
等于1, 代表潜在蒸发和降水在一个较长的时期内
是平衡的, 大于和小于1分别代表干旱和湿润程度
WORLDCLIM (http://www.worldclim.org)的19个环
境因子图层, 提取主成分(PCA)所得。由于各环境因
子之间往往具有很强的相关性, 尤其在高维的环境
空间中, 很容易导致过拟合, 所以本研究利用主成
分分析法提取了3个主成分轴, 总的解释了19个因
子中大于80%的变异, 其中贡献率较大的第一主成
分主要代表温度变量, 第二主成分代表降水。同时
利用皮尔森相关(Pearson correlation)检查了所获得
的各主成分因子之间的共线性, 具有较高平均相关
性(> 90%)的变量集就用一个变量代替(Ward, 2007),
1.2.3 模型预测原理与数据处理方法
GARP预测基于遗传算法原理, 首先将预测数
数据(用于模型的质量检验), 并通过不断迭代进行
regression)、生物气候包络(bioclimatic envelope)和逆
生物气候包络(negated bioclimatic envelope))中归纳
出一种方法, 应用到训练数据, 生成一个法则, 根据
止, 最终形成一个由不同规则共同组成的模型, 从
而可预测物种的潜在分布区(Stockwell & Peters,
MAXENT (Phillips et al., 2006)是一种基于熵
最大原理的预测模型。最大熵理论认为: 在已知条
件下, 熵最大的事物最接近它的真实状态, 因而预
中作出推断或预测, 利用物种分布数据和环境图
层, 探索物种已知分布区的环境特征与研究区域的
非随机关系, 在满足一定限制条件(能够代表目标
分布的不完整信息)的情况下, 找到熵最大的概率
分布(即最均匀的分布)作为最优分布, 用于物种的
由于裸果木的分布数据有限(< 25), 不适合被
随机分割成独立的训练和评价数据集, 所以选择留
一法(leave one out)来建立和评价模型(Fielding &
Bell, 1997; Pearson et al., 2007)。即每次有一个发生
点从所有的记录点(N)中被去除, 用于评价模型, 剩
余的N–1个点用于训练模型 , 这样最终可以得到
据集和环境图层 , 均按照两个模型的要求输入
MAXENT 3.2.19 (http://www.cs.princeton.edu/~sch-
apire/maxent)和GARP 1.1.6 (http://www.lifemapper.
很有必要的(Pearson et al., 2004, 2007)。本文选择最
低存在阈值(lowest presence threshold), 保证所有的
观察点都被正确地预测为存在, 而且所预测到的生
(Hernandez et al., 2006; Pearson et al., 2007)。
将MAXENT得到的16个模型, 在ArcGIS 9.2中
进行栅格叠加及平均值计算, 并作为裸果木的最终
预测结果。为了获得较稳定的预测结果, GARP对每
套发生数据集都重复运行了100次 , 这样共得到
1 600个模型, 再按照Anderson等(2003)选择最佳模
型的方法, 依照16套发生数据集, 从每100个模型
中选出10个最佳模型进行叠加, 最后同样将16个最
佳模型进行栅格叠加及平均值计算, 并作为最终预
数, 计算模型预测的成功率(被成功预测为存在的
测试点个数占所有测试点个数的比例), 并计算
生区面积占研究区域总面积的比例, 以检测模型预
测的成功率是否具有显著的统计意义(Pearson et
al., 2007)。
2 结果
2.1 裸果木的潜在地理分布及格局
的环境条件下), 适生程度按不同适生性指数进行
马松梅等: 利用最大熵模型和规则集遗传算法模型预测孑遗植物裸果木的潜在地理分布及格局 1331

doi: 10.3773/j.issn.1005-264x.2010.11.010
结果(图2), 即0和1表示的存在与不存在, 图中叠加
指数(overlap index)是指预测为存在的模型个数, 用
的结果, GARP预测的潜在分布总体上和MAXENT
一致, 但模型在裸果木的已知分布区周围产生了较
大而且连续的合适生境, 在没有该种发生记录的地
区也产生了很多过预测的破碎化分布, 比如叠加指
数为9的区域: 山西很多地区, 内蒙古草原区, 及新
疆准噶尔地区等。所以, 尽管t检验表明两个模型预
测结果没有明显的不同, 但对于裸果木的潜在分布
区, 我们认为MAXENT预测的结果更合理, 而且累
以从图1可以看出, 裸果木的最适生长分布区: 一
部分主要围绕干旱中心内蒙古额济纳旗的东部, 集
中在甘肃河西走廊中部及玉门以西、宁夏北部, 还
有少量分布在内蒙古乌拉特后旗; 另一部分集中分
北缘; 另外, 模型灵敏地识别到在柴达木盆地西北
缘也存在两片极小的适生区。此外, 预测结果显示,
地、内蒙古阿拉善地区(阿拉善左右旗, 西鄂尔多
斯), 也都具有较高的适生性。显然, 裸果木的潜在
适生区全部集中在西北荒漠区, 围绕两个干旱中心
2.2 裸果木的生态位
结合MAXENT和GARP预测的结果, 分析裸果
木的生态位, 被确定在一个较广的干旱环境空间:
℃之间, 极端最低气温在–18.3– –13.4 ℃之间; 最
廊中部能达到100–200 mm, 而在塔里木盆地西北
缘只有40–80 mm; 分布区内的可能蒸散率在3–15
之间, 在塔里木盆地西北缘通常达到10–15, 其他
留一法评价结果表明: 对于裸果木, MAXENT
表现出了较强的预测能力, 16个测试点全部被成功
地预测为存在, 并且不同模型的累加预测到了较大
的潜在分布面积, p值也表明所有模型的预测都具
有较强的统计意义(p < 0.011 2) (表2)。GARP所产生

图1 最大熵模型(MAXENT)预测的裸果木的潜在分布区。
Fig. 1 Potential distribution areas of Gymnocarpos przewalskii predicted by using Maximum Entropy (MAXENT).

1332 植物生态学报 Chinese Journal of Plant Ecology 2010, 34 (11): 1327–1335


图2 规则集遗传算法模型(GARP)预测的裸果木的潜在分布区。
Fig. 2 Potential distribution areas of Gymnocarpos przewalskii predicted by using Genetic Algorithm for Rule-set Prediction

表2 最大熵模型(MAXENT)和规则集遗传算法模型(GARP)利用留一法预测的结果
Table 2 Results of Maximum Entropy (MAXENT) and Genetic Algorithm for Rule-set Prediction (GARP) by using the leave one out
Lowest predicted value threshold
No. of successes predicted
Mean fractional area predicted
MAXENT 18 16 0.159 4 0.011 2
GARP 9 16 0.226 6 0.020 8

义(p < 0.020 8), 所预测到的潜在分布面积是
值下的预测成功率变化趋势可以看出 (图 3 ) ,
了最高值1, 在阈值逐渐高于55后, 预测成功率逐
渐低于50%, 而在最大阈值为100时预测成功率降
为0, 呈现出明显的降低趋势; 而GARP的预测成功
在阈值从5到90 (对于GARP相当于叠加指数为0.5
到9.0)增加的过程中, 成功率一直保持在1, 当阈值
达到95和100时, 预测成功率恒定保持在0.8以上。
显然, MAXENT的预测成功率受不同阈值的影响较
大。p值显著性测验表明: 除了MAXENT模型在LPT
(lowest predicted value threshold)为5和10的预测以

图 3 最大熵模型 (MAXENT)和规则集遗传算法模型
Fig. 3 Prediction success rate predicted by using Maximum
Entropy (MAXENT) and Genetic Algorithm for Rule-set Pre-
diction (GARP) at different lowest predicted value threshold.
马松梅等: 利用最大熵模型和规则集遗传算法模型预测孑遗植物裸果木的潜在地理分布及格局 1333

doi: 10.3773/j.issn.1005-264x.2010.11.010
外, 所有预测成功率大于50%以上的模型都具有显
著的统计意义(p < 0.05)。
3 讨论
3.1 MAXENT和GARP作为分布预测工具的可行性
模型的预测结果表明: MAXENT和GARP可以
利用有限的发生数据, 进行裸果木潜在分布区的较
境, 但也可以产生成功率较高、且具有显著统计意
物种大部分的分布点, 同时也会预测到远远大于物
种已知分布区的分布范围(Anderson et al., 2003;
Hernandez et al., 2006; Peterson et al., 2007)。尽管过
的, 但仍然被很多研究者认为是有用的(Anderson
et al., 2002a, 2002b, 2003)。MAXENT预测的裸果木
潜在分布区更加合理, 主要原因可能是该模型算法
明确, 而且其规则化程序可以阻止在小样本的情况
下发生过拟合(Phillips et al., 2006; Phillips & Dudik,
2008), 所以, MAXENT更适合模拟分布数据有限、
生态位较窄的物种。值得提出的是, 模型利用十分
有限的发生数据, 结合留一法预测到的适生区, 通
常只能代表与分布区具有相似的环境条件, 而不能
作为物种实际的分布界限(Pearson et al., 2007)。
3.2 裸果木的潜在分布格局及原因探讨
区, 围绕两个干旱中心, 主要分布在甘肃河西走廊
缘及宁夏北部。探索其分布格局的原因, 应该是和
背景等分不开的(潘晓玲, 2001)。首先, 物种的分布
和当前的环境条件有一定的直接关系, 环境条件通
荒漠区是北半球温带最干旱的地区, 年降水量不足
200 mm, 并且降水时空分布不均, 一般从东南向西
北方向逐渐减少, 在时间上主要集中在夏季, 再加
上强烈的潜在蒸发, 所以形成了独特的荒漠化气
气候的形态解剖结构, 如叶片线形、气孔下陷、表
等(汪之波等, 2004)。尽管如此, 水分对裸果木生长
的影响还是很大的, 在调查过程中发现, 生长在高
株密度高, 分布范围广; 而在沙丘腹地生长的裸果
木(如甘肃金塔县)植株矮小, 分布稀疏。同时, 物种
的分布不仅依赖于当前的气候条件, 而且和地质气
候背景有很大的关系, 裸果木是亚洲中部荒漠区第
三纪孑遗植物, 它和裸果木属的其他9种植物在地
在地中海、南欧和非洲东部, 因此它属于古地中海
植物区系和可能的古地中海起源(傅立国, 1992; 尹
林克等, 2006)。裸果木的现代分布, 则很有可能是
第三纪古地中海西撤后的残留和遗迹, 其在中国西
北境内的间断分布, 可能是第三纪干旱化过程所导
致, 而西北干旱化过程与青藏高原的隆升密切相关
(郑度和姚檀栋, 2006)。裸果木现在集中分布的地区
区, 西部的新疆乌恰地区)就是东西间断分布格局
的证据。另外, 分布区内多样化的土壤类型, 主要
旗)、构造剥蚀山地(如甘肃肃南)等, 都是裸果木适
致谢 中国科学院新疆生态与地理研究所“百人计
