免费文献传递   相关文献

Association Analysis of Agronomic and Quality Traits with SSR Markers in Glycine max and Glycine soja in China: I. Population Structure and Associated Markers

中国栽培和野生大豆农艺品质性状与SSR标记的关联分析 I. 群体结构及关联标记



全 文 :作物学报 ACTA AGRONOMICA SINICA 2008, 34(7): 1169−1178 http://www.chinacrops.org/zwxb/
ISSN 0496-3490; CODEN TSHPA9 E-mail: xbzw@chinajournal.net.cn

基金项目: 国家重点基础研究发展计划(973计划)项目(2004CB7206, 2006CB101708); 国家高技术研究发展计划(863计划)项目(2006AA100104);
国家科技支撑计划项目 (2006BAD13B05-7); 国家自然科学基金项目 (30490250, 32671266); 教育部高等学校创新引智计划项目
(B08025); 农业部公益性行业专项(200803060)
作者简介: 文自翔(1979–), 男, 山西孝义市人, 博士研究生, 研究方向为分子遗传学。E-mail: zixiang_wen@sohu.com
*
通讯作者(Corresponding author): 盖钧镒(1936–)。Tel: 025-84395405; E-mail: sri@njau.edu.cn
Received(收稿日期): 2007-10-29; Accepted(接受日期): 2008-02-03.
DOI: 10.3724/SP.J.1006.2008.01169
中国栽培和野生大豆农艺品质性状与 SSR标记的关联分析
I. 群体结构及关联标记
文自翔 赵团结 郑永战 刘顺湖 王春娥 王 芳 盖钧镒*
(南京农业大学大豆研究所 / 国家大豆改良中心 / 作物遗传与种质创新国家重点实验室, 江苏南京 210095)
摘 要: 关联作图是一种利用连锁不平衡(linkage disequilibrium, LD)检测自然群体中基因位点及其等位变异的方法。
利用 60个 SSR标记, 对全国大豆地方品种群体(393份代表性材料)和野生大豆群体(196份代表性材料)的基因组变异
进行扫描, 分析两类群体的连锁不平衡位点、群体结构, 并采用 TASSEL软件的 GLM (general linear model)方法对
16个农艺、品质性状观测值进行标记与性状的关联分析。结果表明: (1)在公共图谱上不论共线性的或是非共线性的
SSR位点组合都有一定程度的 LD, 说明历史上发生过连锁群间的重组; 栽培群体的连锁不平衡成对位点数较野生群
体多, 但野生群体位点间连锁不平衡程度高, 随距离的衰减慢。(2) 群体 SSR数据遗传结构分析发现, 栽培群体和野
生群体分别由 9和 4个亚群体组成, 亚群的划分与群体地理生态类型相关联, 证实地理生态类型划分有其遗传基础。
(3) 栽培群体中累计有 27个位点与性状相关; 野生大豆种质中累计有 34个位点与性状相关。部分标记在两类群体中
都表现与同一性状关联, 检出的位点有一致性, 也有互补性; 一些标记同时与 2个或多个性状相关联, 可能是性状相
关乃至一因多效的遗传基础; 关联位点中累计有 24位点(次)与遗传群体连锁分析定位的 QTL一致。
关键词: 栽培大豆[Glycine max (L.) Merr.]; 野生大豆(Glycine soja Sieb. et Zucc.); SSR; 群体结构; 关联分析
Association Analysis of Agronomic and Quality Traits with SSR Markers
in Glycine max and Glycine soja in China: I. Population Structure and
Associated Markers
WEN Zi-Xiang, ZHAO Tuan-Jie, ZHENG Yong-Zhan, LIU Shun-Hu, WANG Chun-E, WANG Fang, and
GAI Jun-Yi*
(Soybean Research Institute of Nanjing Agricultural University / National Center for Soybean Improvement / National Key Laboratory for Crop Ge-
netics and Germplasm Enhancement, Nanjing 210095, Jiangsu, China)
Abstract: Association mapping is a procedure for detecting QTLs as well as their alleles based on linkage disequilibrium (LD).
The genotyping data of 60 simple-sequence repeat (SSR) markers on representative samples of 393 landraces of Glycine max (L.)
Merr. and 196 wild accessions of Glycine soja Sieb. et Zucc. were used in the present study. Linkage disequilibrium of pairwise
loci and population structure were firstly analyzed for the two populations, then the association analysis between SSR loci and 16
agronomic and quality traits was performed by using TASSEL GLM (general linear model) program. The different degrees of LD
were detected not only among syntenic markers but also among nonsyntenic ones, suggesting that there had been historical re-
combination among linkage groups. The cultivated soybean population had more LD loci pairs than wild soybean population,
while the later had higher degree and slower attenuation of LD than the former. Genetic structure analysis showed that both of the
cultivated and wild populations were composed of nine and four subpopulations, respectively, which associated with their geo-
graphic eco-types, indicating the classification of geographic eco-types was of sound genetic bases. Twenty seven and thirty four
SSR loci associated with the traits were screened out from cultivated and wild populations, respectively. Some loci were found to
1170 作 物 学 报 第 34卷

associate with a same trait in both populations, and there existed both consistent and inconsistent association between the culti-
vated and wild populations. There were a few loci associated with two or more traits simultaneously, which might be the genetic
reason of correlation among traits or pleiotropic phenomena. In addition, twenty-four associated markers were in agreement with
mapped QTLs from family-based linkage mapping procedure.
Keywords: Cultivated soybean [Glycine max (L.) Merr.]; Wild soybean (Glycine soja Sieb. et Zucc.); Simple-sequence repeat
(SSR); Population structure; Association mapping
植物的大部分性状是数量性状, 掌握数量性状
的表型和基因型是育种工作的基础。家系连锁作图
(Family-based linkage mapping, FBL mapping)与自然
群体关联作图(association mapping)是现今解析研究
植物数量性状基因型的主要方法。前者通过双亲杂
交, 建立作图群体, 进行高密度分子连锁图谱的绘
制, 对作图群体进行各种性状高精确度的表型鉴定,
再进行连锁分析, 将相应性状的 QTL定位在特定的
遗传连锁区段内。双亲遗传差异、分离群体大小及高
密度分子标记连锁图谱是决定 QTL 定位精确性的基
础。由于在特定的两个亲本间一些位点不发生分离与
重组, 该方法所获结果常常有一定的局限性, 而且所
能检测出的等位变异只限于双亲所有的两个。
关联作图(association mapping), 又称连锁不平
衡作图(LD mapping)或关联分析 (association analy-
sis), 曾广泛应用于人类遗传学研究中[1]。该方法以
自然群体为研究对象, 以长期重组后保留下来的基
因(位点)间连锁不平衡(linkage disequilibrium, LD)为
基础, 将目标性状表型的多样性与基因(或标记位点)
的多态性结合起来分析, 可直接鉴定出与表型变异
密切相关且具有特定功能的基因位点或标记位点[2]。
与传统的 QTL作图技术相比, 关联分析具有明显的
3个特点: (1)不需要专门构建作图群体, 自然群体或
种质资源都可作为研究材料; (2)广泛的遗传材料可
同时考察多个性状大多数QTL的关联位点及其等位
变异, 不受传统的 FBL 的“两亲本范围”的限制; (3)
自然群体经历了许多轮重组后, LD 衰减, 存在于很
短的距离内, 保证了定位的更高精确性[3]。
大豆的产量、品质及耐逆性等重要性状大多是数
量性状, 以往常利用家系连锁作图进行 QTL分析[4]。
随着大豆分子育种和基因组学研究的深入, 特别是
大量 SNP 标记的开发并定位到大豆遗传连锁图谱
上[5], 使应用关联分析方法发掘大豆数量性状基因提
上了议程。目前关联分析已应用于水稻、玉米、大麦
等作物的 QTL的剖析[6-8], 但在大豆上还鲜见报道。
本研究从国家大豆改良中心资源库中按全国各
生态区选取代表性栽培大豆[Glycine max (L.) Merr.]
地方品种和代表性野生大豆(Glycine soja Sieb. et
Zucc.)种质 , 组成两个代表性样本 , 对它们的生育
期、产量、品质及耐逆性等性状进行有重复的表型
鉴定; 并利用在基因组上均匀分布的 60个 SSR标记
获得两个样本的标记(基因型)数据; 在分析连锁不
平衡成对位点、群体结构的基础上, 进行性状的关
联分析; 进而比较栽培群体和野生群体在这些性状
上基因位点及其等位变异的差异和特点, 并发掘携
有优良等位变异的载体。本文报道了两类材料的连
锁不平衡成对位点、群体结构及关联标记的结果 ,
对于各类性状优良位点、等位变异及其载体的结果
将另文报告。
1 材料与方法
1.1 试验材料
参试栽培种是来源于全国 24 个省份不同地理季
节生态类型的栽培大豆代表性地方品种 393 份, 野
生种来源于我国北纬 52°30′与 24°30′之间地理上均
匀抽取的野生大豆材料 196 份。这两个样本均为无
直接亲缘关系的自然群体, 符合关联分析关于材料
应为非结构性群体(unstructured population)、相互间
无直接亲缘关系的基本要求。
1.2 田间试验及性状的观测
田间试验于 2005 年在南京农业大学江浦实验
站进行, 随机区组试验设计、穴播(0.8 m×0.8 m)、3
次重复, 常规田间管理。按育种试验常规方法调查
农艺性状(生育期性状、株高、百粒重等)。油分性状
的试验与测定见郑永战等 [9]方法, 蛋白质性状的试
验与测定见刘顺湖等[10]方法, 豆腐性状的试验与测
定见王春娥等[11]方法, 耐淹性的试验与测定见王芳
等[12]方法。
1.3 SSR标记全基因组扫描
参考 Doyle 的 CTAB 法[13], 从 4~5 叶期单株嫩
叶中抽提、纯化每份材料总 DNA。随机抽取 8份材
料作为筛选引物样本, 从分布于大豆 20个连锁群近
400 对引物中遴选出在基因组中分布均匀(但在 C2
和 I增加了密度)、多态性高的引物 60对(表 1)。PCR
第 7期 文自翔等: 中国栽培和野生大豆农艺品质性状与 SSR标记的关联分析 I. 群体结构及关联标记 1171


总反应体系为 10 μL, 含 20 ng DNA、0.4 μmol L−1
引物对、60 μmol L−1 dNTPs、2 mmol L−1 MgCl2、1 μL
10×PCR缓冲液及 0.5 U Taq DNA 聚合酶, 使用的
扩增仪为 MJ Research PTC 225(或 240) DNA Engine
Thermal Cycler (Bio-RAD, USA)。PCR反应程序为
95℃变性 4 min 后, 进行 30个循环的 94℃变性 40 s,
46 ~50℃ ℃退火 60 s, 72℃延伸 60 s; 再经 72℃延伸
8 min 后于 4℃保存。PCR扩增产物在 8% 的聚丙
烯酰胺凝胶上电泳 , 银染显色。胶片在 BIO-RAD
visadoc 3.0(Bio-RAD, USA)成像系统中扫描分析。

表 1 实验检测的 SSR位点
Table 1 List of SSR loci tested in this study
连锁群
LG
图位
Position (cM)
位点
Locus
连锁群
LG
图位
Position (cM)
位点
Locus
连锁群
LG
图位
Position (cM)
位点
Locus
A1 31.07 Sat_385 C2 127.67 Satt316 H 81.04 Satt302
95.16 Satt225 D1a 5.25 Sat_332 I 36.03 Sat_219
A2 35.93 BE820148 70.69 Satt436 36.40 Satt496
67.86 AW132402 108.89 Satt147 36.59 Sat_174
128.44 Satt209 D1b 30.74 BE475343 36.94 Satt239
B1 32.51 Satt509 75.29 Satt005 99.83 Sat_299
96.36 Satt665 131.91 Sat_289 J 5.19 AW310961
B2 55.20 Satt168 D2 51.41 Satt443 65.04 Satt244
72.13 Satt020 84.62 Satt311 K 45.59 Satt046
C1 32.10 Sat_337 105.45 Satt186 77.37 Sct_190
92.99 Sct_191 E 20.80 Satt720 99.10 Sat_293
C2 45.76 Satt291 39.77 Satt606 L 38.16 Satt284
101.75 Satt286 F 11.37 Satt269 107.24 Satt373
107.59 Satt277 22.97 BE806387 M 18.58 Satt150
112.19 Satt557 26.71 Satt659 33.47 Satt567
112.35 Satt289 119.19 Satt522 112.08 Satt210
112.84 Satt134 G 0 Satt163 N 34.52 Satt683
112.85 Sat_312 33.26 Satt324 84.60 Satt234
113.39 Satt489 87.94 AF162283 O 42.29 Satt347
121.27 Satt307 H 46.95 Satt442 100.38 Satt592

1.4 数据处理
1.4.1 LD的衡量 首先使用 QuantityOne软件依
据 pBR322 DNA Marker计算出各 SSR等位变异分子
量(bp), 然后依据 SSR 重复单元大小进行人工矫正,
确定等位变异数目, 形成位点等位变异矩阵; 使用
标准不平衡系数(D′)衡量位点间 LD [14],
1 1
u v
iji j
i j
D p q D
= =
′ ′= ∑ ∑ ,
其中 u和 v分别代表两个位点等位变异数目, pi和
pj分别代表 A 位点第 i 等位变异及 B 位点第 j 等
位变异的频率。
max
ij
ij
D
D
D
′ = , Dij=xij-piqj,
其中 xij, 表示配子 AiBj出现频率, pi和 qj分别表示等
位变异 Ai、Bj的频率, 下同。
( ) ( )
( )( )min , 1 1 ; 0
max min 1 , 1 ; 0
i j i j
i j i j
p q p q Dij
p q p q Dij
D
⎡ ⎤− − <⎣ ⎦
⎡ ⎤− − >⎣ ⎦
⎡ ⎤= ⎢ ⎥⎣ ⎦


D′的理论变化范围是 0~1, 一般将小于 0.5 作为
LD衰减的标志。使用 Edward Buckler Lab开发的软
件包 TASSEL[15]计算 LD配对检测的矩阵图, 用于观
测共线及非共线 SSR 位点之间 LD 的排列。其基本
原理为依据上述公式计算出所有可能位点组合的 D′
值, D′值大小在配对检测的矩阵图上用相应色差大
小给予直观反映。从中筛选出共线 SSR位点对相应
的 D′值及位点间遗传距离, 使用 SPSS 13 绘制 LD
衰减散点图、配置回归方程用于观测 LD 随遗传距
离(cM)的增加而下降的速率。
1.4.2 群体结构分析 为了估测两样本的群体结
构, 应用 STRUCTRE软件[16], 分别对栽培大豆、野
生大豆群体进行基于数学模型的类群划分, 并计算
1172 作 物 学 报 第 34卷

材料相应的 Q值(第 i材料其基因组变异源于第 k群
体的概率)。分析的大致原理是, 首先假定样本存在
K 个等位变异频率特征类型数 (即服从 Hardy-
Weinberger 平衡的亚群, 这里 K 可以是未知的), 每
一类群 SSR 位点由一套等位变异频率表征, 将样本
中各材料归到(或然率用 Bayesian 方法估计)第 k 个
亚群 , 使得该亚群群内位点频率都遵循同一个
Hardy-Weinberg平衡。具体分析过程是, 先设定群体
数目(K)为 2~10, 并假定位点都是独立的, 本文从 60
个位点中删去距离较近的, 保留 48 个位点参加分析,
将MCMC(Markov Chain Monte Carlo)开始时的不作数
迭代(length of burn-in period)设为 10 000次, 再将不作
数迭代后的MCMC设为 100 000次, 然后依据似然值
最大的原则选取一个合适的 K值。
1.4.3 关联分析 使用TASSEL软件的GLM (gen-
eral linear model)程序, 将各个体 Q 值作为协变量,
将 16 个性状的表型数据分别对标记变异进行回归
分析。
Yj =α +βIpj +β1X1j+β2X2j+…+βkXkj+ εj
其中 Yj是第 j个材料数量性状表型值, Ipj是第 j
材料第 p等位变异出现的指示变量, β是群体各位点
各等位变异的平均效应, X1j~Xkj是第 j材料基因组变
异源于第 1~k群体的概率 Q值, β1~βk是亚群体各位
点各等位变异的平均效应, εj是残差。
2 结果与分析
2.1 栽培大豆和野生大豆群体 SSR 位点间的连
锁不平衡及其衰减
基因间的连锁不平衡是关联分析的基础, 分析
散布于大豆全基因组 SSR位点间的连锁不平衡有助
于了解大豆基因组连锁不平衡状态。图 1显示了 60
个 SSR 位点在 20 个连锁群上连锁不平衡的分布情
况, 可见在栽培和野生大豆基因组中, 涉及到较高
水平连锁不平衡的位点(D′>0.5)大多是分布在“C2”
和“I”两个连锁群上的位点 , 以及与其组合的位点
(图 1中黑线圈出的部分)。其原因可能是这两个连锁
群上的检测位点(标记数)较多(分别有 10 和 5 个)而
密集(表 1)。60个 SSR位点的 1 770种位点组合中, 不
论是共线性的组合(同一连锁群), 还是非共线性组
合(不同连锁群), 都有一定程度 LD存在(图 1中斜线
上方非白色小格)。然而得到统计概率(p <0.01))支持
的不平衡成对位点比例不大(图 1中为下角非白色小
格), 在栽培大豆基因组中占位点组合的 24.74%, 在
野生大豆基因组中占位点组合的 17.06%。从绝对数
量上看, 栽培大豆拥有的不平衡成对位点数较野生
大豆多, 然而从 D′值次数分布及平均值看, 野生大
豆位点间连锁不平衡程度更高(表 2)。如果公共图谱
中连锁群间无重组, 现发现有重组的 LD, 说明群体
历史上发生过许多交换和群间重组, 而且野生群体



图 1 栽培(A)及野生大豆(B) 20个连锁群 60个 SSR位点间连锁不平衡的分布
Fig. 1 Distribution of LD among 60 SSR loci on 20 linkage groups in G. max (A) and G. soja (B)
SSR位点以连锁群为单位, 按表 1顺序排列在 X、Y轴方向, 黑色对角线上方的每一像素格使用右侧色差代码表征成对位点间 D′值大
小, 对角线下方为成对位点间 LD的支持概率。
SSR markers are organized in linkage groups (as in Table 1) marked along the X- and Y-axis; each pixel above the diagonal indicates the D′
size of the corresponding marker pair as shown in the color code at the upper right while each pixel below the diagonal indicates the p-vaule
size of the testing LD of the corresponding marker pairs as shown in the color code at the lower right.
第 7期 文自翔等: 中国栽培和野生大豆农艺品质性状与 SSR标记的关联分析 I. 群体结构及关联标记 1173


表 2 栽培和野生大豆 SSR位点连锁不平衡程度的比较
Table 2 Comparison of D′ of LD for pairwise SSR loci between G. max and G. soja
D′值次数分布 Freq. dis. of D′(p<0.01)

群体
Population
LD成对位点数
Number of LD locus pairs 0–0.2 0.2–0.4 0.4–0.6 0.6–0.8
D′平均值
Mean of D′
栽培大豆 G. max 438 (24.74%) 4 377 54 3 0.283
野生大豆 G. soja 302 (17.06%) 0 84 198 20 0.416

LD的 D′大, 说明野生群体异交的轮数多, 不平衡程
度大的 LD保留了下来。
LD 衰减(D′<0.5)所延伸的距离决定着关联分析
所需使用的标记多寡及关联分析的精度。对共线
SSR位点 D′值随遗传距离(cM)增加而变化的分析可
看出, 不论是在栽培还是野生大豆基因组上, SSR位
点 D 值衰减速率都相当快(图 2)。进一步对 D′值与
遗传距离的回归分析发现, D ′值衰减都遵循方程 Y
=bln(x)+c, 因此可分别求出栽培和野生种质 LD
衰减, (D′<0.5)所延伸的最小距离分别为 1.02 cM和
12.26 cM, 可见栽培大豆 LD衰减距离较短, 衰减更
快些。



图 2 共线 SSR位点 D′值在栽培大豆(A)、野生大豆(B)基因组随
遗传距离(cM)衰减散点图
Fig. 2 Attenuation of D′ value between syntenic marker
pairs along with genetic distance (cM) increase in
G. max (A) and G. soja (B)

2.2 栽培大豆和野生大豆群体结构的分析
群体结构指的是一个群体内存在亚群的情况。
亚群的混合使整个群体所估计的 LD 强度增强, 可
能导致基因多态性位点与性状的相关性并非由功能
性等位基因引起, 从而提供假阳性结果。因此, 进行
关联分析前对群体进行结构分析和调节是必要的。
本研究采用了基于数学模型的聚类方法分析参试种
质的遗传结构, 确定参试种质亚群数目。结果表明
栽培大豆种质的等位变异频率特征类型数 K=9(即服
从 Hardy-Weinberger 平衡的亚群数目为 9)时其模型
后验概率最大, 而野生大豆种质等位变异频率特征
类型数 K=4(亚群数目为 4)时其模型后验概率最大,
因此判断, 栽培大豆和野生大豆种质资源亚群数目
应分别为 9 和 4。进一步分析亚群数目的生物学意
义, 发现栽培大豆亚群划分与栽培大豆地理生态类
型相关(χ2=140.30, 大于 20.01,40χ =63.69)(表 3); 野生大
豆亚群划分与其 3 个地理来源(东北、黄淮、南方)相
关(χ2=43.63, 大于 20.01,6χ =16.81)(表 4), 表现出遗传上
的分化与地理生态分化有关联, 地理生态分化有其
遗传基础。
2.3 大豆农艺及品质性状相关联的 SSR标记
鉴于栽培和野生两个群体均表现由多个亚群体
组成, 将各个体相应的 Q 值作为协变量, 分别进行
16 个性状的表型变异对标记变异的回归分析, 寻求
与性状 QTL相关联的标记及其等位变异。本研究检
测的 60个 SSR位点中, 有 41个的变异与 16个性状
变异相关, 栽培群体中累计有 27个 SSR位点与性状
相关, 野生群体中累计有 34 个 SSR 位点与性状相
关。表 5 列出了所有关联标记及其对相应性状表型
变异的解释率。各性状、各位点的详细情况见该表,
现将要点概括于后。
2.3.1 与农艺及品质性状相关联的 SSR标记总体情
况 纵向分析表 5 发现: (1)与农艺性状相关联的
位点(次)累计有 63 个; 而与品质及加工性状相关联
的位点有 39个。(2)野生大豆群体中农艺性状关联位
点的检出率高于栽培大豆群体, 而品质、加工性状
关联位点的检出率却明显低于栽培大豆。例如野生大
豆资源中检测到的与全生育期相关联的标记达到 18
1174 作 物 学 报 第 34卷

个, 而在栽培大豆中仅检测到 4个。与其形成反差的
是, 油分性状相关联的位点多在栽培大豆中检出(17
位点次), 而很少在野生大豆中检出(8个位点次)。(3)
关联分析发现的主要性状 QTL 数远多于由家系连锁
定位所得的位点数。(4)同一性状关联的位点在连锁群
上有集中分布的趋势。如开花期性状及油分性状关联
位点在 C2 连锁群有密集分布趋势, 不过这可能与本
研究中采用了较多 C2连锁群上的标记有关。
横向分析表 5 发现: (1)同一位点与多个性状相
关联情况很普遍, 而这些性状多是同一类性状。如
Sat_293 位点与 4 个脂肪类性状(脂肪、亚油酸、硬
脂酸和油酸)有关联, C2连锁群的 4个位点(Satt557、
Satt289、Satt134、Sat_312和 Satt489)既与开花期相
关同时也与全生育期相关。该结果表明大豆性状表
型的相关是确有其内在遗传因素的。(2)同一性状在
栽培群体和野生群体中检出的关联位点大多不一致,
只有小部分位点(Satt168、Satt286、Sat_312、Satt046
等)在两类种质中表现与同一性状关联, 这表明在从
野生豆向栽培豆进化过程中控制性状的QTL位点在
两类种质资源中变异的方向产生了分歧。
2.3.2 两类群体中与农艺性状关联 SSR位点 农
艺性状中与开花期相关联的位点最多(22个), 从野生
群体中检出的该性状关联位点几乎涵盖了所有从栽
培群体中检出的该性状关联位点(除 C2 连锁群的
Satt316 以外)。其中有 3 个 SSR 位点(Satt286、
Sat_312和 Satt234)是在两类种质中共同检出的, 另
有 8 个位点位于连锁定位(FBL)的 QTL 区段内(±5
cM), 表型变异解释率最大的是 Satt489(0.35)。与全
生育期关联的位点不论从数量还是分布特点上看
与开花期关联分析结果都很类似, 同时也有两个位
点在两类群体中共同检出的 , 另有 5 个位点位于
FBL定位的 QTL区段内, 表型变异解释率最大的是
Satt522 (0.34)。
与株高相关联的位点较少, 仅有 6个, 其中 4个
是从栽培群体中检出的, 表型变异解释率最大的是
Satt373(0.16), 暂没有发现位点在两类群体中共同
检出, 另外两类种质中各有一个检出位点位于 FBL
定位的 QTL区段内。

表 3 栽培大豆 SSR标记数学模型聚类与地理生态群体分类的相关
Table 3 Association between model-based clusters and geographic eco-types in cultivated soybean
聚类亚群体 Clustered sub-population 地理生态类型
Geographic eco-type 1 2 3 4 5 6 7 8 9 合计 Total
χ2
I 11 3 10 4 7 11 1 6 0 53
II 14 7 5 21 8 17 15 6 4 97
III 17 7 12 4 7 5 2 10 12 76
IV 9 23 9 2 8 5 18 10 7 91
V 2 0 3 11 7 3 2 0 8 36
VI 5 7 6 2 7 0 3 6 4 40
χ 2=140.30
p<0.001
2
0.01,40χ =63.69


I: 北方一熟春豆生态区; II: 黄淮海二熟春夏豆生态区; III: 长江中下游二熟春夏豆生态区; IV: 中南多熟春夏秋豆生态区; V: 西
南高原二熟春夏豆生态区; VI: 华南热带多熟四季大豆生态区。
I: Northern single cropping, spring planting eco-region; II: Huanghuaihai double cropping, spring and summer planting eco-region; III:
Middle and lower Changjiang valley double cropping, spring and summer planting eco-region; IV: central south multiple cropping, spring,
summer and autumn planting eco-region; V: Southwest plateau double cropping, spring and summer planting eco-region; VI: South China
tropical multiple cropping, all season planting eco-region.

表 4 野生大豆 SSR标记数学模型聚类与地理生态群体分类的相关
Table 4 Association between model-based clusters and geographic eco-types in wild soybean
聚类亚群体 Clustered sub-population 地理生态类型
Geographic eco-type 1 2 3 4 合计 Total
χ 2
东北野生大豆 NEW 22 14 22 5 63
黄淮野生大豆 HHW 16 12 9 24 61
南方野生大豆 SCW 24 29 18 2 73
χ 2 = 43.63
p<0.001
2
0.01,6χ =16.81
NEW: Northeast wild; HHW: Huang-Huai wild; SCW: Southern China wild.

第 7期 文自翔等: 中国栽培和野生大豆农艺品质性状与 SSR标记的关联分析 I. 群体结构及关联标记 1175


表 5 与性状显著相关(p <0.001)的标记位点及其对表型变异的解释率
Table 5 Marker loci associated with traits and their explained phenotypic variation
农艺性状
Agronomic trait

脂肪性状
Fat trait

蛋白质
Protein trait

豆腐性状
Toufu trait

标记位点
Marker locus
图位
Position
(cM)
DF DM PH SW Fa Ol Li Ln Pa St Pr 11S 7S DT DM
耐淹性
TS
Satt225 (A1)95.16 0.14
BE820148 (A2)35.93 0.22 0.27
AW132402 (A2)67.86 0.10 0.39
Satt209 (A2)128.44 0.13 0.14 0.10
Satt509 (B1) 32.51 0.22 0.11
Satt665 (B1) 96.36 0.19
Satt168 (B2) 55.2 0.17 0.24 0.27/0.16 0.28 0.14 0.12 0.13
Satt020 (B2)72.13 0.21 0.11
Sct_191 (B2)92.99 0.17
Satt286 (C2 )101.75 0.24/0.09 0.12
Satt277 (C2 )107.59 0.24 0.30 0.37 0.37
Satt557 (C2 )112.19 0.20 0.21
Satt289 (C2 )112.35 0.14 0.06 0.05 0.08 0.12 0.27
Satt134 (C2 )112.84 0.28 0.27
Sat_312 (C2 )112.85 0.25/0.15 0.27/0.14
Satt489 (C2 )113.39 0.35 0.11
Satt307 (C2 )121.27 0.07 0.08
Satt316 (C2 )127.67 0.09 0.09 0.13
Sat_332 (D1a ) 5.25 0.27 0.25 0.18
Satt436 (D1a ) 70.69 0.11
Satt147 (D1a) 108.89 0.19
BE475343 (D1b) 30.74 0.18 0.10
Satt443 (D2)51.41 0.20 0.18 0.06 0.13
Satt311 (D2)84.62 0.35 0.30
Satt720 (E) 20.8 0.15
Satt522 (E)119.19 0.20 0.34
Satt163 (G) 0 0.19 0.19
Satt324 (G)33.26 0.16 0.10
AF162283 (G)87.94 0.17 0.16
Satt442 (H) 46.95 0.09 0.30
Satt302 (H) 81.04 0.22 0.07
Satt239 (I) 36.94 0.20 0.25 0.10
Satt244 (J) 65.04 0.25
Satt046 (K)45.59 0.10 0.22/0.15
Sct_190 (K)77.37 0.33 0.33 0.06
Sat_293 (K)99.1 0.12 0.12 0.18 0.19 0.19 0.25
Satt373 (L)107.24 0.16 0.12 0.25
Satt150 (M) 18.58 0.28 0.29 0.35 0.30 0.23
Satt234 (M) 84.6 0.22/0.04 0.21/0.04 0.05
Satt347 (O) 42.29 0.11
Satt592 (O)100.38 0.22 0.25 0.27 0.22
合计 Total 22(8) 20(5) 6(2) 13(1) 6(2) 6(1) 4 4 2 2 2(1) 6(4) 2 2 3 2
DF: 开花期; DM: 全生育期; PH: 株高; SW: 百粒重; Fa: 脂肪含量; Ol: 油酸含量; Li: 亚油酸含量; Ln: 亚麻酸含量; Pa: 棕榈酸含量; St: 硬脂
酸含量; Pr: 总蛋白含量; 11S: 11S亚基含量; 7S: 7S亚基含量; DT: 干豆腐得率; DM: 干豆乳得率。
粗体为栽培群体结果; 常规体为野生群体结果; 下划线代表该数值对应的标记在 FBL定位 QTL±5 cM内, 括弧内为总和数。
DF: day to flowering; DM: day to maturity; PH: plant hight; SW: 100-seed weight; Fa: content of fat; Ol:content of oleic acid; Li: con-
tent of linoleic acid; Ln: content of linolenic acid; Pa: content of palmitic acid; St: content of steric acid; Pr:content of total protein; 11S: content of
11S; 7S: content of 7S; DT: output of dry toufu; DM:output of dry soy milk; TS: submergence tolerance.
The number in boldface indicates the results from cultivated population; that in general case indicates the results from wild population;
and the underlined number indicates the locus within a region of ±5 cM apart from a QTL identified from family-based linkage mapping, with
a total FBL QTL number in parentheses.
1176 作 物 学 报 第 34卷

与百粒重相关联的位点也较多(13个), 其中 8个
是从野生群体中检出的, 其余从栽培群体中检出。表
型变异解释率最大的是从野生群体中检出的 Satt442
(0.30), 另有两个位点在两类群体中重复检出, 其中
Satt168位点还位于 FBL定位 QTL区段内。
与耐淹性相关联的是 2 个在不同连锁群上的位
点(Satt324, Satt592), 分别从两类群体中检出, 未发
现位点位于 FBL定位 QTL区段内, 但从栽培群体中
检出的位点(Satt324)位于耐淹性 QTL 集中分布的 G
连锁群。
2.3.3 两类群体中与品质及加工性状关联的 SSR位
点 品质及加工性状中, 关联位点的检出普遍较
少。
2.3.3.1 脂肪性状 系指大豆籽粒脂肪含量及脂
肪酸组分。与脂肪含量相关联的位点有 6个, 其中 4
个是从栽培群体中检出的, 表型变异解释率最大的
是从野生群体中检出的 Satt234(0.35), 未发现位点
在两类群体中共同检出, 另外栽培群体中有两个检
出位点(Satt239, Sat_293)位于 FBL定位 QTL区段内。
与油酸相关联的位点有 6个, 除了 Satt163是从
野生群体中检出外, 其余 5 个来自栽培群体, 表型
变异解释率最大的是从栽培群体中检出的 Satt277
(0.37)。未发现位点在两类群体中共同检出, 另外栽
培群体中有 1 个检出位点(Satt020)位于 FBL 定位
QTL区段内。
与亚油酸相关联的位点有 4个, 除了 BE820148
从野生群体中检出外, 其余 3 个均来自栽培群体,
未发现位点在两类群体中共同检出, 也未发现位点
位于 FBL定位 QTL区段内。
与亚麻酸相关联的位点有 4 个, 其中 3 个是从
野生群体中检出的, 未发现在两类群体中共同检出
的位点, 且无位点位于 FBL定位 QTL区间内。
与棕榈酸相关联的位点仅有 2 个(Sct_190 和
Satt150), 且都是从栽培群体中检出的, 未发现位于
FBL定位 QTL区间内的位点。与硬脂酸相关联的是
2 个在不同连锁群上的位点(Sat_293 和 Satt302), 分
别从栽培及野生群体中检出, 未发现位点位于 FBL
定位的 QTL区间内。
看来, 与脂肪性状有关的位点多数是大豆栽培
化后获得的, 因为与野生大豆相比, 栽培大豆油脂
性状的改进是相当大的。
2.3.3.2 蛋白质性状 与蛋白总含量相关联的是
2 个在不同连锁群上的位点(Satt289 和 BE475343),
分别从两类群体中检出, 其中来自野生群体的位点
(Satt289)位于 FBL定位 QTL区间内。
与 11S 蛋白相关联的位点有 6 个, 全部来自栽
培群体, 其中 4个位于 FBL定位的蛋白相关 QTL区
段内。表型变异解释率较大的是从栽培群体中检出
的 Satt509与 Satt020, 与 7S蛋白亚基相关联的位点
有 2个(AW132402, Sat168), 全部来自栽培群体, 未
发现检出位点位于 FBL定位的 7S蛋白相关 QTL区
段内。
2.3.3.3 豆腐加工性状 与干豆腐得率相关的位
点有 3个, 除了 Satt168是从栽培群体中检出外, 其
余 2 个来自野生群体。表型变异解释率最大的是从
野生群体中检出的 AW132402(0.39), 未发现位点在
两类种质中共同检出, 也未见位点位于 FBL 定位
QTL 区段内。与干豆乳得率相关的位点也有 3 个,
全部来自栽培群体 , 表型变异解释率最大的是
Satt168(0.13), 无检出位点位于该性状 FBL 定位的
QTL区段内。
2.3.4 与多种性状关联的 SSR 位点 与 16 个性
状相关联的 41 个位点中, 共有 32 个与 2 个以上(包
括 2个)性状同时关联; 18个位点与不同类型性状中
的多个性状同时关联, 其中有 14个位点跨越两个类
型性状; 3个位点(Satt289、Satt239和 Satt592)跨越 3
个类型性状, 一个位点(Satt168)跨越 4个类型性状。
与多种性状关联的 SSR 位点中表现较为突出的
Satt168同时与 4类型性状中的 7个性状关联, Satt289
同时与 3类性状中的 6个性状关联, Sat_293同时与 2
类性状中的 6 个性状相关联, Satt277 同时与 2 类性
状的 4 个性状相关联。同一个标记位点与多个性状
相关联可能是性状相关乃至基因多效性的遗传基
础。多种性状关联 SSR位点的详情见表 5。
以上着重分析了大豆主要农艺及品质性状在两
类群体中的关联位点。对于关联分析而言, 找到与
性状关联的 SSR 位点, 只是第一步, 进一步还需明
确位点中等位变异的差异 , 并发掘出优异等位变
异。图 3所示, 与百粒重关联的位点 Satt168不同等
位变异对应的表型在两类种质资源中差别都很明显,
携带等位变异 Satt168-243 的栽培材料及携带
Satt168-246、252、267的野生材料百粒重都较大, 而
携带等位变异 Satt168-234 的栽培材料及携带
Satt168-189 等位变异的材料的百粒重较小。可见在
明确关联位点后进一步明确位点内的优异等位变异
是十分必要的。

第 7期 文自翔等: 中国栽培和野生大豆农艺品质性状与 SSR标记的关联分析 I. 群体结构及关联标记 1177




图 3 与百粒重关联的 Satt168不同等位变异在栽培(A)及野生
群体(B)中对应的表型平均差异
Fig. 3 Average phenotypic difference of 100-seed weight
among alleles at loci Satt168 in G. max (A) and G. soja (B)

3 讨论
3.1 SSR连锁不平衡位点与关联作图的关系
植物自然群体由于进化历史及交配体系的不同,
其基因组 LD水平大不相同, 鉴于QTL与标记位点间
的 LD 是关联分析的前提和基础, 在进行关联分析前
获知所研究群体基因组 LD状态是必要的。本研究基
于少量分子标记(60个位点), 只是粗略意义上的全基
因组关联分析, 目的在于初步了解大豆基因组连锁
不平衡状态, 估计位点 LD 的衰减。严格意义上的全
基因组关联分析需使用高密度标记对全基因组进行
扫描。例如, 统计分析表明要对拟南芥基因组进行全
基因组的LD分析大约需要6 000个标记[17]。对于 SSR
标记而言, 尽管借助多重 PCR, 引物荧光标记等手
段可提升工作效率 , 但庞大的工作量及实验耗费 ,
仍需要完善的计划和决心。在本研究初步分析基础
上今后将作进一步扩展。
本研究发现共线或非共线性 SSR位点组合都有
一定程度 LD存在, 其中非共线 SSR位点的 LD可能
是由于连锁群间重组引起, 也有认为可能是位点间
上位性互作的影响[18]。由于栽培大豆拥有的不平衡
成对位点数较野生大豆多, 但 D′均值较小, 衰减距
离较短。这一结果表明栽培群体在 LD 精细作图方
面可能优于野生群体。野生大豆基因组 SSR位点的
D′水平较高 , 进行关联作图时分辨率会较低 , 但需
要的标记数目会少许多, 因此可能更适合于全基因
组扫描。也有文献报道[19-21]野生大豆在 SNP水平的
LD衰减距离要较栽培大豆短, 衰减速率快于栽培大
豆。考虑到 SNP 的 LD 多发生在基因内, 而本研究
所指 LD是发生在位点间(不同基因区段), 加之两类
标记在 LD 的衡量及衰减计算上也有很大区别, 因
此不排除在基因内(或临近基因间) LD水平较低, 而
在多态位点间 LD水平较高的可能。
3.2 关联分析时群体结构分析的必要性
由于群体结构的存在会通过影响位点 LD 而影
响关联分析的准确性, 本研究对多位点基因型数据
采用了基于模型的聚类来分析群体结构 (structure
analysis, SA), 并计算出各个体归入各亚群的概率(Q
值)。该方法与基于遗传距离的聚类方法相比, 主要
优点是排除了亚类划分的人为因素[18]。另外, 各个体
Q值作为协变量纳入回归分析, 可以矫正亚群混合造
成的伪关联。本研究中, 曾对比过无 Q值回归分析与
有 Q值分析结果的差异(数据未在本文列出), 发现纳
入 Q 值运算结果中检出的关联位点明显少于无 Q 值
回归分析检出的关联位点, 且在关联位点的表型变
异解释率上二者也有区别。可见, 本文中将 Q值作为
协变量纳入计算, 在一定程度上规避了亚群混合造
成的伪关联。目前这一方法已在许多研究中应用。
3.3 关联定位的特点
QTL 定位方法比较多, 本研究所采用 TASSEL
软件的 GLM 程序处理表型变异与 SSR 位点等位变
异, 由于不依赖于图谱进行 QTL 分析, 比较简单直
观, 且对 QTL的检测能力较高, 直接表现出 97个位
点次与 16个性状相关联。然而该方法的缺陷是不能
估计 QTL的具体位置及其加性、上位性效应。即便
如此, 关联分析检测到的 SSR 标记, 许多都位于家
系连锁定位(FBL)的 QTL区间(±5 cM)。这种一致性
在水稻的类似研究中也有发现[7]。因此 QTL关联定
位结果有可能包容家系连锁定位的 QTL, 当然理想
的方法是家系连锁定位与关联定位相结合。
3.4 野生群体和栽培群体关联分析结果的特异性
本研究发现栽培群体和野生群体在不同类性状
上关联位点的检出率有差异, 栽培群体和野生群体
分别在品质加工性状及农艺性状上关联位点的检出
率高, 在脂肪及蛋白质等性状上, 两类群体没有发
现共同检出位点, 其原因可能是在栽培豆驯化过程
1178 作 物 学 报 第 34卷

中控制性状的QTL位点在变异的方向上确实产生分
歧, 也有可能是使用标记有限, 而未检出共同位点。
这些说明两个物种由于其系统发育的历史不同, 各
有其相应的关联位点, 栽培群体更适于进行栽培性
状或人工进化性状的关联分析, 野生群体更适于进
行野生性状或自然进化性状的关联分析, 两类群体
在关联作图上有互补性。此外, 本研究还发现某些
单一标记同时与 2 个或多个性状相关联, 该结果可
用于解释数量性状之间可能存在的遗传相关, 即性
状的相互关联可能由控制该性状的QTL相互连锁或
某 QTL的一因多效引起。
4 结论
公共图谱上的共线性的或是非共性的 SSR位点
组合都有一定程度的 LD, 说明历史上发生过连锁群
间的重组; 栽培群体的连锁不平衡成对位点数较野
生群体多 , 但野生群体位点间连锁不平衡程度高 ,
随距离的衰减慢。栽培群体和野生群体都存亚群分
化与群体地理生态类型相关联, 证实地理生态类型
划分有其遗传基础。 栽培群体和野生群体在不同类
性状上关联位点的检出率有差异; 部分标记在两类
群体中表现与同一性状关联, 检出的位点有一致性,
也有互补性; 一些标记同时与 2 个或多个性状相关
联, 可能是性状间相关的遗传原因; 部分关联位点
与家系连锁 QTL定位结果一致。
References
[1] March R E. Gene mapping by linkage and association analysis.
Mol Biotechnol, 1999, 13: 113−122
[2] Mackay I, Powell W. Methods for linkage disequilibrium map-
ping in crops. Trends Plant Sci, 2007, 12: 57−63
[3] Yu J, Edward S B. Genetic association mapping and genome or-
ganization of maize. Curr Opin Biotechnol, 2006, 17: 155−160
[4] Cregan P B, Jarvik T, Bush A L, Shoemaker R C, Lark K G,
Kahler L, Kaya N, Toai T T V, Lohnes D G, Chung J, Especht J.
An integrated genetic linkage map of the soybean genome. Crop
Sci, 1999, 39: 1464−1490
[5] Choi I Y, Hyten D L, Matukumalli L K, Song Q, Chaky J M,
Quigley C V, Chase K, Lark K G, Reiter R S, Yoon M S. A soy-
bean transcript map: Gene distribution, haplotype and SNP
analysis. Genetics, 2006, 176: 685−696
[6] Flint-Garcia S A, Thuillet A, Yu J, Pressoir G, Romero S M,
Mitchell S E, Doebley J F, Kresovich S, Goodman M M, Buckler
E S. Maize association population: A high resolution platform for
QTL dissection. Plant J, 2005, 44: 1054−1064
[7] Eizenga G C, Agrama H A, Lee F N, Yan W, Jia Y. Identifying
novel resistance genes in newly introduced blast resistant rice
germplasm. Crop Sci, 2006, 46: 1870−1878
[8] Maccaferri M, Sanguineti M C, Enrico N, Roberto T. Population
structure and long-range linkage disequilibrium in a durum wheat
elite collection. Mol Breed, 2005, 15: 271−289
[9] Zheng Y-Z(郑永战), Gai J-Y(盖钧镒), Lu W-G(卢卫国), Li
W-D(李卫东), Zhou R-B(周瑞宝), Tian S-J(田少君). QTL map-
ping for fat and fatty acid composition contents in soybean. Acta
Agron Sin(作物学报), 2006, 32(9): 1272−1279(in Chinese with
English abstract)
[10] Liu S H, Zhou R, Tian S, Gai J Y. A study on subunit groups of
soybean protein extracts under SDS-PAGE. J Am Oil Chem Soc,
2007, 84: 793−801
[11] Wang C-E(王春娥), Gai J-Y(盖钧镒). Study on measurement
technology of tofu and soymilk output for large amount of
mini-specimen. Soybean Sci (大豆科学), 2007, 26(2): 224−
229(in Chinese with English abstract)
[12] Wang F(王芳), Zhao T-J (赵团结), Gai J-Y(盖钧镒). Evaluation,
eco-region characterization and elite germpalsm identification of
submergence tolerance at seedling stage in wild and cultivated
soybeans. Soybean Sci (大豆科学), 2007, 26(6): 828−834(in
Chinese with English abstract)
[13] Doyle J J, Doyle J I. Isolation of plant DNA from fresh tissue.
Focus, 1990,12: 149−151
[14] Farnir F, Coppieters W, Arranz J J, Berzi P, Cambisano N, Grisart
B, Karim L, Marcq F, Moreau L, Mni M, Nezer C, Simon P,
Vanmanshoven P, Wagenaar D, Georges M. Extensive ge-
nome-wide linkage disequilibrium in cattle. Genome Res, 2000,
10: 220−227
[15] Edward Buckler Lab. Maize Diversity Research(2007-01-30)
http://www.maizegenetics.net/bioinformatics [2007-09-08]
[16] Pritchard J K, Stephens M, Donnelly P. Inference of population
structure using multilocus genotype data. Genetics, 2000, 155:
945−959
[17] Flint-Garcia S A, Thornsberry J M, Buckler E S. Structure of
linkage disequilibrium in plants. Ann Rev Plant Biol, 2003, 54:
357−374
[18] Gupta P K, Rustgi S, Kulwal P L. Linkage disequilibrium and
association studies in higher plants: Present status and future
prospects. Plant Mol Biol, 2005, 57: 461−485
[19] Cregan P, Randall N, Youlin Z. Sequence variation, haplotype
diversity and linkage disequilibrium in cultivated and wild soy-
bean. In: Proceedings of the First International Conference on
Legume Genomics and Genetics: Translation to Crop Improve-
ment. pp 2−6, Minneapolis-St. Paul, MN, 2000
[20] Hyten D L, Choi I Y, Song Q J, Shoemaker R C, Nelson R L,
Costa J M, Specht J E, Cregan P B. Highly variable patterns of
linkage disequilibrium in multiple soybean populations. Genetics,
2007, 175: 1937–1944
[21] Zhu Y L, Song Q J, Hyten D L, Van Tassell C P, Matukumalli L
K, Grimm D R, Hyatt S M, Fickus E W, Young N D, Cregan P B.
Single nucleotide polymorphisms in soybean. Genetics, 2003,
163: 1123−1134