数量性状的分子标记(QTL定位的原理和方法讲义)

由天下分享时间：2024/5/18 16:28:50 加入收藏我要投稿点赞

且，r值越小，标记与QTL间连锁越紧密，则?MM与?mm之间的差异就越大。当r = 0，亦即标记与QTL之间完全连锁时，标记基因型间的均值差异达到最大，这时有?MM ? ?mm = ?QQ ?

?qq。因此，用t测验方法检验两种标记基因型间的数量性状表型均值差异是否显著，就能推

断该标记是否与QTL连锁。t值越大，即显著性越高，则连锁越紧密。

如果群体中每个标记存在3种基因型（如F2群体），或者尽管群体中每个标记只有两种基因型（如DH、RI群体），但试验中设置了重复（李维明等 1993），则可以采用方差分析的方法来检测标记与QTL之间的连锁关系。以F2群体为例。假设某个标记与一个QTL连锁，采用与图5.2类似的推导方法，可以得到3种标记基因型的性状均值分别为：

?MM?(1?r)2?QQ?2r(1?r)?Qq?r2?qq (5.3) ?Mm?r(1?r)?QQ?[1?2r(1?r)]?Qq?r(1?r)?qq (5.4)

?MM?r2?QQ?2r(1?r)?Qq?(1?r)2?qq (5.5)

式中所用符号的含义与式(5.1)和(5.2)的相似。比较式(5.3) ~ (5.5)，可以看出，与上面DH群体的情形相似，仅当标记与QTL间的重组率为r?0.5，亦即标记与QTL间没有连锁时，才有?MM = ?Mm = ?mm（?14；而只要r < 0.5，亦即标记与QTL间存在?QQ?1?Qq?1?qq）24连锁，则总有?MM ? ?Mm ? ?mm。因此，用单因素方差分析法检验3种标记基因型间的性状均值差异是否显著，就能推知该标记是否与QTL连锁。标记与QTL间连锁越紧密，则标记基因型间均值的差异就越大，方差分析中F测验得到的F值也越大（即显著性越高）。

单标记均值差检验法的优点是简单直观。一般而言，标记离QTL越近，它与QTL间的重组率就越小，则其t值或F值就越大；反之，标记离QTL越远，它与QTL间的重组率就越大，则其t值或F值就越小。因此，根据染色体上各个标记的t值或F值的大小，可以大致判断出QTL的位置。但是，单标记均值差检验法不能估计QTL的具体位置和效应，灵敏度较低，且一般不适用于一条染色体上存在多个QTL的情形。当两个QTL呈相引连锁（即两增效基因连锁在一起或两减效基因连锁在一起）且相距不太远时，由于两QTL的效应相互累加，可能会使得位于两QTL之间的标记表现出最大的t值或F值，从而导致无法识别那两个真实QTL，却错误地认为在它们之间的某个位置上存在一个QTL。这个推断出的QTL显然是虚假的，是一个“幻影QTL”（ghost QTL）。相反，当两个QTL呈相斥连锁（即一个

增效基因与一个减效基因连锁在一起）且相距不太远时，由于两QTL的效应相互抵消，可能会使得两QTL附近的标记表现出很小的t值或F值，从而无法检测出这两个QTL。由于这些局限性，目前单标记均值差检验法仅用于对数据的初步分析。

对单标记均值差检验法的一种改进方法，是将同一条染色体上各标记的t测验或方差分析联合于一个回归分析之中，称为联合定位法（joint mapping；Wu and Li 1994, 1996a, b）。下面以DH群体为例来说明联合定位法的原理，它也适用于BC和RI群体。至于F2群体的联合定位法，读者可参阅Wu 和 Li (1996b)。

从式(5.1)和(5.2)可以得到：

?MM??mm?(1?2r)(?QQ??qq) (5.6)

令y = ?MM ? ?mm，x = 1 – 2r，b = ?QQ ? ?qq，则式(5.6)可写成

y?bx (5.7)

可以看出，式(5.7)形式上恰好是一个截距为零的一元线性回归方程。假设Haldane作图函数成立（参见第三章），则有

r?12(1?e或

?0.02|zM?zQ|) (5.8)

x?e?0.02|zM?zQ| (5.9)

式中，zM和zQ分别是标记和QTL在染色体上的位置，以厘摩（cM）为单位。在完整的标记连锁图上，每个标记的位置都是已知的。因此，在式(5.9)中，只有QTL的位置zQ是未知的。当zQ值给定时，x也就确定了。如果一条染色体上有n个标记，那么在zQ值给定的情况下，就有n对观察值：(yi, xi), i = 1, 2, …, n。这样，就能应用最小二乘法配合方程(5.7)。

?Q）沿着整条染色体以一定步长（如1 cM）改变zQ的值，必能找到某一点（z，使方程(5.7)?Q）即为QTL位置的配合得最好（即剩余平方和RSS达到最小；图5.4）。那么，该点（z?即为QTL效应的估计值。需要指出的是，由于同一条染色体估计值，而得到的回归系数b上的标记互相连锁，因而不同观察值yi (i = 1, 2, …, n)之间不是相互独立的。因此，应使用

广义最小二乘法来配合方程(5.7)，才能获得最小估计误差。

方程(5.7)可以推广到一条染色体上存在多个（如m个）QTL的情形（图5.4），这时方程的形式为：

my??bjxj (5.10)

j?1式中，bj为第j个QTL的效应值；xj取决于标记与第j个QTL的之间的图距。只要染色体上有足够多的标记，用方程(5.10)原则上可以定位任意多个QTL。

图5.4

QTL联合定位的一个模拟例子. 连锁图上每隔10cM有一个标记, 黑色三角形示QTL的真实位置, 剩余平方和曲线最低点为QTL的估计位置, 水平点线示?0.05(1)?3.84, 它与每个QTL的剩余平方和曲线的两个交点确定了该QTL位置的95%置信区间（引自Wu and Li 1996a）

联合定位法的优点是综合利用了一条染色体上所有标记的遗传信息，所以提高了灵敏度和精确度，并可同时估计多个QTL的位置和效应，而且与性状分布无关，适用范围广，计算简单。不足之处是使用矩量（均值）而非原始观察数据，因而要求有较大的实验群体。另外，联合定位法对分子标记图谱质量的要求较高，这是它在实际应用中的主要限制因素。

三、性状-标记回归法

性状-标记回归法是将个体的数量性状表型值对单个标记（Soller et al. 1976）或多个标记（Rodolphe and Lefort 1993）的基因型进行回归分析。前者属于单标记分析的方法，可以看作是后者的一种特例，目前已很少使用。所以下面我们只需介绍性状对多标记回归分析的方法。仍以DH群体为例。这时的多标记的性状-标记回归模型为：

myi????bjxij??i (5.11)

j?1式中，yi为第i个体的性状值；?为模型均值；bj为第j标记的偏回归系数；xij为第i个体第j标记基因型的指示变量，依标记基因型为MM或mm而取值1或0；m为标记个数；?i为随机误差。式(5.11)是一个多元线性回归模型，可以用最小二乘法来配合。偏回归系数的大小反映了各个标记与数量性状的相关程度。一般而言，如果某标记的偏回归达到显著水平，则说明在该标记附近可能存在QTL。但是，性状-标记回归法通常不能给出QTL位置和效应的估计值，除非QTL正好位于标记座位上，这时的偏回归系数就是QTL的效应值。不过，根据各标记回归系数的显著性，能够大致判断出可能存在QTL的染色体区域。

值得提到的是，性状-标记回归有一个有趣的统计特性。这就是，在回归中，一个QTL的效应只被其两侧相邻标记的偏回归系数所吸收，而不会影响到该标记区间之外的标记。这一特性非常重要。后面我们将看到，这一特性对提高QTL定位的准确性很有帮助。

四、性状-QTL回归法

性状-QTL回归法是将个体的数量性状表型值对假设存在的某个或某些QTL的基因型进行回归分析。以DH群体为例，单个QTL的回归模型为：

yi???bxi??i (5.12)

式中，yi为第i个体的表型值；?为模型均值；b为QTL的效应；xi为第i个体的QTL基因型的指示变量，依QTL基因型为QQ或qq而取值1或0；?i为随机误差。由于被检QTL的基因型是未知的，因而xi的值实际上是不确定的，或者说是“缺失”的。在这种情况下，只

能根据与QTL连锁的标记的基因型来推断xi为1或0的概率，并用似然比检验法来估计参数和检验回归显著性，即

LR??2ln[L(b?0)/L(b?0)] (5.13)

或

LOD?log10[L(b?0)/L(b?0)] (5.14)

其中L(b = 0)和L(b ? 0)分别表示b = 0和b ? 0时的最大似然值（注：LR与LOD之间存在转换关系：LOD ? 0.217LR）。当似然比统计量LR或LOD的值大于给定的显著阈值时，则认为b?0，即假定的QTL的效应不为零，因而可推断QTL存在。

早期的性状-QTL回归分析是利用单个连锁标记来推断xi取值概率的，亦即属于单标记分析的方法（Simpson 1989），目前已很少使用。分子标记技术出现之后，Lander和Botstein（1989）提出了更为准确的方法，即用被检QTL两侧相邻的连锁标记来推断xi取值的概率（表5.1），称为区间定位法（interval mapping）。由表5.1可以看出，xi取值的概率取决于QTL与两侧相邻标记间的重组率或图距。因此，以一定的步长（如1 cM），沿整条染色体逐步改变假设存在的QTL的位置，就能得到LOD（或LR）值沿染色体变化的曲线。大于显著临界值的LOD曲线高峰所对应的染色体位置就是存在QTL可能性最大的位置（图5.5）。

表5.1 在DH群体中用两侧相邻标记推断QTL基因型概率及其指示变量的期望值

标记基因型

Qq 期望值

xi?1

M1M1M2M2

xi?0

t/s

(s?t)/s

M1M1m2m2

(r2?t)/r (r1?t)/r

(r1?t)/r (r2?t)/r

(r2?t)/r (r1?t)/r