
2.2 协方差分析的统计前提与检验统计量的推导
根据2.1小节的介绍,我们知道协方差分析是方差分析的推广,即调整因变量方差后再来检验各组平均值是否相等,或者组间效应是否为0。为了推导检验统计量,我们先介绍该方法的相关假设。
2.2.1 协方差分析的相关假设
协方差分析的相关假设归纳起来主要有五条:
(1)线性关系:因变量与协变量均为连续变量,两者之间存在线性相关关系;
(2)独立性:协变量与自变量相互独立;
(3)回归系数的同质性:各处理组关于协变量的斜率相等;
(4)正态性:要求误差项独立且服从正态分布,即εi~N(0,σ2);
(5)方差同质性:各处理组的误差方差相等。
观察这五项假设,第四、五两项是方差分析的假设,是保证方差分析表中的均方(MS)之比服从F分布的前提,而前三项则是协方差分析特有的。第一项要求因变量与协变量有一定的线性相关,也就是公式(2.1)中协变量的回归系数β不等于0,这样协方差分析才有存在的意义。在协方差分析中可以查看回归系数是否等于0的假设检验。第二项要求协变量独立于自变量,也就是说协变量的变化不受各种处理或分组的影响。在心理学研究中往往会忽视这个假设,对此Miller和Chapman(2001)有一个颇为详细的介绍。如何确认协变量与自变量是独立的,可先通过方差分析——将协变量作为因变量,对自变量各组进行组间平均值是否相等的检验,也可查看两者间的相关系数。如果检验结果接受原假设,则可进行下一步的协方差分析。第三项的要求是指在自变量J个水平上回归系数需相等(β1=β2=……=βj),即各组的回归线必须相互平行,因为只有这样才能保证组间的距离是稳定的。这是协方差分析中非常重要的假设,如不满足这个假设,就无法对调整后的组间平均值进行比较(参见图2.2)。第三项的假设检验需要先做一个协方差分析的预分析来检验协变量与自变量是否存在交互作用,具体操作将在下文介绍。若检验结果确定两者不存在交互作用,即可进行正式的协方差分析。
2.2.2 调整后的检验统计量
协方差分析就是检是否为0。回想单因素方差分析的差异性检验,是通过把因变量的总变异分解成组间与组内变异后导出统计量而得到的。既然协方差分析是方差分析的推广,其统计检验量也类似于F统计量。为了消除协变量的影响,设
是Y关于X的回归预测值:

Y与之差,即Yij(adj)就是Y的关于X上的线性回归分析中的误差变量:

在此基础上的单因素协方差分析就是对Yij(adj)进行单因素方差分析。表2.1是Yij(adj)的方差分析表。
表2.1 Yij(adj)的方差分析表

注:协方差分析中自由度比方差分析少1,J为组数,n为每组的样本量。
从表2.1可知,若导就可以进行协方差分析的F检验。根据方差分析知识,Y,X的总离差平方和可分为两类:组内与组间离差平方和。
Y的总离差平方和

组内离差平方和

组间离差平方和

且

在计算时,离差平方和还可表示成

其中,NT是总人数。同理,协变量X也可这样分解:

由于SSY(adj)中带有协变量X,存在Y与X共同变化的部分,即

我们称为叉积和(sum of cross products)。在计算时,叉积和也可表示成

SCT还可分解为组间部分与组内部分:

由于Yij(adj)是Y的误差变量,它的离差平方和为Y的变异中不能用X说明的剩余部分,即

其是X, Y的相关系数的平方,在线性回归分析中就是决定系数,表示由X引起的变异在Y变异中所占的比例。于是SSY(adj)可变形为

调整后的组内或组间离差平方和的计算思想与Yij(adj)也很类似,即从因变量Y的组内离差平方和中除去协变量的影响。首先我们定义X, Y的组内相关系数

它的平表示Y的组内变异中由X引起的比例。于是调整后的组内离差平方和SSW(adj)可以表示成

或者

调整后组间离差平方和SSB(adj)直接由下式得到

公式(2.5)还可进一步展开为

这样,表2.1中三个调整后的离差平方和分别由公式(2.5)或(2.6),(2.3),(2.4)表示。下面我们利用表2.2的模拟数据,来观察一下上述统计量的数值计算。Y, X分别是因变量与协变量,都是连续变量,自变量有A, B,C三个水平,选取24名被试随机分配到各水平。
表2.2 模拟数量

注:Y*X表示Y与X数值的乘积。
分别利用Y的总离差平方和

组内离差平方和

组间离差平方和

算得SSY=859.83,SSWY=607.26,SSBY=252.57。同理,也可得到协变量X的离差平方和:SSX=335.96,SSWX=334.64,SSBX=1.32。
表2.3 Y的离差平方和计算结果

表2.4 Y与X之和、乘积和的数据一览表

应用表2.4结果,计算总分叉积和得

同样,计算各组的叉积和:

组内叉积和为各组叉积和的总和:

到此为止,所需要的数据已基本准备好,列于表2.5内。
表2.5 X, Y的离差平方和与叉积和

根据表2.5的数据,利用公式(2.3),得

利用公式(2.4),得

调整后组间离差平方和直接由公式(2.5)得到

将以上结果汇于表2.6。
表2.6 模拟数据协方差分析的数据表
