§2.4 置信区间与假设检验
一、置信区间的基本概念
在例2.1的消费模型中,边际消费倾向β2的估计值为0.7616,这是对未知的总体边际消费倾向的一个点估计。由于是点估计,我们无法判断这种估计的可靠性有多大。我们只能保证在重复抽样中估计值的均值等于其真值。为了衡量这一估计的可靠性,我们可围绕点估计量构造一个区间。要判断对β2估计的可靠性,可设定区间[-δ,+δ],使其包含β2的概率为1-α,即
其中0<α<1,0<δ。如果存在这样一个区间,就称设定的区间为β2的置信区间。1-α称为置信系数或置信水平,而α称为显著性水平。+δ称为置信上限,-δ称为置信下限。
如果α=0.05(5%),则式(2.51)的意义即为随机区间[-δ,+δ]包含真实β2的概率为0.95(95%)。可以看出,置信区间给出了对β2估计的可靠程度。为了正确理解式(2.51),作如下说明:
(1)式(2.51)并不是说β2落入该界限内的概率是1-α。因为β2虽然未知,但它是总体回归函数中的边际消费倾向,是个定数,要么落在该区间内,要么落在该区间外。式(2.51)的意义为:用随机样本估计参数构造的区间包含β2的概率为1-α。
(2)式(2.51)中的区间是一个随机区间,它随着样本的不同而不同。
(3)式(2.51)的意义为,对于多次抽样,平均地说,这些区间有100%(1-α)包含真实参数β2.
(4)式(2.51)中,当是一个随机变量时,代表多种可能结果。如果选定了一个样本,就获得的一个结果值,式(2.51)的区间就不再是随机区间,而是特定区间。此时,我们就不能说这个给定的区间包含真实参数β2的概率是1-α。此时,β2要么在该区间内,要么在该区间外,概率只能是1或0。如果我们得到了β2的95%置信区间为(0.4≤β2≤0.7),就不能说这个区间包含真实值β2的概率是95%。这个概率不是1就是0。
二、ui正态性假定及普通最小二乘估计量,和的性质
1.ui正态性假定
在回归分析中,我们的目的不仅仅是得到,而是要用推断βj。因此,我们需要得到βj的置信区间,通过置信区间去判断这种推断的可靠性。在最小二乘估计式中,是Yi线性函数,从而也就是ui的线性函数。要推断βj的置信区间,我们就必须获得ui的概率布。在回归分析中,人们常常假定u服从正态分布,即每个u都是正态分布的,亦即,
用符号表示为
其中“~”表示“其分布为”,N表示“正态分布”,括号中的数字为正态分布的两个参数:期望值和方差。
我们假定ui服从正态分布的理由如下:
(1)ui代表回归模型中未包含的变量的集合。这些未引入的变量的影响是微弱的和随机的。根据中心极限定理,如果存在大量独立且同分布的随机变量,随着这些变量个数的增大,它们的总和将趋向正态分布。
(2)即使变量个数不是很大或这些变量不是严格独立的,它们的总和仍可视同正态分布。
2.ui正态假定下普通最小二乘估计量,和的性质
(1)它们是无偏的。
(2)它们有最小方差。
(3)它们是一致估计量。也就是说,随着样本容量无限地增大,估计量将收敛到它们的真值。
(4)服从正态分布,即
(5)服从正态分布,即
(6)(n-2)/σ2服从χ2(n-2)分布。
(7)Yi服从正态分布:
三、回归系数β1和β2的置信区间
在ui正态假定下,和均服从正态分布,将转化为标准正态分布,则为
Z为期望值为0、方差为1的标准正态分布,即
当σ2已知时,我们就可得到β2的置信度为1-α的置信区间为
但是,由于ui的不可观测,我们无法获知σ2。我们只能用σ2的无偏估计量来测定σ2,如果我们用代替σ2,则(2.65)式可写为
可以证明,这样定义的t变量服从自由度为n-2的t分布,据t分布可得
式(2.68)中,tα/2是显著性水平为α/2,自由度为n-2的t分布的t值,通常称为α/2显著水平的临界值。将式(2.67)代入式(2.68)得
整理可得
式(2.70)给出了β2的一个100(1-α)%的置信区间。
同理我们可得到β1的置信区间:
从式(2.70)和(2.71)可以看出,β1,β2的置信区间的宽度与估计量,的标准误se(),se()成正比例。标准误越大,置信区间越宽。就是说,估计量的标准误越大,对未知参数的真值进行估计的可靠性越差。因此,估计量的标准误也被用于测度估计量的精度,也就是说用估计量去测定真实的总体值有多精确。
例如,在例2.1中我们得到斜率系数的估计值=0.7616,se()=0.0149,自由度为8,当显著性水平为5%,即置信系数为95%时,查t分布表可知tα/2(8)=t 0.025(8)=2.306,则β2的95%置信区间为
式(2.72)的意义为:给定置信系数为95%,从长远看,类似于(0.7272,0.7960)的区间,100个区间中,将有95个包含着真实的β2值。我们不能说这个固定的区间有95%的概率包含真实的β2值,因为这个区间是固定不变的,β2要么在该区间内,要么在该区间外。这个固定的区间包含β2的概率要么为1,要么为0。
同理,我们可构建β1的置信区间为
式(2.73)表示,从长远看,该区间100个中将有95个包含真实的β1。但这个固定的区间包含真实的β1的概率是1或0。
四、假设检验
1.检验回归系数的显著性——t检验
统计假设检验的中心思想就是判断某一特定观测或发现是否与某一声称的假设相符。如果相符就不拒绝这一假设,如不相符就拒绝这一假设。例如,在引例的回归分析中,如果事先我们已有一些研究成果认定边际消费倾向β2为0.9,那么β2=0.9就是我们所说的声称的假设。如果我们的观测(估计)结果=0.7616在一定的统计原则下与0.9并不矛盾,我们就接受假设β2=0.9,即边际消费倾向的真值为0.9。如果,=0.7616与β2=0.9在一定的统计原则下相互矛盾,我们就拒绝假设β2=0.9,即边际消费倾向的真实值不是0.9。我们称β2=0.9这一声称的假设为虚拟假设或原假设,用符号H0表示;与之相对应β2≠0.9就称为备择假设,用符号H1表示。
一般地,可假设为
已知:
即t服从自由度为n-2的t分布。如原假设成立,即β2=β*,则据(2.74)式和已知样本算得t值为
该t值是一个统计量,服从t分布,据此可得到t统计量的置信区间
式(2.76)建立的100(1-α)%置信区间为原假设H0:β2=β*的接受域,置信区间以外的区域称为原假设H0:β2=β*的拒绝域。
例如,在引例中的收入-消费模型中,=0.7616,se()=0.0149,自由度=8,取α=5%,查t分布表可知tα/2=2.306.若H0:β2=β*2=0.9,H1:β2≠0.9,则
因为
所得的t统计量不在(2.77)式的区间内,故拒绝原假设H0:β2=0.9,接受备择假设H1:β2≠0.9,如图2.6所示。
图2.6 t的95%置信区间(自由度=8)
如果式(2.75)中的=β*,则t统计量为0。可以看出,随着估计值远离β*,t的绝对值|t|将越来越大。就是说,随着t统计量的绝对值的增大,原假设的可信程度在降低。当t统计量的绝对值大于临界值tα/2时,就拒绝原假设。临界值tα/2来自于t分布表,其数值的大小决定于自由度n-k和我们愿接受的第I类错误(即H0为真时拒绝它)的概率。
因为我们使用了t分布对回归系数进行假设检验,因此,该检验程序称为t检验。如果一个统计量的值落在拒绝域上,我们称该统计量是统计上显著的,此时,我们拒绝原假设;如果一个统计量的值落在接受域上,我们称该统计量是统计上不显著的,此时,我们接受原假设。
在计量经济分析中,Yi=β1+β2Xi+ui,其中β2代表解释变量X对被解释变量Y的线性影响。如果X对Y的线性影响是显著的,则有β2≠0。若X对Y的影响不显著,则有β2=0。因此,我们通常设定的假设为
此时,我们得到t统计量为
给定显著水平α=5%,自由度为n-k,查t分布表可得临界值为tα/2,如果|t|<tα/2,则接受原假设H0:β2=0,即解释变量X对被解释变量Y的影响是不显著的,解释变量对被解释变量没有影响,该解释变量不应包含在模型中。如果|t|>tα/2,则拒绝原假设H0:β2=0,接受备择假设H1:β2≠0,即解释变量X对被解释变量Y的影响是显著的,该解释变量应该保留在模型中。
对于截距项β1,除非有理论上的特别意义或者要进行经济预测,通常即使是不显著,也可不理会。
t检验决策规则:
(1)设定假设:原假设H0:βj=0,备择假设H1:βj≠0
(2)计算原假设H0:βj=0条件下的t统计量
(3)在给定显著性水平α的条件下,查t分布表得临界值tα/2(n-k)
(4)判断:
如果|t|>tα/2(n-k),则拒绝原假设H0:βj=0,接受备择假设H1:βj≠0;
如果|t|<tα/2(n-k),则不拒绝原假设H0:βj=0。
在引例的收入-消费模型中,假设为H0:β2=0和H1:β2≠0。回归系数的t统计量为
由于t=51.1141>2.306,拒绝原假设H0,接受备择假设H1,即解释变量X对被解释变量Y的影响是显著的,回归系数β2通过t检验。
2.t检验的相关问题
(1)显著性水平α
临界值tα/2的大小取决于显著性水平α,即犯第I类错误的概率(错误地拒绝了真实的原假设的概率)。α越小,临界值tα/2越大,犯第I类错误的概率越小。
例如,我们把显著性水平由5%降为1%,则β2的置信系数由95%升为99%。因此,犯第I类错误(错误地拒绝为真的原假设)的概率由5%降到至1%,但同时犯第Ⅱ类错误(错误地接受为假的原假设)的概率却上升了。因此,选择显著性水平时,要根据两类错误的代价而定,两类错误的代价是随着实际问题而异的。在计量经济分析中,通常会选择相当小的显著性水平,即把犯第I类错误的概率控制在较低水平。显著性水平通常在抽样前确定,一般取值为0.10,0.05,0.01。
(2)实际显著水平——p值
一般计量经济分析中,都使用事先给定的显著性水平。当我们对给定的样本算出一个检验统计量(如t统计量)的值后,就可根据相应的统计表,获知等于或大于该统计量的概率,我们称其为p值。例如,当估计值为时,t统计量则其伴随概率p值p值是假设检验中的实际显著性水平或犯第Ⅰ类错误的实际概率。更确切地讲,p值是一个虚拟假设被拒绝的最低显著性水平。例如,在引例的收入-消费模型中,和的t统计量值分别为3.021和51.135。实际显著性水平都小于5%,t=3.021对应的p值为0.0165,即实际显著性水平仅仅为1.65%,而t=51.135对应显著性水平小于万分之一(在EViews中以0.0000显示其值)。所测的t统计量的p值比1%要小得多,就是说,我们如果根据t=51.135这个统计量值拒绝H0:β2=0的虚拟假设,那么犯第Ⅰ类错误的概率要小于0.01%,即小于万分之一。
p值度量的是犯第Ⅰ类错误的概率,即拒绝正确的原假设的概率。p值越大,错误地拒绝原假设的可能性就越大;p值越小,拒绝原假设时就越放心。
因此,可以通过p值比较进行假设检验。当p<α时,|t|>tα/2(n-k),拒绝原假设H0:βj=0,接受备择假设H1:βj≠0;当p>α时,|t|<tα/2(n-k),则不拒绝原假设H0:βj=0.
(3)“2倍t”和“5%p值”简算法
当样本容量n较大时(n≥30),t值只要大于2.0,我们就将回归系数判定为显著的。当进行多元回归时,回归系数较多,利用这种方法非常方便,不需查t分布表。因为通常在5%的显著水平下,如果自由度在28以上(一元回归中的n≥30),则t分布表中的临界值tα/2,按四舍五入的原则,全部等于2.0。同样,在5%的显著性水平下,无论样本容量多大,当p值小于5%时,即p<0.05时,我们就可判定回归系数是显著的。
如果显著性水平不是5%或样本较小,则回归系数的显著性检验的临界值就需据t分布表来确定,而不能使用2或5%做临界水平进行t检验。例如,在引例的收入-消费模型中,虽然,的t值分别为3.021,51.135,都大于2,但样本较小,不能直接判定,是显著的。,的p值分别为0.0165,0.0000,均小于5%,如果显著性水平α=5%可判定,都是显著的。