回归模型

回归模型关注的则是,如果使用协变量的信息来更好地估计组间效应。在之前我们已经知道我们可以给出组间效应的一个无偏的点估计,因此引入协变量其实就是出于减小方差的目的。事实上,在之前的学习中也开始有引入协变量的想法,比如在构造统计量的时候使用相关的信息;而回归这节则是系统的分析协变量的效用。

记号

首先明确的是,在回归模型中,我们讨论的都是在 super population 下的,也就是样本中的潜在结果其实自身也有随机性的。因此采用的记号基本上也是沿用了 Neyman 那一章中关于 super popolation 的记号

无协变量的回归

回归模型为

最小二乘估计

由线性回归直接写出

的最小二乘估计通常会被解释为因果性 (因为施加了不同的处理),这在随机化实验中是显式的,而在观察实验(也就是不能或没有设计实验,只是拿到了结果)里是隐式的。在最小二乘估计的求解中,我们假设了 是独立于,或至少是不相关于 。这一假设通常难以被验证,因为这些残差通常被解释为一切没有被注意到的因子造成的影响。因此,统计教材中通常只把 解释为 相关性 而非 因果性 。但在这里,由于 的无偏估计,因此他们有了 因果性。但是,使用线性回归的方法来阐述 的因果性是有用的。

在全体样本的视角下,此时回归模型也就是

当然,这些的成立都是因为完全随机化实验带来的保证,包括

为方便记

,其中第二项满足渐进正态性。而

先考察简单的情况,即 此时可以给出估计量

由于

得到估计量

这一结果是是否自然的,因为当组间效应为常数时,控制组和实验组的方差都相等。

为了和后面的结果比较,我们考察根据样本规模规范化后的方差,记 得到结论

再考察 ,此时

同样有估计量

此时得到的估计量

可以看到,回归模型更容易理解(因为大多数人之前都接触过),而且最后导出了和 Neyman 相同的结果。同时这样的模型更容易扩展到有协变量的情形,这是回归模型的优越处。

有协变量的回归

回归模型为

有最小二乘估计

无限样本下,上式变为

下面的定理则给出了估计的准确性和收敛速度

如果我们从无限样本中随机采样进行完全随机化实验,那么

  • 其中

证明:考虑目标函数

其中 ,则

注意到后两项和 无关,因此最小化 等价于最小化 第一项,直接类比上一节的结论得

值得注意的是,这一结果意味着 的相合性不依赖于回归函数的正确性。无论全体样本下,给定协变量后 的条件期望有多么的“不线性”,使用最小二乘估计的组间效应总是相合的。这是因为在完全随机化实验下,全体样本下 的协方差为零。尽管在有限样本下他们的协方差可能非零,但大样本下他们的相关性会趋于零,因此协变量 的引入不会影响估计的相合性。当然,有限样本下他们的相关性会导致估计出现偏差。

因此协变量 的引入不会影响估计的均值,但其会影响估计的方差。同样的我们先考虑简单情形:先假设条件期望是协变量的线性函数,即

,故

再假设两个潜在结果的方差不随着协变量和处理改变,即

此时得到结果为

可见,引入协变量后,方差的估计从 调整为 。如果协变量 能解释绝大多数的方差,那么 就会显著小于 ,这样我们就得到了一个更精确的估计。当然,引入协变量不是没有代价的——之前我们在有限样本下都能得到精确的无偏估计,现在只能由渐进的无偏性,也就是大样本下无偏性才足够好。

同样的,此时我们可以给出估计量

带交叉项的回归

回归模型为

有最小二乘估计

类似的定理同样给出了估计的准确性和收敛速度

如果我们从无限样本中随机采样进行完全随机化实验,那么

此时,记 ,

,代数变换后可得

所以最小二乘估计 也可以解释为样本中的组间效应。同样的,由于随机化实验,尽管回归模型可能不合理,但该估计还是总体组间效应的一个相合估计。

假设检验(带交叉项的模型)

检验是否有交叉项和常数组间效应

的规范化后的协方差矩阵为

成立时,,且

检验是否有交叉项和零组间效应

同样的, 成立时,,且