上节提到了 Fisher的精确检验中出现的局限性。与 Fisher 著重于每个个体的效应相比,Neyman更关心群体上的平均效应,并给出了相应的点估计和区间估计。其核心思想是,在上一节 Fisher认为随机性完全由分配 引入之上,还加入了从总体中重复采样带来的随机性。这可以说是二者最本质的差别。

群体效应的无偏点估计

我们关心的量为

其中 fs 为 finite sample的缩写。

一个直观的估计自然是使用我们所能观测到的数据代替 ,即

直观上他应该是无偏的,因为我们的分配时随机的,事实上可以很容易的证明

首先

因此

有限样本下群体效应的区间估计

方差的理论值

要求区间估计,显然求方差是重头戏。为此我们先整理我们所能拿到的一阶矩和二阶矩。注意到恒等式 ,这给后面许多计算带来了便利。

一个很常见的技巧是构造一个期望为 的随机变量来简化求方差的计算,这里我们构造 ,可以立刻写出其相关的性质

让我们重新整理

因为 ,这里也很明显看出无偏性。现考察方差

首先定义

这三个量分别代表了样本中实验组、对照组以及组间效应的方差。注意,这些值也是不能直接观测到的。

可以证明, ,证明在本小节的结尾。

这个结果看似怪异,但也并不奇怪。首先我们要估计的量为 。因此我们首先需要估计 ,而 是一个无偏估计。而从 个样本中得到的这一无偏估计的方差为 ,其中除以 是因为均值的方差是单点方差的 ,而后面那个因子则是对有限样本的一个修正。这里就贡献了 这一项。第二项同理。第三项 则是个体间效应的方差。如果组间效应为常数,则这一项为零;否则 ,而这较低了我们对 估计的方差。

除此之外, 还有另一个有用的形式。首先我们记 ,其中 就是直接定义出来的,刻画了实验组和对照组的相关系数。此时

时方差最小。当 时方差最大,为

而最特殊的 的情况自然是 ,此时 ,则

这其实可能有点反直觉——最大方差居然出现在组间效应为常数的情况。让我们考虑一个简单的例子来消除这一“反直觉”。假设只有两个样本,先考虑组间效应为常数的情况。

样本
1 10 10
2 -10 -10

我们计算 ,会发现要么是 ,如果 ,或者是 , 如果 ,方差很大

再考虑一个 的例子,只需将 交换,可以算得此时方差为零。

下面给出方差的计算

方差的估计

记住, 我们都无法直接得到。所幸,我们可以直接得到前两个的无偏估计

无偏性的证明在本小节的末尾。

不幸的是,我们不太可能得到 的一个估计,因为我们无法同时观测到 。不幸中的万幸是,如果组间效应是个常数,这一项就为零了,所以此时我们能够得到一个无偏估计

读者可能会对这样一个设定感到不满意——我们为了消除没法计算的项就强行将他设为零。但事实上设为零后方差只会更大,也就是说我们给出的是方差的一个上界。那么至少在构造置信区间的时候,这么做是没有任何问题的。

但我们不满足于此,因为他给出了一个严格的上界。然而在 Neyman 的实验中,通常样本量都会足够大,我们构造的置信区间也是依赖于大样本的渐进正态性。因此其实我们可以改进一下这个上界。下面给出了两个可以选择的估计。

其中一个为

同样其上界出现在 处,为

因此其是 的一个改进。但当我们没有更多信息的时候,我们不能将 取得更小,这里的改进基本到头了。

另一个则是当组间效应为常数,则 的时候采用的,即 其中

此时这一估计比上两个更好。但当组间效应不是常数时,此估计给出的置信区间可能是失效的。

事实上,绝大多数情况下三者算出来的结果只有细微的差别,因此无需在此过多的纠结。

下面给出无偏性的证明,首先

同样的,使用 ,代入第二项的第二个因子得

\begin{align}\mathbb{E}[(\bar{Y}_t^\mathrm{obs})^2]&=\mathbb{E}\left[\frac{1}{N_t^2}\sum_{i=1}^{N}\sum_{j=1}^{N}W_iW_jY_i^\mathrm{obs}Y_j^\mathrm{obs}\right]\\&=\frac{1}{N_t^2}\mathbb{E}\left[\sum_{i=1}^{N}\sum_{j=1}^{N}\left(D_i+\frac{N_t}{N}\right)\left(D_j+\frac{N_t}{N}\right)Y_i(1)Y_j(1)\right]\\&=\frac{1}{N_t^2}\sum_{i=1}^{N}\sum_{j=1}^{J}\mathbb{E}[D_iD_j]Y_i(1)Y_j(1)+\frac{1}{N^2}\sum_{i=1}^{N}\sum_{j=1}^{N}Y_i(1)Y_j(1)\\&=\frac{1}{N_t^2}\sum_{i=1}^{N}\left(\frac{N_cN_t}{N^2}+\frac{N_cN_t}{N^2\cdot(N-1)}\right)Y^2_i(1)+\left(\frac{1}{N_t^2}\frac{-N_cN_t}{N^2\cdot(N-1)}+\frac{1}{N^2}\right)\sum_{i=1}^{N}\sum_{j=1}^{N}Y_i(1)Y_j(1)\\&=\frac{N_c}{N\cdot (N-1)\cdot N_t}\sum_{i=1}^{N}Y_i^2(1)+\frac{N_t-1}{N\cdot(N-1)\cdot N_t}\left(\sum_{i=1}^{N}Y_i(1)\right)^2\end{align}

因此

构造置信区间与检验

显然, 即可构造出置信区间

然后使用正态分布来检验也是可以的

对比之前的 Fisher 精确检验,Neyman 的方法有两点不同。首先自然是原假设的不同:Fisher 采用了一个更加强的假设:所有样本的组间效应都是零,而 Neyman 只要求平均效应为零。其次就是检验方式的不同:Fisher 可以“精确”地算出 Fisher exact P value,而 Neyman的检验依赖于大样本的渐进正态性,因为它使用了两次近似:一次时用 估计 ,另一次则是假设了 在重复抽样中服从正态分布。

总体组间效应的推断

现在我们将 个样本视为从总体的一次随机抽样的结果,或者说每个样本的潜在结果对都是服从某一个分布的,因此他们自身也带有着随机性。我们使用 sp 代表 super-population 来和之前的 fs 区分开来。

那我们上面求得的估计量 的方差又会是多少呢,我们有

因此,尽管 在方差相等时估计得更好,\mathbb{V}_\mathrm{fs}[\widehat{\tau}^\mathrm{dif}]\widehat{\mathbb{V}}^\mathrm{neyman}\widehat{\mathbb{V}}^\mathrm{neyman}$ 是总体样本下组间差距的方差的一个无偏估计。

其证明可以直接使用全方差公式

也可以使用经典的拆分平方的方法

原书中的附录则是考虑从 大小的样本中采样出 个样本推演出结果,其中使用指示变量 标记被采样的结果(类似于 的作用)。再将 得到相同的结论。如果读者对这一过程感兴趣也可以查阅原书的证明。