上节提到了 Fisher的精确检验中出现的局限性。与 Fisher 著重于每个个体的效应相比,Neyman更关心群体上的平均效应,并给出了相应的点估计和区间估计。其核心思想是,在上一节 Fisher认为随机性完全由分配 $\mathbf{W}$ 引入之上,还加入了从总体中重复采样带来的随机性。这可以说是二者最本质的差别。

群体效应的无偏点估计

我们关心的量为

$$\tau_{\mathrm{fs}}=\frac{1}{N}\sum\limits_{i=1}^{N}(Y_i(1)-Y_i(0))\overset{\Delta}{=}\bar{Y}(1)-\bar{Y}(0)$$

其中 fs 为 finite sample的缩写。

一个直观的估计自然是使用我们所能观测到的数据代替 $\bar{Y}(1)$ 和 $\bar{Y}(0)$,即

$$\widehat{\tau}^{\mathrm{dif}}=\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}$$

直观上他应该是无偏的,因为我们的分配时随机的,事实上可以很容易的证明

首先 $$\mathbb{P}_W[W_i=1\mid \mathbf{Y}_0,\mathbf{Y}_1]=\mathbb{E}_W[W_i=1\mid \mathbf{Y}_0,\mathbf{Y}_1]=N_t/N$$

而 $$\widehat{\tau}^{\mathrm{dif}}=\frac{\sum_{i=1}^{N}W_i Y_i(1)}{N_t}-\frac{\sum_{i=1}^{N}(1-W_i) Y_i(0)}{N_c}$$

因此 $$\mathbb{E}_W[\widehat{\tau}^{\mathrm{dif}}\mid\mathbf{Y}(0),\mathbf{Y}(1)]=\frac{\sum_{i=1}^{N}\mathbb{E}_W[W_i] Y_i(1)}{N_t}-\frac{\sum_{i=1}^{N}\mathbb{E}_W[1-W_i] Y_i(0)}{N_c}=\frac{\sum_{i=1}^{N}(Y_i(1)-Y_i(0))}{N}=\tau_\mathrm{fs}$$

有限样本下群体效应的区间估计

方差的理论值

要求区间估计,显然求方差是重头戏。为此我们先整理我们所能拿到的一阶矩和二阶矩。注意到恒等式 $W_i^2=W_i$ ,这给后面许多计算带来了便利。

$$\mathbb{E}_W[W_i^2]=\mathbb{E}_W[W_i]=\frac{N_t}{N}\quad\mathbb{V}_W(W_i)=\mathbb{E}_W[W_i^2]-\mathbb{E}_W^2[W_i]=\frac{N_t}{N}\left(1-\frac{N_t}{N}\right)$$

$$\mathbb{E}[W_iW_j]=\mathbb{P}_W[W_i=1]\mathbb{P}[W_j=1\mid W_i=1]=\frac{N_t}{N}\frac{N_t-1}{N-1}\ (i\neq j)$$

一个很常见的技巧是构造一个期望为 $0$ 的随机变量来简化求方差的计算,这里我们构造 $D_i=W_i-\frac{N_t}{N}$ ,可以立刻写出其相关的性质

$$\mathbb{E}_W[D_i]=0\quad\mathbb{V}_W(D_i)=\mathbb{E}_W[D_i^2]=\frac{N_cN_t}{N^2}\quad \mathbb{E}[D_iD_j]=-\frac{N_cN_t}{N^2(N-1)}\ (i\neq j)$$

让我们重新整理 $\widehat{\tau}^\mathrm{dif}$

$$\begin{align}\widehat{\tau}^\mathrm{dif}&=\frac{1}{N_t}\sum_{i=1}^{N}W_iY_i(1)-\frac{1}{N_c}\sum_{i=1}^{N}(1-W_i)Y_i(0)\\&=\frac{1}{N}\sum_{i=1}^{N}\left(\frac{N}{N_t}W_iY_i(1)-\frac{N}{N_c}(1-W_i)Y_i(0)\right)\\&=\frac{1}{N}\sum_{i=1}^{N}\left(\frac{N}{N_t}\left(D_i+\frac{N_t}{N}\right)Y_i(1)-\frac{N}{N_c}\left(\frac{N_c}{N}-D_i\right)Y_i(0)\right)\\&=\frac{1}{N}\sum_{i=1}^{N}(Y_i(1)-Y_i(0))+\frac{1}{N}\sum_{i=1}^{N}D_i\left(\frac{N_t}{N}Y_i(1)+\frac{N_c}{N}Y_i(0)\right)\\&\overset{\Delta}{=}\tau_\mathrm{fs}+\sum_{i=1}^{N}D_i Y_i^+\end{align}$$

因为 $\mathbb{E}_W[D_i]=0$,这里也很明显看出无偏性。现考察方差

首先定义 $S_t^2=\frac{1}{N-1}\sum_{i=1}^{N}(Y_i(1)-\bar{Y}(1))^2,\,S_c^2=\frac{1}{N-1}\sum_{i=1}^{N}(Y_i(0)-\bar{Y}(0))^2$

$S_{tc}^2=\frac{1}{N-1}\sum_{i=1}^{N}(Y_i(1)-\bar{Y}(1)-(Y_i(0)-\bar{Y}(0)))^2=S_t^2+S_c^2-\frac{2}{N-1}\sum_{i=1}^{N}(Y_i(1)-\bar{Y}(1))(Y_i(0)-\bar{Y}(0))$

这三个量分别代表了样本中实验组、对照组以及组间效应的方差。注意,这些值也是不能直接观测到的。

可以证明,$\mathbb{V}_W[\widehat{\tau}^\mathrm{dif}]=\frac{S_t^2}{N_t}+\frac{S_c^2}{N_c}-\frac{S_{tc}^2}{N}$ ,证明在本小节的结尾。

这个结果看似怪异,但也并不奇怪。首先我们要估计的量为 $\tau_\mathrm{fs}=\bar{Y}(1)-\bar{Y}(0)$。因此我们首先需要估计 $\bar{Y}(1)$,而 $\bar{Y}_t^\mathrm{obs}$ 是一个无偏估计。而从 $N_t$ 个样本中得到的这一无偏估计的方差为 $(S_t^2/N_t)\cdot (1-N_t/N)$,其中除以 $N_t$ 是因为均值的方差是单点方差的 $1/N$,而后面那个因子则是对有限样本的一个修正。这里就贡献了 $S_t^2/N_t$ 这一项。第二项同理。第三项 $S_{tc}^2/N$ 则是个体间效应的方差。如果组间效应为常数,则这一项为零;否则 $S_{tc}^2>0$,而这较低了我们对 $\tau_\mathrm{fs}$ 估计的方差。

除此之外,$\widehat{\tau}^\mathrm{dif}$ 还有另一个有用的形式。首先我们记 $S_{tc}^2=S_c^2+S_t^2-2\rho_{tc}\cdot S_c\cdot S_t$,其中 $\rho_{tc}$ 就是直接定义出来的,刻画了实验组和对照组的相关系数。此时

$$\mathbb{V}_W[\widehat{\tau}^\mathrm{dif}]=\frac{N_t}{N\cdot N_c}S_c^2+\frac{N_c}{N\cdot N_t}S_t^2+\frac{2}{N}\cdot \rho_{tc}\cdot S_C\cdot S_t$$

当 $\rho_{tc}=-1$ 时方差最小。当 $\rho_{tc}=1$ 时方差最大,为 $$\frac{S_c^2}{N_c}+\frac{s_t^2}{N_t}-\frac{(S_c-S_t)^2}{N}$$

而最特殊的 $\rho_{tc}=1$ 的情况自然是 $Y_i(1)-Y_i(0)=\tau,\forall i=1,\ldots,N$ ,此时 $S_c^2=S_t^2$,则

$$\mathbb{V}^\mathrm{const}=\mathbb{V}_W[\widehat{\tau}^\mathrm{dif}\mid\rho_{tc}=1,S_c^2=S_t^2]=\frac{S_c^2}{N_c}+\frac{S_t^2}{N_t}$$

这其实可能有点反直觉——最大方差居然出现在组间效应为常数的情况。让我们考虑一个简单的例子来消除这一“反直觉”。假设只有两个样本,先考虑组间效应为常数的情况。

样本 $Y_i(0)$ $Y_i(1)$
1 10 10
2 -10 -10

我们计算 $\widehat{\tau}^\mathrm{dif}$,会发现要么是 $20$,如果 $W_1=1,W_2=0$,或者是 $-20$, 如果 $W_1=0,W_2=1$ ,方差很大

再考虑一个 $\tau_{tc}=-1$ 的例子,只需将 $Y_1(0)$ 和 $Y_2(0)$ 交换,可以算得此时方差为零。

下面给出方差的计算

$$\begin{align}\mathbb{V}_W[\widehat{\tau}^\mathrm{dif}]&=\frac{1}{N^2}\mathbb{E}_W[(\sum_{i=1}^{N}D_iY_i^+)^2]\\&=\frac{1}{N^2}\left\{\sum_{i=1}^{N}(Y_i^+)^2\frac{N_c\cdot N_t}{N^2}-\sum_{i=1}^{N}\sum_{j\neq i}Y_i^+Y_j^+\frac{N_c\cdot N_t}{N^2(N-1)}\right\}\\&=\frac{N_c\cdot N_t}{N^4(N-1)}\left\{(N-1)\sum_{i=1}^{N}(Y_i^+)^2-\sum_{i=1}^{N}\sum_{j\neq i}Y_i^+Y_j^+\right\}\\&=\frac{N_c\cdot N_t}{N^4(N-1)}\left\{N\sum_{i=1}^{N}(Y_i^+)^2-\sum_{i=1}^{N}\sum_{j =1}^NY_i^+Y_j^+\right\}\\&=\frac{N_t\cdot N_c}{N^4(N-1)}N\sum_{i=1}^{N}\Big(Y_i^+-\overline{Y^+}\Big)^2\\&=\frac{N_c\cdot N_t}{N^3(N-1)}\sum_{i=1}^{N}\left[\frac{N}{N_t}Y_i(1)+\frac{N}{N_c}Y_i(0)-\frac{N}{N_t}\bar{Y}(1)-\frac{N}{N_c}\bar{Y}(0)\right]\\&=\frac{N_t\cdot N_c}{N^3(N-1)}\sum_{i=1}^{N}\left(\frac{N}{N_t}Y_i(1)-\frac{N}{N_t}\bar{Y}(1)\right)^2\\&\quad+\frac{N_t\cdot N_c}{N^3(N-1)}\sum_{i=1}^{N}\left(\frac{N}{N_c}Y_i(0)-\frac{N}{N_c}\bar{Y}(0)\right)^2\\&\quad+\frac{2\cdot N_t\cdot N_c}{N^3(N-1)}\sum_{i=1}^{N}\left(\frac{N}{N_t}Y_i(1)-\frac{N}{N_t}\bar{Y}(1)\right)\left(\frac{N}{N_c}Y_i(0)-\frac{N}{N_c}\bar{Y}(0)\right)\\&=\frac{N_c}{N\cdot N_t}S_t^2+\frac{N_t}{N\cdot N_c}S_c^2+\frac{1}{N}(S_t^2+S_c^2-S_{tc}^2)\\&=\frac{S_t^2}{N_t}+\frac{S_c^2}{N_c}-\frac{S_{tc}^2}{N}\end{align}$$

方差的估计

记住,$S_c^2,\,S_t^2,\,S_{tc}^2$ 我们都无法直接得到。所幸,我们可以直接得到前两个的无偏估计

$$s_c^2=\frac{1}{N_c-1}\sum\limits_{i:W_i=0}(Y_i^\mathrm{obs}-\bar{Y}_t^\mathrm{obs})^2,\,s_t^2=\frac{1}{N_t-1}\sum\limits_{i:W_i=1}(Y_i^\mathrm{obs}-\bar{Y}_t^\mathrm{obs})^2$$

无偏性的证明在本小节的末尾。

不幸的是,我们不太可能得到 $S_{tc}^2$ 的一个估计,因为我们无法同时观测到 $Y_i(0)$ 和 $Y_i(1)$ 。不幸中的万幸是,如果组间效应是个常数,这一项就为零了,所以此时我们能够得到一个无偏估计

$$\widehat{\mathbb{V}}^{\mathrm{neyman}}=\frac{s_c^2}{N_c}+\frac{s_t^2}{N_t}$$

读者可能会对这样一个设定感到不满意——我们为了消除没法计算的项就强行将他设为零。但事实上设为零后方差只会更大,也就是说我们给出的是方差的一个上界。那么至少在构造置信区间的时候,这么做是没有任何问题的。

但我们不满足于此,因为他给出了一个严格的上界。然而在 Neyman 的实验中,通常样本量都会足够大,我们构造的置信区间也是依赖于大样本的渐进正态性。因此其实我们可以改进一下这个上界。下面给出了两个可以选择的估计。

其中一个为 $$\widehat{\mathbb{V}}^{\rho_{tc}}=s_c^2\frac{N_t}{N\cdot N_c}+s_t^2\frac{N_c}{N\cdot N_t}+\rho_{tc}\cdot s_c\cdot s_t\cdot \frac{2}{N}$$

同样其上界出现在 $\rho_{tc}=1$ 处,为 $$\frac{s_c^2}{N_c}+\frac{s_t^2}{N_t}-\frac{(s_t-s_c)^2}{N}\leq\frac{s_c^2}{N_c}+\frac{s_t^2}{N_t}$$

因此其是 $\widehat{\mathbb{V}}^{\mathrm{neyman}}$ 的一个改进。但当我们没有更多信息的时候,我们不能将 $\rho_{tc}$ 取得更小,这里的改进基本到头了。

另一个则是当组间效应为常数,则 $S^2\equiv S_t^2\equiv S_c^2$ 的时候采用的,即 $\widehat{\mathbb{V}}^\mathrm{const}=s^2(1/N_c+1/N_t)$ 其中$s^2=\frac{1}{N-2}(s_c^2(N_c-1)+s_t^2(N_t-1))$

此时这一估计比上两个更好。但当组间效应不是常数时,此估计给出的置信区间可能是失效的。

事实上,绝大多数情况下三者算出来的结果只有细微的差别,因此无需在此过多的纠结。

下面给出无偏性的证明,首先

$$s_t^2=\frac{1}{N_t-1}\sum_{i=1}^{N}W_i(Y_i(1)-\bar{Y}_t^\mathrm{obs})^2=\frac{1}{N_t-1}\sum_{i=1}^{N}W_iY_i(1)^2\ -\frac{N_t}{N_t-1}(\bar{Y}_t^\mathrm{obs})^2$$

$$\mathbb{E}\left[\frac{1}{N_t-1}\sum_{i=1}^{N}W_iY_i^2(1)\right]=\frac{1}{N_t-1}\frac{N_t}{N}\sum_{i=1}^{N}Y_i^2(1)$$

同样的,使用 $D_i=W_i-N_t/N$,代入第二项的第二个因子得

\begin{align}\mathbb{E}[(\bar{Y}_t^\mathrm{obs})^2]&=\mathbb{E}\left[\frac{1}{N_t^2}\sum_{i=1}^{N}\sum_{j=1}^{N}W_iW_jY_i^\mathrm{obs}Y_j^\mathrm{obs}\right]\\&=\frac{1}{N_t^2}\mathbb{E}\left[\sum_{i=1}^{N}\sum_{j=1}^{N}\left(D_i+\frac{N_t}{N}\right)\left(D_j+\frac{N_t}{N}\right)Y_i(1)Y_j(1)\right]\\&=\frac{1}{N_t^2}\sum_{i=1}^{N}\sum_{j=1}^{J}\mathbb{E}[D_iD_j]Y_i(1)Y_j(1)+\frac{1}{N^2}\sum_{i=1}^{N}\sum_{j=1}^{N}Y_i(1)Y_j(1)\\&=\frac{1}{N_t^2}\sum_{i=1}^{N}\left(\frac{N_cN_t}{N^2}+\frac{N_cN_t}{N^2\cdot(N-1)}\right)Y^2_i(1)+\left(\frac{1}{N_t^2}\frac{-N_cN_t}{N^2\cdot(N-1)}+\frac{1}{N^2}\right)\sum_{i=1}^{N}\sum_{j=1}^{N}Y_i(1)Y_j(1)\\&=\frac{N_c}{N\cdot (N-1)\cdot N_t}\sum_{i=1}^{N}Y_i^2(1)+\frac{N_t-1}{N\cdot(N-1)\cdot N_t}\left(\sum_{i=1}^{N}Y_i(1)\right)^2\end{align}

因此

$$\begin{align}\mathbb{E}[s_t^2]&=\frac{N_t}{N\cdot(N_t-1)}\sum_{i=1}^{N}Y_i^2(1)-\frac{N_c}{N\cdot(N-1)\cdot(N_t-1)}\sum_{i=1}^{N}Y_i^2(1)-\frac{1}{N\cdot(N-1)}\left(\sum_{i=1}^{N}Y_i(1)\right)^2\\&=\frac{1}{N-1}\sum_{i=1}^{N}Y_i^2(1)-\frac{1}{N\cdot (N-1)}\left(\sum_{i=1}^{N}Y_i(1)\right)^2\\&=\frac{1}{N-1}\sum_{i=1}^{N}\Big((Y_i(1)-\bar{Y}(1)\Big)^2=S_t^2\end{align}$$

构造置信区间与检验

显然,$\mathrm{CI}^{1-\alpha}(\tau_{\mathrm{fs}})=(\widehat{\tau}^\mathrm{dif}+z_{\alpha /2}\sqrt{\widehat{\mathbb{V}}},\widehat{\tau}^\mathrm{dif}+z_{1-\alpha /2}\sqrt{\widehat{\mathbb{V}}})$ 即可构造出置信区间

而 $t=\frac{\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}}{\sqrt{\widehat{\mathbb{V}}}}$ 然后使用正态分布来检验也是可以的

对比之前的 Fisher 精确检验,Neyman 的方法有两点不同。首先自然是原假设的不同:Fisher 采用了一个更加强的假设:所有样本的组间效应都是零,而 Neyman 只要求平均效应为零。其次就是检验方式的不同:Fisher 可以“精确”地算出 Fisher exact P value,而 Neyman的检验依赖于大样本的渐进正态性,因为它使用了两次近似:一次时用 $\widehat{\mathbb{V}}$ 估计 $\mathbb{V}_W(\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs})$ ,另一次则是假设了 $\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}$ 在重复抽样中服从正态分布。

总体组间效应的推断

现在我们将 $N$ 个样本视为从总体的一次随机抽样的结果,或者说每个样本的潜在结果对都是服从某一个分布的,因此他们自身也带有着随机性。我们使用 sp 代表 super-population 来和之前的 fs 区分开来。

$$\tau_\mathrm{fs}=\frac{1}{N}\sum\limits_{i=1}^{N}(Y_i(1)-Y_i(0))\quad\tau_\mathrm{sp}=\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)]$$

$$\mathbb{E}_\mathrm{sp}[\tau_\mathrm{fs}]=\frac{1}{N}\sum\limits_{i=1}^{N}\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)]=\tau_\mathrm{sp}$$

$$\sigma_c^2=\mathbb{V}_\mathrm{sp}[Y_i(0)]=\mathbb{E}_\mathrm{sp}\bigg[\Big(Y_i(0)-\mathbb{E}_\mathrm{sp}[Y_i(0)]\Big)^2\bigg],\quad \sigma_t^2=\mathbb{V}_\mathrm{sp}[Y_i(1)]=\mathbb{E}_\mathrm{sp}\bigg[\Big(Y_i(1)-\mathbb{E}_\mathrm{sp}[Y_i(1)]\Big)^2\bigg]$$

$$\sigma_{tc}^2=\mathbb{V}_\mathrm{sp}(Y_i(1)-Y_i(0))=\mathbb{E}_\mathrm{sp}\bigg[\Big(Y_i(0)-Y_i(0)-\tau_\mathrm{sp}]\Big)^2\bigg]$$

$$\mathbb{V}_\mathrm{sp}[\tau_\mathrm{fs}]=\mathbb{V}_\mathrm{sp}[\bar{Y}(1)-\bar{Y}(0)]=\sigma_{tc}^2/N$$

那我们上面求得的估计量 $\widehat{\tau}^\mathrm{dif}$ 的方差又会是多少呢,我们有

$$\mathbb{V}_\mathrm{sp}[\widehat{\tau}^\mathrm{dif}]=\frac{\sigma_c^2}{N_c}+\frac{\sigma_t^2}{N_t}\ \Rightarrow\ \widehat{\mathbb{V}}_\mathrm{sp}[\widehat{\tau}^\mathrm{dif}]=\frac{s_c^2}{N_c}+\frac{s_t^2}{N_t}=\widehat{\mathbb{V}}^\mathrm{neyman}$$

因此,尽管 $\widehat{\mathbb{V}}^\mathrm{const}$ 在方差相等时估计得更好,$\widehat{\mathbb{V}}^\mathrm{\rho_{tc}=1}对 $\mathbb{V}_\mathrm{fs}[\widehat{\tau}^\mathrm{dif}]$ 是更精细的估计,通常我们还是使用 $\widehat{\mathbb{V}}^\mathrm{neyman}$,因为一方面它们的差别并不太大,另一方面$\widehat{\mathbb{V}}^\mathrm{neyman}$ 是总体样本下组间差距的方差的一个无偏估计。

其证明可以直接使用全方差公式

$$\begin{align}\mathbb{V}_\mathrm{sp}[\widehat{\tau}^\mathrm{dif}]&=\mathbb{E}_\mathrm{sp}[\mathbb{V}_\mathrm{fs}[\widehat{\tau}^\mathrm{dif}]]+\mathbb{V}_\mathrm{sp}[\mathbb{E}_\mathrm{fs}[\widehat{\tau}^\mathrm{dif}]]\\&=\mathbb{E}_\mathrm{sp}\left[\frac{S_c^2}{N_c}+\frac{S_t^2}{N_t}-\frac{S_{tc}^2}{N}\right]+\mathbb{V}_\mathrm{sp}[\tau_\mathrm{fs}]\\&=\frac{\sigma_c^2}{N_c}+\frac{\sigma_t^2}{N_t}-\frac{\sigma_{tc}^2}{N}+\frac{\sigma_{tc}^2}{N}=\frac{\sigma_c^2}{N_c}+\frac{\sigma_t^2}{N_t}\end{align}$$

也可以使用经典的拆分平方的方法

$$\begin{align}\mathbb{V}_\mathrm{sp}[\widehat{\tau}^\mathrm{dif}]&=\mathbb{E}_\mathrm{sp}\bigg[\left(\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}-\mathbb{E}_\mathrm{sp}[\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}]\right)^2\bigg]\\&=\mathbb{E}_\mathrm{sp}\bigg[\left(\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}-\mathbb{E}_\mathrm{sp}[\bar{Y}(1)-\bar{Y}(0)]\right)^2\bigg]\\&=\mathbb{E}_\mathrm{sp}\bigg[\left(\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}-(\bar{Y}(1)-\bar{Y}(0))+(\bar{Y}(1)-\bar{Y}(0))-\mathbb{E}_\mathrm{sp}[\bar{Y}(1)-\bar{Y}(0)]\right)^2\bigg]\\&=\mathbb{E}_\mathrm{sp}\bigg[\left(\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}-(\bar{Y}(1)-\bar{Y}(0))\right)^2\bigg]+\mathbb{E}_\mathrm{sp}\bigg[\left(\bar{Y}(1)-\bar{Y}(0)-\mathbb{E}_\mathrm{sp}[\bar{Y}(1)-\bar{Y}(0)]\right)^2\bigg]\\&\quad+2\mathbb{E}_\mathrm{sp}\bigg[\left(\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}-(\bar{Y}(1)-\bar{Y}(0))\right)\cdot\Big(\bar{Y}(1)-\bar{Y}(0)-\mathbb{E}_\mathrm{sp}[\bar{Y}(1)-\bar{Y}(0)]\Big)\bigg]\\&=\left(\frac{\sigma_c^2}{N_c}+\frac{\sigma_t^2}{N_t}-\frac{\sigma_{tc}^2}{N}\right)+\frac{1}{N}\mathbb{E}_\mathrm{sp}[(Y_i(1)-Y_i(0)-\tau_\mathrm{sp})^2]+0\\&=\frac{\sigma_c^2}{N_c}+\frac{\sigma_t^2}{N_t}-\frac{\sigma_{tc}^2}{N}+\frac{\sigma_{tc}^2}{N}=\frac{\sigma_c^2}{N_c}+\frac{\sigma_t^2}{N_t}\end{align}$$

原书中的附录则是考虑从 $N_R$ 大小的样本中采样出 $N$ 个样本推演出结果,其中使用指示变量 $R_i$ 标记被采样的结果(类似于 $W_i$的作用)。再将 $N_R\rightarrow\infty$ 得到相同的结论。如果读者对这一过程感兴趣也可以查阅原书的证明。