上节提到了 Fisher的精确检验中出现的局限性。与 Fisher 著重于每个个体的效应相比,Neyman更关心群体上的平均效应,并给出了相应的点估计和区间估计。其核心思想是,在上一节 Fisher认为随机性完全由分配 \(\mathbf{W}\) 引入之上,还加入了从总体中重复采样带来的随机性。这可以说是二者最本质的差别。

群体效应的无偏点估计

我们关心的量为

\[\tau_{\mathrm{fs}}=\frac{1}{N}\sum\limits_{i=1}^{N}(Y_i(1)-Y_i(0))\overset{\Delta}{=}\bar{Y}(1)-\bar{Y}(0)\]

其中 fs 为 finite sample的缩写。

一个直观的估计自然是使用我们所能观测到的数据代替 \(\bar{Y}(1)\)\(\bar{Y}(0)\),即

\[\widehat{\tau}^{\mathrm{dif}}=\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}\]

直观上他应该是无偏的,因为我们的分配时随机的,事实上可以很容易的证明

首先 \[\mathbb{P}_W[W_i=1\mid \mathbf{Y}_0,\mathbf{Y}_1]=\mathbb{E}_W[W_i=1\mid \mathbf{Y}_0,\mathbf{Y}_1]=N_t/N\]

\[\widehat{\tau}^{\mathrm{dif}}=\frac{\sum_{i=1}^{N}W_i Y_i(1)}{N_t}-\frac{\sum_{i=1}^{N}(1-W_i) Y_i(0)}{N_c}\]

因此 \[\mathbb{E}_W[\widehat{\tau}^{\mathrm{dif}}\mid\mathbf{Y}(0),\mathbf{Y}(1)]=\frac{\sum_{i=1}^{N}\mathbb{E}_W[W_i] Y_i(1)}{N_t}-\frac{\sum_{i=1}^{N}\mathbb{E}_W[1-W_i] Y_i(0)}{N_c}=\frac{\sum_{i=1}^{N}(Y_i(1)-Y_i(0))}{N}=\tau_\mathrm{fs}\]

有限样本下群体效应的区间估计

方差的理论值

要求区间估计,显然求方差是重头戏。为此我们先整理我们所能拿到的一阶矩和二阶矩。注意到恒等式 \(W_i^2=W_i\) ,这给后面许多计算带来了便利。

\[\mathbb{E}_W[W_i^2]=\mathbb{E}_W[W_i]=\frac{N_t}{N}\quad\mathbb{V}_W(W_i)=\mathbb{E}_W[W_i^2]-\mathbb{E}_W^2[W_i]=\frac{N_t}{N}\left(1-\frac{N_t}{N}\right)\]

\[\mathbb{E}[W_iW_j]=\mathbb{P}_W[W_i=1]\mathbb{P}[W_j=1\mid W_i=1]=\frac{N_t}{N}\frac{N_t-1}{N-1}\ (i\neq j)\]

一个很常见的技巧是构造一个期望为 \(0\) 的随机变量来简化求方差的计算,这里我们构造 \(D_i=W_i-\frac{N_t}{N}\) ,可以立刻写出其相关的性质

\[\mathbb{E}_W[D_i]=0\quad\mathbb{V}_W(D_i)=\mathbb{E}_W[D_i^2]=\frac{N_cN_t}{N^2}\quad \mathbb{E}[D_iD_j]=-\frac{N_cN_t}{N^2(N-1)}\ (i\neq j)\]

让我们重新整理 \(\widehat{\tau}^\mathrm{dif}\)

\[\begin{align}\widehat{\tau}^\mathrm{dif}&=\frac{1}{N_t}\sum_{i=1}^{N}W_iY_i(1)-\frac{1}{N_c}\sum_{i=1}^{N}(1-W_i)Y_i(0)\\&=\frac{1}{N}\sum_{i=1}^{N}\left(\frac{N}{N_t}W_iY_i(1)-\frac{N}{N_c}(1-W_i)Y_i(0)\right)\\&=\frac{1}{N}\sum_{i=1}^{N}\left(\frac{N}{N_t}\left(D_i+\frac{N_t}{N}\right)Y_i(1)-\frac{N}{N_c}\left(\frac{N_c}{N}-D_i\right)Y_i(0)\right)\\&=\frac{1}{N}\sum_{i=1}^{N}(Y_i(1)-Y_i(0))+\frac{1}{N}\sum_{i=1}^{N}D_i\left(\frac{N_t}{N}Y_i(1)+\frac{N_c}{N}Y_i(0)\right)\\&\overset{\Delta}{=}\tau_\mathrm{fs}+\sum_{i=1}^{N}D_i Y_i^+\end{align}\]

因为 \(\mathbb{E}_W[D_i]=0\),这里也很明显看出无偏性。现考察方差

首先定义 \(S_t^2=\frac{1}{N-1}\sum_{i=1}^{N}(Y_i(1)-\bar{Y}(1))^2,\,S_c^2=\frac{1}{N-1}\sum_{i=1}^{N}(Y_i(0)-\bar{Y}(0))^2\)

\(S_{tc}^2=\frac{1}{N-1}\sum_{i=1}^{N}(Y_i(1)-\bar{Y}(1)-(Y_i(0)-\bar{Y}(0)))^2=S_t^2+S_c^2-\frac{2}{N-1}\sum_{i=1}^{N}(Y_i(1)-\bar{Y}(1))(Y_i(0)-\bar{Y}(0))\)

这三个量分别代表了样本中实验组、对照组以及组间效应的方差。注意,这些值也是不能直接观测到的。

可以证明,\(\mathbb{V}_W[\widehat{\tau}^\mathrm{dif}]=\frac{S_t^2}{N_t}+\frac{S_c^2}{N_c}-\frac{S_{tc}^2}{N}\) ,证明在本小节的结尾。

这个结果看似怪异,但也并不奇怪。首先我们要估计的量为 \(\tau_\mathrm{fs}=\bar{Y}(1)-\bar{Y}(0)\)。因此我们首先需要估计 \(\bar{Y}(1)\),而 \(\bar{Y}_t^\mathrm{obs}\) 是一个无偏估计。而从 \(N_t\) 个样本中得到的这一无偏估计的方差为 \((S_t^2/N_t)\cdot (1-N_t/N)\),其中除以 \(N_t\) 是因为均值的方差是单点方差的 \(1/N\),而后面那个因子则是对有限样本的一个修正。这里就贡献了 \(S_t^2/N_t\) 这一项。第二项同理。第三项 \(S_{tc}^2/N\) 则是个体间效应的方差。如果组间效应为常数,则这一项为零;否则 \(S_{tc}^2>0\),而这较低了我们对 \(\tau_\mathrm{fs}\) 估计的方差。

除此之外,\(\widehat{\tau}^\mathrm{dif}\) 还有另一个有用的形式。首先我们记 \(S_{tc}^2=S_c^2+S_t^2-2\rho_{tc}\cdot S_c\cdot S_t\),其中 \(\rho_{tc}\) 就是直接定义出来的,刻画了实验组和对照组的相关系数。此时

\[\mathbb{V}_W[\widehat{\tau}^\mathrm{dif}]=\frac{N_t}{N\cdot N_c}S_c^2+\frac{N_c}{N\cdot N_t}S_t^2+\frac{2}{N}\cdot \rho_{tc}\cdot S_C\cdot S_t\]

\(\rho_{tc}=-1\) 时方差最小。当 \(\rho_{tc}=1\) 时方差最大,为 \[\frac{S_c^2}{N_c}+\frac{s_t^2}{N_t}-\frac{(S_c-S_t)^2}{N}\]

而最特殊的 \(\rho_{tc}=1\) 的情况自然是 \(Y_i(1)-Y_i(0)=\tau,\forall i=1,\ldots,N\) ,此时 \(S_c^2=S_t^2\),则

\[\mathbb{V}^\mathrm{const}=\mathbb{V}_W[\widehat{\tau}^\mathrm{dif}\mid\rho_{tc}=1,S_c^2=S_t^2]=\frac{S_c^2}{N_c}+\frac{S_t^2}{N_t}\]

这其实可能有点反直觉——最大方差居然出现在组间效应为常数的情况。让我们考虑一个简单的例子来消除这一“反直觉”。假设只有两个样本,先考虑组间效应为常数的情况。

样本 \(Y_i(0)\) \(Y_i(1)\)
1 10 10
2 -10 -10

我们计算 \(\widehat{\tau}^\mathrm{dif}\),会发现要么是 \(20\),如果 \(W_1=1,W_2=0\),或者是 \(-20\), 如果 \(W_1=0,W_2=1\) ,方差很大

再考虑一个 \(\tau_{tc}=-1\) 的例子,只需将 \(Y_1(0)\)\(Y_2(0)\) 交换,可以算得此时方差为零。

下面给出方差的计算

\[\begin{align}\mathbb{V}_W[\widehat{\tau}^\mathrm{dif}]&=\frac{1}{N^2}\mathbb{E}_W[(\sum_{i=1}^{N}D_iY_i^+)^2]\\&=\frac{1}{N^2}\left\{\sum_{i=1}^{N}(Y_i^+)^2\frac{N_c\cdot N_t}{N^2}-\sum_{i=1}^{N}\sum_{j\neq i}Y_i^+Y_j^+\frac{N_c\cdot N_t}{N^2(N-1)}\right\}\\&=\frac{N_c\cdot N_t}{N^4(N-1)}\left\{(N-1)\sum_{i=1}^{N}(Y_i^+)^2-\sum_{i=1}^{N}\sum_{j\neq i}Y_i^+Y_j^+\right\}\\&=\frac{N_c\cdot N_t}{N^4(N-1)}\left\{N\sum_{i=1}^{N}(Y_i^+)^2-\sum_{i=1}^{N}\sum_{j =1}^NY_i^+Y_j^+\right\}\\&=\frac{N_t\cdot N_c}{N^4(N-1)}N\sum_{i=1}^{N}\Big(Y_i^+-\overline{Y^+}\Big)^2\\&=\frac{N_c\cdot N_t}{N^3(N-1)}\sum_{i=1}^{N}\left[\frac{N}{N_t}Y_i(1)+\frac{N}{N_c}Y_i(0)-\frac{N}{N_t}\bar{Y}(1)-\frac{N}{N_c}\bar{Y}(0)\right]\\&=\frac{N_t\cdot N_c}{N^3(N-1)}\sum_{i=1}^{N}\left(\frac{N}{N_t}Y_i(1)-\frac{N}{N_t}\bar{Y}(1)\right)^2\\&\quad+\frac{N_t\cdot N_c}{N^3(N-1)}\sum_{i=1}^{N}\left(\frac{N}{N_c}Y_i(0)-\frac{N}{N_c}\bar{Y}(0)\right)^2\\&\quad+\frac{2\cdot N_t\cdot N_c}{N^3(N-1)}\sum_{i=1}^{N}\left(\frac{N}{N_t}Y_i(1)-\frac{N}{N_t}\bar{Y}(1)\right)\left(\frac{N}{N_c}Y_i(0)-\frac{N}{N_c}\bar{Y}(0)\right)\\&=\frac{N_c}{N\cdot N_t}S_t^2+\frac{N_t}{N\cdot N_c}S_c^2+\frac{1}{N}(S_t^2+S_c^2-S_{tc}^2)\\&=\frac{S_t^2}{N_t}+\frac{S_c^2}{N_c}-\frac{S_{tc}^2}{N}\end{align}\]

方差的估计

记住,\(S_c^2,\,S_t^2,\,S_{tc}^2\) 我们都无法直接得到。所幸,我们可以直接得到前两个的无偏估计

\[s_c^2=\frac{1}{N_c-1}\sum\limits_{i:W_i=0}(Y_i^\mathrm{obs}-\bar{Y}_t^\mathrm{obs})^2,\,s_t^2=\frac{1}{N_t-1}\sum\limits_{i:W_i=1}(Y_i^\mathrm{obs}-\bar{Y}_t^\mathrm{obs})^2\]

无偏性的证明在本小节的末尾。

不幸的是,我们不太可能得到 \(S_{tc}^2\) 的一个估计,因为我们无法同时观测到 \(Y_i(0)\)\(Y_i(1)\) 。不幸中的万幸是,如果组间效应是个常数,这一项就为零了,所以此时我们能够得到一个无偏估计

\[\widehat{\mathbb{V}}^{\mathrm{neyman}}=\frac{s_c^2}{N_c}+\frac{s_t^2}{N_t}\]

读者可能会对这样一个设定感到不满意——我们为了消除没法计算的项就强行将他设为零。但事实上设为零后方差只会更大,也就是说我们给出的是方差的一个上界。那么至少在构造置信区间的时候,这么做是没有任何问题的。

但我们不满足于此,因为他给出了一个严格的上界。然而在 Neyman 的实验中,通常样本量都会足够大,我们构造的置信区间也是依赖于大样本的渐进正态性。因此其实我们可以改进一下这个上界。下面给出了两个可以选择的估计。

其中一个为 \[\widehat{\mathbb{V}}^{\rho_{tc}}=s_c^2\frac{N_t}{N\cdot N_c}+s_t^2\frac{N_c}{N\cdot N_t}+\rho_{tc}\cdot s_c\cdot s_t\cdot \frac{2}{N}\]

同样其上界出现在 \(\rho_{tc}=1\) 处,为 \[\frac{s_c^2}{N_c}+\frac{s_t^2}{N_t}-\frac{(s_t-s_c)^2}{N}\leq\frac{s_c^2}{N_c}+\frac{s_t^2}{N_t}\]

因此其是 \(\widehat{\mathbb{V}}^{\mathrm{neyman}}\) 的一个改进。但当我们没有更多信息的时候,我们不能将 \(\rho_{tc}\) 取得更小,这里的改进基本到头了。

另一个则是当组间效应为常数,则 \(S^2\equiv S_t^2\equiv S_c^2\) 的时候采用的,即 \(\widehat{\mathbb{V}}^\mathrm{const}=s^2(1/N_c+1/N_t)\) 其中\(s^2=\frac{1}{N-2}(s_c^2(N_c-1)+s_t^2(N_t-1))\)

此时这一估计比上两个更好。但当组间效应不是常数时,此估计给出的置信区间可能是失效的。

事实上,绝大多数情况下三者算出来的结果只有细微的差别,因此无需在此过多的纠结。

下面给出无偏性的证明,首先

\[s_t^2=\frac{1}{N_t-1}\sum_{i=1}^{N}W_i(Y_i(1)-\bar{Y}_t^\mathrm{obs})^2=\frac{1}{N_t-1}\sum_{i=1}^{N}W_iY_i(1)^2\ -\frac{N_t}{N_t-1}(\bar{Y}_t^\mathrm{obs})^2\]

\[\mathbb{E}\left[\frac{1}{N_t-1}\sum_{i=1}^{N}W_iY_i^2(1)\right]=\frac{1}{N_t-1}\frac{N_t}{N}\sum_{i=1}^{N}Y_i^2(1)\]

同样的,使用 \(D_i=W_i-N_t/N\),代入第二项的第二个因子得

\[\begin{align}\mathbb{E}[(\bar{Y}_t^\mathrm{obs})^2]&=\mathbb{E}\left[\frac{1}{N_t^2}\sum_{i=1}^{N}\sum_{j=1}^{N}W_iW_jY_i^\mathrm{obs}Y_j^\mathrm{obs}\right]\\&=\frac{1}{N_t^2}\mathbb{E}\left[\sum_{i=1}^{N}\sum_{j=1}^{N}\left(D_i+\frac{N_t}{N}\right)\left(D_j+\frac{N_t}{N}\right)Y_i(1)Y_j(1)\right]\\&=\frac{1}{N_t^2}\sum_{i=1}^{N}\sum_{j=1}^{J}\mathbb{E}[D_iD_j]Y_i(1)Y_j(1)+\frac{1}{N^2}\sum_{i=1}^{N}\sum_{j=1}^{N}Y_i(1)Y_j(1)\\&=\frac{1}{N_t^2}\sum_{i=1}^{N}\left(\frac{N_cN_t}{N^2}+\frac{N_cN_t}{N^2\cdot(N-1)}\right)Y^2_i(1)+\left(\frac{1}{N_t^2}\frac{-N_cN_t}{N^2\cdot(N-1)}+\frac{1}{N^2}\right)\sum_{i=1}^{N}\sum_{j=1}^{N}Y_i(1)Y_j(1)\\&=\frac{N_c}{N\cdot (N-1)\cdot N_t}\sum_{i=1}^{N}Y_i^2(1)+\frac{N_t-1}{N\cdot(N-1)\cdot N_t}\left(\sum_{i=1}^{N}Y_i(1)\right)^2\end{align}\]

因此

\[\begin{align}\mathbb{E}[s_t^2]&=\frac{N_t}{N\cdot(N_t-1)}\sum_{i=1}^{N}Y_i^2(1)-\frac{N_c}{N\cdot(N-1)\cdot(N_t-1)}\sum_{i=1}^{N}Y_i^2(1)-\frac{1}{N\cdot(N-1)}\left(\sum_{i=1}^{N}Y_i(1)\right)^2\\&=\frac{1}{N-1}\sum_{i=1}^{N}Y_i^2(1)-\frac{1}{N\cdot (N-1)}\left(\sum_{i=1}^{N}Y_i(1)\right)^2\\&=\frac{1}{N-1}\sum_{i=1}^{N}\Big((Y_i(1)-\bar{Y}(1)\Big)^2=S_t^2\end{align}\]

构造置信区间与检验

显然,\(\mathrm{CI}^{1-\alpha}(\tau_{\mathrm{fs}})=(\widehat{\tau}^\mathrm{dif}+z_{\alpha /2}\sqrt{\widehat{\mathbb{V}}},\widehat{\tau}^\mathrm{dif}+z_{1-\alpha /2}\sqrt{\widehat{\mathbb{V}}})\) 即可构造出置信区间

\(t=\frac{\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}}{\sqrt{\widehat{\mathbb{V}}}}\) 然后使用正态分布来检验也是可以的

对比之前的 Fisher 精确检验,Neyman 的方法有两点不同。首先自然是原假设的不同:Fisher 采用了一个更加强的假设:所有样本的组间效应都是零,而 Neyman 只要求平均效应为零。其次就是检验方式的不同:Fisher 可以“精确”地算出 Fisher exact P value,而 Neyman的检验依赖于大样本的渐进正态性,因为它使用了两次近似:一次时用 \(\widehat{\mathbb{V}}\) 估计 \(\mathbb{V}_W(\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs})\) ,另一次则是假设了 \(\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}\) 在重复抽样中服从正态分布。

总体组间效应的推断

现在我们将 \(N\) 个样本视为从总体的一次随机抽样的结果,或者说每个样本的潜在结果对都是服从某一个分布的,因此他们自身也带有着随机性。我们使用 sp 代表 super-population 来和之前的 fs 区分开来。

\[\tau_\mathrm{fs}=\frac{1}{N}\sum\limits_{i=1}^{N}(Y_i(1)-Y_i(0))\quad\tau_\mathrm{sp}=\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)]\]

\[\mathbb{E}_\mathrm{sp}[\tau_\mathrm{fs}]=\frac{1}{N}\sum\limits_{i=1}^{N}\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)]=\tau_\mathrm{sp}\]

\[\sigma_c^2=\mathbb{V}_\mathrm{sp}[Y_i(0)]=\mathbb{E}_\mathrm{sp}\bigg[\Big(Y_i(0)-\mathbb{E}_\mathrm{sp}[Y_i(0)]\Big)^2\bigg],\quad \sigma_t^2=\mathbb{V}_\mathrm{sp}[Y_i(1)]=\mathbb{E}_\mathrm{sp}\bigg[\Big(Y_i(1)-\mathbb{E}_\mathrm{sp}[Y_i(1)]\Big)^2\bigg]\]

\[\sigma_{tc}^2=\mathbb{V}_\mathrm{sp}(Y_i(1)-Y_i(0))=\mathbb{E}_\mathrm{sp}\bigg[\Big(Y_i(0)-Y_i(0)-\tau_\mathrm{sp}]\Big)^2\bigg]\]

\[\mathbb{V}_\mathrm{sp}[\tau_\mathrm{fs}]=\mathbb{V}_\mathrm{sp}[\bar{Y}(1)-\bar{Y}(0)]=\sigma_{tc}^2/N\]

那我们上面求得的估计量 \(\widehat{\tau}^\mathrm{dif}\) 的方差又会是多少呢,我们有

\[\mathbb{V}_\mathrm{sp}[\widehat{\tau}^\mathrm{dif}]=\frac{\sigma_c^2}{N_c}+\frac{\sigma_t^2}{N_t}\ \Rightarrow\ \widehat{\mathbb{V}}_\mathrm{sp}[\widehat{\tau}^\mathrm{dif}]=\frac{s_c^2}{N_c}+\frac{s_t^2}{N_t}=\widehat{\mathbb{V}}^\mathrm{neyman}\]

因此,尽管 \(\widehat{\mathbb{V}}^\mathrm{const}\) 在方差相等时估计得更好,$^对 \(\mathbb{V}_\mathrm{fs}[\widehat{\tau}^\mathrm{dif}]\) 是更精细的估计,通常我们还是使用 \(\widehat{\mathbb{V}}^\mathrm{neyman}\),因为一方面它们的差别并不太大,另一方面\(\widehat{\mathbb{V}}^\mathrm{neyman}\) 是总体样本下组间差距的方差的一个无偏估计。

其证明可以直接使用全方差公式

\[\begin{align}\mathbb{V}_\mathrm{sp}[\widehat{\tau}^\mathrm{dif}]&=\mathbb{E}_\mathrm{sp}[\mathbb{V}_\mathrm{fs}[\widehat{\tau}^\mathrm{dif}]]+\mathbb{V}_\mathrm{sp}[\mathbb{E}_\mathrm{fs}[\widehat{\tau}^\mathrm{dif}]]\\&=\mathbb{E}_\mathrm{sp}\left[\frac{S_c^2}{N_c}+\frac{S_t^2}{N_t}-\frac{S_{tc}^2}{N}\right]+\mathbb{V}_\mathrm{sp}[\tau_\mathrm{fs}]\\&=\frac{\sigma_c^2}{N_c}+\frac{\sigma_t^2}{N_t}-\frac{\sigma_{tc}^2}{N}+\frac{\sigma_{tc}^2}{N}=\frac{\sigma_c^2}{N_c}+\frac{\sigma_t^2}{N_t}\end{align}\]

也可以使用经典的拆分平方的方法

\[\begin{align}\mathbb{V}_\mathrm{sp}[\widehat{\tau}^\mathrm{dif}]&=\mathbb{E}_\mathrm{sp}\bigg[\left(\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}-\mathbb{E}_\mathrm{sp}[\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}]\right)^2\bigg]\\&=\mathbb{E}_\mathrm{sp}\bigg[\left(\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}-\mathbb{E}_\mathrm{sp}[\bar{Y}(1)-\bar{Y}(0)]\right)^2\bigg]\\&=\mathbb{E}_\mathrm{sp}\bigg[\left(\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}-(\bar{Y}(1)-\bar{Y}(0))+(\bar{Y}(1)-\bar{Y}(0))-\mathbb{E}_\mathrm{sp}[\bar{Y}(1)-\bar{Y}(0)]\right)^2\bigg]\\&=\mathbb{E}_\mathrm{sp}\bigg[\left(\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}-(\bar{Y}(1)-\bar{Y}(0))\right)^2\bigg]+\mathbb{E}_\mathrm{sp}\bigg[\left(\bar{Y}(1)-\bar{Y}(0)-\mathbb{E}_\mathrm{sp}[\bar{Y}(1)-\bar{Y}(0)]\right)^2\bigg]\\&\quad+2\mathbb{E}_\mathrm{sp}\bigg[\left(\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}-(\bar{Y}(1)-\bar{Y}(0))\right)\cdot\Big(\bar{Y}(1)-\bar{Y}(0)-\mathbb{E}_\mathrm{sp}[\bar{Y}(1)-\bar{Y}(0)]\Big)\bigg]\\&=\left(\frac{\sigma_c^2}{N_c}+\frac{\sigma_t^2}{N_t}-\frac{\sigma_{tc}^2}{N}\right)+\frac{1}{N}\mathbb{E}_\mathrm{sp}[(Y_i(1)-Y_i(0)-\tau_\mathrm{sp})^2]+0\\&=\frac{\sigma_c^2}{N_c}+\frac{\sigma_t^2}{N_t}-\frac{\sigma_{tc}^2}{N}+\frac{\sigma_{tc}^2}{N}=\frac{\sigma_c^2}{N_c}+\frac{\sigma_t^2}{N_t}\end{align}\]

原书中的附录则是考虑从 \(N_R\) 大小的样本中采样出 \(N\) 个样本推演出结果,其中使用指示变量 \(R_i\) 标记被采样的结果(类似于 \(W_i\)的作用)。再将 \(N_R\rightarrow\infty\) 得到相同的结论。如果读者对这一过程感兴趣也可以查阅原书的证明。