回归模型

回归模型关注的则是,如果使用协变量的信息来更好地估计组间效应。在之前我们已经知道我们可以给出组间效应的一个无偏的点估计,因此引入协变量其实就是出于减小方差的目的。事实上,在之前的学习中也开始有引入协变量的想法,比如在构造统计量的时候使用相关的信息;而回归这节则是系统的分析协变量的效用。

记号

首先明确的是,在回归模型中,我们讨论的都是在 super population 下的,也就是样本中的潜在结果其实自身也有随机性的。因此采用的记号基本上也是沿用了 Neyman 那一章中关于 super popolation 的记号

$$\tau_\mathrm{fs}=\frac{1}{N}\sum\limits_{i=1}^{N}(Y_i(1)-Y_i(0)),\quad\tau_\mathrm{sp}=\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)]$$

$$\mu_c(x)=\mathbb{E}_\mathrm{sp}[Y_i(0)\mid X_i=x],\quad \mu_t(x)=\mathbb{E}_\mathrm{sp}[Y_i(1)\mid X_i=x]$$

$$\sigma_c(x)=\mathbb{V}_\mathrm{sp}[Y_i(0)\mid X_i=x],\quad \sigma_t(x)=\mathbb{V}_\mathrm{sp}[Y_i(1)\mid X_i=x]$$

$$\tau(x)=\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)\mid X_i=x],\quad\sigma_{ct}^2(x)=\mathbb{V}_\mathrm{sp}[Y_i(1)-Y_i(0)\mid X_i=x]$$

$$\mu_c=\mathbb{E}_\mathrm{sp}[\mu_c(X_i)],\quad \mu_t=\mathbb{E}_\mathrm{sp}[\mu_t(X_i)]$$

$$\sigma_c^2=\mathbb{E}_\mathrm{sp}[\sigma_c^2(X_i)]+\mathbb{V}_\mathrm{sp}[\mu_c(X_i)],\quad\sigma_t^2=\mathbb{E}_\mathrm{sp}[\sigma_t^2(X_i)]+\mathbb{V}_\mathrm{sp}[\mu_t(X_i)]$$

$$\mu_X=\mathbb{E}_\mathrm{sp}[X_i],\quad\Omega_X=\mathbb{V}_\mathrm{sp}[X_i]=\mathbb{E}_\mathrm{sp}[(X_i-\mu_X)^\intercal(X_i-\mu_X)]$$

无协变量的回归

回归模型为 $Y_i^\mathrm{obs}=\alpha+\tau\cdot W_i+\varepsilon_i$

最小二乘估计 $(\widehat{\tau}^\mathrm{ols},\widehat{\alpha}^\mathrm{ols})=\arg\min\limits_{\tau,\alpha}\sum_{i=1}^{N}(Y_i^\mathrm{obs}-\alpha-\tau\cdot W_i)^2$

由线性回归直接写出

$$\widehat{\tau}^\mathrm{ols}=\frac{\sum_{i=1}^N(W_i-\bar{W})(Y_i^\mathrm{obs}-\bar{Y}^\mathrm{obs})}{\sum_{i=1}^N(W_i-\bar{W})^2}=\frac{\sum_{i=1}^{N}W_iY_i^\mathrm{obs}-N\bar{W}\bar{Y}^\mathrm{obs}}{N_tN_c/N}=\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}=\widehat{\tau}^\mathrm{dif}$$

$\widehat{\alpha}^\mathrm{ols}=\bar{Y}^\mathrm{obs}-\widehat{\tau}^\mathrm{obs}\cdot\bar{W}=\bar{Y}_c^\mathrm{obs}$

$\tau$ 的最小二乘估计通常会被解释为因果性 (因为施加了不同的处理),这在随机化实验中是显式的,而在观察实验(也就是不能或没有设计实验,只是拿到了结果)里是隐式的。在最小二乘估计的求解中,我们假设了 $\varepsilon_i$ 是独立于,或至少是不相关于 $W_i$ 。这一假设通常难以被验证,因为这些残差通常被解释为一切没有被注意到的因子造成的影响。因此,统计教材中通常只把 $\tau$ 解释为 $W_i$ 和 $Y_i^\mathrm{obs}$ 的 相关性 而非 因果性 。但在这里,由于 $\widehat{\tau}^\mathrm{ols}= \widehat{\tau}^\mathrm{dif}$ 是 $\tau_\mathrm{fs}$ 和 $\tau_\mathrm{sp}$ 的无偏估计,因此他们有了 因果性。但是,使用线性回归的方法来阐述 $\widehat{\tau}^\mathrm{ols}$ 的因果性是有用的。

在全体样本的视角下,此时回归模型也就是
$$Y_i^\mathrm{obs}=\mu_c+(\mu_t-\mu_c)\cdot W_i+\varepsilon_i=\mathbb{E}_\mathrm{sp}[Y_i(0)]+\tau_\mathrm{sp}\cdot W_i+\varepsilon_i$$

当然,这些的成立都是因为完全随机化实验带来的保证,包括

$$W_i\perp (Y_i(0), Y_i(1)),\quad\mathbb{E}_\mathrm{sp}[\varepsilon_i\mid W_i=w]=0\ (w=0,1)\,\quad\mathbb{V}_\mathrm{sp}[\varepsilon_i\mid W_i]=\sigma_t^2W_i+\sigma_c^2(1-W_i)$$

为方便记

$$\beta=(\alpha,\tau)\qquad X=\begin{pmatrix}1_{N_c}&0_{N_c}\\1_{N_t}&1_{N_t}\end{pmatrix}\qquad H=(X^\intercal X)^{-1}X^\intercal=\begin{pmatrix}\frac{1_{N_c}}{N_c}&\frac{-1_{N_c}}{N_c}\\\frac{0_{N_t}}{N_t}&\frac{1_{N_t}}{N_t}\end{pmatrix}^\intercal\qquad\Sigma=\mathbb{V}_\mathrm{sp}[\varepsilon\mid X]$$

则 $\widehat{\beta}=HY^\mathrm{obs}=\beta+H\varepsilon$ ,其中第二项满足渐进正态性。而 $\mathrm{Var}(\widehat{\beta})=H\Sigma H^\intercal$

先考察简单的情况,即 $\sigma_c^2=\sigma_t^2=\sigma_{Y\mid W}^2,\,\Sigma=\mathrm{diag}(\sigma^2,\ldots,\sigma^2)$ 此时可以给出估计量

$\widehat{\sigma}_{Y\mid W}^2=\frac{1}{N-2}\sum_{i=1}^{N}\widehat{\varepsilon}_i^2=\frac{1}{N-2}\Big(\sum\limits_{i:W_i=0}(Y_i^\mathrm{obs}-\bar{Y}_c^\mathrm{obs})^2+\sum\limits_{i:W_i=1}(Y_i^\mathrm{obs}-\bar{Y}_t^\mathrm{obs})^2\Big)=s^2$

由于
$$\mathbb{V}_\mathrm{sp}^\mathrm{homosk}=\mathbb{V}_\mathrm{sp}(\widehat{\tau}^\mathrm{ols})=\sigma_{Y\mid W}^2\frac{1}{\sum_{i=1}^{N}(W_i-\bar{W})^2}=\sigma_{Y\mid W}^2\left(\frac{1}{N_c}+\frac{1}{N_t}\right)$$
得到估计量
$$\widehat{\mathbb{V}}_\mathrm{sp}^\mathrm{homosk}=\widehat{\mathbb{V}}(\widehat{\tau}^\mathrm{ols})=\widehat\sigma_{Y\mid W}^2\left(\frac{1}{N_c}+\frac{1}{N_t}\right)=\widehat{\mathbb{V}}^\mathrm{const}$$

这一结果是是否自然的,因为当组间效应为常数时,控制组和实验组的方差都相等。

为了和后面的结果比较,我们考察根据样本规模规范化后的方差,记 $p=\lim\limits_{N\rightarrow\infty}\frac{N_t}{N}$ 得到结论

$$N\cdot\widehat{\mathbb{V}}_\mathrm{sp}^\mathrm{homosk}\overset{p}{\rightarrow}\frac{\widehat{\sigma}_{Y\mid W}^2}{p(1-p)}$$

再考察 $\sigma_c^2\neq\sigma_t^2$,此时

$$\begin{align}\widehat{\mathbb{V}}_\mathrm{sp}^\mathrm{hetero}=\widehat{\mathbb{V}}(\widehat\sigma_{Y\mid W}^2)=\frac{\sum_{i=1}^{N}\widehat\varepsilon_i^2\cdot(W_i-\bar{W})^2}{\Big(\sum_{i=1}^{N}(W_i-\bar{W})^2\Big)^2}\end{align}$$

同样有估计量 $\widehat{\sigma}_t^2=\frac{1}{N-1}\sum_{i=1}^{N}\widehat\varepsilon_i^2W_i,\,\widehat{\sigma}_c^2=\frac{1}{N-1}\sum_{i=1}^{N}\widehat\varepsilon_i^2(1-W_i)$

此时得到的估计量
$$\widehat{\mathbb{V}}_\mathrm{sp}^\mathrm{hetero}=\frac{\widehat\sigma_c^2}{N_c^2}+\frac{\widehat\sigma_t^2}{N_t}=\widehat{\mathbb{V}}^\mathrm{neyman}$$

可以看到,回归模型更容易理解(因为大多数人之前都接触过),而且最后导出了和 Neyman 相同的结果。同时这样的模型更容易扩展到有协变量的情形,这是回归模型的优越处。

有协变量的回归

回归模型为 $$Y_i^\mathrm{obs}=\alpha+\tau\cdot W_i+X_i\beta+\varepsilon_i$$

有最小二乘估计 $$(\widehat{\tau}^\mathrm{ols},\widehat{\alpha}^\mathrm{ols},\widehat{\beta}^\mathrm{ols})=\arg\min\limits_{\tau,\alpha,\beta}\sum_{i=1}^{N}\left(Y_i^\mathrm{obs}-\alpha-\tau\cdot W_i-X_i\beta\right)^2$$

无限样本下,上式变为 $$(\tau^\ast,\alpha^\ast,\beta^\ast)=\arg\min\limits_{\tau,\alpha,\beta}\mathbb{E}_\mathrm{sp}\Big[\left(Y_i^\mathrm{obs}-\alpha-\tau\cdot W_i-X_i\beta\right)^2\Big]$$

下面的定理则给出了估计的准确性和收敛速度

如果我们从无限样本中随机采样进行完全随机化实验,那么

  • $\tau^\ast=\tau_\mathrm{sp}$

  • $\begin{align}\sqrt{N}\left(\widehat{\tau}^\mathrm{ols}-\tau_\mathrm{sp}\right)\overset{d}{\rightarrow}\mathcal{N}\left(0,\frac{\mathbb{E}[(W_i-p)^2\cdot(Y_i^\mathrm{obs}-\alpha^\ast-\tau^\ast\cdot W_i-X_i\beta^\ast)^2]}{p^2(1-p^2)}\right)\end{align}​$

    其中 $(Y_i^\mathrm{obs}-\alpha^\ast-\tau^\ast\cdot W_i-X_i\beta^\ast)^2=\sigma_i^2=\mathbb{V}[\varepsilon_i\mid W_i,X_i]=\mathbb{V}[Y_i(W_i)\mid X_i]$

证明:考虑目标函数

$\begin{align}Q(\alpha,\tau,\beta)&=\mathbb{E}_\mathrm{sp}\Big[\left(Y_i^\mathrm{obs}-\alpha-\tau\cdot W_i-X_i\beta\right)^2\Big]\\&=\mathbb{E}_\mathrm{sp}\Big[\left(Y_i^\mathrm{obs}-\tilde{\alpha}-\tau\cdot W_i-(X_i-\mu_X)\beta\right)^2\Big]\end{align}$

其中 $\tilde{\alpha}=\alpha+\mu_X\beta,\,\mu_X=\mathbb{E}[X_i]$ ,则

$$\begin{align}Q(\tilde\alpha,\tau,\beta)&=\mathbb{E}_\mathrm{sp}\Big[\left(Y_i^\mathrm{obs}-\tilde{\alpha}-\tau\cdot W_i\right)^2\Big]+\mathbb{E}_\mathrm{sp}\Big[\big((X_i-\mu_X)\beta\big)^2\Big]\\&\quad-2\cdot\mathbb{E}_\mathrm{sp}\Big[\left(Y_i^\mathrm{obs}-\tilde{\alpha}-\tau\cdot W_i\right)\big((X_i-\mu_X)\beta\big)\Big]\\&=\mathbb{E}_\mathrm{sp}\Big[\left(Y_i^\mathrm{obs}-\tilde{\alpha}-\tau\cdot W_i\right)^2\Big]+\mathbb{E}_\mathrm{sp}\Big[\big((X_i-\mu_X)\beta\big)^2\Big]\\&\quad-2\cdot\mathbb{E}_\mathrm{sp}\Big[Y_i^\mathrm{obs}\cdot(X_i-\mu_X)\beta\Big]\end{align}$$

注意到后两项和 $\alpha,\tau$ 无关,因此最小化 $Q(\tilde\alpha,\tau,\beta)$ 等价于最小化 第一项,直接类比上一节的结论得

$$\tilde\alpha^\ast=\mathbb{E}_\mathrm{sp}[Y_i(0)]=\mu_c$$

$$\tau^\ast=\mathbb{E}_\mathrm{sp}[Y_i^\mathrm{obs}\mid W_i=1]-\mathbb{E}_\mathrm{sp}[Y_i^\mathrm{obs}\mid W_i=0]=\mathbb{E}_\mathrm{sp}[Y_i(1)\mid W_i=1]-\mathbb{E}_\mathrm{sp}[Y_i(0)\mid W_i=1]=\tau_\mathrm{sp}$$

值得注意的是,这一结果意味着 $\widehat{\tau}_\mathrm{sp}$ 的相合性不依赖于回归函数的正确性。无论全体样本下,给定协变量后 $Y$ 的条件期望有多么的“不线性”,使用最小二乘估计的组间效应总是相合的。这是因为在完全随机化实验下,全体样本下 $W_i$ 和 $X$ 的协方差为零。尽管在有限样本下他们的协方差可能非零,但大样本下他们的相关性会趋于零,因此协变量 $X$ 的引入不会影响估计的相合性。当然,有限样本下他们的相关性会导致估计出现偏差。

因此协变量 $X$ 的引入不会影响估计的均值,但其会影响估计的方差。同样的我们先考虑简单情形:先假设条件期望是协变量的线性函数,即

$$\mathbb{E}_\mathrm{sp}[Y_i(0)\mid X_i=x]=\alpha_c+x\beta,\,\mathbb{E}_\mathrm{sp}[Y_i(1)\mid X_i=x]=\alpha_t+x\beta$$ ,故

$$\mathbb{E}_\mathrm{sp}[Y_i^\mathrm{obs}\mid X_i=x,W_i=t]=\alpha_c+\tau_\mathrm{sp}\cdot t+x\beta$$

再假设两个潜在结果的方差不随着协变量和处理改变,即

$$\mathbb{V}_\mathrm{sp}[Y_i(w)\mid X_i=x]=\sigma_{Y\mid W,X}^2,\ \forall w=0,1;\forall x$$

此时得到结果为 $$N\cdot\mathbb{V}_\mathrm{sp}^\mathrm{homosk}=\frac{\sigma_{Y\mid W,X}^2}{p(1-p)}$$

可见,引入协变量后,方差的估计从 $\sigma^2_{Y\mid X}$ 调整为 $\sigma_{Y\mid X,W}^2$ 。如果协变量 $X$ 能解释绝大多数的方差,那么 $\sigma_{Y\mid X,W}^2$ 就会显著小于 $\sigma^2_{Y\mid X}$,这样我们就得到了一个更精确的估计。当然,引入协变量不是没有代价的——之前我们在有限样本下都能得到精确的无偏估计,现在只能由渐进的无偏性,也就是大样本下无偏性才足够好。

同样的,此时我们可以给出估计量

$$\widehat{\mathbb{V}}_\mathrm{sp}^\mathrm{homosk}=\frac{1}{N(N-1-\dim(X_i))}\cdot\frac{\sum_{i=1}^{N}(Y_i^\mathrm{obs}-\widehat{\alpha}^\mathrm{ols}-\widehat{\tau}^\mathrm{ols}\cdot W_i-X_i\widehat{\beta}^\mathrm{ols})^2}{\bar{W}\cdot(1-\bar{W})}$$

$$\widehat{\mathbb{V}}_\mathrm{sp}^\mathrm{hetero}=\frac{1}{N(N-1-\dim(X_i))}\cdot\frac{\sum_{i=1}^{N}(W_i-\bar{W})^2\cdot(Y_i^\mathrm{obs}-\widehat{\alpha}^\mathrm{ols}-\widehat{\tau}^\mathrm{ols}\cdot W_i-X_i\widehat{\beta}^\mathrm{ols})^2}{(\bar{W}\cdot(1-\bar{W}))^2}$$

带交叉项的回归

回归模型为 $$Y_i^\mathrm{obs}=\alpha+\tau\cdot W_i+X_i\beta+W_i\cdot(X_i-\bar{X})\gamma+\varepsilon_i$$

有最小二乘估计 $$(\widehat{\tau}^\mathrm{ols},\widehat{\alpha}^\mathrm{ols},\widehat{\beta}^\mathrm{ols},\widehat{\gamma}^\mathrm{ols})=\arg\min\limits_{\tau,\alpha,\beta,\gamma}\sum_{i=1}^{N}\left(Y_i^\mathrm{obs}-\alpha-\tau\cdot W_i-X_i\beta-W_i\cdot(X_i-\bar{X})\gamma\right)^2$$

$$(\tau^\ast,\alpha^\ast,\beta^\ast,\gamma^\ast)=\arg\min\limits_{\tau,\alpha,\beta,\gamma}\mathbb{E}_\mathrm{sp}\Big[\left(Y_i^\mathrm{obs}-\alpha-\tau\cdot W_i-X_i\beta-W_i\cdot(X_i-\bar{X})\gamma\right)^2\Big]$$

类似的定理同样给出了估计的准确性和收敛速度

如果我们从无限样本中随机采样进行完全随机化实验,那么

  • $\tau^\ast=\tau_\mathrm{sp}$

  • $\begin{align}\sqrt{N}\left(\widehat{\tau}^\mathrm{ols}-\tau_\mathrm{sp}\right)\overset{d}{\rightarrow}\mathcal{N}\left(0,\frac{\mathbb{E}[(W_i-p)^2\cdot(Y_i^\mathrm{obs}-\alpha^\ast-\tau^\ast\cdot W_i-X_i\beta^\ast-W_i\cdot(X_i-\mu_x)\gamma^\ast)^2]}{p^2(1-p^2)}\right)\end{align}$

此时,记 $\widehat{Y}_i(0)=\widehat{\alpha}^\mathrm{ols}+X_i\widehat{\beta}^\mathrm{ols}$ , $\widehat{Y}_i(1)=\widehat{\alpha}^\mathrm{ols}+\widehat{\tau}^\mathrm{ols}+X_i\widehat{\beta}^\mathrm{ols}+(X_i-\bar{X})\widehat{\gamma}^\mathrm{ols}$

$\widehat{\tau}_i=W_i\cdot(Y_i(1)-\widehat{Y}_i(0))+(1-W_i)\cdot(\widehat{Y_i}(1)-Y_i(0))$,代数变换后可得

$$\widehat{\tau}^\mathrm{ols}=\frac{1}{N}\sum_{i=1}^{N}\widehat{\tau}_i$$

所以最小二乘估计 $\widehat{\tau}^\mathrm{ols}$ 也可以解释为样本中的组间效应。同样的,由于随机化实验,尽管回归模型可能不合理,但该估计还是总体组间效应的一个相合估计。

假设检验(带交叉项的模型)

检验是否有交叉项和常数组间效应

$$H_0:\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)\mid X_i=x]=\tau_\mathrm{sp},\forall x​$$

$$ H_1:\exists x_0,x_1\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)\mid X_i=x_1]\neq \mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)\mid X_i=x_2]$$

$$(\widehat{\tau}^\mathrm{ols},\widehat{\gamma}^\mathrm{ols})$$ 的规范化后的协方差矩阵为$$\mathbb{V}_{\tau,\gamma}=\begin{pmatrix}\mathbb{V}_\tau&\mathbb{C}_{\tau},\gamma\\\mathbb{C}_{\tau,\gamma}^\intercal &\mathbb{V}_\gamma\end{pmatrix}$$

$H_0$ 成立时,$\gamma^\ast=0$,且 $$Q_\mathrm{const}=(\widehat{\gamma}^\mathrm{ols})^\intercal\widehat{\mathbb{V}}_\gamma^{-1}\widehat{\gamma}^\mathrm{ols}\overset{d}{\rightarrow}\chi(\dim(X_i))$$

检验是否有交叉项和零组间效应

$$H_0:\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)\mid X_i=x]=0,\forall x​$$

$$ H_1:\exists x_1,\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)\mid X_i=x_1]\neq 0$$

同样的,$H_0$ 成立时,$\gamma^\ast=0$,且 $$Q_\mathrm{const}=\begin{pmatrix}\widehat{\tau}^\mathrm{ols}\\\widehat{\gamma}^\mathrm{ols}\end{pmatrix}^\intercal\widehat{\mathbb{V}}_\gamma^{-1}\begin{pmatrix}\widehat{\tau}^\mathrm{ols}\\\widehat{\gamma}^\mathrm{ols}\end{pmatrix}\overset{d}{\rightarrow}\chi(\dim(X_i)+1)$$