【Note】因果推断(四)——回归模型

回归模型

回归模型关注的则是，如果使用协变量的信息来更好地估计组间效应。在之前我们已经知道我们可以给出组间效应的一个无偏的点估计，因此引入协变量其实就是出于减小方差的目的。事实上，在之前的学习中也开始有引入协变量的想法，比如在构造统计量的时候使用相关的信息；而回归这节则是系统的分析协变量的效用。

记号

首先明确的是，在回归模型中，我们讨论的都是在 super population 下的，也就是样本中的潜在结果其实自身也有随机性的。因此采用的记号基本上也是沿用了 Neyman 那一章中关于 super popolation 的记号

\[\tau_\mathrm{fs}=\frac{1}{N}\sum\limits_{i=1}^{N}(Y_i(1)-Y_i(0)),\quad\tau_\mathrm{sp}=\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)]\]

\[\mu_c(x)=\mathbb{E}_\mathrm{sp}[Y_i(0)\mid X_i=x],\quad \mu_t(x)=\mathbb{E}_\mathrm{sp}[Y_i(1)\mid X_i=x]\]

\[\sigma_c(x)=\mathbb{V}_\mathrm{sp}[Y_i(0)\mid X_i=x],\quad \sigma_t(x)=\mathbb{V}_\mathrm{sp}[Y_i(1)\mid X_i=x]\]

\[\tau(x)=\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)\mid X_i=x],\quad\sigma_{ct}^2(x)=\mathbb{V}_\mathrm{sp}[Y_i(1)-Y_i(0)\mid X_i=x]\]

\[\mu_c=\mathbb{E}_\mathrm{sp}[\mu_c(X_i)],\quad \mu_t=\mathbb{E}_\mathrm{sp}[\mu_t(X_i)]\]

\[\sigma_c^2=\mathbb{E}_\mathrm{sp}[\sigma_c^2(X_i)]+\mathbb{V}_\mathrm{sp}[\mu_c(X_i)],\quad\sigma_t^2=\mathbb{E}_\mathrm{sp}[\sigma_t^2(X_i)]+\mathbb{V}_\mathrm{sp}[\mu_t(X_i)]\]

\[\mu_X=\mathbb{E}_\mathrm{sp}[X_i],\quad\Omega_X=\mathbb{V}_\mathrm{sp}[X_i]=\mathbb{E}_\mathrm{sp}[(X_i-\mu_X)^\intercal(X_i-\mu_X)]\]

无协变量的回归

回归模型为 \(Y_i^\mathrm{obs}=\alpha+\tau\cdot W_i+\varepsilon_i\)

最小二乘估计 \((\widehat{\tau}^\mathrm{ols},\widehat{\alpha}^\mathrm{ols})=\arg\min\limits_{\tau,\alpha}\sum_{i=1}^{N}(Y_i^\mathrm{obs}-\alpha-\tau\cdot W_i)^2\)

由线性回归直接写出

\[\widehat{\tau}^\mathrm{ols}=\frac{\sum_{i=1}^N(W_i-\bar{W})(Y_i^\mathrm{obs}-\bar{Y}^\mathrm{obs})}{\sum_{i=1}^N(W_i-\bar{W})^2}=\frac{\sum_{i=1}^{N}W_iY_i^\mathrm{obs}-N\bar{W}\bar{Y}^\mathrm{obs}}{N_tN_c/N}=\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}=\widehat{\tau}^\mathrm{dif}\]

\(\widehat{\alpha}^\mathrm{ols}=\bar{Y}^\mathrm{obs}-\widehat{\tau}^\mathrm{obs}\cdot\bar{W}=\bar{Y}_c^\mathrm{obs}\)

\(\tau\) 的最小二乘估计通常会被解释为因果性 (因为施加了不同的处理)，这在随机化实验中是显式的，而在观察实验（也就是不能或没有设计实验，只是拿到了结果）里是隐式的。在最小二乘估计的求解中，我们假设了 \(\varepsilon_i\) 是独立于，或至少是不相关于 \(W_i\) 。这一假设通常难以被验证，因为这些残差通常被解释为一切没有被注意到的因子造成的影响。因此，统计教材中通常只把 \(\tau\) 解释为 \(W_i\) 和 \(Y_i^\mathrm{obs}\) 的 相关性 而非 因果性 。但在这里，由于 \(\widehat{\tau}^\mathrm{ols}= \widehat{\tau}^\mathrm{dif}\) 是 \(\tau_\mathrm{fs}\) 和 \(\tau_\mathrm{sp}\) 的无偏估计，因此他们有了 因果性。但是，使用线性回归的方法来阐述 \(\widehat{\tau}^\mathrm{ols}\) 的因果性是有用的。

在全体样本的视角下，此时回归模型也就是 \[Y_i^\mathrm{obs}=\mu_c+(\mu_t-\mu_c)\cdot W_i+\varepsilon_i=\mathbb{E}_\mathrm{sp}[Y_i(0)]+\tau_\mathrm{sp}\cdot W_i+\varepsilon_i\]

当然，这些的成立都是因为完全随机化实验带来的保证，包括

\[W_i\perp (Y_i(0), Y_i(1)),\quad\mathbb{E}_\mathrm{sp}[\varepsilon_i\mid W_i=w]=0\ (w=0,1)\,\quad\mathbb{V}_\mathrm{sp}[\varepsilon_i\mid W_i]=\sigma_t^2W_i+\sigma_c^2(1-W_i)\]

为方便记

\[\beta=(\alpha,\tau)\qquad X=\begin{pmatrix}1_{N_c}&0_{N_c}\\1_{N_t}&1_{N_t}\end{pmatrix}\qquad H=(X^\intercal X)^{-1}X^\intercal=\begin{pmatrix}\frac{1_{N_c}}{N_c}&\frac{-1_{N_c}}{N_c}\\\frac{0_{N_t}}{N_t}&\frac{1_{N_t}}{N_t}\end{pmatrix}^\intercal\qquad\Sigma=\mathbb{V}_\mathrm{sp}[\varepsilon\mid X]\]

则 \(\widehat{\beta}=HY^\mathrm{obs}=\beta+H\varepsilon\) ，其中第二项满足渐进正态性。而 \(\mathrm{Var}(\widehat{\beta})=H\Sigma H^\intercal\)

先考察简单的情况，即 \(\sigma_c^2=\sigma_t^2=\sigma_{Y\mid W}^2,\,\Sigma=\mathrm{diag}(\sigma^2,\ldots,\sigma^2)\) 此时可以给出估计量

\(\widehat{\sigma}_{Y\mid W}^2=\frac{1}{N-2}\sum_{i=1}^{N}\widehat{\varepsilon}_i^2=\frac{1}{N-2}\Big(\sum\limits_{i:W_i=0}(Y_i^\mathrm{obs}-\bar{Y}_c^\mathrm{obs})^2+\sum\limits_{i:W_i=1}(Y_i^\mathrm{obs}-\bar{Y}_t^\mathrm{obs})^2\Big)=s^2\)

由于 \[\mathbb{V}_\mathrm{sp}^\mathrm{homosk}=\mathbb{V}_\mathrm{sp}(\widehat{\tau}^\mathrm{ols})=\sigma_{Y\mid W}^2\frac{1}{\sum_{i=1}^{N}(W_i-\bar{W})^2}=\sigma_{Y\mid W}^2\left(\frac{1}{N_c}+\frac{1}{N_t}\right)\] 得到估计量 \[\widehat{\mathbb{V}}_\mathrm{sp}^\mathrm{homosk}=\widehat{\mathbb{V}}(\widehat{\tau}^\mathrm{ols})=\widehat\sigma_{Y\mid W}^2\left(\frac{1}{N_c}+\frac{1}{N_t}\right)=\widehat{\mathbb{V}}^\mathrm{const}\]

这一结果是是否自然的，因为当组间效应为常数时，控制组和实验组的方差都相等。

为了和后面的结果比较，我们考察根据样本规模规范化后的方差，记 \(p=\lim\limits_{N\rightarrow\infty}\frac{N_t}{N}\) 得到结论

\[N\cdot\widehat{\mathbb{V}}_\mathrm{sp}^\mathrm{homosk}\overset{p}{\rightarrow}\frac{\widehat{\sigma}_{Y\mid W}^2}{p(1-p)}\]

再考察 \(\sigma_c^2\neq\sigma_t^2\)，此时

\[\begin{align}\widehat{\mathbb{V}}_\mathrm{sp}^\mathrm{hetero}=\widehat{\mathbb{V}}(\widehat\sigma_{Y\mid W}^2)=\frac{\sum_{i=1}^{N}\widehat\varepsilon_i^2\cdot(W_i-\bar{W})^2}{\Big(\sum_{i=1}^{N}(W_i-\bar{W})^2\Big)^2}\end{align}\]

同样有估计量 \(\widehat{\sigma}_t^2=\frac{1}{N-1}\sum_{i=1}^{N}\widehat\varepsilon_i^2W_i,\,\widehat{\sigma}_c^2=\frac{1}{N-1}\sum_{i=1}^{N}\widehat\varepsilon_i^2(1-W_i)\)

此时得到的估计量 \[\widehat{\mathbb{V}}_\mathrm{sp}^\mathrm{hetero}=\frac{\widehat\sigma_c^2}{N_c^2}+\frac{\widehat\sigma_t^2}{N_t}=\widehat{\mathbb{V}}^\mathrm{neyman}\]

可以看到，回归模型更容易理解（因为大多数人之前都接触过），而且最后导出了和 Neyman 相同的结果。同时这样的模型更容易扩展到有协变量的情形，这是回归模型的优越处。

有协变量的回归

回归模型为 \[Y_i^\mathrm{obs}=\alpha+\tau\cdot W_i+X_i\beta+\varepsilon_i\]

有最小二乘估计 \[(\widehat{\tau}^\mathrm{ols},\widehat{\alpha}^\mathrm{ols},\widehat{\beta}^\mathrm{ols})=\arg\min\limits_{\tau,\alpha,\beta}\sum_{i=1}^{N}\left(Y_i^\mathrm{obs}-\alpha-\tau\cdot W_i-X_i\beta\right)^2\]

无限样本下，上式变为 \[(\tau^\ast,\alpha^\ast,\beta^\ast)=\arg\min\limits_{\tau,\alpha,\beta}\mathbb{E}_\mathrm{sp}\Big[\left(Y_i^\mathrm{obs}-\alpha-\tau\cdot W_i-X_i\beta\right)^2\Big]\]

下面的定理则给出了估计的准确性和收敛速度

如果我们从无限样本中随机采样进行完全随机化实验，那么

\(\tau^\ast=\tau_\mathrm{sp}\)

\(\begin{align}\sqrt{N}\left(\widehat{\tau}^\mathrm{ols}-\tau_\mathrm{sp}\right)\overset{d}{\rightarrow}\mathcal{N}\left(0,\frac{\mathbb{E}[(W_i-p)^2\cdot(Y_i^\mathrm{obs}-\alpha^\ast-\tau^\ast\cdot W_i-X_i\beta^\ast)^2]}{p^2(1-p^2)}\right)\end{align}\)

其中 \((Y_i^\mathrm{obs}-\alpha^\ast-\tau^\ast\cdot W_i-X_i\beta^\ast)^2=\sigma_i^2=\mathbb{V}[\varepsilon_i\mid W_i,X_i]=\mathbb{V}[Y_i(W_i)\mid X_i]\)

证明：考虑目标函数

\(\begin{align}Q(\alpha,\tau,\beta)&=\mathbb{E}_\mathrm{sp}\Big[\left(Y_i^\mathrm{obs}-\alpha-\tau\cdot W_i-X_i\beta\right)^2\Big]\\&=\mathbb{E}_\mathrm{sp}\Big[\left(Y_i^\mathrm{obs}-\tilde{\alpha}-\tau\cdot W_i-(X_i-\mu_X)\beta\right)^2\Big]\end{align}\)

其中 \(\tilde{\alpha}=\alpha+\mu_X\beta,\,\mu_X=\mathbb{E}[X_i]\) ，则

\[\begin{align}Q(\tilde\alpha,\tau,\beta)&=\mathbb{E}_\mathrm{sp}\Big[\left(Y_i^\mathrm{obs}-\tilde{\alpha}-\tau\cdot W_i\right)^2\Big]+\mathbb{E}_\mathrm{sp}\Big[\big((X_i-\mu_X)\beta\big)^2\Big]\\&\quad-2\cdot\mathbb{E}_\mathrm{sp}\Big[\left(Y_i^\mathrm{obs}-\tilde{\alpha}-\tau\cdot W_i\right)\big((X_i-\mu_X)\beta\big)\Big]\\&=\mathbb{E}_\mathrm{sp}\Big[\left(Y_i^\mathrm{obs}-\tilde{\alpha}-\tau\cdot W_i\right)^2\Big]+\mathbb{E}_\mathrm{sp}\Big[\big((X_i-\mu_X)\beta\big)^2\Big]\\&\quad-2\cdot\mathbb{E}_\mathrm{sp}\Big[Y_i^\mathrm{obs}\cdot(X_i-\mu_X)\beta\Big]\end{align}\]

注意到后两项和 \(\alpha,\tau\) 无关，因此最小化 \(Q(\tilde\alpha,\tau,\beta)\) 等价于最小化第一项，直接类比上一节的结论得

\[\tilde\alpha^\ast=\mathbb{E}_\mathrm{sp}[Y_i(0)]=\mu_c\]

\[\tau^\ast=\mathbb{E}_\mathrm{sp}[Y_i^\mathrm{obs}\mid W_i=1]-\mathbb{E}_\mathrm{sp}[Y_i^\mathrm{obs}\mid W_i=0]=\mathbb{E}_\mathrm{sp}[Y_i(1)\mid W_i=1]-\mathbb{E}_\mathrm{sp}[Y_i(0)\mid W_i=1]=\tau_\mathrm{sp}\]

值得注意的是，这一结果意味着 \(\widehat{\tau}_\mathrm{sp}\) 的相合性不依赖于回归函数的正确性。无论全体样本下，给定协变量后 \(Y\) 的条件期望有多么的“不线性”，使用最小二乘估计的组间效应总是相合的。这是因为在完全随机化实验下，全体样本下 \(W_i\) 和 \(X\) 的协方差为零。尽管在有限样本下他们的协方差可能非零，但大样本下他们的相关性会趋于零，因此协变量 \(X\) 的引入不会影响估计的相合性。当然，有限样本下他们的相关性会导致估计出现偏差。

因此协变量 \(X\) 的引入不会影响估计的均值，但其会影响估计的方差。同样的我们先考虑简单情形：先假设条件期望是协变量的线性函数，即

\[\mathbb{E}_\mathrm{sp}[Y_i(0)\mid X_i=x]=\alpha_c+x\beta,\,\mathbb{E}_\mathrm{sp}[Y_i(1)\mid X_i=x]=\alpha_t+x\beta\] ，故

\[\mathbb{E}_\mathrm{sp}[Y_i^\mathrm{obs}\mid X_i=x,W_i=t]=\alpha_c+\tau_\mathrm{sp}\cdot t+x\beta\]

再假设两个潜在结果的方差不随着协变量和处理改变，即

\[\mathbb{V}_\mathrm{sp}[Y_i(w)\mid X_i=x]=\sigma_{Y\mid W,X}^2,\ \forall w=0,1;\forall x\]

此时得到结果为 \[N\cdot\mathbb{V}_\mathrm{sp}^\mathrm{homosk}=\frac{\sigma_{Y\mid W,X}^2}{p(1-p)}\]

可见，引入协变量后，方差的估计从 \(\sigma^2_{Y\mid X}\) 调整为 \(\sigma_{Y\mid X,W}^2\) 。如果协变量 \(X\) 能解释绝大多数的方差，那么 \(\sigma_{Y\mid X,W}^2\) 就会显著小于 \(\sigma^2_{Y\mid X}\)，这样我们就得到了一个更精确的估计。当然，引入协变量不是没有代价的——之前我们在有限样本下都能得到精确的无偏估计，现在只能由渐进的无偏性，也就是大样本下无偏性才足够好。

同样的，此时我们可以给出估计量

\[\widehat{\mathbb{V}}_\mathrm{sp}^\mathrm{homosk}=\frac{1}{N(N-1-\dim(X_i))}\cdot\frac{\sum_{i=1}^{N}(Y_i^\mathrm{obs}-\widehat{\alpha}^\mathrm{ols}-\widehat{\tau}^\mathrm{ols}\cdot W_i-X_i\widehat{\beta}^\mathrm{ols})^2}{\bar{W}\cdot(1-\bar{W})}\]

\[\widehat{\mathbb{V}}_\mathrm{sp}^\mathrm{hetero}=\frac{1}{N(N-1-\dim(X_i))}\cdot\frac{\sum_{i=1}^{N}(W_i-\bar{W})^2\cdot(Y_i^\mathrm{obs}-\widehat{\alpha}^\mathrm{ols}-\widehat{\tau}^\mathrm{ols}\cdot W_i-X_i\widehat{\beta}^\mathrm{ols})^2}{(\bar{W}\cdot(1-\bar{W}))^2}\]

带交叉项的回归

回归模型为 \[Y_i^\mathrm{obs}=\alpha+\tau\cdot W_i+X_i\beta+W_i\cdot(X_i-\bar{X})\gamma+\varepsilon_i\]

有最小二乘估计 \[(\widehat{\tau}^\mathrm{ols},\widehat{\alpha}^\mathrm{ols},\widehat{\beta}^\mathrm{ols},\widehat{\gamma}^\mathrm{ols})=\arg\min\limits_{\tau,\alpha,\beta,\gamma}\sum_{i=1}^{N}\left(Y_i^\mathrm{obs}-\alpha-\tau\cdot W_i-X_i\beta-W_i\cdot(X_i-\bar{X})\gamma\right)^2\]

\[(\tau^\ast,\alpha^\ast,\beta^\ast,\gamma^\ast)=\arg\min\limits_{\tau,\alpha,\beta,\gamma}\mathbb{E}_\mathrm{sp}\Big[\left(Y_i^\mathrm{obs}-\alpha-\tau\cdot W_i-X_i\beta-W_i\cdot(X_i-\bar{X})\gamma\right)^2\Big]\]

类似的定理同样给出了估计的准确性和收敛速度

如果我们从无限样本中随机采样进行完全随机化实验，那么

\(\tau^\ast=\tau_\mathrm{sp}\)

\(\begin{align}\sqrt{N}\left(\widehat{\tau}^\mathrm{ols}-\tau_\mathrm{sp}\right)\overset{d}{\rightarrow}\mathcal{N}\left(0,\frac{\mathbb{E}[(W_i-p)^2\cdot(Y_i^\mathrm{obs}-\alpha^\ast-\tau^\ast\cdot W_i-X_i\beta^\ast-W_i\cdot(X_i-\mu_x)\gamma^\ast)^2]}{p^2(1-p^2)}\right)\end{align}\)

此时，记 \(\widehat{Y}_i(0)=\widehat{\alpha}^\mathrm{ols}+X_i\widehat{\beta}^\mathrm{ols}\) , \(\widehat{Y}_i(1)=\widehat{\alpha}^\mathrm{ols}+\widehat{\tau}^\mathrm{ols}+X_i\widehat{\beta}^\mathrm{ols}+(X_i-\bar{X})\widehat{\gamma}^\mathrm{ols}\)

\(\widehat{\tau}_i=W_i\cdot(Y_i(1)-\widehat{Y}_i(0))+(1-W_i)\cdot(\widehat{Y_i}(1)-Y_i(0))\)，代数变换后可得

\[\widehat{\tau}^\mathrm{ols}=\frac{1}{N}\sum_{i=1}^{N}\widehat{\tau}_i\]

所以最小二乘估计 \(\widehat{\tau}^\mathrm{ols}\) 也可以解释为样本中的组间效应。同样的，由于随机化实验，尽管回归模型可能不合理，但该估计还是总体组间效应的一个相合估计。

假设检验(带交叉项的模型)

检验是否有交叉项和常数组间效应

\[H_0:\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)\mid X_i=x]=\tau_\mathrm{sp},\forall x\]

\[ H_1:\exists x_0,x_1\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)\mid X_i=x_1]\neq \mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)\mid X_i=x_2]\]

\[(\widehat{\tau}^\mathrm{ols},\widehat{\gamma}^\mathrm{ols})\] 的规范化后的协方差矩阵为\[\mathbb{V}_{\tau,\gamma}=\begin{pmatrix}\mathbb{V}_\tau&\mathbb{C}_{\tau},\gamma\\\mathbb{C}_{\tau,\gamma}^\intercal &\mathbb{V}_\gamma\end{pmatrix}\]

\(H_0\) 成立时，\(\gamma^\ast=0\)，且 \[Q_\mathrm{const}=(\widehat{\gamma}^\mathrm{ols})^\intercal\widehat{\mathbb{V}}_\gamma^{-1}\widehat{\gamma}^\mathrm{ols}\overset{d}{\rightarrow}\chi(\dim(X_i))\]

检验是否有交叉项和零组间效应

\[H_0:\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)\mid X_i=x]=0,\forall x\]

\[ H_1:\exists x_1,\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)\mid X_i=x_1]\neq 0\]

同样的，\(H_0\) 成立时，\(\gamma^\ast=0\)，且 \[Q_\mathrm{const}=\begin{pmatrix}\widehat{\tau}^\mathrm{ols}\\\widehat{\gamma}^\mathrm{ols}\end{pmatrix}^\intercal\widehat{\mathbb{V}}_\gamma^{-1}\begin{pmatrix}\widehat{\tau}^\mathrm{ols}\\\widehat{\gamma}^\mathrm{ols}\end{pmatrix}\overset{d}{\rightarrow}\chi(\dim(X_i)+1)\]

【Note】 因果推断(四)——回归模型

【Note】 因果推断(四)——回归模型

回归模型

记号

无协变量的回归

有协变量的回归

带交叉项的回归

假设检验(带交叉项的模型)

检验是否有交叉项和常数组间效应

检验是否有交叉项和零组间效应

【Note】因果推断(四)——回归模型

【Note】因果推断(四)——回归模型