【Note】 因果推断(四)——回归模型
条评论There are AMP pages for mobile phone.
回归模型
回归模型关注的则是,如果使用协变量的信息来更好地估计组间效应。在之前我们已经知道我们可以给出组间效应的一个无偏的点估计,因此引入协变量其实就是出于减小方差的目的。事实上,在之前的学习中也开始有引入协变量的想法,比如在构造统计量的时候使用相关的信息;而回归这节则是系统的分析协变量的效用。
记号
首先明确的是,在回归模型中,我们讨论的都是在 super population 下的,也就是样本中的潜在结果其实自身也有随机性的。因此采用的记号基本上也是沿用了 Neyman 那一章中关于 super popolation 的记号
\[\tau_\mathrm{fs}=\frac{1}{N}\sum\limits_{i=1}^{N}(Y_i(1)-Y_i(0)),\quad\tau_\mathrm{sp}=\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)]\]
\[\mu_c(x)=\mathbb{E}_\mathrm{sp}[Y_i(0)\mid X_i=x],\quad \mu_t(x)=\mathbb{E}_\mathrm{sp}[Y_i(1)\mid X_i=x]\]
\[\sigma_c(x)=\mathbb{V}_\mathrm{sp}[Y_i(0)\mid X_i=x],\quad \sigma_t(x)=\mathbb{V}_\mathrm{sp}[Y_i(1)\mid X_i=x]\]
\[\tau(x)=\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)\mid X_i=x],\quad\sigma_{ct}^2(x)=\mathbb{V}_\mathrm{sp}[Y_i(1)-Y_i(0)\mid X_i=x]\]
\[\mu_c=\mathbb{E}_\mathrm{sp}[\mu_c(X_i)],\quad \mu_t=\mathbb{E}_\mathrm{sp}[\mu_t(X_i)]\]
\[\sigma_c^2=\mathbb{E}_\mathrm{sp}[\sigma_c^2(X_i)]+\mathbb{V}_\mathrm{sp}[\mu_c(X_i)],\quad\sigma_t^2=\mathbb{E}_\mathrm{sp}[\sigma_t^2(X_i)]+\mathbb{V}_\mathrm{sp}[\mu_t(X_i)]\]
\[\mu_X=\mathbb{E}_\mathrm{sp}[X_i],\quad\Omega_X=\mathbb{V}_\mathrm{sp}[X_i]=\mathbb{E}_\mathrm{sp}[(X_i-\mu_X)^\intercal(X_i-\mu_X)]\]
无协变量的回归
回归模型为 \(Y_i^\mathrm{obs}=\alpha+\tau\cdot W_i+\varepsilon_i\)
最小二乘估计 \((\widehat{\tau}^\mathrm{ols},\widehat{\alpha}^\mathrm{ols})=\arg\min\limits_{\tau,\alpha}\sum_{i=1}^{N}(Y_i^\mathrm{obs}-\alpha-\tau\cdot W_i)^2\)
由线性回归直接写出
\[\widehat{\tau}^\mathrm{ols}=\frac{\sum_{i=1}^N(W_i-\bar{W})(Y_i^\mathrm{obs}-\bar{Y}^\mathrm{obs})}{\sum_{i=1}^N(W_i-\bar{W})^2}=\frac{\sum_{i=1}^{N}W_iY_i^\mathrm{obs}-N\bar{W}\bar{Y}^\mathrm{obs}}{N_tN_c/N}=\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}=\widehat{\tau}^\mathrm{dif}\]
\(\widehat{\alpha}^\mathrm{ols}=\bar{Y}^\mathrm{obs}-\widehat{\tau}^\mathrm{obs}\cdot\bar{W}=\bar{Y}_c^\mathrm{obs}\)
\(\tau\) 的最小二乘估计通常会被解释为因果性 (因为施加了不同的处理),这在随机化实验中是显式的,而在观察实验(也就是不能或没有设计实验,只是拿到了结果)里是隐式的。在最小二乘估计的求解中,我们假设了 \(\varepsilon_i\) 是独立于,或至少是不相关于 \(W_i\) 。这一假设通常难以被验证,因为这些残差通常被解释为一切没有被注意到的因子造成的影响。因此,统计教材中通常只把 \(\tau\) 解释为 \(W_i\) 和 \(Y_i^\mathrm{obs}\) 的 相关性 而非 因果性 。但在这里,由于 \(\widehat{\tau}^\mathrm{ols}= \widehat{\tau}^\mathrm{dif}\) 是 \(\tau_\mathrm{fs}\) 和 \(\tau_\mathrm{sp}\) 的无偏估计,因此他们有了 因果性。但是,使用线性回归的方法来阐述 \(\widehat{\tau}^\mathrm{ols}\) 的因果性是有用的。
在全体样本的视角下,此时回归模型也就是 \[Y_i^\mathrm{obs}=\mu_c+(\mu_t-\mu_c)\cdot W_i+\varepsilon_i=\mathbb{E}_\mathrm{sp}[Y_i(0)]+\tau_\mathrm{sp}\cdot W_i+\varepsilon_i\]
当然,这些的成立都是因为完全随机化实验带来的保证,包括
\[W_i\perp (Y_i(0), Y_i(1)),\quad\mathbb{E}_\mathrm{sp}[\varepsilon_i\mid W_i=w]=0\ (w=0,1)\,\quad\mathbb{V}_\mathrm{sp}[\varepsilon_i\mid W_i]=\sigma_t^2W_i+\sigma_c^2(1-W_i)\]
为方便记
\[\beta=(\alpha,\tau)\qquad X=\begin{pmatrix}1_{N_c}&0_{N_c}\\1_{N_t}&1_{N_t}\end{pmatrix}\qquad H=(X^\intercal X)^{-1}X^\intercal=\begin{pmatrix}\frac{1_{N_c}}{N_c}&\frac{-1_{N_c}}{N_c}\\\frac{0_{N_t}}{N_t}&\frac{1_{N_t}}{N_t}\end{pmatrix}^\intercal\qquad\Sigma=\mathbb{V}_\mathrm{sp}[\varepsilon\mid X]\]
则 \(\widehat{\beta}=HY^\mathrm{obs}=\beta+H\varepsilon\) ,其中第二项满足渐进正态性。而 \(\mathrm{Var}(\widehat{\beta})=H\Sigma H^\intercal\)
先考察简单的情况,即 \(\sigma_c^2=\sigma_t^2=\sigma_{Y\mid W}^2,\,\Sigma=\mathrm{diag}(\sigma^2,\ldots,\sigma^2)\) 此时可以给出估计量
\(\widehat{\sigma}_{Y\mid W}^2=\frac{1}{N-2}\sum_{i=1}^{N}\widehat{\varepsilon}_i^2=\frac{1}{N-2}\Big(\sum\limits_{i:W_i=0}(Y_i^\mathrm{obs}-\bar{Y}_c^\mathrm{obs})^2+\sum\limits_{i:W_i=1}(Y_i^\mathrm{obs}-\bar{Y}_t^\mathrm{obs})^2\Big)=s^2\)
由于 \[\mathbb{V}_\mathrm{sp}^\mathrm{homosk}=\mathbb{V}_\mathrm{sp}(\widehat{\tau}^\mathrm{ols})=\sigma_{Y\mid W}^2\frac{1}{\sum_{i=1}^{N}(W_i-\bar{W})^2}=\sigma_{Y\mid W}^2\left(\frac{1}{N_c}+\frac{1}{N_t}\right)\] 得到估计量 \[\widehat{\mathbb{V}}_\mathrm{sp}^\mathrm{homosk}=\widehat{\mathbb{V}}(\widehat{\tau}^\mathrm{ols})=\widehat\sigma_{Y\mid W}^2\left(\frac{1}{N_c}+\frac{1}{N_t}\right)=\widehat{\mathbb{V}}^\mathrm{const}\]
这一结果是是否自然的,因为当组间效应为常数时,控制组和实验组的方差都相等。
为了和后面的结果比较,我们考察根据样本规模规范化后的方差,记 \(p=\lim\limits_{N\rightarrow\infty}\frac{N_t}{N}\) 得到结论
\[N\cdot\widehat{\mathbb{V}}_\mathrm{sp}^\mathrm{homosk}\overset{p}{\rightarrow}\frac{\widehat{\sigma}_{Y\mid W}^2}{p(1-p)}\]
再考察 \(\sigma_c^2\neq\sigma_t^2\),此时
\[\begin{align}\widehat{\mathbb{V}}_\mathrm{sp}^\mathrm{hetero}=\widehat{\mathbb{V}}(\widehat\sigma_{Y\mid W}^2)=\frac{\sum_{i=1}^{N}\widehat\varepsilon_i^2\cdot(W_i-\bar{W})^2}{\Big(\sum_{i=1}^{N}(W_i-\bar{W})^2\Big)^2}\end{align}\]
同样有估计量 \(\widehat{\sigma}_t^2=\frac{1}{N-1}\sum_{i=1}^{N}\widehat\varepsilon_i^2W_i,\,\widehat{\sigma}_c^2=\frac{1}{N-1}\sum_{i=1}^{N}\widehat\varepsilon_i^2(1-W_i)\)
此时得到的估计量 \[\widehat{\mathbb{V}}_\mathrm{sp}^\mathrm{hetero}=\frac{\widehat\sigma_c^2}{N_c^2}+\frac{\widehat\sigma_t^2}{N_t}=\widehat{\mathbb{V}}^\mathrm{neyman}\]
可以看到,回归模型更容易理解(因为大多数人之前都接触过),而且最后导出了和 Neyman 相同的结果。同时这样的模型更容易扩展到有协变量的情形,这是回归模型的优越处。
有协变量的回归
回归模型为 \[Y_i^\mathrm{obs}=\alpha+\tau\cdot W_i+X_i\beta+\varepsilon_i\]
有最小二乘估计 \[(\widehat{\tau}^\mathrm{ols},\widehat{\alpha}^\mathrm{ols},\widehat{\beta}^\mathrm{ols})=\arg\min\limits_{\tau,\alpha,\beta}\sum_{i=1}^{N}\left(Y_i^\mathrm{obs}-\alpha-\tau\cdot W_i-X_i\beta\right)^2\]
无限样本下,上式变为 \[(\tau^\ast,\alpha^\ast,\beta^\ast)=\arg\min\limits_{\tau,\alpha,\beta}\mathbb{E}_\mathrm{sp}\Big[\left(Y_i^\mathrm{obs}-\alpha-\tau\cdot W_i-X_i\beta\right)^2\Big]\]
下面的定理则给出了估计的准确性和收敛速度
如果我们从无限样本中随机采样进行完全随机化实验,那么
\(\tau^\ast=\tau_\mathrm{sp}\)
\(\begin{align}\sqrt{N}\left(\widehat{\tau}^\mathrm{ols}-\tau_\mathrm{sp}\right)\overset{d}{\rightarrow}\mathcal{N}\left(0,\frac{\mathbb{E}[(W_i-p)^2\cdot(Y_i^\mathrm{obs}-\alpha^\ast-\tau^\ast\cdot W_i-X_i\beta^\ast)^2]}{p^2(1-p^2)}\right)\end{align}\)
其中 \((Y_i^\mathrm{obs}-\alpha^\ast-\tau^\ast\cdot W_i-X_i\beta^\ast)^2=\sigma_i^2=\mathbb{V}[\varepsilon_i\mid W_i,X_i]=\mathbb{V}[Y_i(W_i)\mid X_i]\)
证明:考虑目标函数
\(\begin{align}Q(\alpha,\tau,\beta)&=\mathbb{E}_\mathrm{sp}\Big[\left(Y_i^\mathrm{obs}-\alpha-\tau\cdot W_i-X_i\beta\right)^2\Big]\\&=\mathbb{E}_\mathrm{sp}\Big[\left(Y_i^\mathrm{obs}-\tilde{\alpha}-\tau\cdot W_i-(X_i-\mu_X)\beta\right)^2\Big]\end{align}\)
其中 \(\tilde{\alpha}=\alpha+\mu_X\beta,\,\mu_X=\mathbb{E}[X_i]\) ,则
\[\begin{align}Q(\tilde\alpha,\tau,\beta)&=\mathbb{E}_\mathrm{sp}\Big[\left(Y_i^\mathrm{obs}-\tilde{\alpha}-\tau\cdot W_i\right)^2\Big]+\mathbb{E}_\mathrm{sp}\Big[\big((X_i-\mu_X)\beta\big)^2\Big]\\&\quad-2\cdot\mathbb{E}_\mathrm{sp}\Big[\left(Y_i^\mathrm{obs}-\tilde{\alpha}-\tau\cdot W_i\right)\big((X_i-\mu_X)\beta\big)\Big]\\&=\mathbb{E}_\mathrm{sp}\Big[\left(Y_i^\mathrm{obs}-\tilde{\alpha}-\tau\cdot W_i\right)^2\Big]+\mathbb{E}_\mathrm{sp}\Big[\big((X_i-\mu_X)\beta\big)^2\Big]\\&\quad-2\cdot\mathbb{E}_\mathrm{sp}\Big[Y_i^\mathrm{obs}\cdot(X_i-\mu_X)\beta\Big]\end{align}\]
注意到后两项和 \(\alpha,\tau\) 无关,因此最小化 \(Q(\tilde\alpha,\tau,\beta)\) 等价于最小化 第一项,直接类比上一节的结论得
\[\tilde\alpha^\ast=\mathbb{E}_\mathrm{sp}[Y_i(0)]=\mu_c\]
\[\tau^\ast=\mathbb{E}_\mathrm{sp}[Y_i^\mathrm{obs}\mid W_i=1]-\mathbb{E}_\mathrm{sp}[Y_i^\mathrm{obs}\mid W_i=0]=\mathbb{E}_\mathrm{sp}[Y_i(1)\mid W_i=1]-\mathbb{E}_\mathrm{sp}[Y_i(0)\mid W_i=1]=\tau_\mathrm{sp}\]
值得注意的是,这一结果意味着 \(\widehat{\tau}_\mathrm{sp}\) 的相合性不依赖于回归函数的正确性。无论全体样本下,给定协变量后 \(Y\) 的条件期望有多么的“不线性”,使用最小二乘估计的组间效应总是相合的。这是因为在完全随机化实验下,全体样本下 \(W_i\) 和 \(X\) 的协方差为零。尽管在有限样本下他们的协方差可能非零,但大样本下他们的相关性会趋于零,因此协变量 \(X\) 的引入不会影响估计的相合性。当然,有限样本下他们的相关性会导致估计出现偏差。
因此协变量 \(X\) 的引入不会影响估计的均值,但其会影响估计的方差。同样的我们先考虑简单情形:先假设条件期望是协变量的线性函数,即
\[\mathbb{E}_\mathrm{sp}[Y_i(0)\mid X_i=x]=\alpha_c+x\beta,\,\mathbb{E}_\mathrm{sp}[Y_i(1)\mid X_i=x]=\alpha_t+x\beta\] ,故
\[\mathbb{E}_\mathrm{sp}[Y_i^\mathrm{obs}\mid X_i=x,W_i=t]=\alpha_c+\tau_\mathrm{sp}\cdot t+x\beta\]
再假设两个潜在结果的方差不随着协变量和处理改变,即
\[\mathbb{V}_\mathrm{sp}[Y_i(w)\mid X_i=x]=\sigma_{Y\mid W,X}^2,\ \forall w=0,1;\forall x\]
此时得到结果为 \[N\cdot\mathbb{V}_\mathrm{sp}^\mathrm{homosk}=\frac{\sigma_{Y\mid W,X}^2}{p(1-p)}\]
可见,引入协变量后,方差的估计从 \(\sigma^2_{Y\mid X}\) 调整为 \(\sigma_{Y\mid X,W}^2\) 。如果协变量 \(X\) 能解释绝大多数的方差,那么 \(\sigma_{Y\mid X,W}^2\) 就会显著小于 \(\sigma^2_{Y\mid X}\),这样我们就得到了一个更精确的估计。当然,引入协变量不是没有代价的——之前我们在有限样本下都能得到精确的无偏估计,现在只能由渐进的无偏性,也就是大样本下无偏性才足够好。
同样的,此时我们可以给出估计量
\[\widehat{\mathbb{V}}_\mathrm{sp}^\mathrm{homosk}=\frac{1}{N(N-1-\dim(X_i))}\cdot\frac{\sum_{i=1}^{N}(Y_i^\mathrm{obs}-\widehat{\alpha}^\mathrm{ols}-\widehat{\tau}^\mathrm{ols}\cdot W_i-X_i\widehat{\beta}^\mathrm{ols})^2}{\bar{W}\cdot(1-\bar{W})}\]
\[\widehat{\mathbb{V}}_\mathrm{sp}^\mathrm{hetero}=\frac{1}{N(N-1-\dim(X_i))}\cdot\frac{\sum_{i=1}^{N}(W_i-\bar{W})^2\cdot(Y_i^\mathrm{obs}-\widehat{\alpha}^\mathrm{ols}-\widehat{\tau}^\mathrm{ols}\cdot W_i-X_i\widehat{\beta}^\mathrm{ols})^2}{(\bar{W}\cdot(1-\bar{W}))^2}\]
带交叉项的回归
回归模型为 \[Y_i^\mathrm{obs}=\alpha+\tau\cdot W_i+X_i\beta+W_i\cdot(X_i-\bar{X})\gamma+\varepsilon_i\]
有最小二乘估计 \[(\widehat{\tau}^\mathrm{ols},\widehat{\alpha}^\mathrm{ols},\widehat{\beta}^\mathrm{ols},\widehat{\gamma}^\mathrm{ols})=\arg\min\limits_{\tau,\alpha,\beta,\gamma}\sum_{i=1}^{N}\left(Y_i^\mathrm{obs}-\alpha-\tau\cdot W_i-X_i\beta-W_i\cdot(X_i-\bar{X})\gamma\right)^2\]
\[(\tau^\ast,\alpha^\ast,\beta^\ast,\gamma^\ast)=\arg\min\limits_{\tau,\alpha,\beta,\gamma}\mathbb{E}_\mathrm{sp}\Big[\left(Y_i^\mathrm{obs}-\alpha-\tau\cdot W_i-X_i\beta-W_i\cdot(X_i-\bar{X})\gamma\right)^2\Big]\]
类似的定理同样给出了估计的准确性和收敛速度
如果我们从无限样本中随机采样进行完全随机化实验,那么
\(\tau^\ast=\tau_\mathrm{sp}\)
\(\begin{align}\sqrt{N}\left(\widehat{\tau}^\mathrm{ols}-\tau_\mathrm{sp}\right)\overset{d}{\rightarrow}\mathcal{N}\left(0,\frac{\mathbb{E}[(W_i-p)^2\cdot(Y_i^\mathrm{obs}-\alpha^\ast-\tau^\ast\cdot W_i-X_i\beta^\ast-W_i\cdot(X_i-\mu_x)\gamma^\ast)^2]}{p^2(1-p^2)}\right)\end{align}\)
此时,记 \(\widehat{Y}_i(0)=\widehat{\alpha}^\mathrm{ols}+X_i\widehat{\beta}^\mathrm{ols}\) , \(\widehat{Y}_i(1)=\widehat{\alpha}^\mathrm{ols}+\widehat{\tau}^\mathrm{ols}+X_i\widehat{\beta}^\mathrm{ols}+(X_i-\bar{X})\widehat{\gamma}^\mathrm{ols}\)
\(\widehat{\tau}_i=W_i\cdot(Y_i(1)-\widehat{Y}_i(0))+(1-W_i)\cdot(\widehat{Y_i}(1)-Y_i(0))\),代数变换后可得
\[\widehat{\tau}^\mathrm{ols}=\frac{1}{N}\sum_{i=1}^{N}\widehat{\tau}_i\]
所以最小二乘估计 \(\widehat{\tau}^\mathrm{ols}\) 也可以解释为样本中的组间效应。同样的,由于随机化实验,尽管回归模型可能不合理,但该估计还是总体组间效应的一个相合估计。
假设检验(带交叉项的模型)
检验是否有交叉项和常数组间效应
\[H_0:\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)\mid X_i=x]=\tau_\mathrm{sp},\forall x\]
\[ H_1:\exists x_0,x_1\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)\mid X_i=x_1]\neq \mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)\mid X_i=x_2]\]
\[(\widehat{\tau}^\mathrm{ols},\widehat{\gamma}^\mathrm{ols})\] 的规范化后的协方差矩阵为\[\mathbb{V}_{\tau,\gamma}=\begin{pmatrix}\mathbb{V}_\tau&\mathbb{C}_{\tau},\gamma\\\mathbb{C}_{\tau,\gamma}^\intercal &\mathbb{V}_\gamma\end{pmatrix}\]
\(H_0\) 成立时,\(\gamma^\ast=0\),且 \[Q_\mathrm{const}=(\widehat{\gamma}^\mathrm{ols})^\intercal\widehat{\mathbb{V}}_\gamma^{-1}\widehat{\gamma}^\mathrm{ols}\overset{d}{\rightarrow}\chi(\dim(X_i))\]
检验是否有交叉项和零组间效应
\[H_0:\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)\mid X_i=x]=0,\forall x\]
\[ H_1:\exists x_1,\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)\mid X_i=x_1]\neq 0\]
同样的,\(H_0\) 成立时,\(\gamma^\ast=0\),且 \[Q_\mathrm{const}=\begin{pmatrix}\widehat{\tau}^\mathrm{ols}\\\widehat{\gamma}^\mathrm{ols}\end{pmatrix}^\intercal\widehat{\mathbb{V}}_\gamma^{-1}\begin{pmatrix}\widehat{\tau}^\mathrm{ols}\\\widehat{\gamma}^\mathrm{ols}\end{pmatrix}\overset{d}{\rightarrow}\chi(\dim(X_i)+1)\]
- 本文链接:http://blog.vicayang.cc/Note-Casual-Inference-Regression-Model/
- 版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC-ND 4.0 许可协议。转载请注明出处!