先考虑一个相对简单的题目,掌握方法后可尝试接下来的题目(答案见文末)。
Q1-1: \(n\) 个球放入 \(n\) 个盒子,球和盒子都标号 1-n,问球的编号和盒的编号相同的个数的期望和方差。
A1-1: 记 \(X_i\) 是第 \(i\) 个球是否放入第 \(i\) 个盒子,则总个数 \(Y=\sum_{i=1}^{n}X_i\)。注意到 \(X_i\) 同分布(但不独立),故 \(\mathbb{E}[Y] = n\mathbb{E}[X_1]\)。不难证明第 \(i\) 个球放入第 \(i\) 个盒子的概率是 \(1/n\),故 \(\mathbb{E}[X_1]=\mathbb{P}(X_1=1)=1/n\),进而 \(\mathbb{E}[Y]=1\)。 为求方差,需求 \(\mathbb{E}[Y^2]=\mathbb{E}[(\sum_{i=1}^{n}X_i)(\sum_{i=1}^{n}X_i)]\),故需要考虑 \(\mathbb{E}[X_iX_j]\)。根据此题背景,需要考虑两个情况
不难验证 \(X_iX_j\) 一共有 \(n^2\) 对,恰好为 \(n + n(n-1)\),故已经不重不漏地讨论完了。 此时 \(\mathbb{E}[Y^2] = n*\dfrac{1}{n}+n(n-1)*\dfrac{1}{n(n-1)}=2\), \(\text{Var}[Y] = 1\)。
1 | def simulate(n, k=10000): |
Q1-2: \(n\) 个男生 \(m\) 个女生随机排成一列,有 \(n+m-1\) 个相邻的配对,问配对中性别不同的个数的期望和方差。
Q1-3: 一个公交车在初始有 \(n\) 个乘客,中途只下不上。每个乘客独立随机地从 \(m\) 个站中选1个下。如果某站没有乘客下车,则公交车不停靠,问停靠次数的期望和方差。
Q1-4: n个顶点的随机图,任意两个顶点间有概率 \(p\) 连边,问形成的三角形的数目的期望和方差。
Q2-1 线段均与取两点,得到的三段构成三角形的概率。
Q2-3 圆周上均匀取三点,问构成钝角三角形的概率。
Q2-4 圆周上均匀取三点,问构成的最大角的分布。
Q3-1 不断投掷一枚硬币直至出现正面停止,每次结果独立且正面的概率为 \(0<p<1\),求投掷次数的期望。
A3-1 记投掷次数为 \(X\),第一次投掷结果是否为正面为 \(I\)。注意此时 \(I\) 为二元变量,且 \(\mathbb{E}[I^2]=\mathbb{E}[I]=\mathbb{P}[I=1]=p\)。 根据投掷情况,若投掷出正面,则停止,此时投掷了一次。否则游戏回到原点,仍需投 \(X\) 次,故需投掷 \(1+X\) 次。故 \(X=I\times 1+(1-I)\times (1+X)\)。 由于当前投掷的一次不可避免,我们一般会写为 \(X=1 + I\times 0+(1-I)\times X = 1 + (1-I)\times X\) 更为简洁直观。 基于该关系式,我们可以很容易的算出期望和方差(注意 \(I\) 和 \(X\) 独立) \(\mathbb{E}[X]=1+(1-p)\mathbb{E}[X]\Rightarrow \mathbb{E}[X] = 1/p\) \(\text{Var}[X]=\text{Var}[(1-I)X]=\mathbb{E}[((1-I)X)^2]-(\mathbb{E}[(1-I)X])^2=\mathbb{E}[(1-I)^2]\mathbb{E}[X^2]-(\mathbb{E}[(1-I)X])^2\)\(=(1-p)\mathbb{E}[X^2]-(1-p)^2\mathbb{E}[X]^2=(1-p)\text{Var}[X]+(p-p^2)\mathbb{E}[X]^2\) 得 \(\text{Var}[X]=(1-p)/p^2\)
注:其实该分布为几何分布,因此读者应该对这一结论并不感到意外。但从这个视角看这个过程,可能会更好地理解这一系列相关的题目。
1 | def simulate(p, k=10000): |
Q3-2: 不断投掷一枚硬币直至出现连续两次正面则停止,每次结果独立且正面的概率为 \(0<p<1\),求投掷次数的期望。(应至少有3个状态:空/反、正、正正,其中到达正正时游戏结束。设出每个状态到达正正结束时次数的期望,解方程组)
Q3-3: 不断投掷一枚硬币直至出现连续两次相同则停止,每次结果独立且正面的概率为 \(0<p<1\),求投掷次数的期望。(应至少有5个状态:空、正、反、正正,反反)
ToDo
预备知识1:如果 \(\boldsymbol{X}\sim\mathcal{N}(\boldsymbol{\mu},\Sigma)\), 则 \(\boldsymbol{b+AX}\sim\mathcal{N}(\boldsymbol{b+A\mu},\boldsymbol{A}\Sigma\boldsymbol{A}^\intercal)\)
预备知识2:如果 \(\begin{pmatrix}\boldsymbol{X_1}\\\boldsymbol{X_2}\end{pmatrix}\sim\mathcal{N}\left(\begin{pmatrix}\boldsymbol{\mu_1}\\\boldsymbol{\mu_2}\end{pmatrix},\begin{pmatrix}\Sigma_{11}&\Sigma_{12}\\\Sigma_{21}&\Sigma_{22}\end{pmatrix}\right)\), 则给定 \(\boldsymbol{X_1}=\boldsymbol{x_1}\) 下,\(\boldsymbol{X_2}\) 条件分布为\(\mathcal{N}(\boldsymbol{\mu_2}+\Sigma_{21}\Sigma_{11}^{-1}(\boldsymbol{x_1}-\boldsymbol{\mu}),\Sigma_{22}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12})\)
Q5-1 已知 \(\begin{pmatrix}X\\Y\end{pmatrix}\sim\mathcal{N}\left(\begin{pmatrix}0\\0\end{pmatrix},\begin{pmatrix}\sigma^2&\rho\sigma^2\tau^2\\\rho\sigma^2\tau^2&\tau^2\end{pmatrix}\right)\),求 \(\mathbb{E}[X\mid X+Y=z]\) 和 \(\text{Var}[X\mid X+Y=z]\)
Q5-2 已知 \(X,Y\) 独立且服从标准正态分布,设 \(Z=\mathbb{E}[X\mid (3X-Y+2)]\),求 \(\mathbb{E}[Z], \text{Var}[Z], \mathbb{E}[YZ]\)。
A5-2 (解一) 我们不用什么结论,直接用正交变换来做这一题。令 \(U=(3X-Y)/\sqrt{10}, V=(X+3Y)/\sqrt{10}\) 则 \(U,V\) 也独立且服从标准正态分布,且
\(Z=\mathbb{E}[(3U+V)/\sqrt{10}\mid \sqrt{10}U+2]=3U/\sqrt{10}\)。因此 \(\mathbb{E}[Z]=0\), \(\text{Var}(Z)=9\text{Var}(U)/10=9/10\),\(\mathbb{E}[YZ]=\mathbb{E}[Y\cdot (9X-3Y)/10]=-3/10\)
(解二)令 \(A=3X-Y+2\),则\(\mathbb{E}[A]=2\),\(\text{Var}[A]=10\) \(\text{Cov}[AX]=\mathbb{E}[AX]=3\)
即 \(\begin{pmatrix}X\\A\end{pmatrix}\sim\mathcal{N}\left(\begin{pmatrix}0\\2\end{pmatrix},\begin{pmatrix}1&3\\3&10\end{pmatrix}\right)\) 则有条件期望
\[X\mid_{A=a}\sim\mathcal{N}\left(0+\dfrac{3}{10}(a-2), 1-3\cdot\dfrac{1}{10}\cdot 3\right)=\mathcal{N}\left(\dfrac{3(a-2)}{10},\dfrac{1}{10}\right)\] 故 \(Z=\dfrac{3}{10}(A-2)\) 进而得 \(\mathbb{E}[Z]=0,\text{Var}[Z]=9\text{Var}[A]/100=9/10\)
\(\mathbb{E}[YZ]=\mathbb{E}[Y\cdot\frac{3}{10}(3X-Y)]=-3/10\)
Q6-1 放球问题(详细答案见文末)
Q7-1 存在一样本大小为 \(N\) 的样本,记为 \(a_1,a_2,\ldots,a_N\). 样本均值为 \(\mu=\sum_i a_i / N\),样本方差为 \(\sigma^2=\sum_i (a_i-\mu)^2 / N\)。现从中(无放回地)采样出 \(n\) 个样本 (\(n\le N\)),问采样结果的均值和方差是多少。
Q8-1 记\((N)_k=N(N-1)\cdots(N-k+1)=N!/(N-k)!\) 证明 \(\sum_{k=1}^{N}\dfrac{k (N)_k}{N^{k+1}}=1\) ## 答案
A1-2: 记 \(X_i\) 是第 \(i\) 个配对的性别是否不同,则总个数 \(Y=\sum_{i=1}^{n+m-1}X_i\)。注意到 \(X_i\) 同分布(但不独立),故 \(\mathbb{E}[Y] = (n+m-1)\mathbb{E}[X_1]\)。不难证明每个配对都是从 \((n+m)(n+m-1)\) 种配对中等概率的选一种,其中性别不同的有 \(2nm\) 种,故 \(\mathbb{E}[X_1]=\mathbb{P}(X_1=1)=\dfrac{2nm}{(n+m)(n+m-1)}\),进而 \(\mathbb{E}[Y]=\frac{2nm}{(n+m)}\)。 为求方差,需求 \(\mathbb{E}[Y^2]=\mathbb{E}[(\sum_{i=1}^{n+m-1}X_i)(\sum_{i=1}^{n+m-1}X_i)]\),故需要考虑 \(\mathbb{E}[X_iX_j]\)。根据此题背景,需要考虑三个情况
此时 \(\mathbb{E}[Y^2] = \dfrac{2nm(2nm-1)}{(n+m)(n+m-1)}\), \(\text{Var}[Y] = \dfrac{2nm(2nm-m-n)}{(n+m)^2(n+m-1)}\)
1 | def simulate(n, m, k=10000): |
A1-3: 记 \(X_i\) 是第 \(i\) 站是否停靠,而 \(P(X_i=0)=(\frac{m-1}{m})^n\),故 \(\mathbb{E}[X_i]=P(X_i=1)=1-(\frac{m-1}{m})^n\),进而 \(\mathbb{E}[\sum_{i=1}^{m}X_i]=m(1-(\frac{m-1}{m})^n)\)。下考察 \(\mathbb{E}[X_iX_j]\),一共有 \(m^2\) 对,其中
此时 \(\mathbb{E}[Y^2] = m(1-(\frac{m-1}{m})^n)+m(m-1)(1-2*(\frac{m-1}{m})^n+(\frac{m-2}{m})^n)\), \(\text{Var}[Y] = m(\frac{m-1}{m})^n-m^2(\frac{m-1}{m})^{2n}-m\frac{m-2}{m})^n+m^2\frac{m-2}{m})^n\)
1 | def simulate(n, m, k=10000): |
A1-4: 记 \(X_{ijk}\) 是顶点 \(i,j,k\) 是否构成三角形,\(P(X_{ijk}=1)=p^3\),故所求期望为 \(\binom{n}{3}p^3\)。 下考察 \(\mathbb{E}[X_{ijk}X_{i'j'k'}]\),一共有 \(\binom{n}{3}*\binom{n}{3}\) 对,其中
此时 \(\text{Var}[Y] = \binom{n}{3} p^3+12\binom{n}{4}p^5+(30\binom{n}{5}+20\binom{n}{6}-\binom{n}{3}\binom{n}{3})p^6\)
1 | def simulate(n, p, k=10000): |
A3-2: 设从空、正出发的期望次数分别是 \(X\) 和 \(Y\),则有关系 \(X=1+pY+(1-p)X\),\(Y=1+(1-p)X\) 得 \(X=(1+p)/p^2\)
1 | def simulate(p, k=10000): |
A3-3: 设从空、正、反出发的期望次数分别是 \(Z,X,Y\),则有关系 \(Z=1+pX+(1-p)Y\),\(X=1+(1-p)Y\),\(Y=1+pY\)。解得 \(X=\dfrac{2-p}{1-p+p^2}\),\(Y=\dfrac{1+p}{1-p+p^2}\),\(Z=\dfrac{2+p-p^2}{1-p+p^2}\)
1 | def simulate(p, k=10000): |
A6-1
A7-1
视角一:将选出的样本记为 \(X_1,\ldots,X_n\) 视为随机变量,则有 \(X_i\) 不独立但同分布:\(P(X_i=a_1)=P(X_i=a_2)=\ldots=P(X_i=a_N)=1/N, \forall i\)
\(\mathbb{E}[X_i]=\sum_{k=1}^{N} 1/N*a_k, \mathbb{E}[X_i^2]=\sum_{k=1}^{N}1/N*a_k^2=\sum_k a_k^2/N\)
\(\mathbb{E}[X_iX_j]=\sum_{k\ne l} a_ka_l / N(N-1)\)
而 \(N\mu=\sum_{k=1}^{N} a_k,\quad N\sigma^2=\sum_{k=1}^{N}(a_k-\mu)^2=\sum_{k=1}^{N}a_k^2-N\mu^2,\quad N^2\mu^2=\sum_{k,l}a_ka_l\)
故 \(\mathbb{E}[X_i]=\mu,\mathbb{E}[X_i^2]=\mu^2+\sigma^2,\mathbb{E}[X_iX_j]=(N^2\mu^2-(N\mu^2+N\sigma^2))/N(N-1)=\mu^2-\sigma^2/(N-1)\)
则\(\mathbb{E}[Y]=\sum_{i=1}^{n}\mathbb{E}[X_i]=n\mu\)
\(\mathbb{E}[Y^2]=n \mathbb{E}[X_i^2]+n(n-1)\mathbb{E}[X_iX_j]=n(\mu^2+\sigma^2)+n(n-1)(\mu^2-\sigma^2/(N-1))=n^2\mu^2+n(1-\frac{n-1}{N-1})\sigma^2\)
\(\text{Var}(Y)=\mathbb{E}[Y^2]-\mathbb{E}[Y]^2=\frac{N-n}{N-1}n\sigma^2\)
视角二:使用指示变量表示选出的结果。记 \(I_k\in \{0,1\}\) 表示 \(a_k\) 是否被选,则 \(I_k\) 同分布 (\(P(I_k=1)=n/N\)) 。所求为 \(Y=\sum_{k=1}^N a_kI_k\)
\(\mathbb{E}[Y] = \sum_{k=1}^{N}\mathbb{E}[a_kI_k]=\sum_{k=1}^{N}a_k\mathbb{E}[I_k]=\sum_{k=1}^{N}\frac{n}{N}a_k=\frac{n}{N}*N\mu=n\mu\)
为考察方差,注意到 \(\mathbb{E}[I_k^2]=n/N\), \(\mathbb{E}[I_kI_l]=\frac{n(n-1)}{N(N-1)}, (k\neq l)\)
且\(N^2\mu^2=(\sum_{k=1}^{N}a_k)^2=\sum_{i=1}^{N}\sum_{j=1}^{N}a_ia_j\), \(N\sigma^2=\sum_{k=1}^{N}(a_k-\mu)^2=\sum_{k=1}^{N} a_k^2-N\mu^2\) \[\mathbb{E}[Y^2]=\sum_{k=1}^{N}a_k^2\mathbb{E}[I_k^2]+\sum_{k\neq l} a_ka_l\mathbb{E}[I_kI_l]=\frac{n}{N}\sum_k a_k^2+\frac{n(n-1)}{N(N-1)}\sum_{k\ne l} a_ka_l\\=\frac{n}{N}(N\mu^2+N\sigma^2)+\frac{n(n-1)}{N(N-1)}(N^2\mu^2-N\sigma^2-N\mu^2)\\=n^2\mu^2+\frac{n(N-n)}{N-1}\sigma^2\] \(\text{Var}[Y]=\mathbb{E}[Y^2]-\mathbb{E}[Y]^2=\frac{N-n}{N-1}n\sigma^2\)
A8-1
解法一:考虑从编号1-N的球进行有放回抽样,直至抽到之前抽过的球停止。不难知最少抽两次即停止(第二次和第一次抽到一样的球),最多抽 \(N+1\) 次停止(前 \(N\) 次抽到 \(N\) 个不同的球,最后一次一定会抽到之前抽过的球。记 \(p_k\) 为停止时,之前抽的球的数量,则 \(\sum_{k=1}^{N}p_k=1\). 而 \(p_k\) 表示前 \(k\) 次都未重复,第 \(k+1\) 次重复,其概率不难计算为 \(p_k=\frac{N}{N}\cdot\frac{N-1}{N}\cdots\frac{N-k+1}{N}\cdot {k}{N}=\frac{k\cdot (N)_k}{N^{k+1}}\). 得证
解法二:注意到 \(\frac{k(N)_k}{N^{k+1}}=\frac{(N)_k}{N^k}-\frac{(N)_{k+1}}{N^{k+1}}\), 得\(\sum_{k=1}^{N}\frac{k(N)_k}{N^{k+1}}=\frac{(N)_1}{N^1}-\frac{(N)_{N+1}}{N^{N+1}}=1\)
]]>首先,如果你只是在同一家vps厂商下换个ip的话,理论上只需要做一个snapshot然后重新建一个服务器就好,这样做几乎没有任何需要重新配的东西(除了ip)
当上述操作无法进行的时候,包括但不限于 - 换vps厂商 - 换vps账号 - 换vps的地区 - 降级vps配置
你就需要走上漫漫的重装之路了。当然,如果你是第一次装也可以参考下面的步骤。但因为我不是从零配起,而且有一些先验的知识,我不会事无巨细地讲解(如果你不熟悉linux此时建议找个朋友指导或者email我,我再给出并顺便整理更详细的说明)。
我的服务器上没有跑什么东西,只是部署了几个hexo的网站和v2ray的代理,因此权衡了一下,与其手动迁移大量配置不如重零开始重装来的省事。
我是在Digital Ocean上购买的,每月5刀,没有流量限制(不过挂pt啥的估计也是有限制的),速度的话选加州大约200ms左右,速度可以看油管1080p。有人写了个测速的网页可以参考:测速网址,照它写的先添加书签然后去DO测速网页点击书签就行了。
DO的话还有一个好处就是Github教育优惠给50刀(相当于10个月),然后如果通过推广链接的话进的话还可以获得100刀(不过两个月到期,其实相当于2个月)。我的推广链接是 推广链接,如果打算也用DO的话可以点一下。支付方式的话paypal绑国内借记卡就可以了,有信用卡自然更好。
域名的话到处都可以买,我个人觉得cc的后缀比较好玩所以用这个,大概一年30左右,不介意的话也有很多其他更便宜的域名。Github教育也有一些域名的优惠可以薅。域名到手后建议去扔去 Cloudflare 管理,纯免费,而且里面有很多实用的功能比如https、修改DNS、保护ip、加速和缓存、主机挂了后托管静态页面等服务。
服务器到手后建议先搭v2ray然后测一下google和google scholar能不能上,有些ip段可能被google封了,这样的话反手把服务器干掉然后重新建一个就能换一个ip了。
这里我是用的一键安装脚本 脚本链接。我选择了Nginx+ws+tls的配置,基本上是傻瓜式的了,一路跟着指示走就好。有一步是需要填写伪装的域名,这里你先在Cloudflare那边配好(比如你的域名是yyy.com
,在Cloudflare那边的DNS添加一个Type为A
的记录,名字可以为xxx
,ip为你的ip。然后安装过程中填写xxx.yyy.com
就行,他会自动检查你配置的是否正确,然后一路傻瓜进行下去就行,中间有一个编译安装 nginx
的过程需要一些时间(几分钟左右)。安装完后显示了配置的二维码,扫完后客户端就能用了。可以试试访问xxx.yyy.com
看是否出现了元素周期表,然后看看代理是否正常工作。脚本链接还提供了一些bbr加速的服务,顺手装了就ok反正没损失。
hexo的内容我是在本机写的然后在服务器部署,因此只是需要一个部署的方式。我的部署流是
<path_to_publish_folder>
。一般会创建在/var/www
之类的地方,记得让nginx的用户需要有权限访问这个目录。然后新增nginx的配置(一般放在/etc/nginx/conf/conf.d/*.conf
下),使得访问对应域名的时候,nginx能正确的处理并找到正确的文件夹。记得测试并重启nginx
。<path_to_git_folder>
后,在文件夹里面git init --bare
,会出现hooks
文件夹,进入后创建 post-receive
,写入内容。这样每次你hexo deploy
后,会触发这里面的操作,清空<path_to_publish_folder>
里的东西并用新的替换。由于这里配置比较多,列一下我的参考配置 1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29# ssh/config
Host DO
HostName <your IP>
User root
IdentityFile ~/.ssh/id_rsa
# hexo/_config.yml
deploy:
type: git
repo: root@DO:<path_to_git_folder>
branch: master
# /etc/nginx/conf/conf.d/*.conf
server {
listen 80;
listen [::]:80;
server_name <abc.yyy.com>;
index index.html index.htm;
root <path_to_publish_folder>;
location ~ .*.(htm|html|gif|jpg|jpeg|png|bmp|swf|ioc|rar|zip|txt|flv|mid|doc|ppt|pdf|xls|mp3|wma)$
{
expires 15d;
}
}
# <path_to_git_folder>/hooks/post-receive
rm -rf <path_to_publish_folder>
git clone <path_to_git_folder> <path_to_publish_folder>
然后试着在本地 hexo g; hexo d;
看看是否成功部署在服务器上。
类似的,我们首先取合适的 \(\theta_0,\ldots,\theta_M\),然后依次检验
并定义 \(\psi^\ast=\arg\limits_{i}\min d(\widehat{\theta_n},\theta_i)\)
其推导过程和之前介绍的完全一致
\[\begin{align}\inf\limits_{\widehat{\theta}_n}\sup\limits_{\theta\in\Theta}\mathbb{E}_\theta[d(\widehat{\theta}_n,\theta)]&\ge\inf\limits_{\widehat{\theta}_n}\sup\limits_{\theta\in\Theta}s\cdot\mathbb{P}_\theta[d(\widehat{\theta}_n,\theta)\ge s]\\&\ge \inf\limits_{\widehat{\theta}_n}\max\limits_{\theta\in\{\theta_0,\ldots,\theta_M\}}s\cdot P_\theta[d(\widehat{\theta}_n,\theta)\ge s]\\&=\inf\limits_{\widehat{\theta}_n}\max\limits_{j\in\{0,\ldots,M\}}s\cdot \mathbb{P}_{j}[d(\widehat{\theta}_n,\theta_j)\ge s]\\&\ge \inf\limits_{\widehat{\theta}_n}\max\limits_{\theta\in\{\theta_0,\ldots,\theta_M\}}s\cdot\mathbb{P}_{j}(\psi^\ast\neq j)\\&\ge s\cdot p_{err,M}\end{align}\]
随后自然就是控制 \(p_{err,M}\) 的一个下界。下面的证明自然是给出第三条关于 \(KL\) 或者 \(\chi^2\) 的约束后,其下界大于 0。
完全仿照 两点测试 中的做法,我们很自然地将其推广到 \(M>1\) 的形式,为
\[p_{err,M}\ge\sup\limits_{\tau>0}\frac{\tau M}{1+\tau M}\left[\frac{1}{M}\sum_{j=1}^{M}\mathbb{P}_j[\frac{P_0}{P_j}\ge\tau]\right]\]
其证明思路类似,证明思路类似,记 \(A_j=\left\{\frac{P_0}{P_j}\ge\tau\right\}\),则有
\[\begin{align} \mathbb{P} _ { 0 } [\psi \neq 0 ] & = \sum _ { j = 1 } ^ { M } \mathbb{P} _ { 0 } [\psi = j ]\\ & \geq \sum _ { j = 1 } ^ { M } \tau \mathbb{P} _ { j } \left[\{ \psi = j \} \cap A _ { j } \right] \\ & \geq \tau M \left( \frac { 1 } { M } \sum _ { j = 1 } ^ { M } \mathbb{P} _ { j } [ \psi = j ]\right) - \tau \sum _ { j = 1 } ^ { M } \mathbb{P} _ { j } [ A _ { j } ^ { c } ] \\ & \overset{\Delta}{=} \tau M \left( p' - \alpha \right) \end{align}\]
其中 \(p'= \frac { 1 } { M } \sum _ { j = 1 } ^ { M } \mathbb{P} _ { j } [\psi = j ] , \quad \alpha = \frac { 1 } { M } \sum _ { j = 1 } ^ { M } \mathbb{P} _ { j } \left[\frac { p_0(x) } { p_j(x) } < \tau \right]\)
于是
\[\begin{align} \max _ { 0 \leq j \leq M } \mathbb{P} _ { j } [ \psi \neq j ] & = \max \left\{ \mathbb{P} _ { 0 } [ \psi \neq 0 ] , \max _ { 1 \leq j \leq M } \mathbb{P} _ { j } [ \psi \neq j ] \right\} \\ & \geq \max \left\{ \tau M \left( p'- \alpha \right) , \frac { 1 } { M } \sum _ { j = 1 } ^ { M } \mathbb{P} _ { j } [ \psi \neq j ]\right\} \\ & \geq \max \left\{ \tau M \left( p' - \alpha \right) , 1 - p' \right\} \\ & \geq \min _ { 0 \leq p \leq 1 } \max \{ \tau M ( p - \alpha ) , 1 - p \} \\ & = \frac { \tau M ( 1 - \alpha ) } { 1 + \tau M } \end{align}\]
至此都是 \(M=1\) 平凡的推广,现在我们利用散度来得到更精细的刻画
如果我们有 \(\dfrac{1}{M}\sum_{j=1}^{M}KL(\mathbb{P}_j,\mathbb{P}_0)\leq\alpha_\ast<\infty\),那么
\[\begin{align}p_{err,M}\ge\sup_{0<\tau<1}\left[\frac{\tau M}{1+\tau M}\left(1+\frac{\alpha_\ast + \sqrt{\alpha_\ast/2}}{\log\tau}\right)\right]\end{align}\]
要证明这个,等价于证明
\[\begin{align}\frac { 1 } { M } \sum _ { j = 1 } ^ { M } \mathbb{P} _ { j } \left[ \frac { p_0(x) } { p_j(x) } \geq \tau \right]\ge 1-\alpha',\quad\alpha'\overset{\Delta}{=}-\frac{\alpha_\ast+\sqrt{\alpha_\ast/2}}{\log \tau}\end{align}\]
而这是因为
\[\begin{align}\mathbb{P}_j\left[\frac{p_0(x)}{p_j(x)}\ge \tau\right]&=\mathbb{P}_j\left[\frac{p_j(x)}{p_0(x)}\leq \frac{1}{\tau}\right]\\&=1-\mathbb{P}_j\left[\frac{p_j(x)}{p_0(x)}> \frac{1}{\tau}\right]\\&=1-\mathbb{P}_j\left[\log\frac{p_j(x)}{p_0(x)}>\log \frac{1}{\tau}\right]\\&\ge1-\frac{1}{\log (1/\tau)}\mathbb{E}_{p_j}\left(\log\frac{p_j(x)}{p_0(x)}\right)_+\\&\ge1-\frac{1}{\log(1/\tau)}[KL(\mathbb{P}_0,\mathbb{P}_j)+\sqrt{KL(\mathbb{P}_0,\mathbb{P}_j)/2}]\end{align}\]
其中第四行的不等号使用了 Markov 不等式,第五行的不等式是因为
\[KL(\mathbb{P}_j,\mathbb{P}_0)=\mathbb{E}_{p_j}\log\frac{p_j(x)}{p_0(x)}=\mathbb{E}_{p_j}\left(\log\frac{p_j}{p_0}\right)_+-\mathbb{E}_{p_j}\left(\log\frac{p_j}{p_0}\right)_-\]
而 \(log x\leq x-1\) 所以有
\[\begin{align}\mathbb{E}_{p_j}\left(\log\frac{p_j}{p_0}\right)_-&=\int_{p_j(x)<p_0(x)}p_j(x)\log\frac{p_0(x)}{p_j(x)}\,\mathrm{d}x\\&\leq\int_{p_j(x)<p_0(x)}p_j(x)(\frac{p_0(x)}{p_j(x)}-1)\,\mathrm{d}x\\&\leq V(\mathbb{P}_j,\mathbb{P}_0)\leq\sqrt{KL(\mathbb{P}_j,\mathbb{P}_0)/2}\end{align}\]
同时 Jensen 不等式指出
\[\frac{1}{M}\sum_{j=1}^{M}\sqrt{KL(\mathbb{P}_0,\mathbb{P}_j)}\leq\sqrt{\frac{1}{M}\sum_{j=1}^{M}KL(\mathbb{P}_0,\mathbb{P}_j)}\leq\sqrt{\alpha_\ast}\]
所以我们有
\[\begin{align}\frac{1}{M}\sum_{j=1}^{M}\mathbb{P}_j\left[\frac{p_0}{p_j}\ge\tau\right]\ge1-\frac{\alpha_\ast+\sqrt{\alpha_\ast/2}}{\log(1/\tau)}\end{align}\]
因此,取 \(\tau=M^{-1/2}\),只要有 \(\dfrac{1}{M}\sum_{i=1}^{M}KL(\mathbb{P}_i,\mathbb{P}_0)\leq \alpha\log M,\alpha<1/8\) 就有
\[p_{err,M}\ge\dfrac{\sqrt{M}}{1+\sqrt{M}}(1-2\alpha-\sqrt{\dfrac{2\alpha}{\log M}})\ge\dfrac{\sqrt{M}}{1+\sqrt{M}}(1-\dfrac{1}{4}-\dfrac{1}{2}\sqrt{\dfrac{1}{\log 2}})>0\]
如果我们有 \(\dfrac{1}{M}\sum_{j=1}^{M}\chi^2(\mathbb{P}_j,\mathbb{P}_0)\leq\alpha_\ast<\infty\),那么
\[p_{err,M}\ge\sup\limits_{0<\tau<1}\left[\dfrac{\tau M}{1+\tau M}\big(1-\tau(\alpha_\ast+1)\big)\right]\]
这个证明就相对直接许多了,只需注意到
\[\begin{align}\mathbb{P}_j\left[\dfrac{p_0(x)}{p_j(x)}\ge\tau\right]&=1-\mathbb{P}_j\left[\dfrac{p_j(x)}{p_0(x)}>\dfrac{1}{\tau}\right]\\&=1-\int \dfrac{p_j(x)}{p_0(x)}\cdot I\left[\dfrac{p_j(x)}{p_0(x)}>\dfrac{1}{\tau}\right]\cdot p_0(x)\,\mathrm{d}x\\&\ge1-\tau\int\left(\dfrac{p_j(x)}{p_0(x)}\right)^2p_0(x)\,\mathrm{d}x=1-\tau\big(\chi^2(\mathbb{P}_j,\mathbb{P}_0)+1\big)\end{align}\]
于是 \(\dfrac{1}{M}\sum_{j=1}^{M}\mathbb{P}_j\left[\dfrac{p_0(x)}{p_j(x)}\ge\tau\right]\ge1-\tau(\alpha_\ast+1)\), 即得到 \(p_{err,M}\) 的下界
因此,取 \(\tau=M^{-1}\),只要 \(\dfrac{1}{M}\sum_{i=1}^{M}\chi^2(\mathbb{P}_i,\mathbb{P}_0)\leq\alpha M,0<\alpha<1/2\),就有
\[p_{err,M}\ge\dfrac{1}{2}(1-\alpha-M^{-1})>0\]
至此,我们给出了多点测试的框架。下面以两个例子作为结束
我们考察非参数回归模型,使用 \(L_{\infty}\) risk, 即 \(d(f,g)=\sup\limits_{x\in[0,1]}\lvert f(x)-g(x)\rvert\) ,我们要证明当函数空间为 \(\Sigma(\beta,L)\) 时,收敛速度下界为 \((\log n/n)^{\beta/(2\beta+1)}\)
取\(M=h^{-1},x_j=\frac{j-0.5}{M}\),即将 \([0,1]\) 划分为 \(M\) 段。(读者可能注意到这样取是有问题的——至少也应该加个上取整吧?这里我们为方便先进行推导,后面再严格地限定 \(h\) 好补上这一瑕疵)
取 \(\theta_0(x)\equiv 0, \theta_j(x)=Lh^\beta K\left(\frac{x-x_j}{h}\right),(1\leq j\leq M)\),不难发现 \(\theta_j(1\le j\le M)\) 彼此支撑集不相交,且 \(d(\theta_i,\theta_j)=\lVert \theta_i-\theta_j\rVert_\infty=Lh^\beta K_\max\)
根据我们的目标,我们需要 \(h\sim(\log n/n)^{1/2\beta+1}\),故 \(h,M\) 的选取为 \[M=\left\lceil c_0\left(\dfrac{n}{\log n}\right)^{ \frac{1}{2\beta+1}}\right\rceil, h=M^{-1}\] 这里就使得 \(M\) 为整数了。\(c_0\)可以任意选取,但在后面我们会对其加以限制来达到证明的目的。
而 \(KL(\mathbb{P}_{\theta_j}, \mathbb{P}_{\theta_0})=\frac{1}{2}\sum_{k=1}^{n}\theta_j(x_k)^2\),则
\[\begin{align}\frac{1}{M}\sum_{j=1}^{M} KL(P_{\theta_j},P_{\theta_0})&=\frac{1}{2M}L^2h^{2\beta}\sum_{j=1}^{M}\sum_{k=1}^{n}K^2\left(\frac{x_k-x_j}{h}\right)\\&\leq\frac{1}{2M}L^2h^{2\beta}K_\max^2\sum_{j=1}^{M}\sum_{k=1}^{n}\boldsymbol{1}[\lvert x_k-x_j\rvert\leq h/2]\end{align}\]
虽然看似是一个二重的求和,但由于每个样本 \(x_k\) 至多落入一个 \([x_j-h/2,x_j+h/2)\) 中,故后面的求和至多仍为 \(n\),所以
\[\frac{1}{M}\sum_{j=1}^{M} KL(P_{\theta_j},P_{\theta_0})\leq\frac{1}{2}L^2h^{2\beta+1}K_\max^2 n\leq c\cdot c_0^{-(2\beta+1)}\cdot\log n \]
而 \(\log M\ge\log(c_0)+\frac{1}{2\beta+1}\log\frac{n}{\log n}\ge\frac{\log n}{2\beta+2}\), 因为我们可以将 \(c_0\) 取充分大,而\(-\log\log n\) 相比 \(\log n\) 当 \(n\) 充分大时总能被忽略,故该放缩成立。
所以总能做到 \[\frac{1}{M}\sum_{j=1}^{M} KL(P_{\theta_j},P_{\theta_0})\leq\alpha\log M<1/8\log M\]
我们依然考察非参数回归模型,但使用 \(L_2\) risk,即 \(d(f,g)=\lVert f-g\rVert_2=\sqrt{\int_0^1(f(x)-g(x))^2\,\mathrm{d}x}\) 。我们要证明当函数空间为 \(\Theta=\Sigma(\beta,L)\) 时,我们的收敛速度下界为 \(n^{-\beta/(2\beta+1)}\)
首先类似地取 \(m=\lceil c_0n^{-\frac{1}{2\beta+1}}\rceil, h=m^{-1},x_k=\frac{k-1/2}{m},\varphi_k(x)=Lh^\beta K\left(\frac{x-x_k}{m}\right)\)
而 \(\varphi_k\in\Sigma(\beta,L/2)\),是我们将会使用的一组基。
考虑二元向量的集合 \(\Omega=\{\omega=(\omega_1,\ldots,\omega_m),\omega_i\in\{0,1\}\}=\{0,1\}^m\)
而我们的测试 \(f\) 将会从 \(\mathcal{E}=\{f_\omega(x)=\sum_{k=1}^{m}w_k\varphi_k(x),\omega\in\Omega\}\) 选出。
首先可以得到
\[\begin{aligned} d \left( f _ { \omega } , f _ { \omega ^ { \prime } } \right) & = \left[ \int _ { 0 } ^ { 1 } \left( f _ { \omega } ( x ) - f _ { \omega ^ { \prime } } ( x ) \right) ^ { 2 } d x \right] ^ { 1 / 2 } \\ & = \left[ \sum _ { k = 1 } ^ { m } \left( \omega _ { k } - \omega _ { k } ^ { \prime } \right) ^ { 2 } \int _ {(k-1)/m }^{k/m} \varphi _ { k } ^ { 2 } ( x ) d x \right] ^ { 1 / 2 } \\ & = L h ^ { \beta + \frac { 1 } { 2 } } \| K \| _ { 2 } \left[ \sum _ { k = 1 } ^ { m } \left( \omega _ { k } - \omega _ { k } ^ { \prime } \right) ^ { 2 } \right] ^ { 1 / 2 } \\ & = L h ^ { \beta + \frac { 1 } { 2 } } \| K \| _ { 2 } \sqrt { \rho \left( \omega , \omega ^ { \prime } \right) } \end{aligned}\]
其中 \(\rho(\omega,\omega')\) 称为汉明距离,也就是两个二元向量中不相等的元素的个数。
我们首先证明,可以在 \(\Omega\) 中找到不少于 \(M+1=2^{m/8}+1\) 个点,彼此的汉明距离大于 \(m/8\)。首先我们先找一个最少的点的集合 \(\omega_0,\ldots,\omega_M\),他们的 \(m/8\) 邻域可以覆盖 \(\Omega\)(可以考虑每次随机一个点,然后将其邻域内的点全部删除,直至不能找到更多的元素,并在此中选择一个最优的,即选出点最少的方案),即
\[\{0,1\}^m\subset\bigcup_{\omega_j}\{\omega\mid d(\omega,\omega_j)\leq m/8\}\]
则 \(2^m\leq (M+1)\sum_{j=0}^{\lfloor m/8\rfloor}\binom{m}{j}\)
然而 \(2^{-m}\sum_{j=0}^{\lfloor m/8\rfloor}\binom{m}{j}\mathbb{P}[\mathrm{Binom}(m,1/2)\leq\lfloor m/8\rfloor]\leq \exp\{-9m/32\}<2^{-m/4}\),该放缩由 Hoeffding Inequality 给出,其证明了对于独立的随机变量 \(a_i\leq Z_i\leq b_i\) ,有不等关系 \[\mathbb{P}[\sum_{i=1}^{m}(Z_i-\mathbb{E}[Z_i])\ge t]\leq\exp(-2t^2/\sum_{i=1}^{m}(b_i-a_i)^2)\]
所以 \(M+1\ge 2^{m/4}\ge 2^{m/8}+1,\ m\ge 8\)
所以我们可以选择出 \(M+1\) 个向量 \(\omega_0,\ldots,\omega_M\),然后检验三个条件
\[\lVert f_j(x)-f_{k}(x)\rVert_2= Lh^{\beta+1/2}\lVert K\rVert_2\sqrt{\rho(\omega_j,\omega_k)}\ge Lh^{\beta+1/2}\lVert K\rVert_2\sqrt{m/16}=\frac{L}{4}\lVert K\rVert_2 m^{-\beta}\]
设 \(n\ge n_\ast=(7/c_0)^{2\beta+1}\),则 \(m\ge 8\) 且 \(m^\beta\leq (1+1/7)^{\beta}c_0^{\beta}n^{\beta/(2\beta+1)}\leq (2c_0)^\beta n^{\beta/(2\beta+1)}\)
则 \(d(f_i,f_j)\ge 2s\),其中 \(s=An^{-\beta/(2\beta+1)},A=\frac{L}{8}\lVert K\rVert_2(2c_0)^{-\beta}\)
利用 两点测试 的成功例子中对于 \(KL\) 散度的放缩,我们有
\[\begin{align} KL\left(\mathbb{P}_{j}, \mathbb{P}_{0}\right) & \leq p_{*} \sum_{i=1}^{n} f_{j }^{2}\left(X_{i}\right) \leq p_{*} \sum_{k=1}^{m} \sum_{i : X_{i} \in \Delta_{k}} \varphi_{k}^{2}\left(X_{i}\right) \\ & \leq p_{*} L^{2} K_{\max }^{2} h_{}^{2 \beta} \sum_{k=1}^{m} \operatorname{Card}\left\{i : X_{i} \in \Delta_{k}\right\} \\ &=p_{*} L^{2} K_{\max }^{2} n h_{}^{2 \beta} \leq p_{*} L^{2} K_{\max }^{2} c_{0}^{-(2 \beta+1)} m \end{align}\]
而 \(M>2^{m/8}\),即 \(m<8\log M/\log 2\),于是我们可以选择 \(c_0=\left(\dfrac{8p_\ast L^2K_{\max}^2}{\alpha\log 2}\right)^{1/(2\beta+1)}\) 使得 \(KL(\mathbb{P_j},\mathbb{P}_0)<\alpha\log M\)
]]>给定问题后,我们构造出两个函数 \(\theta_0,\theta_1\),然后检验
这样,我们就可以根据下面的推导得到 minimax risk 的阶是与 \(s\) 相同
\[\inf_{\widehat{\theta}}\sup_{\theta\in\Theta} E[d(\theta,\widehat{\theta})]\ge s\cdot p_{err,1}\]
\[p_{err,1}=\inf_\psi\max_{j=0,1} P_j(\psi\neq j)\ge\max\{\frac{1}{4}e^{-\alpha}, \frac{1-\sqrt{\alpha/2}}{2}\}\]
这里只是先将两点测试的框架拍出来——只要我们能给出 \(p_{err,1}\) 的一个良好的下届,我们就能给出 minimax rate 的一个下界。而且它的阶和 \(d(\theta_0,\theta_1)\) 是相同的,这也提示了我们如何选择良好的 \(\theta\)。
下面的记号中,\(p_i(x)\) 表示第 \(i\) 个分布的 p.d.f.,\(\mathbb{P}_i(I)=\int_I p_i(x)\,\mathrm{d}x\) 表示区间 \(I\) 上(或满足某一条件)的概率值。
可以看到在这样的测试框架中 \(p_{err,1}\) 的下界发挥着很重要的作用。我们先对他做一个估计。记 \(\mathbb{P}_1[\psi\neq 0]=p\),则 \(\mathbb{P}_1[\psi\neq 1]=1-p\)。下考察 \(\mathbb{P}_0[\psi\neq 0]\)
\[\begin{align}\mathbb{P}_0[\psi\neq 0]&=\int \boldsymbol{1}[\psi\neq 0]p_0(x)\,\mathrm{d}x\\&=\int \boldsymbol{1}[\psi\neq 0] \frac{p_0(x)}{p_1(x)}p_1(x)\,\mathrm{d}x\\&\ge\int \tau \boldsymbol{1}[\psi\neq 0\cap \frac{p_0(x)}{p_1(x)}\ge\tau] p_1(x)\,\mathrm{d}x\\&\ge\tau\Bigg(\mathbb{P}_1[\psi\neq 0]-\mathbb{P}_1\bigg[\frac{p_0(x)}{p_1(x)}\leq\tau\bigg]\Bigg)\\&\overset{\Delta}{=}\tau(p-\alpha)\end{align}\]
\[p_{err,1}=\inf\limits_\psi\max\limits_{j=0,1}\mathbb{P}_j[\psi\neq j]\ge\min\limits_{0\le p\leq 1}\{\tau(p-\alpha), 1-p)\}=\frac{\tau(1-\alpha)}{1+\tau}\]
注意此时 \(\tau\) 是任取的,故可以得到
\[p_{err,1}\ge\sup\limits_{\tau}\frac{\tau(1-\alpha)}{1+\tau}=\sup\limits_\tau\left\{\frac{\tau}{1+\tau}\cdot\mathbb{P}_1\left[\frac{p_0(x)}{p_1(x)}\ge\tau\right]\right\}\]
我们先看一个失败的例子来加深我们操作这个框架的方法。
考虑模型 \(Y_i=f(i/n)+\varepsilon_i\)
设 \(f\in\Sigma(\beta,L),\beta=1\),我们知道\[\mathbb{E}\lVert\widehat{f}_n-f\rVert_\infty\leq C(\log n/n)^{-1/3}\]
如果我们选取 \[\theta_0=f_0(x)\equiv 0,\quad \theta_1=f_1(x)=\sin(2\pi n x)/2\pi n\]
那么 \(f_0(i/n)=f_1(i/n)\),则可以导出 \(p_0(x)=p_1(x)\),所以
\[p_{err,1}=\sup\limits_\tau\{\frac{\tau}{1+\tau}\cdot\boldsymbol{1}[\tau\leq 1]\}=\frac{1}{2}\]
考虑无穷范数得 \[\lVert\theta_0-\theta_1\rVert_\infty=1/(2\pi n)=2s\]
故 \(s=1/(4\pi n)\),则 \(\inf\limits_{\widehat{\theta}_n}\sup\limits_{\theta\in\Theta} \mathbb{E}[d(\widehat{\theta}_n,\theta)]\ge s\cdot p_{err,1}=\frac{1}{8n\pi}\)
得 \(\psi_n\) 和 \(1/n\) 同阶,因此我们得到收敛速度的下界是 \(1/n\),这远远小于我们预期的 \((\log n/n)^{1/3}\),这主要是因为我们的 \(\theta_0,\theta_1\) 选得不够好。但这也是因为我们求 \(p_{err,1}\) 的下届的时候过于松散,没有充分发挥出选取 \(\theta_0,\theta_1\) 的威力。因此我们需要一个更精细的 \(p_{err,1}\) 的下界。
参考概率测度的度量一节,我们可以得到下列更精细的构造
通常使用 \(KL\) 散度的形式来进行约束能够得到不错的效果,当然这还是取决于你设计的 \(\mathbb{P}\) 的样式。下面给出一个成功的例子
考察非参数回归中单点 \(x_0\) 的误差的minimax risk,我们要证明其下界为 \(O(n^{-\beta/(2\beta+1)})\)
先回顾我们的问题
我们的目标是给出 \((\Theta,d)\) 上的 minimax risk,其中函数空间为 \(\Theta=\Sigma(\beta,L),\beta>0,L>0\) ,距离度量 \(d(f,g)=\lvert f(x_0)-g(x_0)\rvert\)
为此,我们取,取 \(K_0(u)=e^{-\frac{1}{1-u^2}}\boldsymbol{1}(\lvert u\rvert\leq 1), K(u)=K_0(2u)\),这是为了让其支撑集的长度(或者说宽度)为 \(1\),方便后面的构造.
随后我们取 \(\theta_0(x)\equiv 0,\theta_1(x)=Lh^\beta K\left(\frac{x-x_0}{h}\right)\) ,不难验证其在 \(\Sigma(\beta,L)\) 中
且我们有 \(d(\theta_0,\theta_1)=Lh^\beta K_\max\ge 2s\) ,而我们希望 \(s=O(n^{-\beta/(2\beta+1)})\)
由此我们知我们的 \(h\) 应选取为 \(n^{-1/(2\beta+1)}\)
而 \(p_{\theta_0}=\prod_{j=1}^{n}\frac{1}{\sqrt{2\pi}}\exp\left\{-\frac{y_j^2}{2}\right\}\), \(p_{\theta_1}=\prod_{j=1}^{n}\frac{1}{\sqrt{2\pi}}\exp\left\{-\frac{(y_j-\theta_1(x_j))^2}{2}\right\}\)
由 KL 散度性质有对于标准正态分布 \(\varphi(x)\),有 \(KL(\varphi(x),\varphi(x+t))=t^2/2\)
\[\begin{align}KL(p_{\theta_0}, p_{\theta_1})&=\sum_{j=1}^{n}KL(p_{\theta_0,j},p_{\theta_1,j})\\&=\frac{1}{2}\sum_{j=1}^{n}\theta_1^2(x_j)\\&=\frac{1}{2}L^2 h^{2\beta}\sum_{j=1}^{n}K^2\left(\frac{x_j-x_0}{h}\right)\\&\leq \frac{1}{2}L^2 h^{2\beta}K_\max^2\sum_{j=1}^{n}\boldsymbol{1}[\lvert x_j-x_0\rvert\leq h/2]\end{align}\]
由于 \(nh\ge 1\),加上假设(2) 有 \(\sum_{j=1}^{n}\boldsymbol{1}[\lvert x_j-x_0\rvert\leq h/2]\leq\max\{nh, 1\}=nh\)
且 \(nh^{2\beta+1}=1\) 故 \(KL(p_{\theta_0}, p_{\theta_1})\leq \frac{1}{2}L^2h^{2\beta+1} n K_\max^2=\frac{1}{2}c'L^2K_\max^2<\infty\)
所以有
\[P_{err,1}\ge c\Rightarrow \inf_{\widehat{\theta}}\sup_{\theta\in\Theta} E[d(\theta,\widehat{\theta})]\ge s\cdot P_{err,1}=c\frac{Lh^\beta K_\max}{2}=c'n^{-\beta/(2\beta+1)}\]
于是我们得到了结论,在上述假设下,\(\forall x_0\in[0,1]\) ,单点误差的 minimax risk 为 \(O(n^{-\beta/(2\beta+1)})\)
]]>下面是本系列的架构
手敲\(\LaTeX\)难免出现纰漏,有任何疑似错误或者不清楚的地方请直接在下方评论区留言,谢谢各位读者。
]]>在第一章中,我们分别研究了
核密度估计中的单点误差 \(C n^{-2\beta/2\beta+1}\)
核密度估计中的 \(L_2\) 误差 \(C n^{-2\beta/2\beta+1}\)
局部多项式估计的单点误差 \(C n^{-2\beta/2\beta+1}\)
局部多项式估计的 \(L_2\) 误差 \(C n^{-2\beta/2\beta+1}\)
局部多项式估计的 \(L_\infty\) 误差 \(C(\log n/n)^{-2\beta/2\beta+1}\)
投影估计的 \(L_2\)误差 $ C n^{-2/2+1}
可以看到他们都有一个形式极为相近的收敛速度(除了可能有 \(\log n\) 的差别)。那么一个自然的想法就是,我们是否达到了最优的收敛速度?能否继续改进。事实上可以证明,上面给出了收敛速度已经达到了最优,而本章就是在研究如何论证这一命题。
我们的设定如下
首先我们有一个非参的函数空间 \(\Theta\) ,我们所要估计的函数落在这个空间内,比如之前提到的 \(\Sigma(\beta, L)\) (Holder 空间) 或 \(W(\beta, L)\) (Sobolev 空间)
一族概率测度 \(\{P_\theta,\theta\in\Theta\}\)。在概率密度模型中,\(P_\theta\) 是样本 \(\boldsymbol{X}=(X_1,\ldots,X_n)\) 上的概率测度,其中每个样本 \(X_i\) 的概率密度为 \(\theta\)
一个 \(\Theta\) 上的距离度量 \(d:\Theta\times\Theta\rightarrow[0,+\infty)\),满足非负性 \(d(\theta,\theta')\ge 0\), 同一性 \(d(\theta,\theta')=0\Leftrightarrow \theta=\theta'\), 对称性 \(d(\theta,\theta')=d(\theta',\theta)\) 和三角不等式 \(d(\theta,\theta')+d(\theta',\theta'')\ge d(\theta,\theta'')\)
而我们估计参数的方法即为 \(\widehat{\theta}_n:X^n\rightarrow \Theta\)
为了度量这个估计的好坏,我们考察参数空间中最坏的情况,定义出最大风险为
\[r(\widehat{\theta}_n)\overset{\Delta}{=}\sup\limits_{\theta\in\Theta}\mathbb{E}_\theta[d^2(\widehat{\theta},\theta)]\]
之前的章节中我们证明的就是对于我们构造的那些估计中,有 \(r(\widehat{\theta}_n)\leq C\psi_n^2\)
而接下来的章节就是寻找当 \(n\) 充分大时,所有估计方法中风险的下界(也就是考察最好的估计方法,不能比这个再好了)
\[\forall\widehat{\theta}_n:\qquad r(\widehat{\theta}_n)\ge c\psi_n^2\]
为此,我们定义 minimax risk 为
\[\mathcal{R}_n^\ast\overset{\Delta}{=}\inf\limits_{\widehat{\theta}} r(\widehat{\theta}_n)=\inf\limits_{\widehat{\theta}}\sup\limits_{\theta\in\Theta}\mathbb{E}_\theta[d^2(\widehat{\theta},\theta)]\]
之前建立上界的时候意味着存在常数 \(C<\infty\),使得对于一个收敛于零的序列 \(\psi_n\)
\[\underset{n\rightarrow\infty}{\lim\sup}\ \psi_n^{-2}\mathcal{R}_n^\ast\leq C\]
而对应的下界说明存在常数 \(c>0\),对于同样的序列 \(\psi_n\),有
\[\underset{n\rightarrow\infty}{\lim\inf}\ \psi_n^{-2}\mathcal{R}_n^\ast\ge c\]
而如果某个估计 \(\theta_n^\ast\) 满足下式,我们就称他为渐进最优的
\[\lim\limits_{n\rightarrow\infty}\frac{r(\theta_n^\ast)}{\mathcal{R}_n^\ast}=1\]
一个更一般性的框架是定义最大风险为
\[r_w(\widehat{\theta}_n)\overset{\Delta}{=}\sup\limits_{\theta\in\Theta}\mathbb{E}_\theta[w(\psi_n^{-1}\cdot d^2(\widehat{\theta},\theta))]\]
其中 \(w:[0,\infty)\rightarrow[0,\infty),\ w\nearrow,\ w(0)=0,w\not\equiv 0\) 称为 loss 函数,此时下界可以如下给出
\[\underset{n\to\infty}{\lim\inf}\ \inf\limits_{\widehat{\theta}_n}\ \sup\limits_{\theta\in\Theta}\mathbb{E}_\theta[w(\psi_n^{-1}d(\widehat{\theta}_n,\theta))]\ge c>0\]
常见的 \(w\) 可以选为 \(w(u)=u^p,p>0\) 或 \(w(u)=\boldsymbol{1}[u\ge A],A>0\)
为了得到一个下界,一个典型的方法使用了三次放缩
取 \(w(u)=\boldsymbol{1}[u\ge A]\)
根据 Markov 不等式,我们有
\[\mathbb{E}_\theta[w(\psi_n^{-1}d(\widehat{\theta}_n,\theta))]\ge w(A)\cdot\mathbb{P}_\theta[\psi_{n}^{-1}d(\widehat{\theta}_n,\theta)\ge A]=w(A)\cdot\mathbb{P}_\theta[d(\widehat{\theta}_n,\theta)\ge s]\]
其中 \(s=s_n=A\psi_n\)
取 \(\Theta\) 中的一个有限子集 \(\{\theta_0,\ldots,\theta_M\}\),我们有
\[\inf\limits_{\widehat{\theta}_n}\sup\limits_{\theta\in \Theta}\mathbb{P}_\theta[d(\widehat{\theta}_n,\theta)\ge s]\ge \inf\limits_{\widehat{\theta}_n}\sup\limits_{\theta\in \{\theta_1,\ldots,\theta_m\}}\mathbb{P}_\theta[d(\widehat{\theta}_n,\theta)\ge s]\]
取合适的 \(\theta_0,\ldots,\theta_m\) 使得 \(d(\theta_i,\theta_j)\ge 2s,\ i\neq j\)
定义 \(\psi^\ast : X^n\rightarrow\{0,1,\ldots,M\} =\arg\min\limits_{0\leq i\leq M} d(\widehat{\theta}_n,\theta_i)\)
那么有 \[\mathbb{P}_{\theta_j}[d(\widehat{\theta}_n,\theta)\ge s]\ge\mathbb{P}_{\theta_j}[\psi^\ast\neq j],\ j=0,1,\ldots,M\]
为方便,以后记 \(\mathbb{P}_{\theta_j}\overset{\Delta}{=}\mathbb{P}_j\), \(p_{err, M}\overset{\Delta}{=}\inf\limits_\psi\max\limits_{0\le j\le M} \mathbb{P}_j(\psi\neq j)\)
至此,如果我们能证明 \(p_{err,M}\ge c'\) 其中 \(c'\) 为一个常数,则
\[\underset{n\to\infty}{\lim\inf}\ \inf\limits_{\widehat{\theta}_n}\ \sup\limits_{\theta\in\Theta}\mathbb{E}_\theta[w(\psi_n^{-1}d(\widehat{\theta}_n,\theta))]\ge w(A)c'>0\]
至此,我们得到了一个有效的检验框架:我们会构造一系列 \(\theta_i\),然后验证下面几个条件
这样,我们就得到了一个收敛速度的下界,它和 \(s\) 是同阶的。 在接下来的两章里,我们将会分别考虑两点测试和多点测试,并看如何构造 \(\theta_i\),并利用他们的性质刻画出 \(p_{err,M}\) 的一个下界。
]]>记 \(p\wedge q=\min(p,q),\ p\vee q=\max(p,q),a_-=\max\{0,-a\}, a_+=\max\{a,0\}\)
\[\mathcal{H}^2(P,Q)=\int(\sqrt{p}-\sqrt{q})^2\,\mathrm{d}x=2-2\int\sqrt{pq}\,\mathrm{d}x\]
可以证明其满足距离的定义,且 \(0\leq \mathcal{H}^2(P,Q)\leq 2\)
如果 \(P=\bigotimes_{i=1}^{n} P_i,Q=\bigotimes_{i=1}^{n} Q_i\)
则 \[\mathcal{H}^2(P,Q)=2-2\prod\limits_{i=1}^{n}(1-\frac{1}{2}\cdot \mathcal{H}^2(P_j,Q_j))\]
\[\mathrm{TV}(P,Q)=\sup_{A}\lvert P(A)-Q(A)\rvert=\sup\limits_{A}\big\lvert \int_A(p-q)\,\mathrm{d}x \big\rvert\]
可以证明其满足距离的定义,且 \(0\leq \mathrm{TV}(P,Q)\leq 1\),这可以由下式得到
\[\mathrm{TV}(P,Q)=\frac{1}{2}\int\lvert p-q\rvert\,\mathrm{d}x=1-\int p\wedge q\,\mathrm{d}x\]
\[KL(P,Q)=\int p\log \frac{p}{q}\,\mathrm{d}x\] , 如果 \(P\ll Q\)
可以利用 Jensen inequality 证明其非负
\[\int p\log \frac{p}{q}\,\mathrm{d}x=-\int p\log \frac{q}{p}\,\mathrm{d}x\ge-\log\int q\,\mathrm{d}x\ge 0\]
但是不满足对称性(所以不叫 distance),可以构造 \(KL(P,Q)+KL(Q,P)\) 来满足对称性
如果 \(P=\bigotimes_{i=1}^{n} P_i,Q=\bigotimes_{i=1}^{n} Q_i\)
\[KL(P\mid\mid Q)=\sum_{j=1}^{n}KL(P_j,Q_j)\]
另一个十分有用的性质时对于正态分布来说
现考察其 KL 散度,记 \(\varphi(x)=\frac{1}{\sqrt{2\pi}}\exp\{-x^2/2\},\varphi(x+t)=\frac{1}{\sqrt{2\pi}}\exp\{-(x+t)^2/2\}\),则其KL 散度为
\[\begin{align}KL(\varphi(x),\varphi(x+t)&=\int_{-\infty}^{+\infty} \frac{1}{\sqrt{2\pi}}\exp\{-x^2/2\}\left(\frac{(x+t)^2-x^2}{2}\right)\,\mathrm{d}x\\&=\int_{-\infty}^{+\infty} \frac{1}{\sqrt{2\pi}}\exp\{-x^2/2\}\frac{t^2}{2}\,\mathrm{d}x+\int_{-\infty}^{+\infty} \frac{1}{\sqrt{2\pi}}\exp\{-x^2/2\}\left(-tx\right)\,\mathrm{d}x\\&=\frac{t^2}{2}+0=\frac{t^2}{2}\end{align}\]
\[\chi^2(P,Q)=\int q\cdot \left(\frac{p}{q}-1\right)^2\,\mathrm{d}x\]
同样其也不满足对称性。可以证明其有性质
\(\chi^2(P,Q)=\int \frac{p^2}{q}\,\mathrm{d}x-1\)
如果 \(P=\bigotimes_{i=1}^{n} P_i,Q=\bigotimes_{i=1}^{n} Q_i\)
\[\chi^2(P,Q)=\prod\limits_{i=1}^{n}(1+\chi^2(P_i,Q_i))-1\]
上述四个都是 Csizsar f-divergence 的特殊情况,其定义为 \[D(P,Q)=\int q\cdot f(p/q) \mathrm{d}x\],其中要求 \(f\) 是在 \(\mathbb{R}^+\) 上的凸函数。之前四个距离分别是 \(f(x)=\lvert x-1\rvert/2\), \(f(x)=(\sqrt{x}-1)^2\) , \(f(x)=x\log x\) 和 \(f(x)=(x-1)^2\)
为方便,分别记 Hellinger、Total variation 和 KL 散度为 \(H,V,K\)
\[\int p\wedge q\,\mathrm{d}x\ge\frac{1}{2}(\int\sqrt{pq}\,\mathrm{d}x)^2=\frac{1}{2}(1-H^2/2)^2\]
证明:只需注意到 \(\int p\wedge q\,\mathrm{d}x+\int p\vee q\,\mathrm{d}x=2\)
则有
\[\begin{align}(\int\sqrt{pq}\,\mathrm{d}x)^2&=(\int\sqrt{p\wedge q\ \cdot\ p\vee q}\,\mathrm{d}x)^2\\&\leq\int p\wedge q\,\mathrm{d}x\ \cdot\ \int p\vee q\,\mathrm{d}x\\&=\int p\wedge q\,\mathrm{d}x\ \cdot\ \left(2-\int p\wedge q\,\mathrm{d}x\right)\\&\leq 2\int p\wedge q\,\mathrm{d}x\end{align}\]
\[H^2/2\leq V\leq H\sqrt{1-H^2/4}\leq H\]
证明:
左边: \(V=1-\int p\wedge q\,\mathrm{d}x\ge 1-\int pq\,\mathrm{d}x=H^2/2\)
右边:注意到式一推导过程中可以推导出
\[(1-H^2/2)^2=(\int\sqrt{pq}\,\mathrm{d}x)^2\leq (1-V)(1+V)=1-V^2\]
由此导出 \(V^2 \leq H^2(1-H^2/4)\)
\[H^2\leq K\]
证明:由于 \(-\log(x+1)\ge -x,\ (x>-1)\),代入 KL 散度计算中有
\[\begin{align}K&=-\int p\log(q/p)\,\mathrm{d}x\\&=-2\int p\log(\sqrt{q/p})\,\mathrm{d}x\\&=-2\int p\log(\sqrt{q/p}-1+1)\,\mathrm{d}x\\&\ge -2\int p(\sqrt{q/p}-1)\,\mathrm{d}x\\&=2-2\int(\sqrt{pq})\,\mathrm{d}x=H^2\end{align}\]
综合之前我们可以得到 \(V\leq H\leq\sqrt{K}\),但这并不是最优的,因为我们可以证明下式
\[V\leq\sqrt{K/2}\]
令 \(\psi(x)=x\log x-x+1,x\ge 0\),并定义 \(0\log 0=0\)
注意到 \(\psi(0)=1,\psi(1)=0,\psi'(1)=0,\psi''(x)=1/x\ge 0,\psi(x)\ge 0\)
可以精巧地构造出下列不等式,使用高中的导数知识求导即可证明
\[(x-1)^2\leq (4/3+2x/3)\psi(x)\]
于是
\[\begin{align}V&=\frac12\int\lvert p-q\rvert \,\mathrm{d}x\\&=\frac12\int\lvert p/q-1\rvert q\,\mathrm{d}x\\&\leq\frac12\int\sqrt{4/3+2p/3q}\cdot\sqrt{\psi(p/q)}\cdot q\,\mathrm{d}x\\&\leq \frac{1}{2}\sqrt{\int (4q/3+2p/3)\,\mathrm{d} x}\sqrt{\int q\cdot\psi(p/q)\,\mathrm{d} x}\\&=\frac{1}{2}\sqrt{2}\sqrt{K}=\sqrt{K/2}\end{align}\]
\(V\leq 1-\frac{1}{2}\exp\{-K\}\)
证明:使用 Jensen 不等式有
\[\begin{align}(\int\sqrt{pq}\,\mathrm{d}x)^2&=\exp\{2\log\int\sqrt{pq}\,\mathrm{d}x\}\\&=\exp\{2\log\int p\sqrt{\frac{q}{p}}\,\mathrm{d}x\}\\&\ge\exp\{2\int p\log\sqrt{\frac{q}{p}}\,\mathrm{d}x\}\\&=\exp\{-K\}\end{align}\]
所以有 \(\int p\wedge q\,\mathrm{d}x\ge \frac{1}{2}\exp\{-K\}\)
即 \(V=1-\int p\wedge q\,\mathrm{d}x\leq 1-\frac{1}{2}\exp\{-K\}\)
\(K\leq\log(1+\chi^2)\leq \chi^2\)
证明: 使用 Jensen 不等式有
\[\log(1+\chi^2)=\log\int \frac{p^2}{q}\,\mathrm{d}x\ge\int p\log\frac{p}{q}\,\mathrm{d}x=K \]
所以我们通过给出 \(\chi^2\) 的上界可以同样控制住 \(K\)。
本文是为非参数统计中刻画误差下界服务的。其关心的值为
\[p_{err,1}=\int\limits_\psi\max\limits_{j=0,1}\mathbb{P}_j[\psi\neq j]\ge \frac{1}{2}\inf\limits_\psi\{\mathbb{P}_0[\psi\neq 0]+\mathbb{P}_1[\psi\neq 1]\}=\frac{1}{2}(\mathbb{P}_0[\psi^\ast\neq 0]+\mathbb{P}_1[\psi^\ast\neq 1])\]
其中 \(\psi^\ast\) 为极大似然估计,为 \(\psi^\ast=\boldsymbol{1}[P_0<P_1]\) 其中 \(P_0,P_1\) 是 \(\mathbb{P}_0,\mathbb{P}_1\) 对应的概率密度函数。
注意到 \(\frac{1}{2}(\mathbb{P}_0(\psi^\ast\neq 0))+\mathbb{P}_1(\psi^\ast\neq 1))=\frac{1}{2}\int P_0\wedge P_1=(1-V)/2\)
由此我们得
我们仍然考察回归模型
\[Y_i=f(X_i)+\varepsilon_i,\quad\mathbb{E}_f[\varepsilon_i]=0, f:[0,1]\rightarrow\mathbb{R},X_i=i/n\]
假设 \(f\in L_2[0,1]\),记 \(\theta_j\) 是 \(f\) 在 \(L_2[0,1]\) 上标准正交基 \(\{\varphi_i\}_{j=1}^\infty\) 上的系数,即
\[\theta_j=\int_0^1 f(x)\varphi_j(x)\,\mathrm{d} x\]
且假设 \(f(x)=\sum_{j=1}^{\infty}\theta_j\varphi_j(x)\) 即点点收敛
投影估计的想法就是,我们在 前 \(N\) 个基张成的空间中近似 \(f\),即 \(\sum_{j=1}^{N}\theta_j\varphi_j\) 来估计 \(f\)。当然,此时我们的 \(\theta_j\) 只能是 \(\widehat{\theta}_j\),不可能得到真正的 \(\theta\)
当 \(X_i\) 在 \([0,1]\) 上分布得足够均匀时(比如,\(X_i=i/n\),或 \(X_i\) 独立同分布于 \(\mathcal{U}[0,1]\),\(\frac{1}{n}\sum_{i=1}^{n}f(X_i)\varphi_j(X_i)\) 是 \(\theta_j\) 的一个良好估计,因此我们可以用
\(\widehat{\theta}_j=\frac{1}{n}\sum_{i=1}^{n}Y_i\varphi_j(X_i)\) 来作为一个估计,此时得到投影估计 (projection estimator)
\[\widehat{f}_{nN}(x)=\sum_{j=1}^{N}\widehat{\theta}_j\varphi_j(x)=\sum_{i=1}^{n}(Y_i\cdot\frac{1}{n}\sum_{j=1}^{N}\varphi_j(X_i)\varphi_j(x))=\sum_{i=1}^{n}Y_iW_{ni}^{\ast\ast}(x)\]
可见其也是一个线性估计。
这里的 \(N\),也就是投影估计的阶,和 \(h\) 在核密度估计中有着相同的作用——平衡偏差核方差。过大的 \(N\) 导致过拟合从而增大了方差,过小的 \(N\) 则欠拟合数据使得偏差增大。
常有的基有下面这两个
三角基 \(\varphi_1(x)\equiv 1,\varphi_{2k}(x)=\sqrt{2}\cos(2\pi k x),\varphi_{2k+1}(x)\sqrt{2}\sin(2\pi kx)\)
小波基 \(\psi_{jk}(x)=2^{j/2}\psi(2^jx-k),j,k\in\mathbb{Z}\) 其中 \(\psi:\mathbb{R}\rightarrow\mathbb{R}\) 在紧的支撑集上足够光滑
二者的差别在于三角基考察的是频域的信息,而小波基同时考察了时域和频域的信息。
三角基有一个性质使我们后面用到的
\[\frac{1}{n}\sum\limits_{s=1}^{n}\varphi_j(s/n)\varphi_k(s/n)=\delta_{jk},1\le j,k\leq n-1\]
该定理的证明核心使用欧拉公式将三角转为指数
我们假设待估的函数 \(f\) 足够光滑。对于正整数 \(\beta\) 作为光滑度,我们先定义 索布列夫空间 (Sobolev class)
\[W(\beta,L)=\{f\in [0,1]\rightarrow\mathbb{R}:f^{(\beta-1)}\text{ is absolutely continuous and} \int_0^1(f^{(\beta)}(x))^2\,\mathrm{d}x\leq L \}\]
周期索布列夫空间 (periodic Sobelev class) 则定义为
\[W^{per}(\beta,L)=\{f\in W(\beta,L):f^{(j)}(0)=f^{(j)}(1),j=0,1,\ldots,\beta-1\}\]
考虑三角基 \(\phi_1(x)=1,\phi_{2j}(x)=\sqrt{2}\cos(2\pi jx),\phi_{2j-1}(x)=\sqrt{2}\sin(2\pi jx)\),可以证明任何 \(f\in W^{per}(\beta,L)\),都可以有展开式 \(f(x)=\sum_{j=1}^{\infty}\theta_j\varphi_j(x)\)。
先定义
\[a_j=\left\{\begin{array}{ll}j^\beta & 2\mid j\\ (j-1)^\beta&2\not\mid j\end{array}\right.\]
再定义索布列夫椭球 (Sobolev ellipse)
\(Q(\beta,Q)=\{\theta:\sum_{j=1}^\infty\theta_j^2<\infty,\sum_{j=1}^{\infty}a_j^2\theta_j^2\leq Q\}\)
可以证明,对于整数 \(\beta\), \(f\in W^{per}(\beta,L\) 当且仅当系数落在 \(Q(\beta,L^2/\pi^{2\beta})\)
索布列夫椭球还有如下的性质
\(0<\beta'\leq\beta\Rightarrow Q(\beta,Q)\subset Q(\beta',Q)\)
\(\beta>1/2\) 时,\(\theta\in Q(\beta,Q)\) 组成的 \(f(x)=\sum_{j=1}^{\infty}\theta_j\varphi_j(x)\) 是连续函数
先推广索布列夫椭球:由于 \(a_1=0,\beta\in\mathbb{N}^{+}\),我们定义 \(\Theta(\beta,Q)=\{\theta:\sum_{j=1}^\infty\theta_j^2<\infty,\sum_{j=2}^{\infty}a_j^2\theta_j^2\leq Q\}\),此时该定义对于 \(\beta>0\) 都是良定义的。
再推广 \(W^{per}(\beta,L)\) ,为 \(\tilde{W}(\beta,W)=\{f\in L_2(0,1):\theta=\{\theta_j\}\in\Theta(\beta,L)\}\),其中 \(\theta_j=\int_0^1f\varphi_j\)
那么,\(\forall\beta>1/2\),都有 \(f\in\tilde{W}(\beta,W)\) 是连续函数。
考察回归模型 \(Y_i=f(i/n)+\xi_i\),\(\mathbb{E}[\xi_i]=0,\mathbb{V}[\xi_i]=\sigma_2<\infty\)。 \(\{\varphi_j\}_{j=1}^\infty\) 是三角基,且\(f\) 的傅里叶系数 \(\theta_j=\int_0^1f\varphi_j\) 满足 \(\sum_{j=1}^{\infty}\lvert\theta_j\rvert<\infty\)。首先可以得到
级数 \(\sum_{j=1}^{\infty}\theta_j\varphi_j(x)\)绝对收敛,于是 \(f(x)=\sum_{j=1}^{\infty}\theta_j\varphi(x)\) 成立
考察 \(L_2\) 范数,由三角基的正交性不难得
\[\lVert\widehat{f}_N-f\rVert_2^2=\sum_{j\leq N}(\widehat{\theta}_j-\theta_j)^2+\sum_{j>N}\theta_j^2\]
为了研究该误差的上界,记
\[\widehat{\theta}_j=\frac{1}{n}\sum_{j=1}^{n}Y_i\phi_j(i/n)=\frac{1}{n}\sum_{j=1}^{n}f(i/n)\phi_j(i/n)\overset{\Delta}{=}\theta_j+\alpha_j\]
\[\mathbb{E}[(\widehat{\theta})_j-\theta_j)^2]=\mathbb{E}[(1/n\sum_{i=1}^{n}e_i\phi_j(i/n) +\alpha_j)^2]=\alpha_j^2+\sigma^2/n\]
于是误差变形为
\[\begin{align}\mathbb{E}\lVert\widehat{f}_N-f\rVert_2^2=\sum_{j\le N}\alpha_j^2+\frac{N\sigma^2}{n}+\sum_{j>N}\theta_j^2\leq N\cdot \max\limits_{1\le j\le N}\alpha_j^2+\frac{N}{n}\sigma^2+\sum_{j>N}\theta_j^2\end{align}\]
先考察最后一项,由于 \(a_j\) 单调不减,于是有
\[\begin{align}\sum_{j>N}\theta_j^2\leq\sum_{j>N}\frac{a_j^2}{a_N^2}\theta_j^2\leq\frac{1}{a_N^2}\sum_{j=1}^{\infty}a_j^2\theta_j^2\leq\frac{Q}{a_N^2}=O(N^{-2\beta})\end{align}\]
下面考察 \(\alpha_j\) 的性质,可以证明\(\max\limits_{1\leq j\leq n-1}\lvert \alpha_j\rvert\leq 2\sum\limits_{m\ge n}\lvert\theta_m\rvert\)
这是因为
\[\begin{align}\alpha_j&=\frac{1}{n}\sum_{i=1}^{n}f(i/n)\varphi_j(i/n)-\theta_j\\&=\frac{1}{n}\sum_{i=1}^{n}\sum_{m=1}^{\infty}(\theta_m\varphi_m(i/n))\varphi_j(i/n)-\theta_j\\&=\sum_{m=1}^{n-1}\theta_m\frac{1}{n}\sum_{i=1}^{n}\varphi_m(i/n)\varphi_j(i/n)-\theta_j+\frac{1}{n}\sum_{i=1}^{n}\sum_{m=n}^{\infty}\theta_m\varphi_m(i/n)\varphi_j(i/n)\\&=\frac{1}{n}\sum_{i=1}^{n}\sum_{m=n}^{\infty}\theta_m\varphi_m(i/n)\varphi_j(i/n)\end{align}\]
所以 \[\lvert\alpha_j\rvert\leq\lvert\sum_{m=n}^\infty\theta_m\left(\frac{1}{n}\sum_{i=1}^{n}\varphi_m(i/n)\varphi_j(i/n)\right)\rvert\leq 2\sum_{m=n}^\infty\lvert\theta_m\rvert\]
又有
\[\begin{aligned} \sum _ { m = n } ^ { \infty } \left| \theta _ { m } \right| & = \sum _ { m = 1 } ^ { \infty } \left| \theta _ { m } \right| I ( m \geq n ) \\ & \leq \left( \sum _ { m = 1 } ^ { \infty } a _ { m } ^ { 2 } \theta _ { m } ^ { 2 } \right) ^ { 1 / 2 } \left( \sum _ { m = n } ^ { \infty } a _ { m } ^ { - 2 } \right) ^ { 1 / 2 } \\ & \leq Q ^ { 1 / 2 } \left( \sum _ { m = n } ^ { \infty } ( m - 1 ) ^ { - 2 \beta } \right) ^ { 1 / 2 } \leq C _ { \beta , Q } n ^ { - \beta + 1 / 2 } \end{aligned}\]
于是 \(\sum_{j<N}\alpha_j^2\leq N\cdot\max\limits_{1\leq j\leq n-1}\alpha_j^2\leq C_{\beta,Q}^2 \cdot N\cdot n^{-2\beta+1}\)
于是误差可以写为 \(O(Nn^{-2\beta+1})+O(Nn^{-1})+O(N^{-2\beta})=O(Nn^{-1})+O(N^{-2\beta}), \beta>1\)
所以最小化时 \(N\sim n^{1/(2\beta+1)}\),代入得收敛速度为 \(O(n^{-2\beta/(2\beta+1)})\)
]]>如果核函数 \(K\) 只取非负值,可以发现 Nadaraya-Waston 估计 \(f_n^{NW}\) 满足下列式子
\[f_n^{NW}(x)=\arg\min\limits_{\theta\in\mathbb{R}}\sum\limits_{i=1}^{n}(Y_i-\theta)^2K\left(\frac{X_i-x}{h}\right)\]
这一结论只需使用一次导数就可以立刻得到,熟悉线性回归的读者应该不会陌生。
这说明了,\(f_n^{NW}\) 给出的是在 \(x\) 处,均方误差最小的一个常数估计,而这是可以被推广的——我们使用一个 \(l\) 阶多项式代替上式中的常数 \(\theta\) 。具体说来,如果 \(f\in\Sigma(\beta,L),\,\beta>1,\,l=\lfloor\beta\rfloor\),那么对于充分接近 \(x\) 的 \(z\) 我们有
\[f(z)\approx f(x)+f'(x)(z-x)+\cdots+\frac{f^{(l)}(x)}{x!}(z-x)^l=\theta^\intercal(x)U\left(\frac{z-x}{h}\right)\]
其中
\[U(u)=\Big(1,u,u^2/2!,\ldots,u^l/l!\Big)^\intercal\]
\[\theta(x)=\Big(f(x),f'(x)h,f''(x)h^2,\ldots,f^{(l)}(x)h^l\Big)^\intercal\]
于是我们得到了推广形式
\[\widehat{\theta}_n(x)=\arg\min\limits_{\theta\in\mathbb{R}^{l+1}}\sum\limits_{i=1}^{n}\left[Y_i-\theta^\intercal U\left(\frac{X_i-x}{h}\right)\right]^2K\left(\frac{X_i-x}{h}\right)\]
我们称其为 \(\theta(x)\) 的 \(l\) 阶局部多项式估计,简记为 \(\mathrm{LP}(l)\ \text{ estimator of }\ \theta(x)\)
此时, \(\widehat{f}_n(x)=U^\intercal (0)\widehat{\theta}_n(x)\) 称为 \(f(x)\) 的 \(l\) 阶局部多项式估计,简记为 \(\mathrm{LP}(l)\ \text{ estimator of }\ f(x)\)
可以发现 \(\widehat{f}_n(x)\) 其实就是 \(\widehat{\theta}_n(x)\) 的第一个分量。而其余的分量则提供了 \(f'(x),\ldots,f^{(l)}(x)\) 等的估计
当 \(K\ge 0\) 时,我们之前的 \(f_n^{NW}\) 也就是 \(\mathrm{LP}(0)\) 估计。
现在我们开始详细地查看 \(\widehat{\theta}_n\)。为方便记,我们将式子中的平方展开,得
\[\begin{align}\widehat{\theta}_n(x)&=\arg\min\limits_{\theta\in\mathbb{R}^{l+1}}\left\{-2\theta^\intercal\sum\limits_{i=1}^{n}Y_i U\left(\frac{X_i-x}{h}\right)K\left(\frac{X_i-x}{h}\right)+\theta^\intercal \sum\limits_{i=1}^{n}\left[U\left(\frac{X_i-x}{h}\right)U^\intercal\left(\frac{X_i-x}{h}\right)K\left(\frac{X_i-x}{h}\right)\right]\theta\right\}\\&=\arg\min\limits_{\theta\in\mathbb{R}^{l+1}}nh\cdot(-2\theta^\intercal \boldsymbol{a}_{nx}+\theta^\intercal\mathcal{B}_{nx}\theta)\end{align}\]
其中定义
\[\boldsymbol{a}_{nx}=\frac{1}{nh}\sum_{i=1}^{n}Y_i U\left(\frac{X_i-x}{h}\right)K\left(\frac{X_i-x}{h}\right)\]
\[\mathcal{B}_{nx}=\frac{1}{nh}\sum\limits_{i=1}^{n}\left[U\left(\frac{X_i-x}{h}\right)U^\intercal\left(\frac{X_i-x}{h}\right)K\left(\frac{X_i-x}{h}\right)\right]\]
求导立得约束条件 \(\mathcal{B}_{nx}\widehat{\theta}_n(x)=\boldsymbol{a}_{nx}\)。 当 \(\mathcal{B}_{nx}\) 正定时,可以解得 \(\widehat{\theta}_n=\mathcal{B}_{nx}^{-1}\boldsymbol{a}_{nx}\) 。此时
\[\widehat{f}_n(x)=\frac{1}{nh}\sum\limits_{i=1}^{n}Y_i U^\intercal(0)\mathcal{B}_{nx}^{-1}U\left(\frac{X_i-x}{h}\right)K\left(\frac{X_i-x}{h}\right)\overset{\Delta}{=} \sum\limits_{i=1}^{n}Y_i W_{ni}^\ast(x)\]
而 \(W_{ni}^\ast(x)\) 的计算也不依赖与 \(Y\) 的值,也就是说此时我们得到了一个非参线性估计。
既然与 \(Y\) 的值无关,事实上我们有如下命题:当 \(x\) 满足 \(\mathcal{B}_{nx}\) 正定且 \(Q\) 为一个不超过 \(l\) 阶的多项式,那么我们的 \(\mathrm{LP}(l)\) 给出的权重 \(W_{ni}^\ast\) 满足 \(\sum\limits_{i=1}^{n}Q(X_i)W_{ni}^\ast(x)=Q(x)\) 其证明思路简述如下
首先我们可以有 \(Q(X_i)=Q(x)+Q'(x)(X_i-x)+\ldots+\frac{Q^{(l)}(x)}{l!}(X_i-x)^l=q^\intercal(x) U\left(\frac{X_i-x}{h}\right)\) 其中 \(q^\intercal(x)=\big(Q(x),Q'(x)h,\ldots,Q^{(l)}(x)h^l\big)\in\mathbb{R}^{l+1}\)
然后设 \(Y_i=Q(X_i)\),使用 \(\mathrm{LP}(l)\) 估计得
\[\begin{align}\widehat{\theta}_n(x)&=\arg\min\limits_{\theta\in\mathbb{R}^{l+1}}\sum\limits_{i=1}^{n}\left[Q(X_i)-\theta^\intercal U\left(\frac{X_i-x}{h}\right)\right]^2K\left(\frac{X_i-x}{h}\right)\\&=\arg\min\limits_{\theta\in\mathbb{R}^{l+1}}\sum\limits_{i=1}^{n}\left[(q(x)-\theta)^\intercal U\left(\frac{X_i-x}{h}\right)\right]^2K\left(\frac{X_i-x}{h}\right)\\&=\arg\min\limits_{\theta\in\mathbb{R}^{l+1}}(q(x)-\theta)^\intercal \mathcal{B}_{nx}(q(x)-\theta)\end{align}\]
又 \(\mathcal{B}_{nx}\) 正定,故 \(\widehat{\theta}_n(x)=q(x)\) ,则 \(\widehat{f}_n(x)=Q(x)\)
也就是说,局部多项式回归可以更精细的刻画拟合的结果。
和之前一样,我们将误差分为偏差项 \(b(x_0)=\mathbb{E}_f[\widehat{f}_n(x_0)]-f(x_0)\) 和方差项 \(\sigma^2(x_0)=\mathbb{E}_f[\widehat{f}_n^2(x_0)]-(\mathbb{E}_f[\widehat{f}_n(x_0)])^2\) 。其中 \(f\) 是 \(Y_i=f(X_i)+\xi_i\) 中的 \(f\),即真实但未知的一个映射。
不难证明,单点误差 \(\mathrm{MSE}(x_0)=b^2(x_0)+\sigma^2(x_0)\)
在进行误差分析之前,我们需要引入一些假设。
存在实数 \(\lambda_0>0\) 和正整数 \(n_0\),使得对所有 \(n\ge n_0\) 和任意 \(x\in[0,1]\),均有最小的特征值 \(\lambda_\min(\mathcal{B}_{nx})\ge\lambda_0\)。这一假设是比正定性更强的一个假设,因为他要求对 \(n\) 和 \(x\) 一致正定。
同时,由于 \(\mathcal{B}_{nx}\) 是对称阵,因此该假设也隐含了,对于任意 \(n\ge n_0,\, x\in[0,1],\, v\in\mathbb{R}^{l+1}\) 均有 \(\Vert\mathcal{B}_{nx}^{-1}v\rVert\leq\lVert v\rVert/\lambda_0\) 。如果读者对这一结论并不熟悉,参看之前的博文里关于矩阵基础知识的介绍 【Note】 多元统计分析(一)——矩阵的基础知识
存在实数 \(a_0>0\) 使得对任意区间 \(A\subseteq [0,1]\) 和所有的 \(n\geq 1\) ,均有 \(\sum\limits_{i=1}^{n}\boldsymbol{1}[X_i\in A]\leq a_0\max\{n\cdot\mathrm{Leb}(A), 1\}\), 其中 \(\mathrm{Leb}(A)\) 是 \(A\) 的勒贝格测度。这一假设刻画了 \(X_i\) 在区间 \([0,1]\) 上都足够密集。一个极端的例子是,假如所有的样本点中始终有 \(50\%\) 落在 \(x_0\) 处,那么取 \(A_n=(x_0-\frac{1}{2n},x_0+\frac{1}{2n})\) ,两端取极限。左边为 \(n/2\),右边为 \(a_0\) 就不成立了。但一般的 \(X_i\) 的分布都会满足这一假设。
核函数 \(K\) 有紧的支撑集且落在 \([-1,1]\) 上,且 \(K\) 有界。这基本上也都是会被满足的。
有了这三条假设后,我们可以给出关于 \(W_{ni}^\ast(x)\) 的三个引理:对任意 \(n\ge n_0,\,h\ge 1/(2n),\,x\in[0,1]\) 均有只依赖于 \(\lambda_0,a_0,K_\max\) 的常数 \(C_\ast\),使得
证明:首先,由 \(\lVert U(0)\rVert=1\) 和 假设一可以推出
\[\begin{align}\lvert W_{ni}^\ast(x)\rvert&\leq\frac{1}{nh}\left\lVert\mathcal{B}_{nx}^{-1}U\left(\frac{X_i-x}{h}\right)K\left(\frac{X_i-x}{h}\right)\right\rVert\\&\leq\frac{1}{nh\lambda_0}\left\lVert U\left(\frac{X_i-x}{h}\right)K\left(\frac{X_i-x}{h}\right)\right\rVert\\&\leq\frac{K_\max}{nh\lambda_0}\left\lVert U\left(\frac{X_i-x}{h}\right)\right\rVert\cdot\boldsymbol{1}\left[\left\lvert\frac{X_i-x}{h}\right\rvert\leq 1\right]\\&\leq\frac{K_\max}{nh\lambda_0}\sqrt{1+\frac{1}{(1!)^2}+\frac{1}{(2!)^2}+\cdots++\frac{1}{(l!)^2}}\leq\frac{2K_\max}{nh\lambda_0}\end{align}\]
类似的,利用假设二,我们有
\[\sum_{i=1}^{n}\lvert W_{ni}^\ast(x)\rvert\leq\frac{2K_\max}{nh\lambda_0}\sum_{i=1}^{n}\mathbb{1}[x-h\leq X_i\leq x+h]\leq\frac{2K_\max a_0}{nh\lambda_0}\max\{2nh,1\}\leq\frac{4K_\max a_0}{\lambda_0}\]
于是取 \(C_\ast=\max\{2K_\max/\lambda_0, 4K_\max a_0/\lambda_0\}\) 即完成证明
第三条则由 \(K(u)\) 的支撑集在 \([-1,1]\) 内立得。
现在开始误差的分析。设 \(f\in\Sigma(\beta,L)\),\(\widehat{f}\) 是 \(LP(\lfloor\beta\rfloor)\) 估计。并假设 \(X_1,\ldots,X_n\) 确定,上述三个假设满足,且 \(\xi_i\) 均值为零方差有限。那么对 \(\forall x_0\in[0,1], n>n_0, h\ge 1/(2n)\),有如下上界
\[\lvert b(x_0)\rvert\leq \frac{L\cdot C_\ast}{\ell!} h^\beta,\sigma^2(x_0)\leq \frac{C_\ast^2\cdot\sigma_\max^2}{nh}\]
\[\begin{align}b(x_0)&=\mathbb{E}_f[\widehat{f}(x_0)]-f(x_0)\\&=\mathbb{E}[\sum_{i=1}^{n}\widehat{f}(X_i)W_{ni}^\ast(x_0)]-f(x_0)\\&=\sum_{i=1}^{n}f(X_i)W_{ni}^\ast(x_0)-f(x_0)\\&=\sum_{i=1}^{n}(f(X_i)-f(x_0))W_{ni}^\ast(x_0)\\&=\sum_{i=1}^{n}\frac { f ^ { ( \ell ) } \left( x _ { 0 } + \tau _ { i } \left( X _ { i } - x _ { 0 } \right) \right) - f ^ { ( \ell ) } \left( x _ { 0 } \right) } { \ell ! } \left( X _ { i } - x _ { 0 } \right) ^ { \ell } W _ { n i } ^ { * } \left( x _ { 0 } \right)\end{align}\]
使用刚才证明的引理
\[\begin{aligned} \left| b \left( x _ { 0 } \right) \right| & \leq \sum _ { i = 1 } ^ { n } \frac { L \left| X _ { i } - x _ { 0 } \right| ^ { \beta } } { \ell ! } \left| W _ { n i } ^ { \ast } \left( x _ { 0 } \right) \right| \\ & = L \sum _ { i = 1 } ^ { n } \frac { \left| X _ { i } - x _ { 0 } \right| ^ { \beta } } { \ell ! } \left| W _ { n i } ^ { \ast } \left( x _ { 0 } \right) \right| I \left( \left| X _ { i } - x _ { 0 } \right| \leq h \right) \\ & \leq L \sum _ { i = 1 } ^ { n } \frac { h ^ { \beta } } { \ell ! } \left| W _ { n i } ^ { \ast } \left( x _ { 0 } \right) \right|\\& \leq \frac { L\cdot C _ { \ast } } { \ell ! } h ^ { \beta } \end{aligned}\]
\[\begin{aligned} \sigma ^ { 2 } \left( x _ { 0 } \right) & = \mathbb { E } \left[ \left( \sum _ { i = 1 } ^ { n } \xi _ { i } W _ { n i } ^ { \ast } \left( x _ { 0 } \right) \right) ^ { 2 } \right] = \sum _ { i = 1 } ^ { n } \left( W _ { n i } ^ { \ast } \left( x _ { 0 } \right) \right) ^ { 2 } \mathbb { E } \left( \xi _ { i } ^ { 2 } \right) \\ & \leq \sigma _ { \max } ^ { 2 } \sup _ { i , x } \left| W _ { n i } ^ { \ast } ( x ) \right| \sum _ { i = 1 } ^ { n } \left| W _ { n i } ^ { \ast } \left( x _ { 0 } \right) \right| \\&\leq \frac { \sigma _ { \max } ^ { 2 } \cdot C _ { \ast } ^ { 2 } } { n h } \end{aligned}\]
所以 \(\mathrm{MSE}\leq C_1h^{2\beta}+\frac{C_2}{nh}\),故可证明上界有 \(O(n^{-2\beta/(2\beta+1)})\)
同时也可以证明 \(\mathrm{MISE}\leq O(n^{-2\beta/(2\beta+1)})\)
考察无穷范数时我们需要更强的假设——假设 \(\xi_i\) 是独立同分布的高斯函数,均值零且方差有限。 \(K\) 是 Lipschitz 核函数即 \(K\in\Sigma(1,L_K),0<L_K<\infty\)。在同样的假设下我们可以证明其收敛速度为 \((\log n/n)^{-2\beta/(2\beta+1)}\)
首先
\[\begin{aligned}\mathbb{E}_f \left\| \hat { f } _ { n } - f \right\| _ { \infty } ^ { 2 } & \leq \mathbb{E}_f\left[ \left\| \hat { f } _ { n } - \mathbf { E } \hat { f } _ { n } \right\| _ { \infty } + \left\| \mathbb{E}_f \hat { f } _ { n } - f \right\| _ { \infty } \right] ^ { 2 } \\ & \leq 2 \mathbb{E}_f \left\| \hat { f } _ { n } - \mathbb{E}_f \hat { f } _ { n } \right\| _ { \infty } ^ { 2 } + 2 \left( \sup _ { x \in [ 0,1 ] } | b ( x ) | \right) ^ { 2 } \\ & \leq 2 \mathbb{E}_f \left\| \hat { f } _ { n } - \mathbb{E}_f \hat { f } _ { n } \right\| _ { \infty } ^ { 2 } + 2 q _ { 1 } ^ { 2 } h _ { n } ^ { 2 \beta } \end{aligned}\]
记 \(W_{ni}^\ast(x)=\frac{1}{nh}U^\intercal(0)\mathcal{B}_{nx}^{-1}U\left(\frac{X_i-x}{h}\right)K\left(\frac{X_i-x}{h}\right)\overset{\Delta}{=}\frac{1}{nh}U^\intercal(0)\mathcal{B}_{nx}^{-1}S_i(x)\)
\[\begin{align}\mathbb{E}\lVert\widehat{f}_n-\mathbb{E}\widehat{f}_n\rVert_\infty^2&=\mathbb{E}[\sup\limits_{x\in[0,1]}\lvert \widehat{f}_n(x)-\mathbb{E}\widehat{f}_n(x)\rvert^2]\\&=\mathbb{E}[\sup\limits_{x\in[0,1]}\lvert \sum_{i=1}^{n}\xi_iW_{ni}^\ast(x)\rvert^2]\\&\leq\mathbb{E}[\sup\limits_{x\in[0,1]}\lVert \frac{1}{nh}\mathcal{B}_{nx}^{-1}\sum_{i=1}^{n}\xi_i S_i(x)\rVert^2]\\&\leq\frac{1}{\lambda_0^2n^2h^2}\mathbb{E}[\sup\limits_{x\in[0,1]}\lVert \sum_{i=1}^{n}\xi_i S_i(x)\rVert^2]\end{align}\]
核心在于估计出 \(\sup\limits_{x\in[0,1]}\lVert\sum_{i=1}^{n}\xi_iS_i(x)\rVert^2\)。为此,我们选定 \(M=n^2\) 个“锚点”来控制住整个上界。令 \(x_j=j/M,j=1,2,\ldots,M\),我们有
\[\begin{align}\sup\limits_{x\in[0,1]}\lVert\sum_{i=1}^{n}\xi_iS_i(x)\rVert^2&\leq(\max_\limits{1\leq j\leq M}\lVert\sum_{i=1}^{n}\xi_iS_i(x_j)\rVert+\sup\limits_{x,x':|x-x'|\leq 1/M}\lVert\sum_{i=1}^{n}\xi_i(S_i(x)-S_i(x'))\rVert)^2\\&\leq2(\max_\limits{1\leq j\leq M}\lVert\sum_{i=1}^{n}\xi_iS_i(x_j)\rVert)^2+2(\sup\limits_{x,x':|x-x'|\leq 1/M}\lVert\sum_{i=1}^{n}\xi_i(S_i(x)-S_i(x'))\rVert)^2\end{align}\]
由于 \(K\in\Sigma(1,L_K)\), 支撑集为 \([-1,1]\),且 \(U\) 是多项式组成的函数向量,可以证明
\[\lVert U(u)K(u)-U(u')K(u')\rVert\leq\bar{L}\lvert u-u'\rvert\]
所以后面一项的期望可以被控制为 \[2(\frac{\bar{L}}{Mh}\sum_{i=1}^{n}\lvert\mathbb{E}\xi_i\rvert)^2\leq\frac{2n^2\bar{L}^2}{M^2h^2}\sup\mathbb{E}\xi_i^2\leq \frac{2n^2\bar{L}^2\sigma_\max^2}{M^2h^2}\]
乘上前面的因子,得到其为 \(\frac{2\bar{L}^2\sigma_\max^2}{M^2h^4}=\frac{2\bar{L}^2\sigma_\max^2}{(nh)^4}=o(\frac{1}{nh})\)
所以这一块的影响不大。现在考察前面的一项,构造 \(\eta_j=\frac{1}{\sqrt{nh}}\sum_{i=1}^{n}\xi_iS_i(x_j)\),其为均值为零的高斯向量。
而
\[\mathbb{E}\lVert\eta_j\rVert^2=\frac{1}{nh}\sum_{i=1}^{n}\sigma_\xi^2\left\lVert U\left(\frac{X_i-x_j}{h}\right)\right\rVert^2K^2\left(\frac{X_i-x_j}{h}\right)\leq\frac{4K_\max^2\sigma_\xi^2}{nh}\sum_{i=1}^{n}\boldsymbol{1}[\lvert X_i-x_j\rvert\leq h]\leq 4K_\max^2\sigma_\xi^2 a_0\max(2,1/nh)\]
由引理则有 \(\mathbb{E}[\max_\limits{1\leq j\leq M}\lVert\eta_j\rVert^2]=O(\log M)=O(\log n)\)
所以得到 \(\mathbb{E}\lVert \widehat{f}-\mathbb{E}\widehat{f}\rVert_\infty^2\leq\frac{c'\log n}{nh}\)
即 \(\mathbb{E}\lVert\widehat{f}-f\rVert_\infty^2\leq\frac{c'\log n}{nh}+c_2'h^{2\beta}\)
于是得到无穷范数的收敛速度是 \((\log n/n)^{-2\beta/(2\beta+1)}\)
]]>设 \((X,Y)\) 是实随机变量对且 \(\mathbb{E}[\lvert Y\rvert]<\infty\),定义 \(f : \mathbb{R}\rightarrow\mathbb{R}\) 为 \(f(x)=\mathbb{E}[Y\mid X=x]\),我们就称其为 \(Y\) 对 \(X\) 的回归函数。不难证明,条件残差 \(\varepsilon\overset{\Delta}{=}Y-\mathbb{E}[Y\mid X]\) 满足性质 \(\mathbb{E}[\xi]=0\)。此时我们又可写为
\[Y_i=f(X_i)+\varepsilon_i,\quad i=1,\ldots,n\]
其中 \(\xi_i\) 独立同分布于 \(\xi\)
在非参数的背景下,我们会要求 \(f\) 落在我们给定的一个非参空间 \(\mathcal{F}\) 上。而我们的自变量 \(\{X_1,\ldots,X_n\}\) 称为一个设计 (design)。
我们先讨论一个简单的情形:\(X_i=i/n\),而 \(f:[0,1]\rightarrow\mathbb{R}\),\(Y_i=f(i/n)+\varepsilon_i\),\(\varepsilon_i\) 独立同分布且均值为零。
由于有
\[\mathbb{E}[Y\lvert X]=\int yp(y\lvert x)\,\mathrm{d}y=\frac{\int yp(x,y)\,\mathrm{d}y}{p(x)}=\frac{\int yp(x,y)\,\mathrm{d}y}{\int p(x,y)\,\mathrm{d}y}\]
在给定核函数 \(K\) 和带宽 \(h\) 后,我们可以构造一个十分自然的估计——Nadaraya-Watson 估计如下
\[\begin{align}f_{n}^{NW}(x)=\frac{\sum_{i=1}^{n}Y_iK\left(\frac{X_i-x}{h}\right)}{\sum_{i=1}^{n}K\left(\frac{X_i-x}{h}\right)}\overset{\Delta}{=}\sum_{i=1}^{n}Y_iW_{ni}^{NW}(x)\cdot\mathbf{1} \left[ \sum_{i=1}^{n}K\left(\frac{X_i-x}{h}\right)\neq 0\right]\end{align}\]
一个特殊的情况就是取 \(K(u)=\frac12\cdot\mathbf{1}[\lvert u\rvert\leq 1]\),不难看出此时 \(f_n^{NW}(x)\) 即为 \([x-h,x+h]\) 区间上的 \(Y_i\) 的均值,类似于滑动平均。注意到此时核函数的支撑集是有限区间。此时考察两个极端情况
此时又出现了偏差和方差的权衡。
为了和之后的记号统一,我们重写 \(f_n^{NW}\) 为 \(f_n^{NW}=\sum\limits_{i=1}^{n}Y_i W_{ni}^{NW}(x)\),其中
\[W_{ni}^{NW}(x)=\frac{K\left(\frac{X_i-x}{h}\right)}{\sum_{j=1}^{n}K\left(\frac{X_j-x}{h}\right)}I\Bigg(\sum_{j=1}^{n}K\left(\frac{X_j-x}{h}\right)\neq 0\Bigg)\]
我们称 \(\widehat{f}_n(x)=\sum_{i=1}^{n}Y_i W_{ni}(x)\) 为 \(f(x)\) 的一个非参线性估计,如果 \(W_{ni}(x)\) 只取决于 \(n, i, x, X_1,\ldots,X_n\),且对所有 \(x\) (更严格讲,几乎所有 \(x\) ), \(\sum\limits_{i=1}^{n}W_{ni}(x)=1\)。
选取 1 阶的核函数,并使用 \(\widehat{p}_n(x)=\frac{1}{nh}\sum\limits_{i=1}^{n}K\left(\frac{X_i-x}{h}\right)\), \(\widehat{p}_n(x,y)=\frac{1}{nh^2}\sum\limits_{i=1}^{n}K\left(\frac{X_i-x}{h}\right)K\left(\frac{Y_i-y}{h}\right)\)。代入\(f_{n}^{NW}(x)=\frac{\int y\widehat{p}_n(x,y)\,\mathrm{d}y}{\widehat{p}_n(x)}\)
首先,我们有
\[\int y\widehat{p}_n(x,y)\,\mathrm{d}y=\frac{1}{nh^2}\sum\limits_{i=1}^{n}K\left(\frac{X_i-x}{h}\right) \int yK\left(\frac{Y_i-y}{h}\right)\,\mathrm{d}y\]
\[\begin{align}\int yK\left(\frac{Y_i-y}{h}\right)\,\mathrm{d}y&=\int (y-Y_i)K\left(\frac{Y_i-y}{h}\right)\,\mathrm{d}y+\int Y_iK\left(\frac{Y_i-y}{h}\right)\,\mathrm{d}y\\&=-\underbrace{\int(-hu)K(u)(-h)\,\mathrm{d}u}_{0}-\int Y_i K(u)(-h)\,\mathrm{d}u\\&=hY_i\end{align}\]
于是我们有
\[f_n^{NW}(x)=\frac{1}{nh\widehat{p}_n(x)}\sum\limits_{i=1}^{n}Y_i K\left(\frac{X_i-x}{h}\right)\]
当然,如果已知 \(X\) 的分布 \(p(x)\),也可以不使用 \(\widehat{p}(x)\)。特别的,当 \(X\sim U(0,1)\) 时,有
\[\bar{f}_{nh}(x)=\frac{1}{nh}\sum\limits_{i=1}^{n}Y_i K\left(\frac{X_i-x}{h}\right)\]
这也就是 \(n\) 个样本点分别贡献 \(1/n\) 个 \(Y_i\) 倍的核函数后的叠加。
]]>基于模型的算法的核心只有两步
序号 | \(Y_i(0)\) | \(Y_i(1)\) | \(W_i\) | \(Y_i^\mathrm{obs}\) |
---|---|---|---|---|
1 | 0 | ? | 0 | 0 |
2 | ? | 9.9 | 1 | 9.9 |
3 | 12.4 | ? | 0 | 12.4 |
4 | ? | 3.6 | 1 | 3.6 |
5 | 0 | ? | 0 | 0 |
6 | ? | 24.9 | 1 | 24.9 |
我们关心的是
\[\begin{align}\tau_\mathrm{fs}&=\tau(\mathbf{Y}(0),\mathbf{Y}(1))\\&=\frac{1}{6}\sum_{i=1}^{6}\big(Y_i(1)-Y_i(0)\big)\\&=\frac{1}{6}\sum_{i=1}^{6}\big((2\cdot W_i-1)(Y_i^\mathrm{obs}-Y_i^\mathrm{mis}\big)\\&=\tilde\tau(\mathbf{Y}^\mathrm{obs},\mathbf{Y}^\mathrm{mis},\mathbf{W})\end{align}\]
由于 \(\mathbf{Y}^\mathrm{mis}\) 的缺失,我们只能给出估计值,此时为
\(\widehat{\tau}=\tilde{\tau}(\mathbf{Y}^\mathrm{obs},\widehat{\mathbf{Y}}^\mathrm{mis},\mathbf{W})\)
因此核心就在于给出 \(\widehat{\mathbf{Y}}^\mathrm{mis}\)
使用各组观测到的平均值来替换缺失值,即
\[\mathbb{P}[Y_i^\mathrm{mis}=y\mid\mathbf{Y}^\mathrm{obs},\mathbf{W}]=\left\{\begin{array}\\1&W_i=0,\ y=12.8\\1&W_i=1,\ y=4.1\\0&\mathrm{o.w.}\end{array}\right.\]
此时给出的估计 \(\widehat{\tau}=12.8-4.1=8.7=\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}=\widehat{\tau}^\mathrm{dif}\)
这个方法的劣势在于,由于完全没有随机性,因此我们只能给出点估计而无法给出精确度,正如 Fisher 的方法一样。而且这样的赋值方法也没有保存下来 \(Y_i\) 的方差。比如 \(Y_i(1)\) 中我们已经观测到了 3.9,9.9,24.9,但我们的赋值湮灭了这一点。
对于每一个缺失值,从已观测到的值中抽样,以本数据为例子就是
\[\mathbb{P}[Y_i^\mathrm{mis}=y\mid\mathbf{Y}^\mathrm{obs},\mathbf{W}]=\left\{\begin{array}\\1/3&W_i=0,\ y\in\{3.6,9.9,24.9\}\\1/3&W_i=1,\ y=12.4\\2/3&W_i=1,\ y=0\\0&\mathrm{o.w.}\end{array}\right.\]
显然此时有 \(3^6=729\) 种赋值方式,使用代码跑一下得到均值 8.7,标准差 3.1
这一模型比上一模型复杂,但可以给我们一个区间估计。但他并没有囊括所有的随机性——理论上我们应该从 \(Y_i\) 的精确分布中抽样然后填入缺失值,但我们这里只用了观测到的数据来替代这一行为。为了将总体的信息引入,我们使用下面的贝叶斯模型。
1 | Y0 = c(0,0,12.4) |
潜在结果的联合分布 \(f(\mathbf{Y}(0),\mathbf{Y}(1))\)
由于行可交换,其可以写成各样本的乘积
\(f(\mathbf{Y}(0),\mathbf{Y}(1))=\int\prod_{i=1}^{N}f(Y_i(0),Y_i(1)\mid\theta)\cdot p(\theta)\,\mathrm{d}\theta\)
因此我们需要给出第二个输入
\(p(\theta)\) 即参数的先验分布
在观察实验中,我们可能还需要引入 \(f(\mathbf{W}\mid\mathbf{Y}(0),\mathbf{Y}(1))\)。但在完全随机试验中,我们知道其在支撑集上其为常数 \(\binom{N}{N_t}^{-1}\),因此无需引入。
首先我们有 \(f(\mathbf{Y}(0),\mathbf{Y}(1),\mathbf{W}\mid\theta)=\mathbb{P}[\mathbf{W}\mid\mathbf{Y}(0),\mathbf{Y}(1),\theta]\cdot f(\mathbf{Y}(0),\mathbf{Y}(1)\mid\theta)\)
接着我们有 \(f(\mathbf{Y}(0),\mathbf{Y}(1)\mid\mathbf{W},\theta)=\frac{f(\mathbf{Y}(0),\mathbf{Y}(1),\mathbf{W}\mid\theta)}{\mathbb{P}[\mathbf{W}\mid\theta]}=\frac{f(\mathbf{Y}(0),\mathbf{Y}(1),\mathbf{W}\mid\theta)}{\iint f(\mathbf{Y}(0),\mathbf{Y}(1),\mathbf{W}\mid\theta)\,\mathrm{d}\mathbf{Y}(0)\mathrm{d}\mathbf{Y}(1)}\)
在完全随机试验下 \(\mathbf{W}\perp\!\!\!\perp (\mathbf{Y}(0),\mathbf{Y}(1))\) 即 \(f(\mathbf{Y}(0),\mathbf{Y}(1)\mid\mathbf{W},\theta)=f(\mathbf{Y}(0),\mathbf{Y}(1)\mid\theta)\)
注意到 \((\mathbf{Y}^\mathrm{obs},\mathbf{Y}^\mathrm{mis})\) 可以写为 \((\mathbf{Y}(0),\mathbf{Y}(1),\mathbf{W})\) 的变换,因此我们可以推导
\(f(\mathbf{Y}^\mathrm{mis}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W},\theta)=\frac{f(\mathbf{Y}^\mathrm{mis},\mathbf{Y}^\mathrm{obs}\mid\mathbf{W},\theta)}{f(\mathbf{Y}^\mathrm{obs}\mid\mathbf{W},\theta)}=\frac{f(\mathbf{Y}^\mathrm{mis},\mathbf{Y}^\mathrm{obs}\mid\mathbf{W},\theta)}{\int f(\mathbf{Y}^\mathrm{mis},\mathbf{Y}^\mathrm{obs}\mid\mathbf{W},\theta)\,\mathrm{d}\mathbf{y}^\mathrm{mis}}\)
这也称为 \(\mathbf{Y}^\mathrm{mis}\) 的后验预测分布
首先我们有似然函数 \(\mathcal{L}(\theta\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})\equiv f(\mathbf{Y}^\mathrm{obs},\mathbf{W}\mid\theta)=\int f(\mathbf{y}^\mathrm{mis},\mathbf{Y}^\mathrm{obs},\mathbf{W}\mid\theta)\,\mathrm{d}\mathbf{y}^\mathrm{mis}\)
于是 \(p(\theta\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})=\frac{p(\theta)\mathcal{L}(\theta\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})}{f(\mathbf{Y}^\mathrm{obs},\mathbf{W})}=\frac{p(\theta)\mathcal{L}(\theta\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})}{\int p(\theta)\mathcal{L}(\theta\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})\,\mathrm{d}\theta}\)
上面两式合并得 \(f(\mathbf{Y}^\mathrm{mis},\theta\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})=f(\mathbf{Y}^\mathrm{mis}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W},\theta)\cdot p(\theta\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})\)
于是 \(f(\mathbf{Y}^\mathrm{mis}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})=\int f(\mathbf{Y}^\mathrm{mis},\theta\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})\,\mathrm{d}\theta\)
我们知道 \(\tau=\tau(\mathbf{Y}(0),\mathbf{Y}(1),\mathbf{W})=\tilde\tau(\mathbf{Y}^\mathrm{mis},\mathbf{Y}^\mathrm{obs},\mathbf{W})\)
而给定 \(\mathbf{Y}^\mathrm{obs},\mathbf{W}\) 后,我们可以得到 \(\mathbf{Y}^\mathrm{mis}\) 的条件分布,也就可以得到 \(\tau=\tilde{\tau}\) 的条件分布
首先,我们假设给定参数 \(\theta=(\mu_c,\mu_t)\) 后我们的服从二元正态分布如下
\[\begin{pmatrix}Y_i(0)\\Y_i(1)\end{pmatrix}\Bigg|\,\theta\sim\mathcal{N}\Bigg(\begin{pmatrix}\mu_c\\\mu_t\end{pmatrix},\begin{pmatrix}100&0\\0&64\end{pmatrix}\Bigg)\]
而我们的参数的先验为
\[\theta=\begin{pmatrix}\mu_c\\\mu_t\end{pmatrix}\sim\mathcal{N}\Bigg(\begin{pmatrix}0\\0\end{pmatrix},\begin{pmatrix}10000&0\\0&10000\end{pmatrix}\Bigg)\]
分配机制 \[\mathbb{P}[\mathbf{W}=\mathbf{w}\mid\mathbf{Y}(0),\mathbf{Y}(1),\mu_c,\mu_t]=\binom{N}{N_t}^{-1},\quad\sum_{i=1}^{N}\mathbf{w}_i=N_t\]
我们有 \(f(\mathbf{Y}(0),\mathbf{Y}(1)\mid\mathbf{W},\theta)=f(\mathbf{Y}(0),\mathbf{Y}(1)\mid\theta)=\prod_{i=1}^{N}f(Y_i(0),Y_i(1)\mid\theta)\)
\(\begin{pmatrix}Y_i^\mathrm{mis}\\Y_i^\mathrm{obs}\end{pmatrix}\Bigg|\mathbf{W},\theta\sim\mathcal{N}\Bigg(\begin{pmatrix}W_i\cdot\mu_c+(1-W_i)\cdot\mu_t\\(1-W_i)\cdot\mu_c+W_i\cdot\mu_t\end{pmatrix},\begin{pmatrix}W_i\cdot100+(1-W_i)\cdot64&0\\0&(1-W_i)\cdot100+W_i\cdot\64\end{pmatrix} \Bigg)\)
故 \[f(\mathbf{Y}^\mathrm{mis},\mathbf{Y}^\mathrm{obs}\mid\mathbf{W},\theta)=\prod_{i=1}^{N}f(Y_i^\mathrm{mis},Y_i^\mathrm{obs}\mid\mathbf{W},\theta)\]
则 \(Y_i^\mathrm{mis}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W},\theta\sim\mathcal{N}(W_i\cdot\mu_c+(1-W_i)\cdot\mu_t,W_i\cdot100+(1-W_i)\cdot64)\)
\[\begin{align}\mathcal{L}(\theta\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})&\propto\prod_{i:W_i=0}\frac{1}{\sqrt{2\pi\cdot 100}}\exp\left\{-\frac{1}{2}\left(\frac{1}{100}(Y_i^\mathrm{obs}-\mu_c)^2\right)\right\}\\&\quad\times\prod_{i:W_i=1}\frac{1}{\sqrt{2\pi\cdot 64}}\exp\left\{-\frac{1}{2}\left(\frac{1}{64}(Y_i^\mathrm{obs}-\mu_t)^2\right)\right\}\end{align}\]
于是 \[p(\theta\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})\propto\mathcal{L}(\theta\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})p(\theta)\],合并指数项后可以推出
\[\theta\mid\mathbf{Y}^\mathrm{obs},\mathbf{W}\sim\mathcal{N}\Bigg(\begin{pmatrix}\bar{Y}_c^\mathrm{obs}\cdot\frac{N_c\cdot 10,000}{N_c\cdot 10,000+100}\\\bar{Y}_t^\mathrm{obs}\cdot\frac{N_t\cdot 10,000}{N_t\cdot 10,000+64}\end{pmatrix},\begin{pmatrix}(N_c/100+1/10000)^{-1}&0\\0&(N_t/64+1/10000)^{-1}\end{pmatrix}\Bigg)\]
代入数据得
\[\theta\mid\mathbf{Y}^\mathrm{obs},\mathbf{W}\sim\mathcal{N}\Bigg(\begin{pmatrix}4.1\\12.8\end{pmatrix},\begin{pmatrix}5.8^2&0\\0&4.6^2\end{pmatrix}\Bigg)\]
\(f(\mathbf{Y}^\mathrm{mis},\theta\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})=f(\mathbf{Y}^\mathrm{mis}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W},\theta)\cdot p(\theta\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})\)
注意到后面这两项都是正态分布,可以推出 \(f(\mathbf{Y}^\mathrm{mis}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})\) 也服从正态分布
\[\mathbb{E}[Y_i^\mathrm{mis}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W},\mu_c,\mu_t]=W_i\cdot\mu_c+(1-W_i)\cdot\mu_t\]
\[\mathbb{E}[Y_i^\mathrm{mis}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W}]=W_i\cdot\left(\bar{Y}_c^\mathrm{obs}\cdot\frac{N_c\cdot 10000}{N_c\cdot 10000+100}\right)+(1-W_i)\cdot\left(\bar{Y}_t^\mathrm{obs}\cdot\frac{N_t\cdot 10000}{N_t\cdot 10000+100}\right)\]
\[\begin{align}\mathbb{V}[Y_i^\mathrm{mis}\mid \mathbf{Y}^\mathrm{obs},\mathbf{W}]&=\mathbb{E}[\mathbb{V}[Y_i^\mathrm{mis}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W},\theta]\mid\mathbf{Y}^\mathrm{obs},\mathbf{W}]+\mathbb{V}[\mathbb{E}[Y_i^\mathrm{mis}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W},\mu_c,\mu_t]\mid\mathbf{Y}^\mathrm{obs},\mathbf{W}]\\&=W_i\cdot 100+(1-W_i)\cdot 64+W_i\cdot\frac{1}{N_c/100+1/10,000}+(1-W_i)\cdot\frac{1}{M_t/64+1/10,000}\end{align}\]
\[\begin{align}\mathbb{C}[Y_i^\mathrm{mis},Y_{i'}^\mathrm{mis}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W}]&=\mathbb{E}[\mathbb{C}[Y_i^\mathrm{mis},Y_{i'}^\mathrm{mis}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W},\mu_c,\mu_t]\mid\mathbf{Y}^\mathrm{obs},\mathbf{W}]\\&\quad+\mathbb{C}[\mathbb{E}[Y_i^\mathrm{mis}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W},\mu_c,\mu_t],\mathbb{E}[Y_{i'}^\mathrm{mis}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W},\mu_c,\mu_t]\mid\mathbf{Y}^\mathrm{obs},\mathbf{W}]\\&=0+\mathbb{C}[W_i\cdot\mu_c+(1-W_i)\cdot\mu_t,W_{i'}\cdot\mu_c+(1-W_{i'})\cdot\mu_t\mid\mathbf{Y}^\mathrm{obs},\mathbf{W}]\\&=W_i\cdot W_{i'}\cdot\frac{1}{N_c/100+1/10000}+(1-W_i)\cdot (1-W_{i'})\cdot\frac{1}{N_t/64+1/10000}\end{align}\]
利用这些信息即得分布
\[\begin{align}\left.\begin{pmatrix}Y_1^\mathrm{mis}\\Y_2^\mathrm{mis}\\Y_3^\mathrm{mis}\\Y_4^\mathrm{mis}\\Y_5^\mathrm{mis}\\Y_6^\mathrm{mis}\end{pmatrix}\right|\mathbf{Y}^\mathrm{obs},\mathbf{W}\sim\mathcal{N}\left(\begin{pmatrix}12.8\\4.1\\12.8\\4.1\\12.8\\4.1\\\end{pmatrix},\begin{pmatrix}85.3&0&21.3&0&21.3&0\\0&133.2&0&33.2&0&33.2\\21.3&0&85.3&0&21.3&0\\0&0&0&133.2&0&33.2\\21.3&0&21.3&0&85.3&0\\0&33.2&0&33.2&0&133.2\\\end{pmatrix}\right)\end{align}\]
\(\tau_\mathrm{fs}=\tau(\mathbf{Y}(0),\mathbf{Y}(1),\mathbf{W})=\frac{1}{N}\sum_{i=1}^{N}(Y_i(1)-Y_i(0))\)
\(\tau_\mathrm{fs}=\tilde{\tau}(\mathbf{Y}^\mathrm{mis},\mathbf{Y}^\mathrm{obs},\mathbf{W})=\frac{1}{N}\sum_{i=1}^{N}(1-2\cdot W_i)\cdot Y_i^\mathrm{mis}+\frac{1}{N}\sum_{i=1}^{N}(2\cdot W_i-1)\cdot Y_i^\mathrm{obs}\)
\[\begin{align}\mathbb{E}[\tau_\mathrm{fs}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W}]&=\frac{N_t\bar{Y}_t^\mathrm{obs}-N_c\cdot\bar{Y}_c^\mathrm{obs}}{N}+\frac{1}{N}\sum_{i=1}^{N}(1-2\cdot W_i)\cdot\mathbb{E}[Y_i^\mathrm{obs}\mid\mathbf{Y}^\mathrm{obs},\mathbf{Y}]\\&=\bar{Y}_t^\mathrm{obs}\cdot\frac{10000N_t+64N_t/N}{10000N_t+64}-\bar{Y}_c^\mathrm{obs}\cdot\frac{10000N_c+100N_c/N}{10000N_c+100}\end{align}\]
\[\begin{align}\mathbb{V}(\tau_\mathrm{fs}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})&=\frac{1}{N^2}\sum_{i=1}^{N}\mathbb{V}[(1-2\cdot W_i)\cdot Y_i^\mathrm{mis}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W}]+\frac{1}{N^2}\sum_{i=1}^{N}\sum_{i'\neq i}\mathbb{C}[(1-2\cdot W_i)\cdot Y_i^\mathrm{mis},(1-2\cdot W_{i'})\cdot Y_{i'}^\mathrm{mis}]\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})]\end{align}\]
代入数据得 \(\tau_\mathrm{fs}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W}\sim\mathcal{N}(8.7,5.2^2)\)
可以看到均值和之前保持一致,而方差比之前的模型增大了。这是十分合理的——因为我们现在的模型在估计 \(Y_i^\mathrm{mis}\) 的时候引入了额外的随机性。
学过贝叶斯推断的话应该知道,很多时候我们很难像上面的推导过程一样给出精确的解析解:其难点都集中在后验分布 (如 \(p(\theta\mid y), p(\tilde{y}\mid y)\)) 的导出——往往我们能给出其非归一化的概率密度,即 \(p(\theta\mid y)\propto p(\theta)p(y\mid\theta)\),但归一化因子 \(p(y)\) 一般不好得出。事实上贝叶斯推断针对这一难点给出了相当多的解决方案——比如经典的 MCMC 方法。
仍以该题为例子说明,由于我们已经显式得得到了 \(p(theta\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})\) 和 \(f(\mathbf{Y}^\mathrm{mis}\mid \mathbf{Y}^\mathrm{obs},\mathbf{W},\mu_c,\mu_t)\)这两个后验分布,因此我们的数值模拟是十分简单和直接的:先从后验分布采样出 \(\theta_{(i)}\),然后采样出 \(\mathbf{Y}^\mathrm{mis}_{(i)}\),接着计算得出 \(\widehat{tau}_{(i)}\),并根据模拟结果推得均值和方差。一份简单的模拟如下
1 | set.seed(42) |
如果没有简单的形式,则采样的时候需要使用其他的方法从非归一化的概率密度中进行采样。详细的介绍在之前写过的 【Series】 贝叶斯数据分析 中的采样章节有着详细的介绍。
在上面的推到中,我们假设 \(Y_i(0),Y_i(1)\) 是独立(至少不相关)的,即
\(Y_i(0),Y_i(1)\mid\theta\sim\mathcal{N}\left(\begin{pmatrix}\mu_c\\\mu_t\end{pmatrix},\begin{pmatrix}\sigma_c^2&0\\0&\sigma_t^2\end{pmatrix}\right)\)
现在我们将其放宽至
\(Y_i(0),Y_i(1)\mid\theta\sim\mathcal{N}\left(\begin{pmatrix}\mu_c\\\mu_t\end{pmatrix},\begin{pmatrix}\sigma_c^2&\rho\sigma_c\sigma_t\\\rho\sigma_c\sigma_t&\sigma_t^2\end{pmatrix}\right)\)
为此,\(\theta=(\mu_c,\mu_t,\sigma_c^2,\sigma_t^2,\rho)\) ,此时 \(p(\theta)=p(\rho)\cdot p(\mu_c,\mu_t,\sigma_c^2,\sigma_t^2)\)
但如果推导一下 \(f(Y_i^\mathrm{obs}\mid\mathbf{W},\theta)\),就会发现其和 \(\rho\) 无关,因此我们的似然函数 \(\mathcal{L}\) 也和 \(\rho\) 无关。(这是十分自然的:我们每次只拿到了 \(Y_i(0),Y_i(1)\) 的一个,凭此数据不可能得到 \(\rho\) 的有效推断——因为数据中完全不包含这一信息,事实上,贝叶斯推断里也专门针对此问题有过讨论),因此参数 \(\rho\) 的后验分布也会等于先验分布,因为数据无法提供信息进行更新。
现在考虑一个具体而极端的例子——\(\rho=1\)
\(Y_i(0),Y_i(1)\mid\theta\sim\mathcal{N}\left(\begin{pmatrix}\mu_c\\\mu_t\end{pmatrix},\begin{pmatrix}100&80\\80&64\end{pmatrix}\right)\)
可以导出
\(\begin{pmatrix}Y_i^\mathrm{mis}\\Y_i^\mathrm{obs}\end{pmatrix}\Bigg|\mathbf{W},\theta\sim\mathcal{N}\Bigg(\begin{pmatrix}W_i\cdot\mu_c+(1-W_i)\cdot\mu_t\\(1-W_i)\cdot\mu_c+W_i\cdot\mu_t\end{pmatrix},\begin{pmatrix}W_i\cdot100+(1-W_i)\cdot64&80\\80&(1-W_i)\cdot100+W_i\cdot64\end{pmatrix} \Bigg)\)
由于此时协方差不为零,导致 \(Y_i^\mathrm{mis}\) 的边缘分布发生了变化,为
\(Y_i^\mathrm{mis}\mid Y_i^\mathrm{obs},\mathbf{W},\theta\sim\mathcal{N}(W_i\cdot(\mu_c+\frac{80}{64}(Y_i^\mathrm{obs}-\mu_t)+(1-W_i)\cdot(\mu_t+\frac{80}{100}(Y_i^\mathrm{obs}-\mu_t),0)\)
这里方差为 \(0\) 可以直接推导,也可以由 \(\rho=1\) 直接给出。
注意到参数后验 \(p(\theta\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})\) 不因为 \(\rho\) 的引入而改变,因此和之前的推导一致。
类似的,最后可以得到 \(Y_i^\mathrm{mis}\) 的后验期望、方差和协方差,并得到 \(\tau_\mathrm{fs}\)的方差和协方差。代入数据最后得到结果
\(\tau\mid\mathbf{Y}^\mathrm{obs},\mathbf{W}\sim\mathcal(8.7,7.7^2)\)
均值没变——这自然符合预期。方差进一步增大——这可能有点困惑。但如果读者之前看到 Neyman 里面的方差和 \(\rho_{tc}\) 的关系后,应该能够理解这一现象。
此时模型变形为
\[f(Y_i(0),Y_i(1),X\,\mid\,\theta_{Y\mid X},\theta_X)=f(Y_i(0),Y_i(1)\mid X,\theta_{Y\mid X})\cdot f(X\mid\theta_X)\]
引入的先验为 \(p(\theta_{Y\mid X},\theta_X)=p(\theta_{Y\mid X})\cdot p(\theta_X)\)
这一独立性假设在实践中通常会被采用,但其不总是无害的——比如协变量包含之前观测的时序数据,特别是和结果 \(Y\) 高度相关的,那么我们的参数 \(\theta_X\) 可能会含有很强的控制组的分布的信息,但这一假设通常会大大简化我们的模型——我们只需 对 \(f(Y_i(0),Y_i(1)\mid X_i,\theta_{Y\mid X})\) 进行建模,仍以二元正态为例,此时为
\(Y_i(0),Y_i(1)\mid X_i,\theta\sim\mathcal{N}\left(\begin{pmatrix}X_i\beta_c\\X_i\beta_t\end{pmatrix},\begin{pmatrix}\sigma_c^2&0\\0&\sigma_t^2\end{pmatrix}\right)\)
其中 \(\theta=(\beta_c,\beta_t,\sigma_c^2,\sigma_t^2)\)
而后续的步骤完全一样。
之前讨论的都是有限样本下的估计,现在我们将样本视为从一个全体分布抽样得到的结果,再次考察 \(\tau_\mathrm{sp}=\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)]\)
当我们的模型已经建立好时,通常 \(\tau_\mathrm{sp}\) 可以视为参数 \(\theta\) 的一个函数,即
\[\tau_\mathrm{sp}=\tau(\theta)=\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)\mid\theta]=\iint (Y(1)-Y(0))f(Y(1),Y(0)\mid\theta)\,\mathrm{d}Y(1)\mathrm{d}Y(0)\]
在我们之前的模型种,则就是 \(\tau_t-\tau_c\)
如果有协变量,则 \(\tau_\mathrm{sp}=\mathbb{E}_\mathrm{sp}[\tau(\theta,\mathbf{X})]\) 其中 \(\tau(\theta,\mathbf{X})=\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)\mid\mathbf{X},\theta]\)
实际计算时,我们只需从 \(\theta\) 的后验分布中采取大量样本,然后计算 \(\tau(\theta)\),即可得到均值和方差,而无需再次从 \(f(\mathbf{Y}^\mathrm{mis}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W},\theta)\) 中抽样再计算。
回到我们之前的例子,由于
\[\theta\mid\mathbf{Y}^\mathrm{obs},\mathbf{W}\sim\mathcal{N}\Bigg(\begin{pmatrix}4.1\\12.8\end{pmatrix},\begin{pmatrix}5.8^2&0\\0&4.6^2\end{pmatrix}\Bigg)\]
我们可以得到 \(\tau_\mathrm{sp}=\mu_t-\mu_c\mid\mathbf{Y}^\mathrm{obs},\mathbf{W}\sim\mathcal{N}(12.8-4.1,5.8^2+4.6^2)\sim\mathcal{N}(8.7,7.4^2)\)
同样均值一样,但是方差比独立下的方差来得大 (\(5.2^2\)),因为我们引入了样本的随机性,即使我们获得了我们拿到的样本的所有潜在结果并精确的算出了 \(\tau_\mathrm{fs}\),我们仍然对 \(\tau_\mathrm{sp}\) 抱有一定的随机性;但比 \(\rho=1\) 的极端情况来的小 \(7.7^2\)。而 \(\rho=1\) 则相当于给出了一个最坏的、最保守的一个估计,但同时也给出了 \(\tau_\mathrm{sp}\) 的一个无偏估计。
另外值得注意的是,我们关注的量 \(\tau_\mathrm{sp}\) 不依赖于 \(\rho\),因为似然函数不包含 \(\rho\),则\(\tau\) 的后验分布也不会包含 \(\rho\),如果 \(\rho\) 和 \(\mu_c,\mu_t\) 独立的话。
]]>设 \(X\) 是非负整数的随机变量,定义其概率母函数 (probability-generating function)为
\[g(s)=\mathbb{E}[s^X]=\sum_{j=0}^{\infty} s^j\mathbb{P}[X=j], s\in[-1,1]\]
其中约定 \(0^0=1\)。显然 \(g(s)\) 在 \([-1,1]\) 绝对收敛
只给出性质五的证明
\[\begin{align}H(s)&=\mathbb{E}[\mathbb{E}[S^W\mid Y]]\\&=\sum_{n=1}^{\infty}\mathbb{E}[s^{X_1+\cdots+X_n}]\mathbb{P}[Y=n]\\&=\sum_{n=1}^{\infty}[\psi(s)]^n\mathbb{P}[Y=n]=G[\psi(s)]\end{align}\]
二项分布 \(B(n,p)\) 的概率母函数为 \(g(s)=(sp+q)^n\)
由此立得若 \(X_i,\ldots,X_m\) 独立,且\(X_i\sim B(n_i,p)\),则\(Y=X_1+\cdots+X_m\sim B(n_1+\cdots+n_m,p)\)
泊松分布 \(\mathcal{P}(\lambda)\) 的概率母函数为 \(g(s)=e^{\lambda(s-1)}\)
由此立得若 \(X_i,\ldots,X_m\) 独立,且\(X_i\sim \mathcal{P}(\lambda_i)\),则\(Y=X_1+\cdots+X_m\sim \mathcal{P}(\lambda_1+\cdots+\lambda_m)\)
几何分布 \(G(p)\) 的概率母函数为 \(g(s)=\frac{sp}{1-sq}\)
由此立得若 \(X_i,\ldots,X_m\) 独立,且\(X_i\sim G(p)\),则\(S_m=X_1+\cdots+X_m\) 有概率母函数 \[\begin{align}g_{S_m}(s)&=\left(\frac{sp}{1-sq}\right)^m\\&=(sp)^m\sum_{j=0}^{\infty}\frac{m(m+1)\cdots(m+j-1)}{j!}(sq)^j\\&=(sp)^m\sum_{j=0}^{\infty}\binom{m+j-1}{j}(sq)^j\\&=\sum_{k=m}^{\infty}\binom{k-1}{m-1}p^mq^{k-m}s^k\end{align}\]
于是得 Pascal 分布 \[\mathbb{E}[S_m=k]=\binom{k-1}{m-1}p^mq^{k-m}\]
求扔三颗骰子,总点数为 9 的概率。 记 \(X_i\) 为第 \(i\) 颗骰子的点数,其概率母函数
\[g(s)=\mathbb{E}[s^{X_1}]=\frac{1}{6}(s+s^2+\cdots+s^6)=\frac{1}{6}\frac{s(1-s^6)}{1-s}\]
则 \(Y=X_1+X_2+X_3\) 的概率母函数为
\[g_Y(s)=[g_X(s)]^3=\frac{s^3(1-s^6)^3}{6^3(1-s)^s}=\frac{1}{6^3}(s^3)(1-3s^6+3s^{12}-s^{18})\sum_{k=0}^{\infty}\binom{k+2}{2}s^k\]
则 \(s^9\) 的系数为 \[\mathbb{P}(Y=9)=\frac{1}{6^3}[\binom{6+2}{2}-3]=\frac{25}{216}\]
设 \((X,Y)\) 是二维取非负整数值的随机向量,记 \(p_{ik}=\mathbb{P}[X=i,Y=k]\),则其二维概率母函数为
\[g(s,t)=\mathbb{E}[s^Xt^Y]=\sum_{i=0}^{infty}\sum_{k=0}^{\infty}p_{ik}s^it^k,\quad s,t\in[-1,1]\]
其有如下性质
只能对取非负整数值的随机变量定义
设 \(X\) 是随机变量,定义其矩母函数 (moment-generating function)为
\[M_X(s)=\mathbb{E}[e^{sX}]\]
仅当 \(\mathbb{E}[e^{sX}]<\infty\) 时,我们称 \(M_X(s)\) 存在
\(M_{aX+b}(s)=e^{sb}M(sa)\)
\(\mathbb{E}[X^k]=M^{(k)}(0),k=1,2,\ldots\)
\(M(0)=1\)
可逆性:若\(\exists a>0,\forall s\in[-a,a], M(s)<\infty\),则 \(M(s)\) 唯一地决定了 \(X\) 的分布函数
若 \(X_1,\ldots,X_n\) 独立,\(Y=X_1+\cdots+X_n\),则\(M_{Y}(s)=M_{X_1}(s)\cdots M_{X_n}(s)\)
\(X_1,X_2,\ldots\) 独立同分布,矩母函数为 \(M_X(s)\); \(N\) 为取正整数值的随机变量,矩母函数为 \(M_N(s)\)。则 \(Y=X_1+\cdots+X_Y\) 的矩母函数为 \(M_Y(s)=\mathbb{E}[\mathbb{E}[e^{sY}\mid N=n]]=\mathbb{E}[(M_X(s))^n]=\sum_{n=1}^{\infty}(M_X(s))^n\mathbb{P}[N=n]\)
而 \(M_N(s)=\sum_{n=1}^{\infty}[e^s]^n\mathbb{P}[N=n]\) 二者有紧密的联系:将 \(M_N(s)\) 中出现的 \(e^s\) 替换为 \(M_X(s)\) 即可
X | 2 | 3 | 5 |
---|---|---|---|
\(\mathbb{P}\) | 1/2 | 1/6 | 1/3 |
\(M(s)=\frac{1}{2}e^{2s}+\frac{1}{6}e^{3s}+\frac{1}{3}e^{5s}\)
\(\mathbb{E}[X]=M^{(1)}(0)=(\frac{1}{2}2e^{2s}+\frac{1}{6}3e^{3s}+\frac{1}{3}5e^{5s})|_{s=0}=\frac{19}{6}\)
\[\mathbb{E}[X^2]=M^{(2)}(0)=(\frac{1}{2}4e^{2s}+\frac{1}{6}9e^{3s}+\frac{1}{3}25e^{5s})|_{s=0}=\frac{71}{6}\]
设 \(X\sim \mathcal{E}(\lambda)\),则当 \(s<\lambda\) 时,有
\[M(s)=\lambda\int_0^\infty e^{sx}e^{-\lambda x}\,\mathrm{d}x=\frac{\lambda}{s-\lambda}e^{(s-\lambda)x}|{x=0}^{\infty}=\frac{\lambda}{\lambda-s}\]
而当 \(s\ge\lambda\) 时 \(M(s)\) 不存在
\[\mathbb{E}[X]=M^{(1)}(0)=\frac{\lambda}{(\lambda-s)^2}|_{s=0}=\frac{1}{\lambda}\]
\[\mathbb{E}[X]=M^{(2)}(0)=\frac{2\lambda}{(\lambda-s)^3}|_{s=0}=\frac{2}{\lambda^2}\]
\[X\sim\mathcal{N}({\mu_1,\sigma_1^2}),Y\sim\mathcal{N}(\mu_2,\sigma_2^2), X,Y\] 相互独立,求 \(Z=X+Y\) 的分布
先计算标准正态分布的矩母函数,由定义求得 \(M(s)=e^{s^2/2}\)
根据矩母函数的性质,有 \(M_X(s)=e^{\mu_1 s}e^{\sigma_1^2s^2/2},M_Y(s)=e^{\mu_2 s}e^{\sigma_2^2s^2/2},M_Z(s)=e^{(\mu_1+\mu_2) s}e^{(\sigma_1^2+\sigma_2^2)s^2/2}\)
于是 \(Z\sim\mathcal{N}(\mu_1+\mu_2,\sigma_1^2+\sigma_2^2)\)
不断进行成功概率为 \(p\) 的伯努利实验直至成功,每次实验的耗时服从参数 \(\lambda\) 的指数分布,且完全独立。 求总耗时的分布
首先 \(X_i\sim\mathcal{E}(\lambda), N\sim G(p), Y=X_1+\cdots+X_N\) , 当 \(s<\lambda\) 时有 \(M_{X_i}(s)=\frac{\lambda}{\lambda-s}\) ,而 \(M_N(s)=\frac{pe^s}{1-qe^s}\) ,故
\[M_Y(s)=\frac{p M_X(s)}{1-qM_X(s)}=\frac{p\lambda}{\lambda-s-q\lambda}=\frac{p\lambda}{p\lambda-s}\]
设 \(\overset{\rightarrow}{X}=(X_1,X_2,\ldots,X_n)^\intercal\),则其矩母函数定义为
\[M_\overset{\rightarrow}{X}(\overset{\rightarrow}{s})=\mathbb{E}[e^{\overset{\rightarrow}{s}^\intercal\overset{\rightarrow}{X}}]=\mathbb{E}[e^{s_1X_1+\cdots+s_nX_n}]\]
有些分布的矩母函数不存在,因为其积分发散,如 Cauchy 分布。为此我们引入特征函数来保证可积性。
对随机变量 \(X\) ,定义其特征函数 (characteristic function) 为
\[\phi(t)=\mathbb{E}[e^{itX}]=\mathbb{E}[\cos(tX)]+i\mathbb{E}[\sin(tX)], t\in \mathbb{R}\]
二项分布 \(B(n,p)\) 的特征函数为 \(\phi(t)=(e^{it}p+q)^n\)
(对比其概率母函数 \(g(s)=(sp+q)^n\))
泊松分布 \(\mathcal{P}(\lambda)\) 的特征函数为 \(\phi(t)=e^{\lambda(e^{it}-1)}\)
(对比其概率母函数 \(g(s)=e^{\lambda(s-1)}\))
几何分布 \(G(p)\) 的特征函数为 \(\phi(t)=\frac{pe^{it}}{1-qe^{it}}\)
(对比其概率母函数 \(g(s)=\frac{sp}{1-sq}\))
正态分布 \(\mathcal{N}(\mu,\sigma^2)\) 有特征函数 \(\phi(t)=e^{i\mu t}e^{-\frac{1}{2}\sigma^2t^2}\)
(对比其矩母函数 \(M(s)=e^{\mu s}e^{\sigma^2s^2/2}\))
先考察标准正态分布。正态分布的特征函数推导不太容易,一种不太严谨的做法是做形式化运算,将 \(i\) 视为常数,则
\[\phi(t)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^\infty e^{itx}e^{-x^2/2}\,\mathrm{d}x=e^{-t^2/2}\frac{1}{\sqrt{2\pi}}\int_{-\infty}^\infty e^{-(x-it)^2/2}\,\mathrm{d}x=e^{-t^2/2}\]
严格的数学推导需要一定复变函数的背景知识。
首先 \(\phi(t)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^\infty e^{itx}e^{-x^2/2}\,\mathrm{d}x=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^\infty \cos(tx)e^{-x^2/2}\,\mathrm{d}x\)
对 \(t\) 求导得 \[\begin{align}\phi'(t)&=-\frac{1}{\sqrt{2\pi}}\int_{-\infty}^\infty x\sin(tx)e^{-x^2/2}\,\mathrm{d}x\\&=\frac{1}{\sqrt{2\pi}}\int_{-\infty}\sin(tx)\,\mathrm{d}e^{-x^2/2}\\&=-\frac{1}{\sqrt{2\pi}}\int_{-\infty}^\infty t\cos(tx)e^{-x^2/2}\,\mathrm{d}x\\&=-t\phi(t)\end{align}\]
即 \[\frac{\mathrm{d}}{\mathrm{d}t}[\phi(t)e^{t^2/2}]=0\],则 \(\phi(t)e^{t^2/2}=C=\phi(0)=1\),得 \(\phi(t)=e^{-t^2/2}\)
由此再求一般正态的特征函数
\[\mathbb{E}[e^{it(\mu+\sigma X)}]=e^{it\mu}\mathbb{E}[e^{it\sigma X}]=e^{it\mu}e^{-\sigma^2t^2/2}\]
同时,若 \(X_1,\ldots,X_m\) 相互独立,\(X_j\sim\mathcal{\mu_j,\sigma_j^2}\),则
\[Y=X_1+\cdots+X_m\sim\mathcal{N}(\sum_{j=1}^{m}\mu_j,\sum_{j=1}^{m}\sigma_j^2)\]
均匀分布 \(\mathcal{U}(a,b)\) 的特征函数为 \(\phi(t)=\frac{e^{itb}-e^{ita}}{it(b-a)}\)
指数分布 \(\mathcal{E}(\lambda)\) 的特征函数为 \(\phi(t)=(1-\frac{it}{\lambda})^{-1}\)
(与矩母函数 \(M(s)=\frac{\lambda}{\lambda-s}=\frac{1}{1-s/\lambda}=(1-s/\lambda)^{-1}\) 对比)
\(f(x)=\frac{1}{\pi(1+x^2)}\),其特征函数为 \(\phi(t)=e^{-\lvert t\rvert}\)
取 \(Y=aX,(a>0)\),则 \(\phi_Y(t)=\mathbb{E}[e^{i(at)X}]=e^{-a\lvert t\rvert}\),此时
\[\phi_{X+Y}(t)=\mathbb{E}[e^{it(1+a)X}]=e^{-(1+a)\lvert t\rvert}=\phi_X(t)\phi_Y(t)\],但显然 \(X,Y\) 不独立
\(f(x)=\frac{1}{2}e^{-\lvert x\rvert}\) ,其特征函数为 \(\phi(t)=\frac{1}{1+t^2}\)
注意它和柯西分布的“对称性”
若 \(\mathbb{E}[\lvert X\rvert^n]<\infty\),则 \(\phi(t)=\sum_{m=0}^{n}\frac{\mathbb{E}[(itX)^m]}{m!}+o(t^n)\)
特别的,若二阶矩存在,则 \(\phi(t)=1+it\mathbb{E}[X]-\frac{1}{2}t^2\mathbb{E}[X^2]+o(t^2)\)
逆转公式:若累积分布函数 \(F(x)\) 在 \((a,b)\) 连续,则
\[\frac{1}{2\pi}\lim\limits_{T\rightarrow\infty}\int_{-T}^T\frac{e^{-ita}-e^{-itb}}{it}\phi(t)\,\mathrm{d}t=F(b)-F(a)\]
若 \(\int_{-\infty}^{\infty}\lvert\phi(t)\rvert\,\mathrm{d}t<\infty\),则 \(X\) 有有界连续密度函数 \(f(x)=\frac{1}{2\pi}\int_{-\infty}^{\infty}e^{-itx}\phi(t)\,\mathrm{d}t\)
这些说明了随机变量和分布函数相互唯一决定
先介绍收敛性:设 \(X\) 有分布函数 \(F(x)\), \(X_n\) 有分布函数 \(F_n(x)\)。若在 \(F(x)\) 的连续点 \(x\) 处,有 \(\lim\limits_{n\rightarrow\infty}F_n(x)=F(x)\),则称 \(X_n\) 依分布收敛 (convergence in distribution) 到 \(X\),记为 \(X_n\overset{d}{\rightarrow} X\);或称 \(F_n\) 弱收敛 (weak convergence) 到 \(F\),记为 \(F_n\overset{w}{\rightarrow}F\)
连续性定理指出,\(X_n\) 依分布收敛到 \(X\) 的充分必要条件是,其对应的特征函数满足
\[\lim\limits_{n\rightarrow\infty}\phi_n(t)=\phi(t),\quad\forall t\in\mathbb{R}\]
判定一个函数是否为特征函数有如下定理
S. Bochner-Khintchine 定理
设 \(\phi(t),t\in\mathbb{R}\) 是连续函数且 \(\phi(0)=1\),其是特征函数的充要条件是他是非负定的,即 \(\forall t_1,\ldots,t_n\in\mathbb{R},\forall z_1,\ldots,z_n\in\mathbb{C},\sum_{k=1}^{n}\sum_{j=1}^{n}\phi(t_k-t_j)z_k\bar{z}_j\ge 0\)
Polya 定理
设 \(\phi(t)\) 是连续函数、偶函数,在 \((0,\infty)\) 是凸函数,且满足\(\phi(t)\ge 0\),\(\phi(0)=1\),\(\phi(t)\rightarrow 0\,(t\rightarrow\infty)\) 则其是特征函数。
J. Marcinkiewiez 定理
若 \(\phi(t)\) 具有形式 \(e^{P(t)}\),其中 \(P(t)\) 是多项式,则其系数不能大于 2
\(\phi(t)\) 是特征函数,证明 \(\bar{\phi},\phi^2,\lvert\phi\rvert^2,Re[\phi]\) 都是特征函数
设 \(X,Y\)独立同分布且特征函数为 \(\phi\),则前三个分别为 \(-X,X+Y,X-Y\)
第四个构造独立于 \(X\) 的随机变量 \(Z\) 且 \(\mathbb{P}[Z=\pm 1]=0.5\),则\(XZ\) 的特征函数为 \(Re[\phi]\)
\(\phi(t)\) 是特征函数,则 \(\lvert\phi(t)\rvert\) 未必是特征函数
设 \(X\sim B(1,1/3)\),\(\phi(t)=\frac{2}{3}+\frac{1}{3}e^{it}\) 。设 \(Y\) 的特征函数为 \(\psi(t)=\lvert\phi(t)\rvert\),则 \(\psi^2(t)=\phi(t)\phi(-t)\),即 \(Y_1+Y_2\) 和 \(X_1-X_2\) 同分布。其中 \(Y_1,Y_2\) 与 \(Y\) 独立同分布,\(X_1,X_2\) 与 \(X\) 独立同分布。由于 \(X_1-X_2\in\{-1,0,1\}\),则 \(Y_i\in\{-0.5,0.5\}\),记 \(\mathbb{P}[Y_1=0.5]=\alpha\)。则
\[\mathbb{P}[Y_1+Y_2=1]=\alpha^2=\mathbb{P}[X_1-X_2=1]=2/9\]
\[\mathbb{P}[Y_1+Y_2=-11]=(1-\alpha)^2=\mathbb{P}[X_2-X_1=1]=2/9\]
此时 \(\alpha\) 无解
\[X_1,\ldots,X_4\] 独立同标准正态分布,则
\[X_1X_2\]的特征函数为 \(\frac{1}{\sqrt{1+t^2}}\)
\[X_1X_2+X_3X_4\] 的特征函数为 \(\frac{1}{1+t^2}\),即服从拉普拉斯分布
\(X,Y\)独立同标准正态分布,\(U,V\)独立于 \(X,Y\),则\(Z=\frac{UX+VY}{\sqrt{U^2+V^2}}\sim\mathcal{N}(0,1)\)
利用已知结果若 \(a>0,b>0\),则\(I(a,b)=\int_0^\infty\exp\{-a^2u^2-b^2u^{-2}\}\,\mathrm{d}u=\frac{e^{-2ab}\sqrt{\pi}}{2a}\)
证明若 \(f(x)=\frac{1}{2\pi x^3}\exp(-\frac{1}{2x}),x>0\), 则 \(\mathbb{E}[e^{-tX}]=\exp(-\sqrt{2t})\)
\(X,Y,Z\)独立同标准正态分布,则
\(X_n\) 有分布函数 \(F_n(x)=x-\frac{\sin(2n\pi x)}{2n\pi},0\leq x\leq 1\)
回归模型关注的则是,如果使用协变量的信息来更好地估计组间效应。在之前我们已经知道我们可以给出组间效应的一个无偏的点估计,因此引入协变量其实就是出于减小方差的目的。事实上,在之前的学习中也开始有引入协变量的想法,比如在构造统计量的时候使用相关的信息;而回归这节则是系统的分析协变量的效用。
首先明确的是,在回归模型中,我们讨论的都是在 super population 下的,也就是样本中的潜在结果其实自身也有随机性的。因此采用的记号基本上也是沿用了 Neyman 那一章中关于 super popolation 的记号
\[\tau_\mathrm{fs}=\frac{1}{N}\sum\limits_{i=1}^{N}(Y_i(1)-Y_i(0)),\quad\tau_\mathrm{sp}=\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)]\]
\[\mu_c(x)=\mathbb{E}_\mathrm{sp}[Y_i(0)\mid X_i=x],\quad \mu_t(x)=\mathbb{E}_\mathrm{sp}[Y_i(1)\mid X_i=x]\]
\[\sigma_c(x)=\mathbb{V}_\mathrm{sp}[Y_i(0)\mid X_i=x],\quad \sigma_t(x)=\mathbb{V}_\mathrm{sp}[Y_i(1)\mid X_i=x]\]
\[\tau(x)=\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)\mid X_i=x],\quad\sigma_{ct}^2(x)=\mathbb{V}_\mathrm{sp}[Y_i(1)-Y_i(0)\mid X_i=x]\]
\[\mu_c=\mathbb{E}_\mathrm{sp}[\mu_c(X_i)],\quad \mu_t=\mathbb{E}_\mathrm{sp}[\mu_t(X_i)]\]
\[\sigma_c^2=\mathbb{E}_\mathrm{sp}[\sigma_c^2(X_i)]+\mathbb{V}_\mathrm{sp}[\mu_c(X_i)],\quad\sigma_t^2=\mathbb{E}_\mathrm{sp}[\sigma_t^2(X_i)]+\mathbb{V}_\mathrm{sp}[\mu_t(X_i)]\]
\[\mu_X=\mathbb{E}_\mathrm{sp}[X_i],\quad\Omega_X=\mathbb{V}_\mathrm{sp}[X_i]=\mathbb{E}_\mathrm{sp}[(X_i-\mu_X)^\intercal(X_i-\mu_X)]\]
回归模型为 \(Y_i^\mathrm{obs}=\alpha+\tau\cdot W_i+\varepsilon_i\)
最小二乘估计 \((\widehat{\tau}^\mathrm{ols},\widehat{\alpha}^\mathrm{ols})=\arg\min\limits_{\tau,\alpha}\sum_{i=1}^{N}(Y_i^\mathrm{obs}-\alpha-\tau\cdot W_i)^2\)
由线性回归直接写出
\[\widehat{\tau}^\mathrm{ols}=\frac{\sum_{i=1}^N(W_i-\bar{W})(Y_i^\mathrm{obs}-\bar{Y}^\mathrm{obs})}{\sum_{i=1}^N(W_i-\bar{W})^2}=\frac{\sum_{i=1}^{N}W_iY_i^\mathrm{obs}-N\bar{W}\bar{Y}^\mathrm{obs}}{N_tN_c/N}=\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}=\widehat{\tau}^\mathrm{dif}\]
\(\widehat{\alpha}^\mathrm{ols}=\bar{Y}^\mathrm{obs}-\widehat{\tau}^\mathrm{obs}\cdot\bar{W}=\bar{Y}_c^\mathrm{obs}\)
\(\tau\) 的最小二乘估计通常会被解释为因果性 (因为施加了不同的处理),这在随机化实验中是显式的,而在观察实验(也就是不能或没有设计实验,只是拿到了结果)里是隐式的。在最小二乘估计的求解中,我们假设了 \(\varepsilon_i\) 是独立于,或至少是不相关于 \(W_i\) 。这一假设通常难以被验证,因为这些残差通常被解释为一切没有被注意到的因子造成的影响。因此,统计教材中通常只把 \(\tau\) 解释为 \(W_i\) 和 \(Y_i^\mathrm{obs}\) 的 相关性 而非 因果性 。但在这里,由于 \(\widehat{\tau}^\mathrm{ols}= \widehat{\tau}^\mathrm{dif}\) 是 \(\tau_\mathrm{fs}\) 和 \(\tau_\mathrm{sp}\) 的无偏估计,因此他们有了 因果性。但是,使用线性回归的方法来阐述 \(\widehat{\tau}^\mathrm{ols}\) 的因果性是有用的。
在全体样本的视角下,此时回归模型也就是 \[Y_i^\mathrm{obs}=\mu_c+(\mu_t-\mu_c)\cdot W_i+\varepsilon_i=\mathbb{E}_\mathrm{sp}[Y_i(0)]+\tau_\mathrm{sp}\cdot W_i+\varepsilon_i\]
当然,这些的成立都是因为完全随机化实验带来的保证,包括
\[W_i\perp (Y_i(0), Y_i(1)),\quad\mathbb{E}_\mathrm{sp}[\varepsilon_i\mid W_i=w]=0\ (w=0,1)\,\quad\mathbb{V}_\mathrm{sp}[\varepsilon_i\mid W_i]=\sigma_t^2W_i+\sigma_c^2(1-W_i)\]
为方便记
\[\beta=(\alpha,\tau)\qquad X=\begin{pmatrix}1_{N_c}&0_{N_c}\\1_{N_t}&1_{N_t}\end{pmatrix}\qquad H=(X^\intercal X)^{-1}X^\intercal=\begin{pmatrix}\frac{1_{N_c}}{N_c}&\frac{-1_{N_c}}{N_c}\\\frac{0_{N_t}}{N_t}&\frac{1_{N_t}}{N_t}\end{pmatrix}^\intercal\qquad\Sigma=\mathbb{V}_\mathrm{sp}[\varepsilon\mid X]\]
则 \(\widehat{\beta}=HY^\mathrm{obs}=\beta+H\varepsilon\) ,其中第二项满足渐进正态性。而 \(\mathrm{Var}(\widehat{\beta})=H\Sigma H^\intercal\)
先考察简单的情况,即 \(\sigma_c^2=\sigma_t^2=\sigma_{Y\mid W}^2,\,\Sigma=\mathrm{diag}(\sigma^2,\ldots,\sigma^2)\) 此时可以给出估计量
\(\widehat{\sigma}_{Y\mid W}^2=\frac{1}{N-2}\sum_{i=1}^{N}\widehat{\varepsilon}_i^2=\frac{1}{N-2}\Big(\sum\limits_{i:W_i=0}(Y_i^\mathrm{obs}-\bar{Y}_c^\mathrm{obs})^2+\sum\limits_{i:W_i=1}(Y_i^\mathrm{obs}-\bar{Y}_t^\mathrm{obs})^2\Big)=s^2\)
由于 \[\mathbb{V}_\mathrm{sp}^\mathrm{homosk}=\mathbb{V}_\mathrm{sp}(\widehat{\tau}^\mathrm{ols})=\sigma_{Y\mid W}^2\frac{1}{\sum_{i=1}^{N}(W_i-\bar{W})^2}=\sigma_{Y\mid W}^2\left(\frac{1}{N_c}+\frac{1}{N_t}\right)\] 得到估计量 \[\widehat{\mathbb{V}}_\mathrm{sp}^\mathrm{homosk}=\widehat{\mathbb{V}}(\widehat{\tau}^\mathrm{ols})=\widehat\sigma_{Y\mid W}^2\left(\frac{1}{N_c}+\frac{1}{N_t}\right)=\widehat{\mathbb{V}}^\mathrm{const}\]
这一结果是是否自然的,因为当组间效应为常数时,控制组和实验组的方差都相等。
为了和后面的结果比较,我们考察根据样本规模规范化后的方差,记 \(p=\lim\limits_{N\rightarrow\infty}\frac{N_t}{N}\) 得到结论
\[N\cdot\widehat{\mathbb{V}}_\mathrm{sp}^\mathrm{homosk}\overset{p}{\rightarrow}\frac{\widehat{\sigma}_{Y\mid W}^2}{p(1-p)}\]
再考察 \(\sigma_c^2\neq\sigma_t^2\),此时
\[\begin{align}\widehat{\mathbb{V}}_\mathrm{sp}^\mathrm{hetero}=\widehat{\mathbb{V}}(\widehat\sigma_{Y\mid W}^2)=\frac{\sum_{i=1}^{N}\widehat\varepsilon_i^2\cdot(W_i-\bar{W})^2}{\Big(\sum_{i=1}^{N}(W_i-\bar{W})^2\Big)^2}\end{align}\]
同样有估计量 \(\widehat{\sigma}_t^2=\frac{1}{N-1}\sum_{i=1}^{N}\widehat\varepsilon_i^2W_i,\,\widehat{\sigma}_c^2=\frac{1}{N-1}\sum_{i=1}^{N}\widehat\varepsilon_i^2(1-W_i)\)
此时得到的估计量 \[\widehat{\mathbb{V}}_\mathrm{sp}^\mathrm{hetero}=\frac{\widehat\sigma_c^2}{N_c^2}+\frac{\widehat\sigma_t^2}{N_t}=\widehat{\mathbb{V}}^\mathrm{neyman}\]
可以看到,回归模型更容易理解(因为大多数人之前都接触过),而且最后导出了和 Neyman 相同的结果。同时这样的模型更容易扩展到有协变量的情形,这是回归模型的优越处。
回归模型为 \[Y_i^\mathrm{obs}=\alpha+\tau\cdot W_i+X_i\beta+\varepsilon_i\]
有最小二乘估计 \[(\widehat{\tau}^\mathrm{ols},\widehat{\alpha}^\mathrm{ols},\widehat{\beta}^\mathrm{ols})=\arg\min\limits_{\tau,\alpha,\beta}\sum_{i=1}^{N}\left(Y_i^\mathrm{obs}-\alpha-\tau\cdot W_i-X_i\beta\right)^2\]
无限样本下,上式变为 \[(\tau^\ast,\alpha^\ast,\beta^\ast)=\arg\min\limits_{\tau,\alpha,\beta}\mathbb{E}_\mathrm{sp}\Big[\left(Y_i^\mathrm{obs}-\alpha-\tau\cdot W_i-X_i\beta\right)^2\Big]\]
下面的定理则给出了估计的准确性和收敛速度
如果我们从无限样本中随机采样进行完全随机化实验,那么
\(\tau^\ast=\tau_\mathrm{sp}\)
\(\begin{align}\sqrt{N}\left(\widehat{\tau}^\mathrm{ols}-\tau_\mathrm{sp}\right)\overset{d}{\rightarrow}\mathcal{N}\left(0,\frac{\mathbb{E}[(W_i-p)^2\cdot(Y_i^\mathrm{obs}-\alpha^\ast-\tau^\ast\cdot W_i-X_i\beta^\ast)^2]}{p^2(1-p^2)}\right)\end{align}\)
其中 \((Y_i^\mathrm{obs}-\alpha^\ast-\tau^\ast\cdot W_i-X_i\beta^\ast)^2=\sigma_i^2=\mathbb{V}[\varepsilon_i\mid W_i,X_i]=\mathbb{V}[Y_i(W_i)\mid X_i]\)
证明:考虑目标函数
\(\begin{align}Q(\alpha,\tau,\beta)&=\mathbb{E}_\mathrm{sp}\Big[\left(Y_i^\mathrm{obs}-\alpha-\tau\cdot W_i-X_i\beta\right)^2\Big]\\&=\mathbb{E}_\mathrm{sp}\Big[\left(Y_i^\mathrm{obs}-\tilde{\alpha}-\tau\cdot W_i-(X_i-\mu_X)\beta\right)^2\Big]\end{align}\)
其中 \(\tilde{\alpha}=\alpha+\mu_X\beta,\,\mu_X=\mathbb{E}[X_i]\) ,则
\[\begin{align}Q(\tilde\alpha,\tau,\beta)&=\mathbb{E}_\mathrm{sp}\Big[\left(Y_i^\mathrm{obs}-\tilde{\alpha}-\tau\cdot W_i\right)^2\Big]+\mathbb{E}_\mathrm{sp}\Big[\big((X_i-\mu_X)\beta\big)^2\Big]\\&\quad-2\cdot\mathbb{E}_\mathrm{sp}\Big[\left(Y_i^\mathrm{obs}-\tilde{\alpha}-\tau\cdot W_i\right)\big((X_i-\mu_X)\beta\big)\Big]\\&=\mathbb{E}_\mathrm{sp}\Big[\left(Y_i^\mathrm{obs}-\tilde{\alpha}-\tau\cdot W_i\right)^2\Big]+\mathbb{E}_\mathrm{sp}\Big[\big((X_i-\mu_X)\beta\big)^2\Big]\\&\quad-2\cdot\mathbb{E}_\mathrm{sp}\Big[Y_i^\mathrm{obs}\cdot(X_i-\mu_X)\beta\Big]\end{align}\]
注意到后两项和 \(\alpha,\tau\) 无关,因此最小化 \(Q(\tilde\alpha,\tau,\beta)\) 等价于最小化 第一项,直接类比上一节的结论得
\[\tilde\alpha^\ast=\mathbb{E}_\mathrm{sp}[Y_i(0)]=\mu_c\]
\[\tau^\ast=\mathbb{E}_\mathrm{sp}[Y_i^\mathrm{obs}\mid W_i=1]-\mathbb{E}_\mathrm{sp}[Y_i^\mathrm{obs}\mid W_i=0]=\mathbb{E}_\mathrm{sp}[Y_i(1)\mid W_i=1]-\mathbb{E}_\mathrm{sp}[Y_i(0)\mid W_i=1]=\tau_\mathrm{sp}\]
值得注意的是,这一结果意味着 \(\widehat{\tau}_\mathrm{sp}\) 的相合性不依赖于回归函数的正确性。无论全体样本下,给定协变量后 \(Y\) 的条件期望有多么的“不线性”,使用最小二乘估计的组间效应总是相合的。这是因为在完全随机化实验下,全体样本下 \(W_i\) 和 \(X\) 的协方差为零。尽管在有限样本下他们的协方差可能非零,但大样本下他们的相关性会趋于零,因此协变量 \(X\) 的引入不会影响估计的相合性。当然,有限样本下他们的相关性会导致估计出现偏差。
因此协变量 \(X\) 的引入不会影响估计的均值,但其会影响估计的方差。同样的我们先考虑简单情形:先假设条件期望是协变量的线性函数,即
\[\mathbb{E}_\mathrm{sp}[Y_i(0)\mid X_i=x]=\alpha_c+x\beta,\,\mathbb{E}_\mathrm{sp}[Y_i(1)\mid X_i=x]=\alpha_t+x\beta\] ,故
\[\mathbb{E}_\mathrm{sp}[Y_i^\mathrm{obs}\mid X_i=x,W_i=t]=\alpha_c+\tau_\mathrm{sp}\cdot t+x\beta\]
再假设两个潜在结果的方差不随着协变量和处理改变,即
\[\mathbb{V}_\mathrm{sp}[Y_i(w)\mid X_i=x]=\sigma_{Y\mid W,X}^2,\ \forall w=0,1;\forall x\]
此时得到结果为 \[N\cdot\mathbb{V}_\mathrm{sp}^\mathrm{homosk}=\frac{\sigma_{Y\mid W,X}^2}{p(1-p)}\]
可见,引入协变量后,方差的估计从 \(\sigma^2_{Y\mid X}\) 调整为 \(\sigma_{Y\mid X,W}^2\) 。如果协变量 \(X\) 能解释绝大多数的方差,那么 \(\sigma_{Y\mid X,W}^2\) 就会显著小于 \(\sigma^2_{Y\mid X}\),这样我们就得到了一个更精确的估计。当然,引入协变量不是没有代价的——之前我们在有限样本下都能得到精确的无偏估计,现在只能由渐进的无偏性,也就是大样本下无偏性才足够好。
同样的,此时我们可以给出估计量
\[\widehat{\mathbb{V}}_\mathrm{sp}^\mathrm{homosk}=\frac{1}{N(N-1-\dim(X_i))}\cdot\frac{\sum_{i=1}^{N}(Y_i^\mathrm{obs}-\widehat{\alpha}^\mathrm{ols}-\widehat{\tau}^\mathrm{ols}\cdot W_i-X_i\widehat{\beta}^\mathrm{ols})^2}{\bar{W}\cdot(1-\bar{W})}\]
\[\widehat{\mathbb{V}}_\mathrm{sp}^\mathrm{hetero}=\frac{1}{N(N-1-\dim(X_i))}\cdot\frac{\sum_{i=1}^{N}(W_i-\bar{W})^2\cdot(Y_i^\mathrm{obs}-\widehat{\alpha}^\mathrm{ols}-\widehat{\tau}^\mathrm{ols}\cdot W_i-X_i\widehat{\beta}^\mathrm{ols})^2}{(\bar{W}\cdot(1-\bar{W}))^2}\]
回归模型为 \[Y_i^\mathrm{obs}=\alpha+\tau\cdot W_i+X_i\beta+W_i\cdot(X_i-\bar{X})\gamma+\varepsilon_i\]
有最小二乘估计 \[(\widehat{\tau}^\mathrm{ols},\widehat{\alpha}^\mathrm{ols},\widehat{\beta}^\mathrm{ols},\widehat{\gamma}^\mathrm{ols})=\arg\min\limits_{\tau,\alpha,\beta,\gamma}\sum_{i=1}^{N}\left(Y_i^\mathrm{obs}-\alpha-\tau\cdot W_i-X_i\beta-W_i\cdot(X_i-\bar{X})\gamma\right)^2\]
\[(\tau^\ast,\alpha^\ast,\beta^\ast,\gamma^\ast)=\arg\min\limits_{\tau,\alpha,\beta,\gamma}\mathbb{E}_\mathrm{sp}\Big[\left(Y_i^\mathrm{obs}-\alpha-\tau\cdot W_i-X_i\beta-W_i\cdot(X_i-\bar{X})\gamma\right)^2\Big]\]
类似的定理同样给出了估计的准确性和收敛速度
如果我们从无限样本中随机采样进行完全随机化实验,那么
\(\tau^\ast=\tau_\mathrm{sp}\)
\(\begin{align}\sqrt{N}\left(\widehat{\tau}^\mathrm{ols}-\tau_\mathrm{sp}\right)\overset{d}{\rightarrow}\mathcal{N}\left(0,\frac{\mathbb{E}[(W_i-p)^2\cdot(Y_i^\mathrm{obs}-\alpha^\ast-\tau^\ast\cdot W_i-X_i\beta^\ast-W_i\cdot(X_i-\mu_x)\gamma^\ast)^2]}{p^2(1-p^2)}\right)\end{align}\)
此时,记 \(\widehat{Y}_i(0)=\widehat{\alpha}^\mathrm{ols}+X_i\widehat{\beta}^\mathrm{ols}\) , \(\widehat{Y}_i(1)=\widehat{\alpha}^\mathrm{ols}+\widehat{\tau}^\mathrm{ols}+X_i\widehat{\beta}^\mathrm{ols}+(X_i-\bar{X})\widehat{\gamma}^\mathrm{ols}\)
\(\widehat{\tau}_i=W_i\cdot(Y_i(1)-\widehat{Y}_i(0))+(1-W_i)\cdot(\widehat{Y_i}(1)-Y_i(0))\),代数变换后可得
\[\widehat{\tau}^\mathrm{ols}=\frac{1}{N}\sum_{i=1}^{N}\widehat{\tau}_i\]
所以最小二乘估计 \(\widehat{\tau}^\mathrm{ols}\) 也可以解释为样本中的组间效应。同样的,由于随机化实验,尽管回归模型可能不合理,但该估计还是总体组间效应的一个相合估计。
\[H_0:\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)\mid X_i=x]=\tau_\mathrm{sp},\forall x\]
\[ H_1:\exists x_0,x_1\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)\mid X_i=x_1]\neq \mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)\mid X_i=x_2]\]
\[(\widehat{\tau}^\mathrm{ols},\widehat{\gamma}^\mathrm{ols})\] 的规范化后的协方差矩阵为\[\mathbb{V}_{\tau,\gamma}=\begin{pmatrix}\mathbb{V}_\tau&\mathbb{C}_{\tau},\gamma\\\mathbb{C}_{\tau,\gamma}^\intercal &\mathbb{V}_\gamma\end{pmatrix}\]
\(H_0\) 成立时,\(\gamma^\ast=0\),且 \[Q_\mathrm{const}=(\widehat{\gamma}^\mathrm{ols})^\intercal\widehat{\mathbb{V}}_\gamma^{-1}\widehat{\gamma}^\mathrm{ols}\overset{d}{\rightarrow}\chi(\dim(X_i))\]
\[H_0:\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)\mid X_i=x]=0,\forall x\]
\[ H_1:\exists x_1,\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)\mid X_i=x_1]\neq 0\]
同样的,\(H_0\) 成立时,\(\gamma^\ast=0\),且 \[Q_\mathrm{const}=\begin{pmatrix}\widehat{\tau}^\mathrm{ols}\\\widehat{\gamma}^\mathrm{ols}\end{pmatrix}^\intercal\widehat{\mathbb{V}}_\gamma^{-1}\begin{pmatrix}\widehat{\tau}^\mathrm{ols}\\\widehat{\gamma}^\mathrm{ols}\end{pmatrix}\overset{d}{\rightarrow}\chi(\dim(X_i)+1)\]
]]>我们关心的量为
\[\tau_{\mathrm{fs}}=\frac{1}{N}\sum\limits_{i=1}^{N}(Y_i(1)-Y_i(0))\overset{\Delta}{=}\bar{Y}(1)-\bar{Y}(0)\]
其中 fs 为 finite sample的缩写。
一个直观的估计自然是使用我们所能观测到的数据代替 \(\bar{Y}(1)\) 和 \(\bar{Y}(0)\),即
\[\widehat{\tau}^{\mathrm{dif}}=\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}\]
直观上他应该是无偏的,因为我们的分配时随机的,事实上可以很容易的证明
首先 \[\mathbb{P}_W[W_i=1\mid \mathbf{Y}_0,\mathbf{Y}_1]=\mathbb{E}_W[W_i=1\mid \mathbf{Y}_0,\mathbf{Y}_1]=N_t/N\]
而 \[\widehat{\tau}^{\mathrm{dif}}=\frac{\sum_{i=1}^{N}W_i Y_i(1)}{N_t}-\frac{\sum_{i=1}^{N}(1-W_i) Y_i(0)}{N_c}\]
因此 \[\mathbb{E}_W[\widehat{\tau}^{\mathrm{dif}}\mid\mathbf{Y}(0),\mathbf{Y}(1)]=\frac{\sum_{i=1}^{N}\mathbb{E}_W[W_i] Y_i(1)}{N_t}-\frac{\sum_{i=1}^{N}\mathbb{E}_W[1-W_i] Y_i(0)}{N_c}=\frac{\sum_{i=1}^{N}(Y_i(1)-Y_i(0))}{N}=\tau_\mathrm{fs}\]
要求区间估计,显然求方差是重头戏。为此我们先整理我们所能拿到的一阶矩和二阶矩。注意到恒等式 \(W_i^2=W_i\) ,这给后面许多计算带来了便利。
\[\mathbb{E}_W[W_i^2]=\mathbb{E}_W[W_i]=\frac{N_t}{N}\quad\mathbb{V}_W(W_i)=\mathbb{E}_W[W_i^2]-\mathbb{E}_W^2[W_i]=\frac{N_t}{N}\left(1-\frac{N_t}{N}\right)\]
\[\mathbb{E}[W_iW_j]=\mathbb{P}_W[W_i=1]\mathbb{P}[W_j=1\mid W_i=1]=\frac{N_t}{N}\frac{N_t-1}{N-1}\ (i\neq j)\]
一个很常见的技巧是构造一个期望为 \(0\) 的随机变量来简化求方差的计算,这里我们构造 \(D_i=W_i-\frac{N_t}{N}\) ,可以立刻写出其相关的性质
\[\mathbb{E}_W[D_i]=0\quad\mathbb{V}_W(D_i)=\mathbb{E}_W[D_i^2]=\frac{N_cN_t}{N^2}\quad \mathbb{E}[D_iD_j]=-\frac{N_cN_t}{N^2(N-1)}\ (i\neq j)\]
让我们重新整理 \(\widehat{\tau}^\mathrm{dif}\)
\[\begin{align}\widehat{\tau}^\mathrm{dif}&=\frac{1}{N_t}\sum_{i=1}^{N}W_iY_i(1)-\frac{1}{N_c}\sum_{i=1}^{N}(1-W_i)Y_i(0)\\&=\frac{1}{N}\sum_{i=1}^{N}\left(\frac{N}{N_t}W_iY_i(1)-\frac{N}{N_c}(1-W_i)Y_i(0)\right)\\&=\frac{1}{N}\sum_{i=1}^{N}\left(\frac{N}{N_t}\left(D_i+\frac{N_t}{N}\right)Y_i(1)-\frac{N}{N_c}\left(\frac{N_c}{N}-D_i\right)Y_i(0)\right)\\&=\frac{1}{N}\sum_{i=1}^{N}(Y_i(1)-Y_i(0))+\frac{1}{N}\sum_{i=1}^{N}D_i\left(\frac{N_t}{N}Y_i(1)+\frac{N_c}{N}Y_i(0)\right)\\&\overset{\Delta}{=}\tau_\mathrm{fs}+\sum_{i=1}^{N}D_i Y_i^+\end{align}\]
因为 \(\mathbb{E}_W[D_i]=0\),这里也很明显看出无偏性。现考察方差
首先定义 \(S_t^2=\frac{1}{N-1}\sum_{i=1}^{N}(Y_i(1)-\bar{Y}(1))^2,\,S_c^2=\frac{1}{N-1}\sum_{i=1}^{N}(Y_i(0)-\bar{Y}(0))^2\)
\(S_{tc}^2=\frac{1}{N-1}\sum_{i=1}^{N}(Y_i(1)-\bar{Y}(1)-(Y_i(0)-\bar{Y}(0)))^2=S_t^2+S_c^2-\frac{2}{N-1}\sum_{i=1}^{N}(Y_i(1)-\bar{Y}(1))(Y_i(0)-\bar{Y}(0))\)
这三个量分别代表了样本中实验组、对照组以及组间效应的方差。注意,这些值也是不能直接观测到的。
可以证明,\(\mathbb{V}_W[\widehat{\tau}^\mathrm{dif}]=\frac{S_t^2}{N_t}+\frac{S_c^2}{N_c}-\frac{S_{tc}^2}{N}\) ,证明在本小节的结尾。
这个结果看似怪异,但也并不奇怪。首先我们要估计的量为 \(\tau_\mathrm{fs}=\bar{Y}(1)-\bar{Y}(0)\)。因此我们首先需要估计 \(\bar{Y}(1)\),而 \(\bar{Y}_t^\mathrm{obs}\) 是一个无偏估计。而从 \(N_t\) 个样本中得到的这一无偏估计的方差为 \((S_t^2/N_t)\cdot (1-N_t/N)\),其中除以 \(N_t\) 是因为均值的方差是单点方差的 \(1/N\),而后面那个因子则是对有限样本的一个修正。这里就贡献了 \(S_t^2/N_t\) 这一项。第二项同理。第三项 \(S_{tc}^2/N\) 则是个体间效应的方差。如果组间效应为常数,则这一项为零;否则 \(S_{tc}^2>0\),而这较低了我们对 \(\tau_\mathrm{fs}\) 估计的方差。
除此之外,\(\widehat{\tau}^\mathrm{dif}\) 还有另一个有用的形式。首先我们记 \(S_{tc}^2=S_c^2+S_t^2-2\rho_{tc}\cdot S_c\cdot S_t\),其中 \(\rho_{tc}\) 就是直接定义出来的,刻画了实验组和对照组的相关系数。此时
\[\mathbb{V}_W[\widehat{\tau}^\mathrm{dif}]=\frac{N_t}{N\cdot N_c}S_c^2+\frac{N_c}{N\cdot N_t}S_t^2+\frac{2}{N}\cdot \rho_{tc}\cdot S_C\cdot S_t\]
当 \(\rho_{tc}=-1\) 时方差最小。当 \(\rho_{tc}=1\) 时方差最大,为 \[\frac{S_c^2}{N_c}+\frac{s_t^2}{N_t}-\frac{(S_c-S_t)^2}{N}\]
而最特殊的 \(\rho_{tc}=1\) 的情况自然是 \(Y_i(1)-Y_i(0)=\tau,\forall i=1,\ldots,N\) ,此时 \(S_c^2=S_t^2\),则
\[\mathbb{V}^\mathrm{const}=\mathbb{V}_W[\widehat{\tau}^\mathrm{dif}\mid\rho_{tc}=1,S_c^2=S_t^2]=\frac{S_c^2}{N_c}+\frac{S_t^2}{N_t}\]
这其实可能有点反直觉——最大方差居然出现在组间效应为常数的情况。让我们考虑一个简单的例子来消除这一“反直觉”。假设只有两个样本,先考虑组间效应为常数的情况。
样本 | \(Y_i(0)\) | \(Y_i(1)\) |
---|---|---|
1 | 10 | 10 |
2 | -10 | -10 |
我们计算 \(\widehat{\tau}^\mathrm{dif}\),会发现要么是 \(20\),如果 \(W_1=1,W_2=0\),或者是 \(-20\), 如果 \(W_1=0,W_2=1\) ,方差很大
再考虑一个 \(\tau_{tc}=-1\) 的例子,只需将 \(Y_1(0)\) 和 \(Y_2(0)\) 交换,可以算得此时方差为零。
下面给出方差的计算
\[\begin{align}\mathbb{V}_W[\widehat{\tau}^\mathrm{dif}]&=\frac{1}{N^2}\mathbb{E}_W[(\sum_{i=1}^{N}D_iY_i^+)^2]\\&=\frac{1}{N^2}\left\{\sum_{i=1}^{N}(Y_i^+)^2\frac{N_c\cdot N_t}{N^2}-\sum_{i=1}^{N}\sum_{j\neq i}Y_i^+Y_j^+\frac{N_c\cdot N_t}{N^2(N-1)}\right\}\\&=\frac{N_c\cdot N_t}{N^4(N-1)}\left\{(N-1)\sum_{i=1}^{N}(Y_i^+)^2-\sum_{i=1}^{N}\sum_{j\neq i}Y_i^+Y_j^+\right\}\\&=\frac{N_c\cdot N_t}{N^4(N-1)}\left\{N\sum_{i=1}^{N}(Y_i^+)^2-\sum_{i=1}^{N}\sum_{j =1}^NY_i^+Y_j^+\right\}\\&=\frac{N_t\cdot N_c}{N^4(N-1)}N\sum_{i=1}^{N}\Big(Y_i^+-\overline{Y^+}\Big)^2\\&=\frac{N_c\cdot N_t}{N^3(N-1)}\sum_{i=1}^{N}\left[\frac{N}{N_t}Y_i(1)+\frac{N}{N_c}Y_i(0)-\frac{N}{N_t}\bar{Y}(1)-\frac{N}{N_c}\bar{Y}(0)\right]\\&=\frac{N_t\cdot N_c}{N^3(N-1)}\sum_{i=1}^{N}\left(\frac{N}{N_t}Y_i(1)-\frac{N}{N_t}\bar{Y}(1)\right)^2\\&\quad+\frac{N_t\cdot N_c}{N^3(N-1)}\sum_{i=1}^{N}\left(\frac{N}{N_c}Y_i(0)-\frac{N}{N_c}\bar{Y}(0)\right)^2\\&\quad+\frac{2\cdot N_t\cdot N_c}{N^3(N-1)}\sum_{i=1}^{N}\left(\frac{N}{N_t}Y_i(1)-\frac{N}{N_t}\bar{Y}(1)\right)\left(\frac{N}{N_c}Y_i(0)-\frac{N}{N_c}\bar{Y}(0)\right)\\&=\frac{N_c}{N\cdot N_t}S_t^2+\frac{N_t}{N\cdot N_c}S_c^2+\frac{1}{N}(S_t^2+S_c^2-S_{tc}^2)\\&=\frac{S_t^2}{N_t}+\frac{S_c^2}{N_c}-\frac{S_{tc}^2}{N}\end{align}\]
记住,\(S_c^2,\,S_t^2,\,S_{tc}^2\) 我们都无法直接得到。所幸,我们可以直接得到前两个的无偏估计
\[s_c^2=\frac{1}{N_c-1}\sum\limits_{i:W_i=0}(Y_i^\mathrm{obs}-\bar{Y}_t^\mathrm{obs})^2,\,s_t^2=\frac{1}{N_t-1}\sum\limits_{i:W_i=1}(Y_i^\mathrm{obs}-\bar{Y}_t^\mathrm{obs})^2\]
无偏性的证明在本小节的末尾。
不幸的是,我们不太可能得到 \(S_{tc}^2\) 的一个估计,因为我们无法同时观测到 \(Y_i(0)\) 和 \(Y_i(1)\) 。不幸中的万幸是,如果组间效应是个常数,这一项就为零了,所以此时我们能够得到一个无偏估计
\[\widehat{\mathbb{V}}^{\mathrm{neyman}}=\frac{s_c^2}{N_c}+\frac{s_t^2}{N_t}\]
读者可能会对这样一个设定感到不满意——我们为了消除没法计算的项就强行将他设为零。但事实上设为零后方差只会更大,也就是说我们给出的是方差的一个上界。那么至少在构造置信区间的时候,这么做是没有任何问题的。
但我们不满足于此,因为他给出了一个严格的上界。然而在 Neyman 的实验中,通常样本量都会足够大,我们构造的置信区间也是依赖于大样本的渐进正态性。因此其实我们可以改进一下这个上界。下面给出了两个可以选择的估计。
其中一个为 \[\widehat{\mathbb{V}}^{\rho_{tc}}=s_c^2\frac{N_t}{N\cdot N_c}+s_t^2\frac{N_c}{N\cdot N_t}+\rho_{tc}\cdot s_c\cdot s_t\cdot \frac{2}{N}\]
同样其上界出现在 \(\rho_{tc}=1\) 处,为 \[\frac{s_c^2}{N_c}+\frac{s_t^2}{N_t}-\frac{(s_t-s_c)^2}{N}\leq\frac{s_c^2}{N_c}+\frac{s_t^2}{N_t}\]
因此其是 \(\widehat{\mathbb{V}}^{\mathrm{neyman}}\) 的一个改进。但当我们没有更多信息的时候,我们不能将 \(\rho_{tc}\) 取得更小,这里的改进基本到头了。
另一个则是当组间效应为常数,则 \(S^2\equiv S_t^2\equiv S_c^2\) 的时候采用的,即 \(\widehat{\mathbb{V}}^\mathrm{const}=s^2(1/N_c+1/N_t)\) 其中\(s^2=\frac{1}{N-2}(s_c^2(N_c-1)+s_t^2(N_t-1))\)
此时这一估计比上两个更好。但当组间效应不是常数时,此估计给出的置信区间可能是失效的。
事实上,绝大多数情况下三者算出来的结果只有细微的差别,因此无需在此过多的纠结。
下面给出无偏性的证明,首先
\[s_t^2=\frac{1}{N_t-1}\sum_{i=1}^{N}W_i(Y_i(1)-\bar{Y}_t^\mathrm{obs})^2=\frac{1}{N_t-1}\sum_{i=1}^{N}W_iY_i(1)^2\ -\frac{N_t}{N_t-1}(\bar{Y}_t^\mathrm{obs})^2\]
\[\mathbb{E}\left[\frac{1}{N_t-1}\sum_{i=1}^{N}W_iY_i^2(1)\right]=\frac{1}{N_t-1}\frac{N_t}{N}\sum_{i=1}^{N}Y_i^2(1)\]
同样的,使用 \(D_i=W_i-N_t/N\),代入第二项的第二个因子得
\[\begin{align}\mathbb{E}[(\bar{Y}_t^\mathrm{obs})^2]&=\mathbb{E}\left[\frac{1}{N_t^2}\sum_{i=1}^{N}\sum_{j=1}^{N}W_iW_jY_i^\mathrm{obs}Y_j^\mathrm{obs}\right]\\&=\frac{1}{N_t^2}\mathbb{E}\left[\sum_{i=1}^{N}\sum_{j=1}^{N}\left(D_i+\frac{N_t}{N}\right)\left(D_j+\frac{N_t}{N}\right)Y_i(1)Y_j(1)\right]\\&=\frac{1}{N_t^2}\sum_{i=1}^{N}\sum_{j=1}^{J}\mathbb{E}[D_iD_j]Y_i(1)Y_j(1)+\frac{1}{N^2}\sum_{i=1}^{N}\sum_{j=1}^{N}Y_i(1)Y_j(1)\\&=\frac{1}{N_t^2}\sum_{i=1}^{N}\left(\frac{N_cN_t}{N^2}+\frac{N_cN_t}{N^2\cdot(N-1)}\right)Y^2_i(1)+\left(\frac{1}{N_t^2}\frac{-N_cN_t}{N^2\cdot(N-1)}+\frac{1}{N^2}\right)\sum_{i=1}^{N}\sum_{j=1}^{N}Y_i(1)Y_j(1)\\&=\frac{N_c}{N\cdot (N-1)\cdot N_t}\sum_{i=1}^{N}Y_i^2(1)+\frac{N_t-1}{N\cdot(N-1)\cdot N_t}\left(\sum_{i=1}^{N}Y_i(1)\right)^2\end{align}\]
因此
\[\begin{align}\mathbb{E}[s_t^2]&=\frac{N_t}{N\cdot(N_t-1)}\sum_{i=1}^{N}Y_i^2(1)-\frac{N_c}{N\cdot(N-1)\cdot(N_t-1)}\sum_{i=1}^{N}Y_i^2(1)-\frac{1}{N\cdot(N-1)}\left(\sum_{i=1}^{N}Y_i(1)\right)^2\\&=\frac{1}{N-1}\sum_{i=1}^{N}Y_i^2(1)-\frac{1}{N\cdot (N-1)}\left(\sum_{i=1}^{N}Y_i(1)\right)^2\\&=\frac{1}{N-1}\sum_{i=1}^{N}\Big((Y_i(1)-\bar{Y}(1)\Big)^2=S_t^2\end{align}\]
显然,\(\mathrm{CI}^{1-\alpha}(\tau_{\mathrm{fs}})=(\widehat{\tau}^\mathrm{dif}+z_{\alpha /2}\sqrt{\widehat{\mathbb{V}}},\widehat{\tau}^\mathrm{dif}+z_{1-\alpha /2}\sqrt{\widehat{\mathbb{V}}})\) 即可构造出置信区间
而 \(t=\frac{\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}}{\sqrt{\widehat{\mathbb{V}}}}\) 然后使用正态分布来检验也是可以的
对比之前的 Fisher 精确检验,Neyman 的方法有两点不同。首先自然是原假设的不同:Fisher 采用了一个更加强的假设:所有样本的组间效应都是零,而 Neyman 只要求平均效应为零。其次就是检验方式的不同:Fisher 可以“精确”地算出 Fisher exact P value,而 Neyman的检验依赖于大样本的渐进正态性,因为它使用了两次近似:一次时用 \(\widehat{\mathbb{V}}\) 估计 \(\mathbb{V}_W(\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs})\) ,另一次则是假设了 \(\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}\) 在重复抽样中服从正态分布。
现在我们将 \(N\) 个样本视为从总体的一次随机抽样的结果,或者说每个样本的潜在结果对都是服从某一个分布的,因此他们自身也带有着随机性。我们使用 sp 代表 super-population 来和之前的 fs 区分开来。
\[\tau_\mathrm{fs}=\frac{1}{N}\sum\limits_{i=1}^{N}(Y_i(1)-Y_i(0))\quad\tau_\mathrm{sp}=\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)]\]
\[\mathbb{E}_\mathrm{sp}[\tau_\mathrm{fs}]=\frac{1}{N}\sum\limits_{i=1}^{N}\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)]=\tau_\mathrm{sp}\]
\[\sigma_c^2=\mathbb{V}_\mathrm{sp}[Y_i(0)]=\mathbb{E}_\mathrm{sp}\bigg[\Big(Y_i(0)-\mathbb{E}_\mathrm{sp}[Y_i(0)]\Big)^2\bigg],\quad \sigma_t^2=\mathbb{V}_\mathrm{sp}[Y_i(1)]=\mathbb{E}_\mathrm{sp}\bigg[\Big(Y_i(1)-\mathbb{E}_\mathrm{sp}[Y_i(1)]\Big)^2\bigg]\]
\[\sigma_{tc}^2=\mathbb{V}_\mathrm{sp}(Y_i(1)-Y_i(0))=\mathbb{E}_\mathrm{sp}\bigg[\Big(Y_i(0)-Y_i(0)-\tau_\mathrm{sp}]\Big)^2\bigg]\]
\[\mathbb{V}_\mathrm{sp}[\tau_\mathrm{fs}]=\mathbb{V}_\mathrm{sp}[\bar{Y}(1)-\bar{Y}(0)]=\sigma_{tc}^2/N\]
那我们上面求得的估计量 \(\widehat{\tau}^\mathrm{dif}\) 的方差又会是多少呢,我们有
\[\mathbb{V}_\mathrm{sp}[\widehat{\tau}^\mathrm{dif}]=\frac{\sigma_c^2}{N_c}+\frac{\sigma_t^2}{N_t}\ \Rightarrow\ \widehat{\mathbb{V}}_\mathrm{sp}[\widehat{\tau}^\mathrm{dif}]=\frac{s_c^2}{N_c}+\frac{s_t^2}{N_t}=\widehat{\mathbb{V}}^\mathrm{neyman}\]
因此,尽管 \(\widehat{\mathbb{V}}^\mathrm{const}\) 在方差相等时估计得更好,$^对 \(\mathbb{V}_\mathrm{fs}[\widehat{\tau}^\mathrm{dif}]\) 是更精细的估计,通常我们还是使用 \(\widehat{\mathbb{V}}^\mathrm{neyman}\),因为一方面它们的差别并不太大,另一方面\(\widehat{\mathbb{V}}^\mathrm{neyman}\) 是总体样本下组间差距的方差的一个无偏估计。
其证明可以直接使用全方差公式
\[\begin{align}\mathbb{V}_\mathrm{sp}[\widehat{\tau}^\mathrm{dif}]&=\mathbb{E}_\mathrm{sp}[\mathbb{V}_\mathrm{fs}[\widehat{\tau}^\mathrm{dif}]]+\mathbb{V}_\mathrm{sp}[\mathbb{E}_\mathrm{fs}[\widehat{\tau}^\mathrm{dif}]]\\&=\mathbb{E}_\mathrm{sp}\left[\frac{S_c^2}{N_c}+\frac{S_t^2}{N_t}-\frac{S_{tc}^2}{N}\right]+\mathbb{V}_\mathrm{sp}[\tau_\mathrm{fs}]\\&=\frac{\sigma_c^2}{N_c}+\frac{\sigma_t^2}{N_t}-\frac{\sigma_{tc}^2}{N}+\frac{\sigma_{tc}^2}{N}=\frac{\sigma_c^2}{N_c}+\frac{\sigma_t^2}{N_t}\end{align}\]
也可以使用经典的拆分平方的方法
\[\begin{align}\mathbb{V}_\mathrm{sp}[\widehat{\tau}^\mathrm{dif}]&=\mathbb{E}_\mathrm{sp}\bigg[\left(\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}-\mathbb{E}_\mathrm{sp}[\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}]\right)^2\bigg]\\&=\mathbb{E}_\mathrm{sp}\bigg[\left(\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}-\mathbb{E}_\mathrm{sp}[\bar{Y}(1)-\bar{Y}(0)]\right)^2\bigg]\\&=\mathbb{E}_\mathrm{sp}\bigg[\left(\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}-(\bar{Y}(1)-\bar{Y}(0))+(\bar{Y}(1)-\bar{Y}(0))-\mathbb{E}_\mathrm{sp}[\bar{Y}(1)-\bar{Y}(0)]\right)^2\bigg]\\&=\mathbb{E}_\mathrm{sp}\bigg[\left(\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}-(\bar{Y}(1)-\bar{Y}(0))\right)^2\bigg]+\mathbb{E}_\mathrm{sp}\bigg[\left(\bar{Y}(1)-\bar{Y}(0)-\mathbb{E}_\mathrm{sp}[\bar{Y}(1)-\bar{Y}(0)]\right)^2\bigg]\\&\quad+2\mathbb{E}_\mathrm{sp}\bigg[\left(\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}-(\bar{Y}(1)-\bar{Y}(0))\right)\cdot\Big(\bar{Y}(1)-\bar{Y}(0)-\mathbb{E}_\mathrm{sp}[\bar{Y}(1)-\bar{Y}(0)]\Big)\bigg]\\&=\left(\frac{\sigma_c^2}{N_c}+\frac{\sigma_t^2}{N_t}-\frac{\sigma_{tc}^2}{N}\right)+\frac{1}{N}\mathbb{E}_\mathrm{sp}[(Y_i(1)-Y_i(0)-\tau_\mathrm{sp})^2]+0\\&=\frac{\sigma_c^2}{N_c}+\frac{\sigma_t^2}{N_t}-\frac{\sigma_{tc}^2}{N}+\frac{\sigma_{tc}^2}{N}=\frac{\sigma_c^2}{N_c}+\frac{\sigma_t^2}{N_t}\end{align}\]
原书中的附录则是考虑从 \(N_R\) 大小的样本中采样出 \(N\) 个样本推演出结果,其中使用指示变量 \(R_i\) 标记被采样的结果(类似于 \(W_i\)的作用)。再将 \(N_R\rightarrow\infty\) 得到相同的结论。如果读者对这一过程感兴趣也可以查阅原书的证明。
]]>给定了零假设 (sharp null hypothesis) 后,所有样本的潜在结果 \(Y_i(0), Y_i(1)\) 都已经确定,统计量 \(T\) 的随机性完全由分配机制 \(W_i\) 引入。此时我们可以穷举所有的分配方式并计算对应的概率,然后统计出现比当前观测数据下的统计量更“极端”的概率 (Fisher Exact P-values, FEPs),并以此作为判据接受/拒绝原假设。
这里使用的数据是 Paul et al.(2007) 里关于对上呼吸道感染的儿童的治疗手段的效果的检验。这里我们选择了 \(N_t=35\) 名接受荞麦蜂蜜的儿童作为实验组,\(N_c=37\) 名不治疗的儿童作为对照组。观察的变量中我们选择咳嗽频率和咳嗽强度,这些量都被调整到 0(几乎没有)——6(十分严重)。
变量 | 均值 | 标准差 | 控制组均值 | 实验组均值 |
---|---|---|---|---|
处理前咳嗽频率 (cfp) | 3.86 | 0.92 | 3.73 | 4.00 |
处理后咳嗽频率 (cfa) | 2.47 | 1.61 | 2.81 | 2.11 |
处理前咳嗽强度 (csp) | 3.99 | 1.03 | 3.97 | 4.00 |
处理后咳嗽强度 (csa) | 2.54 | 1.73 | 2.86 | 2.20 |
值 | 控制组 cfa | 实验组 cfa | 控制组 cfa | 实验组 cfa |
---|---|---|---|---|
0 | 0.14 | 0.14 | 0.16 | 0.17 |
1 | 0.19 | 0.40 | 0.22 | 0.46 |
2 | 0.32 | 0.63 | 0.35 | 0.54 |
3 | 0.73 | 0.83 | 0.59 | 0.77 |
4 | 0.89 | 0.91 | 0.86 | 0.91 |
5 | 0.92 | 0.97 | 0.95 | 0.94 |
6 | 1.00 | 1.00 | 1.00 | 1.00 |
样本 | cfa \(Y_i(0)\) | cfa \(Y_i(1)\) | W_i | cfp \(X_i\) | cfa \(Y_i^{\mathrm{obs}}\) |
---|---|---|---|---|---|
1 | ? | 3 | 1 | 4 | 3 |
2 | ? | 5 | 1 | 6 | 5 |
3 | ? | 0 | 1 | 4 | 0 |
4 | 4 | ? | 0 | 4 | 4 |
5 | 0 | ? | 0 | 1 | 0 |
6 | 1 | ? | 0 | 5 | 1 |
我们先使用这六个样本作为例子
Fisher 当时提出的原假设为 \(H_0: Y_i(0)=Y_i(1)\),但很自然的我们可以将它扩展,只要最后能确定所有的潜在结果即可,比如
我们使用最经典的原假设 \(H_0: Y_i(0)=Y_i(1)\),也就是说处理完全没有作用,填入上表得
样本 | cfa \(Y_i(0)\) | cfa \(Y_i(1)\) | W_i | cfp \(X_i\) | cfa \(Y_i^{\mathrm{obs}}\) | rank(\(Y_i^{\mathrm{obs}}\)) |
---|---|---|---|---|---|---|
1 | (3) | 3 | 1 | 4 | 3 | 4 |
2 | (5) | 5 | 1 | 6 | 5 | 6 |
3 | (0) | 0 | 1 | 4 | 0 | 1.5 |
4 | 4 | (4) | 0 | 4 | 4 | 5 |
5 | 0 | (0) | 0 | 1 | 0 | 1.5 |
6 | 1 | (1) | 0 | 5 | 1 | 3 |
(注: rank 的计算方式即直接排序,然后分配123456。如果值相等则取平均数作为rank。如果将其都减去 \((N+1)/2\)后,则其和为0。我们将平移后的结果记为 \(R_i\))
我们先使用 \[T_1(\boldsymbol{W},\boldsymbol{Y}^\mathrm{obs})=\lvert \bar{Y}_t^\mathrm{obs} - \bar{Y}_c^\mathrm{obs}\rvert=\lvert \frac83-\frac53\rvert=1\] 和 \[T_2(\boldsymbol{W},\boldsymbol{Y}^\mathrm{obs})=\lvert \bar{R}_t^\mathrm{obs} - \bar{R}_c^\mathrm{obs}\rvert=\lvert \frac{11.5}3-\frac{9.5}3\rvert=\frac{2}{3}\]
下表展示了\(\binom{6}{3}=20\)中情况下的 \(T\) 值
\(W_1\) | \(W_2\) | \(W_3\) | \(W_4\) | \(W_5\) | \(W_6\) | \(T_1\) | \(T_2\) |
---|---|---|---|---|---|---|---|
0 | 0 | 0 | 1 | 1 | 1 | -1.00 | -0.67 |
0 | 0 | 1 | 0 | 1 | 1 | -3.67 | -3.00 |
0 | 0 | 1 | 1 | 0 | 1 | -1.00 | -0.67 |
0 | 0 | 1 | 1 | 1 | 0 | -1.67 | -1.67 |
0 | 1 | 0 | 0 | 1 | 1 | -0.33 | 0.00 |
0 | 1 | 0 | 1 | 0 | 1 | 2.33 | 2.33 |
0 | 1 | 0 | 1 | 1 | 0 | 1.67 | 1.33 |
0 | 1 | 1 | 0 | 0 | 1 | -0.33 | 0.00 |
0 | 1 | 1 | 0 | 1 | 0 | -1.00 | -1.00 |
0 | 1 | 1 | 1 | 0 | 0 | 1.67 | 1.33 |
1 | 0 | 0 | 0 | 1 | 1 | -1.67 | -1.33 |
1 | 0 | 0 | 1 | 0 | 1 | 1.00 | 1.00 |
1 | 0 | 0 | 1 | 1 | 0 | 0.33 | 0.00 |
1 | 0 | 1 | 0 | 0 | 1 | -1.67 | -1.33 |
1 | 0 | 1 | 0 | 1 | 0 | -2.33 | -2.33 |
1 | 1 | 1 | 1 | 0 | 0 | 0.33 | 0.00 |
1 | 1 | 0 | 0 | 0 | 1 | 1.67 | 1.67 |
1 | 1 | 0 | 0 | 1 | 0 | 1.00 | 0.67 |
1 | 1 | 0 | 1 | 0 | 0 | 3.67 | 3.00 |
1 | 1 | 1 | 0 | 0 | 0 | 1.00 | 0.67 |
以此计算 P 值,以 \(T_1\) 为例,出现比观测更极端的概率为 \(16/20=0.8\), 显然无法拒绝原假设。使用 \(T_2\) 可以得到同样的结论。
一般的,统计量 \(T(\boldsymbol{W},\boldsymbol{Y}^\mathrm{obs}\boldsymbol{X})\) 需要是一个实值的函数,且只和分配 \(\boldsymbol{W}\) 、观测到的数据 \(\boldsymbol{Y}^\mathrm{obs}\) (注意它是 \(\boldsymbol{W},\boldsymbol{Y}(0),\boldsymbol{Y}(1)\) 的函数)以及实验前得到的数据 \(\boldsymbol{X}\) 有关。下面列举一下常用的统计量
除此之外还有一些基于模型的统计量,如
\(Y_i(0)\sim\mathcal{N}(\mu_c,\sigma_c^2),\,Y_i(1)\sim\mathcal{N}(\mu_t,\sigma_t^2)\) 则
\(T^{\mathrm{model}}=\lvert\widehat{\mu}_t-\widehat{\mu}_c\rvert=\lvert\bar{Y}_t^\mathrm{obs} - \bar{Y}_c^\mathrm{obs}\rvert=T^\mathrm{dif}\)
\(\log Y_i(0)\sim\mathcal{N}(\mu_c,\sigma_c^2),\,\log Y_i(1)\sim\mathcal{N}(\mu_t,\sigma_t^2)\) 则
\(T^{\mathrm{model}}=\lvert\widehat{\mu}_{mle,t}-\widehat{\mu}_{mle,c}\rvert\)
还可以用非参数的模型,如 Kolmogorov-Smirnov Statistic
\(T^{\mathrm{ks}}=\sup\limits_y\lvert\widehat{F}_t(y)-\widehat{F}_c(y)\rvert=\max\limits_{i=1,\ldots,N}\lvert\widehat{F}_t(Y_i^\mathrm{obs})-\widehat{F}_c(Y_i^\mathrm{obs})\rvert\)
其中 \(\widehat{F}_c(y)=\frac{1}{N_c}\sum_{i:W_i=0}\boldsymbol{1}_{Y_i^\mathrm{obs}\leq y}\) ,即经验累计分布函数 (e.c.d.f)。\(\widehat{F}_t(y)\) 类似
原书里还介绍了其他的统计量,以及统计量间的组合,不一而足,感兴趣的读者可以自行查阅。
关于统计量的选择没有固定的方式。一方面你需要考虑零假设和备择假设下数据的分布,然后尝试选择功效较大的统计量。比如说,你期望处理后增大了结果的分散程度,但没有改变结果的均值,那么选择衡量分散程度的统计量,如方差或者 \(q\) 分位数区间的长度就会是一个具有更高功效的统计量。另一方面你可能需要考察已有数据的信息。比如你发现了观测数据中存在某些离群点,那么选择中位数而非均值作为统计量可能会得到更高的功效。
下面的模拟实验说明了一般来说,基于秩(rank)的统计量是比较好的。他在保持较好的功效时有更好的稳健性,其他的统计量遇到不适合的数据可能出现较差的情况。
1 | gen.threshold <- function(method, q=0.9, trail=20000, Nc=1000, Nt=1000, seed=42) { |
首先明确一点,该置信区间和频率学派的置信区间有差别。事实上 Fisher 方法无法给出传统意义下的置信区间。在这里,我们将其称为 Fisher 置信区间,因为其和 Fisher exact P value 密切相关。 简单说来,其通过不断调整零假设 \(Y_i(1)=Y_i(0)+C\) 来构造出 \(C\) 的一个区间。我们知道,对于每一个给定的 \(C\),所有的潜在结果都被确定,因此我们可以算出出现我们观测的 P-value. 而当 \(C\) 极大或极小时,计算所得的 P-value 都将成为0。因此我们可以取使得 P-value 大于0.05 的那些 \(C\) 值,然后组成一个 \(95\%\) 的“置信区间”,来作为 \(Y_i(1)-Y_i(0)\) 的一个区间估计。
显然,计算 P 值需要穷举所有的可能性,一共\(\binom{N_t+N_c}{N_t}\)种,当 \(N_t,N_c\) 都不太小时显然是不可计算的。一个简单的近似,也是上面代码里所用到的,就是我随机的采 1000 或 10000 次样本做重复实验,然后根据这些样本算出的 \(T\) 取分位数来构造置信区间。可以证明,给定真实的 P值 \(p^\star\),如果我们抽取 \(K\) 个样本,那么使用这 \(K\) 个样本计算得到标准差为 \(\sqrt{p^\star(1-p^\star)/K}\leq1/\sqrt{4k}\)。即使我们让标准差小于 \(0.0001\),也只需要 \(K=250000\) 次采样,这在现在的电脑上是十分容易实现的。实际应用中,由于你已经采了足够的样本,因此使用 \(\widehat{p}\) 近似真值 \(p^\star\) 来估计方差可以得到更好的效果。
之前我们都没有使用实验前观测得到的数据,也就是协变量。加入协变量我们又可以构造出若干统计量。
一个常见的情况是协变量和实验变量是实验前后同一个量的观测,那么做一个减法,即 \(Y_i'(w)=Y_i(w)-X_i\) 是十分自然的,此时构造出一个新的统计量
\[T^\mathrm{gain}=\frac{\sum_{i:W_i=1}(Y_i^\mathrm{obs}-X_i)}{N_t}-\frac{\sum_{i:W_i=0}(Y_i^\mathrm{obs}-X_i)}{N_c}=\bar{Y}_t^{\mathrm{obs}}-\bar{Y}_c^{\mathrm{obs}}-(\bar{X}_t-\bar{X}_c)\]
当然你可以再进行一个”归一化“,简单地除以 \(X_i\) 本身,即\(Y_i'‘(w)=\frac{Y_i(w)-X_i}{X_i}\),此时得到新的统计量
\[T^\mathrm{prop-change}=\frac{1}{N_t}\sum\limits_{i:W_i=1}\frac{Y_i^\mathrm{obs}-X_i}{X_i}-\frac{1}{N_c}\sum\limits_{i:W_i=0}\frac{Y_i^\mathrm{obs}-X_i}{X_i}\]
还有一种可能就是做一个线性回归模型,即
\[(\widehat{\beta}_0,\widehat{\beta}_X,\widehat{\beta}_W)=\arg\min\limits_{\widehat{\beta}_0,\widehat{\beta}_X,\widehat{\beta}_W}\sum\limits_{i=1}^{N}(Y_i^\mathrm{obs}-\widehat{\beta}_0-\widehat{\beta}_X\cdot X_i-\widehat{\beta}_W\cdot W_i)^2\]
得到新统计量 \(T^{\mathrm{reg-coef}}=\widehat\beta_W\)
Fisher Exact Test 是一个十分直观且简单的检验方法,但也带来了他的局限性,主要体现在两点
这些局限在下一个方法,也就是 Neyman 提出的重复采样方法中得到了解决。
]]>一个简单的例子,患者在头痛后选择了吃阿司匹林,并最后缓解头痛。我们在意的就是这一结果是否能解释为阿司匹林的药效。
至此可以看到,因果推断最核心的难题就是, \(Y_t,Y_c\) 仅有可能观测到一个,因此没法直接得到因果的效应。在只有一个单元的情况下显然是不可做的,而在有多个单元的情况下其实也不容易做
所以我们只能进行一定的假设。在阿司匹林的例子中就是:甲是否吃药不会影响乙的头痛的状态(无论乙吃药或否)。这一点看起来通常是对的,但也不能排除其错误的可能——比如甲乙同在一个屋子里,除非甲吃药并缓解头痛,否则他无止尽的抱怨会加重乙的头痛严重程度。但这一点通常还是可以通过实验来减少这一干扰的。
将该思想抽象出来,我们就得到了一个极其重要的假设 Stable Unit Treatment Value Assumptioni (SUTVA)。其核心为两点
在这样的假设下,模型得到了进一步的简化,此时我们通常记
\[Y _ { i } ^ { \mathrm { obs } } = Y _ { i } \left( W _ { i } \right) = \left\{ \begin{array} { l l } { Y _ { i } ( 0 ) } & { \text { if } W _ { i } = 0 } \\ { Y _ { i } ( 1 ) } & { \text { if } W _ { i } = 1 } \end{array} \right.\]
\[Y _ { i } ^ { \mathrm { mis } } = Y _ { i } \left( 1 - W _ { i } \right) = \left\{ \begin{array} { l l } { Y _ { i } ( 1 ) } & { \text { if } W _ { i } = 0 } \\ { Y _ { i } ( 0 ) } & { \text { if } W _ { i } = 1 } \end{array} \right.\]
由于至少一半的潜在结果无法被观测到,我们通常需要预估或者说填充这些缺失值来进行我们的因果推断。因此,如果有一些实验前就观测到的协变量,将会对我们的预测有很大帮助。同时,这些变量在我们决定分组的时候也可能产生很大的作用——比如说,我们想测试阿司匹林对减轻头痛的因果效应时,可能就不会接受实验组全部为男性,对照组全部为女性的分组方式,因为这将使我们没法断定实验的结果是解释为阿司匹林还是解释为性别差异。
给定 \(N\) 个单元后,分配机制是一个行可交换的函数 $ ( | , ( 0 ) , ( 1 ) )$ ,取值 \([0,1]\) 且满足
\[\sum\limits_ { \mathbf { W } \in \{ 0,1 \} ^ { N } } \mathbb{P} ( \mathbf { W } | \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) = 1 , \text { for all } \mathbf { X } , \mathbf { Y } ( 0 ) , \text { and } \mathbf { Y } ( 1 )\]
也就是说给定了协变量和潜在结果后,分配机制给出了所有分配向量的概率;而每个分配向量决定了哪些单元接受处理——也就是哪些潜在结果被观测到,而哪些无法被观测。
在此基础上,我们考察个体接受处理的概率,定义为
\[p _ { i } ( \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) = \sum _ { \mathbf { W } : W _ { i } = 1 } \operatorname { Pr } ( \mathbf { W } | \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) )\]
我们也可以考察某一类单元接受处理的概率,我们称之为倾向得分 (Propensity score),定义为
\[e ( x ) = \frac { 1 } { N ( x ) } \sum\limits _ { i : X _ { i } = x } p _ { i } ( \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) )\]
其中 \(N(x)=\mathrm{Card}(\{i=1,\ldots,N\mid X_i=x\})\) 即 \(X_i=x\) 集合元素的个数
两个样本,\(2^2=4\) 个分配向量:
\[\mathbf { W } \in \left\{ \left( \begin{array} { l } { 0 } \\ { 0 } \end{array} \right) , \left( \begin{array} { l } { 0 } \\ { 1 } \end{array} \right) , \left( \begin{array} { l } { 1 } \\ { 0 } \end{array} \right) , \left( \begin{array} { l } { 1 } \\ { 1 } \end{array} \right) \right\}\]
分配机制为完全随机分配,即
\[\mathbb{P} ( \mathbf { W } | \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) = 1 / 4 , \quad \text { for } \mathbf { W } \in \left\{ \left( \begin{array} { l } { 0 } \\ { 0 } \end{array} \right) , \left( \begin{array} { l } { 0 } \\ { 1 } \end{array} \right) , \left( \begin{array} { l } { 1 } \\ { 0 } \end{array} \right) , \left( \begin{array} { l } { 1 } \\ { 1 } \end{array} \right) \right\}\]
个体接受处理概率为
\[p _ { i } ( \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) = 1 / 2 \text { for both units } i = 1,2\]
倾向性得分为
由于没有协变量参与分配机制,因此对任何协变量的取值 \(x\) 都有 \(e(x)=1/2\)
两个样本,\(2^2=4\) 个分配向量:
\[\mathbf { W } \in \left\{ \left( \begin{array} { l } { 0 } \\ { 0 } \end{array} \right) , \left( \begin{array} { l } { 0 } \\ { 1 } \end{array} \right) , \left( \begin{array} { l } { 1 } \\ { 0 } \end{array} \right) , \left( \begin{array} { l } { 1 } \\ { 1 } \end{array} \right) \right\}\]
分配机制为只考虑两个样本分配到不同组的情形,即
\[\operatorname { Pr } ( \mathbf { W } | \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) = \left\{ \begin{array} { l l } { 1 / 2 } & { \text { if } \mathbf { W } \in \left\{ \left( \begin{array} { l } { 0 } \\ { 1 } \end{array} \right) , \left( \begin{array} { l } { 1 } \\ { 0 } \end{array} \right) \right\} } \\ { 0 } & { \text { if } \mathbf { W } \in \left\{ \left( \begin{array} { l } { 0 } \\ { 0 } \end{array} \right) , \left( \begin{array} { l } { 1 } \\ { 1 } \end{array} \right) \right\} } \end{array} \right.\]
个体接受处理概率为
\[p _ { i } ( \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) = 1 / 2 \text { for both units } i = 1,2\]
倾向性得分为
由于没有协变量参与分配机制,因此对任何协变量的取值 \(x\) 都有 \(e(x)=1/2\)
两个样本,\(2^2=4\) 个分配向量:
\[\mathbf { W } \in \left\{ \left( \begin{array} { l } { 0 } \\ { 0 } \end{array} \right) , \left( \begin{array} { l } { 0 } \\ { 1 } \end{array} \right) , \left( \begin{array} { l } { 1 } \\ { 0 } \end{array} \right) , \left( \begin{array} { l } { 1 } \\ { 1 } \end{array} \right) \right\}\]
分配机制为:将 \(Y(1)-Y(0)\) 大的分配给实验组,另一个为对照组。如果相等则随机分配,即
\[\operatorname { Pr } ( \mathbf { W } | \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) = \left\{ \begin{array} { l l } \begin{array} { l } { 1 } & { \text { if } Y _ { 2 } ( 1 ) - Y _ { 2 } ( 0 ) > Y _ { 1 } ( 1 ) - Y _ { 1 } ( 0 ) \text { and } \mathbf { W } = \left( \begin{array} { l } { 0 } \\ { 1 } \end{array} \right) } \\ { 1 } & { \text { if } Y _ { 2 } ( 1 ) - Y _ { 2 } ( 0 ) < Y _ { 1 } ( 0 ) \text { and } \mathbf { W } = \left( \begin{array} { l } { 1 } \\ { 0 } \end{array} \right) } \\ { 1 / 2 } & { \text { if } Y _ { 2 } ( 1 ) - Y _ { 2 } ( 0 ) = Y _ { 1 } ( 1 ) - Y _ { 1 } ( 0 ) \text { and } \mathbf { W } \in \left\{ \left( \begin{array} { c } { 0 } \\ { 1 } \end{array} \right) , \left( \begin{array} { c } { 1 } \\ { 0 } \end{array} \right) \right\} } \\ {0} & {\text { if } \mathbf { W } \in \left\{ \left( \begin{array} { l } { 0 } \\ { 0 } \end{array} \right) , \left( \begin{array} { l } { 1 } \\ { 1 } \end{array} \right) \right\}} \\ { 0 } & {\text { if } Y _ { 2 } ( 1 ) - Y _ { 2 } ( 0 ) < Y _ { 1 } ( 1 ) - Y _ { 1 } ( 0 ) \text { and } \mathbf { W } = \left( \begin{array} { c } { 0 } \\ { 1 } \end{array} \right) } \\ { 0 } & { \text { if } Y _ { 2 } ( 1 ) - Y _ { 2 } ( 0 ) > Y _ { 1 } ( 1 ) - Y _ { 1 } ( 0 ) \text { and } \mathbf { W } = \left( \begin{array} { c } { 1 } \\ { 0 } \end{array} \right) } \end{array} \end{array} \right.\]
个体接受处理概率为
\[p _ { i } ( \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) =0,\ 1 / 2 \text { or } 1\]
倾向性得分为
由于没有协变量参与分配机制,因此对任何协变量的取值 \(x\) 都有 \(e(x)=1/2\)
三个样本,协变量 \(X_i=i\),\(2^3=8\) 个分配向量:
\[\mathbf { W } \in \left\{ \left( \begin{array} { l }{ 0 } \\ { 0 } \\ { 0 } \end{array} \right) , \left( \begin{array} { l } { 0 } \\{ 0 } \\ { 1 } \end{array} \right) , \left( \begin{array} { l } { 0 } \\{ 1 } \\ { 0 } \end{array} \right) , \left( \begin{array} { l } { 0 } \\{ 1 } \\ { 1 } \end{array} \right),\left( \begin{array} { l } { 1 } \\ { 0 } \\ { 0 } \end{array} \right) , \left( \begin{array} { l }{ 1 } \\ { 0 } \\ { 1 } \end{array} \right) , \left( \begin{array} { l }{ 1 } \\ { 1 } \\ { 0 } \end{array} \right) , \left( \begin{array} { l } { 1 } \\ { 1 } \\ { 1 } \end{array} \right) \right\}\]
分配机制为:将 \(Y(1)-Y(0)\) 大的分配给实验组,另一个为对照组。如果相等则随机分配,即
\[\operatorname { Pr } ( \mathbf { W } | \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) = \left\{ \begin{array} { l l } {1 / 2} & { \text { if } Y _ { 1 } ( 0 ) > Y _ { 2 } ( 1 ) , \text { and } \mathbf { W } = \left( \begin{array} { l } { 0 } \\ { 1 } \\ { 0 } \end{array} \right) } \\{1 / 2} & { \text { if } Y _ { 1 } ( 1 ) \ge Y _ { 2 } ( 0 ) , \text { and } \mathbf { W } = \left( \begin{array} { l } { 1 } \\ { 0 } \\ { 1 } \end{array} \right) } \\{1 / 2} & { \text { if } Y _ { 1 } ( 0 ) \le Y _ { 2 } ( 1 ) , \text { and } \mathbf { W } = \left( \begin{array} { l } { 0 } \\ { 1 } \\ { 1 } \end{array} \right) } \\{1 / 2} & { \text { if } Y _ { 1 } ( 1 ) < Y _ { 2 } ( 0 ) , \text { and } \mathbf { W } = \left( \begin{array} { l } { 1 } \\ { 0 } \\ { 0 } \end{array} \right) } \\\end{array} \right.\]
个体接受处理概率为
\[p _ { 1 } ( \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) =p _ { 2 } ( \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) =1/2\]
\[p _ { 3 } ( \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) = \left\{ \begin{array} { l l } { 0 } & { \text { if } Y _ { 1 } ( 0 ) > Y _ { 2 } ( 1 ) \text { and } Y _ { 1 } ( 1 ) < Y _ { 2 } ( 0 ) } \\ { 1 } & { \text { if } Y _ { 1 } ( 1 ) \geq Y _ { 2 } ( 0 ) \text { and } Y _ { 1 } ( 0 ) \leq Y _ { 2 } ( 1 ) } \\ { 1 / 2 } & { \text { otherwise } } \end{array} \right.\]
倾向得分为
\[e(X_i=1)=e(X_i=2)=1/2, e(X_i=3)=p_3(\mathbf{X},\mathbf{Y}(0),\mathbf{Y}(1))\]
要求每个个体的分配概率独立于其他个体,即
\[p _ { i } ( \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) = q \left( X _ { i } , Y _ { i } ( 0 ) , Y _ { i } ( 1 ) \right) , \text { for all } i = 1 , \ldots , N\]
那么此时
\[\mathbb{P} ( \mathbf { W } | \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) = c \cdot \prod _ { i = 1 } ^ { N } q \left( X _ { i } , Y _ { i } ( 0 ) , Y _ { i } ( 1 ) \right) ^ { W _ { i } } \left( 1 - q \left( X _ { i } , Y _ { i } ( 0 ) , Y _ { i } ( 1 ) \right) \right) ^ { 1 - W _ { i } }\]
且
\[e ( x ) = \frac { 1 } { N ( x ) } \sum\limits _ { i : X _ { i } = x } q ( X_i , Y_i ( 0 ) , Y_i ( 1 ) )\]
上面四个例子中,第四个例子不满足这一条件
要求对每个个体的每个动作的分配,都要有非零的概率。在只有两个动作的情况下,则意味着分配至控制组的概率满足 \(0<p<1\)
要求分配机制和潜在结果是独立的,即
\[\mathbb{P} ( \mathbf { W } | \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) =\mathbb{P} ( \mathbf { W } | \mathbf { X } )\]
之前的例子中一和二是无混杂的,三和四都是有混杂的
此时可以得到
\[\mathbb{P} ( \mathbf { W } | \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) = c \cdot \prod _ { i = 1 } q \left( X _ { i } \right) ^ { W _ { i } } \cdot \left( 1 - q \left( X _ { i } \right) \right) ^ { 1 - W _ { i } }\]
\[e(x)=q(x)\]
也就是说分配机制就是倾向得分的乘积,而此时倾向得分又可以解释为 \(X_i=x\) 的个体分配的概率(之前是这些个体分配的概率的均值)
有哪些非规范的情况呢?
随机化实验指的是分配机制
经典随机化实验 (Classical Randomized Experiments) 则还要求
经典随机化实验中又会有三个特殊的情形,我们将在接下来的五节中涉及相关的推断,他们是
对于 \(N\) 个样本,投掷 \(N\) 次正面向上概率为 \(p=e(X_i)\) 的硬币,并以正面代表实验组处理而反面代表控制组处理。即
\[\mathbb{P} ( \mathbf { W } | \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) = \prod _ { i = 1 } ^ { N } \left[ e \left( X _ { i } \right) ^ { W _ { i } } \cdot \left( 1 - e \left( X _ { i } \right) \right) ^ { 1 - W _ { i } } \right]\]
此时分配向量的支撑集,即使得上式非零的集合为 \(\mathbb{W}^+=\mathbb{W}=\{0,1\}^N\)
相比伯努利实验,其要求有 \(N_t\) 个接受实验组而 \(N_c=N-N_t\) 个接受控制组,且每个样本被分配的概率都是 \(q=N_c/N\),即
\[\mathbb{P} ( \mathbf { W } | \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) = \left\{ \begin{array} { l l } { \left( \begin{array} { c } { N } \\ { N _ { t } } \end{array} \right)^{-1} } & { \text { if } \sum _ { i = 1 } ^ { N } W _ { i } = N _ { t } } \\ { 0 } & { \text { otherwise } } \end{array} \right.\]
此时的支撑集为 \[\mathbb { W } ^ { + } = \{ \mathbf { W } \in \mathbb { W } | \sum _ { i = 1 } ^ { N } W _ { i } = N _ { t } \}\]
其思想是根据协变量 \(X_i\) 将样本先划分为若干块 (Block),然后在每块内进行完全随机化实验,即
将根据协变量 \(X_i\) \(N\) 个样本划分为 \(J\) 块,第 \(i\) 个单元被分到的块记为 \(B_i=B(X_i)\)
第 \(j\) 块的大小为 \(N_j\),其中有 \(N_t(j)\) 个样本接受实验处理
此时
\[\operatorname { Pr } ( \mathbf { W } | \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) = \left\{ \begin{array} { l l } { \prod _ { j = 1 } ^ { J } \left( \begin{array} { c } { N ( j ) } \\ { N _ { t } ( j ) } \end{array} \right) ^ { - 1 } }&{ \text { if } \mathbf { W } \in \mathbb { W } ^ { + } } \\ { 0 } & { \text { otherwise } } \end{array} \right.\]
而支撑集 \(\mathbb { W } ^ { + } = \{ \mathbf { W } \in \mathbb { W } | \sum _ { i : B _ { i } = j } ^ { N } W _ { i } = N _ { \mathrm { t } } ( j ) , \text { for } j = 1,2 , \ldots , J \}\)
且可以知对于块的倾向得分为 \(e(X_i)=N_t(j)/N(j)\)
其是一个特殊的分层随机化实验——一共有 \(J=N/2\) 块,每块两个单元,且一个接受处理一个接受对照。则
\[\operatorname { Pr } ( \mathbf { W } | \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) = \left\{ \begin{array} { l l } { 2 ^ { - N / 2 } } & { \text { if } \mathbf { W } \in \mathbb { W } ^ { + } } \\ { 0 } & { \text { otherwise } } \end{array} \right.\]
支撑集 \(\mathbb { W } ^ { + } = \{ \mathbf { w } \in \mathbb { W } | \sum _ { i : B _ { i } = j } ^ { N } W _ { i } = 1 , \text { for } j = 1,2 , \ldots , N / 2 \}\)
相对于实验,观察学习针对的是分配机制未知或不可控的情况
(挖坑待填)
(核心就是没有对照组,然后就是没有明确给出 \(Y_i(0)\) 填充的方式。二者一个是使用一年前的数据 \(X\) 填充,另一个是使用回归模型 \(a+bX\) 填充)
(挖坑待填)
(核心就是不同层的分配比例,或者说倾向性得分相差太大)
数学上,Simpson's Paradox 出现的原因是,即使 \(a_1>b_1,\ a_2>b_2\),但加权平均的结果 \(\lambda a_1+(1-\lambda)a_2\) 和 \(\mu b_1+(1-\mu)b_2\) 的大小仍然无法确定。比如当 \(b_1>a_2\) 时,若 \(\lambda\rightarrow 0\) 而 \(\mu\rightarrow 1\) ,就会导致加权的结果近似为 \(a_2\approx \tilde{a}<\tilde{b}\approx b_1\)
]]>在开始因果推断前,我们假设读者对下面的概念有了初步的认识。
下面是本系列的架构
手敲\(\LaTeX\)难免出现纰漏,有任何疑似错误或者不清楚的地方请直接在下方评论区留言,谢谢各位读者。
]]>上一节我们讨论了单点\(x_0\)处的误差\(\mathrm{MSE}(x_0)\),一个自然的想法就是考察整体的误差,即
\[\begin{align}\mathrm{MISE}&=\int(\mathbb{E}_p[\widehat{p}_{n}(x)]-p(x))^2\,\mathrm{d}x+\int\mathbb{E}_p[(\widehat{p}_{n}(x)-\mathbb{E}_p[\widehat{p}_{n}(x)])^2]\,\mathrm{d} x\\&\overset{\Delta}{=}\int b^2(x)\,\mathrm{d}x+\int \sigma^2(x)\,\mathrm{d}x\end{align}\]
沿用上一文的结论,我们已经有
\[\sigma^2(x)=\frac{1}{nh^2}\mathbb{E}_p[\eta_1^2(x)]\leq\frac{1}{nh^2}\mathbb{E}_p[K^2\left(\frac{X_1-x}{h}\right)]\]
因此
\[\begin{align}\int\sigma^2(x)\,\mathrm{d}x&\leq\frac{1}{nh^2}\int\int K^2\left(\frac{z-x}{h}\right)p(z)\,\mathrm{d}z\,\mathrm{d}x\\&=\frac{1}{nh}\int\int K^2(u)p(x+uh)\,\mathrm{d}u\,\mathrm{d}x \\&=\frac{1}{nh}\int K^2(u)\,\mathrm{d}u\end{align}\]
首先我们需要知道泰勒展开的积分余项形式
\[f(x)=f(x_0)+f^\prime(x_0)(x-x_0)+\cdots+\frac{f^{(l-1)}(x_0)(x-x_0)^{l-1}}{(l-1)!}+\int_{x_0}^x \frac{f^{(l)}(t)(x-t)^{(l-1)}}{(l-1)!}\,\mathrm{d}t\]
于是
\[\begin{align}b(x)=\mathbb{E}_p[\widehat{p}_n(x)]-p(x)&=\frac{1}{h}\int K(\frac{z-x}{h})p(z)\,\mathrm{d}x-p(x)\\&=\int K(u)p(x+uh)\,\mathrm{d}u-p(x)\\&=\int K(u) [p(x+uh)-p(x)] \,\mathrm{d}u\\&=\int K(u)\int_x^{x+uh}p^{(l)}(t)\frac{(x+uh-t)^{l-1}}{(l-1)!}\,\mathrm{d}t\,\mathrm{d}u\\&=\int K(u)\int_0^{1}p^{(l)}(x+uh\tau)\frac{(uh)^l(1-\tau)^{l-1}}{(l-1)!}\,\mathrm{d}\tau\,\mathrm{d}u\\&=\int K(u)\frac{(uh)^l}{(l-1)!}\int [p^{(l)}(x+uh\tau)-p^{(l)}(x)] (1-\tau)^{l-1}\,\mathrm{d}\tau \,\mathrm{d}u\\&\overset{\Delta}{=}\int \widetilde{K}(u) \cdot m(u,x)\,\mathrm{d}u \end{align}\]
其中$(u)=K(u), m(u,x)=(1-)^{l-1},$
现在我们使用 Minkowski inequality 来控制积分的上届,使用的形式为
\[\int(\int g(u,x)\,\mathrm{d}u)^2\,\mathrm{d}x\leq[\int(\int g^2(u,x)\,\mathrm{d}x)^{1/2}\,\mathrm{d}u]^2\]
不熟悉的读者可能觉得这一形式有些怪异,其实其本质就是三角不等式,也就是说和的范数小于范数的和,即\[\lvert\lvert f+g\rvert\rvert_2\leq \lvert\lvert f\rvert\rvert_2+\lvert\lvert g\rvert\rvert_2\]。其中\(\lvert\lvert f\rvert\rvert_2=(\int \lvert f\rvert^2\,\mathrm{d}\mu)^{1/2}\)。因此不等式右边是范数\((\int g^2(u,x)\,\mathrm{d}x)^{1/2}\)的和(积分)的平方,而左边是和(积分)\(\int g(u,x)\,\mathrm{d}u\)的范数的平方。
先使用一次Minkowski inequality
\[\begin{align}\int b^2(x)\,\mathrm{d}x&=\int(\int \widetilde{K}(u) m(u,x)\,\mathrm{d}u)^2\,\mathrm{d}x\\&\leq [\int(\int \widetilde{K}^2(u) m^2(u,x) \,\mathrm{d}x)^{1/2}\,\mathrm{d}u]^2\\&= [\int \widetilde{K}(u)(\int m^2(u,x) \,\mathrm{d}x)^{1/2}\,\mathrm{d}u]^2\end{align}\]
现在考察\((\int m^2(u,x) \,\mathrm{d}x)^{1/2}\)的值。再次使用Minkowski inequality
\[\begin{align}(\int m^2(u,x)\,\mathrm{d}x)^{1/2}&\leq\int \,\mathrm{d}\tau[\int (p^{(l)}(x+uh\tau)-p^{(l)}(x))^2(1-\tau)^{2l-2}\,\mathrm{d}x]^{1/2}\\&=\int (1-\tau)^{l-1}\,\mathrm{d}\tau[\int (p^{(l)}(x+uh\tau)-p^{(l)}(x))^2\,\mathrm{d}x]^{1/2}\end{align}\]
可以看到,我们需要\(p\)满足一定的性质才能控制这一上届。我们先定义 Nikol'ski class \(\mathcal{H}(\beta,L), \beta>0,L>0\) 为所有满足下列性质的函数\(f:\mathbb{R}\rightarrow\mathbb{R}\)的集合
还有一个定义 Sobolev class\(\mathcal{S}(\beta,L), \beta\in\mathbb{N}^+ \mathrm{}, L>0\)为所有满足下列性质的函数\(f:\mathbb{R}\rightarrow\mathbb{R}\)的集合
可以证明\(\mathcal{S}(\beta,L)\subset\mathcal{H}(\beta,L)\)
在这里,我们先使用\(\mathcal{H}(\beta,L)\),并加上概率密度的约束,即\(p\in\mathcal{P_H}=\{p\in\mathcal{H}(\beta,L)\mid p\ge 0,\ \int p(x)\,\mathrm{d}x=1\}\)
此时,我们可以控制得
\[\int (p^{(l)}(x+uh\tau)-p^{(l)}(x))^2\,\mathrm{d}x]^{1/2}\leq L(uh\tau)^{\beta-l}\]
整理过后可以得到\(\int b^2(x)\,\mathrm{d}x\leq C h^{2\beta}\)
如同上文一样,我们得到了\(\mathrm{MISE}\)的收敛速度为\(O(n^{-\frac{2\beta}{2\beta+1}})\)
若\(\beta\)为整数,读者也可以使用\(\mathcal{S}(\beta,L)\)获得一个证明,也就是假设\(\int(p^{(\beta)}(x))^2\,\mathrm{d}x<\infty\)即可。此时整个积分同样被控制住。
\[\begin{align} { \int ( } { p ^ { ( \ell ) } ( x + t ) - p ^ { ( \ell ) } ( x ) ) ^ { 2 } \mathrm{d} x } \ & { = \int \left( t \int _ { 0 } ^ { 1 } p ^ { ( \ell + 1 ) } ( x + \theta t ) \,\mathrm{d} \theta \right) ^ { 2 } \,\mathrm{d} x } \\ { } & { \leq t ^ { 2 } \left( \int _ { 0 } ^ { 1 } \left[ \int \left( p ^ { ( \ell + 1 ) } ( x + \theta t ) \right) ^ { 2 } \,\mathrm{d} x \right] ^ { 1 / 2 } \mathrm{d} \theta \right) ^ { 2 } } \\ { } & { = t ^ { 2 } \int \left( p ^ { ( \beta ) } ( x ) \right) ^ { 2 } \,\mathrm{d} x } \end{align}\]
]]>