Vica's Blog

【Note】一些有趣的概率论问题

2022-11-17T01:50:00.000Z

记录答疑过程中遇到的一些有趣的问题。其实比起“正统”的概率论问题来说是挺简单的，但因为这些大多有一些生活背景所以比较有趣。

不独立但同分布的情况

先考虑一个相对简单的题目，掌握方法后可尝试接下来的题目（答案见文末）。

Q1-1: $n$ 个球放入 $n$ 个盒子，球和盒子都标号 1-n，问球的编号和盒的编号相同的个数的期望和方差。

A1-1: 记 $X_i$ 是第 $i$ 个球是否放入第 $i$ 个盒子，则总个数 $Y=\sum_{i=1}^{n}X_i$。注意到 $X_i$ 同分布（但不独立），故 $\mathbb{E}[Y] = n\mathbb{E}[X_1]$。不难证明第 $i$ 个球放入第 $i$ 个盒子的概率是 $1/n$，故 $\mathbb{E}[X_1]=\mathbb{P}(X_1=1)=1/n$，进而 $\mathbb{E}[Y]=1$。为求方差，需求 $\mathbb{E}[Y^2]=\mathbb{E}[(\sum_{i=1}^{n}X_i)(\sum_{i=1}^{n}X_i)]$，故需要考虑 $\mathbb{E}[X_iX_j]$。根据此题背景，需要考虑两个情况

$i=j$，此时 $\mathbb{E}[X_iX_j]=\mathbb{P}[X_i=1]=1/n$，共有 $n$ 对。
$i\neq j$，此时 $[X_iX_j]=[X_i=1X_j=1] 为第 $i$ 个球和第 $j$ 个球同时放对的，是 $1/n(n-1)$。共有 $n(n-1)$ 对。

不难验证 $X_iX_j$ 一共有 $n^2$ 对，恰好为 $n + n(n-1)$，故已经不重不漏地讨论完了。此时 $\mathbb{E}[Y^2] = n*\dfrac{1}{n}+n(n-1)*\dfrac{1}{n(n-1)}=2$, $\text{Var}[Y] = 1$。

def simulate(n, k=10000):
    def _simulate(n):
        arr = list(range(n))
        import random
        random.shuffle(arr)
        return sum(arr[i] == i for i in range(n))
    tmp = [_simulate(n) for _ in range(k)]
    from statistics import mean, variance
    return mean(tmp), variance(tmp) 

def calculate(n):
    return 1, 1
    
n = 10
print(simulate(n), calculate(n))

Q1-2: $n$ 个男生 $m$ 个女生随机排成一列，有 $n+m-1$ 个相邻的配对，问配对中性别不同的个数的期望和方差。

Q1-3: 一个公交车在初始有 $n$ 个乘客，中途只下不上。每个乘客独立随机地从 $m$ 个站中选1个下。如果某站没有乘客下车，则公交车不停靠，问停靠次数的期望和方差。

Q1-4: n个顶点的随机图，任意两个顶点间有概率 $p$ 连边，问形成的三角形的数目的期望和方差。

三角形/圆相关

Q2-1 线段均与取两点，得到的三段构成三角形的概率。

Q2-3 圆周上均匀取三点，问构成钝角三角形的概率。

Q2-4 圆周上均匀取三点，问构成的最大角的分布。

动态规划相关

Q3-1 不断投掷一枚硬币直至出现正面停止，每次结果独立且正面的概率为 \(0，求投掷次数的期望。

A3-1 记投掷次数为 $X$，第一次投掷结果是否为正面为 $I$。注意此时 $I$ 为二元变量，且 $\mathbb{E}[I^2]=\mathbb{E}[I]=\mathbb{P}[I=1]=p$。根据投掷情况，若投掷出正面，则停止，此时投掷了一次。否则游戏回到原点，仍需投 $X$ 次，故需投掷 $1+X$ 次。故 $X=I\times 1+(1-I)\times (1+X)$。由于当前投掷的一次不可避免，我们一般会写为 $X=1 + I\times 0+(1-I)\times X = 1 + (1-I)\times X$ 更为简洁直观。基于该关系式，我们可以很容易的算出期望和方差（注意 $I$ 和 $X$ 独立） $\mathbb{E}[X]=1+(1-p)\mathbb{E}[X]\Rightarrow \mathbb{E}[X] = 1/p$ $\text{Var}[X]=\text{Var}[(1-I)X]=\mathbb{E}[((1-I)X)^2]-(\mathbb{E}[(1-I)X])^2=\mathbb{E}[(1-I)^2]\mathbb{E}[X^2]-(\mathbb{E}[(1-I)X])^2$$=(1-p)\mathbb{E}[X^2]-(1-p)^2\mathbb{E}[X]^2=(1-p)\text{Var}[X]+(p-p^2)\mathbb{E}[X]^2$ 得 $\text{Var}[X]=(1-p)/p^2$

注：其实该分布为几何分布，因此读者应该对这一结论并不感到意外。但从这个视角看这个过程，可能会更好地理解这一系列相关的题目。

def simulate(p, k=10000):
    def _simulate(p):
        result = []
        import random
        while True:
            result.append(random.random() < p)
            if result[-1]:
                break
        return len(result)
    tmp = [_simulate(p) for _ in range(k)]
    from statistics import mean, variance
    return mean(tmp), variance(tmp)

def calculate(p):
    return 1/p, (1-p)/p/p
    
p = 0.7
print(simulate(p), calculate(p))

Q3-2: 不断投掷一枚硬币直至出现连续两次正面则停止，每次结果独立且正面的概率为 \(0，求投掷次数的期望。（应至少有3个状态：空/反、正、正正，其中到达正正时游戏结束。设出每个状态到达正正结束时次数的期望，解方程组）

Q3-3: 不断投掷一枚硬币直至出现连续两次相同则停止，每次结果独立且正面的概率为 \(0，求投掷次数的期望。（应至少有5个状态：空、正、反、正正，反反）

随机过程相关

ToDo

多元正态相关

预备知识1：如果 $\boldsymbol{X}\sim\mathcal{N}(\boldsymbol{\mu},\Sigma)$，则 $\boldsymbol{b+AX}\sim\mathcal{N}(\boldsymbol{b+A\mu},\boldsymbol{A}\Sigma\boldsymbol{A}^\intercal)$

预备知识2：如果 $\begin{pmatrix}\boldsymbol{X_1}\\\boldsymbol{X_2}\end{pmatrix}\sim\mathcal{N}\left(\begin{pmatrix}\boldsymbol{\mu_1}\\\boldsymbol{\mu_2}\end{pmatrix},\begin{pmatrix}\Sigma_{11}&\Sigma_{12}\\\Sigma_{21}&\Sigma_{22}\end{pmatrix}\right)$，则给定 $\boldsymbol{X_1}=\boldsymbol{x_1}$ 下，$\boldsymbol{X_2}$ 条件分布为$\mathcal{N}(\boldsymbol{\mu_2}+\Sigma_{21}\Sigma_{11}^{-1}(\boldsymbol{x_1}-\boldsymbol{\mu}),\Sigma_{22}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12})$

Q5-1 已知 $\begin{pmatrix}X\\Y\end{pmatrix}\sim\mathcal{N}\left(\begin{pmatrix}0\\0\end{pmatrix},\begin{pmatrix}\sigma^2&\rho\sigma^2\tau^2\\\rho\sigma^2\tau^2&\tau^2\end{pmatrix}\right)$，求 $\mathbb{E}[X\mid X+Y=z]$ 和 $\text{Var}[X\mid X+Y=z]$

Q5-2 已知 $X,Y$ 独立且服从标准正态分布，设 $Z=\mathbb{E}[X\mid (3X-Y+2)]$，求 $\mathbb{E}[Z], \text{Var}[Z], \mathbb{E}[YZ]$。

A5-2 (解一) 我们不用什么结论，直接用正交变换来做这一题。令 $U=(3X-Y)/\sqrt{10}, V=(X+3Y)/\sqrt{10}$ 则 $U,V$ 也独立且服从标准正态分布，且

$Z=\mathbb{E}[(3U+V)/\sqrt{10}\mid \sqrt{10}U+2]=3U/\sqrt{10}$。因此 $\mathbb{E}[Z]=0$, $\text{Var}(Z)=9\text{Var}(U)/10=9/10$，$\mathbb{E}[YZ]=\mathbb{E}[Y\cdot (9X-3Y)/10]=-3/10$

（解二）令 $A=3X-Y+2$，则$\mathbb{E}[A]=2$，$\text{Var}[A]=10$ $\text{Cov}[AX]=\mathbb{E}[AX]=3$

即 $\begin{pmatrix}X\\A\end{pmatrix}\sim\mathcal{N}\left(\begin{pmatrix}0\\2\end{pmatrix},\begin{pmatrix}1&3\\3&10\end{pmatrix}\right)$ 则有条件期望

\[X\mid_{A=a}\sim\mathcal{N}\left(0+\dfrac{3}{10}(a-2), 1-3\cdot\dfrac{1}{10}\cdot 3\right)=\mathcal{N}\left(\dfrac{3(a-2)}{10},\dfrac{1}{10}\right)\] 故 $Z=\dfrac{3}{10}(A-2)$ 进而得 $\mathbb{E}[Z]=0,\text{Var}[Z]=9\text{Var}[A]/100=9/10$

$\mathbb{E}[YZ]=\mathbb{E}[Y\cdot\frac{3}{10}(3X-Y)]=-3/10$

排列组合相关

Q6-1 放球问题（详细答案见文末）

$n$ 个球有区别，$m$ 个盒子有区别，允许有空盒（简单的排列组合）
$n$ 个球有区别，$m$ 个盒子有区别，不允许有空盒（先考虑第四问）
$n$ 个球有区别，$m$ 个盒子无区别，允许有空盒（没有太好的形式）
$n$ 个球有区别，$m$ 个盒子无区别，不允许有空盒（没有太好的形式）
$n$ 个球无区别，$m$ 个盒子有区别，允许有空盒（隔板法）
$n$ 个球无区别，$m$ 个盒子有区别，不允许有空盒（隔板法）
$n$ 个球无区别，$m$ 个盒子无区别，允许有空盒（母函数法）
$n$ 个球无区别，$m$ 个盒子无区别，不允许有空盒（母函数法）

采样相关

Q7-1 存在一样本大小为 $N$ 的样本，记为 $a_1,a_2,\ldots,a_N$. 样本均值为 $\mu=\sum_i a_i / N$，样本方差为 $\sigma^2=\sum_i (a_i-\mu)^2 / N$。现从中(无放回地)采样出 $n$ 个样本 ($n\le N$)，问采样结果的均值和方差是多少。

杂题

Q8-1 记$(N)_k=N(N-1)\cdots(N-k+1)=N!/(N-k)!$ 证明 $\sum_{k=1}^{N}\dfrac{k (N)_k}{N^{k+1}}=1$ ## 答案

A1-2: 记 $X_i$ 是第 $i$ 个配对的性别是否不同，则总个数 $Y=\sum_{i=1}^{n+m-1}X_i$。注意到 $X_i$ 同分布（但不独立），故 $\mathbb{E}[Y] = (n+m-1)\mathbb{E}[X_1]$。不难证明每个配对都是从 $(n+m)(n+m-1)$ 种配对中等概率的选一种，其中性别不同的有 $2nm$ 种，故 $\mathbb{E}[X_1]=\mathbb{P}(X_1=1)=\dfrac{2nm}{(n+m)(n+m-1)}$，进而 $\mathbb{E}[Y]=\frac{2nm}{(n+m)}$。为求方差，需求 $\mathbb{E}[Y^2]=\mathbb{E}[(\sum_{i=1}^{n+m-1}X_i)(\sum_{i=1}^{n+m-1}X_i)]$，故需要考虑 $\mathbb{E}[X_iX_j]$。根据此题背景，需要考虑三个情况

$i=j$，此时 $\mathbb{E}[X_iX_j]=\dfrac{2nm}{(n+m)(n+m-1)}$，共有 $n+m-1$ 对。
$\lvert i-j\rvert > 1$，此时两组配对无交集，是从 $(n+m)(n+m-1)(n+m-2)(n+m-3)$ 中均匀抽出，其中两组性别不同的有 $4nm(n-1)(m-1)$ 种，故 $\mathbb{E}[X_iX_j]=\dfrac{4nm(n-1)(m-1)}{(n+m)(n+m-1)(n+m-2)(n+m-3)}$，共有 $(n+m-2)(n+m-3)$ 对。
$\lvert i-j\rvert = 1$，此时两组配对邻接，是从 $(n+m)(n+m-1)(n+m-2)$ 中均匀抽出，其中两组性别不同的有 $nm(n-1)+mn(m-1)$ 种，故 $\mathbb{E}[X_iX_j]=\dfrac{mn(m+n-2)}{(n+m)(n+m-1)(n+m-2)}$，共有 $2(n+m-2)$ 对。

此时 $\mathbb{E}[Y^2] = \dfrac{2nm(2nm-1)}{(n+m)(n+m-1)}$, $\text{Var}[Y] = \dfrac{2nm(2nm-m-n)}{(n+m)^2(n+m-1)}$

def simulate(n, m, k=10000):
    def _simulate(n, m):
        a = ['0'] * n + ['1'] * m
        import random
        random.shuffle(a)
        return sum(a[i-1] != a[i] for i in range(1, n+m))
    tmp = [_simulate(n,m) for _ in range(k)]
    from statistics import mean, variance
    return mean(tmp), variance(tmp) 

def calculate(n, m):
    return 2*n*m / (n + m), 2*n*m * (2*n*m - m - n) / ((n + m)**2 * (n + m - 1))
    
n, m = 12, 8
print(simulate(n, m), calculate(n, m))

A1-3: 记 $X_i$ 是第 $i$ 站是否停靠，而 $P(X_i=0)=(\frac{m-1}{m})^n$，故 $\mathbb{E}[X_i]=P(X_i=1)=1-(\frac{m-1}{m})^n$，进而 $\mathbb{E}[\sum_{i=1}^{m}X_i]=m(1-(\frac{m-1}{m})^n)$。下考察 $\mathbb{E}[X_iX_j]$，一共有 $m^2$ 对，其中

$i=j$，此时$\mathbb{E}[X_iX_j]=\mathbb{E}[X_i]=(1-(\frac{m-1}{m})^n)$，共有 $m$ 对。
$i\neq j$，此时$\mathbb{E}[X_iX_j]=1-2*(\frac{m-1}{m})^n+(\frac{m-2}{m})^n$，共有 $m(m-1)$ 对。

此时 $\mathbb{E}[Y^2] = m(1-(\frac{m-1}{m})^n)+m(m-1)(1-2*(\frac{m-1}{m})^n+(\frac{m-2}{m})^n)$, $\text{Var}[Y] = m(\frac{m-1}{m})^n-m^2(\frac{m-1}{m})^{2n}-m\frac{m-2}{m})^n+m^2\frac{m-2}{m})^n$

def simulate(n, m, k=10000):
    def _simulate(n, m):
        import random
        a = [random.randint(1, m) for _ in range(n)]
        return len(set(a))
    tmp = [_simulate(n,m) for _ in range(k)]
    from statistics import mean, variance
    return mean(tmp), variance(tmp) 

def calculate(n, m):
    t1 = (\frac{m-1}{m})**n
    t2 = (\frac{m-2}{m})**n
    return m * (1 - t1), m*t1 - m*m*t1*t1 - m*t2 + m*m*t2
    
n, m = 12, 8
print(simulate(n, m), calculate(n, m))

A1-4: 记 $X_{ijk}$ 是顶点 $i,j,k$ 是否构成三角形，$P(X_{ijk}=1)=p^3$，故所求期望为 $\binom{n}{3}p^3$。下考察 $\mathbb{E}[X_{ijk}X_{i'j'k'}]$，一共有 $\binom{n}{3}*\binom{n}{3}$ 对，其中

$\{i,j,k,i',j',k'\} 内有三个元素$，此时共有三条边，$\mathbb{E}[X_iX_j]=p^3$，共有 $\binom{n}{3}$ 对。
$\{i,j,k,i',j',k'\} 内有四个元素$，此时共有五条边，$\mathbb{E}[X_iX_j]=p^5$，共有 $\binom{n}{2}\binom{n-2}{1}\binom{n-3}{1}=12\binom{n}{4}$ 对。
$\{i,j,k,i',j',k'\} 内有五个元素$，此时共有六条边，$\mathbb{E}[X_iX_j]=p^6$，共有 $\binom{n}{1}\binom{n-1}{2}\binom{n-3}{2}=30\binom{n}{5}$ 对。
$\{i,j,k,i',j',k'\} 内有六个元素$，此时共有六条边，$\mathbb{E}[X_iX_j]=p^6$，共有 $\binom{n}{3}\binom{n-3}{3}=20\binom{n}{6}$ 对。

此时 $\text{Var}[Y] = \binom{n}{3} p^3+12\binom{n}{4}p^5+(30\binom{n}{5}+20\binom{n}{6}-\binom{n}{3}\binom{n}{3})p^6$

def simulate(n, p, k=10000):
    def _simulate(n, p):
        import random
        a=[[0]*n for j in range(n)]
        for i in range(n):
            for j in range(i+1, n):
                a[i][j] = a[j][i] = random.random() < p
        return sum(a[i][j]+a[j][k]+a[k][i] == 3 for i in range(n) for j in range(i+1,n) for k in range(j+1, n))
    tmp = [_simulate(n, p) for _ in range(k)]
    from statistics import mean, variance
    return mean(tmp), variance(tmp) 

def calculate(n, p):
    import math
    def nCr(n,r):
        if n < r:
            return 0
        f = math.factorial
        return f(n) // f(r) // f(n-r)
    return nCr(n, 3) * p**3, nCr(n, 3) * p**3 + 12 * nCr(n, 4) * p**5 + (30*nCr(n,5)+20*nCr(n,6)-nCr(n,3)*nCr(n,3)) * p**6
    
n, p = 8, 0.7
print(simulate(n, p), calculate(n, p))

A3-2: 设从空、正出发的期望次数分别是 $X$ 和 $Y$，则有关系 $X=1+pY+(1-p)X$，$Y=1+(1-p)X$ 得 $X=(1+p)/p^2$

def simulate(p, k=10000):
    def _simulate(p):
        import random
        result = [random.random() < p]
        while True:
            result.append(random.random() < p)
            if result[-1] and result[-2]:
                break
        return len(result)
    tmp = [_simulate(p) for _ in range(k)]
    from statistics import mean
    return mean(tmp)

def calculate(p):
    return (1+p)/p/p
    
p = 0.7
print(simulate(p), calculate(p))

A3-3: 设从空、正、反出发的期望次数分别是 $Z,X,Y$，则有关系 $Z=1+pX+(1-p)Y$，$X=1+(1-p)Y$，$Y=1+pY$。解得 $X=\dfrac{2-p}{1-p+p^2}$，$Y=\dfrac{1+p}{1-p+p^2}$，$Z=\dfrac{2+p-p^2}{1-p+p^2}$

def simulate(p, k=10000):
    def _simulate(p):
        import random
        result = [random.random() < p]
        while True:
            result.append(random.random() < p)
            if result[-1] == result[-2]:
                break
        return len(result)
    tmp = [_simulate(p) for _ in range(k)]
    from statistics import mean
    return mean(tmp)

def calculate(p):
    return (2+p-p*p)/(1-p+p*p)
    
p = 0.7
print(simulate(p), calculate(p))

A6-1

$n$ 个球有区别，$m$ 个盒子有区别，允许有空盒（$m^n$）
$n$ 个球有区别，$m$ 个盒子有区别，不允许有空盒（$m!S(n,m)$）
$n$ 个球有区别，$m$ 个盒子无区别，允许有空盒（$\sum_{i=1}{\min\{n,m\}}S(n,m)$）
$n$ 个球有区别，$m$ 个盒子无区别，不允许有空盒（$S(n,m)$）
$n$ 个球无区别，$m$ 个盒子有区别，允许有空盒（$\binom{n+m-1}{m-1}$）
$n$ 个球无区别，$m$ 个盒子有区别，不允许有空盒（$\binom{n-1}{m-1}$）
$n$ 个球无区别，$m$ 个盒子无区别，允许有空盒（$\dfrac{1}{(1-x)(1-x^2)\cdots(1-x)^m}$展开后 $x^n$系数）
$n$ 个球无区别，$m$ 个盒子无区别，不允许有空盒（$\dfrac{x^m}{(1-x)(1-x^2)\cdots(1-x)^m}$展开后 $x^n$系数）

A7-1

视角一：将选出的样本记为 $X_1,\ldots,X_n$ 视为随机变量，则有 $X_i$ 不独立但同分布：$P(X_i=a_1)=P(X_i=a_2)=\ldots=P(X_i=a_N)=1/N, \forall i$

$\mathbb{E}[X_i]=\sum_{k=1}^{N} 1/N*a_k, \mathbb{E}[X_i^2]=\sum_{k=1}^{N}1/N*a_k^2=\sum_k a_k^2/N$

$\mathbb{E}[X_iX_j]=\sum_{k\ne l} a_ka_l / N(N-1)$

而 $N\mu=\sum_{k=1}^{N} a_k,\quad N\sigma^2=\sum_{k=1}^{N}(a_k-\mu)^2=\sum_{k=1}^{N}a_k^2-N\mu^2,\quad N^2\mu^2=\sum_{k,l}a_ka_l$

故 $\mathbb{E}[X_i]=\mu,\mathbb{E}[X_i^2]=\mu^2+\sigma^2,\mathbb{E}[X_iX_j]=(N^2\mu^2-(N\mu^2+N\sigma^2))/N(N-1)=\mu^2-\sigma^2/(N-1)$

则$\mathbb{E}[Y]=\sum_{i=1}^{n}\mathbb{E}[X_i]=n\mu$

$\mathbb{E}[Y^2]=n \mathbb{E}[X_i^2]+n(n-1)\mathbb{E}[X_iX_j]=n(\mu^2+\sigma^2)+n(n-1)(\mu^2-\sigma^2/(N-1))=n^2\mu^2+n(1-\frac{n-1}{N-1})\sigma^2$

$\text{Var}(Y)=\mathbb{E}[Y^2]-\mathbb{E}[Y]^2=\frac{N-n}{N-1}n\sigma^2$

视角二：使用指示变量表示选出的结果。记 $I_k\in \{0,1\}$ 表示 $a_k$ 是否被选，则 $I_k$ 同分布 ($P(I_k=1)=n/N$) 。所求为 $Y=\sum_{k=1}^N a_kI_k$

$\mathbb{E}[Y] = \sum_{k=1}^{N}\mathbb{E}[a_kI_k]=\sum_{k=1}^{N}a_k\mathbb{E}[I_k]=\sum_{k=1}^{N}\frac{n}{N}a_k=\frac{n}{N}*N\mu=n\mu$

为考察方差，注意到 $\mathbb{E}[I_k^2]=n/N$, $\mathbb{E}[I_kI_l]=\frac{n(n-1)}{N(N-1)}, (k\neq l)$

且$N^2\mu^2=(\sum_{k=1}^{N}a_k)^2=\sum_{i=1}^{N}\sum_{j=1}^{N}a_ia_j$, $N\sigma^2=\sum_{k=1}^{N}(a_k-\mu)^2=\sum_{k=1}^{N} a_k^2-N\mu^2$ \[\mathbb{E}[Y^2]=\sum_{k=1}^{N}a_k^2\mathbb{E}[I_k^2]+\sum_{k\neq l} a_ka_l\mathbb{E}[I_kI_l]=\frac{n}{N}\sum_k a_k^2+\frac{n(n-1)}{N(N-1)}\sum_{k\ne l} a_ka_l\\=\frac{n}{N}(N\mu^2+N\sigma^2)+\frac{n(n-1)}{N(N-1)}(N^2\mu^2-N\sigma^2-N\mu^2)\\=n^2\mu^2+\frac{n(N-n)}{N-1}\sigma^2\] $\text{Var}[Y]=\mathbb{E}[Y^2]-\mathbb{E}[Y]^2=\frac{N-n}{N-1}n\sigma^2$

A8-1

解法一：考虑从编号1-N的球进行有放回抽样，直至抽到之前抽过的球停止。不难知最少抽两次即停止（第二次和第一次抽到一样的球），最多抽 $N+1$ 次停止（前 $N$ 次抽到 $N$ 个不同的球，最后一次一定会抽到之前抽过的球。记 $p_k$ 为停止时，之前抽的球的数量，则 $\sum_{k=1}^{N}p_k=1$. 而 $p_k$ 表示前 $k$ 次都未重复，第 $k+1$ 次重复，其概率不难计算为 $p_k=\frac{N}{N}\cdot\frac{N-1}{N}\cdots\frac{N-k+1}{N}\cdot {k}{N}=\frac{k\cdot (N)_k}{N^{k+1}}$. 得证

解法二：注意到 $\frac{k(N)_k}{N^{k+1}}=\frac{(N)_k}{N^k}-\frac{(N)_{k+1}}{N^{k+1}}$, 得$\sum_{k=1}^{N}\frac{k(N)_k}{N^{k+1}}=\frac{(N)_1}{N^1}-\frac{(N)_{N+1}}{N^{N+1}}=1$

重装vps的一些记录

2021-04-16T16:00:00.000Z

为什么要重装

首先，如果你只是在同一家vps厂商下换个ip的话，理论上只需要做一个snapshot然后重新建一个服务器就好，这样做几乎没有任何需要重新配的东西（除了ip）

当上述操作无法进行的时候，包括但不限于 - 换vps厂商 - 换vps账号 - 换vps的地区 - 降级vps配置

你就需要走上漫漫的重装之路了。当然，如果你是第一次装也可以参考下面的步骤。但因为我不是从零配起，而且有一些先验的知识，我不会事无巨细地讲解（如果你不熟悉linux此时建议找个朋友指导或者email我，我再给出并顺便整理更详细的说明）。

需要做什么

我的服务器上没有跑什么东西，只是部署了几个hexo的网站和v2ray的代理，因此权衡了一下，与其手动迁移大量配置不如重零开始重装来的省事。

创建/购买服务器和域名

我是在Digital Ocean上购买的，每月5刀，没有流量限制（不过挂pt啥的估计也是有限制的），速度的话选加州大约200ms左右，速度可以看油管1080p。有人写了个测速的网页可以参考：测速网址，照它写的先添加书签然后去DO测速网页点击书签就行了。

DO的话还有一个好处就是Github教育优惠给50刀（相当于10个月），然后如果通过推广链接的话进的话还可以获得100刀（不过两个月到期，其实相当于2个月）。我的推广链接是推广链接，如果打算也用DO的话可以点一下。支付方式的话paypal绑国内借记卡就可以了，有信用卡自然更好。

域名的话到处都可以买，我个人觉得cc的后缀比较好玩所以用这个，大概一年30左右，不介意的话也有很多其他更便宜的域名。Github教育也有一些域名的优惠可以薅。域名到手后建议去扔去 Cloudflare 管理，纯免费，而且里面有很多实用的功能比如https、修改DNS、保护ip、加速和缓存、主机挂了后托管静态页面等服务。

v2ray的搭建

服务器到手后建议先搭v2ray然后测一下google和google scholar能不能上，有些ip段可能被google封了，这样的话反手把服务器干掉然后重新建一个就能换一个ip了。

这里我是用的一键安装脚本脚本链接。我选择了Nginx+ws+tls的配置，基本上是傻瓜式的了，一路跟着指示走就好。有一步是需要填写伪装的域名，这里你先在Cloudflare那边配好（比如你的域名是yyy.com，在Cloudflare那边的DNS添加一个Type为A的记录，名字可以为xxx，ip为你的ip。然后安装过程中填写xxx.yyy.com就行，他会自动检查你配置的是否正确，然后一路傻瓜进行下去就行，中间有一个编译安装 nginx 的过程需要一些时间（几分钟左右）。安装完后显示了配置的二维码，扫完后客户端就能用了。可以试试访问xxx.yyy.com看是否出现了元素周期表，然后看看代理是否正常工作。脚本链接还提供了一些bbr加速的服务，顺手装了就ok反正没损失。

hexo的搭建

hexo的内容我是在本机写的然后在服务器部署，因此只是需要一个部署的方式。我的部署流是

首先修改本机ssh/config，配置别名和密钥登陆。我之前配过所以只是需要换ip
设置hexo的部署。这里其实之前设好的话不用修改，这里只是列一下配置
设置静态页面存放的路径。一般会创建在/var/www之类的地方，记得让nginx的用户需要有权限访问这个目录。然后新增nginx的配置（一般放在/etc/nginx/conf/conf.d/*.conf下），使得访问对应域名的时候，nginx能正确的处理并找到正确的文件夹。记得测试并重启nginx。
设置git和hook。选定并存放的路径后，在文件夹里面git init --bare，会出现hooks文件夹，进入后创建 post-receive，写入内容。这样每次你hexo deploy后，会触发这里面的操作，清空里的东西并用新的替换。

由于这里配置比较多，列一下我的参考配置

# ssh/config
Host DO
HostName 
User root
IdentityFile ~/.ssh/id_rsa

# hexo/_config.yml
deploy:
  type: git
  repo: root@DO:
  branch: master

# /etc/nginx/conf/conf.d/*.conf
server {
    listen 80;
    listen [::]:80;
    server_name ;
    index index.html index.htm;
    root  ;

    location ~ .*.(htm|html|gif|jpg|jpeg|png|bmp|swf|ioc|rar|zip|txt|flv|mid|doc|ppt|pdf|xls|mp3|wma)$
    {
        expires 15d;
    }
}

# /hooks/post-receive
rm -rf 
git clone

然后试着在本地 hexo g; hexo d; 看看是否成功部署在服务器上。

【d3】一些小控件

2021-04-12T16:00:00.000Z

一些自娱自乐的d3小控件，代码和demo都托管在 Observable

d3-coordinated-highlight: 散点图的一些常见的交互
slider-with-thumbnail: 一个简单的带缩略图的滑动条
linechart-with-hover: 一个带简单hover事件的折线图
zoom-pan-with-thumbnail(doing): 为支持缩放拖拽的画布添加缩略图
matrix-with-icicle-plot(doing): 一个武装了icicle-plot的可交互矩阵
tree-with-tree-cut(doing): 可拖拽编辑、自动展开收缩的树布局

【Series】可视化——论文阅读

2020-03-27T16:00:00.000Z

由于研究生生涯开始搞可视化与可视分析（偏VAST(Visual Analytics Science and Technology)吧，但我其实觉得InfoVis也很好玩；SciVis也很有用，但是搞不动），组里每年也都会组织 paper reading 把 VIS 和 TVCG 的文章扫一遍。因此不妨用这个博客记录一些精读的以及感兴趣的文章。类似于邻邦的 PKUVIS，不过肯定没有那么肝。

【Note】非参数估计(九)——多点测试

2019-04-30T03:50:00.000Z

多点测试的框架

类似的，我们首先取合适的 $\theta_0,\ldots,\theta_M$，然后依次检验

$\theta_i\in\Theta$
$d(\theta_i,\theta_j)\ge 2s,(i\neq j)$
$\dfrac{1}{M}\sum_{i=1}^{M}KL(\mathbb{P}_i,\mathbb{P}_0)\leq \alpha\log M，\alpha<1/8$ 或 $\dfrac{1}{M}\sum_{i=1}^{M}\chi^2(\mathbb{P}_i,\mathbb{P}_0)\leq\alpha M,0<\alpha<1/2$

并定义 $\psi^\ast=\arg\limits_{i}\min d(\widehat{\theta_n},\theta_i)$

其推导过程和之前介绍的完全一致

\[\begin{align}\inf\limits_{\widehat{\theta}_n}\sup\limits_{\theta\in\Theta}\mathbb{E}_\theta[d(\widehat{\theta}_n,\theta)]&\ge\inf\limits_{\widehat{\theta}_n}\sup\limits_{\theta\in\Theta}s\cdot\mathbb{P}_\theta[d(\widehat{\theta}_n,\theta)\ge s]\\&\ge \inf\limits_{\widehat{\theta}_n}\max\limits_{\theta\in\{\theta_0,\ldots,\theta_M\}}s\cdot P_\theta[d(\widehat{\theta}_n,\theta)\ge s]\\&=\inf\limits_{\widehat{\theta}_n}\max\limits_{j\in\{0,\ldots,M\}}s\cdot \mathbb{P}_{j}[d(\widehat{\theta}_n,\theta_j)\ge s]\\&\ge \inf\limits_{\widehat{\theta}_n}\max\limits_{\theta\in\{\theta_0,\ldots,\theta_M\}}s\cdot\mathbb{P}_{j}(\psi^\ast\neq j)\\&\ge s\cdot p_{err,M}\end{align}\]

随后自然就是控制 $p_{err,M}$ 的一个下界。下面的证明自然是给出第三条关于 $KL$ 或者 $\chi^2$ 的约束后，其下界大于 0。

$p_{err,M}$ 的下界

完全仿照两点测试中的做法，我们很自然地将其推广到 $M>1$ 的形式，为

\[p_{err,M}\ge\sup\limits_{\tau>0}\frac{\tau M}{1+\tau M}\left[\frac{1}{M}\sum_{j=1}^{M}\mathbb{P}_j[\frac{P_0}{P_j}\ge\tau]\right]\]

其证明思路类似，证明思路类似，记 $A_j=\left\{\frac{P_0}{P_j}\ge\tau\right\}$，则有

\[\begin{align} \mathbb{P} _ { 0 } [\psi \neq 0 ] & = \sum _ { j = 1 } ^ { M } \mathbb{P} _ { 0 } [\psi = j ]\\ & \geq \sum _ { j = 1 } ^ { M } \tau \mathbb{P} _ { j } \left[\{ \psi = j \} \cap A _ { j } \right] \\ & \geq \tau M \left( \frac { 1 } { M } \sum _ { j = 1 } ^ { M } \mathbb{P} _ { j } [ \psi = j ]\right) - \tau \sum _ { j = 1 } ^ { M } \mathbb{P} _ { j } [ A _ { j } ^ { c } ] \\ & \overset{\Delta}{=} \tau M \left( p' - \alpha \right) \end{align}\]

其中 $p'= \frac { 1 } { M } \sum _ { j = 1 } ^ { M } \mathbb{P} _ { j } [\psi = j ] , \quad \alpha = \frac { 1 } { M } \sum _ { j = 1 } ^ { M } \mathbb{P} _ { j } \left[\frac { p_0(x) } { p_j(x) } < \tau \right]$

于是

\[\begin{align} \max _ { 0 \leq j \leq M } \mathbb{P} _ { j } [ \psi \neq j ] & = \max \left\{ \mathbb{P} _ { 0 } [ \psi \neq 0 ] , \max _ { 1 \leq j \leq M } \mathbb{P} _ { j } [ \psi \neq j ] \right\} \\ & \geq \max \left\{ \tau M \left( p'- \alpha \right) , \frac { 1 } { M } \sum _ { j = 1 } ^ { M } \mathbb{P} _ { j } [ \psi \neq j ]\right\} \\ & \geq \max \left\{ \tau M \left( p' - \alpha \right) , 1 - p' \right\} \\ & \geq \min _ { 0 \leq p \leq 1 } \max \{ \tau M ( p - \alpha ) , 1 - p \} \\ & = \frac { \tau M ( 1 - \alpha ) } { 1 + \tau M } \end{align}\]

至此都是 $M=1$ 平凡的推广，现在我们利用散度来得到更精细的刻画

$KL$ 散度

如果我们有 $\dfrac{1}{M}\sum_{j=1}^{M}KL(\mathbb{P}_j,\mathbb{P}_0)\leq\alpha_\ast<\infty$，那么

\[\begin{align}p_{err,M}\ge\sup_{0<\tau<1}\left[\frac{\tau M}{1+\tau M}\left(1+\frac{\alpha_\ast + \sqrt{\alpha_\ast/2}}{\log\tau}\right)\right]\end{align}\]

要证明这个，等价于证明

\[\begin{align}\frac { 1 } { M } \sum _ { j = 1 } ^ { M } \mathbb{P} _ { j } \left[ \frac { p_0(x) } { p_j(x) } \geq \tau \right]\ge 1-\alpha',\quad\alpha'\overset{\Delta}{=}-\frac{\alpha_\ast+\sqrt{\alpha_\ast/2}}{\log \tau}\end{align}\]

而这是因为

\[\begin{align}\mathbb{P}_j\left[\frac{p_0(x)}{p_j(x)}\ge \tau\right]&=\mathbb{P}_j\left[\frac{p_j(x)}{p_0(x)}\leq \frac{1}{\tau}\right]\\&=1-\mathbb{P}_j\left[\frac{p_j(x)}{p_0(x)}> \frac{1}{\tau}\right]\\&=1-\mathbb{P}_j\left[\log\frac{p_j(x)}{p_0(x)}>\log \frac{1}{\tau}\right]\\&\ge1-\frac{1}{\log (1/\tau)}\mathbb{E}_{p_j}\left(\log\frac{p_j(x)}{p_0(x)}\right)_+\\&\ge1-\frac{1}{\log(1/\tau)}[KL(\mathbb{P}_0,\mathbb{P}_j)+\sqrt{KL(\mathbb{P}_0,\mathbb{P}_j)/2}]\end{align}\]

其中第四行的不等号使用了 Markov 不等式，第五行的不等式是因为

\[KL(\mathbb{P}_j,\mathbb{P}_0)=\mathbb{E}_{p_j}\log\frac{p_j(x)}{p_0(x)}=\mathbb{E}_{p_j}\left(\log\frac{p_j}{p_0}\right)_+-\mathbb{E}_{p_j}\left(\log\frac{p_j}{p_0}\right)_-\]

而 $log x\leq x-1$ 所以有

\[\begin{align}\mathbb{E}_{p_j}\left(\log\frac{p_j}{p_0}\right)_-&=\int_{p_j(x)

同时 Jensen 不等式指出

\[\frac{1}{M}\sum_{j=1}^{M}\sqrt{KL(\mathbb{P}_0,\mathbb{P}_j)}\leq\sqrt{\frac{1}{M}\sum_{j=1}^{M}KL(\mathbb{P}_0,\mathbb{P}_j)}\leq\sqrt{\alpha_\ast}\]

所以我们有

\[\begin{align}\frac{1}{M}\sum_{j=1}^{M}\mathbb{P}_j\left[\frac{p_0}{p_j}\ge\tau\right]\ge1-\frac{\alpha_\ast+\sqrt{\alpha_\ast/2}}{\log(1/\tau)}\end{align}\]

因此，取 $\tau=M^{-1/2}$，只要有 $\dfrac{1}{M}\sum_{i=1}^{M}KL(\mathbb{P}_i,\mathbb{P}_0)\leq \alpha\log M，\alpha<1/8$ 就有

\[p_{err,M}\ge\dfrac{\sqrt{M}}{1+\sqrt{M}}(1-2\alpha-\sqrt{\dfrac{2\alpha}{\log M}})\ge\dfrac{\sqrt{M}}{1+\sqrt{M}}(1-\dfrac{1}{4}-\dfrac{1}{2}\sqrt{\dfrac{1}{\log 2}})>0\]

$\chi^2$

如果我们有 $\dfrac{1}{M}\sum_{j=1}^{M}\chi^2(\mathbb{P}_j,\mathbb{P}_0)\leq\alpha_\ast<\infty$，那么

\[p_{err,M}\ge\sup\limits_{0<\tau<1}\left[\dfrac{\tau M}{1+\tau M}\big(1-\tau(\alpha_\ast+1)\big)\right]\]

这个证明就相对直接许多了，只需注意到

\[\begin{align}\mathbb{P}_j\left[\dfrac{p_0(x)}{p_j(x)}\ge\tau\right]&=1-\mathbb{P}_j\left[\dfrac{p_j(x)}{p_0(x)}>\dfrac{1}{\tau}\right]\\&=1-\int \dfrac{p_j(x)}{p_0(x)}\cdot I\left[\dfrac{p_j(x)}{p_0(x)}>\dfrac{1}{\tau}\right]\cdot p_0(x)\,\mathrm{d}x\\&\ge1-\tau\int\left(\dfrac{p_j(x)}{p_0(x)}\right)^2p_0(x)\,\mathrm{d}x=1-\tau\big(\chi^2(\mathbb{P}_j,\mathbb{P}_0)+1\big)\end{align}\]

于是 $\dfrac{1}{M}\sum_{j=1}^{M}\mathbb{P}_j\left[\dfrac{p_0(x)}{p_j(x)}\ge\tau\right]\ge1-\tau(\alpha_\ast+1)$, 即得到 $p_{err,M}$ 的下界

因此，取 $\tau=M^{-1}$，只要 $\dfrac{1}{M}\sum_{i=1}^{M}\chi^2(\mathbb{P}_i,\mathbb{P}_0)\leq\alpha M,0<\alpha<1/2$，就有

\[p_{err,M}\ge\dfrac{1}{2}(1-\alpha-M^{-1})>0\]

至此，我们给出了多点测试的框架。下面以两个例子作为结束

一个成功的例子 $L_{\infty}$ risk

我们考察非参数回归模型，使用 $L_{\infty}$ risk, 即 $d(f,g)=\sup\limits_{x\in[0,1]}\lvert f(x)-g(x)\rvert$ ，我们要证明当函数空间为 $\Sigma(\beta,L)$ 时，收敛速度下界为 $(\log n/n)^{\beta/(2\beta+1)}$

构造多点测试

取$M=h^{-1},x_j=\frac{j-0.5}{M}$，即将 $[0,1]$ 划分为 $M$ 段。(读者可能注意到这样取是有问题的——至少也应该加个上取整吧？这里我们为方便先进行推导，后面再严格地限定 $h$ 好补上这一瑕疵)

取 $\theta_0(x)\equiv 0, \theta_j(x)=Lh^\beta K\left(\frac{x-x_j}{h}\right),(1\leq j\leq M)$，不难发现 $\theta_j(1\le j\le M)$ 彼此支撑集不相交，且 $d(\theta_i,\theta_j)=\lVert \theta_i-\theta_j\rVert_\infty=Lh^\beta K_\max$

选择合适的 $h$

根据我们的目标，我们需要 $h\sim(\log n/n)^{1/2\beta+1}$，故 $h,M$ 的选取为 \[M=\left\lceil c_0\left(\dfrac{n}{\log n}\right)^{ \frac{1}{2\beta+1}}\right\rceil, h=M^{-1}\] 这里就使得 $M$ 为整数了。$c_0$可以任意选取，但在后面我们会对其加以限制来达到证明的目的。

寻找 $p_{err,M}$ 的下界

而 $KL(\mathbb{P}_{\theta_j}, \mathbb{P}_{\theta_0})=\frac{1}{2}\sum_{k=1}^{n}\theta_j(x_k)^2$，则

\[\begin{align}\frac{1}{M}\sum_{j=1}^{M} KL(P_{\theta_j},P_{\theta_0})&=\frac{1}{2M}L^2h^{2\beta}\sum_{j=1}^{M}\sum_{k=1}^{n}K^2\left(\frac{x_k-x_j}{h}\right)\\&\leq\frac{1}{2M}L^2h^{2\beta}K_\max^2\sum_{j=1}^{M}\sum_{k=1}^{n}\boldsymbol{1}[\lvert x_k-x_j\rvert\leq h/2]\end{align}\]

虽然看似是一个二重的求和，但由于每个样本 $x_k$ 至多落入一个 $[x_j-h/2,x_j+h/2)$ 中，故后面的求和至多仍为 $n$，所以

\[\frac{1}{M}\sum_{j=1}^{M} KL(P_{\theta_j},P_{\theta_0})\leq\frac{1}{2}L^2h^{2\beta+1}K_\max^2 n\leq c\cdot c_0^{-(2\beta+1)}\cdot\log n \]

而 $\log M\ge\log(c_0)+\frac{1}{2\beta+1}\log\frac{n}{\log n}\ge\frac{\log n}{2\beta+2}$, 因为我们可以将 $c_0$ 取充分大，而$-\log\log n$ 相比 $\log n$ 当 $n$ 充分大时总能被忽略，故该放缩成立。

所以总能做到 \[\frac{1}{M}\sum_{j=1}^{M} KL(P_{\theta_j},P_{\theta_0})\leq\alpha\log M<1/8\log M\]

另一个成功的例子—— $L_2$ risk

我们依然考察非参数回归模型，但使用 $L_2$ risk，即 $d(f,g)=\lVert f-g\rVert_2=\sqrt{\int_0^1(f(x)-g(x))^2\,\mathrm{d}x}$ 。我们要证明当函数空间为 $\Theta=\Sigma(\beta,L)$ 时，我们的收敛速度下界为 $n^{-\beta/(2\beta+1)}$

构造多点测试

首先类似地取 $m=\lceil c_0n^{-\frac{1}{2\beta+1}}\rceil, h=m^{-1},x_k=\frac{k-1/2}{m},\varphi_k(x)=Lh^\beta K\left(\frac{x-x_k}{m}\right)$

而 $\varphi_k\in\Sigma(\beta,L/2)$，是我们将会使用的一组基。

考虑二元向量的集合 $\Omega=\{\omega=(\omega_1,\ldots,\omega_m),\omega_i\in\{0,1\}\}=\{0,1\}^m$

而我们的测试 $f$ 将会从 $\mathcal{E}=\{f_\omega(x)=\sum_{k=1}^{m}w_k\varphi_k(x),\omega\in\Omega\}$ 选出。

首先可以得到

\[\begin{aligned} d \left( f _ { \omega } , f _ { \omega ^ { \prime } } \right) & = \left[ \int _ { 0 } ^ { 1 } \left( f _ { \omega } ( x ) - f _ { \omega ^ { \prime } } ( x ) \right) ^ { 2 } d x \right] ^ { 1 / 2 } \\ & = \left[ \sum _ { k = 1 } ^ { m } \left( \omega _ { k } - \omega _ { k } ^ { \prime } \right) ^ { 2 } \int _ {(k-1)/m }^{k/m} \varphi _ { k } ^ { 2 } ( x ) d x \right] ^ { 1 / 2 } \\ & = L h ^ { \beta + \frac { 1 } { 2 } } \| K \| _ { 2 } \left[ \sum _ { k = 1 } ^ { m } \left( \omega _ { k } - \omega _ { k } ^ { \prime } \right) ^ { 2 } \right] ^ { 1 / 2 } \\ & = L h ^ { \beta + \frac { 1 } { 2 } } \| K \| _ { 2 } \sqrt { \rho \left( \omega , \omega ^ { \prime } \right) } \end{aligned}\]

其中 $\rho(\omega,\omega')$ 称为汉明距离，也就是两个二元向量中不相等的元素的个数。

我们首先证明，可以在 $\Omega$ 中找到不少于 $M+1=2^{m/8}+1$ 个点，彼此的汉明距离大于 $m/8$。首先我们先找一个最少的点的集合 $\omega_0,\ldots,\omega_M$，他们的 $m/8$ 邻域可以覆盖 $\Omega$（可以考虑每次随机一个点，然后将其邻域内的点全部删除，直至不能找到更多的元素，并在此中选择一个最优的，即选出点最少的方案），即

\[\{0,1\}^m\subset\bigcup_{\omega_j}\{\omega\mid d(\omega,\omega_j)\leq m/8\}\]

则 $2^m\leq (M+1)\sum_{j=0}^{\lfloor m/8\rfloor}\binom{m}{j}$

然而 $2^{-m}\sum_{j=0}^{\lfloor m/8\rfloor}\binom{m}{j}\mathbb{P}[\mathrm{Binom}(m,1/2)\leq\lfloor m/8\rfloor]\leq \exp\{-9m/32\}<2^{-m/4}$，该放缩由 Hoeffding Inequality 给出，其证明了对于独立的随机变量 $a_i\leq Z_i\leq b_i$ ，有不等关系 \[\mathbb{P}[\sum_{i=1}^{m}(Z_i-\mathbb{E}[Z_i])\ge t]\leq\exp(-2t^2/\sum_{i=1}^{m}(b_i-a_i)^2)\]

所以 $M+1\ge 2^{m/4}\ge 2^{m/8}+1,\ m\ge 8$

所以我们可以选择出 $M+1$ 个向量 $\omega_0,\ldots,\omega_M$，然后检验三个条件

$f\in\Sigma(\beta,L)$，这是因为 $\varphi_k\in\Sigma(\beta,L/2)$，彼此支撑集不交，且 $\lvert w_i\rvert\leq 1$
$d(f_i,f_j)\ge 2s$ ，这是因为当 $m\ge 8$ 时

\[\lVert f_j(x)-f_{k}(x)\rVert_2= Lh^{\beta+1/2}\lVert K\rVert_2\sqrt{\rho(\omega_j,\omega_k)}\ge Lh^{\beta+1/2}\lVert K\rVert_2\sqrt{m/16}=\frac{L}{4}\lVert K\rVert_2 m^{-\beta}\]

设 $n\ge n_\ast=(7/c_0)^{2\beta+1}$，则 $m\ge 8$ 且 $m^\beta\leq (1+1/7)^{\beta}c_0^{\beta}n^{\beta/(2\beta+1)}\leq (2c_0)^\beta n^{\beta/(2\beta+1)}$

则 $d(f_i,f_j)\ge 2s$，其中 $s=An^{-\beta/(2\beta+1)},A=\frac{L}{8}\lVert K\rVert_2(2c_0)^{-\beta}$

$\dfrac{1}{M}\sum_{i=1}^{M}KL(\mathbb{P}_i,\mathbb{P}_0)\leq \alpha\log M，\alpha<1/8$

利用两点测试的成功例子中对于 $KL$ 散度的放缩，我们有

\[\begin{align} KL\left(\mathbb{P}_{j}, \mathbb{P}_{0}\right) & \leq p_{*} \sum_{i=1}^{n} f_{j }^{2}\left(X_{i}\right) \leq p_{*} \sum_{k=1}^{m} \sum_{i : X_{i} \in \Delta_{k}} \varphi_{k}^{2}\left(X_{i}\right) \\ & \leq p_{*} L^{2} K_{\max }^{2} h_{}^{2 \beta} \sum_{k=1}^{m} \operatorname{Card}\left\{i : X_{i} \in \Delta_{k}\right\} \\ &=p_{*} L^{2} K_{\max }^{2} n h_{}^{2 \beta} \leq p_{*} L^{2} K_{\max }^{2} c_{0}^{-(2 \beta+1)} m \end{align}\]

而 $M>2^{m/8}$，即 $m<8\log M/\log 2$，于是我们可以选择 $c_0=\left(\dfrac{8p_\ast L^2K_{\max}^2}{\alpha\log 2}\right)^{1/(2\beta+1)}$ 使得 $KL(\mathbb{P_j},\mathbb{P}_0)<\alpha\log M$

【Note】非参数估计(八)——两点测试

2019-04-25T17:50:00.000Z

两点测试的框架

给定问题后，我们构造出两个函数 $\theta_0,\theta_1$，然后检验

$\theta_0,\theta_1\in\Theta$
$d(\theta_0,\theta_1)\ge 2s$
$KL(P_{\theta_0},P_{\theta_1})\leq\alpha$

这样，我们就可以根据下面的推导得到 minimax risk 的阶是与 $s$ 相同

\[\inf_{\widehat{\theta}}\sup_{\theta\in\Theta} E[d(\theta,\widehat{\theta})]\ge s\cdot p_{err,1}\]

\[p_{err,1}=\inf_\psi\max_{j=0,1} P_j(\psi\neq j)\ge\max\{\frac{1}{4}e^{-\alpha}, \frac{1-\sqrt{\alpha/2}}{2}\}\]

这里只是先将两点测试的框架拍出来——只要我们能给出 $p_{err,1}$ 的一个良好的下届，我们就能给出 minimax rate 的一个下界。而且它的阶和 $d(\theta_0,\theta_1)$ 是相同的，这也提示了我们如何选择良好的 $\theta$。

$p_{err,1}$ 的下界

下面的记号中，$p_i(x)$ 表示第 $i$ 个分布的 p.d.f.，$\mathbb{P}_i(I)=\int_I p_i(x)\,\mathrm{d}x$ 表示区间 $I$ 上（或满足某一条件）的概率值。

可以看到在这样的测试框架中 $p_{err,1}$ 的下界发挥着很重要的作用。我们先对他做一个估计。记 $\mathbb{P}_1[\psi\neq 0]=p$，则 $\mathbb{P}_1[\psi\neq 1]=1-p$。下考察 $\mathbb{P}_0[\psi\neq 0]$

\[\begin{align}\mathbb{P}_0[\psi\neq 0]&=\int \boldsymbol{1}[\psi\neq 0]p_0(x)\,\mathrm{d}x\\&=\int \boldsymbol{1}[\psi\neq 0] \frac{p_0(x)}{p_1(x)}p_1(x)\,\mathrm{d}x\\&\ge\int \tau \boldsymbol{1}[\psi\neq 0\cap \frac{p_0(x)}{p_1(x)}\ge\tau] p_1(x)\,\mathrm{d}x\\&\ge\tau\Bigg(\mathbb{P}_1[\psi\neq 0]-\mathbb{P}_1\bigg[\frac{p_0(x)}{p_1(x)}\leq\tau\bigg]\Bigg)\\&\overset{\Delta}{=}\tau(p-\alpha)\end{align}\]

\[p_{err,1}=\inf\limits_\psi\max\limits_{j=0,1}\mathbb{P}_j[\psi\neq j]\ge\min\limits_{0\le p\leq 1}\{\tau(p-\alpha), 1-p)\}=\frac{\tau(1-\alpha)}{1+\tau}\]

注意此时 $\tau$ 是任取的，故可以得到

\[p_{err,1}\ge\sup\limits_{\tau}\frac{\tau(1-\alpha)}{1+\tau}=\sup\limits_\tau\left\{\frac{\tau}{1+\tau}\cdot\mathbb{P}_1\left[\frac{p_0(x)}{p_1(x)}\ge\tau\right]\right\}\]

一个失败的例子

我们先看一个失败的例子来加深我们操作这个框架的方法。

考虑模型 $Y_i=f(i/n)+\varepsilon_i$

设 $f\in\Sigma(\beta,L),\beta=1$，我们知道\[\mathbb{E}\lVert\widehat{f}_n-f\rVert_\infty\leq C(\log n/n)^{-1/3}\]

如果我们选取 \[\theta_0=f_0(x)\equiv 0,\quad \theta_1=f_1(x)=\sin(2\pi n x)/2\pi n\]

那么 $f_0(i/n)=f_1(i/n)$，则可以导出 $p_0(x)=p_1(x)$，所以

\[p_{err,1}=\sup\limits_\tau\{\frac{\tau}{1+\tau}\cdot\boldsymbol{1}[\tau\leq 1]\}=\frac{1}{2}\]

考虑无穷范数得 \[\lVert\theta_0-\theta_1\rVert_\infty=1/(2\pi n)=2s\]

故 $s=1/(4\pi n)$，则 $\inf\limits_{\widehat{\theta}_n}\sup\limits_{\theta\in\Theta} \mathbb{E}[d(\widehat{\theta}_n,\theta)]\ge s\cdot p_{err,1}=\frac{1}{8n\pi}$

得 $\psi_n$ 和 $1/n$ 同阶，因此我们得到收敛速度的下界是 $1/n$，这远远小于我们预期的 $(\log n/n)^{1/3}$，这主要是因为我们的 $\theta_0,\theta_1$ 选得不够好。但这也是因为我们求 $p_{err,1}$ 的下届的时候过于松散，没有充分发挥出选取 $\theta_0,\theta_1$ 的威力。因此我们需要一个更精细的 $p_{err,1}$ 的下界。

更加精细的构造

参考概率测度的度量一节，我们可以得到下列更精细的构造

如果 $\mathrm{TV}({p}_1,{p}_0)\leq\alpha <1$, 则 $p_{err,1}\ge\frac{1-\alpha}{2}$
如果 $\mathcal{H}^2(p_1,p_0)\leq\alpha <2$, 则 $p_{err,1}\ge\frac{1-\sqrt{\alpha(1-\alpha/4)}}{2}$
如果 $KL(p_1,p_0)\leq\alpha <1$, 则 $p_{err,1}\ge\max\{\frac{1}{4}e^{-\alpha},\frac{1-\sqrt{\alpha/2}}{2}\}$

通常使用 $KL$ 散度的形式来进行约束能够得到不错的效果，当然这还是取决于你设计的 $\mathbb{P}$ 的样式。下面给出一个成功的例子

一个成功的例子

考察非参数回归中单点 $x_0$ 的误差的minimax risk，我们要证明其下界为 $O(n^{-\beta/(2\beta+1)})$

先回顾我们的问题

$Y_i=f(X_i)+\varepsilon_i, i=1,2,\ldots,n$，其中 $f:[0,1]\to\mathbb{R}$
$\varepsilon_i$ 独立同分布于 $p_\varepsilon(\cdot)$，且 $\exists p_\ast>0,v_0>0,\int p_\varepsilon(u)\log\frac{p_\varepsilon(u)}{p_\varepsilon(u+v)}\,\mathrm{d}u\leq p_\ast v^2\text{ for all }\lvert v\rvert\leq v_0$。可以验证，$\mathcal{N}(0,\sigma^2)$ 是满足这一条件的。下面的证明中使用了正态的 KL 散度来简化计算，更一般的情形下，直接用该式子进行放缩即能得到 $KL\leq p_\ast\sum_{i=1}^{n}\theta_1(x_i)^2$ 然后殊途同归。
$X_i\in[0,1]$ 且是 determinstic 的，且满足提到的假设 LP2，即存在实数 $a_0>0$ 使得对任意区间 $A\subseteq [0,1]$ 和所有的 $n\geq 1$ ，均有 $\sum\limits_{i=1}^{n}\boldsymbol{1}[X_i\in A]\leq a_0\max\{n\cdot\mathrm{Leb}(A), 1\}$

我们的目标是给出 $(\Theta,d)$ 上的 minimax risk，其中函数空间为 $\Theta=\Sigma(\beta,L),\beta>0,L>0$ ，距离度量 $d(f,g)=\lvert f(x_0)-g(x_0)\rvert$

为此，我们取，取 $K_0(u)=e^{-\frac{1}{1-u^2}}\boldsymbol{1}(\lvert u\rvert\leq 1), K(u)=K_0(2u)$，这是为了让其支撑集的长度(或者说宽度)为 $1$，方便后面的构造.

随后我们取 $\theta_0(x)\equiv 0,\theta_1(x)=Lh^\beta K\left(\frac{x-x_0}{h}\right)$ ，不难验证其在 $\Sigma(\beta,L)$ 中

且我们有 $d(\theta_0,\theta_1)=Lh^\beta K_\max\ge 2s$ ，而我们希望 $s=O(n^{-\beta/(2\beta+1)})$

由此我们知我们的 $h$ 应选取为 $n^{-1/(2\beta+1)}$

而 $p_{\theta_0}=\prod_{j=1}^{n}\frac{1}{\sqrt{2\pi}}\exp\left\{-\frac{y_j^2}{2}\right\}$, $p_{\theta_1}=\prod_{j=1}^{n}\frac{1}{\sqrt{2\pi}}\exp\left\{-\frac{(y_j-\theta_1(x_j))^2}{2}\right\}$

由 KL 散度性质有对于标准正态分布 $\varphi(x)$，有 $KL(\varphi(x),\varphi(x+t))=t^2/2$

\[\begin{align}KL(p_{\theta_0}, p_{\theta_1})&=\sum_{j=1}^{n}KL(p_{\theta_0,j},p_{\theta_1,j})\\&=\frac{1}{2}\sum_{j=1}^{n}\theta_1^2(x_j)\\&=\frac{1}{2}L^2 h^{2\beta}\sum_{j=1}^{n}K^2\left(\frac{x_j-x_0}{h}\right)\\&\leq \frac{1}{2}L^2 h^{2\beta}K_\max^2\sum_{j=1}^{n}\boldsymbol{1}[\lvert x_j-x_0\rvert\leq h/2]\end{align}\]

由于 $nh\ge 1$，加上假设(2) 有 $\sum_{j=1}^{n}\boldsymbol{1}[\lvert x_j-x_0\rvert\leq h/2]\leq\max\{nh, 1\}=nh$

且 $nh^{2\beta+1}=1$ 故 $KL(p_{\theta_0}, p_{\theta_1})\leq \frac{1}{2}L^2h^{2\beta+1} n K_\max^2=\frac{1}{2}c'L^2K_\max^2<\infty$

所以有

\[P_{err,1}\ge c\Rightarrow \inf_{\widehat{\theta}}\sup_{\theta\in\Theta} E[d(\theta,\widehat{\theta})]\ge s\cdot P_{err,1}=c\frac{Lh^\beta K_\max}{2}=c'n^{-\beta/(2\beta+1)}\]

于是我们得到了结论，在上述假设下，$\forall x_0\in[0,1]$ ，单点误差的 minimax risk 为 $O(n^{-\beta/(2\beta+1)})$

【Series】非参数估计

2018-11-12T02:00:00.000Z

这是一门3学时的课程，主要介绍分析非参数估计中相关误差能达到的实际下界和理论下界等分析，十分硬核。使用的教材为 Tsybakov 的著作 Introduction to Nonparametric Estimation

下面是本系列的架构

手敲$\LaTeX$难免出现纰漏，有任何疑似错误或者不清楚的地方请直接在下方评论区留言，谢谢各位读者。

【Note】非参数估计(七)——求收敛速度下界的框架

2018-11-10T17:50:00.000Z

收敛速度的下界

在第一章中，我们分别研究了

核密度估计中的单点误差 $C n^{-2\beta/2\beta+1}$

核密度估计中的 $L_2$ 误差 $C n^{-2\beta/2\beta+1}$

局部多项式估计的单点误差 $C n^{-2\beta/2\beta+1}$

局部多项式估计的 $L_2$ 误差 $C n^{-2\beta/2\beta+1}$

局部多项式估计的 $L_\infty$ 误差 $C(\log n/n)^{-2\beta/2\beta+1}$

投影估计的 $L_2$误差 $ C n^{-2/2+1}

可以看到他们都有一个形式极为相近的收敛速度(除了可能有 $\log n$ 的差别)。那么一个自然的想法就是，我们是否达到了最优的收敛速度？能否继续改进。事实上可以证明，上面给出了收敛速度已经达到了最优，而本章就是在研究如何论证这一命题。

求下界的框架：Minimax rate

我们的设定如下

首先我们有一个非参的函数空间 $\Theta$ ，我们所要估计的函数落在这个空间内，比如之前提到的 $\Sigma(\beta, L)$ (Holder 空间) 或 $W(\beta, L)$ (Sobolev 空间)

一族概率测度 $\{P_\theta,\theta\in\Theta\}$。在概率密度模型中，$P_\theta$ 是样本 $\boldsymbol{X}=(X_1,\ldots,X_n)$ 上的概率测度，其中每个样本 $X_i$ 的概率密度为 $\theta$

一个 $\Theta$ 上的距离度量 $d:\Theta\times\Theta\rightarrow[0,+\infty)$，满足非负性 $d(\theta,\theta')\ge 0$, 同一性 $d(\theta,\theta')=0\Leftrightarrow \theta=\theta'$, 对称性 $d(\theta,\theta')=d(\theta',\theta)$ 和三角不等式 $d(\theta,\theta')+d(\theta',\theta'')\ge d(\theta,\theta'')$

而我们估计参数的方法即为 $\widehat{\theta}_n:X^n\rightarrow \Theta$

为了度量这个估计的好坏，我们考察参数空间中最坏的情况，定义出最大风险为

\[r(\widehat{\theta}_n)\overset{\Delta}{=}\sup\limits_{\theta\in\Theta}\mathbb{E}_\theta[d^2(\widehat{\theta},\theta)]\]

之前的章节中我们证明的就是对于我们构造的那些估计中，有 $r(\widehat{\theta}_n)\leq C\psi_n^2$

而接下来的章节就是寻找当 $n$ 充分大时，所有估计方法中风险的下界(也就是考察最好的估计方法，不能比这个再好了)

\[\forall\widehat{\theta}_n:\qquad r(\widehat{\theta}_n)\ge c\psi_n^2\]

为此，我们定义 minimax risk 为

\[\mathcal{R}_n^\ast\overset{\Delta}{=}\inf\limits_{\widehat{\theta}} r(\widehat{\theta}_n)=\inf\limits_{\widehat{\theta}}\sup\limits_{\theta\in\Theta}\mathbb{E}_\theta[d^2(\widehat{\theta},\theta)]\]

之前建立上界的时候意味着存在常数 $C<\infty$，使得对于一个收敛于零的序列 $\psi_n$

\[\underset{n\rightarrow\infty}{\lim\sup}\ \psi_n^{-2}\mathcal{R}_n^\ast\leq C\]

而对应的下界说明存在常数 $c>0$，对于同样的序列 $\psi_n$，有

\[\underset{n\rightarrow\infty}{\lim\inf}\ \psi_n^{-2}\mathcal{R}_n^\ast\ge c\]

而如果某个估计 $\theta_n^\ast$ 满足下式，我们就称他为渐进最优的

\[\lim\limits_{n\rightarrow\infty}\frac{r(\theta_n^\ast)}{\mathcal{R}_n^\ast}=1\]

一个更一般性的框架是定义最大风险为

\[r_w(\widehat{\theta}_n)\overset{\Delta}{=}\sup\limits_{\theta\in\Theta}\mathbb{E}_\theta[w(\psi_n^{-1}\cdot d^2(\widehat{\theta},\theta))]\]

其中 $w:[0,\infty)\rightarrow[0,\infty),\ w\nearrow,\ w(0)=0,w\not\equiv 0$ 称为 loss 函数，此时下界可以如下给出

\[\underset{n\to\infty}{\lim\inf}\ \inf\limits_{\widehat{\theta}_n}\ \sup\limits_{\theta\in\Theta}\mathbb{E}_\theta[w(\psi_n^{-1}d(\widehat{\theta}_n,\theta))]\ge c>0\]

常见的 $w$ 可以选为 $w(u)=u^p,p>0$ 或 $w(u)=\boldsymbol{1}[u\ge A],A>0$

三步走

为了得到一个下界，一个典型的方法使用了三次放缩

放缩至概率

取 $w(u)=\boldsymbol{1}[u\ge A]$

根据 Markov 不等式，我们有

\[\mathbb{E}_\theta[w(\psi_n^{-1}d(\widehat{\theta}_n,\theta))]\ge w(A)\cdot\mathbb{P}_\theta[\psi_{n}^{-1}d(\widehat{\theta}_n,\theta)\ge A]=w(A)\cdot\mathbb{P}_\theta[d(\widehat{\theta}_n,\theta)\ge s]\]

其中 $s=s_n=A\psi_n$

放缩至有限空间

取 $\Theta$ 中的一个有限子集 $\{\theta_0,\ldots,\theta_M\}$，我们有

\[\inf\limits_{\widehat{\theta}_n}\sup\limits_{\theta\in \Theta}\mathbb{P}_\theta[d(\widehat{\theta}_n,\theta)\ge s]\ge \inf\limits_{\widehat{\theta}_n}\sup\limits_{\theta\in \{\theta_1,\ldots,\theta_m\}}\mathbb{P}_\theta[d(\widehat{\theta}_n,\theta)\ge s]\]

构造 $2s-$ 可分子集

取合适的 $\theta_0,\ldots,\theta_m$ 使得 $d(\theta_i,\theta_j)\ge 2s,\ i\neq j$

定义 $\psi^\ast : X^n\rightarrow\{0,1,\ldots,M\} =\arg\min\limits_{0\leq i\leq M} d(\widehat{\theta}_n,\theta_i)$

那么有 \[\mathbb{P}_{\theta_j}[d(\widehat{\theta}_n,\theta)\ge s]\ge\mathbb{P}_{\theta_j}[\psi^\ast\neq j],\ j=0,1,\ldots,M\]

为方便，以后记 $\mathbb{P}_{\theta_j}\overset{\Delta}{=}\mathbb{P}_j$, $p_{err, M}\overset{\Delta}{=}\inf\limits_\psi\max\limits_{0\le j\le M} \mathbb{P}_j(\psi\neq j)$

至此，如果我们能证明 $p_{err,M}\ge c'$ 其中 $c'$ 为一个常数，则

\[\underset{n\to\infty}{\lim\inf}\ \inf\limits_{\widehat{\theta}_n}\ \sup\limits_{\theta\in\Theta}\mathbb{E}_\theta[w(\psi_n^{-1}d(\widehat{\theta}_n,\theta))]\ge w(A)c'>0\]

总结

至此，我们得到了一个有效的检验框架：我们会构造一系列 $\theta_i$，然后验证下面几个条件

$\theta_i$ 落在我们讨论的空间里
$\theta_i$ 是 $2s$ 可分的
我们找到 $p_{err,M}$ 的一个常数下界

这样，我们就得到了一个收敛速度的下界，它和 $s$ 是同阶的。在接下来的两章里，我们将会分别考虑两点测试和多点测试，并看如何构造 $\theta_i$，并利用他们的性质刻画出 $p_{err,M}$ 的一个下界。

【Note】非参数估计(六)——概率测度的距离度量

2018-11-10T16:00:00.000Z

下面$P,Q$表示概率测度，$p=\mathrm{d}P/\mathrm{d}x,q=\mathrm{d}Q/\mathrm{d}x$ 表示概率密度函数

记 $p\wedge q=\min(p,q),\ p\vee q=\max(p,q),a_-=\max\{0,-a\}, a_+=\max\{a,0\}$

几个常用的距离

Hellinger distance

\[\mathcal{H}^2(P,Q)=\int(\sqrt{p}-\sqrt{q})^2\,\mathrm{d}x=2-2\int\sqrt{pq}\,\mathrm{d}x\]

可以证明其满足距离的定义，且 $0\leq \mathcal{H}^2(P,Q)\leq 2$

如果 $P=\bigotimes_{i=1}^{n} P_i,Q=\bigotimes_{i=1}^{n} Q_i$

则 \[\mathcal{H}^2(P,Q)=2-2\prod\limits_{i=1}^{n}(1-\frac{1}{2}\cdot \mathcal{H}^2(P_j,Q_j))\]

Total variation distance

\[\mathrm{TV}(P,Q)=\sup_{A}\lvert P(A)-Q(A)\rvert=\sup\limits_{A}\big\lvert \int_A(p-q)\,\mathrm{d}x \big\rvert\]

可以证明其满足距离的定义，且 $0\leq \mathrm{TV}(P,Q)\leq 1$，这可以由下式得到

\[\mathrm{TV}(P,Q)=\frac{1}{2}\int\lvert p-q\rvert\,\mathrm{d}x=1-\int p\wedge q\,\mathrm{d}x\]

Kullback divergence

\[KL(P,Q)=\int p\log \frac{p}{q}\,\mathrm{d}x\] , 如果 $P\ll Q$

可以利用 Jensen inequality 证明其非负

\[\int p\log \frac{p}{q}\,\mathrm{d}x=-\int p\log \frac{q}{p}\,\mathrm{d}x\ge-\log\int q\,\mathrm{d}x\ge 0\]

但是不满足对称性(所以不叫 distance)，可以构造 $KL(P,Q)+KL(Q,P)$ 来满足对称性

如果 $P=\bigotimes_{i=1}^{n} P_i,Q=\bigotimes_{i=1}^{n} Q_i$

\[KL(P\mid\mid Q)=\sum_{j=1}^{n}KL(P_j,Q_j)\]

另一个十分有用的性质时对于正态分布来说

现考察其 KL 散度，记 $\varphi(x)=\frac{1}{\sqrt{2\pi}}\exp\{-x^2/2\},\varphi(x+t)=\frac{1}{\sqrt{2\pi}}\exp\{-(x+t)^2/2\}$，则其KL 散度为

\[\begin{align}KL(\varphi(x),\varphi(x+t)&=\int_{-\infty}^{+\infty} \frac{1}{\sqrt{2\pi}}\exp\{-x^2/2\}\left(\frac{(x+t)^2-x^2}{2}\right)\,\mathrm{d}x\\&=\int_{-\infty}^{+\infty} \frac{1}{\sqrt{2\pi}}\exp\{-x^2/2\}\frac{t^2}{2}\,\mathrm{d}x+\int_{-\infty}^{+\infty} \frac{1}{\sqrt{2\pi}}\exp\{-x^2/2\}\left(-tx\right)\,\mathrm{d}x\\&=\frac{t^2}{2}+0=\frac{t^2}{2}\end{align}\]

$\chi^2$ divergence

\[\chi^2(P,Q)=\int q\cdot \left(\frac{p}{q}-1\right)^2\,\mathrm{d}x\]

同样其也不满足对称性。可以证明其有性质

$\chi^2(P,Q)=\int \frac{p^2}{q}\,\mathrm{d}x-1$

如果 $P=\bigotimes_{i=1}^{n} P_i,Q=\bigotimes_{i=1}^{n} Q_i$

\[\chi^2(P,Q)=\prod\limits_{i=1}^{n}(1+\chi^2(P_i,Q_i))-1\]

Csizsar f-divergence

上述四个都是 Csizsar f-divergence 的特殊情况，其定义为 \[D(P,Q)=\int q\cdot f(p/q) \mathrm{d}x\]，其中要求 $f$ 是在 $\mathbb{R}^+$ 上的凸函数。之前四个距离分别是 $f(x)=\lvert x-1\rvert/2$, $f(x)=(\sqrt{x}-1)^2$ ， $f(x)=x\log x$ 和 $f(x)=(x-1)^2$

距离相关的不等式

Le Cam's Inequallities

为方便，分别记 Hellinger、Total variation 和 KL 散度为 $H,V,K$

式一

\[\int p\wedge q\,\mathrm{d}x\ge\frac{1}{2}(\int\sqrt{pq}\,\mathrm{d}x)^2=\frac{1}{2}(1-H^2/2)^2\]

证明：只需注意到 $\int p\wedge q\,\mathrm{d}x+\int p\vee q\,\mathrm{d}x=2$

则有

\[\begin{align}(\int\sqrt{pq}\,\mathrm{d}x)^2&=(\int\sqrt{p\wedge q\ \cdot\ p\vee q}\,\mathrm{d}x)^2\\&\leq\int p\wedge q\,\mathrm{d}x\ \cdot\ \int p\vee q\,\mathrm{d}x\\&=\int p\wedge q\,\mathrm{d}x\ \cdot\ \left(2-\int p\wedge q\,\mathrm{d}x\right)\\&\leq 2\int p\wedge q\,\mathrm{d}x\end{align}\]

式二

\[H^2/2\leq V\leq H\sqrt{1-H^2/4}\leq H\]

证明：

左边： $V=1-\int p\wedge q\,\mathrm{d}x\ge 1-\int pq\,\mathrm{d}x=H^2/2$

右边：注意到式一推导过程中可以推导出

\[(1-H^2/2)^2=(\int\sqrt{pq}\,\mathrm{d}x)^2\leq (1-V)(1+V)=1-V^2\]

由此导出 $V^2 \leq H^2(1-H^2/4)$

式三

\[H^2\leq K\]

证明：由于 $-\log(x+1)\ge -x,\ (x>-1)$，代入 KL 散度计算中有

\[\begin{align}K&=-\int p\log(q/p)\,\mathrm{d}x\\&=-2\int p\log(\sqrt{q/p})\,\mathrm{d}x\\&=-2\int p\log(\sqrt{q/p}-1+1)\,\mathrm{d}x\\&\ge -2\int p(\sqrt{q/p}-1)\,\mathrm{d}x\\&=2-2\int(\sqrt{pq})\,\mathrm{d}x=H^2\end{align}\]

综合之前我们可以得到 $V\leq H\leq\sqrt{K}$，但这并不是最优的，因为我们可以证明下式

Pinsker's Inequalities

\[V\leq\sqrt{K/2}\]

令 $\psi(x)=x\log x-x+1,x\ge 0$，并定义 $0\log 0=0$

注意到 $\psi(0)=1,\psi(1)=0,\psi'(1)=0,\psi''(x)=1/x\ge 0,\psi(x)\ge 0$

可以精巧地构造出下列不等式，使用高中的导数知识求导即可证明

\[(x-1)^2\leq (4/3+2x/3)\psi(x)\]

于是

\[\begin{align}V&=\frac12\int\lvert p-q\rvert \,\mathrm{d}x\\&=\frac12\int\lvert p/q-1\rvert q\,\mathrm{d}x\\&\leq\frac12\int\sqrt{4/3+2p/3q}\cdot\sqrt{\psi(p/q)}\cdot q\,\mathrm{d}x\\&\leq \frac{1}{2}\sqrt{\int (4q/3+2p/3)\,\mathrm{d} x}\sqrt{\int q\cdot\psi(p/q)\,\mathrm{d} x}\\&=\frac{1}{2}\sqrt{2}\sqrt{K}=\sqrt{K/2}\end{align}\]

刻画 $K$ 和 $V$ 的另一个不等式

$V\leq 1-\frac{1}{2}\exp\{-K\}$

证明：使用 Jensen 不等式有

\[\begin{align}(\int\sqrt{pq}\,\mathrm{d}x)^2&=\exp\{2\log\int\sqrt{pq}\,\mathrm{d}x\}\\&=\exp\{2\log\int p\sqrt{\frac{q}{p}}\,\mathrm{d}x\}\\&\ge\exp\{2\int p\log\sqrt{\frac{q}{p}}\,\mathrm{d}x\}\\&=\exp\{-K\}\end{align}\]

所以有 $\int p\wedge q\,\mathrm{d}x\ge \frac{1}{2}\exp\{-K\}$

即 $V=1-\int p\wedge q\,\mathrm{d}x\leq 1-\frac{1}{2}\exp\{-K\}$

刻画 K 和 $\chi^2$ 不等式

$K\leq\log(1+\chi^2)\leq \chi^2$

证明: 使用 Jensen 不等式有

\[\log(1+\chi^2)=\log\int \frac{p^2}{q}\,\mathrm{d}x\ge\int p\log\frac{p}{q}\,\mathrm{d}x=K \]

所以我们通过给出 $\chi^2$ 的上界可以同样控制住 $K$。

刻画误差下界

本文是为非参数统计中刻画误差下界服务的。其关心的值为

\[p_{err,1}=\int\limits_\psi\max\limits_{j=0,1}\mathbb{P}_j[\psi\neq j]\ge \frac{1}{2}\inf\limits_\psi\{\mathbb{P}_0[\psi\neq 0]+\mathbb{P}_1[\psi\neq 1]\}=\frac{1}{2}(\mathbb{P}_0[\psi^\ast\neq 0]+\mathbb{P}_1[\psi^\ast\neq 1])\]

其中 $\psi^\ast$ 为极大似然估计，为 $\psi^\ast=\boldsymbol{1}[P_0 其中 \(P_0,P_1$ 是 $\mathbb{P}_0,\mathbb{P}_1$ 对应的概率密度函数。

注意到 $\frac{1}{2}(\mathbb{P}_0(\psi^\ast\neq 0))+\mathbb{P}_1(\psi^\ast\neq 1))=\frac{1}{2}\int P_0\wedge P_1=(1-V)/2$

由此我们得

如果 $V \leq\alpha <1$, 则 $p_{err,1}\ge\frac{1-\alpha}{2}$ （立得）
如果 $H\leq\alpha <2$, 则 $p_{err,1}\ge\frac{1-\sqrt{\alpha(1-\alpha/4)}}{2}$ （使用 $V\leq H\sqrt{1-H^2/4}$）
如果 $\mathrm{K}(\mathbb{P}_1,\mathbb{P}_0)\leq\alpha <\infty$ (或 $\chi^2(\mathbb{P}_0,\mathbb{P}_1)\leq\alpha<\infty$, 则 $p_{err,1}\ge\max\{\frac{1}{4}e^{-\alpha},\frac{1-\sqrt{\alpha/2}}{2}\}$ （使用 $V\leq\sqrt{K/2}$ 和 $V\leq 1-\frac{1}{2}\exp\{-K\}$）

【Note】非参数估计(五)——投影估计

2018-11-10T03:50:00.000Z

投影估计

我们仍然考察回归模型

\[Y_i=f(X_i)+\varepsilon_i,\quad\mathbb{E}_f[\varepsilon_i]=0, f:[0,1]\rightarrow\mathbb{R},X_i=i/n\]

假设 $f\in L_2[0,1]$，记 $\theta_j$ 是 $f$ 在 $L_2[0,1]$ 上标准正交基 $\{\varphi_i\}_{j=1}^\infty$ 上的系数，即

\[\theta_j=\int_0^1 f(x)\varphi_j(x)\,\mathrm{d} x\]

且假设 $f(x)=\sum_{j=1}^{\infty}\theta_j\varphi_j(x)$ 即点点收敛

投影估计的想法就是，我们在前 $N$ 个基张成的空间中近似 $f$，即 $\sum_{j=1}^{N}\theta_j\varphi_j$ 来估计 $f$。当然，此时我们的 $\theta_j$ 只能是 $\widehat{\theta}_j$，不可能得到真正的 $\theta$

当 $X_i$ 在 $[0,1]$ 上分布得足够均匀时（比如，$X_i=i/n$，或 $X_i$ 独立同分布于 $\mathcal{U}[0,1]$，$\frac{1}{n}\sum_{i=1}^{n}f(X_i)\varphi_j(X_i)$ 是 $\theta_j$ 的一个良好估计，因此我们可以用

$\widehat{\theta}_j=\frac{1}{n}\sum_{i=1}^{n}Y_i\varphi_j(X_i)$ 来作为一个估计，此时得到投影估计 (projection estimator)

\[\widehat{f}_{nN}(x)=\sum_{j=1}^{N}\widehat{\theta}_j\varphi_j(x)=\sum_{i=1}^{n}(Y_i\cdot\frac{1}{n}\sum_{j=1}^{N}\varphi_j(X_i)\varphi_j(x))=\sum_{i=1}^{n}Y_iW_{ni}^{\ast\ast}(x)\]

可见其也是一个线性估计。

这里的 $N$，也就是投影估计的阶，和 $h$ 在核密度估计中有着相同的作用——平衡偏差核方差。过大的 $N$ 导致过拟合从而增大了方差，过小的 $N$ 则欠拟合数据使得偏差增大。

常有的基有下面这两个

三角基 $\varphi_1(x)\equiv 1,\varphi_{2k}(x)=\sqrt{2}\cos(2\pi k x),\varphi_{2k+1}(x)\sqrt{2}\sin(2\pi kx)$

小波基 $\psi_{jk}(x)=2^{j/2}\psi(2^jx-k),j,k\in\mathbb{Z}$ 其中 $\psi:\mathbb{R}\rightarrow\mathbb{R}$ 在紧的支撑集上足够光滑

二者的差别在于三角基考察的是频域的信息，而小波基同时考察了时域和频域的信息。

三角基有一个性质使我们后面用到的

\[\frac{1}{n}\sum\limits_{s=1}^{n}\varphi_j(s/n)\varphi_k(s/n)=\delta_{jk},1\le j,k\leq n-1\]

该定理的证明核心使用欧拉公式将三角转为指数

引入假设

我们假设待估的函数 $f$ 足够光滑。对于正整数 $\beta$ 作为光滑度，我们先定义索布列夫空间 (Sobolev class)

\[W(\beta,L)=\{f\in [0,1]\rightarrow\mathbb{R}:f^{(\beta-1)}\text{ is absolutely continuous and} \int_0^1(f^{(\beta)}(x))^2\,\mathrm{d}x\leq L \}\]

周期索布列夫空间 (periodic Sobelev class) 则定义为

\[W^{per}(\beta,L)=\{f\in W(\beta,L):f^{(j)}(0)=f^{(j)}(1),j=0,1,\ldots,\beta-1\}\]

考虑三角基 $\phi_1(x)=1,\phi_{2j}(x)=\sqrt{2}\cos(2\pi jx),\phi_{2j-1}(x)=\sqrt{2}\sin(2\pi jx)$，可以证明任何 $f\in W^{per}(\beta,L)$，都可以有展开式 $f(x)=\sum_{j=1}^{\infty}\theta_j\varphi_j(x)$。

先定义

\[a_j=\left\{\begin{array}{ll}j^\beta & 2\mid j\\ (j-1)^\beta&2\not\mid j\end{array}\right.\]

再定义索布列夫椭球 (Sobolev ellipse)

$Q(\beta,Q)=\{\theta:\sum_{j=1}^\infty\theta_j^2<\infty,\sum_{j=1}^{\infty}a_j^2\theta_j^2\leq Q\}$

可以证明，对于整数 $\beta$, $f\in W^{per}(\beta,L$ 当且仅当系数落在 $Q(\beta,L^2/\pi^{2\beta})$

索布列夫椭球还有如下的性质

$0<\beta'\leq\beta\Rightarrow Q(\beta,Q)\subset Q(\beta',Q)$
$\beta>1/2$ 时，$\theta\in Q(\beta,Q)$ 组成的 $f(x)=\sum_{j=1}^{\infty}\theta_j\varphi_j(x)$ 是连续函数
先推广索布列夫椭球：由于 $a_1=0,\beta\in\mathbb{N}^{+}$，我们定义 $\Theta(\beta,Q)=\{\theta:\sum_{j=1}^\infty\theta_j^2<\infty,\sum_{j=2}^{\infty}a_j^2\theta_j^2\leq Q\}$，此时该定义对于 $\beta>0$ 都是良定义的。
再推广 $W^{per}(\beta,L)$ ，为 $\tilde{W}(\beta,W)=\{f\in L_2(0,1):\theta=\{\theta_j\}\in\Theta(\beta,L)\}$，其中 $\theta_j=\int_0^1f\varphi_j$
那么，$\forall\beta>1/2$，都有 $f\in\tilde{W}(\beta,W)$ 是连续函数。

误差分析

考察回归模型 $Y_i=f(i/n)+\xi_i$，$\mathbb{E}[\xi_i]=0,\mathbb{V}[\xi_i]=\sigma_2<\infty$。 $\{\varphi_j\}_{j=1}^\infty$ 是三角基，且$f$ 的傅里叶系数 $\theta_j=\int_0^1f\varphi_j$ 满足 $\sum_{j=1}^{\infty}\lvert\theta_j\rvert<\infty$。首先可以得到

级数 $\sum_{j=1}^{\infty}\theta_j\varphi_j(x)$绝对收敛，于是 $f(x)=\sum_{j=1}^{\infty}\theta_j\varphi(x)$ 成立

考察 $L_2$ 范数，由三角基的正交性不难得

\[\lVert\widehat{f}_N-f\rVert_2^2=\sum_{j\leq N}(\widehat{\theta}_j-\theta_j)^2+\sum_{j>N}\theta_j^2\]

为了研究该误差的上界，记

\[\widehat{\theta}_j=\frac{1}{n}\sum_{j=1}^{n}Y_i\phi_j(i/n)=\frac{1}{n}\sum_{j=1}^{n}f(i/n)\phi_j(i/n)\overset{\Delta}{=}\theta_j+\alpha_j\]

\[\mathbb{E}[(\widehat{\theta})_j-\theta_j)^2]=\mathbb{E}[(1/n\sum_{i=1}^{n}e_i\phi_j(i/n) +\alpha_j)^2]=\alpha_j^2+\sigma^2/n\]

于是误差变形为

\[\begin{align}\mathbb{E}\lVert\widehat{f}_N-f\rVert_2^2=\sum_{j\le N}\alpha_j^2+\frac{N\sigma^2}{n}+\sum_{j>N}\theta_j^2\leq N\cdot \max\limits_{1\le j\le N}\alpha_j^2+\frac{N}{n}\sigma^2+\sum_{j>N}\theta_j^2\end{align}\]

先考察最后一项，由于 $a_j$ 单调不减，于是有

\[\begin{align}\sum_{j>N}\theta_j^2\leq\sum_{j>N}\frac{a_j^2}{a_N^2}\theta_j^2\leq\frac{1}{a_N^2}\sum_{j=1}^{\infty}a_j^2\theta_j^2\leq\frac{Q}{a_N^2}=O(N^{-2\beta})\end{align}\]

下面考察 $\alpha_j$ 的性质，可以证明$\max\limits_{1\leq j\leq n-1}\lvert \alpha_j\rvert\leq 2\sum\limits_{m\ge n}\lvert\theta_m\rvert$

这是因为

\[\begin{align}\alpha_j&=\frac{1}{n}\sum_{i=1}^{n}f(i/n)\varphi_j(i/n)-\theta_j\\&=\frac{1}{n}\sum_{i=1}^{n}\sum_{m=1}^{\infty}(\theta_m\varphi_m(i/n))\varphi_j(i/n)-\theta_j\\&=\sum_{m=1}^{n-1}\theta_m\frac{1}{n}\sum_{i=1}^{n}\varphi_m(i/n)\varphi_j(i/n)-\theta_j+\frac{1}{n}\sum_{i=1}^{n}\sum_{m=n}^{\infty}\theta_m\varphi_m(i/n)\varphi_j(i/n)\\&=\frac{1}{n}\sum_{i=1}^{n}\sum_{m=n}^{\infty}\theta_m\varphi_m(i/n)\varphi_j(i/n)\end{align}\]

所以 \[\lvert\alpha_j\rvert\leq\lvert\sum_{m=n}^\infty\theta_m\left(\frac{1}{n}\sum_{i=1}^{n}\varphi_m(i/n)\varphi_j(i/n)\right)\rvert\leq 2\sum_{m=n}^\infty\lvert\theta_m\rvert\]

又有

\[\begin{aligned} \sum _ { m = n } ^ { \infty } \left| \theta _ { m } \right| & = \sum _ { m = 1 } ^ { \infty } \left| \theta _ { m } \right| I ( m \geq n ) \\ & \leq \left( \sum _ { m = 1 } ^ { \infty } a _ { m } ^ { 2 } \theta _ { m } ^ { 2 } \right) ^ { 1 / 2 } \left( \sum _ { m = n } ^ { \infty } a _ { m } ^ { - 2 } \right) ^ { 1 / 2 } \\ & \leq Q ^ { 1 / 2 } \left( \sum _ { m = n } ^ { \infty } ( m - 1 ) ^ { - 2 \beta } \right) ^ { 1 / 2 } \leq C _ { \beta , Q } n ^ { - \beta + 1 / 2 } \end{aligned}\]

于是 \(\sum_{j

于是误差可以写为 $O(Nn^{-2\beta+1})+O(Nn^{-1})+O(N^{-2\beta})=O(Nn^{-1})+O(N^{-2\beta}), \beta>1$

所以最小化时 $N\sim n^{1/(2\beta+1)}$，代入得收敛速度为 $O(n^{-2\beta/(2\beta+1)})$

【Note】非参数估计(四)——局部多项式估计

2018-11-09T14:00:00.000Z

局部多项式估计

如果核函数 $K$ 只取非负值，可以发现 Nadaraya-Waston 估计 $f_n^{NW}$ 满足下列式子

\[f_n^{NW}(x)=\arg\min\limits_{\theta\in\mathbb{R}}\sum\limits_{i=1}^{n}(Y_i-\theta)^2K\left(\frac{X_i-x}{h}\right)\]

这一结论只需使用一次导数就可以立刻得到，熟悉线性回归的读者应该不会陌生。

这说明了，$f_n^{NW}$ 给出的是在 $x$ 处，均方误差最小的一个常数估计，而这是可以被推广的——我们使用一个 $l$ 阶多项式代替上式中的常数 $\theta$ 。具体说来，如果 $f\in\Sigma(\beta,L),\,\beta>1,\,l=\lfloor\beta\rfloor$，那么对于充分接近 $x$ 的 $z$ 我们有

\[f(z)\approx f(x)+f'(x)(z-x)+\cdots+\frac{f^{(l)}(x)}{x!}(z-x)^l=\theta^\intercal(x)U\left(\frac{z-x}{h}\right)\]

其中

\[U(u)=\Big(1,u,u^2/2!,\ldots,u^l/l!\Big)^\intercal\]

\[\theta(x)=\Big(f(x),f'(x)h,f''(x)h^2,\ldots,f^{(l)}(x)h^l\Big)^\intercal\]

于是我们得到了推广形式

\[\widehat{\theta}_n(x)=\arg\min\limits_{\theta\in\mathbb{R}^{l+1}}\sum\limits_{i=1}^{n}\left[Y_i-\theta^\intercal U\left(\frac{X_i-x}{h}\right)\right]^2K\left(\frac{X_i-x}{h}\right)\]

我们称其为 $\theta(x)$ 的 $l$ 阶局部多项式估计，简记为 $\mathrm{LP}(l)\ \text{ estimator of }\ \theta(x)$

此时， $\widehat{f}_n(x)=U^\intercal (0)\widehat{\theta}_n(x)$ 称为 $f(x)$ 的 $l$ 阶局部多项式估计，简记为 $\mathrm{LP}(l)\ \text{ estimator of }\ f(x)$

可以发现 $\widehat{f}_n(x)$ 其实就是 $\widehat{\theta}_n(x)$ 的第一个分量。而其余的分量则提供了 $f'(x),\ldots,f^{(l)}(x)$ 等的估计

当 $K\ge 0$ 时，我们之前的 $f_n^{NW}$ 也就是 $\mathrm{LP}(0)$ 估计。

现在我们开始详细地查看 $\widehat{\theta}_n$。为方便记，我们将式子中的平方展开，得

\[\begin{align}\widehat{\theta}_n(x)&=\arg\min\limits_{\theta\in\mathbb{R}^{l+1}}\left\{-2\theta^\intercal\sum\limits_{i=1}^{n}Y_i U\left(\frac{X_i-x}{h}\right)K\left(\frac{X_i-x}{h}\right)+\theta^\intercal \sum\limits_{i=1}^{n}\left[U\left(\frac{X_i-x}{h}\right)U^\intercal\left(\frac{X_i-x}{h}\right)K\left(\frac{X_i-x}{h}\right)\right]\theta\right\}\\&=\arg\min\limits_{\theta\in\mathbb{R}^{l+1}}nh\cdot(-2\theta^\intercal \boldsymbol{a}_{nx}+\theta^\intercal\mathcal{B}_{nx}\theta)\end{align}\]

其中定义

\[\boldsymbol{a}_{nx}=\frac{1}{nh}\sum_{i=1}^{n}Y_i U\left(\frac{X_i-x}{h}\right)K\left(\frac{X_i-x}{h}\right)\]

\[\mathcal{B}_{nx}=\frac{1}{nh}\sum\limits_{i=1}^{n}\left[U\left(\frac{X_i-x}{h}\right)U^\intercal\left(\frac{X_i-x}{h}\right)K\left(\frac{X_i-x}{h}\right)\right]\]

求导立得约束条件 $\mathcal{B}_{nx}\widehat{\theta}_n(x)=\boldsymbol{a}_{nx}$。当 $\mathcal{B}_{nx}$ 正定时，可以解得 $\widehat{\theta}_n=\mathcal{B}_{nx}^{-1}\boldsymbol{a}_{nx}$ 。此时

\[\widehat{f}_n(x)=\frac{1}{nh}\sum\limits_{i=1}^{n}Y_i U^\intercal(0)\mathcal{B}_{nx}^{-1}U\left(\frac{X_i-x}{h}\right)K\left(\frac{X_i-x}{h}\right)\overset{\Delta}{=} \sum\limits_{i=1}^{n}Y_i W_{ni}^\ast(x)\]

而 $W_{ni}^\ast(x)$ 的计算也不依赖与 $Y$ 的值，也就是说此时我们得到了一个非参线性估计。

既然与 $Y$ 的值无关，事实上我们有如下命题：当 $x$ 满足 $\mathcal{B}_{nx}$ 正定且 $Q$ 为一个不超过 $l$ 阶的多项式，那么我们的 $\mathrm{LP}(l)$ 给出的权重 $W_{ni}^\ast$ 满足 $\sum\limits_{i=1}^{n}Q(X_i)W_{ni}^\ast(x)=Q(x)$ 其证明思路简述如下

首先我们可以有 $Q(X_i)=Q(x)+Q'(x)(X_i-x)+\ldots+\frac{Q^{(l)}(x)}{l!}(X_i-x)^l=q^\intercal(x) U\left(\frac{X_i-x}{h}\right)$ 其中 $q^\intercal(x)=\big(Q(x),Q'(x)h,\ldots,Q^{(l)}(x)h^l\big)\in\mathbb{R}^{l+1}$

然后设 $Y_i=Q(X_i)$，使用 $\mathrm{LP}(l)$ 估计得

\[\begin{align}\widehat{\theta}_n(x)&=\arg\min\limits_{\theta\in\mathbb{R}^{l+1}}\sum\limits_{i=1}^{n}\left[Q(X_i)-\theta^\intercal U\left(\frac{X_i-x}{h}\right)\right]^2K\left(\frac{X_i-x}{h}\right)\\&=\arg\min\limits_{\theta\in\mathbb{R}^{l+1}}\sum\limits_{i=1}^{n}\left[(q(x)-\theta)^\intercal U\left(\frac{X_i-x}{h}\right)\right]^2K\left(\frac{X_i-x}{h}\right)\\&=\arg\min\limits_{\theta\in\mathbb{R}^{l+1}}(q(x)-\theta)^\intercal \mathcal{B}_{nx}(q(x)-\theta)\end{align}\]

又 $\mathcal{B}_{nx}$ 正定，故 $\widehat{\theta}_n(x)=q(x)$ ，则 $\widehat{f}_n(x)=Q(x)$

也就是说，局部多项式回归可以更精细的刻画拟合的结果。

引入假设

和之前一样，我们将误差分为偏差项 $b(x_0)=\mathbb{E}_f[\widehat{f}_n(x_0)]-f(x_0)$ 和方差项 $\sigma^2(x_0)=\mathbb{E}_f[\widehat{f}_n^2(x_0)]-(\mathbb{E}_f[\widehat{f}_n(x_0)])^2$ 。其中 $f$ 是 $Y_i=f(X_i)+\xi_i$ 中的 $f$，即真实但未知的一个映射。

不难证明，单点误差 $\mathrm{MSE}(x_0)=b^2(x_0)+\sigma^2(x_0)$

在进行误差分析之前，我们需要引入一些假设。

存在实数 $\lambda_0>0$ 和正整数 $n_0$，使得对所有 $n\ge n_0$ 和任意 $x\in[0,1]$，均有最小的特征值 $\lambda_\min(\mathcal{B}_{nx})\ge\lambda_0$。这一假设是比正定性更强的一个假设，因为他要求对 $n$ 和 $x$ 一致正定。
同时，由于 $\mathcal{B}_{nx}$ 是对称阵，因此该假设也隐含了，对于任意 $n\ge n_0,\, x\in[0,1],\, v\in\mathbb{R}^{l+1}$ 均有 $\Vert\mathcal{B}_{nx}^{-1}v\rVert\leq\lVert v\rVert/\lambda_0$ 。如果读者对这一结论并不熟悉，参看之前的博文里关于矩阵基础知识的介绍【Note】多元统计分析(一)——矩阵的基础知识
存在实数 $a_0>0$ 使得对任意区间 $A\subseteq [0,1]$ 和所有的 $n\geq 1$ ，均有 $\sum\limits_{i=1}^{n}\boldsymbol{1}[X_i\in A]\leq a_0\max\{n\cdot\mathrm{Leb}(A), 1\}$, 其中 $\mathrm{Leb}(A)$ 是 $A$ 的勒贝格测度。这一假设刻画了 $X_i$ 在区间 $[0,1]$ 上都足够密集。一个极端的例子是，假如所有的样本点中始终有 $50\%$ 落在 $x_0$ 处，那么取 $A_n=(x_0-\frac{1}{2n},x_0+\frac{1}{2n})$ ，两端取极限。左边为 $n/2$，右边为 $a_0$ 就不成立了。但一般的 $X_i$ 的分布都会满足这一假设。
核函数 $K$ 有紧的支撑集且落在 $[-1,1]$ 上，且 $K$ 有界。这基本上也都是会被满足的。

有了这三条假设后，我们可以给出关于 $W_{ni}^\ast(x)$ 的三个引理：对任意 $n\ge n_0,\,h\ge 1/(2n),\,x\in[0,1]$ 均有只依赖于 $\lambda_0,a_0,K_\max$ 的常数 $C_\ast$，使得

$\sup\limits_{i,x}\lvert W_{ni}^\ast(x)\rvert\leq\frac{C_\ast}{nh}$
$\sum\limits_{i=1}^{n}\lvert W_{ni}^{*}(x)\rvert\leq C_\ast$
$W_{ni}^{*}(x)=0\quad\text{if}\quad\lvert X_i-x\rvert>h$

证明：首先，由 $\lVert U(0)\rVert=1$ 和假设一可以推出

\[\begin{align}\lvert W_{ni}^\ast(x)\rvert&\leq\frac{1}{nh}\left\lVert\mathcal{B}_{nx}^{-1}U\left(\frac{X_i-x}{h}\right)K\left(\frac{X_i-x}{h}\right)\right\rVert\\&\leq\frac{1}{nh\lambda_0}\left\lVert U\left(\frac{X_i-x}{h}\right)K\left(\frac{X_i-x}{h}\right)\right\rVert\\&\leq\frac{K_\max}{nh\lambda_0}\left\lVert U\left(\frac{X_i-x}{h}\right)\right\rVert\cdot\boldsymbol{1}\left[\left\lvert\frac{X_i-x}{h}\right\rvert\leq 1\right]\\&\leq\frac{K_\max}{nh\lambda_0}\sqrt{1+\frac{1}{(1!)^2}+\frac{1}{(2!)^2}+\cdots++\frac{1}{(l!)^2}}\leq\frac{2K_\max}{nh\lambda_0}\end{align}\]

类似的，利用假设二，我们有

\[\sum_{i=1}^{n}\lvert W_{ni}^\ast(x)\rvert\leq\frac{2K_\max}{nh\lambda_0}\sum_{i=1}^{n}\mathbb{1}[x-h\leq X_i\leq x+h]\leq\frac{2K_\max a_0}{nh\lambda_0}\max\{2nh,1\}\leq\frac{4K_\max a_0}{\lambda_0}\]

于是取 $C_\ast=\max\{2K_\max/\lambda_0, 4K_\max a_0/\lambda_0\}$ 即完成证明

第三条则由 $K(u)$ 的支撑集在 $[-1,1]$ 内立得。

误差分析

MSE 和 MISE

现在开始误差的分析。设 $f\in\Sigma(\beta,L)$，$\widehat{f}$ 是 $LP(\lfloor\beta\rfloor)$ 估计。并假设 $X_1,\ldots,X_n$ 确定，上述三个假设满足，且 $\xi_i$ 均值为零方差有限。那么对 $\forall x_0\in[0,1], n>n_0, h\ge 1/(2n)$,有如下上界

\[\lvert b(x_0)\rvert\leq \frac{L\cdot C_\ast}{\ell!} h^\beta,\sigma^2(x_0)\leq \frac{C_\ast^2\cdot\sigma_\max^2}{nh}\]

\[\begin{align}b(x_0)&=\mathbb{E}_f[\widehat{f}(x_0)]-f(x_0)\\&=\mathbb{E}[\sum_{i=1}^{n}\widehat{f}(X_i)W_{ni}^\ast(x_0)]-f(x_0)\\&=\sum_{i=1}^{n}f(X_i)W_{ni}^\ast(x_0)-f(x_0)\\&=\sum_{i=1}^{n}(f(X_i)-f(x_0))W_{ni}^\ast(x_0)\\&=\sum_{i=1}^{n}\frac { f ^ { ( \ell ) } \left( x _ { 0 } + \tau _ { i } \left( X _ { i } - x _ { 0 } \right) \right) - f ^ { ( \ell ) } \left( x _ { 0 } \right) } { \ell ! } \left( X _ { i } - x _ { 0 } \right) ^ { \ell } W _ { n i } ^ { * } \left( x _ { 0 } \right)\end{align}\]

使用刚才证明的引理

\[\begin{aligned} \left| b \left( x _ { 0 } \right) \right| & \leq \sum _ { i = 1 } ^ { n } \frac { L \left| X _ { i } - x _ { 0 } \right| ^ { \beta } } { \ell ! } \left| W _ { n i } ^ { \ast } \left( x _ { 0 } \right) \right| \\ & = L \sum _ { i = 1 } ^ { n } \frac { \left| X _ { i } - x _ { 0 } \right| ^ { \beta } } { \ell ! } \left| W _ { n i } ^ { \ast } \left( x _ { 0 } \right) \right| I \left( \left| X _ { i } - x _ { 0 } \right| \leq h \right) \\ & \leq L \sum _ { i = 1 } ^ { n } \frac { h ^ { \beta } } { \ell ! } \left| W _ { n i } ^ { \ast } \left( x _ { 0 } \right) \right|\\& \leq \frac { L\cdot C _ { \ast } } { \ell ! } h ^ { \beta } \end{aligned}\]

\[\begin{aligned} \sigma ^ { 2 } \left( x _ { 0 } \right) & = \mathbb { E } \left[ \left( \sum _ { i = 1 } ^ { n } \xi _ { i } W _ { n i } ^ { \ast } \left( x _ { 0 } \right) \right) ^ { 2 } \right] = \sum _ { i = 1 } ^ { n } \left( W _ { n i } ^ { \ast } \left( x _ { 0 } \right) \right) ^ { 2 } \mathbb { E } \left( \xi _ { i } ^ { 2 } \right) \\ & \leq \sigma _ { \max } ^ { 2 } \sup _ { i , x } \left| W _ { n i } ^ { \ast } ( x ) \right| \sum _ { i = 1 } ^ { n } \left| W _ { n i } ^ { \ast } \left( x _ { 0 } \right) \right| \\&\leq \frac { \sigma _ { \max } ^ { 2 } \cdot C _ { \ast } ^ { 2 } } { n h } \end{aligned}\]

所以 $\mathrm{MSE}\leq C_1h^{2\beta}+\frac{C_2}{nh}$，故可证明上界有 $O(n^{-2\beta/(2\beta+1)})$

同时也可以证明 $\mathrm{MISE}\leq O(n^{-2\beta/(2\beta+1)})$

无穷范数

考察无穷范数时我们需要更强的假设——假设 $\xi_i$ 是独立同分布的高斯函数，均值零且方差有限。 $K$ 是 Lipschitz 核函数即 $K\in\Sigma(1,L_K),0。在同样的假设下我们可以证明其收敛速度为 \((\log n/n)^{-2\beta/(2\beta+1)}$

首先

\[\begin{aligned}\mathbb{E}_f \left\| \hat { f } _ { n } - f \right\| _ { \infty } ^ { 2 } & \leq \mathbb{E}_f\left[ \left\| \hat { f } _ { n } - \mathbf { E } \hat { f } _ { n } \right\| _ { \infty } + \left\| \mathbb{E}_f \hat { f } _ { n } - f \right\| _ { \infty } \right] ^ { 2 } \\ & \leq 2 \mathbb{E}_f \left\| \hat { f } _ { n } - \mathbb{E}_f \hat { f } _ { n } \right\| _ { \infty } ^ { 2 } + 2 \left( \sup _ { x \in [ 0,1 ] } | b ( x ) | \right) ^ { 2 } \\ & \leq 2 \mathbb{E}_f \left\| \hat { f } _ { n } - \mathbb{E}_f \hat { f } _ { n } \right\| _ { \infty } ^ { 2 } + 2 q _ { 1 } ^ { 2 } h _ { n } ^ { 2 \beta } \end{aligned}\]

记 $W_{ni}^\ast(x)=\frac{1}{nh}U^\intercal(0)\mathcal{B}_{nx}^{-1}U\left(\frac{X_i-x}{h}\right)K\left(\frac{X_i-x}{h}\right)\overset{\Delta}{=}\frac{1}{nh}U^\intercal(0)\mathcal{B}_{nx}^{-1}S_i(x)$

\[\begin{align}\mathbb{E}\lVert\widehat{f}_n-\mathbb{E}\widehat{f}_n\rVert_\infty^2&=\mathbb{E}[\sup\limits_{x\in[0,1]}\lvert \widehat{f}_n(x)-\mathbb{E}\widehat{f}_n(x)\rvert^2]\\&=\mathbb{E}[\sup\limits_{x\in[0,1]}\lvert \sum_{i=1}^{n}\xi_iW_{ni}^\ast(x)\rvert^2]\\&\leq\mathbb{E}[\sup\limits_{x\in[0,1]}\lVert \frac{1}{nh}\mathcal{B}_{nx}^{-1}\sum_{i=1}^{n}\xi_i S_i(x)\rVert^2]\\&\leq\frac{1}{\lambda_0^2n^2h^2}\mathbb{E}[\sup\limits_{x\in[0,1]}\lVert \sum_{i=1}^{n}\xi_i S_i(x)\rVert^2]\end{align}\]

核心在于估计出 $\sup\limits_{x\in[0,1]}\lVert\sum_{i=1}^{n}\xi_iS_i(x)\rVert^2$。为此，我们选定 $M=n^2$ 个“锚点”来控制住整个上界。令 $x_j=j/M,j=1,2,\ldots,M$，我们有

\[\begin{align}\sup\limits_{x\in[0,1]}\lVert\sum_{i=1}^{n}\xi_iS_i(x)\rVert^2&\leq(\max_\limits{1\leq j\leq M}\lVert\sum_{i=1}^{n}\xi_iS_i(x_j)\rVert+\sup\limits_{x,x':|x-x'|\leq 1/M}\lVert\sum_{i=1}^{n}\xi_i(S_i(x)-S_i(x'))\rVert)^2\\&\leq2(\max_\limits{1\leq j\leq M}\lVert\sum_{i=1}^{n}\xi_iS_i(x_j)\rVert)^2+2(\sup\limits_{x,x':|x-x'|\leq 1/M}\lVert\sum_{i=1}^{n}\xi_i(S_i(x)-S_i(x'))\rVert)^2\end{align}\]

由于 $K\in\Sigma(1,L_K)$, 支撑集为 $[-1,1]$，且 $U$ 是多项式组成的函数向量，可以证明

\[\lVert U(u)K(u)-U(u')K(u')\rVert\leq\bar{L}\lvert u-u'\rvert\]

所以后面一项的期望可以被控制为 \[2(\frac{\bar{L}}{Mh}\sum_{i=1}^{n}\lvert\mathbb{E}\xi_i\rvert)^2\leq\frac{2n^2\bar{L}^2}{M^2h^2}\sup\mathbb{E}\xi_i^2\leq \frac{2n^2\bar{L}^2\sigma_\max^2}{M^2h^2}\]

乘上前面的因子，得到其为 $\frac{2\bar{L}^2\sigma_\max^2}{M^2h^4}=\frac{2\bar{L}^2\sigma_\max^2}{(nh)^4}=o(\frac{1}{nh})$

所以这一块的影响不大。现在考察前面的一项，构造 $\eta_j=\frac{1}{\sqrt{nh}}\sum_{i=1}^{n}\xi_iS_i(x_j)$,其为均值为零的高斯向量。

而

\[\mathbb{E}\lVert\eta_j\rVert^2=\frac{1}{nh}\sum_{i=1}^{n}\sigma_\xi^2\left\lVert U\left(\frac{X_i-x_j}{h}\right)\right\rVert^2K^2\left(\frac{X_i-x_j}{h}\right)\leq\frac{4K_\max^2\sigma_\xi^2}{nh}\sum_{i=1}^{n}\boldsymbol{1}[\lvert X_i-x_j\rvert\leq h]\leq 4K_\max^2\sigma_\xi^2 a_0\max(2,1/nh)\]

由引理则有 $\mathbb{E}[\max_\limits{1\leq j\leq M}\lVert\eta_j\rVert^2]=O(\log M)=O(\log n)$

所以得到 $\mathbb{E}\lVert \widehat{f}-\mathbb{E}\widehat{f}\rVert_\infty^2\leq\frac{c'\log n}{nh}$

即 $\mathbb{E}\lVert\widehat{f}-f\rVert_\infty^2\leq\frac{c'\log n}{nh}+c_2'h^{2\beta}$

于是得到无穷范数的收敛速度是 $(\log n/n)^{-2\beta/(2\beta+1)}$

【Note】非参数估计(三)——非参回归和非参线性估计简介

2018-10-27T01:26:00.000Z

非参回归和非参线性估计

设 $(X,Y)$ 是实随机变量对且 $\mathbb{E}[\lvert Y\rvert]<\infty$，定义 $f : \mathbb{R}\rightarrow\mathbb{R}$ 为 $f(x)=\mathbb{E}[Y\mid X=x]$，我们就称其为 $Y$ 对 $X$ 的回归函数。不难证明，条件残差 $\varepsilon\overset{\Delta}{=}Y-\mathbb{E}[Y\mid X]$ 满足性质 $\mathbb{E}[\xi]=0$。此时我们又可写为

\[Y_i=f(X_i)+\varepsilon_i,\quad i=1,\ldots,n\]

其中 $\xi_i$ 独立同分布于 $\xi$

在非参数的背景下，我们会要求 $f$ 落在我们给定的一个非参空间 $\mathcal{F}$ 上。而我们的自变量 $\{X_1,\ldots,X_n\}$ 称为一个设计 (design)。

Fixed design

我们先讨论一个简单的情形：$X_i=i/n$，而 $f：[0,1]\rightarrow\mathbb{R}$，$Y_i=f(i/n)+\varepsilon_i$，$\varepsilon_i$ 独立同分布且均值为零。

由于有

\[\mathbb{E}[Y\lvert X]=\int yp(y\lvert x)\,\mathrm{d}y=\frac{\int yp(x,y)\,\mathrm{d}y}{p(x)}=\frac{\int yp(x,y)\,\mathrm{d}y}{\int p(x,y)\,\mathrm{d}y}\]

在给定核函数 $K$ 和带宽 $h$ 后，我们可以构造一个十分自然的估计——Nadaraya-Watson 估计如下

\[\begin{align}f_{n}^{NW}(x)=\frac{\sum_{i=1}^{n}Y_iK\left(\frac{X_i-x}{h}\right)}{\sum_{i=1}^{n}K\left(\frac{X_i-x}{h}\right)}\overset{\Delta}{=}\sum_{i=1}^{n}Y_iW_{ni}^{NW}(x)\cdot\mathbf{1} \left[ \sum_{i=1}^{n}K\left(\frac{X_i-x}{h}\right)\neq 0\right]\end{align}\]

一个特殊的情况就是取 $K(u)=\frac12\cdot\mathbf{1}[\lvert u\rvert\leq 1]$，不难看出此时 $f_n^{NW}(x)$ 即为 $[x-h,x+h]$ 区间上的 $Y_i$ 的均值，类似于滑动平均。注意到此时核函数的支撑集是有限区间。此时考察两个极端情况

$h\rightarrow \infty$ ，此时 $f$ 即为 $Y_1,\ldots,Y_n$ 的均值，该估计的偏差可能会很大，我们称这种情况为欠拟合 (underfitting) 或过光滑 (oversmoothing)
$h\rightarrow 0$ 此时 $f$ 仅在 $X_i$ 的 $h$ 邻域内取值为 $Y_i$，其他区间取值为 $0$。该估计的方差可能会很大，我们称这种情况为过拟合 (overfitting) 或欠光滑 (undersmoothing)

此时又出现了偏差和方差的权衡。

为了和之后的记号统一，我们重写 $f_n^{NW}$ 为 $f_n^{NW}=\sum\limits_{i=1}^{n}Y_i W_{ni}^{NW}(x)$，其中

\[W_{ni}^{NW}(x)=\frac{K\left(\frac{X_i-x}{h}\right)}{\sum_{j=1}^{n}K\left(\frac{X_j-x}{h}\right)}I\Bigg(\sum_{j=1}^{n}K\left(\frac{X_j-x}{h}\right)\neq 0\Bigg)\]

我们称 $\widehat{f}_n(x)=\sum_{i=1}^{n}Y_i W_{ni}(x)$ 为 $f(x)$ 的一个非参线性估计，如果 $W_{ni}(x)$ 只取决于 $n, i, x, X_1,\ldots,X_n$，且对所有 $x$ (更严格讲，几乎所有 $x$ ), $\sum\limits_{i=1}^{n}W_{ni}(x)=1$。

Random Design

选取 1 阶的核函数，并使用 $\widehat{p}_n(x)=\frac{1}{nh}\sum\limits_{i=1}^{n}K\left(\frac{X_i-x}{h}\right)$， $\widehat{p}_n(x,y)=\frac{1}{nh^2}\sum\limits_{i=1}^{n}K\left(\frac{X_i-x}{h}\right)K\left(\frac{Y_i-y}{h}\right)$。代入$f_{n}^{NW}(x)=\frac{\int y\widehat{p}_n(x,y)\,\mathrm{d}y}{\widehat{p}_n(x)}$

首先，我们有

\[\int y\widehat{p}_n(x,y)\,\mathrm{d}y=\frac{1}{nh^2}\sum\limits_{i=1}^{n}K\left(\frac{X_i-x}{h}\right) \int yK\left(\frac{Y_i-y}{h}\right)\,\mathrm{d}y\]

\[\begin{align}\int yK\left(\frac{Y_i-y}{h}\right)\,\mathrm{d}y&=\int (y-Y_i)K\left(\frac{Y_i-y}{h}\right)\,\mathrm{d}y+\int Y_iK\left(\frac{Y_i-y}{h}\right)\,\mathrm{d}y\\&=-\underbrace{\int(-hu)K(u)(-h)\,\mathrm{d}u}_{0}-\int Y_i K(u)(-h)\,\mathrm{d}u\\&=hY_i\end{align}\]

于是我们有

\[f_n^{NW}(x)=\frac{1}{nh\widehat{p}_n(x)}\sum\limits_{i=1}^{n}Y_i K\left(\frac{X_i-x}{h}\right)\]

当然，如果已知 $X$ 的分布 $p(x)$，也可以不使用 $\widehat{p}(x)$。特别的，当 $X\sim U(0,1)$ 时，有

\[\bar{f}_{nh}(x)=\frac{1}{nh}\sum\limits_{i=1}^{n}Y_i K\left(\frac{X_i-x}{h}\right)\]

这也就是 $n$ 个样本点分别贡献 $1/n$ 个 $Y_i$ 倍的核函数后的叠加。

【Note】因果推断(五)——基于模型的检验

2018-10-26T14:00:00.000Z

在前面的三节中，Fisher 和 Neyman 的方法都将潜在结果 $Y_i$ 视为定值，但只是观测到了一部分即 $Y_i^\mathrm{obs}$。随机性主要来自于分配机制 $W_i$ ；如果考虑样本是从总体抽样得到的话，这一步也会引入一定的随机性。而在回归模型以及这章中，我们将会把 $Y_i$ 同样视为随机变量——即使在考虑有限样本下依然如此。后面我们会看到，基于模型的方法1. 带来了相当大的灵活性——我们可以和之前一样给出平均组间效应，我们还可以给出分位数、给出 $Y_i$ 的方差等等。事实上，我们可以对任何估计量 $\tau=\tau(\mathbf{Y}(0),\mathbf{Y}(1))$ ，甚至 $\tau=\tau(\mathbf{Y}(0),\mathbf{Y}(1),\mathbf{W},\mathbf{X})$ 给出推断(当然，我们会要求这个 $\tau$ 是行可交换的)。 2. 可以很容易的扩展到总体样本的情况。3. 可以在观察实验(也就是我们无法对分配机制 $W_i$ 做干预) 下发挥作用。

基于模型的算法的核心只有两步

给出 $f(\mathbf{Y}^\mathrm{mis}\mid \mathbf{Y}^\mathrm{obs},\mathbf{W})$
推导 $\tau=\tau(\mathbf{Y}(0),\mathbf{Y}(1),\mathbf{W})$ 的分布并进行推断

数据

序号	$Y_i(0)$	$Y_i(1)$	$W_i$	$Y_i^\mathrm{obs}$
1	0	?	0	0
2	?	9.9	1	9.9
3	12.4	?	0	12.4
4	?	3.6	1	3.6
5	0	?	0	0
6	?	24.9	1	24.9

我们关心的是

\[\begin{align}\tau_\mathrm{fs}&=\tau(\mathbf{Y}(0),\mathbf{Y}(1))\\&=\frac{1}{6}\sum_{i=1}^{6}\big(Y_i(1)-Y_i(0)\big)\\&=\frac{1}{6}\sum_{i=1}^{6}\big((2\cdot W_i-1)(Y_i^\mathrm{obs}-Y_i^\mathrm{mis}\big)\\&=\tilde\tau(\mathbf{Y}^\mathrm{obs},\mathbf{Y}^\mathrm{mis},\mathbf{W})\end{align}\]

由于 $\mathbf{Y}^\mathrm{mis}$ 的缺失，我们只能给出估计值，此时为

$\widehat{\tau}=\tilde{\tau}(\mathbf{Y}^\mathrm{obs},\widehat{\mathbf{Y}}^\mathrm{mis},\mathbf{W})$

因此核心就在于给出 $\widehat{\mathbf{Y}}^\mathrm{mis}$

朴素模型一

使用各组观测到的平均值来替换缺失值，即

\[\mathbb{P}[Y_i^\mathrm{mis}=y\mid\mathbf{Y}^\mathrm{obs},\mathbf{W}]=\left\{\begin{array}\\1&W_i=0,\ y=12.8\\1&W_i=1,\ y=4.1\\0&\mathrm{o.w.}\end{array}\right.\]

此时给出的估计 $\widehat{\tau}=12.8-4.1=8.7=\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}=\widehat{\tau}^\mathrm{dif}$

这个方法的劣势在于，由于完全没有随机性，因此我们只能给出点估计而无法给出精确度，正如 Fisher 的方法一样。而且这样的赋值方法也没有保存下来 $Y_i$ 的方差。比如 $Y_i(1)$ 中我们已经观测到了 3.9,9.9,24.9，但我们的赋值湮灭了这一点。

朴素模型二

对于每一个缺失值，从已观测到的值中抽样，以本数据为例子就是

\[\mathbb{P}[Y_i^\mathrm{mis}=y\mid\mathbf{Y}^\mathrm{obs},\mathbf{W}]=\left\{\begin{array}\\1/3&W_i=0,\ y\in\{3.6,9.9,24.9\}\\1/3&W_i=1,\ y=12.4\\2/3&W_i=1,\ y=0\\0&\mathrm{o.w.}\end{array}\right.\]

显然此时有 $3^6=729$ 种赋值方式，使用代码跑一下得到均值 8.7，标准差 3.1

这一模型比上一模型复杂，但可以给我们一个区间估计。但他并没有囊括所有的随机性——理论上我们应该从 $Y_i$ 的精确分布中抽样然后填入缺失值，但我们这里只用了观测到的数据来替代这一行为。为了将总体的信息引入，我们使用下面的贝叶斯模型。

Y0 = c(0,0,12.4)
Y1 = c(9.9,3.6,24.9)
exacts = rep(NA, 729)
for (i in 1:729) {
  id1 = i %% 3 + 1
  id2 = round(i/3) %% 3 + 1
  id3 = round(i/9) %% 3 + 1
  id4 = round(i/27) %% 3 + 1
  id5 = round(i/81) %% 3 + 1
  id6 = round(i/243) %% 3 + 1
  y0 = c(Y0, Y0[id1], Y0[id2], Y0[id3])
  y1 = c(Y1, Y1[id4], Y1[id5], Y1[id6])
  exacts[i] = mean(y1-y0)
}
mean(exacts) # 8.666667
sd(exacts) # 3.084173
# or you can just sample to get an approximate vallue
taus = rep(NA, 10000)
set.seed(42)
for (i in 1:10000) {
  y0 = c(Y0, sample(Y0, 3, replace=T))
  y1 = c(Y1, sample(Y1, 3, replace=T))
  taus[i] = mean(y1-y0)
}
mean(taus) # 8.671788
sd(taus) # 3.069502

贝叶斯模型的建立

三个输入

潜在结果的联合分布 $f(\mathbf{Y}(0),\mathbf{Y}(1))$
由于行可交换，其可以写成各样本的乘积
$f(\mathbf{Y}(0),\mathbf{Y}(1))=\int\prod_{i=1}^{N}f(Y_i(0),Y_i(1)\mid\theta)\cdot p(\theta)\,\mathrm{d}\theta$
因此我们需要给出第二个输入
$p(\theta)$ 即参数的先验分布
在观察实验中，我们可能还需要引入 $f(\mathbf{W}\mid\mathbf{Y}(0),\mathbf{Y}(1))$。但在完全随机试验中，我们知道其在支撑集上其为常数 $\binom{N}{N_t}^{-1}$，因此无需引入。

第一步：推导 $f(\mathbf{Y}^\mathrm{mis}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W},\theta)$

首先我们有 $f(\mathbf{Y}(0),\mathbf{Y}(1),\mathbf{W}\mid\theta)=\mathbb{P}[\mathbf{W}\mid\mathbf{Y}(0),\mathbf{Y}(1),\theta]\cdot f(\mathbf{Y}(0),\mathbf{Y}(1)\mid\theta)$

接着我们有 $f(\mathbf{Y}(0),\mathbf{Y}(1)\mid\mathbf{W},\theta)=\frac{f(\mathbf{Y}(0),\mathbf{Y}(1),\mathbf{W}\mid\theta)}{\mathbb{P}[\mathbf{W}\mid\theta]}=\frac{f(\mathbf{Y}(0),\mathbf{Y}(1),\mathbf{W}\mid\theta)}{\iint f(\mathbf{Y}(0),\mathbf{Y}(1),\mathbf{W}\mid\theta)\,\mathrm{d}\mathbf{Y}(0)\mathrm{d}\mathbf{Y}(1)}$

在完全随机试验下 $\mathbf{W}\perp\!\!\!\perp (\mathbf{Y}(0),\mathbf{Y}(1))$ 即 $f(\mathbf{Y}(0),\mathbf{Y}(1)\mid\mathbf{W},\theta)=f(\mathbf{Y}(0),\mathbf{Y}(1)\mid\theta)$

注意到 $(\mathbf{Y}^\mathrm{obs},\mathbf{Y}^\mathrm{mis})$ 可以写为 $(\mathbf{Y}(0),\mathbf{Y}(1),\mathbf{W})$ 的变换，因此我们可以推导

$f(\mathbf{Y}^\mathrm{mis}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W},\theta)=\frac{f(\mathbf{Y}^\mathrm{mis},\mathbf{Y}^\mathrm{obs}\mid\mathbf{W},\theta)}{f(\mathbf{Y}^\mathrm{obs}\mid\mathbf{W},\theta)}=\frac{f(\mathbf{Y}^\mathrm{mis},\mathbf{Y}^\mathrm{obs}\mid\mathbf{W},\theta)}{\int f(\mathbf{Y}^\mathrm{mis},\mathbf{Y}^\mathrm{obs}\mid\mathbf{W},\theta)\,\mathrm{d}\mathbf{y}^\mathrm{mis}}$

这也称为 $\mathbf{Y}^\mathrm{mis}$ 的后验预测分布

第二步：推导 $p(\theta\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})$

首先我们有似然函数 $\mathcal{L}(\theta\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})\equiv f(\mathbf{Y}^\mathrm{obs},\mathbf{W}\mid\theta)=\int f(\mathbf{y}^\mathrm{mis},\mathbf{Y}^\mathrm{obs},\mathbf{W}\mid\theta)\,\mathrm{d}\mathbf{y}^\mathrm{mis}$

于是 $p(\theta\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})=\frac{p(\theta)\mathcal{L}(\theta\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})}{f(\mathbf{Y}^\mathrm{obs},\mathbf{W})}=\frac{p(\theta)\mathcal{L}(\theta\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})}{\int p(\theta)\mathcal{L}(\theta\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})\,\mathrm{d}\theta}$

第三步：推导 $f(\mathbf{Y}^\mathrm{mis}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})$

上面两式合并得 $f(\mathbf{Y}^\mathrm{mis},\theta\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})=f(\mathbf{Y}^\mathrm{mis}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W},\theta)\cdot p(\theta\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})$

于是 $f(\mathbf{Y}^\mathrm{mis}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})=\int f(\mathbf{Y}^\mathrm{mis},\theta\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})\,\mathrm{d}\theta$

第四步：推导 $f(\tau\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})$

我们知道 $\tau=\tau(\mathbf{Y}(0),\mathbf{Y}(1),\mathbf{W})=\tilde\tau(\mathbf{Y}^\mathrm{mis},\mathbf{Y}^\mathrm{obs},\mathbf{W})$

而给定 $\mathbf{Y}^\mathrm{obs},\mathbf{W}$ 后，我们可以得到 $\mathbf{Y}^\mathrm{mis}$ 的条件分布，也就可以得到 $\tau=\tilde{\tau}$ 的条件分布

贝叶斯模型(无协变量)的例子

三个输入

首先，我们假设给定参数 $\theta=(\mu_c,\mu_t)$ 后我们的服从二元正态分布如下

\[\begin{pmatrix}Y_i(0)\\Y_i(1)\end{pmatrix}\Bigg|\,\theta\sim\mathcal{N}\Bigg(\begin{pmatrix}\mu_c\\\mu_t\end{pmatrix},\begin{pmatrix}100&0\\0&64\end{pmatrix}\Bigg)\]

而我们的参数的先验为

\[\theta=\begin{pmatrix}\mu_c\\\mu_t\end{pmatrix}\sim\mathcal{N}\Bigg(\begin{pmatrix}0\\0\end{pmatrix},\begin{pmatrix}10000&0\\0&10000\end{pmatrix}\Bigg)\]

分配机制 \[\mathbb{P}[\mathbf{W}=\mathbf{w}\mid\mathbf{Y}(0),\mathbf{Y}(1),\mu_c,\mu_t]=\binom{N}{N_t}^{-1},\quad\sum_{i=1}^{N}\mathbf{w}_i=N_t\]

第一步：推导 $f(\mathbf{Y}^\mathrm{mis}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W},\theta)$

我们有 $f(\mathbf{Y}(0),\mathbf{Y}(1)\mid\mathbf{W},\theta)=f(\mathbf{Y}(0),\mathbf{Y}(1)\mid\theta)=\prod_{i=1}^{N}f(Y_i(0),Y_i(1)\mid\theta)$

$\begin{pmatrix}Y_i^\mathrm{mis}\\Y_i^\mathrm{obs}\end{pmatrix}\Bigg|\mathbf{W},\theta\sim\mathcal{N}\Bigg(\begin{pmatrix}W_i\cdot\mu_c+(1-W_i)\cdot\mu_t\\(1-W_i)\cdot\mu_c+W_i\cdot\mu_t\end{pmatrix},\begin{pmatrix}W_i\cdot100+(1-W_i)\cdot64&0\\0&(1-W_i)\cdot100+W_i\cdot\64\end{pmatrix} \Bigg)$

故 \[f(\mathbf{Y}^\mathrm{mis},\mathbf{Y}^\mathrm{obs}\mid\mathbf{W},\theta)=\prod_{i=1}^{N}f(Y_i^\mathrm{mis},Y_i^\mathrm{obs}\mid\mathbf{W},\theta)\]

则 $Y_i^\mathrm{mis}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W},\theta\sim\mathcal{N}(W_i\cdot\mu_c+(1-W_i)\cdot\mu_t,W_i\cdot100+(1-W_i)\cdot64)$

第二步：推导 $p(\theta\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})$

\[\begin{align}\mathcal{L}(\theta\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})&\propto\prod_{i:W_i=0}\frac{1}{\sqrt{2\pi\cdot 100}}\exp\left\{-\frac{1}{2}\left(\frac{1}{100}(Y_i^\mathrm{obs}-\mu_c)^2\right)\right\}\\&\quad\times\prod_{i:W_i=1}\frac{1}{\sqrt{2\pi\cdot 64}}\exp\left\{-\frac{1}{2}\left(\frac{1}{64}(Y_i^\mathrm{obs}-\mu_t)^2\right)\right\}\end{align}\]

于是 \[p(\theta\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})\propto\mathcal{L}(\theta\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})p(\theta)\]，合并指数项后可以推出

\[\theta\mid\mathbf{Y}^\mathrm{obs},\mathbf{W}\sim\mathcal{N}\Bigg(\begin{pmatrix}\bar{Y}_c^\mathrm{obs}\cdot\frac{N_c\cdot 10,000}{N_c\cdot 10,000+100}\\\bar{Y}_t^\mathrm{obs}\cdot\frac{N_t\cdot 10,000}{N_t\cdot 10,000+64}\end{pmatrix},\begin{pmatrix}(N_c/100+1/10000)^{-1}&0\\0&(N_t/64+1/10000)^{-1}\end{pmatrix}\Bigg)\]

代入数据得

\[\theta\mid\mathbf{Y}^\mathrm{obs},\mathbf{W}\sim\mathcal{N}\Bigg(\begin{pmatrix}4.1\\12.8\end{pmatrix},\begin{pmatrix}5.8^2&0\\0&4.6^2\end{pmatrix}\Bigg)\]

第三步：推导 $f(\mathbf{Y}^\mathrm{mis}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})$

$f(\mathbf{Y}^\mathrm{mis},\theta\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})=f(\mathbf{Y}^\mathrm{mis}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W},\theta)\cdot p(\theta\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})$

注意到后面这两项都是正态分布，可以推出 $f(\mathbf{Y}^\mathrm{mis}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})$ 也服从正态分布

\[\mathbb{E}[Y_i^\mathrm{mis}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W},\mu_c,\mu_t]=W_i\cdot\mu_c+(1-W_i)\cdot\mu_t\]

\[\mathbb{E}[Y_i^\mathrm{mis}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W}]=W_i\cdot\left(\bar{Y}_c^\mathrm{obs}\cdot\frac{N_c\cdot 10000}{N_c\cdot 10000+100}\right)+(1-W_i)\cdot\left(\bar{Y}_t^\mathrm{obs}\cdot\frac{N_t\cdot 10000}{N_t\cdot 10000+100}\right)\]

\[\begin{align}\mathbb{V}[Y_i^\mathrm{mis}\mid \mathbf{Y}^\mathrm{obs},\mathbf{W}]&=\mathbb{E}[\mathbb{V}[Y_i^\mathrm{mis}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W},\theta]\mid\mathbf{Y}^\mathrm{obs},\mathbf{W}]+\mathbb{V}[\mathbb{E}[Y_i^\mathrm{mis}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W},\mu_c,\mu_t]\mid\mathbf{Y}^\mathrm{obs},\mathbf{W}]\\&=W_i\cdot 100+(1-W_i)\cdot 64+W_i\cdot\frac{1}{N_c/100+1/10,000}+(1-W_i)\cdot\frac{1}{M_t/64+1/10,000}\end{align}\]

\[\begin{align}\mathbb{C}[Y_i^\mathrm{mis},Y_{i'}^\mathrm{mis}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W}]&=\mathbb{E}[\mathbb{C}[Y_i^\mathrm{mis},Y_{i'}^\mathrm{mis}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W},\mu_c,\mu_t]\mid\mathbf{Y}^\mathrm{obs},\mathbf{W}]\\&\quad+\mathbb{C}[\mathbb{E}[Y_i^\mathrm{mis}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W},\mu_c,\mu_t],\mathbb{E}[Y_{i'}^\mathrm{mis}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W},\mu_c,\mu_t]\mid\mathbf{Y}^\mathrm{obs},\mathbf{W}]\\&=0+\mathbb{C}[W_i\cdot\mu_c+(1-W_i)\cdot\mu_t,W_{i'}\cdot\mu_c+(1-W_{i'})\cdot\mu_t\mid\mathbf{Y}^\mathrm{obs},\mathbf{W}]\\&=W_i\cdot W_{i'}\cdot\frac{1}{N_c/100+1/10000}+(1-W_i)\cdot (1-W_{i'})\cdot\frac{1}{N_t/64+1/10000}\end{align}\]

利用这些信息即得分布

\[\begin{align}\left.\begin{pmatrix}Y_1^\mathrm{mis}\\Y_2^\mathrm{mis}\\Y_3^\mathrm{mis}\\Y_4^\mathrm{mis}\\Y_5^\mathrm{mis}\\Y_6^\mathrm{mis}\end{pmatrix}\right|\mathbf{Y}^\mathrm{obs},\mathbf{W}\sim\mathcal{N}\left(\begin{pmatrix}12.8\\4.1\\12.8\\4.1\\12.8\\4.1\\\end{pmatrix},\begin{pmatrix}85.3&0&21.3&0&21.3&0\\0&133.2&0&33.2&0&33.2\\21.3&0&85.3&0&21.3&0\\0&0&0&133.2&0&33.2\\21.3&0&21.3&0&85.3&0\\0&33.2&0&33.2&0&133.2\\\end{pmatrix}\right)\end{align}\]

第四步：推导 $f(\tau\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})$

$\tau_\mathrm{fs}=\tau(\mathbf{Y}(0),\mathbf{Y}(1),\mathbf{W})=\frac{1}{N}\sum_{i=1}^{N}(Y_i(1)-Y_i(0))$

$\tau_\mathrm{fs}=\tilde{\tau}(\mathbf{Y}^\mathrm{mis},\mathbf{Y}^\mathrm{obs},\mathbf{W})=\frac{1}{N}\sum_{i=1}^{N}(1-2\cdot W_i)\cdot Y_i^\mathrm{mis}+\frac{1}{N}\sum_{i=1}^{N}(2\cdot W_i-1)\cdot Y_i^\mathrm{obs}$

\[\begin{align}\mathbb{E}[\tau_\mathrm{fs}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W}]&=\frac{N_t\bar{Y}_t^\mathrm{obs}-N_c\cdot\bar{Y}_c^\mathrm{obs}}{N}+\frac{1}{N}\sum_{i=1}^{N}(1-2\cdot W_i)\cdot\mathbb{E}[Y_i^\mathrm{obs}\mid\mathbf{Y}^\mathrm{obs},\mathbf{Y}]\\&=\bar{Y}_t^\mathrm{obs}\cdot\frac{10000N_t+64N_t/N}{10000N_t+64}-\bar{Y}_c^\mathrm{obs}\cdot\frac{10000N_c+100N_c/N}{10000N_c+100}\end{align}\]

\[\begin{align}\mathbb{V}(\tau_\mathrm{fs}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})&=\frac{1}{N^2}\sum_{i=1}^{N}\mathbb{V}[(1-2\cdot W_i)\cdot Y_i^\mathrm{mis}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W}]+\frac{1}{N^2}\sum_{i=1}^{N}\sum_{i'\neq i}\mathbb{C}[(1-2\cdot W_i)\cdot Y_i^\mathrm{mis},(1-2\cdot W_{i'})\cdot Y_{i'}^\mathrm{mis}]\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})]\end{align}\]

代入数据得 $\tau_\mathrm{fs}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W}\sim\mathcal{N}(8.7,5.2^2)$

可以看到均值和之前保持一致，而方差比之前的模型增大了。这是十分合理的——因为我们现在的模型在估计 $Y_i^\mathrm{mis}$ 的时候引入了额外的随机性。

数学模拟

学过贝叶斯推断的话应该知道，很多时候我们很难像上面的推导过程一样给出精确的解析解：其难点都集中在后验分布 (如 $p(\theta\mid y), p(\tilde{y}\mid y)$) 的导出——往往我们能给出其非归一化的概率密度，即 $p(\theta\mid y)\propto p(\theta)p(y\mid\theta)$，但归一化因子 $p(y)$ 一般不好得出。事实上贝叶斯推断针对这一难点给出了相当多的解决方案——比如经典的 MCMC 方法。

仍以该题为例子说明，由于我们已经显式得得到了 $p(theta\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})$ 和 $f(\mathbf{Y}^\mathrm{mis}\mid \mathbf{Y}^\mathrm{obs},\mathbf{W},\mu_c,\mu_t)$这两个后验分布，因此我们的数值模拟是十分简单和直接的：先从后验分布采样出 $\theta_{(i)}$，然后采样出 $\mathbf{Y}^\mathrm{mis}_{(i)}$，接着计算得出 $\widehat{tau}_{(i)}$，并根据模拟结果推得均值和方差。一份简单的模拟如下

set.seed(42)
taus = rep(NA, 10000)
y_obs_0_mean = mean(c(0, 12.4, 0))
y_obs_1_mean = mean(c(9.9, 3.6, 24.9))
tau_obs = y_obs_1_mean - y_obs_0_mean
for (i in 1:10000) {
  mu_c = rnorm(1, 4.1, 5.8)
  mu_t = rnorm(1, 12.8, 4.6)
  y_mis_0_mean = mean(rnorm(3, mu_c, 10))
  y_mis_1_mean = mean(rnorm(3, mu_t, 8))
  tau_mis = y_mis_1_mean - y_mis_0_mean
  taus[i] = (tau_obs + tau_mis) / 2
}
mean(taus) # 8.748153
sd(taus) # 5.195695

如果没有简单的形式，则采样的时候需要使用其他的方法从非归一化的概率密度中进行采样。详细的介绍在之前写过的【Series】贝叶斯数据分析中的采样章节有着详细的介绍。

变形——去除潜在结果间的独立性假设

在上面的推到中，我们假设 $Y_i(0),Y_i(1)$ 是独立(至少不相关)的，即

$Y_i(0),Y_i(1)\mid\theta\sim\mathcal{N}\left(\begin{pmatrix}\mu_c\\\mu_t\end{pmatrix},\begin{pmatrix}\sigma_c^2&0\\0&\sigma_t^2\end{pmatrix}\right)$

现在我们将其放宽至

$Y_i(0),Y_i(1)\mid\theta\sim\mathcal{N}\left(\begin{pmatrix}\mu_c\\\mu_t\end{pmatrix},\begin{pmatrix}\sigma_c^2&\rho\sigma_c\sigma_t\\\rho\sigma_c\sigma_t&\sigma_t^2\end{pmatrix}\right)$

为此，$\theta=(\mu_c,\mu_t,\sigma_c^2,\sigma_t^2,\rho)$ ,此时 $p(\theta)=p(\rho)\cdot p(\mu_c,\mu_t,\sigma_c^2,\sigma_t^2)$

但如果推导一下 $f(Y_i^\mathrm{obs}\mid\mathbf{W},\theta)$，就会发现其和 $\rho$ 无关，因此我们的似然函数 $\mathcal{L}$ 也和 $\rho$ 无关。（这是十分自然的：我们每次只拿到了 $Y_i(0),Y_i(1)$ 的一个，凭此数据不可能得到 $\rho$ 的有效推断——因为数据中完全不包含这一信息，事实上，贝叶斯推断里也专门针对此问题有过讨论），因此参数 $\rho$ 的后验分布也会等于先验分布，因为数据无法提供信息进行更新。

现在考虑一个具体而极端的例子——$\rho=1$

$Y_i(0),Y_i(1)\mid\theta\sim\mathcal{N}\left(\begin{pmatrix}\mu_c\\\mu_t\end{pmatrix},\begin{pmatrix}100&80\\80&64\end{pmatrix}\right)$

可以导出

$\begin{pmatrix}Y_i^\mathrm{mis}\\Y_i^\mathrm{obs}\end{pmatrix}\Bigg|\mathbf{W},\theta\sim\mathcal{N}\Bigg(\begin{pmatrix}W_i\cdot\mu_c+(1-W_i)\cdot\mu_t\\(1-W_i)\cdot\mu_c+W_i\cdot\mu_t\end{pmatrix},\begin{pmatrix}W_i\cdot100+(1-W_i)\cdot64&80\\80&(1-W_i)\cdot100+W_i\cdot64\end{pmatrix} \Bigg)$

由于此时协方差不为零，导致 $Y_i^\mathrm{mis}$ 的边缘分布发生了变化，为

$Y_i^\mathrm{mis}\mid Y_i^\mathrm{obs},\mathbf{W},\theta\sim\mathcal{N}(W_i\cdot(\mu_c+\frac{80}{64}(Y_i^\mathrm{obs}-\mu_t)+(1-W_i)\cdot(\mu_t+\frac{80}{100}(Y_i^\mathrm{obs}-\mu_t),0)$

这里方差为 $0$ 可以直接推导，也可以由 $\rho=1$ 直接给出。

注意到参数后验 $p(\theta\mid\mathbf{Y}^\mathrm{obs},\mathbf{W})$ 不因为 $\rho$ 的引入而改变，因此和之前的推导一致。

类似的，最后可以得到 $Y_i^\mathrm{mis}$ 的后验期望、方差和协方差，并得到 $\tau_\mathrm{fs}$的方差和协方差。代入数据最后得到结果

$\tau\mid\mathbf{Y}^\mathrm{obs},\mathbf{W}\sim\mathcal(8.7,7.7^2)$

均值没变——这自然符合预期。方差进一步增大——这可能有点困惑。但如果读者之前看到 Neyman 里面的方差和 $\rho_{tc}$ 的关系后，应该能够理解这一现象。

变形——引入协变量

此时模型变形为

\[f(Y_i(0),Y_i(1),X\,\mid\,\theta_{Y\mid X},\theta_X)=f(Y_i(0),Y_i(1)\mid X,\theta_{Y\mid X})\cdot f(X\mid\theta_X)\]

引入的先验为 $p(\theta_{Y\mid X},\theta_X)=p(\theta_{Y\mid X})\cdot p(\theta_X)$

这一独立性假设在实践中通常会被采用，但其不总是无害的——比如协变量包含之前观测的时序数据，特别是和结果 $Y$ 高度相关的，那么我们的参数 $\theta_X$ 可能会含有很强的控制组的分布的信息，但这一假设通常会大大简化我们的模型——我们只需对 $f(Y_i(0),Y_i(1)\mid X_i,\theta_{Y\mid X})$ 进行建模，仍以二元正态为例，此时为

$Y_i(0),Y_i(1)\mid X_i,\theta\sim\mathcal{N}\left(\begin{pmatrix}X_i\beta_c\\X_i\beta_t\end{pmatrix},\begin{pmatrix}\sigma_c^2&0\\0&\sigma_t^2\end{pmatrix}\right)$

其中 $\theta=(\beta_c,\beta_t,\sigma_c^2,\sigma_t^2)$

而后续的步骤完全一样。

变形——考察全体分布下的估计

之前讨论的都是有限样本下的估计，现在我们将样本视为从一个全体分布抽样得到的结果，再次考察 $\tau_\mathrm{sp}=\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)]$

当我们的模型已经建立好时，通常 $\tau_\mathrm{sp}$ 可以视为参数 $\theta$ 的一个函数，即

\[\tau_\mathrm{sp}=\tau(\theta)=\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)\mid\theta]=\iint (Y(1)-Y(0))f(Y(1),Y(0)\mid\theta)\,\mathrm{d}Y(1)\mathrm{d}Y(0)\]

在我们之前的模型种，则就是 $\tau_t-\tau_c$

如果有协变量，则 $\tau_\mathrm{sp}=\mathbb{E}_\mathrm{sp}[\tau(\theta,\mathbf{X})]$ 其中 $\tau(\theta,\mathbf{X})=\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)\mid\mathbf{X},\theta]$

实际计算时，我们只需从 $\theta$ 的后验分布中采取大量样本，然后计算 $\tau(\theta)$，即可得到均值和方差，而无需再次从 $f(\mathbf{Y}^\mathrm{mis}\mid\mathbf{Y}^\mathrm{obs},\mathbf{W},\theta)$ 中抽样再计算。

回到我们之前的例子，由于

\[\theta\mid\mathbf{Y}^\mathrm{obs},\mathbf{W}\sim\mathcal{N}\Bigg(\begin{pmatrix}4.1\\12.8\end{pmatrix},\begin{pmatrix}5.8^2&0\\0&4.6^2\end{pmatrix}\Bigg)\]

我们可以得到 $\tau_\mathrm{sp}=\mu_t-\mu_c\mid\mathbf{Y}^\mathrm{obs},\mathbf{W}\sim\mathcal{N}(12.8-4.1,5.8^2+4.6^2)\sim\mathcal{N}(8.7,7.4^2)$

同样均值一样，但是方差比独立下的方差来得大 ($5.2^2$)，因为我们引入了样本的随机性，即使我们获得了我们拿到的样本的所有潜在结果并精确的算出了 $\tau_\mathrm{fs}$，我们仍然对 $\tau_\mathrm{sp}$ 抱有一定的随机性；但比 $\rho=1$ 的极端情况来的小 $7.7^2$。而 $\rho=1$ 则相当于给出了一个最坏的、最保守的一个估计，但同时也给出了 $\tau_\mathrm{sp}$ 的一个无偏估计。

另外值得注意的是，我们关注的量 $\tau_\mathrm{sp}$ 不依赖于 $\rho$，因为似然函数不包含 $\rho$，则$\tau$ 的后验分布也不会包含 $\rho$，如果 $\rho$ 和 $\mu_c,\mu_t$ 独立的话。

【Note】统计杂文——概率母函数、矩母函数和特征函数

2018-10-23T17:00:00.000Z

母函数

概率母函数

定义

设 $X$ 是非负整数的随机变量，定义其概率母函数 (probability-generating function)为

\[g(s)=\mathbb{E}[s^X]=\sum_{j=0}^{\infty} s^j\mathbb{P}[X=j], s\in[-1,1]\]

其中约定 $0^0=1$。显然 $g(s)$ 在 $[-1,1]$ 绝对收敛

性质

$\mathbb{P}[X=k]=\frac{g^{(k)}(0)}{k!},\ k=0,1,\ldots$，这说明概率母函数和概率分布列一一对应
$\mathbb{E}[X]=g^{(1)}(1)$
若 $\mathbb{E}[X]<\infty$，则 $\mathrm{Var}[X]=g^{(2)}(1)+g^{(1)}(1)-[g^{(1)}(1)]^2$
若 $X_1,\ldots,X_n$ 相互独立，$Y=X_1+\cdots+X_n$，则 $g_Y(s)=g_{X_1}(s)\cdots g_{X_n}(s),s\in[-1,1]$
$X_1,X_2,\ldots$ 是独立同分布的非负整数随机变量，概率母函数为 $\psi(x)$; $N$ 为取正整数值的随机变量且独立于 $X_i$，概率母函数为 $G(s)$。则 $Y=X_1+\cdots+X_N$ 的概率母函数为 $H(s)=G[\psi(s)]$

只给出性质五的证明

\[\begin{align}H(s)&=\mathbb{E}[\mathbb{E}[S^W\mid Y]]\\&=\sum_{n=1}^{\infty}\mathbb{E}[s^{X_1+\cdots+X_n}]\mathbb{P}[Y=n]\\&=\sum_{n=1}^{\infty}[\psi(s)]^n\mathbb{P}[Y=n]=G[\psi(s)]\end{align}\]

例子

二项分布

二项分布 $B(n,p)$ 的概率母函数为 $g(s)=(sp+q)^n$

由此立得若 $X_i,\ldots,X_m$ 独立，且$X_i\sim B(n_i,p)$，则$Y=X_1+\cdots+X_m\sim B(n_1+\cdots+n_m,p)$

泊松分布

泊松分布 $\mathcal{P}(\lambda)$ 的概率母函数为 $g(s)=e^{\lambda(s-1)}$

由此立得若 $X_i,\ldots,X_m$ 独立，且$X_i\sim \mathcal{P}(\lambda_i)$，则$Y=X_1+\cdots+X_m\sim \mathcal{P}(\lambda_1+\cdots+\lambda_m)$

几何分布

几何分布 $G(p)$ 的概率母函数为 $g(s)=\frac{sp}{1-sq}$

由此立得若 $X_i,\ldots,X_m$ 独立，且$X_i\sim G(p)$，则$S_m=X_1+\cdots+X_m$ 有概率母函数 \[\begin{align}g_{S_m}(s)&=\left(\frac{sp}{1-sq}\right)^m\\&=(sp)^m\sum_{j=0}^{\infty}\frac{m(m+1)\cdots(m+j-1)}{j!}(sq)^j\\&=(sp)^m\sum_{j=0}^{\infty}\binom{m+j-1}{j}(sq)^j\\&=\sum_{k=m}^{\infty}\binom{k-1}{m-1}p^mq^{k-m}s^k\end{align}\]

于是得 Pascal 分布 \[\mathbb{E}[S_m=k]=\binom{k-1}{m-1}p^mq^{k-m}\]

求概率

求扔三颗骰子，总点数为 9 的概率。记 $X_i$ 为第 $i$ 颗骰子的点数，其概率母函数

\[g(s)=\mathbb{E}[s^{X_1}]=\frac{1}{6}(s+s^2+\cdots+s^6)=\frac{1}{6}\frac{s(1-s^6)}{1-s}\]

则 $Y=X_1+X_2+X_3$ 的概率母函数为

\[g_Y(s)=[g_X(s)]^3=\frac{s^3(1-s^6)^3}{6^3(1-s)^s}=\frac{1}{6^3}(s^3)(1-3s^6+3s^{12}-s^{18})\sum_{k=0}^{\infty}\binom{k+2}{2}s^k\]

则 $s^9$ 的系数为 \[\mathbb{P}(Y=9)=\frac{1}{6^3}[\binom{6+2}{2}-3]=\frac{25}{216}\]

推广——二维概率母函数

设 $(X,Y)$ 是二维取非负整数值的随机向量，记 $p_{ik}=\mathbb{P}[X=i,Y=k]$，则其二维概率母函数为

\[g(s,t)=\mathbb{E}[s^Xt^Y]=\sum_{i=0}^{infty}\sum_{k=0}^{\infty}p_{ik}s^it^k,\quad s,t\in[-1,1]\]

其有如下性质

$\lvert g(s,t)\rvert\leq g(1,1)=1,\lvert s\rvert\leq 1,\lvert t\rvert\leq 1$
$g_{aX+bY+c}(s)=s^cg(s^a,s^b)$
若 $X,Y$ 独立，则 $g(s,t)=g_X(s)g_Y(t)$
$g(s,1)=g_X(s),g(1,t)=g_Y(t)$
若 $\mathbb{E}[X]<\infty,\mathbb{E}[Y]<\infty$，则 \[\mathbb{E}[X]=\frac{\partial g(s,t)}{\partial s}\big|_{s=t=1},\mathbb{E}[Y]=\frac{\partial g(s,t)}{\partial t}\big|_{s=t=1}\]
若 $\mathbb{E}[X^2]<\infty,\mathbb{E}[Y^2]<\infty$，则 \[\mathbb{E}[X^2]=\frac{\partial^2 g(s,t)}{\partial s^2}\big|_{s=t=1},\mathbb{E}[Y^2]=\frac{\partial^2 g(s,t)}{\partial t^2}\big|_{s=t=1},\mathbb{E}[XY]=\frac{\partial^2 g(s,t)}{\partial s\partial t}\big|_{s=t=1}\]
$p_{ik}=\frac{1}{i!k!}\frac{\partial^{i+k}g(s,t)}{\partial s^i\partial t^k}\big |_{s=t=0},\ i,k=0,1,\ldots$

局限

只能对取非负整数值的随机变量定义

矩母函数

定义

设 $X$ 是随机变量，定义其矩母函数 (moment-generating function)为

\[M_X(s)=\mathbb{E}[e^{sX}]\]

仅当 $\mathbb{E}[e^{sX}]<\infty$ 时，我们称 $M_X(s)$ 存在

性质

$M_{aX+b}(s)=e^{sb}M(sa)$
$\mathbb{E}[X^k]=M^{(k)}(0),k=1,2,\ldots$
$M(0)=1$
可逆性：若$\exists a>0,\forall s\in[-a,a], M(s)<\infty$，则 $M(s)$ 唯一地决定了 $X$ 的分布函数
若 $X_1,\ldots,X_n$ 独立，$Y=X_1+\cdots+X_n$，则$M_{Y}(s)=M_{X_1}(s)\cdots M_{X_n}(s)$
$X_1,X_2,\ldots$ 独立同分布，矩母函数为 $M_X(s)$; $N$ 为取正整数值的随机变量，矩母函数为 $M_N(s)$。则 $Y=X_1+\cdots+X_Y$ 的矩母函数为 $M_Y(s)=\mathbb{E}[\mathbb{E}[e^{sY}\mid N=n]]=\mathbb{E}[(M_X(s))^n]=\sum_{n=1}^{\infty}(M_X(s))^n\mathbb{P}[N=n]$
而 $M_N(s)=\sum_{n=1}^{\infty}[e^s]^n\mathbb{P}[N=n]$ 二者有紧密的联系：将 $M_N(s)$ 中出现的 $e^s$ 替换为 $M_X(s)$ 即可

例子

离散型

X	2	3	5
$\mathbb{P}$	1/2	1/6	1/3

$M(s)=\frac{1}{2}e^{2s}+\frac{1}{6}e^{3s}+\frac{1}{3}e^{5s}$

$\mathbb{E}[X]=M^{(1)}(0)=(\frac{1}{2}2e^{2s}+\frac{1}{6}3e^{3s}+\frac{1}{3}5e^{5s})|_{s=0}=\frac{19}{6}$

\[\mathbb{E}[X^2]=M^{(2)}(0)=(\frac{1}{2}4e^{2s}+\frac{1}{6}9e^{3s}+\frac{1}{3}25e^{5s})|_{s=0}=\frac{71}{6}\]

指数分布

设 $X\sim \mathcal{E}(\lambda)$，则当 $s<\lambda$ 时，有

\[M(s)=\lambda\int_0^\infty e^{sx}e^{-\lambda x}\,\mathrm{d}x=\frac{\lambda}{s-\lambda}e^{(s-\lambda)x}|{x=0}^{\infty}=\frac{\lambda}{\lambda-s}\]

而当 $s\ge\lambda$ 时 $M(s)$ 不存在

\[\mathbb{E}[X]=M^{(1)}(0)=\frac{\lambda}{(\lambda-s)^2}|_{s=0}=\frac{1}{\lambda}\]

\[\mathbb{E}[X]=M^{(2)}(0)=\frac{2\lambda}{(\lambda-s)^3}|_{s=0}=\frac{2}{\lambda^2}\]

正态分布

\[X\sim\mathcal{N}({\mu_1,\sigma_1^2}),Y\sim\mathcal{N}(\mu_2,\sigma_2^2), X,Y\] 相互独立，求 $Z=X+Y$ 的分布

先计算标准正态分布的矩母函数，由定义求得 $M(s)=e^{s^2/2}$

根据矩母函数的性质，有 $M_X(s)=e^{\mu_1 s}e^{\sigma_1^2s^2/2},M_Y(s)=e^{\mu_2 s}e^{\sigma_2^2s^2/2},M_Z(s)=e^{(\mu_1+\mu_2) s}e^{(\sigma_1^2+\sigma_2^2)s^2/2}$

于是 $Z\sim\mathcal{N}(\mu_1+\mu_2,\sigma_1^2+\sigma_2^2)$

复合随机变量

不断进行成功概率为 $p$ 的伯努利实验直至成功，每次实验的耗时服从参数 $\lambda$ 的指数分布，且完全独立。求总耗时的分布

首先 $X_i\sim\mathcal{E}(\lambda), N\sim G(p), Y=X_1+\cdots+X_N$ , 当 $s<\lambda$ 时有 $M_{X_i}(s)=\frac{\lambda}{\lambda-s}$ ，而 $M_N(s)=\frac{pe^s}{1-qe^s}$ ，故

\[M_Y(s)=\frac{p M_X(s)}{1-qM_X(s)}=\frac{p\lambda}{\lambda-s-q\lambda}=\frac{p\lambda}{p\lambda-s}\]

推广——随机向量的矩母函数

设 $\overset{\rightarrow}{X}=(X_1,X_2,\ldots,X_n)^\intercal$，则其矩母函数定义为

\[M_\overset{\rightarrow}{X}(\overset{\rightarrow}{s})=\mathbb{E}[e^{\overset{\rightarrow}{s}^\intercal\overset{\rightarrow}{X}}]=\mathbb{E}[e^{s_1X_1+\cdots+s_nX_n}]\]

局限性

有些分布的矩母函数不存在，因为其积分发散，如 Cauchy 分布。为此我们引入特征函数来保证可积性。

特征函数

定义

对随机变量 $X$ ，定义其特征函数 (characteristic function) 为

\[\phi(t)=\mathbb{E}[e^{itX}]=\mathbb{E}[\cos(tX)]+i\mathbb{E}[\sin(tX)], t\in \mathbb{R}\]

性质

$\lvert \phi(t)\rvert\leq \phi(0)=1,\quad\phi(-t)=\overline{\phi(t)}$
$\phi(t)$ 在 $(-\infty,\infty)$ 一致连续
若 $\mathbb{E}[\lvert X\rvert^k]<\infty$，则 $\phi^{(k)}(t)=i^k\mathbb{E}[X^k e^{itX}],\phi^{(k)}(0)=i^k\mathbb{E}[X^k]$
非负定性：$\forall t_1,\ldots,t_n\in\mathbb{R},\forall z_1,\ldots,z_n\in\mathbb{C},\sum_{k=1}^{n}\sum_{j=1}^{n}\phi(t_k-t_j)z_k\bar{z}_j\ge 0$
若 $X_1,\ldots,X_n$ 相互独立， $X_k$ 特征函数为 $\phi_k(t)$，则 $Y=X_1+\cdots+X_n$ 的特征函数为 $\phi_Y(t)=\phi_1(t)\cdots\phi_{k}(t)$。注意，逆命题不成立，后面给出了例子。

例子

二项分布

二项分布 $B(n,p)$ 的特征函数为 $\phi(t)=(e^{it}p+q)^n$

(对比其概率母函数 $g(s)=(sp+q)^n$)

泊松分布

泊松分布 $\mathcal{P}(\lambda)$ 的特征函数为 $\phi(t)=e^{\lambda(e^{it}-1)}$

(对比其概率母函数 $g(s)=e^{\lambda(s-1)}$)

几何分布

几何分布 $G(p)$ 的特征函数为 $\phi(t)=\frac{pe^{it}}{1-qe^{it}}$

(对比其概率母函数 $g(s)=\frac{sp}{1-sq}$)

正态分布

正态分布 $\mathcal{N}(\mu,\sigma^2)$ 有特征函数 $\phi(t)=e^{i\mu t}e^{-\frac{1}{2}\sigma^2t^2}$

(对比其矩母函数 $M(s)=e^{\mu s}e^{\sigma^2s^2/2}$)

先考察标准正态分布。正态分布的特征函数推导不太容易，一种不太严谨的做法是做形式化运算，将 $i$ 视为常数，则

\[\phi(t)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^\infty e^{itx}e^{-x^2/2}\,\mathrm{d}x=e^{-t^2/2}\frac{1}{\sqrt{2\pi}}\int_{-\infty}^\infty e^{-(x-it)^2/2}\,\mathrm{d}x=e^{-t^2/2}\]

严格的数学推导需要一定复变函数的背景知识。

首先 $\phi(t)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^\infty e^{itx}e^{-x^2/2}\,\mathrm{d}x=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^\infty \cos(tx)e^{-x^2/2}\,\mathrm{d}x$

对 $t$ 求导得 \[\begin{align}\phi'(t)&=-\frac{1}{\sqrt{2\pi}}\int_{-\infty}^\infty x\sin(tx)e^{-x^2/2}\,\mathrm{d}x\\&=\frac{1}{\sqrt{2\pi}}\int_{-\infty}\sin(tx)\,\mathrm{d}e^{-x^2/2}\\&=-\frac{1}{\sqrt{2\pi}}\int_{-\infty}^\infty t\cos(tx)e^{-x^2/2}\,\mathrm{d}x\\&=-t\phi(t)\end{align}\]

即 \[\frac{\mathrm{d}}{\mathrm{d}t}[\phi(t)e^{t^2/2}]=0\]，则 $\phi(t)e^{t^2/2}=C=\phi(0)=1$，得 $\phi(t)=e^{-t^2/2}$

由此再求一般正态的特征函数

\[\mathbb{E}[e^{it(\mu+\sigma X)}]=e^{it\mu}\mathbb{E}[e^{it\sigma X}]=e^{it\mu}e^{-\sigma^2t^2/2}\]

同时，若 $X_1,\ldots,X_m$ 相互独立，$X_j\sim\mathcal{\mu_j,\sigma_j^2}$，则

\[Y=X_1+\cdots+X_m\sim\mathcal{N}(\sum_{j=1}^{m}\mu_j,\sum_{j=1}^{m}\sigma_j^2)\]

均匀分布

均匀分布 $\mathcal{U}(a,b)$ 的特征函数为 $\phi(t)=\frac{e^{itb}-e^{ita}}{it(b-a)}$

指数分布

指数分布 $\mathcal{E}(\lambda)$ 的特征函数为 $\phi(t)=(1-\frac{it}{\lambda})^{-1}$

(与矩母函数 $M(s)=\frac{\lambda}{\lambda-s}=\frac{1}{1-s/\lambda}=(1-s/\lambda)^{-1}$ 对比)

柯西分布

$f(x)=\frac{1}{\pi(1+x^2)}$，其特征函数为 $\phi(t)=e^{-\lvert t\rvert}$

取 $Y=aX,(a>0)$，则 $\phi_Y(t)=\mathbb{E}[e^{i(at)X}]=e^{-a\lvert t\rvert}$，此时

\[\phi_{X+Y}(t)=\mathbb{E}[e^{it(1+a)X}]=e^{-(1+a)\lvert t\rvert}=\phi_X(t)\phi_Y(t)\]，但显然 $X,Y$ 不独立

拉普拉斯分布

$f(x)=\frac{1}{2}e^{-\lvert x\rvert}$ ，其特征函数为 $\phi(t)=\frac{1}{1+t^2}$

注意它和柯西分布的“对称性”

有趣的例题

$\phi(t)$ 是特征函数，证明 $\bar{\phi},\phi^2,\lvert\phi\rvert^2,Re[\phi]$ 都是特征函数
设 $X,Y$独立同分布且特征函数为 $\phi$，则前三个分别为 $-X,X+Y,X-Y$
第四个构造独立于 $X$ 的随机变量 $Z$ 且 $\mathbb{P}[Z=\pm 1]=0.5$，则$XZ$ 的特征函数为 $Re[\phi]$
$\phi(t)$ 是特征函数，则 $\lvert\phi(t)\rvert$ 未必是特征函数
设 $X\sim B(1,1/3)$，$\phi(t)=\frac{2}{3}+\frac{1}{3}e^{it}$ 。设 $Y$ 的特征函数为 $\psi(t)=\lvert\phi(t)\rvert$,则 $\psi^2(t)=\phi(t)\phi(-t)$，即 $Y_1+Y_2$ 和 $X_1-X_2$ 同分布。其中 $Y_1,Y_2$ 与 $Y$ 独立同分布，$X_1,X_2$ 与 $X$ 独立同分布。由于 $X_1-X_2\in\{-1,0,1\}$，则 $Y_i\in\{-0.5,0.5\}$，记 $\mathbb{P}[Y_1=0.5]=\alpha$。则
\[\mathbb{P}[Y_1+Y_2=1]=\alpha^2=\mathbb{P}[X_1-X_2=1]=2/9\]
\[\mathbb{P}[Y_1+Y_2=-11]=(1-\alpha)^2=\mathbb{P}[X_2-X_1=1]=2/9\]
此时 $\alpha$ 无解
\[X_1,\ldots,X_4\] 独立同标准正态分布，则
\[X_1X_2\]的特征函数为 $\frac{1}{\sqrt{1+t^2}}$
\[X_1X_2+X_3X_4\] 的特征函数为 $\frac{1}{1+t^2}$，即服从拉普拉斯分布
$X,Y$独立同标准正态分布，$U,V$独立于 $X,Y$，则$Z=\frac{UX+VY}{\sqrt{U^2+V^2}}\sim\mathcal{N}(0,1)$
利用已知结果若 $a>0,b>0$，则$I(a,b)=\int_0^\infty\exp\{-a^2u^2-b^2u^{-2}\}\,\mathrm{d}u=\frac{e^{-2ab}\sqrt{\pi}}{2a}$
证明若 $f(x)=\frac{1}{2\pi x^3}\exp(-\frac{1}{2x}),x>0$，则 $\mathbb{E}[e^{-tX}]=\exp(-\sqrt{2t})$
$X,Y,Z$独立同标准正态分布，则
1. $X/Y$服从柯西分布
2. $1/X^2$的概率密度函数为 5. 中结果
3. $(XYZ)/\sqrt{X^2Y^2+Y^2Z^2+Z^2X^2}\sim\mathcal{N}(0,1/9)$
$X_n$ 有分布函数 $F_n(x)=x-\frac{\sin(2n\pi x)}{2n\pi},0\leq x\leq 1$
1. $X_n$ 有密度函数 $f_n(x)=1-\cos(2n\pi x),0\leq x\leq 1$
2. $F_n(x)$ 弱收敛于 $\mathcal{U}[0,1]$，但 $f_n(x)$ 不收敛

【Note】因果推断(四)——回归模型

2018-10-23T06:55:00.000Z

回归模型

回归模型关注的则是，如果使用协变量的信息来更好地估计组间效应。在之前我们已经知道我们可以给出组间效应的一个无偏的点估计，因此引入协变量其实就是出于减小方差的目的。事实上，在之前的学习中也开始有引入协变量的想法，比如在构造统计量的时候使用相关的信息；而回归这节则是系统的分析协变量的效用。

记号

首先明确的是，在回归模型中，我们讨论的都是在 super population 下的，也就是样本中的潜在结果其实自身也有随机性的。因此采用的记号基本上也是沿用了 Neyman 那一章中关于 super popolation 的记号

\[\tau_\mathrm{fs}=\frac{1}{N}\sum\limits_{i=1}^{N}(Y_i(1)-Y_i(0)),\quad\tau_\mathrm{sp}=\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)]\]

\[\mu_c(x)=\mathbb{E}_\mathrm{sp}[Y_i(0)\mid X_i=x],\quad \mu_t(x)=\mathbb{E}_\mathrm{sp}[Y_i(1)\mid X_i=x]\]

\[\sigma_c(x)=\mathbb{V}_\mathrm{sp}[Y_i(0)\mid X_i=x],\quad \sigma_t(x)=\mathbb{V}_\mathrm{sp}[Y_i(1)\mid X_i=x]\]

\[\tau(x)=\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)\mid X_i=x],\quad\sigma_{ct}^2(x)=\mathbb{V}_\mathrm{sp}[Y_i(1)-Y_i(0)\mid X_i=x]\]

\[\mu_c=\mathbb{E}_\mathrm{sp}[\mu_c(X_i)],\quad \mu_t=\mathbb{E}_\mathrm{sp}[\mu_t(X_i)]\]

\[\sigma_c^2=\mathbb{E}_\mathrm{sp}[\sigma_c^2(X_i)]+\mathbb{V}_\mathrm{sp}[\mu_c(X_i)],\quad\sigma_t^2=\mathbb{E}_\mathrm{sp}[\sigma_t^2(X_i)]+\mathbb{V}_\mathrm{sp}[\mu_t(X_i)]\]

\[\mu_X=\mathbb{E}_\mathrm{sp}[X_i],\quad\Omega_X=\mathbb{V}_\mathrm{sp}[X_i]=\mathbb{E}_\mathrm{sp}[(X_i-\mu_X)^\intercal(X_i-\mu_X)]\]

无协变量的回归

回归模型为 $Y_i^\mathrm{obs}=\alpha+\tau\cdot W_i+\varepsilon_i$

最小二乘估计 $(\widehat{\tau}^\mathrm{ols},\widehat{\alpha}^\mathrm{ols})=\arg\min\limits_{\tau,\alpha}\sum_{i=1}^{N}(Y_i^\mathrm{obs}-\alpha-\tau\cdot W_i)^2$

由线性回归直接写出

\[\widehat{\tau}^\mathrm{ols}=\frac{\sum_{i=1}^N(W_i-\bar{W})(Y_i^\mathrm{obs}-\bar{Y}^\mathrm{obs})}{\sum_{i=1}^N(W_i-\bar{W})^2}=\frac{\sum_{i=1}^{N}W_iY_i^\mathrm{obs}-N\bar{W}\bar{Y}^\mathrm{obs}}{N_tN_c/N}=\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}=\widehat{\tau}^\mathrm{dif}\]

$\widehat{\alpha}^\mathrm{ols}=\bar{Y}^\mathrm{obs}-\widehat{\tau}^\mathrm{obs}\cdot\bar{W}=\bar{Y}_c^\mathrm{obs}$

$\tau$ 的最小二乘估计通常会被解释为因果性 (因为施加了不同的处理)，这在随机化实验中是显式的，而在观察实验（也就是不能或没有设计实验，只是拿到了结果）里是隐式的。在最小二乘估计的求解中，我们假设了 $\varepsilon_i$ 是独立于，或至少是不相关于 $W_i$ 。这一假设通常难以被验证，因为这些残差通常被解释为一切没有被注意到的因子造成的影响。因此，统计教材中通常只把 $\tau$ 解释为 $W_i$ 和 $Y_i^\mathrm{obs}$ 的 相关性 而非 因果性 。但在这里，由于 $\widehat{\tau}^\mathrm{ols}= \widehat{\tau}^\mathrm{dif}$ 是 $\tau_\mathrm{fs}$ 和 $\tau_\mathrm{sp}$ 的无偏估计，因此他们有了 因果性。但是，使用线性回归的方法来阐述 $\widehat{\tau}^\mathrm{ols}$ 的因果性是有用的。

在全体样本的视角下，此时回归模型也就是 \[Y_i^\mathrm{obs}=\mu_c+(\mu_t-\mu_c)\cdot W_i+\varepsilon_i=\mathbb{E}_\mathrm{sp}[Y_i(0)]+\tau_\mathrm{sp}\cdot W_i+\varepsilon_i\]

当然，这些的成立都是因为完全随机化实验带来的保证，包括

\[W_i\perp (Y_i(0), Y_i(1)),\quad\mathbb{E}_\mathrm{sp}[\varepsilon_i\mid W_i=w]=0\ (w=0,1)\,\quad\mathbb{V}_\mathrm{sp}[\varepsilon_i\mid W_i]=\sigma_t^2W_i+\sigma_c^2(1-W_i)\]

为方便记

\[\beta=(\alpha,\tau)\qquad X=\begin{pmatrix}1_{N_c}&0_{N_c}\\1_{N_t}&1_{N_t}\end{pmatrix}\qquad H=(X^\intercal X)^{-1}X^\intercal=\begin{pmatrix}\frac{1_{N_c}}{N_c}&\frac{-1_{N_c}}{N_c}\\\frac{0_{N_t}}{N_t}&\frac{1_{N_t}}{N_t}\end{pmatrix}^\intercal\qquad\Sigma=\mathbb{V}_\mathrm{sp}[\varepsilon\mid X]\]

则 $\widehat{\beta}=HY^\mathrm{obs}=\beta+H\varepsilon$ ，其中第二项满足渐进正态性。而 $\mathrm{Var}(\widehat{\beta})=H\Sigma H^\intercal$

先考察简单的情况，即 $\sigma_c^2=\sigma_t^2=\sigma_{Y\mid W}^2,\,\Sigma=\mathrm{diag}(\sigma^2,\ldots,\sigma^2)$ 此时可以给出估计量

$\widehat{\sigma}_{Y\mid W}^2=\frac{1}{N-2}\sum_{i=1}^{N}\widehat{\varepsilon}_i^2=\frac{1}{N-2}\Big(\sum\limits_{i:W_i=0}(Y_i^\mathrm{obs}-\bar{Y}_c^\mathrm{obs})^2+\sum\limits_{i:W_i=1}(Y_i^\mathrm{obs}-\bar{Y}_t^\mathrm{obs})^2\Big)=s^2$

由于 \[\mathbb{V}_\mathrm{sp}^\mathrm{homosk}=\mathbb{V}_\mathrm{sp}(\widehat{\tau}^\mathrm{ols})=\sigma_{Y\mid W}^2\frac{1}{\sum_{i=1}^{N}(W_i-\bar{W})^2}=\sigma_{Y\mid W}^2\left(\frac{1}{N_c}+\frac{1}{N_t}\right)\] 得到估计量 \[\widehat{\mathbb{V}}_\mathrm{sp}^\mathrm{homosk}=\widehat{\mathbb{V}}(\widehat{\tau}^\mathrm{ols})=\widehat\sigma_{Y\mid W}^2\left(\frac{1}{N_c}+\frac{1}{N_t}\right)=\widehat{\mathbb{V}}^\mathrm{const}\]

这一结果是是否自然的，因为当组间效应为常数时，控制组和实验组的方差都相等。

为了和后面的结果比较，我们考察根据样本规模规范化后的方差，记 $p=\lim\limits_{N\rightarrow\infty}\frac{N_t}{N}$ 得到结论

\[N\cdot\widehat{\mathbb{V}}_\mathrm{sp}^\mathrm{homosk}\overset{p}{\rightarrow}\frac{\widehat{\sigma}_{Y\mid W}^2}{p(1-p)}\]

再考察 $\sigma_c^2\neq\sigma_t^2$，此时

\[\begin{align}\widehat{\mathbb{V}}_\mathrm{sp}^\mathrm{hetero}=\widehat{\mathbb{V}}(\widehat\sigma_{Y\mid W}^2)=\frac{\sum_{i=1}^{N}\widehat\varepsilon_i^2\cdot(W_i-\bar{W})^2}{\Big(\sum_{i=1}^{N}(W_i-\bar{W})^2\Big)^2}\end{align}\]

同样有估计量 $\widehat{\sigma}_t^2=\frac{1}{N-1}\sum_{i=1}^{N}\widehat\varepsilon_i^2W_i,\,\widehat{\sigma}_c^2=\frac{1}{N-1}\sum_{i=1}^{N}\widehat\varepsilon_i^2(1-W_i)$

此时得到的估计量 \[\widehat{\mathbb{V}}_\mathrm{sp}^\mathrm{hetero}=\frac{\widehat\sigma_c^2}{N_c^2}+\frac{\widehat\sigma_t^2}{N_t}=\widehat{\mathbb{V}}^\mathrm{neyman}\]

可以看到，回归模型更容易理解（因为大多数人之前都接触过），而且最后导出了和 Neyman 相同的结果。同时这样的模型更容易扩展到有协变量的情形，这是回归模型的优越处。

有协变量的回归

回归模型为 \[Y_i^\mathrm{obs}=\alpha+\tau\cdot W_i+X_i\beta+\varepsilon_i\]

有最小二乘估计 \[(\widehat{\tau}^\mathrm{ols},\widehat{\alpha}^\mathrm{ols},\widehat{\beta}^\mathrm{ols})=\arg\min\limits_{\tau,\alpha,\beta}\sum_{i=1}^{N}\left(Y_i^\mathrm{obs}-\alpha-\tau\cdot W_i-X_i\beta\right)^2\]

无限样本下，上式变为 \[(\tau^\ast,\alpha^\ast,\beta^\ast)=\arg\min\limits_{\tau,\alpha,\beta}\mathbb{E}_\mathrm{sp}\Big[\left(Y_i^\mathrm{obs}-\alpha-\tau\cdot W_i-X_i\beta\right)^2\Big]\]

下面的定理则给出了估计的准确性和收敛速度

如果我们从无限样本中随机采样进行完全随机化实验，那么
$\tau^\ast=\tau_\mathrm{sp}$
$\begin{align}\sqrt{N}\left(\widehat{\tau}^\mathrm{ols}-\tau_\mathrm{sp}\right)\overset{d}{\rightarrow}\mathcal{N}\left(0,\frac{\mathbb{E}[(W_i-p)^2\cdot(Y_i^\mathrm{obs}-\alpha^\ast-\tau^\ast\cdot W_i-X_i\beta^\ast)^2]}{p^2(1-p^2)}\right)\end{align}$
其中 $(Y_i^\mathrm{obs}-\alpha^\ast-\tau^\ast\cdot W_i-X_i\beta^\ast)^2=\sigma_i^2=\mathbb{V}[\varepsilon_i\mid W_i,X_i]=\mathbb{V}[Y_i(W_i)\mid X_i]$

证明：考虑目标函数

$\begin{align}Q(\alpha,\tau,\beta)&=\mathbb{E}_\mathrm{sp}\Big[\left(Y_i^\mathrm{obs}-\alpha-\tau\cdot W_i-X_i\beta\right)^2\Big]\\&=\mathbb{E}_\mathrm{sp}\Big[\left(Y_i^\mathrm{obs}-\tilde{\alpha}-\tau\cdot W_i-(X_i-\mu_X)\beta\right)^2\Big]\end{align}$

其中 $\tilde{\alpha}=\alpha+\mu_X\beta,\,\mu_X=\mathbb{E}[X_i]$ ，则

\[\begin{align}Q(\tilde\alpha,\tau,\beta)&=\mathbb{E}_\mathrm{sp}\Big[\left(Y_i^\mathrm{obs}-\tilde{\alpha}-\tau\cdot W_i\right)^2\Big]+\mathbb{E}_\mathrm{sp}\Big[\big((X_i-\mu_X)\beta\big)^2\Big]\\&\quad-2\cdot\mathbb{E}_\mathrm{sp}\Big[\left(Y_i^\mathrm{obs}-\tilde{\alpha}-\tau\cdot W_i\right)\big((X_i-\mu_X)\beta\big)\Big]\\&=\mathbb{E}_\mathrm{sp}\Big[\left(Y_i^\mathrm{obs}-\tilde{\alpha}-\tau\cdot W_i\right)^2\Big]+\mathbb{E}_\mathrm{sp}\Big[\big((X_i-\mu_X)\beta\big)^2\Big]\\&\quad-2\cdot\mathbb{E}_\mathrm{sp}\Big[Y_i^\mathrm{obs}\cdot(X_i-\mu_X)\beta\Big]\end{align}\]

注意到后两项和 $\alpha,\tau$ 无关，因此最小化 $Q(\tilde\alpha,\tau,\beta)$ 等价于最小化第一项，直接类比上一节的结论得

\[\tilde\alpha^\ast=\mathbb{E}_\mathrm{sp}[Y_i(0)]=\mu_c\]

\[\tau^\ast=\mathbb{E}_\mathrm{sp}[Y_i^\mathrm{obs}\mid W_i=1]-\mathbb{E}_\mathrm{sp}[Y_i^\mathrm{obs}\mid W_i=0]=\mathbb{E}_\mathrm{sp}[Y_i(1)\mid W_i=1]-\mathbb{E}_\mathrm{sp}[Y_i(0)\mid W_i=1]=\tau_\mathrm{sp}\]

值得注意的是，这一结果意味着 $\widehat{\tau}_\mathrm{sp}$ 的相合性不依赖于回归函数的正确性。无论全体样本下，给定协变量后 $Y$ 的条件期望有多么的“不线性”，使用最小二乘估计的组间效应总是相合的。这是因为在完全随机化实验下，全体样本下 $W_i$ 和 $X$ 的协方差为零。尽管在有限样本下他们的协方差可能非零，但大样本下他们的相关性会趋于零，因此协变量 $X$ 的引入不会影响估计的相合性。当然，有限样本下他们的相关性会导致估计出现偏差。

因此协变量 $X$ 的引入不会影响估计的均值，但其会影响估计的方差。同样的我们先考虑简单情形：先假设条件期望是协变量的线性函数，即

\[\mathbb{E}_\mathrm{sp}[Y_i(0)\mid X_i=x]=\alpha_c+x\beta,\,\mathbb{E}_\mathrm{sp}[Y_i(1)\mid X_i=x]=\alpha_t+x\beta\] ，故

\[\mathbb{E}_\mathrm{sp}[Y_i^\mathrm{obs}\mid X_i=x,W_i=t]=\alpha_c+\tau_\mathrm{sp}\cdot t+x\beta\]

再假设两个潜在结果的方差不随着协变量和处理改变，即

\[\mathbb{V}_\mathrm{sp}[Y_i(w)\mid X_i=x]=\sigma_{Y\mid W,X}^2,\ \forall w=0,1;\forall x\]

此时得到结果为 \[N\cdot\mathbb{V}_\mathrm{sp}^\mathrm{homosk}=\frac{\sigma_{Y\mid W,X}^2}{p(1-p)}\]

可见，引入协变量后，方差的估计从 $\sigma^2_{Y\mid X}$ 调整为 $\sigma_{Y\mid X,W}^2$ 。如果协变量 $X$ 能解释绝大多数的方差，那么 $\sigma_{Y\mid X,W}^2$ 就会显著小于 $\sigma^2_{Y\mid X}$，这样我们就得到了一个更精确的估计。当然，引入协变量不是没有代价的——之前我们在有限样本下都能得到精确的无偏估计，现在只能由渐进的无偏性，也就是大样本下无偏性才足够好。

同样的，此时我们可以给出估计量

\[\widehat{\mathbb{V}}_\mathrm{sp}^\mathrm{homosk}=\frac{1}{N(N-1-\dim(X_i))}\cdot\frac{\sum_{i=1}^{N}(Y_i^\mathrm{obs}-\widehat{\alpha}^\mathrm{ols}-\widehat{\tau}^\mathrm{ols}\cdot W_i-X_i\widehat{\beta}^\mathrm{ols})^2}{\bar{W}\cdot(1-\bar{W})}\]

\[\widehat{\mathbb{V}}_\mathrm{sp}^\mathrm{hetero}=\frac{1}{N(N-1-\dim(X_i))}\cdot\frac{\sum_{i=1}^{N}(W_i-\bar{W})^2\cdot(Y_i^\mathrm{obs}-\widehat{\alpha}^\mathrm{ols}-\widehat{\tau}^\mathrm{ols}\cdot W_i-X_i\widehat{\beta}^\mathrm{ols})^2}{(\bar{W}\cdot(1-\bar{W}))^2}\]

带交叉项的回归

回归模型为 \[Y_i^\mathrm{obs}=\alpha+\tau\cdot W_i+X_i\beta+W_i\cdot(X_i-\bar{X})\gamma+\varepsilon_i\]

有最小二乘估计 \[(\widehat{\tau}^\mathrm{ols},\widehat{\alpha}^\mathrm{ols},\widehat{\beta}^\mathrm{ols},\widehat{\gamma}^\mathrm{ols})=\arg\min\limits_{\tau,\alpha,\beta,\gamma}\sum_{i=1}^{N}\left(Y_i^\mathrm{obs}-\alpha-\tau\cdot W_i-X_i\beta-W_i\cdot(X_i-\bar{X})\gamma\right)^2\]

\[(\tau^\ast,\alpha^\ast,\beta^\ast,\gamma^\ast)=\arg\min\limits_{\tau,\alpha,\beta,\gamma}\mathbb{E}_\mathrm{sp}\Big[\left(Y_i^\mathrm{obs}-\alpha-\tau\cdot W_i-X_i\beta-W_i\cdot(X_i-\bar{X})\gamma\right)^2\Big]\]

类似的定理同样给出了估计的准确性和收敛速度

如果我们从无限样本中随机采样进行完全随机化实验，那么
$\tau^\ast=\tau_\mathrm{sp}$
$\begin{align}\sqrt{N}\left(\widehat{\tau}^\mathrm{ols}-\tau_\mathrm{sp}\right)\overset{d}{\rightarrow}\mathcal{N}\left(0,\frac{\mathbb{E}[(W_i-p)^2\cdot(Y_i^\mathrm{obs}-\alpha^\ast-\tau^\ast\cdot W_i-X_i\beta^\ast-W_i\cdot(X_i-\mu_x)\gamma^\ast)^2]}{p^2(1-p^2)}\right)\end{align}$

此时，记 $\widehat{Y}_i(0)=\widehat{\alpha}^\mathrm{ols}+X_i\widehat{\beta}^\mathrm{ols}$ , $\widehat{Y}_i(1)=\widehat{\alpha}^\mathrm{ols}+\widehat{\tau}^\mathrm{ols}+X_i\widehat{\beta}^\mathrm{ols}+(X_i-\bar{X})\widehat{\gamma}^\mathrm{ols}$

$\widehat{\tau}_i=W_i\cdot(Y_i(1)-\widehat{Y}_i(0))+(1-W_i)\cdot(\widehat{Y_i}(1)-Y_i(0))$，代数变换后可得

\[\widehat{\tau}^\mathrm{ols}=\frac{1}{N}\sum_{i=1}^{N}\widehat{\tau}_i\]

所以最小二乘估计 $\widehat{\tau}^\mathrm{ols}$ 也可以解释为样本中的组间效应。同样的，由于随机化实验，尽管回归模型可能不合理，但该估计还是总体组间效应的一个相合估计。

假设检验(带交叉项的模型)

检验是否有交叉项和常数组间效应

\[H_0:\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)\mid X_i=x]=\tau_\mathrm{sp},\forall x\]

\[ H_1:\exists x_0,x_1\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)\mid X_i=x_1]\neq \mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)\mid X_i=x_2]\]

\[(\widehat{\tau}^\mathrm{ols},\widehat{\gamma}^\mathrm{ols})\] 的规范化后的协方差矩阵为\[\mathbb{V}_{\tau,\gamma}=\begin{pmatrix}\mathbb{V}_\tau&\mathbb{C}_{\tau},\gamma\\\mathbb{C}_{\tau,\gamma}^\intercal &\mathbb{V}_\gamma\end{pmatrix}\]

$H_0$ 成立时，$\gamma^\ast=0$，且 \[Q_\mathrm{const}=(\widehat{\gamma}^\mathrm{ols})^\intercal\widehat{\mathbb{V}}_\gamma^{-1}\widehat{\gamma}^\mathrm{ols}\overset{d}{\rightarrow}\chi(\dim(X_i))\]

检验是否有交叉项和零组间效应

\[H_0:\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)\mid X_i=x]=0,\forall x\]

\[ H_1:\exists x_1,\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)\mid X_i=x_1]\neq 0\]

同样的，$H_0$ 成立时，$\gamma^\ast=0$，且 \[Q_\mathrm{const}=\begin{pmatrix}\widehat{\tau}^\mathrm{ols}\\\widehat{\gamma}^\mathrm{ols}\end{pmatrix}^\intercal\widehat{\mathbb{V}}_\gamma^{-1}\begin{pmatrix}\widehat{\tau}^\mathrm{ols}\\\widehat{\gamma}^\mathrm{ols}\end{pmatrix}\overset{d}{\rightarrow}\chi(\dim(X_i)+1)\]

【Note】因果推断(三)——Neyman 检验

2018-10-20T16:01:00.000Z

上节提到了 Fisher的精确检验中出现的局限性。与 Fisher 著重于每个个体的效应相比，Neyman更关心群体上的平均效应，并给出了相应的点估计和区间估计。其核心思想是，在上一节 Fisher认为随机性完全由分配 $\mathbf{W}$ 引入之上，还加入了从总体中重复采样带来的随机性。这可以说是二者最本质的差别。

群体效应的无偏点估计

我们关心的量为

\[\tau_{\mathrm{fs}}=\frac{1}{N}\sum\limits_{i=1}^{N}(Y_i(1)-Y_i(0))\overset{\Delta}{=}\bar{Y}(1)-\bar{Y}(0)\]

其中 fs 为 finite sample的缩写。

一个直观的估计自然是使用我们所能观测到的数据代替 $\bar{Y}(1)$ 和 $\bar{Y}(0)$，即

\[\widehat{\tau}^{\mathrm{dif}}=\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}\]

直观上他应该是无偏的，因为我们的分配时随机的，事实上可以很容易的证明

首先 \[\mathbb{P}_W[W_i=1\mid \mathbf{Y}_0,\mathbf{Y}_1]=\mathbb{E}_W[W_i=1\mid \mathbf{Y}_0,\mathbf{Y}_1]=N_t/N\]

而 \[\widehat{\tau}^{\mathrm{dif}}=\frac{\sum_{i=1}^{N}W_i Y_i(1)}{N_t}-\frac{\sum_{i=1}^{N}(1-W_i) Y_i(0)}{N_c}\]

因此 \[\mathbb{E}_W[\widehat{\tau}^{\mathrm{dif}}\mid\mathbf{Y}(0),\mathbf{Y}(1)]=\frac{\sum_{i=1}^{N}\mathbb{E}_W[W_i] Y_i(1)}{N_t}-\frac{\sum_{i=1}^{N}\mathbb{E}_W[1-W_i] Y_i(0)}{N_c}=\frac{\sum_{i=1}^{N}(Y_i(1)-Y_i(0))}{N}=\tau_\mathrm{fs}\]

有限样本下群体效应的区间估计

方差的理论值

要求区间估计，显然求方差是重头戏。为此我们先整理我们所能拿到的一阶矩和二阶矩。注意到恒等式 $W_i^2=W_i$ ，这给后面许多计算带来了便利。

\[\mathbb{E}_W[W_i^2]=\mathbb{E}_W[W_i]=\frac{N_t}{N}\quad\mathbb{V}_W(W_i)=\mathbb{E}_W[W_i^2]-\mathbb{E}_W^2[W_i]=\frac{N_t}{N}\left(1-\frac{N_t}{N}\right)\]

\[\mathbb{E}[W_iW_j]=\mathbb{P}_W[W_i=1]\mathbb{P}[W_j=1\mid W_i=1]=\frac{N_t}{N}\frac{N_t-1}{N-1}\ (i\neq j)\]

一个很常见的技巧是构造一个期望为 $0$ 的随机变量来简化求方差的计算，这里我们构造 $D_i=W_i-\frac{N_t}{N}$ ，可以立刻写出其相关的性质

\[\mathbb{E}_W[D_i]=0\quad\mathbb{V}_W(D_i)=\mathbb{E}_W[D_i^2]=\frac{N_cN_t}{N^2}\quad \mathbb{E}[D_iD_j]=-\frac{N_cN_t}{N^2(N-1)}\ (i\neq j)\]

让我们重新整理 $\widehat{\tau}^\mathrm{dif}$

\[\begin{align}\widehat{\tau}^\mathrm{dif}&=\frac{1}{N_t}\sum_{i=1}^{N}W_iY_i(1)-\frac{1}{N_c}\sum_{i=1}^{N}(1-W_i)Y_i(0)\\&=\frac{1}{N}\sum_{i=1}^{N}\left(\frac{N}{N_t}W_iY_i(1)-\frac{N}{N_c}(1-W_i)Y_i(0)\right)\\&=\frac{1}{N}\sum_{i=1}^{N}\left(\frac{N}{N_t}\left(D_i+\frac{N_t}{N}\right)Y_i(1)-\frac{N}{N_c}\left(\frac{N_c}{N}-D_i\right)Y_i(0)\right)\\&=\frac{1}{N}\sum_{i=1}^{N}(Y_i(1)-Y_i(0))+\frac{1}{N}\sum_{i=1}^{N}D_i\left(\frac{N_t}{N}Y_i(1)+\frac{N_c}{N}Y_i(0)\right)\\&\overset{\Delta}{=}\tau_\mathrm{fs}+\sum_{i=1}^{N}D_i Y_i^+\end{align}\]

因为 $\mathbb{E}_W[D_i]=0$，这里也很明显看出无偏性。现考察方差

首先定义 $S_t^2=\frac{1}{N-1}\sum_{i=1}^{N}(Y_i(1)-\bar{Y}(1))^2,\,S_c^2=\frac{1}{N-1}\sum_{i=1}^{N}(Y_i(0)-\bar{Y}(0))^2$

$S_{tc}^2=\frac{1}{N-1}\sum_{i=1}^{N}(Y_i(1)-\bar{Y}(1)-(Y_i(0)-\bar{Y}(0)))^2=S_t^2+S_c^2-\frac{2}{N-1}\sum_{i=1}^{N}(Y_i(1)-\bar{Y}(1))(Y_i(0)-\bar{Y}(0))$

这三个量分别代表了样本中实验组、对照组以及组间效应的方差。注意，这些值也是不能直接观测到的。

可以证明，$\mathbb{V}_W[\widehat{\tau}^\mathrm{dif}]=\frac{S_t^2}{N_t}+\frac{S_c^2}{N_c}-\frac{S_{tc}^2}{N}$ ，证明在本小节的结尾。

这个结果看似怪异，但也并不奇怪。首先我们要估计的量为 $\tau_\mathrm{fs}=\bar{Y}(1)-\bar{Y}(0)$。因此我们首先需要估计 $\bar{Y}(1)$，而 $\bar{Y}_t^\mathrm{obs}$ 是一个无偏估计。而从 $N_t$ 个样本中得到的这一无偏估计的方差为 $(S_t^2/N_t)\cdot (1-N_t/N)$，其中除以 $N_t$ 是因为均值的方差是单点方差的 $1/N$，而后面那个因子则是对有限样本的一个修正。这里就贡献了 $S_t^2/N_t$ 这一项。第二项同理。第三项 $S_{tc}^2/N$ 则是个体间效应的方差。如果组间效应为常数，则这一项为零；否则 $S_{tc}^2>0$，而这较低了我们对 $\tau_\mathrm{fs}$ 估计的方差。

除此之外，$\widehat{\tau}^\mathrm{dif}$ 还有另一个有用的形式。首先我们记 $S_{tc}^2=S_c^2+S_t^2-2\rho_{tc}\cdot S_c\cdot S_t$，其中 $\rho_{tc}$ 就是直接定义出来的，刻画了实验组和对照组的相关系数。此时

\[\mathbb{V}_W[\widehat{\tau}^\mathrm{dif}]=\frac{N_t}{N\cdot N_c}S_c^2+\frac{N_c}{N\cdot N_t}S_t^2+\frac{2}{N}\cdot \rho_{tc}\cdot S_C\cdot S_t\]

当 $\rho_{tc}=-1$ 时方差最小。当 $\rho_{tc}=1$ 时方差最大，为 \[\frac{S_c^2}{N_c}+\frac{s_t^2}{N_t}-\frac{(S_c-S_t)^2}{N}\]

而最特殊的 $\rho_{tc}=1$ 的情况自然是 $Y_i(1)-Y_i(0)=\tau,\forall i=1,\ldots,N$ ，此时 $S_c^2=S_t^2$，则

\[\mathbb{V}^\mathrm{const}=\mathbb{V}_W[\widehat{\tau}^\mathrm{dif}\mid\rho_{tc}=1,S_c^2=S_t^2]=\frac{S_c^2}{N_c}+\frac{S_t^2}{N_t}\]

这其实可能有点反直觉——最大方差居然出现在组间效应为常数的情况。让我们考虑一个简单的例子来消除这一“反直觉”。假设只有两个样本，先考虑组间效应为常数的情况。

样本	$Y_i(0)$	$Y_i(1)$
1	10	10
2	-10	-10

我们计算 $\widehat{\tau}^\mathrm{dif}$，会发现要么是 $20$，如果 $W_1=1,W_2=0$，或者是 $-20$，如果 $W_1=0,W_2=1$ ，方差很大

再考虑一个 $\tau_{tc}=-1$ 的例子，只需将 $Y_1(0)$ 和 $Y_2(0)$ 交换，可以算得此时方差为零。

下面给出方差的计算

\[\begin{align}\mathbb{V}_W[\widehat{\tau}^\mathrm{dif}]&=\frac{1}{N^2}\mathbb{E}_W[(\sum_{i=1}^{N}D_iY_i^+)^2]\\&=\frac{1}{N^2}\left\{\sum_{i=1}^{N}(Y_i^+)^2\frac{N_c\cdot N_t}{N^2}-\sum_{i=1}^{N}\sum_{j\neq i}Y_i^+Y_j^+\frac{N_c\cdot N_t}{N^2(N-1)}\right\}\\&=\frac{N_c\cdot N_t}{N^4(N-1)}\left\{(N-1)\sum_{i=1}^{N}(Y_i^+)^2-\sum_{i=1}^{N}\sum_{j\neq i}Y_i^+Y_j^+\right\}\\&=\frac{N_c\cdot N_t}{N^4(N-1)}\left\{N\sum_{i=1}^{N}(Y_i^+)^2-\sum_{i=1}^{N}\sum_{j =1}^NY_i^+Y_j^+\right\}\\&=\frac{N_t\cdot N_c}{N^4(N-1)}N\sum_{i=1}^{N}\Big(Y_i^+-\overline{Y^+}\Big)^2\\&=\frac{N_c\cdot N_t}{N^3(N-1)}\sum_{i=1}^{N}\left[\frac{N}{N_t}Y_i(1)+\frac{N}{N_c}Y_i(0)-\frac{N}{N_t}\bar{Y}(1)-\frac{N}{N_c}\bar{Y}(0)\right]\\&=\frac{N_t\cdot N_c}{N^3(N-1)}\sum_{i=1}^{N}\left(\frac{N}{N_t}Y_i(1)-\frac{N}{N_t}\bar{Y}(1)\right)^2\\&\quad+\frac{N_t\cdot N_c}{N^3(N-1)}\sum_{i=1}^{N}\left(\frac{N}{N_c}Y_i(0)-\frac{N}{N_c}\bar{Y}(0)\right)^2\\&\quad+\frac{2\cdot N_t\cdot N_c}{N^3(N-1)}\sum_{i=1}^{N}\left(\frac{N}{N_t}Y_i(1)-\frac{N}{N_t}\bar{Y}(1)\right)\left(\frac{N}{N_c}Y_i(0)-\frac{N}{N_c}\bar{Y}(0)\right)\\&=\frac{N_c}{N\cdot N_t}S_t^2+\frac{N_t}{N\cdot N_c}S_c^2+\frac{1}{N}(S_t^2+S_c^2-S_{tc}^2)\\&=\frac{S_t^2}{N_t}+\frac{S_c^2}{N_c}-\frac{S_{tc}^2}{N}\end{align}\]

方差的估计

记住，$S_c^2,\,S_t^2,\,S_{tc}^2$ 我们都无法直接得到。所幸，我们可以直接得到前两个的无偏估计

\[s_c^2=\frac{1}{N_c-1}\sum\limits_{i:W_i=0}(Y_i^\mathrm{obs}-\bar{Y}_t^\mathrm{obs})^2,\,s_t^2=\frac{1}{N_t-1}\sum\limits_{i:W_i=1}(Y_i^\mathrm{obs}-\bar{Y}_t^\mathrm{obs})^2\]

无偏性的证明在本小节的末尾。

不幸的是，我们不太可能得到 $S_{tc}^2$ 的一个估计，因为我们无法同时观测到 $Y_i(0)$ 和 $Y_i(1)$ 。不幸中的万幸是，如果组间效应是个常数，这一项就为零了，所以此时我们能够得到一个无偏估计

\[\widehat{\mathbb{V}}^{\mathrm{neyman}}=\frac{s_c^2}{N_c}+\frac{s_t^2}{N_t}\]

读者可能会对这样一个设定感到不满意——我们为了消除没法计算的项就强行将他设为零。但事实上设为零后方差只会更大，也就是说我们给出的是方差的一个上界。那么至少在构造置信区间的时候，这么做是没有任何问题的。

但我们不满足于此，因为他给出了一个严格的上界。然而在 Neyman 的实验中，通常样本量都会足够大，我们构造的置信区间也是依赖于大样本的渐进正态性。因此其实我们可以改进一下这个上界。下面给出了两个可以选择的估计。

其中一个为 \[\widehat{\mathbb{V}}^{\rho_{tc}}=s_c^2\frac{N_t}{N\cdot N_c}+s_t^2\frac{N_c}{N\cdot N_t}+\rho_{tc}\cdot s_c\cdot s_t\cdot \frac{2}{N}\]

同样其上界出现在 $\rho_{tc}=1$ 处，为 \[\frac{s_c^2}{N_c}+\frac{s_t^2}{N_t}-\frac{(s_t-s_c)^2}{N}\leq\frac{s_c^2}{N_c}+\frac{s_t^2}{N_t}\]

因此其是 $\widehat{\mathbb{V}}^{\mathrm{neyman}}$ 的一个改进。但当我们没有更多信息的时候，我们不能将 $\rho_{tc}$ 取得更小，这里的改进基本到头了。

另一个则是当组间效应为常数，则 $S^2\equiv S_t^2\equiv S_c^2$ 的时候采用的，即 $\widehat{\mathbb{V}}^\mathrm{const}=s^2(1/N_c+1/N_t)$ 其中$s^2=\frac{1}{N-2}(s_c^2(N_c-1)+s_t^2(N_t-1))$

此时这一估计比上两个更好。但当组间效应不是常数时，此估计给出的置信区间可能是失效的。

事实上，绝大多数情况下三者算出来的结果只有细微的差别，因此无需在此过多的纠结。

下面给出无偏性的证明，首先

\[s_t^2=\frac{1}{N_t-1}\sum_{i=1}^{N}W_i(Y_i(1)-\bar{Y}_t^\mathrm{obs})^2=\frac{1}{N_t-1}\sum_{i=1}^{N}W_iY_i(1)^2\ -\frac{N_t}{N_t-1}(\bar{Y}_t^\mathrm{obs})^2\]

\[\mathbb{E}\left[\frac{1}{N_t-1}\sum_{i=1}^{N}W_iY_i^2(1)\right]=\frac{1}{N_t-1}\frac{N_t}{N}\sum_{i=1}^{N}Y_i^2(1)\]

同样的，使用 $D_i=W_i-N_t/N$，代入第二项的第二个因子得

\[\begin{align}\mathbb{E}[(\bar{Y}_t^\mathrm{obs})^2]&=\mathbb{E}\left[\frac{1}{N_t^2}\sum_{i=1}^{N}\sum_{j=1}^{N}W_iW_jY_i^\mathrm{obs}Y_j^\mathrm{obs}\right]\\&=\frac{1}{N_t^2}\mathbb{E}\left[\sum_{i=1}^{N}\sum_{j=1}^{N}\left(D_i+\frac{N_t}{N}\right)\left(D_j+\frac{N_t}{N}\right)Y_i(1)Y_j(1)\right]\\&=\frac{1}{N_t^2}\sum_{i=1}^{N}\sum_{j=1}^{J}\mathbb{E}[D_iD_j]Y_i(1)Y_j(1)+\frac{1}{N^2}\sum_{i=1}^{N}\sum_{j=1}^{N}Y_i(1)Y_j(1)\\&=\frac{1}{N_t^2}\sum_{i=1}^{N}\left(\frac{N_cN_t}{N^2}+\frac{N_cN_t}{N^2\cdot(N-1)}\right)Y^2_i(1)+\left(\frac{1}{N_t^2}\frac{-N_cN_t}{N^2\cdot(N-1)}+\frac{1}{N^2}\right)\sum_{i=1}^{N}\sum_{j=1}^{N}Y_i(1)Y_j(1)\\&=\frac{N_c}{N\cdot (N-1)\cdot N_t}\sum_{i=1}^{N}Y_i^2(1)+\frac{N_t-1}{N\cdot(N-1)\cdot N_t}\left(\sum_{i=1}^{N}Y_i(1)\right)^2\end{align}\]

因此

\[\begin{align}\mathbb{E}[s_t^2]&=\frac{N_t}{N\cdot(N_t-1)}\sum_{i=1}^{N}Y_i^2(1)-\frac{N_c}{N\cdot(N-1)\cdot(N_t-1)}\sum_{i=1}^{N}Y_i^2(1)-\frac{1}{N\cdot(N-1)}\left(\sum_{i=1}^{N}Y_i(1)\right)^2\\&=\frac{1}{N-1}\sum_{i=1}^{N}Y_i^2(1)-\frac{1}{N\cdot (N-1)}\left(\sum_{i=1}^{N}Y_i(1)\right)^2\\&=\frac{1}{N-1}\sum_{i=1}^{N}\Big((Y_i(1)-\bar{Y}(1)\Big)^2=S_t^2\end{align}\]

构造置信区间与检验

显然，$\mathrm{CI}^{1-\alpha}(\tau_{\mathrm{fs}})=(\widehat{\tau}^\mathrm{dif}+z_{\alpha /2}\sqrt{\widehat{\mathbb{V}}},\widehat{\tau}^\mathrm{dif}+z_{1-\alpha /2}\sqrt{\widehat{\mathbb{V}}})$ 即可构造出置信区间

而 $t=\frac{\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}}{\sqrt{\widehat{\mathbb{V}}}}$ 然后使用正态分布来检验也是可以的

对比之前的 Fisher 精确检验，Neyman 的方法有两点不同。首先自然是原假设的不同：Fisher 采用了一个更加强的假设：所有样本的组间效应都是零，而 Neyman 只要求平均效应为零。其次就是检验方式的不同：Fisher 可以“精确”地算出 Fisher exact P value，而 Neyman的检验依赖于大样本的渐进正态性，因为它使用了两次近似：一次时用 $\widehat{\mathbb{V}}$ 估计 $\mathbb{V}_W(\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs})$ ，另一次则是假设了 $\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}$ 在重复抽样中服从正态分布。

总体组间效应的推断

现在我们将 $N$ 个样本视为从总体的一次随机抽样的结果，或者说每个样本的潜在结果对都是服从某一个分布的，因此他们自身也带有着随机性。我们使用 sp 代表 super-population 来和之前的 fs 区分开来。

\[\tau_\mathrm{fs}=\frac{1}{N}\sum\limits_{i=1}^{N}(Y_i(1)-Y_i(0))\quad\tau_\mathrm{sp}=\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)]\]

\[\mathbb{E}_\mathrm{sp}[\tau_\mathrm{fs}]=\frac{1}{N}\sum\limits_{i=1}^{N}\mathbb{E}_\mathrm{sp}[Y_i(1)-Y_i(0)]=\tau_\mathrm{sp}\]

\[\sigma_c^2=\mathbb{V}_\mathrm{sp}[Y_i(0)]=\mathbb{E}_\mathrm{sp}\bigg[\Big(Y_i(0)-\mathbb{E}_\mathrm{sp}[Y_i(0)]\Big)^2\bigg],\quad \sigma_t^2=\mathbb{V}_\mathrm{sp}[Y_i(1)]=\mathbb{E}_\mathrm{sp}\bigg[\Big(Y_i(1)-\mathbb{E}_\mathrm{sp}[Y_i(1)]\Big)^2\bigg]\]

\[\sigma_{tc}^2=\mathbb{V}_\mathrm{sp}(Y_i(1)-Y_i(0))=\mathbb{E}_\mathrm{sp}\bigg[\Big(Y_i(0)-Y_i(0)-\tau_\mathrm{sp}]\Big)^2\bigg]\]

\[\mathbb{V}_\mathrm{sp}[\tau_\mathrm{fs}]=\mathbb{V}_\mathrm{sp}[\bar{Y}(1)-\bar{Y}(0)]=\sigma_{tc}^2/N\]

那我们上面求得的估计量 $\widehat{\tau}^\mathrm{dif}$ 的方差又会是多少呢，我们有

\[\mathbb{V}_\mathrm{sp}[\widehat{\tau}^\mathrm{dif}]=\frac{\sigma_c^2}{N_c}+\frac{\sigma_t^2}{N_t}\ \Rightarrow\ \widehat{\mathbb{V}}_\mathrm{sp}[\widehat{\tau}^\mathrm{dif}]=\frac{s_c^2}{N_c}+\frac{s_t^2}{N_t}=\widehat{\mathbb{V}}^\mathrm{neyman}\]

因此，尽管 $\widehat{\mathbb{V}}^\mathrm{const}$ 在方差相等时估计得更好，$^对 $\mathbb{V}_\mathrm{fs}[\widehat{\tau}^\mathrm{dif}]$ 是更精细的估计，通常我们还是使用 $\widehat{\mathbb{V}}^\mathrm{neyman}$，因为一方面它们的差别并不太大，另一方面$\widehat{\mathbb{V}}^\mathrm{neyman}$ 是总体样本下组间差距的方差的一个无偏估计。

其证明可以直接使用全方差公式

\[\begin{align}\mathbb{V}_\mathrm{sp}[\widehat{\tau}^\mathrm{dif}]&=\mathbb{E}_\mathrm{sp}[\mathbb{V}_\mathrm{fs}[\widehat{\tau}^\mathrm{dif}]]+\mathbb{V}_\mathrm{sp}[\mathbb{E}_\mathrm{fs}[\widehat{\tau}^\mathrm{dif}]]\\&=\mathbb{E}_\mathrm{sp}\left[\frac{S_c^2}{N_c}+\frac{S_t^2}{N_t}-\frac{S_{tc}^2}{N}\right]+\mathbb{V}_\mathrm{sp}[\tau_\mathrm{fs}]\\&=\frac{\sigma_c^2}{N_c}+\frac{\sigma_t^2}{N_t}-\frac{\sigma_{tc}^2}{N}+\frac{\sigma_{tc}^2}{N}=\frac{\sigma_c^2}{N_c}+\frac{\sigma_t^2}{N_t}\end{align}\]

也可以使用经典的拆分平方的方法

\[\begin{align}\mathbb{V}_\mathrm{sp}[\widehat{\tau}^\mathrm{dif}]&=\mathbb{E}_\mathrm{sp}\bigg[\left(\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}-\mathbb{E}_\mathrm{sp}[\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}]\right)^2\bigg]\\&=\mathbb{E}_\mathrm{sp}\bigg[\left(\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}-\mathbb{E}_\mathrm{sp}[\bar{Y}(1)-\bar{Y}(0)]\right)^2\bigg]\\&=\mathbb{E}_\mathrm{sp}\bigg[\left(\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}-(\bar{Y}(1)-\bar{Y}(0))+(\bar{Y}(1)-\bar{Y}(0))-\mathbb{E}_\mathrm{sp}[\bar{Y}(1)-\bar{Y}(0)]\right)^2\bigg]\\&=\mathbb{E}_\mathrm{sp}\bigg[\left(\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}-(\bar{Y}(1)-\bar{Y}(0))\right)^2\bigg]+\mathbb{E}_\mathrm{sp}\bigg[\left(\bar{Y}(1)-\bar{Y}(0)-\mathbb{E}_\mathrm{sp}[\bar{Y}(1)-\bar{Y}(0)]\right)^2\bigg]\\&\quad+2\mathbb{E}_\mathrm{sp}\bigg[\left(\bar{Y}_t^\mathrm{obs}-\bar{Y}_c^\mathrm{obs}-(\bar{Y}(1)-\bar{Y}(0))\right)\cdot\Big(\bar{Y}(1)-\bar{Y}(0)-\mathbb{E}_\mathrm{sp}[\bar{Y}(1)-\bar{Y}(0)]\Big)\bigg]\\&=\left(\frac{\sigma_c^2}{N_c}+\frac{\sigma_t^2}{N_t}-\frac{\sigma_{tc}^2}{N}\right)+\frac{1}{N}\mathbb{E}_\mathrm{sp}[(Y_i(1)-Y_i(0)-\tau_\mathrm{sp})^2]+0\\&=\frac{\sigma_c^2}{N_c}+\frac{\sigma_t^2}{N_t}-\frac{\sigma_{tc}^2}{N}+\frac{\sigma_{tc}^2}{N}=\frac{\sigma_c^2}{N_c}+\frac{\sigma_t^2}{N_t}\end{align}\]

原书中的附录则是考虑从 $N_R$ 大小的样本中采样出 $N$ 个样本推演出结果，其中使用指示变量 $R_i$ 标记被采样的结果(类似于 $W_i$的作用)。再将 $N_R\rightarrow\infty$ 得到相同的结论。如果读者对这一过程感兴趣也可以查阅原书的证明。

【Note】因果推断(二)——Fisher 精确检验

2018-10-19T16:30:00.000Z

Fisher 精确检验

一句话总结

给定了零假设 (sharp null hypothesis) 后，所有样本的潜在结果 $Y_i(0), Y_i(1)$ 都已经确定，统计量 $T$ 的随机性完全由分配机制 $W_i$ 引入。此时我们可以穷举所有的分配方式并计算对应的概率，然后统计出现比当前观测数据下的统计量更“极端”的概率 (Fisher Exact P-values, FEPs)，并以此作为判据接受/拒绝原假设。

使用的数据

这里使用的数据是 Paul et al.(2007) 里关于对上呼吸道感染的儿童的治疗手段的效果的检验。这里我们选择了 $N_t=35$ 名接受荞麦蜂蜜的儿童作为实验组，$N_c=37$ 名不治疗的儿童作为对照组。观察的变量中我们选择咳嗽频率和咳嗽强度，这些量都被调整到 0(几乎没有)——6(十分严重)。

数据的概览

变量	均值	标准差	控制组均值	实验组均值
处理前咳嗽频率 (cfp)	3.86	0.92	3.73	4.00
处理后咳嗽频率 (cfa)	2.47	1.61	2.81	2.11
处理前咳嗽强度 (csp)	3.99	1.03	3.97	4.00
处理后咳嗽强度 (csa)	2.54	1.73	2.86	2.20

试验后结果的分层累计分布

值	控制组 cfa	实验组 cfa	控制组 cfa	实验组 cfa
0	0.14	0.14	0.16	0.17
1	0.19	0.40	0.22	0.46
2	0.32	0.63	0.35	0.54
3	0.73	0.83	0.59	0.77
4	0.89	0.91	0.86	0.91
5	0.92	0.97	0.95	0.94
6	1.00	1.00	1.00	1.00

六个具体的样本

样本	cfa $Y_i(0)$	cfa $Y_i(1)$	W_i	cfp $X_i$	cfa $Y_i^{\mathrm{obs}}$
1	?	3	1	4	3
2	?	5	1	6	5
3	?	0	1	4	0
4	4	?	0	4	4
5	0	?	0	1	0
6	1	?	0	5	1

我们先使用这六个样本作为例子

检验步骤

确定零假设(Fisher Sharp Null Hypothesis)

Fisher 当时提出的原假设为 $H_0: Y_i(0)=Y_i(1)$，但很自然的我们可以将它扩展，只要最后能确定所有的潜在结果即可，比如

$H_0: Y_i(1)=Y_i(0)+C$
$H_0: Y_i(1)=Y_i(0)*C$
$H_0: Y_i(1)=Y_i(0)+C_i$

我们使用最经典的原假设 $H_0: Y_i(0)=Y_i(1)$，也就是说处理完全没有作用，填入上表得

样本	cfa $Y_i(0)$	cfa $Y_i(1)$	W_i	cfp $X_i$	cfa $Y_i^{\mathrm{obs}}$	rank($Y_i^{\mathrm{obs}}$)
1	(3)	3	1	4	3	4
2	(5)	5	1	6	5	6
3	(0)	0	1	4	0	1.5
4	4	(4)	0	4	4	5
5	0	(0)	0	1	0	1.5
6	1	(1)	0	5	1	3

(注: rank 的计算方式即直接排序，然后分配123456。如果值相等则取平均数作为rank。如果将其都减去 $(N+1)/2$后，则其和为0。我们将平移后的结果记为 $R_i$)

选择统计量 $T$

我们先使用 \[T_1(\boldsymbol{W},\boldsymbol{Y}^\mathrm{obs})=\lvert \bar{Y}_t^\mathrm{obs} - \bar{Y}_c^\mathrm{obs}\rvert=\lvert \frac83-\frac53\rvert=1\] 和 \[T_2(\boldsymbol{W},\boldsymbol{Y}^\mathrm{obs})=\lvert \bar{R}_t^\mathrm{obs} - \bar{R}_c^\mathrm{obs}\rvert=\lvert \frac{11.5}3-\frac{9.5}3\rvert=\frac{2}{3}\]

下表展示了$\binom{6}{3}=20$中情况下的 $T$ 值

$W_1$	$W_2$	$W_3$	$W_4$	$W_5$	$W_6$	$T_1$	$T_2$
0	0	0	1	1	1	-1.00	-0.67
0	0	1	0	1	1	-3.67	-3.00
0	0	1	1	0	1	-1.00	-0.67
0	0	1	1	1	0	-1.67	-1.67
0	1	0	0	1	1	-0.33	0.00
0	1	0	1	0	1	2.33	2.33
0	1	0	1	1	0	1.67	1.33
0	1	1	0	0	1	-0.33	0.00
0	1	1	0	1	0	-1.00	-1.00
0	1	1	1	0	0	1.67	1.33
1	0	0	0	1	1	-1.67	-1.33
1	0	0	1	0	1	1.00	1.00
1	0	0	1	1	0	0.33	0.00
1	0	1	0	0	1	-1.67	-1.33
1	0	1	0	1	0	-2.33	-2.33
1	1	1	1	0	0	0.33	0.00
1	1	0	0	0	1	1.67	1.67
1	1	0	0	1	0	1.00	0.67
1	1	0	1	0	0	3.67	3.00
1	1	1	0	0	0	1.00	0.67

以此计算 P 值，以 $T_1$ 为例，出现比观测更极端的概率为 $16/20=0.8$, 显然无法拒绝原假设。使用 $T_2$ 可以得到同样的结论。

一般的，统计量 $T(\boldsymbol{W},\boldsymbol{Y}^\mathrm{obs}\boldsymbol{X})$ 需要是一个实值的函数，且只和分配 $\boldsymbol{W}$ 、观测到的数据 $\boldsymbol{Y}^\mathrm{obs}$ (注意它是 $\boldsymbol{W},\boldsymbol{Y}(0),\boldsymbol{Y}(1)$ 的函数)以及实验前得到的数据 $\boldsymbol{X}$ 有关。下面列举一下常用的统计量

$T^\mathrm{dif}=\lvert \bar{Y}_t^\mathrm{obs} - \bar{Y}_c^\mathrm{obs}\rvert=\lvert\frac{\sum_{i:W_i=1}Y_i^\mathrm{obs}}{N_t}-\frac{\sum_{i:W_i=0}Y_i^\mathrm{obs}}{N_c}\rvert$
$T^\mathrm{log}=\lvert\frac{\sum_{i:W_i=1}\ln(Y_i^\mathrm{obs})}{N_t}-\frac{\sum_{i:W_i=0}\ln(Y_i^\mathrm{obs})}{N_c}\rvert$
$T^\mathrm{median}=\lvert \mathrm{med}_t(Y_i^{\mathrm{obs}})-\mathrm{med}_c(Y_i^{\mathrm{obs}})\rvert$
$T^\mathrm{t-stat}=\lvert \frac{\bar{Y}_t^\mathrm{obs} - \bar{Y}_c^\mathrm{obs}}{\sqrt{s_c^2/N_c+s_t^2/N_t}}\rvert,\,s_t^2=\sum_{i:W_i=1}(Y_i^\mathrm{obs}-\bar{Y}_t^\mathrm{obs})^2/(N_t-1)$， $s_c^2$ 类似
$T^\mathrm{quant}=\lvert q_{\delta,t}(Y_i^{\mathrm{obs}})-q_{\delta,t}(Y_i^{\mathrm{obs}})\rvert$, $\delta_{q,c}$ 是经验累计分布 (e.c.d.f) 的 $\delta$ 分位数
$T^\mathrm{rank}=\lvert \bar{R}_t - \bar{R}_c\rvert=\lvert\frac{\sum_{i:W_i=1}\bar{R}_i}{N_t}-\frac{\sum_{i:W_i=0}\bar{R}_i}{N_c}\rvert\rvert$

除此之外还有一些基于模型的统计量，如

$Y_i(0)\sim\mathcal{N}(\mu_c,\sigma_c^2),\,Y_i(1)\sim\mathcal{N}(\mu_t,\sigma_t^2)$ 则
$T^{\mathrm{model}}=\lvert\widehat{\mu}_t-\widehat{\mu}_c\rvert=\lvert\bar{Y}_t^\mathrm{obs} - \bar{Y}_c^\mathrm{obs}\rvert=T^\mathrm{dif}$
$\log Y_i(0)\sim\mathcal{N}(\mu_c,\sigma_c^2),\,\log Y_i(1)\sim\mathcal{N}(\mu_t,\sigma_t^2)$ 则
$T^{\mathrm{model}}=\lvert\widehat{\mu}_{mle,t}-\widehat{\mu}_{mle,c}\rvert$
还可以用非参数的模型，如 Kolmogorov-Smirnov Statistic
$T^{\mathrm{ks}}=\sup\limits_y\lvert\widehat{F}_t(y)-\widehat{F}_c(y)\rvert=\max\limits_{i=1,\ldots,N}\lvert\widehat{F}_t(Y_i^\mathrm{obs})-\widehat{F}_c(Y_i^\mathrm{obs})\rvert$
其中 $\widehat{F}_c(y)=\frac{1}{N_c}\sum_{i:W_i=0}\boldsymbol{1}_{Y_i^\mathrm{obs}\leq y}$ ，即经验累计分布函数 (e.c.d.f)。$\widehat{F}_t(y)$ 类似

原书里还介绍了其他的统计量，以及统计量间的组合，不一而足，感兴趣的读者可以自行查阅。

关于统计量的选择没有固定的方式。一方面你需要考虑零假设和备择假设下数据的分布，然后尝试选择功效较大的统计量。比如说，你期望处理后增大了结果的分散程度，但没有改变结果的均值，那么选择衡量分散程度的统计量，如方差或者 $q$ 分位数区间的长度就会是一个具有更高功效的统计量。另一方面你可能需要考察已有数据的信息。比如你发现了观测数据中存在某些离群点，那么选择中位数而非均值作为统计量可能会得到更高的功效。

下面的模拟实验说明了一般来说，基于秩(rank)的统计量是比较好的。他在保持较好的功效时有更好的稳健性，其他的统计量遇到不适合的数据可能出现较差的情况。

实验一：$Y_i(0)\sim\mathcal{N}(0,1),\,Y_i(1)=Y_i(0)+\tau$
实验二：在上一个实验的基础上，给 $20\%$ 的数据加上了 $5$ 的偏置使其变为离群值
实验三：在第一个实验的基础上，都取$\exp$，即 $Y_i(0)\sim\log-\mathcal{N}(0,1),\,Y_i(1)=Y_i(0)\cdot\exp{\tau}$

gen.threshold <- function(method, q=0.9, trail=20000, Nc=1000, Nt=1000, seed=42) {
  set.seed(seed)
  controls = rnorm(Nc+Nt, 0, 1)
  if (method == 'outlier') {
    w = sample(1:(Nc+Nt), floor((Nc+Nt)/5))
    controls[w] = controls[w] + 5
  }
  treatment = controls
  if (method == 'multiplicative') {
    controls = exp(controls)
    treatment = exp(treatment)
  }
  T.difs = rep(NA, trail)
  T.meds = rep(NA, trail)
  T.raks = rep(NA, trail)
  for (i in 1:trail) {
    w = sample(1:(Nc+Nt), Nt)
    T.difs[i] = abs(mean(treatment[w]) - mean(controls[-w]))
    T.meds[i] = abs(median(treatment[w]) - median(controls[-w]))
    ranks = rank(c(treatment[w], controls[-w]))
    T.raks[i] = abs(mean(ranks[1:Nt]) - mean(ranks[(Nt+1):(Nt+Nc)])) 
  }
  return(c(quantile(T.difs, q), quantile(T.meds, q), quantile(T.raks, q)))
}
get.power <- function(tau, thres, method, trail=500, Nc=1000, Nt=1000, seed=42) {
  set.seed(seed)
  controls = rnorm(Nc+Nt, 0, 1)
  if (method == 'outlier') {
    w = sample(1:(Nc+Nt), floor((Nc+Nt)/5))
    controls[w] = controls[w] + 5
  }
  treatment = controls + tau
  if (method == 'multiplicative') {
    controls = exp(controls)
    treatment = exp(treatment)
  }
  T.difs = rep(NA, trail)
  T.meds = rep(NA, trail)
  T.raks = rep(NA, trail)
  for (i in 1:trail) {
    w = sample(1:(Nc+Nt), Nt)
    T.difs[i] = abs(mean(treatment[w]) - mean(controls[-w]))
    T.meds[i] = abs(median(treatment[w]) - median(controls[-w]))
    ranks = rank(c(treatment[w], controls[-w]))
    T.raks[i] = abs(mean(ranks[1:Nt]) - mean(ranks[(Nt+1):(Nt+Nc)])) 
  }
  return(c(sum(T.difs>thres[1])/trail,sum(T.meds>thres[2])/trail,sum(T.raks>thres[3])/trail))
}
thres1 <- gen.threshold('normal')
thres2 <- gen.threshold('outlier')
thres3 <- gen.threshold('multiplicative')
dat1 <- matrix(NA, nrow=3, ncol=200)
dat2 <- matrix(NA, nrow=3, ncol=200)
dat3 <- matrix(NA, nrow=3, ncol=200)
for (i in 1:200) {
  dat1[,i] <- get.power(i/1000, thres1, 'normal')
  dat2[,i] <- get.power(i/1000, thres2, 'outlier')
  dat3[,i] <- get.power(i/1000, thres3, 'multiplicative')
}
plot(x=1:200/1000, y=dat1[1,], col='red', type='l', ylim=c(0,1), main='normal', xlab='tau', ylab='Power')
lines(x=1:200/1000, y=dat1[2,], col='green', ylim=c(0,1))
lines(x=1:200/1000, y=dat1[3,], col='blue', ylim=c(0,1))
legend('bottomright', legend=c('dif', 'median', 'rank'), col=c('red', 'green', 'blue'), lty=1)

plot(x=1:200/1000, y=dat2[1,], col='red', type='l', ylim=c(0,1), main='outlier', xlab='tau', ylab='Power')
lines(x=1:200/1000, y=dat2[2,], col='green', ylim=c(0,1))
lines(x=1:200/1000, y=dat2[3,], col='blue', ylim=c(0,1))
legend('bottomright', legend=c('dif', 'median', 'rank'), col=c('red', 'green', 'blue'), lty=1)

plot(x=1:200/1000, y=dat3[1,], col='red', type='l', ylim=c(0,1), main='multiplicative', xlab='tau', ylab='Power')
lines(x=1:200/1000, y=dat3[2,], col='green', ylim=c(0,1))
lines(x=1:200/1000, y=dat3[3,], col='blue', ylim=c(0,1))
legend('bottomright', legend=c('dif', 'median', 'rank'), col=c('red', 'green', 'blue'), lty=1)

造“置信区间”

首先明确一点，该置信区间和频率学派的置信区间有差别。事实上 Fisher 方法无法给出传统意义下的置信区间。在这里，我们将其称为 Fisher 置信区间，因为其和 Fisher exact P value 密切相关。简单说来，其通过不断调整零假设 $Y_i(1)=Y_i(0)+C$ 来构造出 $C$ 的一个区间。我们知道，对于每一个给定的 $C$，所有的潜在结果都被确定，因此我们可以算出出现我们观测的 P-value. 而当 $C$ 极大或极小时，计算所得的 P-value 都将成为0。因此我们可以取使得 P-value 大于0.05 的那些 $C$ 值，然后组成一个 $95\%$ 的“置信区间”，来作为 $Y_i(1)-Y_i(0)$ 的一个区间估计。

计算 P 值

显然，计算 P 值需要穷举所有的可能性，一共$\binom{N_t+N_c}{N_t}$种，当 $N_t,N_c$ 都不太小时显然是不可计算的。一个简单的近似，也是上面代码里所用到的，就是我随机的采 1000 或 10000 次样本做重复实验，然后根据这些样本算出的 $T$ 取分位数来构造置信区间。可以证明，给定真实的 P值 $p^\star$，如果我们抽取 $K$ 个样本，那么使用这 $K$ 个样本计算得到标准差为 $\sqrt{p^\star(1-p^\star)/K}\leq1/\sqrt{4k}$。即使我们让标准差小于 $0.0001$，也只需要 $K=250000$ 次采样，这在现在的电脑上是十分容易实现的。实际应用中，由于你已经采了足够的样本，因此使用 $\widehat{p}$ 近似真值 $p^\star$ 来估计方差可以得到更好的效果。

带协变量的检验

之前我们都没有使用实验前观测得到的数据，也就是协变量。加入协变量我们又可以构造出若干统计量。

一个常见的情况是协变量和实验变量是实验前后同一个量的观测，那么做一个减法，即 $Y_i'(w)=Y_i(w)-X_i$ 是十分自然的，此时构造出一个新的统计量

\[T^\mathrm{gain}=\frac{\sum_{i:W_i=1}(Y_i^\mathrm{obs}-X_i)}{N_t}-\frac{\sum_{i:W_i=0}(Y_i^\mathrm{obs}-X_i)}{N_c}=\bar{Y}_t^{\mathrm{obs}}-\bar{Y}_c^{\mathrm{obs}}-(\bar{X}_t-\bar{X}_c)\]

当然你可以再进行一个”归一化“，简单地除以 $X_i$ 本身，即$Y_i'‘(w)=\frac{Y_i(w)-X_i}{X_i}$，此时得到新的统计量

\[T^\mathrm{prop-change}=\frac{1}{N_t}\sum\limits_{i:W_i=1}\frac{Y_i^\mathrm{obs}-X_i}{X_i}-\frac{1}{N_c}\sum\limits_{i:W_i=0}\frac{Y_i^\mathrm{obs}-X_i}{X_i}\]

还有一种可能就是做一个线性回归模型，即

\[(\widehat{\beta}_0,\widehat{\beta}_X,\widehat{\beta}_W)=\arg\min\limits_{\widehat{\beta}_0,\widehat{\beta}_X,\widehat{\beta}_W}\sum\limits_{i=1}^{N}(Y_i^\mathrm{obs}-\widehat{\beta}_0-\widehat{\beta}_X\cdot X_i-\widehat{\beta}_W\cdot W_i)^2\]

得到新统计量 $T^{\mathrm{reg-coef}}=\widehat\beta_W$

局限

Fisher Exact Test 是一个十分直观且简单的检验方法，但也带来了他的局限性，主要体现在两点

Sharp null hypothesis 带来了太多的限制
拒绝了原假设后，对于组间效应不能给出一个预测量，连点估计都无法给出。

这些局限在下一个方法，也就是 Neyman 提出的重复采样方法中得到了解决。

【Note】因果推断(一)——因果推断简介

2018-10-19T11:30:00.000Z

基本概念和定义

一个简单的例子，患者在头痛后选择了吃阿司匹林，并最后缓解头痛。我们在意的就是这一结果是否能解释为阿司匹林的药效。

单元 (Unit)

通常是一个物理实体或者实体的集合，比如每个人、每个班级等
不同时间下的同一实体认为是不同的单元

动作 (Action)

对于每个单元所采取的操作
比如吃阿司匹林、不吃阿司匹林或者吃另一种止疼药

因果性 (Causality)

因果性和对一个单元施加的动作直接相关
通常我们考虑两个动作(实验组 (treatment) 和对照组 (control))，但直接推广到多动作也是平凡的

潜在结果 (Potential outcome)

每个动作-单元对都会产生一组潜在结果，如 $Y_c,Y_t$
每次实验中，只能得到一个潜在结果即观测结果 $Y^\mathrm{obs}$，另一个将无法观测到 $Y^\mathrm{mis}$
某一动作相对于另一动作的因果效应就是潜在结果的对比，如 $Y_t-Y_c$ 或 $Y_t/Y_c$

因果推断的难点

至此可以看到，因果推断最核心的难题就是， $Y_t,Y_c$ 仅有可能观测到一个，因此没法直接得到因果的效应。在只有一个单元的情况下显然是不可做的，而在有多个单元的情况下其实也不容易做

如果是同一时间的不同实体，比如选择 100 名头痛患者并分组处理。但可能有下列问题
- 甲不吃药后头痛的严重程度和乙如果不吃药后的结果其实不一样
- 不同人的初始头痛的严重程度不一样
- 不同人对阿司匹林的敏感度不同
如果是同一实体的不同时间，比如让一个人在几次头痛中有几次吃药几次不吃药。但可能也有下列的问题
- 不同时间的同一实体本质上还是不同的单元
- 比如患者可能会产生耐药性
- 比如晚上和白天效果不一样是

所以我们只能进行一定的假设。在阿司匹林的例子中就是：甲是否吃药不会影响乙的头痛的状态(无论乙吃药或否)。这一点看起来通常是对的，但也不能排除其错误的可能——比如甲乙同在一个屋子里，除非甲吃药并缓解头痛，否则他无止尽的抱怨会加重乙的头痛严重程度。但这一点通常还是可以通过实验来减少这一干扰的。

SUTVA

将该思想抽象出来，我们就得到了一个极其重要的假设 Stable Unit Treatment Value Assumptioni (SUTVA)。其核心为两点

没有交叉影响：任何单元的潜在结果不会受其他单元的(实验组/对照组)分配情况的影响
处理组没有隐含的差别：对每个单元，其处理组处理的方式只有一种，也就是说处理组的潜在结果只有一种。以阿司匹林为例，就意味着处理组不存在单个个体因为阿司匹林摄入量的不同而产生不同的结果

在这样的假设下，模型得到了进一步的简化，此时我们通常记

\[Y _ { i } ^ { \mathrm { obs } } = Y _ { i } \left( W _ { i } \right) = \left\{ \begin{array} { l l } { Y _ { i } ( 0 ) } & { \text { if } W _ { i } = 0 } \\ { Y _ { i } ( 1 ) } & { \text { if } W _ { i } = 1 } \end{array} \right.\]

\[Y _ { i } ^ { \mathrm { mis } } = Y _ { i } \left( 1 - W _ { i } \right) = \left\{ \begin{array} { l l } { Y _ { i } ( 1 ) } & { \text { if } W _ { i } = 0 } \\ { Y _ { i } ( 0 ) } & { \text { if } W _ { i } = 1 } \end{array} \right.\]

协变量

由于至少一半的潜在结果无法被观测到，我们通常需要预估或者说填充这些缺失值来进行我们的因果推断。因此，如果有一些实验前就观测到的协变量，将会对我们的预测有很大帮助。同时，这些变量在我们决定分组的时候也可能产生很大的作用——比如说，我们想测试阿司匹林对减轻头痛的因果效应时，可能就不会接受实验组全部为男性，对照组全部为女性的分组方式，因为这将使我们没法断定实验的结果是解释为阿司匹林还是解释为性别差异。

分配机制 (Assignment Mechanism)

定义

给定 $N$ 个单元后，分配机制是一个行可交换的函数 $ ( | , ( 0 ) , ( 1 ) )$ ，取值 $[0,1]$ 且满足

\[\sum\limits_ { \mathbf { W } \in \{ 0,1 \} ^ { N } } \mathbb{P} ( \mathbf { W } | \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) = 1 , \text { for all } \mathbf { X } , \mathbf { Y } ( 0 ) , \text { and } \mathbf { Y } ( 1 )\]

也就是说给定了协变量和潜在结果后，分配机制给出了所有分配向量的概率；而每个分配向量决定了哪些单元接受处理——也就是哪些潜在结果被观测到，而哪些无法被观测。

在此基础上，我们考察个体接受处理的概率，定义为

\[p _ { i } ( \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) = \sum _ { \mathbf { W } : W _ { i } = 1 } \operatorname { Pr } ( \mathbf { W } | \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) )\]

我们也可以考察某一类单元接受处理的概率，我们称之为倾向得分 (Propensity score)，定义为

\[e ( x ) = \frac { 1 } { N ( x ) } \sum\limits _ { i : X _ { i } = x } p _ { i } ( \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) )\]

其中 $N(x)=\mathrm{Card}(\{i=1,\ldots,N\mid X_i=x\})$ 即 $X_i=x$ 集合元素的个数

例子一

两个样本，$2^2=4$ 个分配向量：

\[\mathbf { W } \in \left\{ \left( \begin{array} { l } { 0 } \\ { 0 } \end{array} \right) , \left( \begin{array} { l } { 0 } \\ { 1 } \end{array} \right) , \left( \begin{array} { l } { 1 } \\ { 0 } \end{array} \right) , \left( \begin{array} { l } { 1 } \\ { 1 } \end{array} \right) \right\}\]

分配机制为完全随机分配，即

\[\mathbb{P} ( \mathbf { W } | \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) = 1 / 4 , \quad \text { for } \mathbf { W } \in \left\{ \left( \begin{array} { l } { 0 } \\ { 0 } \end{array} \right) , \left( \begin{array} { l } { 0 } \\ { 1 } \end{array} \right) , \left( \begin{array} { l } { 1 } \\ { 0 } \end{array} \right) , \left( \begin{array} { l } { 1 } \\ { 1 } \end{array} \right) \right\}\]

个体接受处理概率为

\[p _ { i } ( \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) = 1 / 2 \text { for both units } i = 1,2\]

倾向性得分为

由于没有协变量参与分配机制，因此对任何协变量的取值 $x$ 都有 $e(x)=1/2$

例子二

两个样本，$2^2=4$ 个分配向量：

分配机制为只考虑两个样本分配到不同组的情形，即

\[\operatorname { Pr } ( \mathbf { W } | \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) = \left\{ \begin{array} { l l } { 1 / 2 } & { \text { if } \mathbf { W } \in \left\{ \left( \begin{array} { l } { 0 } \\ { 1 } \end{array} \right) , \left( \begin{array} { l } { 1 } \\ { 0 } \end{array} \right) \right\} } \\ { 0 } & { \text { if } \mathbf { W } \in \left\{ \left( \begin{array} { l } { 0 } \\ { 0 } \end{array} \right) , \left( \begin{array} { l } { 1 } \\ { 1 } \end{array} \right) \right\} } \end{array} \right.\]

个体接受处理概率为

\[p _ { i } ( \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) = 1 / 2 \text { for both units } i = 1,2\]

倾向性得分为

由于没有协变量参与分配机制，因此对任何协变量的取值 $x$ 都有 $e(x)=1/2$

例子三

两个样本，$2^2=4$ 个分配向量：

分配机制为：将 $Y(1)-Y(0)$ 大的分配给实验组，另一个为对照组。如果相等则随机分配，即

\[\operatorname { Pr } ( \mathbf { W } | \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) = \left\{ \begin{array} { l l } \begin{array} { l } { 1 } & { \text { if } Y _ { 2 } ( 1 ) - Y _ { 2 } ( 0 ) > Y _ { 1 } ( 1 ) - Y _ { 1 } ( 0 ) \text { and } \mathbf { W } = \left( \begin{array} { l } { 0 } \\ { 1 } \end{array} \right) } \\ { 1 } & { \text { if } Y _ { 2 } ( 1 ) - Y _ { 2 } ( 0 ) < Y _ { 1 } ( 0 ) \text { and } \mathbf { W } = \left( \begin{array} { l } { 1 } \\ { 0 } \end{array} \right) } \\ { 1 / 2 } & { \text { if } Y _ { 2 } ( 1 ) - Y _ { 2 } ( 0 ) = Y _ { 1 } ( 1 ) - Y _ { 1 } ( 0 ) \text { and } \mathbf { W } \in \left\{ \left( \begin{array} { c } { 0 } \\ { 1 } \end{array} \right) , \left( \begin{array} { c } { 1 } \\ { 0 } \end{array} \right) \right\} } \\ {0} & {\text { if } \mathbf { W } \in \left\{ \left( \begin{array} { l } { 0 } \\ { 0 } \end{array} \right) , \left( \begin{array} { l } { 1 } \\ { 1 } \end{array} \right) \right\}} \\ { 0 } & {\text { if } Y _ { 2 } ( 1 ) - Y _ { 2 } ( 0 ) < Y _ { 1 } ( 1 ) - Y _ { 1 } ( 0 ) \text { and } \mathbf { W } = \left( \begin{array} { c } { 0 } \\ { 1 } \end{array} \right) } \\ { 0 } & { \text { if } Y _ { 2 } ( 1 ) - Y _ { 2 } ( 0 ) > Y _ { 1 } ( 1 ) - Y _ { 1 } ( 0 ) \text { and } \mathbf { W } = \left( \begin{array} { c } { 1 } \\ { 0 } \end{array} \right) } \end{array} \end{array} \right.\]

个体接受处理概率为

\[p _ { i } ( \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) =0,\ 1 / 2 \text { or } 1\]

倾向性得分为

由于没有协变量参与分配机制，因此对任何协变量的取值 $x$ 都有 $e(x)=1/2$

例子四

三个样本，协变量 $X_i=i$，$2^3=8$ 个分配向量：

\[\mathbf { W } \in \left\{ \left( \begin{array} { l }{ 0 } \\ { 0 } \\ { 0 } \end{array} \right) , \left( \begin{array} { l } { 0 } \\{ 0 } \\ { 1 } \end{array} \right) , \left( \begin{array} { l } { 0 } \\{ 1 } \\ { 0 } \end{array} \right) , \left( \begin{array} { l } { 0 } \\{ 1 } \\ { 1 } \end{array} \right),\left( \begin{array} { l } { 1 } \\ { 0 } \\ { 0 } \end{array} \right) , \left( \begin{array} { l }{ 1 } \\ { 0 } \\ { 1 } \end{array} \right) , \left( \begin{array} { l }{ 1 } \\ { 1 } \\ { 0 } \end{array} \right) , \left( \begin{array} { l } { 1 } \\ { 1 } \\ { 1 } \end{array} \right) \right\}\]

分配机制为：将 $Y(1)-Y(0)$ 大的分配给实验组，另一个为对照组。如果相等则随机分配，即

\[\operatorname { Pr } ( \mathbf { W } | \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) = \left\{ \begin{array} { l l } {1 / 2} & { \text { if } Y _ { 1 } ( 0 ) > Y _ { 2 } ( 1 ) , \text { and } \mathbf { W } = \left( \begin{array} { l } { 0 } \\ { 1 } \\ { 0 } \end{array} \right) } \\{1 / 2} & { \text { if } Y _ { 1 } ( 1 ) \ge Y _ { 2 } ( 0 ) , \text { and } \mathbf { W } = \left( \begin{array} { l } { 1 } \\ { 0 } \\ { 1 } \end{array} \right) } \\{1 / 2} & { \text { if } Y _ { 1 } ( 0 ) \le Y _ { 2 } ( 1 ) , \text { and } \mathbf { W } = \left( \begin{array} { l } { 0 } \\ { 1 } \\ { 1 } \end{array} \right) } \\{1 / 2} & { \text { if } Y _ { 1 } ( 1 ) < Y _ { 2 } ( 0 ) , \text { and } \mathbf { W } = \left( \begin{array} { l } { 1 } \\ { 0 } \\ { 0 } \end{array} \right) } \\\end{array} \right.\]

个体接受处理概率为

\[p _ { 1 } ( \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) =p _ { 2 } ( \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) =1/2\]

\[p _ { 3 } ( \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) = \left\{ \begin{array} { l l } { 0 } & { \text { if } Y _ { 1 } ( 0 ) > Y _ { 2 } ( 1 ) \text { and } Y _ { 1 } ( 1 ) < Y _ { 2 } ( 0 ) } \\ { 1 } & { \text { if } Y _ { 1 } ( 1 ) \geq Y _ { 2 } ( 0 ) \text { and } Y _ { 1 } ( 0 ) \leq Y _ { 2 } ( 1 ) } \\ { 1 / 2 } & { \text { otherwise } } \end{array} \right.\]

倾向得分为

\[e(X_i=1)=e(X_i=2)=1/2, e(X_i=3)=p_3(\mathbf{X},\mathbf{Y}(0),\mathbf{Y}(1))\]

更严格的分配机制

独立分配 (Individualistic assignment)

要求每个个体的分配概率独立于其他个体，即

\[p _ { i } ( \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) = q \left( X _ { i } , Y _ { i } ( 0 ) , Y _ { i } ( 1 ) \right) , \text { for all } i = 1 , \ldots , N\]

那么此时

\[\mathbb{P} ( \mathbf { W } | \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) = c \cdot \prod _ { i = 1 } ^ { N } q \left( X _ { i } , Y _ { i } ( 0 ) , Y _ { i } ( 1 ) \right) ^ { W _ { i } } \left( 1 - q \left( X _ { i } , Y _ { i } ( 0 ) , Y _ { i } ( 1 ) \right) \right) ^ { 1 - W _ { i } }\]

且

\[e ( x ) = \frac { 1 } { N ( x ) } \sum\limits _ { i : X _ { i } = x } q ( X_i , Y_i ( 0 ) , Y_i ( 1 ) )\]

上面四个例子中，第四个例子不满足这一条件

概率型分配 (Probabilistic assignment)

要求对每个个体的每个动作的分配，都要有非零的概率。在只有两个动作的情况下，则意味着分配至控制组的概率满足 \(0

无混杂分配 (Unconfounded assignment)

要求分配机制和潜在结果是独立的，即

\[\mathbb{P} ( \mathbf { W } | \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) =\mathbb{P} ( \mathbf { W } | \mathbf { X } )\]

之前的例子中一和二是无混杂的，三和四都是有混杂的

三者的综合: 规范分配 (Regular assignment)

此时可以得到

\[\mathbb{P} ( \mathbf { W } | \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) = c \cdot \prod _ { i = 1 } q \left( X _ { i } \right) ^ { W _ { i } } \cdot \left( 1 - q \left( X _ { i } \right) \right) ^ { 1 - W _ { i } }\]

\[e(x)=q(x)\]

也就是说分配机制就是倾向得分的乘积，而此时倾向得分又可以解释为 $X_i=x$ 的个体分配的概率(之前是这些个体分配的概率的均值)

有哪些非规范的情况呢？

非依从性：某些个体实际接受的处理可能和设计不一样——比如实验组可能不愿意吃实验性的药物而偷偷拒绝服药

随机化实验 (Randomized experiments)

随机化实验指的是分配机制

是概率型分配，即带有一定的随机性
有研究者可以控制的函数形式，也就是这是一个实验 (Experiment)

经典随机化实验 (Classical Randomized Experiments) 则还要求

独立分配
无混杂分配

经典随机化实验中又会有三个特殊的情形，我们将在接下来的五节中涉及相关的推断，他们是

完全随机化实验 (Completely randomized experiments)
分层随机化实验 (Stratified randomized experiments)
配对随机试验 (Paired randomized experiments)

经典随机化实验的例子

伯努利试验

对于 $N$ 个样本，投掷 $N$ 次正面向上概率为 $p=e(X_i)$ 的硬币，并以正面代表实验组处理而反面代表控制组处理。即

\[\mathbb{P} ( \mathbf { W } | \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) = \prod _ { i = 1 } ^ { N } \left[ e \left( X _ { i } \right) ^ { W _ { i } } \cdot \left( 1 - e \left( X _ { i } \right) \right) ^ { 1 - W _ { i } } \right]\]

此时分配向量的支撑集，即使得上式非零的集合为 $\mathbb{W}^+=\mathbb{W}=\{0,1\}^N$

完全随机化实验

相比伯努利实验，其要求有 $N_t$ 个接受实验组而 $N_c=N-N_t$ 个接受控制组，且每个样本被分配的概率都是 $q=N_c/N$,即

\[\mathbb{P} ( \mathbf { W } | \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) = \left\{ \begin{array} { l l } { \left( \begin{array} { c } { N } \\ { N _ { t } } \end{array} \right)^{-1} } & { \text { if } \sum _ { i = 1 } ^ { N } W _ { i } = N _ { t } } \\ { 0 } & { \text { otherwise } } \end{array} \right.\]

此时的支撑集为 \[\mathbb { W } ^ { + } = \{ \mathbf { W } \in \mathbb { W } | \sum _ { i = 1 } ^ { N } W _ { i } = N _ { t } \}\]

分层随机化实验

其思想是根据协变量 $X_i$ 将样本先划分为若干块 (Block)，然后在每块内进行完全随机化实验，即

将根据协变量 $X_i$ $N$ 个样本划分为 $J$ 块，第 $i$ 个单元被分到的块记为 $B_i=B(X_i)$
第 $j$ 块的大小为 $N_j$，其中有 $N_t(j)$ 个样本接受实验处理

此时

\[\operatorname { Pr } ( \mathbf { W } | \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) = \left\{ \begin{array} { l l } { \prod _ { j = 1 } ^ { J } \left( \begin{array} { c } { N ( j ) } \\ { N _ { t } ( j ) } \end{array} \right) ^ { - 1 } }&{ \text { if } \mathbf { W } \in \mathbb { W } ^ { + } } \\ { 0 } & { \text { otherwise } } \end{array} \right.\]

而支撑集 $\mathbb { W } ^ { + } = \{ \mathbf { W } \in \mathbb { W } | \sum _ { i : B _ { i } = j } ^ { N } W _ { i } = N _ { \mathrm { t } } ( j ) , \text { for } j = 1,2 , \ldots , J \}$

且可以知对于块的倾向得分为 $e(X_i)=N_t(j)/N(j)$

配对随机化实验

其是一个特殊的分层随机化实验——一共有 $J=N/2$ 块，每块两个单元，且一个接受处理一个接受对照。则

\[\operatorname { Pr } ( \mathbf { W } | \mathbf { X } , \mathbf { Y } ( 0 ) , \mathbf { Y } ( 1 ) ) = \left\{ \begin{array} { l l } { 2 ^ { - N / 2 } } & { \text { if } \mathbf { W } \in \mathbb { W } ^ { + } } \\ { 0 } & { \text { otherwise } } \end{array} \right.\]

支撑集 $\mathbb { W } ^ { + } = \{ \mathbf { w } \in \mathbb { W } | \sum _ { i : B _ { i } = j } ^ { N } W _ { i } = 1 , \text { for } j = 1,2 , \ldots , N / 2 \}$

观察学习 (Observational studies)

相对于实验，观察学习针对的是分配机制未知或不可控的情况

Lord's Paradox

(挖坑待填)

(核心就是没有对照组，然后就是没有明确给出 $Y_i(0)$ 填充的方式。二者一个是使用一年前的数据 $X$ 填充，另一个是使用回归模型 $a+bX$ 填充)

Simpson's Paradox

(挖坑待填)

(核心就是不同层的分配比例，或者说倾向性得分相差太大)

数学上，Simpson's Paradox 出现的原因是，即使 $a_1>b_1,\ a_2>b_2$，但加权平均的结果 $\lambda a_1+(1-\lambda)a_2$ 和 $\mu b_1+(1-\mu)b_2$ 的大小仍然无法确定。比如当 $b_1>a_2$ 时，若 $\lambda\rightarrow 0$ 而 $\mu\rightarrow 1$ ，就会导致加权的结果近似为 $a_2\approx \tilde{a}<\tilde{b}\approx b_1$

【Series】因果推断和图模型

2018-10-17T16:01:00.000Z

这是一门3学时的课程，系统介绍了因果推断的基本思想（主要以 Donald B. Rubin 为代表），对 Pearl 的因果图模型也会有所涉及，使用的教材主要为 Causal Inference for Statistics, Social, and Biomedical Sciences : An Introduction (2015)

在开始因果推断前，我们假设读者对下面的概念有了初步的认识。

假设检验
对相关性和因果性粗浅的认识

下面是本系列的架构

手敲$\LaTeX$难免出现纰漏，有任何疑似错误或者不清楚的地方请直接在下方评论区留言，谢谢各位读者。

【Note】非参数估计(二)——概率密度估计的区间误差分析

2018-09-29T04:00:00.000Z

MISE 的估计

上一节我们讨论了单点$x_0$处的误差$\mathrm{MSE}(x_0)$，一个自然的想法就是考察整体的误差，即

\[\begin{align}\mathrm{MISE}&=\int(\mathbb{E}_p[\widehat{p}_{n}(x)]-p(x))^2\,\mathrm{d}x+\int\mathbb{E}_p[(\widehat{p}_{n}(x)-\mathbb{E}_p[\widehat{p}_{n}(x)])^2]\,\mathrm{d} x\\&\overset{\Delta}{=}\int b^2(x)\,\mathrm{d}x+\int \sigma^2(x)\,\mathrm{d}x\end{align}\]

方差项的积分

沿用上一文的结论，我们已经有

\[\sigma^2(x)=\frac{1}{nh^2}\mathbb{E}_p[\eta_1^2(x)]\leq\frac{1}{nh^2}\mathbb{E}_p[K^2\left(\frac{X_1-x}{h}\right)]\]

因此

\[\begin{align}\int\sigma^2(x)\,\mathrm{d}x&\leq\frac{1}{nh^2}\int\int K^2\left(\frac{z-x}{h}\right)p(z)\,\mathrm{d}z\,\mathrm{d}x\\&=\frac{1}{nh}\int\int K^2(u)p(x+uh)\,\mathrm{d}u\,\mathrm{d}x \\&=\frac{1}{nh}\int K^2(u)\,\mathrm{d}u\end{align}\]

偏差项的积分

首先我们需要知道泰勒展开的积分余项形式

\[f(x)=f(x_0)+f^\prime(x_0)(x-x_0)+\cdots+\frac{f^{(l-1)}(x_0)(x-x_0)^{l-1}}{(l-1)!}+\int_{x_0}^x \frac{f^{(l)}(t)(x-t)^{(l-1)}}{(l-1)!}\,\mathrm{d}t\]

于是

\[\begin{align}b(x)=\mathbb{E}_p[\widehat{p}_n(x)]-p(x)&=\frac{1}{h}\int K(\frac{z-x}{h})p(z)\,\mathrm{d}x-p(x)\\&=\int K(u)p(x+uh)\,\mathrm{d}u-p(x)\\&=\int K(u) [p(x+uh)-p(x)] \,\mathrm{d}u\\&=\int K(u)\int_x^{x+uh}p^{(l)}(t)\frac{(x+uh-t)^{l-1}}{(l-1)!}\,\mathrm{d}t\,\mathrm{d}u\\&=\int K(u)\int_0^{1}p^{(l)}(x+uh\tau)\frac{(uh)^l(1-\tau)^{l-1}}{(l-1)!}\,\mathrm{d}\tau\,\mathrm{d}u\\&=\int K(u)\frac{(uh)^l}{(l-1)!}\int [p^{(l)}(x+uh\tau)-p^{(l)}(x)] (1-\tau)^{l-1}\,\mathrm{d}\tau \,\mathrm{d}u\\&\overset{\Delta}{=}\int \widetilde{K}(u) \cdot m(u,x)\,\mathrm{d}u \end{align}\]

其中$(u)=K(u), m(u,x)=(1-)^{l-1},$

现在我们使用 Minkowski inequality 来控制积分的上届，使用的形式为

\[\int(\int g(u,x)\,\mathrm{d}u)^2\,\mathrm{d}x\leq[\int(\int g^2(u,x)\,\mathrm{d}x)^{1/2}\,\mathrm{d}u]^2\]

不熟悉的读者可能觉得这一形式有些怪异，其实其本质就是三角不等式，也就是说和的范数小于范数的和，即\[\lvert\lvert f+g\rvert\rvert_2\leq \lvert\lvert f\rvert\rvert_2+\lvert\lvert g\rvert\rvert_2\]。其中$\lvert\lvert f\rvert\rvert_2=(\int \lvert f\rvert^2\,\mathrm{d}\mu)^{1/2}$。因此不等式右边是范数$(\int g^2(u,x)\,\mathrm{d}x)^{1/2}$的和(积分)的平方，而左边是和(积分)$\int g(u,x)\,\mathrm{d}u$的范数的平方。

先使用一次Minkowski inequality

\[\begin{align}\int b^2(x)\,\mathrm{d}x&=\int(\int \widetilde{K}(u) m(u,x)\,\mathrm{d}u)^2\,\mathrm{d}x\\&\leq [\int(\int \widetilde{K}^2(u) m^2(u,x) \,\mathrm{d}x)^{1/2}\,\mathrm{d}u]^2\\&= [\int \widetilde{K}(u)(\int m^2(u,x) \,\mathrm{d}x)^{1/2}\,\mathrm{d}u]^2\end{align}\]

现在考察$(\int m^2(u,x) \,\mathrm{d}x)^{1/2}$的值。再次使用Minkowski inequality

\[\begin{align}(\int m^2(u,x)\,\mathrm{d}x)^{1/2}&\leq\int \,\mathrm{d}\tau[\int (p^{(l)}(x+uh\tau)-p^{(l)}(x))^2(1-\tau)^{2l-2}\,\mathrm{d}x]^{1/2}\\&=\int (1-\tau)^{l-1}\,\mathrm{d}\tau[\int (p^{(l)}(x+uh\tau)-p^{(l)}(x))^2\,\mathrm{d}x]^{1/2}\end{align}\]

可以看到，我们需要$p$满足一定的性质才能控制这一上届。我们先定义 Nikol'ski class $\mathcal{H}(\beta,L), \beta>0,L>0$ 为所有满足下列性质的函数$f:\mathbb{R}\rightarrow\mathbb{R}$的集合

$f^{(l)}$存在，其中$l=\lfloor\beta\rfloor$
$[\int (f^{(l)}(x+t)-f^{(l)}(x))^2\,\mathrm{d}x]^{1/2}\leq L\lvert t\rvert^{\beta-l},\ \forall t\in\mathbb{R}$

还有一个定义 Sobolev class$\mathcal{S}(\beta,L), \beta\in\mathbb{N}^+ \mathrm{}, L>0$为所有满足下列性质的函数$f:\mathbb{R}\rightarrow\mathbb{R}$的集合

$-$1次可微
$f^{(\beta-1)}$绝对连续
$\int (f^{(\beta)}(x))^2\,\mathrm{d}x\leq L^2$

可以证明$\mathcal{S}(\beta,L)\subset\mathcal{H}(\beta,L)$

在这里，我们先使用$\mathcal{H}(\beta,L)$，并加上概率密度的约束，即$p\in\mathcal{P_H}=\{p\in\mathcal{H}(\beta,L)\mid p\ge 0,\ \int p(x)\,\mathrm{d}x=1\}$

此时，我们可以控制得

\[\int (p^{(l)}(x+uh\tau)-p^{(l)}(x))^2\,\mathrm{d}x]^{1/2}\leq L(uh\tau)^{\beta-l}\]

整理过后可以得到$\int b^2(x)\,\mathrm{d}x\leq C h^{2\beta}$

如同上文一样，我们得到了$\mathrm{MISE}$的收敛速度为$O(n^{-\frac{2\beta}{2\beta+1}})$

若$\beta$为整数，读者也可以使用$\mathcal{S}(\beta,L)$获得一个证明，也就是假设$\int(p^{(\beta)}(x))^2\,\mathrm{d}x<\infty$即可。此时整个积分同样被控制住。

\[\begin{align} { \int ( } { p ^ { ( \ell ) } ( x + t ) - p ^ { ( \ell ) } ( x ) ) ^ { 2 } \mathrm{d} x } \ & { = \int \left( t \int _ { 0 } ^ { 1 } p ^ { ( \ell + 1 ) } ( x + \theta t ) \,\mathrm{d} \theta \right) ^ { 2 } \,\mathrm{d} x } \\ { } & { \leq t ^ { 2 } \left( \int _ { 0 } ^ { 1 } \left[ \int \left( p ^ { ( \ell + 1 ) } ( x + \theta t ) \right) ^ { 2 } \,\mathrm{d} x \right] ^ { 1 / 2 } \mathrm{d} \theta \right) ^ { 2 } } \\ { } & { = t ^ { 2 } \int \left( p ^ { ( \beta ) } ( x ) \right) ^ { 2 } \,\mathrm{d} x } \end{align}\]

样本	cfa \(Y_i(0)\)	cfa \(Y_i(1)\)	W_i	cfp \(X_i\)	cfa \(Y_i^{\mathrm{obs}}\)
1	?	3	1	4	3
2	?	5	1	6	5
3	?	0	1	4	0
4	4	?	0	4	4
5	0	?	0	1	0
6	1	?	0	5	1

Vica's Blog

【Note】 一些有趣的概率论问题

不独立但同分布的情况

三角形/圆相关

动态规划相关

随机过程相关

多元正态相关

排列组合相关

采样相关

杂题

重装vps的一些记录

为什么要重装

需要做什么

创建/购买服务器和域名

v2ray的搭建

hexo的搭建

【d3】一些小控件

【Series】可视化——论文阅读

【Note】 非参数估计(九)——多点测试

多点测试的框架

\(p_{err,M}\) 的下界

\(KL\) 散度

\(\chi^2\)

一个成功的例子 \(L_{\infty}\) risk

构造多点测试

选择合适的 \(h\)

寻找 \(p_{err,M}\) 的下界

另一个成功的例子—— \(L_2\) risk

构造多点测试

【Note】 非参数估计(八)——两点测试

两点测试的框架

\(p_{err,1}\) 的下界

一个失败的例子

更加精细的构造

一个成功的例子

【Series】 非参数估计

【Note】 非参数估计(七)——求收敛速度下界的框架

收敛速度的下界

求下界的框架：Minimax rate

三步走

放缩至概率

放缩至有限空间

构造 \(2s-\) 可分子集

总结

【Note】 非参数估计(六)——概率测度的距离度量

几个常用的距离

Hellinger distance

Total variation distance

Kullback divergence

\(\chi^2\) divergence

Csizsar f-divergence

距离相关的不等式

Le Cam's Inequallities

式一

式二

式三

Pinsker's Inequalities

刻画 \(K\) 和 \(V\) 的另一个不等式

刻画 K 和 \(\chi^2\) 不等式

刻画误差下界

【Note】 非参数估计(五)——投影估计

投影估计

引入假设

误差分析

【Note】 非参数估计(四)——局部多项式估计

局部多项式估计

引入假设

误差分析

MSE 和 MISE

无穷范数

【Note】 非参数估计(三)——非参回归和非参线性估计简介

非参回归和非参线性估计

Fixed design

Random Design

【Note】 因果推断(五)——基于模型的检验

数据

朴素模型一

朴素模型二

贝叶斯模型的建立

三个输入

【Note】一些有趣的概率论问题

【Note】非参数估计(九)——多点测试

【Note】非参数估计(八)——两点测试

【Series】非参数估计

【Note】非参数估计(七)——求收敛速度下界的框架

【Note】非参数估计(六)——概率测度的距离度量

【Note】非参数估计(五)——投影估计

【Note】非参数估计(四)——局部多项式估计

【Note】非参数估计(三)——非参回归和非参线性估计简介

【Note】因果推断(五)——基于模型的检验

【Note】统计杂文——概率母函数、矩母函数和特征函数

【Note】因果推断(四)——回归模型

【Note】因果推断(三)——Neyman 检验

【Note】因果推断(二)——Fisher 精确检验