投影估计

我们仍然考察回归模型

$$Y_i=f(X_i)+\varepsilon_i,\quad\mathbb{E}_f[\varepsilon_i]=0, f:[0,1]\rightarrow\mathbb{R},X_i=i/n$$

假设 $f\in L_2[0,1]$,记 $\theta_j$ 是 $f$ 在 $L_2[0,1]$ 上标准正交基 $\{\varphi_i\}_{j=1}^\infty$ 上的系数,即

$$\theta_j=\int_0^1 f(x)\varphi_j(x)\,\mathrm{d} x$$

且假设 $f(x)=\sum_{j=1}^{\infty}\theta_j\varphi_j(x)$ 即点点收敛

投影估计的想法就是,我们在 前 $N$ 个基张成的空间中近似 $f$,即 $\sum_{j=1}^{N}\theta_j\varphi_j$ 来估计 $f$。当然,此时我们的 $\theta_j$ 只能是 $\hat{\theta}_j$,不可能得到真正的 $\theta$

当 $X_i$ 在 $[0,1]$ 上分布得足够均匀时(比如,$X_i=i/n$,或 $X_i$ 独立同分布于 $\mathcal{U}[0,1]$,$\frac{1}{n}\sum_{i=1}^{n}f(X_i)\varphi_j(X_i)$ 是 $\theta_j$ 的一个良好估计,因此我们可以用

$\hat{\theta}_j=\frac{1}{n}\sum_{i=1}^{n}Y_i\varphi_j(X_i)$ 来作为一个估计,此时得到投影估计 (projection estimator)

$$\hat{f}_{nN}(x)=\sum_{j=1}^{N}\hat{\theta}_j\varphi_j(x)=\sum_{i=1}^{n}(Y_i\cdot\frac{1}{n}\sum_{j=1}^{N}\varphi_j(X_i)\varphi_j(x))=\sum_{i=1}^{n}Y_iW_{ni}^{\ast\ast}(x)$$

可见其也是一个线性估计。

这里的 $N$,也就是投影估计的阶,和 $h$ 在核密度估计中有着相同的作用——平衡偏差核方差。过大的 $N$ 导致过拟合从而增大了方差,过小的 $N$ 则欠拟合数据使得偏差增大。

常有的基有下面这两个

三角基 $\varphi_1(x)\equiv 1,\varphi_{2k}(x)=\sqrt{2}\cos(2\pi k x),\varphi_{2k+1}(x)\sqrt{2}\sin(2\pi kx)$

小波基 $\psi_{jk}(x)=2^{j/2}\psi(2^jx-k),j,k\in\mathbb{Z}$ 其中 $\psi:\mathbb{R}\rightarrow\mathbb{R}$ 在紧的支撑集上足够光滑

二者的差别在于三角基考察的是频域的信息,而小波基同时考察了时域和频域的信息。

三角基有一个性质使我们后面用到的

$$\frac{1}{n}\sum\limits_{s=1}^{n}\varphi_j(s/n)\varphi_k(s/n)=\delta_{jk},1\le j,k\leq n-1$$

该定理的证明核心使用欧拉公式将三角转为指数

引入假设

我们假设待估的函数 $f$ 足够光滑。对于正整数 $\beta$ 作为光滑度,我们先定义 索布列夫空间 (Sobolev class)

$$W(\beta,L)=\{f\in [0,1]\rightarrow\mathbb{R}:f^{(\beta-1)}\text{ is absolutely continuous and} \int_0^1(f^{(\beta)}(x))^2\,\mathrm{d}x\leq L \}$$

周期索布列夫空间 (periodic Sobelev class) 则定义为

$$W^{per}(\beta,L)=\{f\in W(\beta,L):f^{(j)}(0)=f^{(j)}(1),j=0,1,\ldots,\beta-1\}$$

考虑三角基 $\phi_1(x)=1,\phi_{2j}(x)=\sqrt{2}\cos(2\pi jx),\phi_{2j-1}(x)=\sqrt{2}\sin(2\pi jx)$,可以证明任何 $f\in W^{per}(\beta,L)$,都可以有展开式 $f(x)=\sum_{j=1}^{\infty}\theta_j\varphi_j(x)$。

先定义

$$a_j=\left\{\begin{array}{ll}j^\beta & 2\mid j\\ (j-1)^\beta&2\not\mid j\end{array}\right.$$

再定义索布列夫椭球 (Sobolev ellipse)

$Q(\beta,Q)=\{\theta:\sum_{j=1}^\infty\theta_j^2<\infty,\sum_{j=1}^{\infty}a_j^2\theta_j^2\leq Q\}$

可以证明,对于整数 $\beta$, $f\in W^{per}(\beta,L$ 当且仅当系数落在 $Q(\beta,L^2/\pi^{2\beta})$

索布列夫椭球还有如下的性质

  • $0<\beta’\leq\beta\Rightarrow Q(\beta,Q)\subset Q(\beta’,Q)$

  • $\beta>1/2$ 时,$\theta\in Q(\beta,Q)$ 组成的 $f(x)=\sum_{j=1}^{\infty}\theta_j\varphi_j(x)$ 是连续函数

  • 先推广索布列夫椭球:由于 $a_1=0,\beta\in\N^{+}$,我们定义 $\Theta(\beta,Q)=\{\theta:\sum_{j=1}^\infty\theta_j^2<\infty,\sum_{j=2}^{\infty}a_j^2\theta_j^2\leq Q\}$,此时该定义对于 $\beta>0$ 都是良定义的。

    再推广 $W^{per}(\beta,L)$ ,为 $\tilde{W}(\beta,W)=\{f\in L_2(0,1):\theta=\{\theta_j\}\in\Theta(\beta,L)\}$,其中 $\theta_j=\int_0^1f\varphi_j$

    那么,$\forall\beta>1/2$,都有 $f\in\tilde{W}(\beta,W)$ 是连续函数。

误差分析

考察回归模型 $Y_i=f(i/n)+\xi_i$,$\mathbb{E}[\xi_i]=0,\mathbb{V}[\xi_i]=\sigma_2<\infty$。 $\{\varphi_j\}_{j=1}^\infty$ 是三角基,且$f$ 的傅里叶系数 $\theta_j=\int_0^1f\varphi_j$ 满足 $\sum_{j=1}^{\infty}\lvert\theta_j\rvert<\infty$。首先可以得到

级数 $\sum_{j=1}^{\infty}\theta_j\varphi_j(x)$绝对收敛,于是 $f(x)=\sum_{j=1}^{\infty}\theta_j\varphi(x)$ 成立

考察 $L_2$ 范数,由三角基的正交性不难得

$$\lVert\hat{f}_N-f\rVert_2^2=\sum_{j\leq N}(\hat{\theta}_j-\theta_j)^2+\sum_{j>N}\theta_j^2$$

为了研究该误差的上界,记

$$\hat{\theta}_j=\frac{1}{n}\sum_{j=1}^{n}Y_i\phi_j(i/n)=\frac{1}{n}\sum_{j=1}^{n}f(i/n)\phi_j(i/n)\overset{\Delta}{=}\theta_j+\alpha_j$$

$$\mathbb{E}[(\hat{\theta})_j-\theta_j)^2]=\mathbb{E}[(1/n\sum_{i=1}^{n}e_i\phi_j(i/n) +\alpha_j)^2]=\alpha_j^2+\sigma^2/n$$

于是误差变形为

$$\begin{align}\mathbb{E}\lVert\hat{f}_N-f\rVert_2^2=\sum_{j\le N}\alpha_j^2+\frac{N\sigma^2}{n}+\sum_{j>N}\theta_j^2\leq N\cdot \max\limits_{1\le j\le N}\alpha_j^2+\frac{N}{n}\sigma^2+\sum_{j>N}\theta_j^2\end{align}$$

先考察最后一项,由于 $\alpha_j$ 单调不减,于是有

$$\begin{align}\sum_{j>N}\theta_j^2\leq\sum_{j>N}\frac{a_j^2}{a_N^2}\theta_j^2\leq\frac{1}{a_N^2}\sum_{j=1}^{\infty}a_j^2\theta_j^2\leq\frac{Q}{a_N^2}=O(N^{-2\beta})\end{align}$$

下面考察 $\alpha_j$ 的性质,可以证明$\max\limits_{1\leq j\leq n-1}\lvert \alpha_j\rvert\leq 2\sum\limits_{m\ge n}\lvert\theta_m\rvert$

这是因为

$$\begin{align}\alpha_j&=\frac{1}{n}\sum_{i=1}^{n}f(i/n)\varphi_j(i/n)-\theta_j\\&=\frac{1}{n}\sum_{i=1}^{n}\sum_{m=1}^{\infty}(\theta_m\varphi_m(i/n))\varphi_j(i/n)-\theta_j\\&=\sum_{m=1}^{n-1}\theta_m\frac{1}{n}\sum_{i=1}^{n}\varphi_m(i/n)\varphi_j(i/n)-\theta_j+\frac{1}{n}\sum_{i=1}^{n}\sum_{m=n}^{\infty}\theta_m\varphi_m(i/n)\varphi_j(i/n)\\&=\frac{1}{n}\sum_{i=1}^{n}\sum_{m=n}^{\infty}\theta_m\varphi_m(i/n)\varphi_j(i/n)\end{align}$$

所以 $$\lvert\alpha_j\rvert\leq\lvert\sum_{m=n}^\infty\theta_m\left(\frac{1}{n}\sum_{i=1}^{n}\varphi_m(i/n)\varphi_j(i/n)\right)\rvert\leq\sum_{m=n}^\infty\lvert\theta_m\rvert$$

又有

$$\begin{aligned} \sum _ { m = n } ^ { \infty } \left| \theta _ { m } \right| & = \sum _ { m = 1 } ^ { \infty } \left| \theta _ { m } \right| I ( m \geq n ) \\ & \leq \left( \sum _ { m = 1 } ^ { \infty } a _ { m } ^ { 2 } \theta _ { m } ^ { 2 } \right) ^ { 1 / 2 } \left( \sum _ { m = n } ^ { \infty } a _ { m } ^ { - 2 } \right) ^ { 1 / 2 } \\ & \leq Q ^ { 1 / 2 } \left( \sum _ { m = n } ^ { \infty } ( m - 1 ) ^ { - 2 \beta } \right) ^ { 1 / 2 } \leq C _ { \beta , Q } n ^ { - \beta + 1 / 2 } \end{aligned}$$

于是 $\sum_{j<N}\alpha_j^2\leq N\cdot\max\limits_{1\leq j\leq n-1}\alpha_j^2\leq C_{\beta,Q}^2 \cdot N\cdot n^{-2\beta+1}$

于是误差可以写为 $O(Nn^{-2\beta+1})+O(Nn^{-1})+O(N^{-2\beta})=O(Nn^{-1})+O(N^{-2\beta}), \beta>1$

所以最小化时 $N\sim n^{1/(2\beta+1)}$,代入得收敛速度为 $O(n^{-2\beta/(2\beta+1)})$