投影估计

我们仍然考察回归模型

\[Y_i=f(X_i)+\varepsilon_i,\quad\mathbb{E}_f[\varepsilon_i]=0, f:[0,1]\rightarrow\mathbb{R},X_i=i/n\]

假设 \(f\in L_2[0,1]\),记 \(\theta_j\)\(f\)\(L_2[0,1]\) 上标准正交基 \(\{\varphi_i\}_{j=1}^\infty\) 上的系数,即

\[\theta_j=\int_0^1 f(x)\varphi_j(x)\,\mathrm{d} x\]

且假设 \(f(x)=\sum_{j=1}^{\infty}\theta_j\varphi_j(x)\) 即点点收敛

投影估计的想法就是,我们在 前 \(N\) 个基张成的空间中近似 \(f\),即 \(\sum_{j=1}^{N}\theta_j\varphi_j\) 来估计 \(f\)。当然,此时我们的 \(\theta_j\) 只能是 \(\widehat{\theta}_j\),不可能得到真正的 \(\theta\)

\(X_i\)\([0,1]\) 上分布得足够均匀时(比如,\(X_i=i/n\),或 \(X_i\) 独立同分布于 \(\mathcal{U}[0,1]\)\(\frac{1}{n}\sum_{i=1}^{n}f(X_i)\varphi_j(X_i)\)\(\theta_j\) 的一个良好估计,因此我们可以用

\(\widehat{\theta}_j=\frac{1}{n}\sum_{i=1}^{n}Y_i\varphi_j(X_i)\) 来作为一个估计,此时得到投影估计 (projection estimator)

\[\widehat{f}_{nN}(x)=\sum_{j=1}^{N}\widehat{\theta}_j\varphi_j(x)=\sum_{i=1}^{n}(Y_i\cdot\frac{1}{n}\sum_{j=1}^{N}\varphi_j(X_i)\varphi_j(x))=\sum_{i=1}^{n}Y_iW_{ni}^{\ast\ast}(x)\]

可见其也是一个线性估计。

这里的 \(N\),也就是投影估计的阶,和 \(h\) 在核密度估计中有着相同的作用——平衡偏差核方差。过大的 \(N\) 导致过拟合从而增大了方差,过小的 \(N\) 则欠拟合数据使得偏差增大。

常有的基有下面这两个

三角基 \(\varphi_1(x)\equiv 1,\varphi_{2k}(x)=\sqrt{2}\cos(2\pi k x),\varphi_{2k+1}(x)\sqrt{2}\sin(2\pi kx)\)

小波基 \(\psi_{jk}(x)=2^{j/2}\psi(2^jx-k),j,k\in\mathbb{Z}\) 其中 \(\psi:\mathbb{R}\rightarrow\mathbb{R}\) 在紧的支撑集上足够光滑

二者的差别在于三角基考察的是频域的信息,而小波基同时考察了时域和频域的信息。

三角基有一个性质使我们后面用到的

\[\frac{1}{n}\sum\limits_{s=1}^{n}\varphi_j(s/n)\varphi_k(s/n)=\delta_{jk},1\le j,k\leq n-1\]

该定理的证明核心使用欧拉公式将三角转为指数

引入假设

我们假设待估的函数 \(f\) 足够光滑。对于正整数 \(\beta\) 作为光滑度,我们先定义 索布列夫空间 (Sobolev class)

\[W(\beta,L)=\{f\in [0,1]\rightarrow\mathbb{R}:f^{(\beta-1)}\text{ is absolutely continuous and} \int_0^1(f^{(\beta)}(x))^2\,\mathrm{d}x\leq L \}\]

周期索布列夫空间 (periodic Sobelev class) 则定义为

\[W^{per}(\beta,L)=\{f\in W(\beta,L):f^{(j)}(0)=f^{(j)}(1),j=0,1,\ldots,\beta-1\}\]

考虑三角基 \(\phi_1(x)=1,\phi_{2j}(x)=\sqrt{2}\cos(2\pi jx),\phi_{2j-1}(x)=\sqrt{2}\sin(2\pi jx)\),可以证明任何 \(f\in W^{per}(\beta,L)\),都可以有展开式 \(f(x)=\sum_{j=1}^{\infty}\theta_j\varphi_j(x)\)

先定义

\[a_j=\left\{\begin{array}{ll}j^\beta & 2\mid j\\ (j-1)^\beta&2\not\mid j\end{array}\right.\]

再定义索布列夫椭球 (Sobolev ellipse)

\(Q(\beta,Q)=\{\theta:\sum_{j=1}^\infty\theta_j^2<\infty,\sum_{j=1}^{\infty}a_j^2\theta_j^2\leq Q\}\)

可以证明,对于整数 \(\beta\), \(f\in W^{per}(\beta,L\) 当且仅当系数落在 \(Q(\beta,L^2/\pi^{2\beta})\)

索布列夫椭球还有如下的性质

  • \(0<\beta'\leq\beta\Rightarrow Q(\beta,Q)\subset Q(\beta',Q)\)

  • \(\beta>1/2\) 时,\(\theta\in Q(\beta,Q)\) 组成的 \(f(x)=\sum_{j=1}^{\infty}\theta_j\varphi_j(x)\) 是连续函数

  • 先推广索布列夫椭球:由于 \(a_1=0,\beta\in\mathbb{N}^{+}\),我们定义 \(\Theta(\beta,Q)=\{\theta:\sum_{j=1}^\infty\theta_j^2<\infty,\sum_{j=2}^{\infty}a_j^2\theta_j^2\leq Q\}\),此时该定义对于 \(\beta>0\) 都是良定义的。

    再推广 \(W^{per}(\beta,L)\) ,为 \(\tilde{W}(\beta,W)=\{f\in L_2(0,1):\theta=\{\theta_j\}\in\Theta(\beta,L)\}\),其中 \(\theta_j=\int_0^1f\varphi_j\)

    那么,\(\forall\beta>1/2\),都有 \(f\in\tilde{W}(\beta,W)\) 是连续函数。

误差分析

考察回归模型 \(Y_i=f(i/n)+\xi_i\)\(\mathbb{E}[\xi_i]=0,\mathbb{V}[\xi_i]=\sigma_2<\infty\)\(\{\varphi_j\}_{j=1}^\infty\) 是三角基,且\(f\) 的傅里叶系数 \(\theta_j=\int_0^1f\varphi_j\) 满足 \(\sum_{j=1}^{\infty}\lvert\theta_j\rvert<\infty\)。首先可以得到

级数 \(\sum_{j=1}^{\infty}\theta_j\varphi_j(x)\)绝对收敛,于是 \(f(x)=\sum_{j=1}^{\infty}\theta_j\varphi(x)\) 成立

考察 \(L_2\) 范数,由三角基的正交性不难得

\[\lVert\widehat{f}_N-f\rVert_2^2=\sum_{j\leq N}(\widehat{\theta}_j-\theta_j)^2+\sum_{j>N}\theta_j^2\]

为了研究该误差的上界,记

\[\widehat{\theta}_j=\frac{1}{n}\sum_{j=1}^{n}Y_i\phi_j(i/n)=\frac{1}{n}\sum_{j=1}^{n}f(i/n)\phi_j(i/n)\overset{\Delta}{=}\theta_j+\alpha_j\]

\[\mathbb{E}[(\widehat{\theta})_j-\theta_j)^2]=\mathbb{E}[(1/n\sum_{i=1}^{n}e_i\phi_j(i/n) +\alpha_j)^2]=\alpha_j^2+\sigma^2/n\]

于是误差变形为

\[\begin{align}\mathbb{E}\lVert\widehat{f}_N-f\rVert_2^2=\sum_{j\le N}\alpha_j^2+\frac{N\sigma^2}{n}+\sum_{j>N}\theta_j^2\leq N\cdot \max\limits_{1\le j\le N}\alpha_j^2+\frac{N}{n}\sigma^2+\sum_{j>N}\theta_j^2\end{align}\]

先考察最后一项,由于 \(a_j\) 单调不减,于是有

\[\begin{align}\sum_{j>N}\theta_j^2\leq\sum_{j>N}\frac{a_j^2}{a_N^2}\theta_j^2\leq\frac{1}{a_N^2}\sum_{j=1}^{\infty}a_j^2\theta_j^2\leq\frac{Q}{a_N^2}=O(N^{-2\beta})\end{align}\]

下面考察 \(\alpha_j\) 的性质,可以证明\(\max\limits_{1\leq j\leq n-1}\lvert \alpha_j\rvert\leq 2\sum\limits_{m\ge n}\lvert\theta_m\rvert\)

这是因为

\[\begin{align}\alpha_j&=\frac{1}{n}\sum_{i=1}^{n}f(i/n)\varphi_j(i/n)-\theta_j\\&=\frac{1}{n}\sum_{i=1}^{n}\sum_{m=1}^{\infty}(\theta_m\varphi_m(i/n))\varphi_j(i/n)-\theta_j\\&=\sum_{m=1}^{n-1}\theta_m\frac{1}{n}\sum_{i=1}^{n}\varphi_m(i/n)\varphi_j(i/n)-\theta_j+\frac{1}{n}\sum_{i=1}^{n}\sum_{m=n}^{\infty}\theta_m\varphi_m(i/n)\varphi_j(i/n)\\&=\frac{1}{n}\sum_{i=1}^{n}\sum_{m=n}^{\infty}\theta_m\varphi_m(i/n)\varphi_j(i/n)\end{align}\]

所以 \[\lvert\alpha_j\rvert\leq\lvert\sum_{m=n}^\infty\theta_m\left(\frac{1}{n}\sum_{i=1}^{n}\varphi_m(i/n)\varphi_j(i/n)\right)\rvert\leq 2\sum_{m=n}^\infty\lvert\theta_m\rvert\]

又有

\[\begin{aligned} \sum _ { m = n } ^ { \infty } \left| \theta _ { m } \right| & = \sum _ { m = 1 } ^ { \infty } \left| \theta _ { m } \right| I ( m \geq n ) \\ & \leq \left( \sum _ { m = 1 } ^ { \infty } a _ { m } ^ { 2 } \theta _ { m } ^ { 2 } \right) ^ { 1 / 2 } \left( \sum _ { m = n } ^ { \infty } a _ { m } ^ { - 2 } \right) ^ { 1 / 2 } \\ & \leq Q ^ { 1 / 2 } \left( \sum _ { m = n } ^ { \infty } ( m - 1 ) ^ { - 2 \beta } \right) ^ { 1 / 2 } \leq C _ { \beta , Q } n ^ { - \beta + 1 / 2 } \end{aligned}\]

于是 \(\sum_{j<N}\alpha_j^2\leq N\cdot\max\limits_{1\leq j\leq n-1}\alpha_j^2\leq C_{\beta,Q}^2 \cdot N\cdot n^{-2\beta+1}\)

于是误差可以写为 \(O(Nn^{-2\beta+1})+O(Nn^{-1})+O(N^{-2\beta})=O(Nn^{-1})+O(N^{-2\beta}), \beta>1\)

所以最小化时 \(N\sim n^{1/(2\beta+1)}\),代入得收敛速度为 \(O(n^{-2\beta/(2\beta+1)})\)