非参回归和非参线性估计

设 $(X,Y)$ 是实随机变量对且 $\mathbb{E}[\lvert Y\rvert]<\infty$,定义 $f : \mathbb{R}\rightarrow\mathbb{R}$ 为 $f(x)=\mathbb{E}[Y\mid X=x]$,我们就称其为 $Y$ 对 $X$ 的回归函数。不难证明,条件残差 $\varepsilon\overset{\Delta}{=}Y-\mathbb{E}[Y\mid X]$ 满足性质 $\mathbb{E}[\xi]=0$。此时我们又可写为

$$Y_i=f(X_i)+\varepsilon_i,\quad i=1,\ldots,n$$

其中 $\xi_i$ 独立同分布于 $\xi$

在非参数的背景下,我们会要求 $f$ 落在我们给定的一个非参空间 $\mathcal{F}$ 上。而我们的自变量 $\{X_1,\ldots,X_n\}$ 称为一个设计 (design)。

Fixed design

我们先讨论一个简单的情形:$X_i=i/n$,而 $f:[0,1]\rightarrow\mathbb{R}$,$Y_i=f(i/n)+\varepsilon_i$,$\varepsilon_i$ 独立同分布且均值为零。

由于有

$$\mathbb{E}[Y\lvert X]=\int yp(y\lvert x)\,\mathrm{d}y$=\frac{\int yp(y,x)\,\mathrm{d}y}{p(x)}=\frac{\int yp(x,y)\,\mathrm{d}y}{\int p(x,y)\,\mathrm{d}y}$$

在给定核函数 $K$ 和带宽 $h$ 后,我们可以构造一个十分自然的估计——Nadaraya-Watson 估计如下

$$\begin{align}f_{n}^{NW}(x)=\frac{\sum_{i=1}^{n}Y_iK\left(\frac{X_i-x}{h}\right)}{\sum_{i=1}^{n}K\left(\frac{X_i-x}{h}\right)}\overset{\Delta}{=}\sum_{i=1}^{n}Y_iW_{ni}^{NW}(x)\cdot\mathbf{1} \left[ \sum_{i=1}^{n}K\left(\frac{X_i-x}{h}\right)\neq 0\right]\end{align}$$

一个特殊的情况就是取 $K(u)=\frac12\cdot\mathbf{1}[\lvert u\rvert\leq 1]$,不难看出此时 $f_n^{NW}(x)$ 即为 $[x-h,x+h]$ 区间上的 $Y_i$ 的均值,类似于滑动平均。注意到此时核函数的支撑集是有限区间。此时考察两个极端情况

  • $h\rightarrow \infty​$ ,此时 $f​$ 即为 $Y_1,\ldots,Y_n​$ 的均值,该估计的偏差可能会很大,我们称这种情况为欠拟合 (underfitting) 或过光滑 (oversmoothing)
  • $h\rightarrow 0$ 此时 $f$ 仅在 $X_i$ 的 $h$ 邻域内取值为 $Y_i$,其他区间取值为 $0$。该估计的方差可能会很大,我们称这种情况为过拟合 (overfitting) 或欠光滑 (undersmoothing)

此时又出现了偏差和方差的权衡。

为了和之后的记号统一,我们重写 $f_n^{NW}$ 为 $f_n^{NW}=\sum\limits_{i=1}^{n}Y_i W_{ni}^{NW}(x)$,其中

$$W_{ni}^{NW}(x)=\frac{K\left(\frac{X_i-x}{h}\right)}{\sum_{j=1}^{n}K\left(\frac{X_j-x}{h}\right)}I\Bigg(\sum_{j=1}^{n}K\left(\frac{X_j-x}{h}\right)\neq 0\Bigg)$$

我们称 $\hat{f}_n(x)=\sum_{i=1}^{n}Y_i W_{ni}(x)$ 为 $f(x)$ 的一个非参线性估计,如果 $W_{ni}(x)$ 只取决于 $n, i, x, X_1,\ldots,X_n$,且对所有 $x$ (更严格讲,几乎所有 $x$ ), $\sum\limits_{i=1}^{n}W_{ni}(x)=1$。

Random Design

选取 1 阶的核函数,并使用 $\hat{p}_n(x)=\frac{1}{nh}\sum\limits_{i=1}^{n}K\left(\frac{X_i-x}{h}\right)$, $\hat{p}_n(x,y)=\frac{1}{nh^2}\sum\limits_{i=1}^{n}K\left(\frac{X_i-x}{h}\right)K\left(\frac{Y_i-y}{h}\right)$。代入$f_{n}^{NW}(x)=\frac{\int y\hat{p}_n(x,y)\,\mathrm{d}y}{\hat{p}_n(x)}$

首先,我们有

$$\int y\hat{p}_n(x,y)\,\mathrm{d}y=\frac{1}{nh^2}\sum\limits_{i=1}^{n}K\left(\frac{X_i-x}{h}\right) \int yK\left(\frac{Y_i-y}{h}\right)\,\mathrm{d}y$$

$$\begin{align}\int yK\left(\frac{Y_i-y}{h}\right)\,\mathrm{d}y&=\int (y-Y_i)K\left(\frac{Y_i-y}{h}\right)\,\mathrm{d}y+\int Y_iK\left(\frac{Y_i-y}{h}\right)\,\mathrm{d}y\\&=-\underbrace{\int(-hu)K(u)(-h)\,\mathrm{d}u}_{0}-\int Y_i K(u)(-h)\,\mathrm{d}u\\&=hY_i\end{align}$$

于是我们有

$$f_n^{NW}(x)=\frac{1}{nh\hat{p}_n(x)}\sum\limits_{i=1}^{n}Y_i K\left(\frac{X_i-x}{h}\right)$$

当然,如果已知 $X$ 的分布 $p(x)$,也可以不使用 $\hat{p}(x)$。特别的,当 $X\sim U(0,1)$ 时,有

$$\bar{f}_{nh}(x)=\frac{1}{nh}\sum\limits_{i=1}^{n}Y_i K\left(\frac{X_i-x}{h}\right)$$

这也就是 $n$ 个样本点分别贡献 $1/n$ 个 $Y_i$ 倍的核函数后的叠加。