投影估计

我们仍然考察回归模型

假设 ,记 上标准正交基 上的系数,即

且假设 即点点收敛

投影估计的想法就是,我们在 前 个基张成的空间中近似 ,即 来估计 。当然,此时我们的 只能是 ,不可能得到真正的

上分布得足够均匀时(比如,,或 独立同分布于 的一个良好估计,因此我们可以用

来作为一个估计,此时得到投影估计 (projection estimator)

可见其也是一个线性估计。

这里的 ,也就是投影估计的阶,和 在核密度估计中有着相同的作用——平衡偏差核方差。过大的 导致过拟合从而增大了方差,过小的 则欠拟合数据使得偏差增大。

常有的基有下面这两个

三角基

小波基 其中 在紧的支撑集上足够光滑

二者的差别在于三角基考察的是频域的信息,而小波基同时考察了时域和频域的信息。

三角基有一个性质使我们后面用到的

该定理的证明核心使用欧拉公式将三角转为指数

引入假设

我们假设待估的函数 足够光滑。对于正整数 作为光滑度,我们先定义 索布列夫空间 (Sobolev class)

周期索布列夫空间 (periodic Sobelev class) 则定义为

考虑三角基 ,可以证明任何 ,都可以有展开式

先定义

再定义索布列夫椭球 (Sobolev ellipse)

可以证明,对于整数 , 当且仅当系数落在

索布列夫椭球还有如下的性质

  • 时, 组成的 是连续函数

  • 先推广索布列夫椭球:由于 ,我们定义 ,此时该定义对于 都是良定义的。

    再推广 ,为 ,其中

    那么,,都有 是连续函数。

误差分析

考察回归模型 是三角基,且 的傅里叶系数 满足 。首先可以得到

级数 绝对收敛,于是 成立

考察 范数,由三角基的正交性不难得

为了研究该误差的上界,记

于是误差变形为

先考察最后一项,由于 单调不减,于是有

下面考察 的性质,可以证明

这是因为

所以

又有

于是

于是误差可以写为

所以最小化时 ,代入得收敛速度为