分布的估计

有了服从某一分布的若干样本之后,如果我们能推出这个分布,那这对我们的接下来的所有操作都是十分有益的。因此从样本估计分布是一个十分重要的话题。

如果读者对统计有一些基本的认识,应该不难想到,如果我们的样本足够多,那么在绘制直方图的时候每个柱形都可以足够细(在保持每个柱形都有一定的样本量的前提下),此时我们的直方图就是其概率密度分布的一个良好的近似。一个更加数学化的版本就是,我们使用经验累计概率密度函数来近似原分布的累计概率密度函数。而强大数定律保证了,当充分大时,。因此,我们可以使用

来近似我们的目标

对于,我们对其稍作整理

其中。事实上这就是一个核函数。

估计的误差

让我们仔细地考察我们的计算中的选取。显然,要让估计的准度足够高,我们需要选取更小的。但过小的同样会带来问题——过小的可能意味着只有极少数的点被统计到,这也就导致我们估计的方差会增大。这只是我们定性的分析,让我们定量的写下这一过程。

对于某一点处的密度估计,我们定义

通过经典的代数变形,我们可以将其分解为

方差项

设概率密度函数,且满足。那么我们有

为了证明这一式子,首先考察

不难发现,独立同分布,且均值为,方差为

因此

偏差项

在讨论这一项前我们先定义区间上的Holder class 。其是一系列函数的集合,这些函数满足两个性质

  • 该函数阶可导

如果此时再加上约束, 我们将其记为

同时定义阶核函数,其满足性质

  • =1

我们在本文的结尾构造了一个满足定义的核函数,这说明了其存在性。

在此基础上,我们开始我们的推导。假设,并令阶核且满足。此时则有

证明的核心步骤如下,其中第四个等式使用了泰勒展开的拉格朗日余项

综上,我们有

最小化该式子,有,此时

这给出了随着样本量的增加,的渐进趋势。

核函数的构造

之前我们只给出了核函数的定义,那么这样的函数是否存在呢?这里我们给出了一个构造。

是区间上的勒让德多项式,即

可以证明

是一个阶核。这是因为对于,其总可以表示各正交基的线性组合,即。此时

另外,值得注意的是,显然我们的核函数不会是恒正的。这可能会导致一个问题:我们的将可能出现负数,因此不再是一个合法的概率密度函数。为此,一个简单的修正就是取。可以证明这样修正后误差不会更差。(当然,这样修正后其实也不是一个合法的概率密度函数,但作为单点处的估计来说是足够好的)