LRA系列的第一篇,介绍单变量线性回归模型

手敲难免出现纰漏,有任何疑似错误或者不清楚的地方请直接在下方评论区留言(评论区只开在【Series】下),谢谢各位读者。

模型假设

其中。当然有时也可以弱化到。但出于简单考虑,我们后文均假设

一般地,我们称为自变量(independent variable or predictor),为因变量(dependent variable or response),为误差(random error or noise)

此时我们的误差函数为

模型求解

最小化该函数立刻模型的最小二乘估计(least squares estimator, LSE)为


可以证明的无偏估计。[proof1]

Gauss-Markov theorem 在更弱的假设下,甚至证明了一致最小方差无偏估计(uniformly minimum-variance unbiased estimator, UMVUE)

此时,我们通常记拟合值(fitted value)为,残差(residual) ,残差平方和(error sum of squares)

可以证明有如下性质[proof2]

参数估计

方差的估计

首先考虑更简单的模型, 也就是给出一组数据求其方差。可以证明最小二乘估计

且此时的无偏估计为

其证明见[proof3]。一个直观的理解是,我们使用样本方差估计分布的方差总是低估的。比如单个样本的方差为0,两个样本的方差计算时使用的是到二者均值的差的平方和而非分布的均值,这包含着的信息并使得方差被低估了。从自由度来说,计算的时候使用了这个信息,使得其自由度仅有

回到我们的线性回归模型,可以证明的无偏估计为[proof4]

从自由度来说,计算的时候使用了这两个信息,使得其自由度仅有

的估计

可以证明[proof5], , 其中

实际中由于未知,采用其无偏估计,即

此时

由此可得的置信区间

的估计

可以证明[proof6], , 其中

实际中由于未知,采用其无偏估计,即

此时

由此可得的置信区间

值得注意的是,当较大时,较大,意味着较难估计。

的估计

可以证明[proof7], , 其中

实际中由于未知,采用其无偏估计,即

此时

由此可得的置信区间。

值得注意的是,当较大时,较大,意味着较难估计。

事实上,的估计就是其当的特殊情况。

的估计

和上一小节的区别是,上一小节预测的是在处平均响应的情况,而这里是处单次响应的情况,差别就是的差别。

可以证明[proof8]

由此可得的置信区间。

通常,我们将上一小节求得的置信区间称为置信区间(Confidence Interval, CI),而将这一小节的称为预测区间(Prediction Interval, PI)。

同样的,在上面的计算中,我们发现越大其预测值的方差越小,这提示我们当数据的分布范围较大时,其效果相对更好。

方差分析

事实上,方差分析会在后面单独用一篇笔记来介绍,在这里只是进行结论性的介绍。

由于。我们一般称前者为随机误差((至少现阶段)无法消除),而后者为系统误差(通过我们的模型可以消除)。通过简单的平方展开不难得到


检验

我们先使用检验去检验。可以证明[proof9]

故可取

时拒绝原假设。

检验

注意到下列等式关系就能发现检验和检验是等价的

事实上,该关系只在一元线性回归中成立。在多元线性回归中,检验针对的是某个系数是否为0,而检验针对的是所有系数是否为零。在接下来的章节中读者应当会有更深的体会。

残差

决定系数与相关系数

决定系数(coefficient of determination)为,衡量模型所能解释的方差比例。

相关系数(coefficient of correlation)为,衡量的线性相关性。

二者有关系

残差的性质

从最小二乘估计中我们得到


从模型假设中我们得到


其中

标准化残差(standardized residuals),可被近似地视为服从标准正态分布。

而学生化残差(studentized residuals),则严格服从,是更精细的一个构造

模型诊断

可能出现的问题

  1. 非线性关系
  2. 并不能视为常数
  3. 彼此并不独立
  4. 模型能够拟合但有离群值
  5. 不服从正态分布
  6. 遗漏了某些重要的自变量

常用诊断方式

  1. 使用诊断问题1,4
  2. 使用诊断问题2,4
  3. 使用诊断问题3
  4. 使用qqplot等诊断问题5
  5. 使用诊断问题6

一个简单的变种——过原点模型

计算方式和之前几乎无异,这里仅给出结果供参考。







矩阵化描述——为多元线性回归铺路

如果读者对矩阵化描述熟练的话,这一节将是无比平凡的。否则,我建议读者将这里面的公式展开写写,并和上面的结果进行对比。

尽管本节可能十分平凡,但其内容的重要性丝毫不比前面少,因为这可以毫无障碍地拓展到多元的情形。

模型假设

对于 ,其矩阵形式为

我们通常用黑体表示向量、矩阵(甚至有教材对此用斜体和直体进一步区分,但本文并不特殊对待),即

模型假设的矩阵形式则为



模型结果

系数


拟合值



残差




预测值