LRA系列的第二篇,介绍多变量线性回归模型

手敲难免出现纰漏,有任何疑似错误或者不清楚的地方请直接在下方评论区留言(评论区只开在【Series】下),谢谢各位读者。

模型假设

对于 ,其矩阵形式为

接下来的内容和一元回归模型中的最后一节几乎完全一样,这里只做简单抄录。


















方差分析

分析过程同样和一元的方差分析并无二致


Source SS df MS F
Model SSR SSR/ MSR/MSE
Error SSE SSE/
Total SSTO

检验

关于检验为

检验

根据之前求过的,加上

由此可以检验,或求出的置信区间(读者应当知道二者的联系)。
同样的,这也可以使用等效的检验得到相同的结果。

预测值的置信区间与预测区间

同上,有

求解预测区间时方差项只需多加一个,即

系数的联合置信区间

Bonferroni Method是一个很常用,极其直观,而且效果也不会特别差的方式(除非维度特别高)。简单说,你如果需要构造联合置信区间,你只需要分别构造的置信区间然后合并(做笛卡儿积)即可。这是因为我们得到的联合置信区间,在上没有覆盖真值的概率不超过,记为事件;在上没有覆盖真值的概率不超过,记为事件,则我们的联合置信区间没有覆盖真值的概率满足

因此,如果你需要求取个系数的联合置信区间(当然他们不需要相邻),只需要先计算Bonferroni系数,然后使用各自的计算出各自的的置信区间,合并起来即为置信区间。

显然,这个信息没有充分利用起系数间的信息,而且考虑的是最坏的情况都能保证的置信水平。我们可以构造出更精细的置信区间,这在后面的方差分析会做进一步的阐述。

与残差相关的检验

Type-I SS and Type-III SS

表示该模型所带来的残差平方和的减少值。举例说

可以很明显看到这里的值是两个模型的的差值,也就是(在已引入)下的贡献。

Type-I SS刻画的正是是依次加入变量后残差平方和较少的值,因此Type-I SS和模型中变量的顺序是有关的。

Type-III SS刻画的则是从全模型里抽取该变量后残差平方和的变化值。下面这个表可以更清楚的展现二者的关系

Type-I SS Type-III SS

检验

回忆之前给出过的更通用的形式,不难直接写出检验的公式,这里面就用到了Type-III SS,并且知道这和上面的检验是一致的。

检验

以三元回归为例,检验。套用通用形式,直接写出

而这里的可以简单由得到,也就是Type-I SS

更通用的检验形式

在使用SAS做分析时,其的形式通常为,因此对于其他的检验形式我们可能需要修改数据以套用现有的程序。

检验

这类形式在协方差分析中的contrast一节有着更深入的讨论,这里只以最简单的为例,模型为

此时我们可以将模型写为

检验即变为检验,因此对数据做简单变换后就可以使用先用的工具进行检验。

检验

很自然地,我们令就能将变为

决定系数与偏决定系数与偏相关系数

与一元回归一样,决定系数(coefficient of determination)定义为为,衡量模型所能解释的方差比例。

而偏决定系数(coefficient of partial determination)则定义为,衡量给定了后,剩下的残差中能被这个“额外”的自变量所解释的比例。

与一元回归一样,也可以由偏相关系数(coefficient of partial correlation)求得,即

可以看到偏相关系数是在现有的模型下计算回归和额外自变量的残差并求相关系数。

多重共线性问题

做多元回归分析中不可避免的一个问题就是多重共线性。简单说,由于自变量间存在的较强的相关性,使得我们对自变量的系数的估计不准(方差更大)。

一个浅显的例子就是,假设两个自变量(即完全相关),而只用拟合的结果可能是。那么由于的引入,你拟合的结果可能会是,等。可以看到系数的方差极大,而且可能会干扰我们的判断(本来有一定正相关性,但在第二个模型中系数为)。

当然,事实上由于数据的噪声,我们通常不会出现上面的退化情况,因此求出的最小二乘解仍然是唯一的。但你就无法得知你的最小二乘解落在了还是里,因为此时数据的小扰动就可能导致我们的系数发生剧变以“更好地拟合”数据。这也就是我们所说的“系数方差更大”。

多重共线性的诊断

不难发现,多重共线性的出现意味着你新引入的变量对于原始模型的方差没有解释力,并不能显著降低误差的大小,此时。因此如果我们发现了,或都揭示着共线性的存在。

VIF则是一个更常用的指标。其定义为

其中为使用其他变量回归的决定系数。不难发现,且对于二元情形有

经验上,当最大的VIF>5的时候我们就需要更加谨慎的审查我们的模型,而当最大的VIF>10时,这样的模型几乎就是不可用的了,我们需要删除部分高度相关的因子来获得更加稳健的模型。

多重共线性的解决方案

All Subsets Regression

当自变量不太多的时候,我们可以跑所有的子集组成的模型,并根据某些准则选取最优的模型。

criterion

显然我们不是去选择最大的模型,要知道引入新的预测变量其永远不会减少。所谓的 criterion其实是给出了一个阈值,我们在满足这个阈值的模型里选择最简单的。

criterion

其实就是在中引入对于模型复杂度,也就是自变量个数的惩罚,其定义为

我们选择最大的模型。

criterion

选择较小且接近的模型。

AIC criterion

选择最小的AIC的模型。可以看到也是对模型复杂度的一个惩罚。事实上AIC也是一个应用相当广泛的指标,在贝叶斯模型选择中也有所涉及。

PRESS criterion

其中是只是用其他个数据“拟合模型”然后预测出来的,其实也就相当于留一的交叉验证。当然,我们不需要每次都重新拟合模型,而是有对应的公式直接计算(见模型诊断的 Y-outlyers)。

Stepwise Regression

Forward Regression 从零开始,每次选择使得最大的变量并尝试加入(使用检验),直到检验不通过后流程中止。

Backward Regression 则从全模型开始,每次都选择Type-III SS最小的变量并尝试删除(使用检验),直到检验不通过后流程中止。

Lasso/Ridge Regression

由于多重共线性带来的是系数方差较大,一个可以采用的方式就是对其施加约束。Lasso/Regression是常用的方法,分别在优化目标里加上了的惩罚项。一个形象化的解释如下图。Lasso的一个好处更容易使得切点出现在坐标轴上,起到了变量选择的作用。

模型诊断

Partial Regressioni Plots

启发于片相关系数,对进行做图,可以看到该变量的“净作用”,帮助用户检查该模型是否有潜在问题。

Y-outlyers

deleted residuals的定义为,但我们不需要重新拟合模型,因为有如下关系

其中的第个主对角线。

Studentized Deleted Residuals则定义为

其中 为使用其他个观测时的

实际计算时,同样无需重复拟合模型,因为有关系

当然,你可以用这个值做检验,但一般来说这个只会作为一个提醒你注意某些点的信息。

X-outlyers

检验离群值只需考察的值,也被称为 leverage value。

注意到有关系,因此我们通常选取,也就是两倍的均值来作为离群的指标。对这些点我们可能需要额外关注。

DFFITS, DFBETAS

这二者刻画着当减少一个数据点时,拟合结果和系数的波动。


其中的对角线(注意,)。

一个较常用的标准是,

Cook’s Distance

Cook’s Distance 则是 DFBETAS 的一个综合,其定义为

一般的,我们关注超过0.8地,或者显著高于其他值的