大师兄的应用回归分析学习笔记(十一):违背基本假设的情况(四)
大师兄的应用回归分析学习笔记(十三):自变量选择与逐步回归(一)
六、异常值与强影响点
- 在回归分析的应用中,数据时长包含一些异常的或极端的观测值,这些观测值与其他数据远远分开,可能引起较大的残差,极大地影响回归拟合的效果。
- 在一元回归的情况下,用散点图或残差图就可以方便地识别出异常值。
- 在多元回归的情况下,需要用更有效的方法。
- 异常值分为两种情况:
- 一种是关于因变量y的异常;
- 另一种是关于自变量x异常。
1. 关于因变量y的异常值
- 在残差分析中,认为超过
的残差为异常值。
- 由于普通残差
的方差
不等,用
判断会带来一定的麻烦。
- 类似于一元线性回归,在多元线回归中,同样可以引入标准化残差
和学生化残差
的概念,以改进普通残差的性质:
- 标准化残差:
,
为帽子矩阵
的主对角线元素。
- 标准化残差使残差具有可比性,
的相应观测值即判定为异常值,这简化了判定工作,但没有解决方差不等的问题。
- 学生化残差:
,
为帽子矩阵
的主对角线元素。
- 学生化残差进一步解决了方差不等的问题。
- 但当观测值数据中存在关于y的异常观测值时,普通残差、标准化残差、学生残差都不再适用。
- 这是由于异常值把回归线拉向自身,使异常值本身的残差减少,而其余观测值的残差增大
- 这是回归标准差
也会增大,因而用
的准则不能正确分辨出异常值。
- 解决这个问题的方法是改用删除残差。
- 删除残差是:
- 在计算第i个观测值的残差时,用删除掉第i个观测值的其余n-1个观测值拟合回归方程,计算出第i个观测值的删除拟合值
![]()
- 这个删除拟合值域第i个值无关,不受第i个值是否为异常值的影响
- 由于定义第i个观测值的删除残差为:
![]()
- 删除残差
相比普通残差更能如实反映第i个观测值的异常性,可以证明:
- 进一步,可以给出第i个观测值的删除学生化残差:
。
-
的观测值即判定为异常值。
2. 关于自变量x的异常值对回归的影响
- 由式
:
- 其中h_{ii}为帽子矩阵中主对角线的第i个元素,是调节
方差大小的杠杆,因而也称为第i个观测值的杠杆值。
- 与一元线性回归方程类似,
表示自变量的第i次观测值与自变量平均值之间距离的远近。
- 较大的杠杆值的残差较小,因为杠杆值大的观测值远离样本中心,能够把回归方程拉向自身。
- 因此杠杆值大的样本点成为强影响点。
- 强影响点并不一定是y的异常值点,并不总会对回归方程造成不良影响。
- 但强影响点对回归效果通常有较强的影响,由于以下原因:
- 在实际问题中,因变量与自变量的线性关系知识在一定的范围内成立,强影响点远离样本中心,因变量与自变量之间可能不再是线性函数关系,因而在选择回归函数的形式时,更侧重于强影响点。
- 即使线性回归形式成立,但是强影响点远离样本中心,能够把回归方程拉向自身,使回归方程产生偏移。
- 由于强点影响并不总是y的异常值点,因此不能单纯根据杠杆值
的大小判断强影响点是否异常,为此需要引入库克距离,用来判断强影响点是否为y的异常值点。
- 库克距离计算公式:
![]()
- 可以看出,库克距离反映了杠杆值
与残差
的总和效应。
- 当
时,认为不是异常值点,当
时,认为是异常点。
3. 异常值实例分析
-
以北京市15个经济开发区的数据为例做异常值的诊断分析:
- 分别计算普通残差
,学生化残差
,删除残差
,删除学生化残差
,中心化杠杆值
,库克距离
。
- 绝对值最大的学生化残差为
,小于3,因而认为数据不存在异常值。
- 绝对值最大的删除学生化残差
,大于3,因而认为第15个数据为异常值。
- 其中中心化杠杆值
,位居第三。
- 库克距离
位居第一
- 第15个数据
,因而从杠杆值看,第15个数据是自变量的异常值
- 又由于
,所以第15个数据是由自变量异常与因变量异常两个原因共同引起的。
- 异常值原因通常有以下几点:
产生异常值的原因 | 异常值消除方法 |
---|---|
1. 数据登记误差,存在抄写或录入的错误 | 重新核实数据 |
2. 数据测量误差 | 重新测量数据 |
3. 数据随机误差 | 删除或重新观测异常值数据 |
4. 缺少重要自变量 | 增加必要的自变量 |
5. 缺少观测数据 | 增加观测数据,适当扩大自变量取值范围 |
6. 存在异方差性 | 采用加权线性回归 |
7. 模型选用错误,线性模型不适用 | 改用非线性回归模型 |
-
对产生异常值的不同原因,需要采取不同的处理方法:
- 对于本数据,通过核实认为不存在登记误差和测量误差
- 删除第15组数据,用其余14组数据拟合回归方程,发现第6组数据的学生化残差为
,仍然存在异常值现象。
- 因而认为异常值不是由于数据的随机误差引起的。
- 由于已知本数据存在异方差性,应该采用加权最小二乘回归,权数为
![]()
- 可以看出加权最小二乘回归后,删除学生化残差
的绝对值为第13个元素-1.7423
- 库克距离小于0.5
- 说明数据没有异常值,也说明了用加权最小二乘法处理异方差性问题的有效性。