大师兄的应用回归分析学习笔记(六):多元线性回归(三)

大师兄的应用回归分析学习笔记(五):多元线性回归(二)
大师兄的应用回归分析学习笔记(七):多元线性回归(四)

五、中心化和标准化

  • 在多元线性回归分析中:
  • 由于涉及多个自变量,自变量的单位往往不同,给结构分析带来一定困难;
  • 由于多元回归涉及的数据量很大,可能因为舍入误差而使计算结果不理想
  • 舍入误差有两个主要原因:
  • 一是回归分析计算中数量级有很大差异
  • 二是设计矩阵X的列向量近似线性相关
1. 中心化
  • 将经验回归方程坐标原点移至样本中心,可得中心化经验回归方程:\hat y' = \hat\beta_1 x'_1 + \hat\beta_2 x'_2 + ... + \hat\beta_p x'_p
  • 中心化经验回归方程的常数项为0,少了一个未知参数
  • 坐标系的平移变换只改变直线的截距,不改变直线的斜率
2. 标准化回归系数
  • 在中心化的基础上,可进一步给出变量的标准化和标准化回归系数。
  • 再用多元线性回归方程描述某种经济现象时,由于自变量所用的单位大多不同,数据的大小差异也往往很大,不利于在统一标准上进行比较。
  • 为了消除量纲不同和数量级差异所带来的影响,就需要将样本数据做标准化处理,然后用最小二乘法估计未知参数,求得标准化回归系数。
  • 样本的标准化公式为:
  • x^*_{ij} = \frac{x_{ij}-\overline x_j}{\sqrt{L_{jj}}},i=1,2,...,n;j=1,2,...,p
  • y^*_{ij} = \frac{y_{i}-y}{\sqrt{L_{yy}}},i=1,2,...,n
  • 式中: L_{jj} = \sum^n_{i=1}(x_{ij} - \overline x_j)^2是自变量x_j的离差平方和。
  • 用最小二乘法求出标准化的样本数据(x^*_{i1},x^*_{i2},...,x^*_{ip};y*_i)的经验回归方程为:\hat y^* = \hat\beta_1^* x_1^* + \hat\beta_2^* x_2^*+...+\hat\beta_p^* x_p^*
  • 标准化回归系数与普通最小二乘回归系数之间存在关系式:\hat\beta_j^* = \frac{\sqrt{L_{jj}}}{\sqrt{L_{yy}}}\hat\beta_j,j=1,2,...,p
  • 标准化回归系数是比较自变量对y影响成都额的相对重要性的一种比较理想的方法,有了标准化回归系数后,变量的相对重要性就容易比较了。
  • 但是对回归系数的解释仍需采取谨慎态度,因为当自变量相关时,会影响标准化回归系数的大小。

六、相关阵与偏相关系数

1. 样本相关阵
  • 复相关系数R反映了一组自变量的相关性,是整体和共性指标。
  • 简单相关系数反映的是两个变量间的相关性,是局部和个性指标。
  • 由样本观测值x_{i1},x_{i2},...,x_{ip}(i=1,2,...,n)分别计算x_ix_i之间的简单相关系数x_{ij},得自变量样本相关阵:r=\begin{bmatrix} 1&r _{12}& ...& r_{1p}\\ r_{21}&1&...&r_{2p}\\ \vdots&\vdots& &\vdots\\ r_{p1}&r_{p2}&...&1\\ \end{bmatrix}
  • 相关矩阵是对称矩阵
  • X^* = (x^*_{ij})_{n \times p}表示中心标准化的设计矩阵,则相关阵可表示为r = (X^*)'X^*
2. 偏决定系数
  • 偏决定系数是变量间的另一种相关性,在多元线性回归分析中,当其他变量固定后,给定的任两个变量之间的相关系数叫偏相关系数
  • 偏相关系数可以度量p+1个变量y,x_1,x_2,...,x_p之中任意两个变量的线性相关程度,而这种相关程度是在固定其余p-1个变量的影响下的线性相关。
2.1 两个自变量的偏决定系数
  • SSE(x_2)是二元线性回归模型中只含有自变量x_2时y的残差平方和,SSE(x_1,x_2)是模型中同时含有自变量x_1x_2时y的残差平方和。
  • 因此,模型中已含有x_2时,再加入x_1使y的剩余变差的相对减少量为:r^2_{y1l2} = \frac{SSE(x_2) - SSE(x_1,x_2)}{SSE(x_2)}
  • 此时模型中已含有x_2时,y与x_1的偏决定系数。
  • 同样,模型中已含有x_1时,y与x_2的偏决定系数为:r^2_{y2l1} = \frac{SSE(x_1) - SSE(x_1,x_2)}{SSE(x_1)}
2.2 一般情况
  • 当模型中已含有x_2,...,x_p时,y与x_1的偏决定系数为:r^2_{y_1;2,...,p} = \frac{SSE(x_2,...,x_p) - SSE(x_1,x_2,...,x_p)}{SSE(x_2,...,x_p)}
3. 偏相关系数
  • 偏决定系数的平方根称为偏相关系数,其符号与相应的回归系数的符号相同。
  • 偏相关系数与回归系数显著性检验的t值是等价的。
  • 从图中可以看到,两个偏相关系数(Patial)为r_{y1;2} = 0.802,r_{y2;1} = 0.739
  • 进一步计算偏决定系数r^2_{y1;2} = (0.802)^2 = 0.643, r^2_{y2;1} = (0.739)^2 = 0.546
  • Zero-order 为 y与x_i的简单相关系数,分别为r_{y1} = 0.807,r_{y2} = 0.746
  • 决定系数为:r_{y1}^2=(0.807)^2 = 0.651,r^2_{0.746} = 0.557
  • Part为部分相关系数,y关于x_2的部分相关系数 = \sqrt{\frac{\Delta SSR(x_2)}{SST}}
  • 以上数据说明:
  • 用y与x_1做一元线性回归时,x_1能消除y的变差SST的比例为:r_{y1}^2= 0.651 = 65.1\%
  • 再引入x_2时, x_2能消除剩余变差SSE(x_1)的比列为:r^2_{y2;1} = 0.546 = 54.6\%
  • 因而自变量能消除x_1和x_2消除y变差的总比例为:1 - (1-r^2_{y1})(1-r^2_{y2;1}) = 1 - (1 - 0.651)\times(1 -0.546) = 0.842 = 84.2\%
  • 84.2\%恰好是y对x_1和x_2的二元线性回归的决定系数R^2
  • 偏相关系数反映的事变量间的相关性,因而不需要又处于特殊地位的变量y。
  • 可以对任意p个变量x_1,x_2,...,x_p定义他们之间的偏相关系数,记作:r_{ij} = \frac{L_{ij}}{\sqrt{L_{ii}L_{jj}}}表示两个变量x_1,x_j之间的简单相关系数。
  • r = (r_{ij})_{p\times p}为x_1,x_2,...,x_p的相关阵,则在固定x_3,...,x_p保持不变
  • x_1与x_2之间的偏相关系数为:r_{12;3,...,p} = \frac{-\Delta_{12}}{\sqrt{ \Delta_{11} \Delta_{22}}}
  • \Delta_{ij}表示相关阵(r_{ij})_{p\times p}第i行第j列元素的代数余子式2
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容