大师兄的应用回归分析学习笔记(二十一):岭回归(三)
大师兄的应用回归分析学习笔记(二十三):主成分回归与偏最小二乘(二)
一、主成分回归
- W.F.Massy于1965年根据多元统计分析中的主成分分析提出了主成分回归。
- 主成分回归(principal components regression,PCR)是对普通最小二乘估计的一种改进,他的参数估计是一种有偏估计。
1. 主成分的基本思想
- 主成分分析(principal components analysis,PCA)首先由Hotelling于1933年提出。
- PCA是一种降维思想,在随时很少信息的前提下把多个指标利用正交旋转变换转化为几个综合指标的多元统计分析方法。
- 通常把转化生成的综合指标称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关。
- 这样在研究复杂问题时就可以只考虑少数几个主成分且不至于损失太多信息,从而更容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时使问题得到简化,提高分析效率。
2. 主成分的基本性质
-
性质1:Y的协方差矩阵对角矩阵
。其中对角线上的值为
。
-
性质2:记
,由
- 称
为第k个主成分
的方差贡献率
- 称
为主成分
的累计贡献率。
-
性质3:
- 式中,第k个主成分
与原始变量
的相关系数
称为因子负荷量
- 因子负荷量是主成分分析解释中非常重要的解释依据,因子负荷量的绝对值大小刻画了该主成分的主要意义及其成因。
-
性质4:
-
性质5:
-
与前m个主成分
的全相关系数平方和称为
对原始变量
的方差贡献率
,即
。
- 这一定义说明前m个主成分提取了原始变量
中
的信息,由此可以判断提取的主成分说明原始变量的能力。
3. 案例
-
以民航客运数据为例:
- 首先对5个自变量计算主成分:
FACTOR
/VARIABLES x1 x2 x3 x4 x5
/MISSING LISTWISE
/ANALYSIS x1 x2 x3 x4 x5
/PRINT INITIAL EXTRACTION
/CRITERIA MINEIGEN(1) ITERATE(25)
/EXTRACTION PC
/ROTATION NOROTATE
/SAVE REG(ALL)
/METHOD=CORRELATION.
- 输出中有5个主成分的特征根,最大的是
,最小的是
![]()
- 方差百分比反应主成分所能结束数据变异的比例,也就是包含原始数据的信息比例。
- 第一个主成分Factor1的方差百分比=99.071%,含有5个原始变量99%以上的信息量,因此本例取一个主成分已经足够了。
-
可以获得5个主成分得分:
- 这5个主成分得分每列数据的平均值为0
- 平方和都是n-1=10
- 任意两列都是线性无关的
-
由于第一个主成分Factor1的方差比已经高达99.071%,可以对这一个主成分做主成分分析:
- 用y对Factor1做普通最小二乘回归,得主成分回归方程:
![]()
- 下面需要把这个表达式还原回用5个原始自变量表达的形式,这需要找出Factor1和5个原始自变量
之间的关系式。
- 只需要以Factor1为因变量,以
为自变量做回归,得到的回归方程就是所需要的关系式:
- 代会主成分回归方程,得到y对5个原始自变量的主成分回归方程为: