大师兄的应用回归分析学习笔记(七):多元线性回归(四)

大师兄的应用回归分析学习笔记(六):多元线性回归(三)
大师兄的应用回归分析学习笔记(八):违背基本假设的情况(一)

七、多元线性回归模型的建立过程

  • 上表为中国民航客运量的回归模型,其中:
  • y表示民航客运量(万人)
  • x_1表示国民收入(亿元)
  • x_2表示民用汽车拥有量(万辆)
  • x_3表示铁路客运量(万人)
  • x_4表示民航航线历程(万公里)
  • x_5表示来华旅游入境人数(万人)
  • 第一步:提出因变量与自变量,收集数据。
  • 第二步:相关分析,设定理论模型。
  • 用工具获得增广相关阵
  • 从相关阵可以看出,y与5个自变量的相关系数都在0.9以上,说明所选自变量与y高度线性相关,适合做多元线性回归。
  • 第三步:对原始数据做回归分析
  • 第四步:回归拟合优度诊断
  • 得到初步回归方程:\hat y = -5322.037 + 0.025x_1 - 0.21x_2 - 0.004x_3 + 0.103x_4 + 5.156x_5
  • 这个回归方程还需要根据以下的各种诊断效果做相应改进:
  • 从回归的相对效果看,复相关系数R = 0.998,决定系数R^2 = 0.996,回归可以减少因变量99.6%的变异,从决定系数看回归方程高度显著。
  • 从回归的绝对效果看,回归标准误差的估计值\hat\delta = S_e = 1019.91,而2016年因变量y的水平值已经达到48796,标准误差和水平值相比很小,说明回归效果很好。
  • 从方差分析表看,F = 686.43, P值=0,表明回归方程高度显著,说明x_1,x_2,x_3,x_4,x_5整体上对y有高度显著的线性影响。
  • 回归系数的显著性检验:虽然自变量整体上对y有显著影响,但是每个自变量对y的显著性却较差。其中x_2的P值=0.821最大,不显著;x_3,x_5分别为0.254,不显著;x_1,x_4P值在0.05~0.10之间,是弱显著。由此可见,在多元线性回归中,虽然回归方程整体显著性很强,但是并不意味着每个自变量都显著。
  • 另外,每个自变量的显著性和这些自变量与因变量y两两之间的简单相关系数的大小并不一致,可能存在共线性。
  • 第五步:回归应用
  • 因变量新值的点估计为:\hat y_0 = \hat\beta_0 + \hat\beta_1 x_{10}+ \hat\beta_2 x_{20}+ \hat\beta_3 x_{30}+ \hat\beta_4 x_{40}+ \hat\beta_5 x_{50}
  • 当样本较大时,其置信度为95%的近似置信区间仍然可以用(\hat y - 2\hat\delta,\hat y + 2\hat\delta)简单计算。
  • 第六步:专业背景分析
  • 民航客运量y与民用汽车拥有量x_2、铁路客运量x_3的简单相关系数为0.990,0.968;而回归方程中x_2,x_3的偏回归系数都是负值,并且不显著,可能是由于自变量之间的多重共线性造成的。
  • 一般认为铁路客运量与民航客运量之间应呈负相关关系,但随着我国经济的高速发展,目前铁路运输和民航运输之间并不是恶性的竞争关系。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容