大师兄的应用回归分析学习笔记（四）：多元线性回归（一）

大师兄的应用回归分析学习笔记（三）：一元线性回归（二）
大师兄的应用回归分析学习笔记（五）：多元线性回归（二）

一、多元线性回归模型

在实际问题中，一元线性回归只不过是回归分析中的一种特例，通常是对影响某种现象的许多因素进行简化考虑的结果。

1. 多元线性回归模型的一般形式

设随机变量y与一般变量 $x_1,x_2,...,x_p$ 的线性回归模型为： $y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_p x_p + \epsilon$

$\beta_0,\beta_1,...,\beta_p$ 是p个未知参数

$\beta_0$ 是回归常数

$\beta_1,...,\beta_p$ 是回归系数

y是被解释变量（因变量）

$x_1,x_2,...,x_p$ 是p个可以精准测量并控制的一般变量（解释变量、自变量）

p=1时，为一元线性回归模型；p>1时，为多元线性回归模型。

$\epsilon$ 为随机误差

理论回归方程： $E(y) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_p x_p$

假定 $\begin{cases} E(\epsilon)=0 \\ var(\epsilon) = \delta^2 \end{cases}$

回归设计矩阵： $y = X\beta + \epsilon$

$X$ 是一个 $n \times (p+1)$ 阶矩阵

2. 多元线性回归模型的基本假定

解释变量 $x_1,x_2,...,x_p$ 是确定性变量，不是随机变量，且要求 $rank(X) = p+1 <n$ (自变量列之间不相关，样本量的个数大于解释变量的个数，X是以满轶矩阵)。
随机误差项具有零均值和等方差（高斯-马儿柯夫条件），即假设观测值没有系统误差，且随机误差项在不同样本点之间是不相关的，并且有相同的精度。
y服从n维正态分布。

3. 多元线性回归方程的解释

假设有 $\begin{cases} y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \epsilon\\ E(y) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 \end{cases}$
加入 $x_2$ 保持不变，则有 $\beta_1 = \frac{\delta E(y)}{\delta x_1}$
对一般情况下含有p个自变量的多元线性回归而言，每个回归系数 $\beta_1$ 可解释为自变量 $x_1$ 每增加一个单位，因变量y的平均增加幅度。

二、回归参数的估计

1. 回归参数的普通最小二乘估计

最小二乘法，就是寻找参数 $\beta_0,\beta_1,\beta_2,...,\beta_p$ 的估计值 $\hat\beta_0,\hat\beta_1,\hat\beta_2,...,\hat\beta_p$ ，使离差平方和 $Q(\beta_0,\beta_1,\beta_2,...,\beta_p) = \sum^n_{i=1}(y_i - \beta_0 - \beta_1 x_{i1} - \beta_2 x_{i2} - ... - \beta_p x_{ip})^2$ 达到极小。
$\hat\beta_0,\hat\beta_1,\hat\beta_2,...,\hat\beta_p$ 就称为回归参数 $\beta_0,\beta_1,\beta_2,...,\beta_p$ 的最小二乘估计。
经验回归方程： $\hat y = \hat \beta_0 + \hat \beta_1 x_1 + \hat \beta_2 x_2 + ... + \hat \beta_p x_p$

2. 回归值与残差

在求出回归参数的最小二乘估计后，可以用经验回归方程计算因变量的回归值与残差值。
$y_i(i=1,2,...,n)$ 的回归拟合值： $\hat y = \hat \beta_0 + \hat \beta_1 x_{i1} + \hat \beta_2 x_{i2} + ... + \hat \beta_p x_{ip}$
相应的，因变量向量 $y = (y_1,y_2,...,y_n)'$ 的回归值： $\hat y = X\hat \beta = (\hat y_1,\hat y_2,...,\hat y_n)$
误差项方差 $\delta^2$ 的无偏估计为： $\delta^2 = \frac{1}{n-p-1}SSE=\frac{1}{n-p-1}(e'e)= \frac{1}{n-p-1}\sum^n_{i=1}e^2_i$
如果用普通最小二乘法估计多元线性回归模型的未知参数，样本量必须不少于模型中参数的个数。

3. 回归参数的最大似然估计

多元线性回归的最大似然与一元线性回归的最大似然估计的思想一致。
$y = X\beta + \epsilon ~ \epsilon$ ~ $N(0,\delta^2I_n)$ 服从正态分布，y的概率分布为： $\epsilon$ ~ $N(X\beta,\delta^2I_n)$
似然函数为： $L = (2\pi)^{-n/2}(\delta^2)^{-n/2}exp(-\frac{1}{2\delta^2}(y-X\beta)'(y-X\beta))$