正则化总结

正则化的作用

正则化的作用就是用来避免或者减少过拟合现象。
关于什么是过拟合什么是欠拟合就不再花费过多篇幅了。

过拟合的产生

过拟合产生有以下几种原因:

  1. 数据的数量不足
    这一点很好理解,只给你2个数据,但是一共有3个参数要确定
  2. 数据的质量不好
    比如说噪声点太多,影响模型的拟合曲线
  3. 模型复杂度太高
    比如深层的神经网络结构

过拟合现象出现时,会导致系数非常大。以下图为例,可以看出曲线的拐动非常的突兀,反映在梯度上是曲线上的点的梯度变化很大,这样才能够实现方向的突转。


过拟合曲线

过拟合的另外一个比较直观的表现是高次项的系数大。这个也很好理解,通常的过拟合曲线和刚才的图像一样,有很多的弯曲,那么对于多项式而言(非多项式可以用泰勒展开),高次项对于曲线的弯曲有着更大的作用。所以高次项的系数会很大,从而使曲线有更明显的转动。同时,与欠拟合的情况相比,过拟合情况下的参数数量也会很多。w=\{w_{0},w_{1},w_{2}...w_{N}\},其中,过拟合情况下N的数量会很多。

正则化的作用

过拟合会导致模型复杂度过高,所以正则化的作用就是降低模型的复杂度。
假设F(x)为模型的loss,原本的优化思路是min F(x),现在的优化策略变成min(F(x)+L) 。 L为正则项。常见的有L1和L2两种正则项。所以整体的思路就是一方面要让总体的误差下降,另一方面又要让模型的复杂度降低,减少参数的个数。 否则的话,对于复杂的模型,面对稍有偏移的数据就会产生极大的影响。 如果单纯的降低F(x),那么得出的参数的值会使得后面的L很大,那总体的值还是很大。由此可见,正则化是对过拟合现象的一种约束。如图所示,等高线是原本的模型的损失函数,圆心出的图形是正则化的2维展示。在3维角度上,z轴的值就是w1,w2对应的值。两个平面的切面就是所求的最优解。正则化前面正则化系数会控制正则化项的大小,\lambda越大,那么正则化的那个图形越小,结果越趋向在w取很小值的地方相交。

L1正则

假设J_{0}是线性回归模型
J = J_{0}+\lambda L_{1}
被称为 Lasso 回归。
其中,L1正则是把参数的绝对值相加。具有以下特点,1.能使得参数稀疏,具有特征选择的功能。2. 模型不是处处可微。
先说第二点,这个很好理解,在图形的拐点处可以看到是不可微的。
下面从几何角度和数学角度分析一下第一个特点。
几何角度
从上图中可以看出,L1图形在坐标轴的4个点更容易与外面的损失函数相交。因为焦点在坐标轴上,这就意味着w中肯定有一个为0,扩展到高维中也一样,这样得到的焦点会使很多的w的值为0。这样得到的参数矩阵中有着很多0,是一个稀疏矩阵。
数学角度
J=J_{0}+\frac{\lambda}{n}\sum w
\frac{\alpha J}{\alpha w}=\frac{\alpha J_{0}}{\alpha w} +\frac{\eta \lambda}{n}sign(w)
w = w - \eta \frac{\alpha J_{0}}{\alpha w}- \frac{\eta \lambda}{n}sign(w)
其中,\frac{\alpha L_{1}}{\alpha w}=sign(w) =1或 ,\eta是学习率。
可以看出,w的参数更新过程中,每次会恒定减去一个值,那么w最后肯定会等于0。
因为参数矩阵是稀疏矩阵,那么意味着很多特征前面的系数是0,那这个特征就等于没用。所以L1具有特征选择的作用。

L2正则

假设J_{0}是线性回归模型
J = J_{0}+\lambda L_{2}
被称为 Ridge 回归,也就是岭回归。
其中,L2正则是把参数的模相加。具有以下特点,1.能迅速使得参数变小,但不稀疏。2. 模型处处可微。
先说第二点,这个很好理解,在图形中可以看到L2的图像是一个圆形,处处可微。
下面从几何角度和数学角度分析一下第一个特点。
几何角度
继续看上图,很明显图像在坐标轴上相交的概率大大降低了,这样就不会有w为0 了,从而避免了稀疏矩阵。
数学角度
J=J_{0}+\frac{\lambda}{2n}\sum_{i} w_{i}^{2}
\frac{\alpha J}{\alpha w}=\frac{\alpha J_{0}}{\alpha w} +\frac{\eta \lambda}{n}w
w = w - \eta \frac{\alpha J_{0}}{\alpha w}- \frac{\eta \lambda}{n}w
=(1-\eta \frac{ \lambda}{n})w -\eta \frac{\alpha J_{0}}{\alpha w}
w在每次更新的时候,都会先乘一个小于1的数,从而使得w迅速的变小。

贝叶斯角度

首先 f(x)=\sum x_{i}\theta_{i} +\epsilon
\epsilon是噪声,服从均值为0的高斯分布。
那么, Y \sim N(f(X,\delta ^{2}))
最大似然函数为:
\theta^{*} = argmax _{\theta} (\prod_{i}P(y_{i}|x_{i},\theta)) (1)
在统计学的角度,下一步就是根据似然函数求得最优的参数。但是贝叶斯学派认为,在数据量不够的情况下,仅依赖观察到的数据来做决定不准确的。比如投硬币,大家都知道投1亿次那么正反的比例应该是接近1比1。现在假设只投了3次,3次全是正面。根据统计学的学习,得出最大似然后得出了抛硬币正面的概率是100%。这明显不对,这时需要在最大似然的基础上再乘以先验概率。这就是贝叶斯最大后验。
P(\theta|X,Y) = \frac{P(\theta,X,Y)}{P(X,Y)}=\frac {P(Y|X,\theta)P(\theta)}{P(X,Y)}
这个最后正比于P(Y|X,\theta)P(\theta),这里的参数\theta服从某种分布。
(1)式对应的也变成
\theta^{*} = argmax _{\theta} (\prod_{i}P(y_{i}|x_{i},\theta)\prod_{i}P(\theta_{i}))
取对数后,
=argmax _{\theta} (\sum_{i}P(y_{i}|x_{i},\theta)+\sum_{i}P(\theta_{i}))
=argmax _{\theta} (\sum_{i}||f(x_{i})-y_{i}||^{2}+\sum_{i}P(\theta_{i})) (2)

首先,我们假设参数服从Laplace分布,那么先验分布的具体形式就是
P(\theta_{i})=\frac{\lambda}{2}exp(-\lambda |\theta_{i}|) (2.1)
如果我们假设参数服从高斯分布,那么先验分布的具体形式就是
P(\theta_{i})= \frac{\lambda}{\sqrt { \pi}}exp(-\lambda ||\theta_{i}||^{2 } ) (2.2)

将 2.1, 2.1 分别带入到(2)中,会发现公式最后恰好是L1,L2的形式。
从贝叶斯最大后验的角度而言,引入正则项的作用是引入了先验概率从而防止了过拟合现象。当先验概率是Laplace 分布和高斯分布时,分别对应了L1正则和L2正则

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容