神经网络实践经验（4）

前言

地铁上无聊码的，思路比较凌乱

我认为，现代神经网络的目标只有两个

1. 过拟合与欠拟合的调试

3. internal covariance shift

神经网络的过拟合与欠拟合一直是个恒古不变的话题

如何能够防止神经网络产生没意义的特征工程和做出有意义的特征工程，就是这方面的一个问题

mlp擅长过拟合，因为他会提取完全无关系的神经元之间的关系并作为特征。而局部连接的一些神经网络可以减少这样的操作。

但cnn也不是完全都恰当好处的特征提取，所以在架构与架构之间产生非常大的差别，nin和alexnet的参数数量可以差十倍却有差不多的效果

神经网络都追求较少的参数，也是希望减少过拟合

与传统机器学习方法不同，神经网络增加模型容量可谓是简单至极。你希望的话，可以把cnn叠个一万层

分分钟过拟合

所以大部分情况下都是在解决过拟合问题

很多网络架构都在探究用最少的参数做出最好的效果，即减少过拟合程度，也是如此

（不是很会翻这个词，内部协变量转移？一下简称ics了）

（一点注意的是ics和covariance shift不同。covariance指的是模型在testing和training集的差，而ics就是梯度爆炸和梯度消失神马的）

ics：the change during training due to the change in parameters（《batch normalization》）

我擅自将其解释为类似梯度爆炸和梯度消失的问题

这是我第一次看到这个词的定义

但是相似描述的情景在densenet和resnet的论文中也有描述

过深的网络不好训练，训练的结果也不太好

现代很多网络的研究就在于解决这个问题

batch normalization通过标准化来解决这个问题，同时用两个可学习的参数去减轻标准化对特征的破坏

densenet和resnet都通过较远的神经元的连接的方式去减轻这个问题

当然resnet和densenet思路有点小不同

resnet想学习的是ΔW

densenet疯狂地追求前后连接

但本质差不多（densenet如是说）

本文只是一个大二学生的粗鄙之语

自己还是论文看少了

比如resnet和densenet都提到的一个f什么net我就没看

还有其实很多问题，神经网络也不像我说的这么简单

就当以上内容纯属虚构和胡说八道吧