《动手学深度学习》第三天2020-02-14

2) 第二次打卡内容(2月15日-17日)截止打卡时间:2/17-22:00

Task03:过拟合、欠拟合及其解决方案;梯度消失、梯度爆炸;循环神经网络基础(1天)

Task04:机器翻译及相关技术;注意力机制与Seq2seq模型;Transformer(1天)

Task05:卷积神经网络基础;leNet;卷积神经网络进阶(1天)


8、梯度消失(vanishing)、梯度爆炸(explosion)以及Kaggle房价预测实战

当神经网络的层数较多时,模型的数值稳定性容易变差。即小与1的越来越下,大的越来越大。

随机初始化模型参数的原因:让隐藏层中的单元都发挥作用。

协变量偏移、标签偏移、概念偏移


9、循环神经网络进阶 ModernRNN(GRU/LSTM/深层RNN/双向RNN)

RNN存在的问题:梯度较容易出现衰减或爆炸(BPTT)

⻔控循环神经⽹络:捕捉时间序列中时间步距离较⼤的依赖关系

• 重置⻔有助于捕捉时间序列⾥短期的依赖关系;

• 更新⻔有助于捕捉时间序列⾥⻓期的依赖关系。

距离熟练掌握差的还很远。。。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
禁止转载,如需转载请通过简信或评论联系作者。

推荐阅读更多精彩内容