[Deep Learning] 增强学习

本文是Deep Learning Course总结系列的第六篇,本文的主要内容是对增强学习进行介绍。
本系列前四篇传送门:第一篇 [Deep Learning] 神经网络基础;第二篇 [Deep Learning] 卷积神经网络 CNNs;第三篇 [Deep Learning] 集成学习Ensemble Learning&迁移学习Transfer Learning ;第四篇 [ [Deep Learning] 递归神经网络RNN ](//www.greatytc.com/p/5c22b41e9f07)。

Bandits

随机算法
UCB
应用: 广告推送等conditional bandits、rounding

基本模式

Agent根据当前State来确定下一步的Action并获得Reward,State到Action的映射关系为Policy一般用\pi表示。任务的目标是找到最优的Policya=\pi(s)\pi(a|s)使得获取尽可能多的Reward。

Agent交互

发展史

马尔科夫决策过程(控制)-> 动态规划 (value func)-> Q-learning
model-based
有限状态
model-free 基于sample
Q-learning- \varepsilon -greedy
Q-learning- UCB

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。