policy-gradient和q-learning区别

其中一个区别就是， q-learning总是用 Q现实 - Q估计来获得loss，从而更新参数。但基础版本的policy-gradient都不用这些。人家是直接用 normalization后的vt去调整其概率值。

所以基础版的PG算法，不涉及求 s的next observation s_的问题。

但是，从A2C开始，就是PG和q-learning的结合了，也就是把loss由上面公式中的vt，变成了TD_error（TD_error是单步更新的）所以呢又涉及求s_的问题，不过，大部分s_都可以由 env.step求得。

有了s_ ，那么如何求TD_error呢，用的就是 v_s_ 的折扣值 + reward - v_s

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

深度强化学习 Deep Reinforcement Learning
https://hunch.net/~beygel/deep_rl_tutorial.pdfhttps://icm...
斑驳岁月再难觅阅读 6,887评论 0赞 2
actor-critic
1. actor是 policy-gradient， critic是类似于q-learning的value-ba...
Iverson_henry阅读 5,670评论 0赞 0

policy-gradient
参考资料： 1.https://zhuanlan.zhihu.com/p/21725498 2. https:...
Iverson_henry阅读 4,183评论 0赞 0
家长会谈合作
久违的晴天，家长会。家长大会开好到教室时，离放学已经没多少时间了。班主任说已经安排了三个家长分享经验。放学铃声...
飘雪儿5阅读 12,196评论 16赞 22
创业后
创业是很多人的梦想，多少人为了理想和不甘选择了创业来实现自我价值，我就是其中一个。创业后，我由女人变成了超人，什...
亦宝宝阅读 5,851评论 4赞 1

赞1赞

赞赏

手机看全文