policy-gradient和q-learning区别

其中一个区别就是, q-learning总是用 Q现实 -  Q估计 来获得loss,从而更新参数。 但基础版本的policy-gradient都不用这些。人家是直接用  normalization后的vt去调整其概率值。


 所以基础版的PG算法,不涉及  求  s的next observation s_的问题。

但是,从A2C开始,就是PG和q-learning的结合了,也就是把loss由上面公式中的vt,变成了TD_error(TD_error是单步更新的)  所以呢又涉及求s_的问题,不过,大部分s_都可以由 env.step求得。

有了s_ ,那么如何求TD_error呢,用的就是  v_s_  的折扣值 + reward - v_s 

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • https://hunch.net/~beygel/deep_rl_tutorial.pdfhttps://icm...
    斑驳岁月再难觅阅读 6,887评论 0 2
  • 1. actor是 policy-gradient, critic是 类似于q-learning的value-ba...
    Iverson_henry阅读 5,670评论 0 0
  • 参考资料 : 1.https://zhuanlan.zhihu.com/p/21725498 2. https:...
    Iverson_henry阅读 4,183评论 0 0
  • 久违的晴天,家长会。 家长大会开好到教室时,离放学已经没多少时间了。班主任说已经安排了三个家长分享经验。 放学铃声...
    飘雪儿5阅读 12,196评论 16 22
  • 创业是很多人的梦想,多少人为了理想和不甘选择了创业来实现自我价值,我就是其中一个。 创业后,我由女人变成了超人,什...
    亦宝宝阅读 5,851评论 4 1