登录注册写文章

[强化学习] 理解on-policy 和 off-policy

[强化学习] 理解on-policy 和 off-policy

我们把用来指导个体产生与环境进行实际交互行为的策略称为行为策略，把用来评价状态或行为价值的策略或者待优化的策略称为目标策略。如果个体在学习过程中优化的策略与自己的行为策略是同一个策略时，这种学习方式称为同步策略学习（on-policy learning），如果个体在学习过程中优化的策略与自己的行为策略是不同的策略时，这种学习方式称为异步策略学习（off-policy learning）

最后编辑于：2018.10.15 15:32:40

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

深度强化学习（理论篇）—— 从 Critic-only、Actor-only 到 Actor-...
来源于 Tangowl 的系列文章 https://blog.csdn.net/lipengcn/article/...
TangowL阅读 6,004评论 0赞 4
精通gulp常用插件
本文主要展示的是gulp常用插件的使用方法和用途，通过对插件的熟练运用达到精通gulp。不定期更新。可以到gith...
linshuai阅读 623评论 0赞 9
当我三十岁时
当我三十岁时，我已成家立业，生活富裕，自在安乐。当我三十岁时，我还单身一人，衣衫褴褛，生活窘迫。当...
夜流霜阅读 456评论 6赞 5
如何学好英语词汇？技巧分享之一
文/温佛佳温佛佳在带领一个线上英语学习群，将持续到5月份国家翻译资格证书考试之前。接下去的半个月，将分享英语词汇...
温佛佳阅读 3,226评论 3赞 49

3赞4赞

赞赏

手机看全文