其中一个区别就是, q-learning总是用 Q现实 - Q估计 来获得loss,从而更新参数。 但基础版本的policy-gradient都不用这些。人家是直接用 normalization后的vt去调整其概率值。

所以基础版的PG算法,不涉及 求 s的next observation s_的问题。
但是,从A2C开始,就是PG和q-learning的结合了,也就是把loss由上面公式中的vt,变成了TD_error(TD_error是单步更新的) 所以呢又涉及求s_的问题,不过,大部分s_都可以由 env.step求得。
有了s_ ,那么如何求TD_error呢,用的就是 v_s_ 的折扣值 + reward - v_s
