强化学习作业 5

Problem 1 - 动作价值的学习与 Off-Policy

对于

对于

因为状态价值直接与策略有关。在 Bellman 方程中，状态价值需要用策略对下一步的状态价值加权求和，与的分布有关，若的分布不同于的分布，则需要用 IS 矫正才能得到正确的 , 否则得到的其实是 . 而对于动作价值，中已经选定了, 的分布不影响 , 所以不需要使用 IS。

本文采用署名-相同方式共享 4.0 国际许可协议，转载请注明出处。