发布于  更新于 

强化学习作业 5

强化学习

Problem 1 - 动作价值的学习与 Off-Policy

Question 1

Question 2

对于

对于

对于

Question 3

对于

对于

对于

Question 4

Question 5

因为状态价值直接与策略有关。在 Bellman 方程中,状态价值需要用策略对下一步的状态价值加权求和, 的分布有关,若 的分布不同于 的分布,则需要用 IS 矫正才能得到正确的 , 否则得到的其实是 . 而对于动作价值, 已经选定了, 的分布不影响 , 所以不需要使用 IS。

Problem 2 - Q-Learning 算法的收敛性