强化学习作业 5
强化学习Problem 1 - 动作价值的学习与 Off-Policy
![](https://cdn.duanyll.com/img/20240414211915.png)
Question 1
![](https://cdn.duanyll.com/img/20240414212309.png)
Question 2
![](https://cdn.duanyll.com/img/20240415093350.png)
对于
对于
对于
Question 3
![](https://cdn.duanyll.com/img/20240415094206.png)
对于
对于
对于
Question 4
![](https://cdn.duanyll.com/img/20240415094556.png)
![](https://cdn.duanyll.com/img/20240415094614.png)
Question 5
![](https://cdn.duanyll.com/img/20240415095503.png)
因为状态价值直接与策略有关。在 Bellman 方程中,状态价值需要用策略对下一步的状态价值加权求和,
Problem 2 - Q-Learning 算法的收敛性
![](https://cdn.duanyll.com/img/20240415102852.png)
![](https://cdn.duanyll.com/img/20240415102912.png)
对于
对于
对于
对于
对于
对于
因为状态价值直接与策略有关。在 Bellman 方程中,状态价值需要用策略对下一步的状态价值加权求和,