发布于  更新于 

强化学习作业 2

强化学习

Problem 1

状态价值的 Bellman 期望方程

在本问题中, 展开得到关于 的方程组

其中 表示在 向左走的概率。求解线性方程组即可得到各个状态价值。容易得到方程组的解是

注意到 时, 取最大值 ,事实上,这就是最优策略,此时除了 的所有状态的最优价值都是 10.

正常的考虑,右端的收益大于左端,并且风再大也不会导致倒退,顶多原地不动,所以总是贪心地选择向右。

而这个线性方程组可以观察其他情况,比如等概率随机游走:

Problem 2

  1. 我们总是可以像上题那样列出所有状态的 Bellman 期望方程,得到一个含有策略 作为参数的满秩线性方程组,从而将 写成关于 的显函数。随后可通过梯度下降等方法来优化 使 最大。(但是, 参见上一问解得的含 参数的 表达式, 这个优化问题可能是病态的). 另外, 考虑到最优策略一定会收敛到单点分布, 可以枚举最优策略.

  2. 只需如上题求解线性方程组。列出每个状态的状态价值,组成方程组 线性方程组满秩,求解得到