强化学习作业 2
强化学习Problem 1
状态价值的 Bellman 期望方程
在本问题中, 展开得到关于
即
其中 容易得到方程组的解是
注意到
正常的考虑,右端的收益大于左端,并且风再大也不会导致倒退,顶多原地不动,所以总是贪心地选择向右。
而这个线性方程组可以观察其他情况,比如等概率随机游走:
Problem 2
我们总是可以像上题那样列出所有状态的 Bellman 期望方程,得到一个含有策略
作为参数的满秩线性方程组,从而将 写成关于 的显函数。随后可通过梯度下降等方法来优化 使 最大。(但是, 参见上一问解得的含 参数的 表达式, 这个优化问题可能是病态的). 另外, 考虑到最优策略一定会收敛到单点分布, 可以枚举最优策略.只需如上题求解线性方程组。列出每个状态的状态价值,组成方程组
线性方程组满秩,求解得到