强化学习作业 7

强化学习

Problem 1

表示在策略下从任意状态出发根据策略进行一步动作后的期望回报，与具体的等无关。表示在策略下从任意状态触发走步的期望回报，由于与无关，所以求和只是将个相同的期望回报相加，结果是个相同的期望回报的和。

表示在时刻，采用策略从任意状态出发根据策略进行一步动作后的期望回报，与策略和在这个策略下时的分布有关。在本问题中取值是

Problem 2

后向 TD(λ) 里的资格迹累积并衰减某个状态的出现次数，从而刻画过去出现的状态和现在的结果之间的关联程度。后向 GAE 中的资格迹也是通过将无穷级数求和展开成迭代的形式推导出来的，但是累加并衰减的对象不只是状态的出现次数。课件的 17 页将资格迹定义为的累加，然后资格迹用来给优势函数加权，也就是说后向 GAE 中的资格迹刻画了过去的现在的优势函数和过去的优势函数的关联程度，要求现在的策略梯度与过去的优势函数有关。

后向 TD(λ) 通过资格迹来利用现在的信息更新“过去”的状态价值。后向 GAE 里资格迹没有直接的像 TD 那样用现在的信息来更改一个现在没有直接关联的值，但也要求在求梯度的过程中，导致现在的优势函数归因到过去的动作（策略）上，这个“归因到过去”的语义是类似的。

Problem 3

如果这里的 LM 算法是指 Levenberg-Marquardt 算法，那么这个算法是用来求解非线性最小二乘问题的。这个方法是通过将 Gauss-Newton 方法和梯度下降方法结合起来，通过引入一个参数来控制两种方法的比例。LM 方法通过求解下面的问题来获得更新步长

其中是的雅可比矩阵。上式相当于在牛顿法的基础上加入了阻尼项 , 对上式求偏导数并令其为零，可以得到

解得步长为

注意到时，上式就是 Gauss-Newton 方法的更新步长。当较大时，更新步长接近于梯度下降的更新步长。因此 LM 算法可以看作是 Gauss-Newton 方法和梯度下降方法的折中，可以看作是一种类似于信赖域思想的改进。在本节介绍的 Advanced PG 方法中，可以类比于 TRPO 对 KL 散度的约束，LM 算法对梯度的约束，通过引入来控制梯度的大小，从而保证梯度的更新不会太大，保证了更新的稳定性。TRPO 方法则约束每步更新的 KL 散度，保证了策略更新的稳定性，也通过泰勒展开来求解更新步长。

Problem 4

从定义上看，Value-based RL 指的是通过学习值函数，学习每个状态的价值，再通过贪心方法得到贪心策略的方法，策略作为贪心的 argmax 的结果是具有确定性的。而 Policy-based RL 则跳过了学习值函数这一步，直接学习策略，因此有可能表示一个非确定性的策略。

在使用显式的表格法的时候，两种模式是容易区分的；而在使用隐式的函数近似的时候，这两种方法的区别就不明显了。如果使用隐式的方法来表示状态、动作的价值（比如 DDPG 试图解决的连续动作的情况），这个时候从状态价值贪心地得到策略就不是那么容易了，导出的策略也可以是非确定性的，于是就模糊了 Value-based 和 Policy-based 的边界。另一方面，存在一些方法，比如 AlphaZero 能同时学习策略和价值。AlphaZero 的神经网络同时给出了状态下价值和策略的估计，策略用于拓展搜索树，估计的价值用于 Backup 从而改善后续的搜索策略。这种方法可以看作是 Value-based 和 Policy-based 的结合，也是一种混合方法。于是，Value-based 和 Policy-based RL 并不是对立的，而是一种方法的不同侧重点，实际中的方法可能会同时使用两种方法的优点。

本文采用署名-相同方式共享 4.0 国际许可协议，转载请注明出处。