强化学习作业 4

Problem 1

Method
First-Visit MC
Incremental First Visit MC
TD(0)
2-Step TD

graph LR;
    A--->|a1,R=0|T;
    B--->|a1,R=0|A;
    C--->|a1,R=0|B;
    A--->|a2,R=0|B;
    B--->|a2,R=0|C;
    C--->|a2,R=1|T;

注意到不同的方法的计算难度有很大的差别，计算出的价值函数也有很大的差别。在理论上上面的所有方法都能收敛到真实的价值函数，但是由于参与估计的样本量极少，而不同方法侧重于样本的不同方面，从而导致估计的结果不同。由于不知道真实的价值函数，也不知道具体的应用情形，很难说哪种方法的收敛速度会更快。能发现的是，在样本量小的情况下，由于设置的很低，基于更新步长的方法明显更加迟钝，估计的价值函数偏小。

Problem 2

记发生次 "左" 动作的轨迹出现的概率为 , 易知

样本值

期望

本文采用署名-相同方式共享 4.0 国际许可协议，转载请注明出处。