发布于  更新于 

强化学习作业 4

强化学习

Problem 1

Method
First-Visit MC
Incremental First Visit MC
TD(0)
2-Step TD

graph LR;
    A--->|a1,R=0|T;
    B--->|a1,R=0|A;
    C--->|a1,R=0|B;
    A--->|a2,R=0|B;
    B--->|a2,R=0|C;
    C--->|a2,R=1|T;

注意到不同的方法的计算难度有很大的差别,计算出的价值函数也有很大的差别。在理论上上面的所有方法都能收敛到真实的价值函数,但是由于参与估计的样本量极少,而不同方法侧重于样本的不同方面,从而导致估计的结果不同。由于不知道真实的价值函数,也不知道具体的应用情形,很难说哪种方法的收敛速度会更快。能发现的是,在样本量小的情况下,由于 设置的很低,基于更新步长的方法明显更加迟钝,估计的价值函数偏小。

Problem 2

记发生 次 "左" 动作的轨迹出现的概率为 , 易知

样本值

期望