强化学习作业 4
强化学习Problem 1
Method | |||
---|---|---|---|
First-Visit MC | |||
Incremental First Visit MC | |||
TD(0) | |||
2-Step TD |
graph LR; A--->|a1,R=0|T; B--->|a1,R=0|A; C--->|a1,R=0|B; A--->|a2,R=0|B; B--->|a2,R=0|C; C--->|a2,R=1|T;
注意到不同的方法的计算难度有很大的差别,计算出的价值函数也有很大的差别。在理论上上面的所有方法都能收敛到真实的价值函数,但是由于参与估计的样本量极少,而不同方法侧重于样本的不同方面,从而导致估计的结果不同。由于不知道真实的价值函数,也不知道具体的应用情形,很难说哪种方法的收敛速度会更快。能发现的是,在样本量小的情况下,由于
Problem 2
记发生
样本值
期望