标签：强化学习

强化学习作业 7

强化学习 Problem 1 表示在策略下从任意状态出发根据策略进行一步动作后的期望回报，与具体的等无关。表示在策略下从任意状态触发走步的期望回报，由于与无关，所以求和只是将个相同的期望回报相加，结果是个相同的期望回报的和。表示在时刻，采用策略从任意状态出发根据策略进行一步动作后的期望回报，与策略和在这个策略下时的分布有关...

发布于 2024-05-04

强化学习作业 6

强化学习 Problem 1 - 线性 VFA 与 Q-Learning Problem 2 - 线性 VFA 与 Bellman 算子

发布于 2024-04-15

强化学习作业 5

强化学习 Problem 1 - 动作价值的学习与 Off-Policy Question 1 Question 2 对于对于对于 Question 3 对于对于对于 Question 4 Question 5 因为状态价值直接与策略有关。在 Bellman 方程中，状态价值需要用策略对下一步的状态价值加权求和，与的分布有关，若 ...

发布于 2024-04-14

强化学习作业 4

强化学习 Problem 1 Method First-Visit MC Incremental First Visit MC TD(0) 2-Step TD graph LR; A--->|a1,R=0|T; B--->|a1,R=0|A; C--->|a1,R=0|B; ...

发布于 2024-03-20

强化学习作业 3

强化学习 Problem 1 对应于从 S 出发的单源最短路问题。容易得到一种最优策略最优策略不唯一。 Problem 2 构建矩阵 12345n = 4;m = 4;id[i_, j_] := m (i - 1) + j;row[idx_] := Quotient[idx - 1, m] + 1;col[idx_] :...

发布于 2024-03-17

强化学习作业 1

强化学习 Problem 1 有问题。从人的经验来看，仅仅依靠位置信息不能做出是否加减速、转弯的决策，关于是否有障碍、障碍的位置、移动速度、自身的方向和速度等信息都应该纳入状态之中作为决策依据。 Problem 2 考虑为乘除法的回报设置更大的权重，和 / 或衰减已经大量练习的题目的回报 Problem 3 井字棋比较简单，总状态数不多，翻出旧代码来按照题意做一个简单的概率 DP 即可...

发布于 2024-03-07

强化学习作业 2

强化学习 Problem 1 状态价值的 Bellman 期望方程在本问题中, 展开得到关于的方程组即其中表示在向左走的概率。求解线性方程组即可得到各个状态价值。容易得到方程组的解是注意到时，取最大值，事实上，这就是最优策略，此时除了的所有状态的最优价值都是 10. 正常的考虑，右端的收益大于左端，并且风再大也不会导致倒退，顶多原地不动，所以总是贪...

发布于 2024-03-07