微分方程数值解作业 3

微分方程 Problem 1 Question (a) Assume (3.30) and substitute it into (3.51) With setting , we have Collecting terms with and on each side, we have Use the identity , we have Then use , we can g...

发布于 课程

强化学习作业 6

强化学习 Problem 1 - 线性 VFA 与 Q-Learning Problem 2 - 线性 VFA 与 Bellman 算子

发布于 课程

强化学习作业 5

强化学习 Problem 1 - 动作价值的学习与 Off-Policy Question 1 Question 2 对于 对于 对于 Question 3 对于 对于 对于 Question 4 Question 5 因为状态价值直接与策略有关。在 Bellman 方程中,状态价值需要用策略对下一步的状态价值加权求和, 与 的分布有关,若 ...

发布于 课程

矩阵分析作业 2

矩阵分析 Problem 1 若 , 则 是否相同? 证明之. 不妨设 . 考虑 的 QR 分解形式 Q 是 方阵满足 , R 是 上三角矩阵. 则 而 由于 是上三角阵, 则能做有限次的初等列变换将 化为对角阵, 即存在可逆矩阵 使得 是对角阵. 于是 所以 . 同理可证 . 所以 . Problem 2 若 , 证明 和 的非零特征值相同. 的非零特...

发布于 课程

微分方程数值解作业 2

微分方程 Problem 1 To solve (2.4) We can always obtain the equation at non-boundary positions, The above FDE approximation has an error of Question (a) The first condition and in Eqn. becomes F...

发布于 课程

强化学习作业 4

强化学习 Problem 1 Method First-Visit MC Incremental First Visit MC TD(0) 2-Step TD graph LR; A--->|a1,R=0|T; B--->|a1,R=0|A; C--->|a1,R=0|B; ...

发布于 课程

强化学习作业 3

强化学习 Problem 1 对应于从 S 出发的单源最短路问题。容易得到一种最优策略 最优策略不唯一。 Problem 2 构建 矩阵 12345n = 4;m = 4;id[i_, j_] := m (i - 1) + j;row[idx_] := Quotient[idx - 1, m] + 1;col[idx_] :...

发布于 课程

微分方程数值解作业 1

微分方程 Problem 1 20240310164541 The interpolating linear function: Substitute into (1.56) Solve the 2nd order FDE Assume There is always one solution , therefore the method is not A-stable. Th...

发布于 课程

强化学习作业 1

强化学习 Problem 1 有问题。从人的经验来看,仅仅依靠位置信息不能做出是否加减速、转弯的决策,关于是否有障碍、障碍的位置、移动速度、自身的方向和速度等信息都应该纳入状态之中作为决策依据。 Problem 2 考虑为乘除法的回报设置更大的权重,和 / 或衰减已经大量练习的题目的回报 Problem 3 井字棋比较简单,总状态数不多,翻出旧代码来按照题意做一个简单的概率 DP 即可...

发布于 课程

强化学习作业 2

强化学习 Problem 1 状态价值的 Bellman 期望方程 在本问题中, 展开得到关于 的方程组 即 其中 表示在 向左走的概率。求解线性方程组即可得到各个状态价值。容易得到方程组的解是 注意到 时, 取最大值 ,事实上,这就是最优策略,此时除了 的所有状态的最优价值都是 10. 正常的考虑,右端的收益大于左端,并且风再大也不会导致倒退,顶多原地不动,所以总是贪...

发布于 课程
12312