练习题解答 第 2 章 练习题 强化学习所解决的问题一定要严格满足马尔可夫性质吗?请举例说明。 $\qquad$ 答:不一定。例如在围棋游戏场景中,不仅需要考虑当前棋子的位置,还需要考虑棋子的历史位置,因此不满足马尔可夫性质。但依然可以使用强化学习的方法进行求解,例如在 $\text{AlphaGO}$ 论文中使用了蒙特卡洛树搜索算法来解决这个问题。在一些时序性场景中,也可以通过引入记忆单元来解决这个问题,例如在 $\text{DQN}$ 算法中,使用了记忆单元来存储历史状态,从而解决了这个问题,尽管它也不满足马尔可夫性质。 马尔可夫决策过程主要包含哪些要素?