深度强化学习核心算法与应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1 马尔可夫性

一个系统满足马尔可夫性[26],是指系统的下一个状态只与当前状态信息有关,而与更早之前的状态无关。从数学上来说,当且仅当以下式子成立的时候,一个状态才是满足马尔可夫性的:

那么一个随机过程满足马尔可夫过程的条件是,在这个过程中的所有状态都是符合马尔可夫性的,即对于状态集合S中的任意两个状态ss,其状态转移概率都满足:

更进一步,在马尔可夫过程基础上,引入动作,即状态的转移与动作的影响有关,则成为马尔可夫决策过程,上式就转成

简单来说,马尔可夫链是定义[32],而马尔可夫决策过程中状态的转移是要通过动作来执行的。当状态不是完全可观测的时候,马尔可夫过程和马尔可夫决策过程就分别转化为隐马尔可夫模型(Hidden Markov Model)和部分可观测马尔可夫决策过程(Partially Observable Markov Decision Process,POMDP)。在本书中,我们讨论的主要是状态完全可观测的情况,有隐藏状态的决策过程通常会更加复杂。