深度强化学习核心算法与应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3 值函数

从回报出发,我们可以进一步定义在某个状态s可以获得的长期回报的期望值,这个值通常被称为状态值函数(V值):

而在某个状态s做动作a可以获得的长期回报的期望值,通常被称为动作值函数(Q值):