上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
免费读全文
上一章
目录
下一章
1.3 值函数
从回报出发,我们可以进一步定义在某个状态
s
可以获得的长期回报的期望值,这个值通常被称为状态值函数(V值):
而在某个状态
s
做动作
a
可以获得的长期回报的期望值,通常被称为动作值函数(Q值):
上一章
目录
下一章