1.3 值函数_深度强化学习核心算法与应用-QQ阅读男生中文玄幻网

深度强化学习核心算法与应用

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

上一章目录下一章

1.3　值函数

从回报出发，我们可以进一步定义在某个状态s可以获得的长期回报的期望值，这个值通常被称为状态值函数（V值）：

而在某个状态s做动作a可以获得的长期回报的期望值，通常被称为动作值函数（Q值）：

上一章目录下一章