强化学习笔记4

贝尔曼最优方程

首先我们写出贝尔曼期望方程：

在介绍贝尔曼最优方程前首先引入最优价值函数的概念。

能够使得到达最大的策略，我们称其为最优策略，而这样的策略可能不止一个。定义。

我们可以较为容易的得到

为了理解这个不等式，我们举个例子，如图，假设当前在状态，那么就会有三个动作值函数:

假设三个动作值函数的结果分别为1,2,3，则算出来的期望恒成立，不管权重（概率）如何，该结果都成立。只有三个动作值函数都为3的时候，此时等号才会成立，即。

当时，实际上表明此时的策略还有可提升的空间，则此时的就不是最优的策略。因此只有当时，此时的才是一个最优的策略。因此当一个策略是最优策略的时候，从直觉上来说，一定有

进一步可以得到：

上述两个式子即为贝尔曼最优方程。