Feiones

V1

2021/10/09阅读:50主题:默认主题

强化学习笔记4

强化学习笔记4

贝尔曼最优方程

首先我们写出贝尔曼期望方程:

在介绍贝尔曼最优方程前首先引入最优价值函数的概念。

  • 最优状态值函数:
  • 最优动作值函数:

能够使得 到达最大的策略 ,我们称其为最优策略,而这样的策略可能不止一个。 定义

我们可以较为容易的得到

  • .

为了理解这个不等式,我们举个例子,如图,假设当前在 状态,那么就会有三个动作值函数:

回溯图
回溯图

假设三个动作值函数的结果分别为1,2,3,则算出来的期望 恒成立,不管权重(概率)如何,该结果都成立。只有三个动作值函数都为3的时候,此时等号才会成立,即

时,实际上表明此时的策略 还有可提升的空间,则此时的 就不是最优的策略。因此只有当 时,此时的 才是一个最优的策略。因此当一个策略 是最优策略的时候,从直觉上来说,一定有

  • 。 因此

进一步可以得到:

上述两个式子即为贝尔曼最优方程。

分类:

人工智能

标签:

人工智能

作者介绍

Feiones
V1