Loading...
墨滴

Feiones

2021/10/08  阅读:19  主题:默认主题

强化学习笔记3

强化学习笔记3

贝尔曼期望方程

价值函数:

前面我们说道价值函数: 。 更为准确地称之为状态值函数,主要是衡量一个 到底怎么样,由公式我们也可以看到对于每一个状态 ,都对应一个 ,有多少个 ,就有多少个 ,两者是一一对应的,此外从公式也可以看出状态值函数只与状态有关。

下面定义一个新的值函数,称之为动作值函数 我们可以观察到动作值函数和状态值函数唯一的区别是多了策略 是可以任取的,例如给定 ,可以有: 三个动作值函数,两者的区别可以简单开阔如下:

回溯图
回溯图
  • 状态值函数是指在状态 下,将所有策略(动作 )都执行一遍获得的期望。
  • 动作值函数是在状态 下执行策略后计算得到的期望。

那么这里可能有人会问,为什么是期望?这个期望是哪里来得?接下来就解释为什么是期望,这个期望如何而来。 如回溯图,假设动作取 ,实际上 具有三种情况,每一种情况都对应一个价值函数,因此和状态值函数一样,动作值函数也需要取期望值,也就是加权平均,而这个所谓的权对应的就是每一种情况的概率。

状态值函数和动作值函数之间的关系

是给定状态 下期望的回报( ),以回溯图为例,给定状态 下,有三种选择,对应的概率分别记为:

, 当选择 时的动作价值即为 ,同理选择 对应的动作价值分别为 。因此, 进一步,可将状态值函数写为: ,其中 表示可选的动作集合。

回溯图2
回溯图2

进一步将回溯图补充如上,用 表示 时的状态值函数,我们可以进一步推断得出 具有一定的关系。值得注意的是奖励 也是具有随机性的,比如第一次到 状态获得的 是1,第二次到 状态获得的 是0.5。因此给定 , 。 就是在动作 之后到达 ,但是到达 后得到的奖励 具有随机性,我们要讲每一种情况都计算在内。到达 状态后我们可以得到 的状态值函数 ,注意,这里我们需要计算折扣后的状态值函数,因为整个过程是连续的,是从 状态往下走的,不考虑前面的状态只考虑后面的状态,且离当前状态越远的状态对其影响越小,因此需要加上折扣因子。即此时根据某一个 到达 获得的回报记为 ,而根据 到达的 状态不止一个,且到达某一个 状态得到的奖励 也不止一个,因此需要求期望。

通过上述的 可以得到:

以上两个公式就是所谓的贝尔曼期望方程。

Feiones

2021/10/08  阅读:19  主题:默认主题

作者介绍

Feiones