Loading...
墨滴

Feiones

2021/10/08  阅读:19  主题:默认主题

强化学习笔记2

强化学习笔记2

价值函数

策略: 策略可以分为确定性策略和随机性策略。

确定性策略: 指的是处于某一个状态下将会百分之白执行某一个策略,例如在状态 时将执行 策略。

随机性策略: 指的是在某一个状态下按概率执行某一个策略。如下图所示,假设当前处于 状态,此时 三个策略都有可能被采纳,执行 的概率为0.5,执行 的概率为0.3,执行 的概率为0.2,确定性策略可以看成是特殊的随机性策略,即执行 的概率为1,执行 的概率均是0。

执行的策略对应的概率
执行的策略对应的概率

回报

在介绍价值函数之前首先定义一个简单的回报 ,表示的是在状态 所能获得奖励。 表示的是折扣因子,这里 不仅仅和紧接其后的奖励 有关,还和之后的所有奖励有关,因为当前所处状态并不是终止态,该状态是到终止态的一个所要经历的状态,该状态会对接下来的所有策略的执行以及状态的转移都会产生影响,但是越往后其影响程度越小。

状态转移
状态转移

价值函数: 价值函数 定义为对 在策略 上的加权平均,即,

回溯图
回溯图

其实从状态 转移到 状态存在多种情况,我们以回溯图为例,在 时可以采取三种策略 ,每一种策略都有一定的概率被采纳,此外,采取某一测录之后可能转移到不同的三个状态。因此实际上 存在9种情况,因此需要取期望值,即对 在策略 上的加权平均,权值为执行某一个策略的概率。

Feiones

2021/10/08  阅读:19  主题:默认主题

作者介绍

Feiones