Loading...
墨滴

Feiones

2021/09/26  阅读:26  主题:默认主题

强化学习笔记1

1 强化学习笔记

最近正在学习强化学习,正好趁着这个机会将学习笔记记录下来,一是检查学习的效果,二是防止以后忘记,最后也是记录当前的理解,在以后发现若是理解有误能够加深学习的映像

马尔科夫过程

马尔科夫过程也叫作马尔科夫链,所谓的马尔科夫过程简单的理解就是状态之间的转换,且将来的状态与过去的状态没有关系,这里我们用一个经常使用的例子来说明马尔科夫过程。

学生马尔科夫链 如上图所示,图中每一个圆圈代表学生的一个状态,箭头表示是从一个状态转移到下一个状态,箭头上的数字表示的从一个状态转移到另一个状态的概率。例如 有50%的改路转移到 状态,有50%的概率转移到状态 。 从这个图中我们可以看到最终的状态是 ,也就是说当状态为 时,将不会再发生状态转移。从一个状态经过连续的转移到达最终状态有很多种情况。 如从 开始,最终变成 这个状态就存在多种情况,例如:

  • C1 - C2 - C3 - Pass - Sleep
  • C1 - FB - FB - C1 - C2 - Sleep 为了表示状态之间的转移关系,通常会用到状态转移矩阵的概念,学生马尔科夫链的状态转移矩阵可以表示如下: 转移矩阵

马尔科夫决策过程

在此之前我们先介绍马尔科夫奖励过程,实际上就是在状态转移后有一个相应的的奖励,如图所示假设 时刻处于 状态,当其在 时刻转移到状态 状态时会得到一个奖励 ,这个奖励可以是正的也可以是负的也可以为0。 马尔科夫奖励过程 马尔科夫决策过程是在马尔科夫奖励过程的基础之上加上了动作(action),如图,在状态 时执行一个动作 转移到状态 并获得奖励 马尔科夫决策过程 值得注意的是在某一个状态下,可以执行不同的动作转移到不同的状态,如图,在 转态下存在可执行三个动作,且执行不同的动作回转移到对应的状态, 状态动作转变关系 通常在一个状态下会以某一个概率来执行某个动作,例如在状态 时有50%的概率执行动作action1,30%的概率执行动作action2,20%的概率执行动作action3,所有动作执行的概率的总和为1

待续……

Feiones

2021/09/26  阅读:26  主题:默认主题

作者介绍

Feiones