打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
马尔可夫属性,链,奖励过程和决策过程

马尔可夫属性

如果我们的状态表示和拥有完整的历史一样有效,那么我们说我们的模型满足了Markov属性的需求。

举个例子来说明这一点,想想玩井字游戏。当我们能够根据当前状态作出决定,而不是需要了解整个历史,那么我们就说我们满足了马尔可夫属性的条件。

或者更笼统地说:

'未来与过去无关'

我们说,我们可以从一个马尔可夫状态s出发

通过定义状态转换概率来定义继任状态,这是由

马尔可夫过程或马尔可夫链

马尔科夫过程是一个无记忆的随机过程,我们采用一系列满足马尔可夫属性要求的随机状态。或者定义:

马尔可夫过程是一个tuple ,其中:

  • S是(有限的)一组状态

  • P是状态转移概率矩阵,Pss'= P [St + 1 = s'| St = s]

我们的P矩阵写成:

矩阵的每一行总和为1。

我们用一个例子来说明这一点。假设我们想要表示天气状况。我们如何预测接下来几天的天气?

当我们有这个转换矩阵时:

然后我们可以看到,在当前晴天,我们将有90%的机会在阳光明媚的日子之后,而当我们有一个下雨天时,有50%的机会在下雨天。

将此图表示为图表会导致:

马尔科夫奖励流程(MRP)

就像我们在强化学习中所做的那样,做出决定的事实。我们介绍一种叫做“reward”的东西。这将帮助我们根据当前的环境和我们将获得的回报来选择行动。

马尔科夫奖励过程是原始马尔可夫过程的延伸,但增加了奖励。写在一个定义:

马尔可夫奖励过程是一个元组其中:

  • S是(有限的)一组状态

  • P是状态转移概率矩阵,Pss'= P [St + 1 = s'| St = s]

  • R是奖励函数,Rs = E [rt + 1 | St = s]

  • γ是折扣因子,γ∈[0,1]

这意味着我们将增加去某些状态的奖励。当我们将这个映射到我们的雏形示例上时:

通过增加这个奖励,我们可以找到一个最优的路径,在我们处于决定的时候。让我们想象我们可以在这里扮演上帝,你会走哪条路?我们想试着走那条一直都是“阳光”的道路,但是为什么呢?因为这意味着我们会得到尽可能高的回报。

返回

但我们如何计算我们将获得的完整回报?那么这是由下面的公式表示:

然而,这会导致一些问题:

  • 我们倾向于停止探索(我们每次选择奖励最高的选项)

  • 循环马尔可夫过程中的无限回报的可能性

这就是为什么我们添加了一个称为折扣因子的新因素。这个因素会减少我们随着时间的推移采取同样行动的奖励。将这添加到我们的原始公式中会导致:

马尔可夫决策过程(MDP)

马尔科夫决策过程是一个包含决策的马尔可夫奖励过程。这是一个所有状态都是马尔科夫的环境。

我们现在可以最终确定我们的定义:

马尔可夫决策过程是一个元组其中:

  • S是(有限的)一组状态

  • A是一组有限的行为

  • P是状态转移概率矩阵,Pass'= P [St + 1 = s'| St = s,At = a]

  • R是奖励函数,R = E [rt + 1 | St = s,At = a]

  • γ是折扣因子,γ∈[0,1]

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
新高考视角下 与马尔科夫链和随机游走相关的概率递推问题
马尔科夫预测法在体育彩票“排列三”中的应用
HMM原理及应用
马尔可夫链 ▏小白都能看懂的马尔可夫链详解
​马尔可夫性质和马尔可夫链的一个直观且简单的解释
隐马尔可夫模型(HMM)攻略
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服