AI学习笔记——求解最优MDP

  • 时间:
  • 浏览:0
  • 来源:uu快3官网app_uu快3豹子赚钱

用同样的法子能不还可否验证每一个多 情况表的V函数。

上一篇文章介绍了MDP的基本概念,如何让让让我们 更关心的是如何寻找到最佳的路径处置MDP大难题。MDP过程中,能不还可否算是数种策略(policy),找到最佳的路径实际上可是我 找到最佳的Policy 来最大化V函数(Value Function)机会Q函数(Action-Value Function)。

还记得上一篇文章中的那个例子吗?学生学习的的情况表有Facebook, Class1, Class2, Pass, Sleep 6个情况表(State),每个情况表不还可否 一个多 机会多个行动(Action)。最优的V函数和Q函数都已求出来了,找到最优策略可是我 找到最大q*的过程。显然红色的路径可是我 最优策略,不还可否沿着这条路径不还可否的到最大的奖励。

其中加星号* 的v和q表示最优的v和q。

同样的,用Bellman 等式能不还可否得到最优V函数和最优Q函数的关系,以及让让我们 个人的递归关系:

同样的用Bellman等式,让让我们 能不还可否验证为那些V(Pass) = 10.

如何让遗憾的是最优Ballman等式并不还可否 线性的,许多许多不还可否直接通过解线性方程的法子求得。如何让能不还可否通过许多迭代算法求得,就让的Q-Learning和Sarsa 算法可是我 求最优Ballman等式的算法,当然那些算法也可是我 强化学习的算法了。

当然让让我们 现在不还可否验证,无法真正求解最优V函数和Q函数,机会能求解最优Ballman 等式让让我们 就能得到最优的V函数和Q函数进而得到最优的策略。

Pass 这些情况表一个多多 行动,分别为Study和Pub。Study 对应一个多 情况表Sleep,Pub对应一个多 情况表Class1, Class2, 和 Pass。越来越假设γ=1

V(Pass) = Max{+10+0,+1+(0.2x6 + 0.48 + 0.410)} = Max{10, 8.6} = 10。

用数学表达式表达出来可是我 :

文章首发steemit.com 为了方便墙内阅读,搬运至此,欢迎留言机会访问我的Steemit主页