Bellman方程求解

部署运行你感兴趣的模型镜像

这部分内容,由于所看书籍的精彩易懂的讲解,所以将图片放入:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
策略梯度的两种理解:

  1. 策略梯度在经过图3.9之后,不需要像3.6, 3.7那样求贝尔曼方程,而是直接到达表3.8,然后找出新的策略,与随机策略进行比较,然后更新。

  2. 策略梯度在进行随机化策略 (A->0, B->1, C->0) 之后,根据表3.5计算出来Q(A,0),Q(B,1),Q(C,0)来到达表3.9,判断3.9与初始的表之差是否在阈值之内,如果不在,按照策略 (A->0, B->1, C->0),根据表3.5计算Q(A,0),Q(B,1),Q(C,0)生成新的值表,再进行判断。当条件满足的时候,到达表3.8,找到新的策略。当策略不发生变化时,即为最优策略。

第一种理解是根据上图的字面意思,第二种理解是根据程序。目前比较赞成第二种理解方法。

您可能感兴趣的与本文相关的镜像

Dify

Dify

AI应用
Agent编排

Dify 是一款开源的大语言模型(LLM)应用开发平台,它结合了 后端即服务(Backend as a Service) 和LLMOps 的理念,让开发者能快速、高效地构建和部署生产级的生成式AI应用。 它提供了包含模型兼容支持、Prompt 编排界面、RAG 引擎、Agent 框架、工作流编排等核心技术栈,并且提供了易用的界面和API,让技术和非技术人员都能参与到AI应用的开发过程中

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值