
强化学习
文章平均质量分 64
chp的博客
这个作者很懒,什么都没留下…
展开
-
强化学习—(最优)贝尔曼方程推导以及对(最优)动作价值函数、(最优)状态价值函数的理解
这里的大写字母代表具有随机性,小写字母表示已经被观测,没有随机性。能得到的价值中最高的,因为我们的策略是最优的。能得到的价值,这个价值一定是各种策略下在状态。求期望,消除了这些状态和动作的随机性。表示当前的策略是最优的情况下,在状态。表示在最优策略下,最高的最优动作价值。的好坏,算期望消除了动作的随机性。的确定函数(最好的那个动作),所以。有关,动作价值函数是回报的期望。有关,是用来评估,在当前策略。是 reward:奖励,,讲的很好,通俗易懂。原创 2023-07-30 16:06:08 · 1343 阅读 · 0 评论 -
Pytorch中常用的损失函数
Pytorch中常用的损失函数原创 2023-03-02 19:42:53 · 639 阅读 · 0 评论 -
Pytorch搭建神经网络的小案例
Pytorch搭建神经网络的小案例原创 2023-03-02 11:02:56 · 251 阅读 · 0 评论 -
表格形式的Q_learning算法+经验回放
表格形式的Q_learning算法+经验回放原创 2023-03-01 10:28:31 · 335 阅读 · 0 评论 -
表格形式的Sarsa与Q_learning算法
表格形式的Sarsa与Q_learning算法原创 2023-02-28 20:31:17 · 299 阅读 · 0 评论 -
LaTeX学习笔记
LaTeX(LATEX,音译“拉泰赫”)是一种基于ΤΕΧ的排版系统,由美国计算机学家莱斯利·兰伯特(Leslie Lamport)在20世纪80年代初期开发,利用这种格式,即使使用者没有排版和程序设计的知识也可以充分发挥由TeX所提供的强大功能,能在几天、甚至几小时内生成很多具有书籍质量的印刷品。对于生成复杂表格和数学公式,这一点表现得尤为突出。因此它非常适用于生成高印刷质量的科技和数学类文档。这个系统同样适用于生成从简单的信件到完整书籍的所有其他种类的文档。原创 2023-02-03 09:50:21 · 1356 阅读 · 0 评论 -
对近似算法概念的学习
适用于组合优化问题,一般是多项式时间的算法原创 2023-01-04 16:17:44 · 1152 阅读 · 2 评论 -
Q-learning表格形式简易代码实现(一)
Q-learning表格形式简易代码实现原创 2022-11-29 20:27:46 · 415 阅读 · 0 评论