
强化学习
文章平均质量分 76
舔甜歌姬的EGUMI LEGACY
你好,你想度過怎樣的一段人生?
因爲興趣,所以喜歡。
展开
-
【强化学习】parl使用之——parl快速入门:解决CartPole问题
解决CartPole问题CartPole又叫。小车上放了一根杆,杆会因重力而倒下。为了不让杆倒下,我们要通过移动小车,来保持其是直立的。如下图所示。在每一个时间步,模型的输入是一个4维的向量,表示当前小车和杆的状态,模型输出的信号用于控制小车往左或者右移动。当杆没有倒下的时候,每个时间步,环境会给1分的奖励;当杆倒下后,环境不会给任何的奖励,游戏结束。原创 2025-04-20 23:43:05 · 362 阅读 · 0 评论 -
【YOLO11实战】NEU-DET,钢材缺陷识别实战
手动把Annotation和images划分成train数据集和valid数据集,我的valid数据集是 随机选的一些数据。使用的python版本是3.8.10。运行后,labels里面得到。然后新建一个train.py。验证集通过模型识别到的。原创 2025-04-15 01:13:52 · 377 阅读 · 0 评论 -
【强化学习-蘑菇书-3】马尔可夫性质,马尔可夫链,马尔可夫过程,马尔可夫奖励过程,如何计算马尔可夫奖励过程里面的价值
文章是根据,网络查找资料和汇总,以及新版本的python编写的可运行代码和示例,包含了一些自己对书内容的简单理解。原创 2025-04-13 19:39:05 · 866 阅读 · 0 评论 -
【强化学习-蘑菇书-2】通过具体的例子来学习如何与 Gym 库进行交互——小车上山(MountainCar-v0)
使用 env=gym.make(环境名)取出环境,使用 env.reset()初始化环境,使用 env.step(动作)执行一步环境,使用 env.render()显示环境,使用 env.close()关闭环境.原创 2025-04-12 18:48:38 · 308 阅读 · 0 评论 -
【强化学习-蘑菇书-1】使用gym,和我一起开始强化学习的入门课程吧!
我们还可以得到观测:小车当前的位置,小车当前往左、往右移的速度,杆的角度以及杆的最高点(顶端)的速度。这里有奖励的定义,如果能多走一步,我们就会得到一个奖励(奖励值为 1),所以我们需要存活尽可能多的时间来得到更多的奖励。当杆的角度大于某一个角度(没能保持平衡),或者小车的中心到达图形界面窗口的边缘,或者累积步数大于 200,游戏就结束了,我们就输了。观测空间和动作空间可以是离散的(取值为有限个离散的值),也可以是连续的(取值为连续的值)。以及新版本的gym编写的可运行代码和示例,原创 2025-04-12 18:16:21 · 274 阅读 · 0 评论