
强化学习
文章平均质量分 95
介绍了什么是强化学习,智能体如何做出序贯决策,强化学习的各种算法以及代码实现
解忧AI铺
这个作者很懒,什么都没留下…
展开
-
强化学习中,step、episode和epoch三者的区别和联系
强化学习中,step、episode和epoch三者的区别和联系原创 2025-05-13 12:39:51 · 597 阅读 · 0 评论 -
DQN 算法
DQN代码实战原创 2025-01-02 09:37:49 · 893 阅读 · 0 评论 -
时序差分算法
时序差分算法,无模型的强化学习中的两大经典算法:Sarsa 和 Q-learning,它们都是基于时序差分(temporal difference,TD)的强化学习算法原创 2024-12-19 21:13:36 · 1022 阅读 · 0 评论 -
动态规划算法
动态规划算法原创 2024-12-19 17:22:37 · 1024 阅读 · 0 评论 -
马尔可夫决策过程
马尔可夫决策过程的基本过程和概念原创 2024-12-17 15:45:40 · 2751 阅读 · 0 评论 -
多臂老虎机(强化学习中的探索与利用)
多臂老虎机可以看做无状态的强化学习原创 2024-11-25 15:35:56 · 1857 阅读 · 0 评论 -
强化学习介绍
介绍强化学习是什么,与之前接触的有监督学习有什么区别原创 2024-11-05 16:43:19 · 1247 阅读 · 0 评论