
强化学习
文章平均质量分 93
本专栏主要介绍强化学习相关理论知识以及案例实战内容
抱抱宝
阿里云专家博主|研究方向:大数据分析、数据挖掘、深度强化学习、运筹优化、数学建模等。
展开
-
强化学习之课程学习法
课程学习是一种有计划的学习方法,模拟人类学习的过程。它通过设置逐步增加难度的任务序列,让学习系统从简单的任务开始,逐渐过渡到复杂任务。这一方法可以显著提高训练效率,避免智能体一开始就面临过于复杂的任务,从而导致学习过程困难。逐步难度增加:从简单的任务开始,逐步增加任务的难度,直到智能体能够解决最复杂的任务。动态调整:根据智能体的学习进展,动态调整任务的难度,保证学习的过程始终处于一个适当的挑战性范围。原创 2024-11-08 16:31:03 · 1550 阅读 · 2 评论 -
强化学习之SAC算法
强化学习之SAC算法实战原创 2024-10-16 16:21:52 · 1726 阅读 · 0 评论 -
强化学习之PPO算法
强化学习之PPO算法实战原创 2024-10-16 16:20:00 · 1042 阅读 · 0 评论 -
强化学习之DDPG算法
强化学习之DDPG算法实战原创 2024-10-16 16:17:14 · 1158 阅读 · 1 评论 -
强化学习之DQN算法
强化学习之DQN算法实战原创 2024-10-16 16:14:30 · 1468 阅读 · 0 评论 -
强化学习之Q-learning算法
强化学习之Q-learning算法原创 2024-10-15 16:55:32 · 1179 阅读 · 0 评论 -
强化学习之动态规划
强化学习之动态规划原创 2024-10-15 16:35:33 · 1413 阅读 · 0 评论 -
强化学习之马尔科夫决策
强化学习之马尔科夫决策原创 2024-10-15 16:22:48 · 768 阅读 · 0 评论 -
在MDP环境下训练强化学习智能体
本文示例展示了如何训练Q-learning智能体来解决一般的马尔可夫决策过程(MDP)环境。有关这些智能体的更多信息,请参阅Q-Learning智能体。原创 2023-10-30 11:44:45 · 570 阅读 · 0 评论 -
Q-learning智能体
Q-learning算法是一种无模型、在线、非策略的强化学习方法。Q-learning算法是一种基于价值的强化学习算法,它训练一个评价网络去估计回报或未来奖励。对于给定的观测值,智能体选择并输出估计收益最大的动作。注:Q-learning算法不支持循环网络。Q-learning智能体可以在具有以下观察和动作空间的环境中进行训练。Q-learning使用如下的评价网络:在训练过程中,智能体使用贪心策略探索来探索动作空间。在每个控制区间内,agent随机选择一个概率为ϵ。原创 2023-10-26 11:23:01 · 155 阅读 · 0 评论 -
Gymnasium的基本用法
等。和,下面的基本用法将介绍这些功能。原创 2023-10-24 19:43:37 · 822 阅读 · 0 评论 -
多臂老虎机问题
多臂老虎机问题原创 2023-04-26 13:26:55 · 1392 阅读 · 1 评论 -
初探强化学习
强化学习基本介绍原创 2023-04-21 18:14:19 · 1218 阅读 · 0 评论