- 博客(13)
- 资源 (1)
- 收藏
- 关注
原创 强化学习事后经验回放Hindsight Experience Replay
目标重标记(Goal Relabeling)**将失败经验转化为有效训练数据,显著提升样本效率。Hindsight Experience Replay(HER)是强化学习中解决**稀疏奖励(Sparse Reward),将稀疏奖励问题转化为密集奖励问题,是解决复杂环境探索难题的高效方法。:采用DQN的标准双网络设计(在线网络+目标网络)来稳定训练。将原始经验和新生成的经验共同用于训练,使智能体学习。”,这一思想在机器人控制、游戏AI等领域广泛应用。智能体与环境交互,存储经验元组。,同时解决稀疏奖励问题。
2025-04-02 11:19:44
566
原创 强化学习-分层强化学习Options框架
Options Framework 通过分层抽象,将复杂任务分解为可管理的子任务,显著提升了强化学习在长周期、稀疏奖励场景下的性能。它是分层强化学习(HRL)的核心方法之一,也是解决复杂决策问题的重要工具。它的核心思想是将复杂的任务分解为多个子任务(称为。),每个 Option 可以看作一个可重用的“技能”或“子策略”,允许智能体在不同时间尺度上进行决策。,让智能体在更高层次上规划(选择 Option),在低层次上执行具体动作,从而简化学习过程。
2025-04-02 11:16:11
427
原创 强化学习PPO算法
PPO的提出是为了解决传统策略梯度方法的。,在保证训练稳定性的同时简化了实现,成为目前最主流的强化学习算法之一。其核心思想是限制策略更新的幅度,避免因单次更新过大导致策略性能崩溃。(Importance Sampling),在保证训练稳定性的同时简化了实现。是优势函数(Advantage Function),衡量动作的好坏。通过梯度上升更新参数 (\theta),确保策略更新在可控范围内。同时给出PPO的代码
2025-04-01 22:45:49
670
原创 强化学习系列之强化学习基础
强化学习(reinforcement learning,RL)讨论的问题是智能体(agent)怎么在复杂、不确定的环境(environment)中最大化它能获得的奖励。如图 1.1 所示,强化学习由两部分组成:智能体和环境。在强化学习过程中,智能体与环境一直在交互。智能体在环境中获取某个状态后,它会利用该状态输出一个动作 (action),这个动作也称为决策(decision)。然后这个动作会在环境中被执行,环境会根据智能体采取的动作,输出下一个状态以及当前这个动作带来的奖励。
2025-03-10 22:09:36
745
原创 MMD和领域自适应学习
MMD 最大均值差异是一种基于核函数的分布差异度量方法,通过计算两个分布在 RKHS 中的均值嵌入距离来衡量它们的差异。它在领域自适应、生成模型评估和两样本检验等任务中具有广泛的应用。同时介绍MMD在领域迁移的应用,并提供pytorch代码demo
2025-03-06 11:34:59
929
原创 变分自编码器VAE的后验坍缩/posterior collapse
变分自编码器VAE模型存在的后验坍缩/模式崩溃/posterio collapse问题,原因以及解决方案
2025-01-06 14:57:48
756
原创 Tranformer模型详解及源码阅读
详细介绍了transformer的各个模块,并思考各个模块为何这么设计。Position Encoding为什么是正余弦函数的形式?如何对位置进行编码?Position Encoding和Position Embedding的区别?为什么不乘以缩放因子容易落入梯度饱和区?
2024-05-23 22:14:45
1518
1
原创 记一次pyspark数据倾斜引起OOM的解决方案
记录了一次spark报错beyond the 'PHYSICAL' memory limit. Current usage: 11.0 GB of 11 GB physical memory used的解决过程,主要原因是数据倾斜,通过增加并行度的方式解决了数据倾斜问题
2023-05-08 22:00:32
628
1
原创 在个人PC上搭建jupyter服务并配置远程访问
为了成为一名优秀的炼丹师,最近配了台性能不错的主机,但苦于经常不在家,主机基本处于吃灰状态。因此,综合网上各种资料,在主机上安装jupyter并配置远程访问,能方便我随时随地远程使用。以下为配置教程,供大家参考。
2023-04-08 16:02:31
6241
4
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人