自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 资源 (1)
  • 收藏
  • 关注

原创 强化学习事后经验回放Hindsight Experience Replay

目标重标记(Goal Relabeling)**将失败经验转化为有效训练数据,显著提升样本效率。Hindsight Experience Replay(HER)是强化学习中解决**稀疏奖励(Sparse Reward),将稀疏奖励问题转化为密集奖励问题,是解决复杂环境探索难题的高效方法。:采用DQN的标准双网络设计(在线网络+目标网络)来稳定训练。将原始经验和新生成的经验共同用于训练,使智能体学习。”,这一思想在机器人控制、游戏AI等领域广泛应用。智能体与环境交互,存储经验元组。,同时解决稀疏奖励问题。

2025-04-02 11:19:44 566

原创 强化学习-分层强化学习Options框架

Options Framework 通过分层抽象,将复杂任务分解为可管理的子任务,显著提升了强化学习在长周期、稀疏奖励场景下的性能。它是分层强化学习(HRL)的核心方法之一,也是解决复杂决策问题的重要工具。它的核心思想是将复杂的任务分解为多个子任务(称为。),每个 Option 可以看作一个可重用的“技能”或“子策略”,允许智能体在不同时间尺度上进行决策。,让智能体在更高层次上规划(选择 Option),在低层次上执行具体动作,从而简化学习过程。

2025-04-02 11:16:11 427

原创 强化学习GAE优势函数

强化学习优势函数广义优势估计GAE原理和代码

2025-04-01 22:58:52 757

原创 强化学习PPO算法

PPO的提出是为了解决传统策略梯度方法的。,在保证训练稳定性的同时简化了实现,成为目前最主流的强化学习算法之一。其核心思想是限制策略更新的幅度,避免因单次更新过大导致策略性能崩溃。(Importance Sampling),在保证训练稳定性的同时简化了实现。是优势函数(Advantage Function),衡量动作的好坏。通过梯度上升更新参数 (\theta),确保策略更新在可控范围内。同时给出PPO的代码

2025-04-01 22:45:49 670

原创 强化学习系列之强化学习基础

强化学习(reinforcement learning,RL)讨论的问题是智能体(agent)怎么在复杂、不确定的环境(environment)中最大化它能获得的奖励。如图 1.1 所示,强化学习由两部分组成:智能体和环境。在强化学习过程中,智能体与环境一直在交互。智能体在环境中获取某个状态后,它会利用该状态输出一个动作 (action),这个动作也称为决策(decision)。然后这个动作会在环境中被执行,环境会根据智能体采取的动作,输出下一个状态以及当前这个动作带来的奖励。

2025-03-10 22:09:36 745

原创 MMD和领域自适应学习

MMD 最大均值差异是一种基于核函数的分布差异度量方法,通过计算两个分布在 RKHS 中的均值嵌入距离来衡量它们的差异。它在领域自适应、生成模型评估和两样本检验等任务中具有广泛的应用。同时介绍MMD在领域迁移的应用,并提供pytorch代码demo

2025-03-06 11:34:59 929

原创 VAE变分自编码器直观理解

本文介绍了VAE的直观理解,不需要数学基础也能看懂的VAE变分自编码器原理

2025-01-06 21:40:37 794

原创 变分自编码器VAE的后验坍缩/posterior collapse

变分自编码器VAE模型存在的后验坍缩/模式崩溃/posterio collapse问题,原因以及解决方案

2025-01-06 14:57:48 756

原创 PLE多任务学习模型

腾讯推荐系统多任务学习,Shared Bottom, MoE, MMOE, PLE

2024-11-25 22:06:26 887

原创 因果推断-双重稳健估计

因果推断双重稳健估计

2024-11-25 21:18:57 1469

原创 Tranformer模型详解及源码阅读

详细介绍了transformer的各个模块,并思考各个模块为何这么设计。Position Encoding为什么是正余弦函数的形式?如何对位置进行编码?Position Encoding和Position Embedding的区别?为什么不乘以缩放因子容易落入梯度饱和区?

2024-05-23 22:14:45 1518 1

原创 记一次pyspark数据倾斜引起OOM的解决方案

记录了一次spark报错beyond the 'PHYSICAL' memory limit. Current usage: 11.0 GB of 11 GB physical memory used的解决过程,主要原因是数据倾斜,通过增加并行度的方式解决了数据倾斜问题

2023-05-08 22:00:32 628 1

原创 在个人PC上搭建jupyter服务并配置远程访问

为了成为一名优秀的炼丹师,最近配了台性能不错的主机,但苦于经常不在家,主机基本处于吃灰状态。因此,综合网上各种资料,在主机上安装jupyter并配置远程访问,能方便我随时随地远程使用。以下为配置教程,供大家参考。

2023-04-08 16:02:31 6241 4

SQL server 2008教程

高清SQL教程,以图书管理系统作为引导,介绍SQL server的主要内容

2018-01-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除