自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

sjtu_wyy的博客

原创强化学习事后经验回放Hindsight Experience Replay

目标重标记（Goal Relabeling）**将失败经验转化为有效训练数据，显著提升样本效率。Hindsight Experience Replay（HER）是强化学习中解决**稀疏奖励（Sparse Reward），将稀疏奖励问题转化为密集奖励问题，是解决复杂环境探索难题的高效方法。：采用DQN的标准双网络设计（在线网络+目标网络）来稳定训练。将原始经验和新生成的经验共同用于训练，使智能体学习。”，这一思想在机器人控制、游戏AI等领域广泛应用。智能体与环境交互，存储经验元组。，同时解决稀疏奖励问题。

2025-04-02 11:19:44 566

原创强化学习-分层强化学习Options框架

Options Framework 通过分层抽象，将复杂任务分解为可管理的子任务，显著提升了强化学习在长周期、稀疏奖励场景下的性能。它是分层强化学习（HRL）的核心方法之一，也是解决复杂决策问题的重要工具。它的核心思想是将复杂的任务分解为多个子任务（称为。），每个 Option 可以看作一个可重用的“技能”或“子策略”，允许智能体在不同时间尺度上进行决策。，让智能体在更高层次上规划（选择 Option），在低层次上执行具体动作，从而简化学习过程。

2025-04-02 11:16:11 427

原创强化学习GAE优势函数

强化学习优势函数广义优势估计GAE原理和代码

2025-04-01 22:58:52 757

原创强化学习PPO算法

PPO的提出是为了解决传统策略梯度方法的。，在保证训练稳定性的同时简化了实现，成为目前最主流的强化学习算法之一。其核心思想是限制策略更新的幅度，避免因单次更新过大导致策略性能崩溃。（Importance Sampling），在保证训练稳定性的同时简化了实现。是优势函数（Advantage Function），衡量动作的好坏。通过梯度上升更新参数 (\theta)，确保策略更新在可控范围内。同时给出PPO的代码

2025-04-01 22:45:49 670

原创强化学习系列之强化学习基础

强化学习（reinforcement learning，RL）讨论的问题是智能体（agent）怎么在复杂、不确定的环境（environment）中最大化它能获得的奖励。如图 1.1 所示，强化学习由两部分组成：智能体和环境。在强化学习过程中，智能体与环境一直在交互。智能体在环境中获取某个状态后，它会利用该状态输出一个动作（action），这个动作也称为决策（decision）。然后这个动作会在环境中被执行，环境会根据智能体采取的动作，输出下一个状态以及当前这个动作带来的奖励。

2025-03-10 22:09:36 745

原创 MMD和领域自适应学习

MMD 最大均值差异是一种基于核函数的分布差异度量方法，通过计算两个分布在 RKHS 中的均值嵌入距离来衡量它们的差异。它在领域自适应、生成模型评估和两样本检验等任务中具有广泛的应用。同时介绍MMD在领域迁移的应用，并提供pytorch代码demo

2025-03-06 11:34:59 929

原创 VAE变分自编码器直观理解

本文介绍了VAE的直观理解，不需要数学基础也能看懂的VAE变分自编码器原理

2025-01-06 21:40:37 794

原创变分自编码器VAE的后验坍缩/posterior collapse

变分自编码器VAE模型存在的后验坍缩/模式崩溃/posterio collapse问题，原因以及解决方案

2025-01-06 14:57:48 756

原创 PLE多任务学习模型

腾讯推荐系统多任务学习，Shared Bottom, MoE, MMOE, PLE

2024-11-25 22:06:26 887

原创因果推断-双重稳健估计

因果推断双重稳健估计

2024-11-25 21:18:57 1469

原创 Tranformer模型详解及源码阅读

详细介绍了transformer的各个模块，并思考各个模块为何这么设计。Position Encoding为什么是正余弦函数的形式？如何对位置进行编码？Position Encoding和Position Embedding的区别？为什么不乘以缩放因子容易落入梯度饱和区？

2024-05-23 22:14:45 1518 1

原创记一次pyspark数据倾斜引起OOM的解决方案

记录了一次spark报错beyond the 'PHYSICAL' memory limit. Current usage: 11.0 GB of 11 GB physical memory used的解决过程，主要原因是数据倾斜，通过增加并行度的方式解决了数据倾斜问题

2023-05-08 22:00:32 628 1

原创在个人PC上搭建jupyter服务并配置远程访问

为了成为一名优秀的炼丹师，最近配了台性能不错的主机，但苦于经常不在家，主机基本处于吃灰状态。因此，综合网上各种资料，在主机上安装jupyter并配置远程访问，能方便我随时随地远程使用。以下为配置教程，供大家参考。

2023-04-08 16:02:31 6241 4

SQL server 2008教程

高清SQL教程，以图书管理系统作为引导，介绍SQL server的主要内容

2018-01-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

贝塔西塔优快云认证博客专家优快云认证企业博客

码龄8年

IP 属地：上海市

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

13: 原创

4万+: 周排名

6万+: 总排名

1万+: 访问

: 等级

331: 积分

575: 粉丝

192: 获赞

4: 评论

193: 收藏

私信

关注

热门文章

分类专栏

最新评论

在个人PC上搭建jupyter服务并配置远程访问
逆旅的潮汐: jupyter_notebook_config.py在哪打开的
在个人PC上搭建jupyter服务并配置远程访问
驴儿: 很赞，这个教程是我看过配置最简单，最好理解，而且帮助我跑通的，感谢博主
Tranformer模型详解及源码阅读
优快云-Ada助手: 恭喜作者撰写了第三篇博客《Tranformer模型详解及源码阅读》，内容丰富，深入浅出，让读者受益匪浅。希望作者能继续保持创作的热情和耐心，坚持分享自己的学习心得和见解。或许下一步可以考虑结合实际案例，展示Transformer模型在实际应用中的效果和优势，让读者更加直观地感受到其价值。期待作者更多精彩的作品，加油！优快云正在通过评论红包奖励优秀博客，请看红包流：https://bbs.youkuaiyun.com/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
在个人PC上搭建jupyter服务并配置远程访问
847264: 用cpolar配置好之后连接出403怎么解决
记一次pyspark数据倾斜引起OOM的解决方案
优快云-Ada助手: 非常感谢您分享这篇关于pyspark数据倾斜的解决方案的博客。您的经验和方法对于那些遇到同样问题的人来说一定非常有用。同时，我想分享一些扩展知识和技能，希望对您和其他读者有所帮助。除了增加并行度来解决数据倾斜的问题，我们还可以通过使用Hash Partitioning、Salting和Bloom Filter等技术来解决数据倾斜的问题。希望您继续创作，分享您的经验和知识，让更多人受益。如何写出更高质量的博客，请看该博主的分享：https://blog.youkuaiyun.com/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

最新文章

提示

确定要删除当前文章？

取消删除