自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

RL小站

深度学习、强化学习

  • 博客(184)
  • 资源 (2)
  • 收藏
  • 关注

原创 强化学习_Paper_2000_Eligibility Traces for Off-Policy Policy Evaluation

一句话总结- IS-λ:最纯正 off-policy,$\rho$ 加权整条轨迹,无偏但方差爆炸。- PD-λ:只把当前步 $\rho$放进回报,方差 ↓,收敛保证仍在。- TB-λ:甩掉 μ,用 $\pi$ 概率做树回溯,无需行为策略概率,最适合 **深度策略 + 高维动作 的 off-policy 学习。**

2025-10-16 22:36:47 814

原创 强化学习_Paper_1998_Generalization in reinforcement learning: Successful examples using CMACs

摘要: 本文针对强化学习在高维状态空间中的泛化问题,提出了一种基于稀疏粗糙编码(sparse coarse coding)的有效方法。通过对比Boyan与Moore的负面实验结果,作者在相同连续控制任务(gridworld、puddle world、mountain car)上取得了正面效果,并进一步验证了该方法在更大规模任务(acrobot)中的有效性。关键改进包括采用稀疏粗糙编码(CMACs)替代全局函数逼近器,以及在线学习策略。实验表明,强化学习与函数逼近器结合具有稳健性,且无需依赖复杂模型或λ=1的

2025-08-15 22:19:19 737

原创 强化学习_Paper_1991_Reinforcement learning is direct adaptive optimal control

这篇论文是早期将 RL 与控制理论结合的里程碑,为后续研究(如近似动态规划、Actor-Critic 方法)奠定了基础。统一视角:论文将强化学习(RL)视为一种直接自适应最优控制方法。也就是说,RL 算法通过与环境交互,直接学习一个最优策略,而不需要事先知道环境的完整动力学模型

2025-08-05 21:44:58 863

原创 强化学习_Paper_ICLR2024_When Should We Prefer DECISION TRANSFORMERS for offline-RL

摘要:DT在离线强化学习中的适用性分析表明,DT在稀疏奖励、低质量数据、长时程任务和人类演示场景下表现优异,尤其对非马尔可夫数据鲁棒。然而,在数据量极少、高随机性或密集奖励场景下,保守Q学习(CQL)或过滤行为克隆(Filtered-BC)更为合适。研究还发现,DT需要更多训练数据,但扩展数据量能显著提升性能(如在ATARI游戏中5倍数据带来2.5倍得分提升)。工程实践中,应优先扩展数据而非模型规模,并根据任务特性选择算法。

2025-07-20 17:09:43 831

原创 强化学习_Paper_2020_offlineRL&CQL

OfflineRL是一种仅利用离线数据集进行强化学习的范式,其核心挑战是处理分布外(OOD)动作引发的高估问题。CQL通过正则化机制解决该问题:一方面最小化策略动作(含OOD)的Q值,另一方面最大化数据集中动作的Q值,同时引入最大熵正则化项。这种设计确保Q函数在分布内动作保持高值,对OOD动作给出保守估计,形成真实Q值的下界。代码实现中通过均匀采样、策略采样等方式生成动作,结合熵正则化项计算最终损失,有效防止策略被错误的OOD动作误导,提高离线学习的稳定性。

2025-07-13 00:36:09 901

原创 强化学习_Paper_2017_Reinforcement Learning with Deep Energy-Based Policies

这篇文章提出了基于最大熵的强化学习框架,通过引入熵正则化增强探索能力。核心贡献包括:建立了最大熵策略框架,将目标函数扩展为期望回报与策略熵之和;推导了soft Bellman方程和soft Q-learning算法,将传统Q-learning扩展到能量基策略;设计了Q-loss函数,使用重要性采样估计soft value函数,并通过logsumexp平滑处理;实现了动作空间均匀采样方法,处理高维连续动作空间的熵计算问题。该方法通过最大化熵促进探索,提升了策略鲁棒性

2025-06-20 01:23:48 692

原创 强化学习_置信域算法&RL

置信域算法(TRPO)通过近似目标函数在参数邻域内寻找最大值,优化强化学习中的奖励最大化问题。TRPO使用蒙特卡洛近似和KL散度约束来确保策略更新方向正确,但计算量大。PPO(Proximal Policy Optimization)简化了TRPO的求解过程,提出了PPO-Penalty和PPO-Clip两种方法,分别通过拉格朗日乘数法和目标函数限制来优化策略。KL散度分为正向和反向两种,正向KL散度(Forward KL)更关注真实分布中的常见事件,而反向KL散度(Reverse KL)更关注罕见事件。正

2025-05-20 22:35:40 1021

原创 强化学习_Paper_2017_Curiosity-driven Exploration by Self-supervised Prediction

提出了Intrinsic Curiosity Module(ICM)来估计一个状态的novelty大小,并给予相应的**内在奖励(intrinsic reward)**

2025-04-30 23:52:08 1630

原创 强化学习_Paper_1991_Dyna, an integrated architecture for learning, planning, and reacting

主要介绍Dyna框架的优缺点。Dyna框架旨在将模型学习(model-based learning)与无模型学习(model-free learning)相结合,以提高强化学习算法的效率和效果。Dyna架构是专门为agent不完全准确地了解其行为对世界的影响以及这些影响可能是不确定的情况而设计的。并假设agent的任务可以建模成奖励最大化问题(reward maximization)对最优反应性政策(optimal reactive policy)的试错学习,从实际情况到行动的映射;

2025-04-25 23:34:18 1159

原创 LLM_基于OpenAI的极简RAG

fill:#333;color:#333;color:#333;fill:none;Recieve文档生成sendquery检索片段基于检索生成Prompt-construct_promptLLM generate回答Respond文档拆分成chunks文档chunks用LLM-embedding保存chunks embeddingchromadb。

2025-04-11 19:08:14 1046

原创 强化学习_Paper_1988_Learning to predict by the methods of temporal differences

论文介绍了时间差分方法(TD 方法),这是一种用于预测问题的增量学习方法。TD 方法通过比较连续时间步的预测值之间的差异来调整模型,而不是传统的通过预测值与实际结果之间的差异来调整。对于大多数现实的预测问题,TD方法比传统方法需要更少的内存和更少的峰值计算,并且可以产生更准确的预测。传统预测学习方法依赖于预测值与实际结果之间的差异来分配“信用”(即调整权重),这种方法在多步预测问题中效率较低。TD 方法通过比较连续时间步的预测值之间的差异来更新模型。

2025-04-03 21:14:49 908

原创 强化学习_Paper_1983_Neuronlike adaptive elements that can solve difficult learning control problems

通过两个类似神经元的自适应元素组成的系统解决一个复杂的控制学习问题。研究环境: Cart-pole (和gym的类似)算法: ASE + ACEassociative search element (ASE) : 强化输入与输出之间的关联adaptive critic element (ACE):构建一个比单独的强化反馈更有信息量的评估函数rt\hat r_trt​主要贡献:自适应元素的能力:ASE 和 ACE 的结合能够解决复杂的控制学习问题,即使在反馈信号质量较低的情况下。

2025-03-17 21:45:38 843

原创 强化学习_06_pytorch-PPO2实践(ALE/Breakout-v5)

强化学习算法PPO2训练Atari 打砖块游戏

2024-11-07 22:59:46 819

原创 深度学习_GPT2Block详解(casual attention)

NewGELUActivation 它是高斯误差线性单元(Gaussian Error Linear Unit,简称 GELU)的一种变体。GELU 激活函数在近年来的深度学习模型中越来越受欢迎,尤其是在自然语言处理(NLP)领域,如 BERT 和 GPT 等模型中。GELU 激活函数的数学定义是输入值 x 乘以标准正态分布的累积分布函数(CDF)在该点的值。casual attention: 对原始attn进行mask。经典的preNorm TFDecoder架构。

2024-09-12 21:51:18 1325

原创 强化学习_06_pytorch-PPO2实践(Humanoid-v4)

PPO2优化:1) Value Function Loss Clipping;2)batch adv normalize;3)共用一个优化器;4)loss累和;5)特征权重初始化;6)向量环境SyncVectorEnv 及 wrapper技巧

2024-05-27 22:40:34 1501

原创 [ deepSpeed ] 单机单卡本地运行 & Docker运行

本文笔者基于官方示例进行本地构建和Docker构建运行示例(下列代码中均是踩坑后可执行的代码,尤其是Docker部分), 全部code可以看。

2024-05-11 20:06:36 2639 1

原创 强化学习_06_pytorch-PPO实践(Hopper-v4)

针对之前的PPO做了主要以下优化:1. `batch_normalize`: 在`mini_batch` 函数中进行adv的normalize, 加速模型对adv的学习2. `policyNet`采用`beta`分布(0~1): 同时增加MaxMinScale 将beta分布产出值转换到action的分布空间3. 收集多个`episode`的数据,依次计算adv,后合并到一个dataloader中进行遍历:加速模型收敛

2024-02-28 23:29:27 1191

原创 LLM_InterLM-Demo学习

在多项视觉语言大模型的主流评测上均取得了最佳性能,包括MME Benchmark (英文评测), MMBench (英文评测), Seed-Bench (英文评测), CCBench(中文评测), MMBench-CN (中文评测).模型理解题意生成解此题的 Python 代码,Lagent 调度送入 Python 代码解释器求出该问题的解。设计了高效的训练策略,为模型注入海量的多模态概念和知识数据,赋予其强大的图文理解和对话能力。的封装,同时通过ssh将端口映射到本地,资源占用的时服务器的资源。

2024-01-08 21:13:03 1243

原创 强化学习_06_pytorch-TD3实践(CarRacing-v2)

TD3征服CarRacing-v2环境,对环境的调整已经actor-critic网络构建经验分享

2023-12-24 16:48:13 3999 1

原创 【论文解读】ICLR2023 TimesNet: TEMPORAL 2D-VARIATION MODELING FOR GENERAL TIME SERIES ANALYSIS

实时序列通常具有多个周期性,如天气观测的日变化和年变化,电力消耗的周变化和季度变化每个时间点的变化不仅受其相邻区域的时间模式(周期内变化)的影响,而且与相邻周期的变化(周期间变化)高度相关。对于没有明确周期性的时间序列,其变化将以周期内变化为主,相当于具有无限周期长度的时间序列。(这类数据理论上很难进行长期预测)受多周期性和周期内及周期间复杂相互作用的启发,我们找到了一种时间变化建模的模块化方法。笔者思考:没有考虑到特定的人为因素的影响。

2023-11-15 00:19:36 5380 8

原创 【论文解读】元学习:MAML

元学习的目标是在各种学习任务上训练模型,这样它就可以只使用少量的训练样本来解决新任务。论文所提出的。该算法与任何用梯度下降训练的模型兼容,适用于各种学习问题,包括分类、回归和强化学习。论文中表明,该算法在基准上达到了SOTA的性能,在上也产出了良好的结果,。

2023-09-11 01:20:15 1603

原创 【论文解读】终生学习LLL-正则化方法:Memory Aware Synapses

AMS可以在无监督和在线学习中计算网络参数的重要性。给与新数据可以计算出网络参数的特征重要性,基于模型数据的L2范数的平方,其参数的梯度反应新数据预测的敏感性,将其作为权重,让其保守变化,提高模型的泛化能力和减少模型的复杂度。首次将,这可能会因测试条件而异。

2023-07-22 22:42:50 674

原创 Linux-gym mujoco安装

在ubuntu22.4 python3.10的环境中安装mujoco 折腾了半天,记录下。

2023-07-19 22:13:48 1307

原创 【论文解读】2017 STGCN: Spatio-Temporal Graph Convolutional Networks

使用历史速度数据预测未来时间的速度。同时用于序列学习的RNN(GRU、LSTM等)网络需要迭代训练,它引入了逐步累积的误差,并且RNN模型较难训练。为了解决以上问题,我们提出了新颖的深度学习框架STGCN,用于交通预测。

2023-07-19 00:01:55 1608 1

原创 机器学习_预测概率校准

我们在建模时通常根据准确性或准确性来评估其预测模型,但几乎不会问自己:“我的模型能够预测实际概率吗?但是,从商业的角度来看,准确的概率估计是非常有价值的(准确的概率估计有时甚至比好的精度更有价值)。来看一个例子。AB两个模型的AUC一样。但是根据模型A,你可以通过推荐普通马克杯来最大化预期的利润,然而根据模型B,小猫马克杯可以最大化预期的利润。在像这样的现实应用中,搞清楚哪种模型能够估算出更好的概率是至关重要的事情。

2023-06-14 22:31:21 4050 4

原创 LLM_文本生成评估指标

一个单词只计算它在引用中出现的次数。Example: 计算 ROUGE1。可以看出包内的计算原理同上述。可以看出包内的计算原理同上述。Example: 计算。

2023-05-16 21:39:15 1523

原创 强化学习_06_pytorch-TD3实践(BipedalWalkerHardcore-v3)

DDPG的critic会高估, 从而导致actor策略失败。TD3是增加了三个关键技巧优化DDPG。经过优化后的TD3(Twin Dalayed DDPG 双延迟深度确定性策略梯度算法)适合于具有高维连续动作空间的任务。

2023-05-07 21:28:19 2485 6

原创 LLM__llama-7B模型试验

llama模型已经开源很久了,所以拿做小的模型做了个简单尝试。

2023-04-19 22:43:25 4866 9

原创 深度学习_Learning Rate Scheduling

我们在训练模型时学习率的设置非常重要。我们可以通过学习率时间表()有效地管理准确性。

2023-04-05 17:16:11 1771 1

原创 数据结构_哈夫曼树(python实现)

哈夫曼树是一种重要的数据结构,用于压缩和编码数据。它由经典的数学家和计算机科学家大卫哈夫曼在20世纪50年代发明。哈夫曼树的目的是为了在编码和解码数据中,尽可能地减少所需的比特数。换句话说,它可以将大量数据压缩为在传输过程中所需的最小比特数。在NLP领域的词向量开篇制作Word2Vec中用到了一种softmax优化方法——层次softmax,就是将词频编码成哈夫曼树的形式,然后,(以skip-gram为例)在样本[v, w]进入模型前,将周围词w,基于哈夫曼树映射成从根到叶路径两个方向路径,最终组成。

2023-03-20 23:32:52 1665

原创 数据结构_图优化-最小费用最大流MCMF(python解)

线性规划问题有一个有趣的特性,即所有求极大的问题都有一个与其匹配的求极小的线性规划问题。我们通过求解一个问题的对偶问题,再加以转化就可以得到原始问题的解。

2023-03-08 00:16:04 1648 4

原创 数据结构_栈及栈的应用非递归快速排序

O(1)O(n)

2023-02-24 23:40:21 551

原创 强化学习_06_pytorch-DDPG实践(Pendulum-v1)

PPO这类算法都是在线策略算法,样本效率(sample efficiency)较低。像DQN算法,是直接估计最优价值函数,可以做离线策略学习,但是它只能处理动作空间有限的环境。吸收DQN的优点,同时弥补PPO这类算法的缺陷,DDPG(deep deterministic policy gradient)就顺应而生。它构造一个确定性策略,用梯度上升的方法来最大化值。DDPG 也属于一种 Actor-Critic 算法。REINFORCE、TRPO 和 PPO 学习随机性策略(Actor。

2023-01-18 23:41:05 3238

原创 强化学习_06_pytorch-PPO实践(Pendulum-v1)

TRPO(Trust Range Policy Optimate)算法每一步更新都需要大量的运算,于是便有其改进版本PPO在2017年被提出。PPO 基于 TRPO 的思想,但是其算法实现更加简单。TRPO 使用泰勒展开近似、共轭梯度、线性搜索等方法直接求解。PPO 的优化目标与 TRPO 相同,但 PPO 用了一些相对简单的方法来求解。具体来说, PPO 有两种形式,一是PPO-惩罚,二是PPO-截断,我们接下来对这两种形式进行介绍。

2023-01-05 21:52:56 4483 9

原创 强化学习_06_pytorch-doubleDQN实践(Pendulum-v1)

环境是倒立摆(Inverted Pendulum),该环境下有一个处于随机位置的倒立摆。环境的状态包括倒立摆角度的;动作为对倒立摆施加的力矩()。每一步都会根据当前倒立摆的状态的好坏给予智能体不同的奖励,该环境的奖励函数为,倒立摆向上保持直立不动时奖励为 0,倒立摆在其他位置时奖励为负数。环境本身没有终止状态,所以训练的时候需要设置终止条件(笔者在本文设置了260)。

2022-12-13 10:51:34 2307 4

原创 【论文解读】CIKM 2022: STID: A Simple yet Effective Baseline for Multivariate Time Series Forecasting

STGNNs在多维序列预测中表现超前,所以近期的多数研究都是基于此进行。而本文提出了基于序列、时间、空间编码,的简单Spatial and Temporal IDentity (STID)模型结构。其效果在多维序列预测任务上运行速度快,同时效果好,效果比邻甚至超越STGNNs。论文的背景知识,前人的工作等多序列预测往往之间具有一定的相关性。

2022-11-23 02:08:15 6474 6

原创 深度学习_用LSTM+Attention与Self-Attention

笔者在重新尝试用深度学习的各个模型对序列进行预测,就LSTM进行一些使用记录。

2022-10-23 23:57:28 4369

原创 机器学习_LightGBM callback示例

lightgbm在train的时候有callback的接口,我们需要将训练过程的损失下降情况进行记录就需要这个接口。本文笔者就是以记录训练迭代过程的损失为出发点,写一个简单的lightgbm中callback的使用方法。

2022-10-18 22:05:31 5523 5

原创 多目标线性规划——pulp

现在的问题是如何选择α。在这种情况下,典型的方法是确定有效边界。在经济学中,例如被称为“最佳最优”。

2022-10-15 17:40:06 2882

原创 机器学习_kedro+mlfow使用简单示意

kedro用来构建可复用,易维护,模块化的机器学习代码。相比于Notebook的超级灵活性,便于探索数据和算法, Kedro 定位于解决版本控制,可复用性,文档,单元测试,部署等工程方面的问题。

2022-10-15 16:52:56 944

智慧海洋_data.zip

文章用到数据 https://blog.youkuaiyun.com/Scc_hy/article/details/115826685

2021-04-18

mnist-riginal(手写识别常用数据)

MNIST 有70000张图片,每张图片有784个特征。 这是因为每个图片都是28*28像素的,并且每个像素的值介于0~255之间

2018-10-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除