强化学习调参随手记

原创已于 2025-12-09 01:08:43 修改 · 229 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#强化学习

于 2025-11-23 20:49:53 首次发布

部署运行你感兴趣的模型镜像

可复现性：

要固定随机数种子，可以保证多次运行出来的结果完全相同！！！！

这种value loss先降低，就是policy输出的action逐渐符合所能见识过能获得更好奖励的action了。

但是突然探索到了新的重大奖励的action，于是乎value loss就又先上升，然后后下降

改动前：黄色

改动后：紫色

用最大值相同的奖励替换了一个原来的奖励，导致无法学不到最大的即时奖励了，那就学不到最优策略啊，肯定不行啊。所以不要删掉原来的奖励。在保留的基础上，我又加了新的奖励

权重比例

感觉权重比例是个需要微操大师来操作，在即时奖励里，稍微改一点，加/减一点，效果就完全不一样

您可能感兴趣的与本文相关的镜像

GPT-oss:20b

图文对话

Gpt-oss

GPT OSS 是OpenAI 推出的重量级开放模型，面向强推理、智能体任务以及多样化开发场景

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

hhhh明

关注关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

高校教学AI辅助平台的大模型微调架构：AI应用架构师的实践技巧

AI天才研究院

08-01

1176

预训练模型= 刚毕业的名校毕业生，知识渊博但不懂教学全参数微调= 让助教重新读4年师范专业（效果好但成本高）PEFT微调= 给助教做3个月教学法培训（成本低且针对性强）RAG增强= 给助教配一套"校本教材+试题库"（动态补充知识）高校教学场景几乎总是选择PEFT+RAG混合方案——既不需要巨额算力，又能兼顾专业深度和知识新鲜度。核心教学场景与技术映射教学场景技术组合典型交互流程智能答疑LoRA微调+RAG+意图识别学生提问→检索课程PPT→微调模型生成"符合教学大纲的解答"代码批改。

深度强化学习调参技巧：以DQN、DDPG、TD3、PPO、SAC等算法为例

丨汀、的博客

07-14

3120

深度强化学习调参技巧：以D3QN、DDPG、TD3、PPO、SAC算法为例

参与评论您还未登录，请先登录后发表或查看评论

强化学习的学习之路（八）_2021-01-08:强化学习的学习资源及学习建议

热爱可抵漫长岁月

01-13

949

作为一个新手，写这个教程也是想和大家分享一下自己学习强化学习的心路历程，希望对大家能有所帮助。这个系列后面会不断更新，希望自己能保证起码平均一天一更的速度，先是介绍强化学习的一些基础知识，后面介绍强化学习的相关论文。本来是想每一篇多更新一点内容的，后面想着大家看优快云的话可能还是喜欢短一点的文章，就把很多拆分开来了，目录我单独放在一篇单独的博客里面了。完整的我整理好了会放在github上，大家一起互相学习啊！可能会有很多错漏，希望大家批评指正！ 强化学习的一些资源这里主要给大家分享一些课程，书籍还有代码

基于深度学习方法预测大气空气质量的实现

weixin_45759682的博客

12-16

5626

大气空气质量日趋成为社会生产的关注重点，良好的空气质量更加有益于当下的社会生产活动。据相关调查研究表明，大气污染对人体的危害不仅仅在于通过呼吸空气直接危害人体，还对器官、皮肤的表面与其直接接触而造成附加危害，主要表现在呼吸道疾病与生理机能障，以及眼鼻等粘膜组织受到刺激而引起的其他疾病。此外大气污染物中扬尘PM2.5、落尘PM10等污染物的危害同样是多方面的，扬尘是导致雾霭的主要原因，会诱发人们疾病的发生，如癌症、肺病等。大气污染的治理与研究，长久以来一直是人类正常生存与发展的所需正视与不可避免的难题。

7.8 W 字总结！Java 8—Java 10 特性详解

民工哥的博客

09-08

3635

点击关注公众号，回复“1024”获取2TB学习资源！‍‍Java现在发布的版本很快，每年两个，但是真正会被大规模使用的是三年一个的TLS版本。‍‍每3年发布一个TLS，长期维护版本。意味着...

【自动驾驶系列丛书学习】2.《自动驾驶汽车环境感知》学习笔记

Akaxi的博客

03-07

2693

【自动驾驶系列丛书学习】2.《自动驾驶汽车环境感知》学习笔记

当AlphaGo战胜李世石以后，我们来聊聊深度学习

none

05-26

5386

当AlphaGo战胜李世石以后，我们来聊聊深度学习作者黄文坚发布于 2016年5月26日 | 大家好，我是黄文坚，今天给大家讲讲深度学习。我不讲技术原理，讲讲技术应用。深度学习是我们明略重要的研究方向，是未来实现很多令人惊叹的功能的工具，也可以说是通向人工智能的必经之路。 1.深度学习的丰富应用 Google研究的无人驾驶，其组件由两个部分组成，一个是

人工智能学习与实训笔记（一）：零基础入门学习与实训笔记

weixin_45512098的博客

07-26

1271

基于百度飞桨的人工智能学习笔记

学习成功：中学生成就梦想的15堂必修课

热门推荐

qqcrazyer的专栏

05-19

6万+

管斌全：《学习成功：中学生成就梦想的15堂必修课》笛案：自信国内外成功学的著作看过不少，但我只向人推荐管斌全的作品。以下内容节选自网络，个人有渠道还是买书好，也算是对作者的支持。fygub0231@sina.com0571-63311953013567128396该书已经出版了4个版本。　　第一个版本是由北京海潮出版社（2002年10月）出版，书名为《我信我能我

PID Tuning Tool参数整定辅助工具

weixin_42629522的博客

11-15

818

本文介绍PID Tuning Tool如何通过系统辨识、自动优化和可视化反馈，帮助工程师高效完成PID参数整定。工具支持多策略算法、硬件在环测试及C代码导出，显著提升调试效率与安全性，是现代控制开发的重要辅助手段。

ADRC_tuning.rar_ADRC程序实现_ADRC调参_adrc调参口诀_taskwj1_自动调参

07-15

ADRC程序，实现自动调参,以及蒙特卡罗实验。

强化学习调参经验大集成：TD3、PPO+GAE、SAC、离散动作噪声探索、以及Off-policy 、On-policy 算法常见超参数

丨汀、的博客

07-15

9587

强化学习调参经验大集成：TD3、PPO+GAE、SAC、离散动作噪声探索、以及Off-policy 、On-policy 算法常见超参数

强化学习调参技巧二：DDPG、TD3、SAC算法为例：

丨汀、的博客

07-08

7084

1.训练环境如何正确编写 强化学习里的 env.reset() env.step() 就是训练环境。其编写流程如下： 1.1 初始阶段：先写一个简化版的训练环境。把任务难度降到最低，确保一定能正常训练。记录正常训练的智能体的分数，与随机动作、传统算法得到的分数做比较。 DRL算法的分数应该明显高于随机动作（随机执行动作）。DRL算法不应该低于传统算法的分数。如果没有传统算法，那么也需要自己写一个局部最优的算法评估策略的性能: 大部分情况下，可以直接是对Reward Function 给出的reward

elasticsearch-7.17.22-linux-x86-64.tar.gz分享给需要的同学

12-08

elasticsearch-7.17.22-linux-x86_64.tar.gz分享给需要的同学

rocketmq-dashboard 1.0.0 源码

12-08

rocketmq-dashboard 1.0.0 源码

基于Q-learning算法在能源市场中实现效益最大化研究（Matlab代码实现）

12-08

基于Q-learning算法在能源市场中实现效益最大化研究（Matlab代码实现）

AI时代，中小技术转移机构面临收入增长乏力挑战，如何抓住企业创新数智空间机遇实现体系化核心优势？.docx

12-08

聚焦AI+技术转移、院所成果转化与知识产权管理，以人工智能为底座的数智化科技创新平台，为提升区域科技管理与创新能力提供全面解决方案，驱动地方产业升级。

【智能无人系统】基于ACO-MLP混合模型的无人机三维路径规划：项目介绍 MATLAB实现基于ACO-MLP 蚁群算法（ACO）结合多层感知机（MLP）进行无人机三维路径规划（含模型描述及部分示例代

最新发布

12-08

内容概要：本文介绍了一个基于MATLAB实现的无人机三维路径规划项目，采用蚁群算法（ACO）与多层感知机（MLP）相结合的混合模型（ACO-MLP）。该模型通过三维环境离散化建模，利用ACO进行全局路径搜索，并引入MLP对环境特征进行自适应学习与启发因子优化，实现路径的动态调整与多目标优化。项目解决了高维空间建模、动态障碍规避、局部最优陷阱、算法实时性及多目标权衡等关键技术难题，结合并行计算与参数自适应机制，提升了路径规划的智能性、安全性和工程适用性。文中提供了详细的模型架构、核心算法流程及MATLAB代码示例，涵盖空间建模、信息素更新、MLP训练与融合优化等关键步骤。; 适合人群：具备一定MATLAB编程基础，熟悉智能优化算法与神经网络的高校学生、科研人员及从事无人机路径规划相关工作的工程师；适合从事智能无人系统、自动驾驶、机器人导航等领域的研究人员；使用场景及目标：①应用于复杂三维环境下的无人机路径规划，如城市物流、灾害救援、军事侦察等场景；②实现飞行安全、能耗优化、路径平滑与实时避障等多目标协同优化；③为智能无人系统的自主决策与环境适应能力提供算法支持；阅读建议：此资源结合理论模型与MATLAB实践，建议读者在理解ACO与MLP基本原理的基础上，结合代码示例进行仿真调试，重点关注ACO-MLP融合机制、多目标优化函数设计及参数自适应策略的实现，以深入掌握混合智能算法在工程中的应用方法。

为科技服务合作伙伴选择企业创新数智空间，需要关注哪些核心要点？.docx

12-08

深度学习与强化学习课程资源压缩包

深度强化学习是一种将深度学习与强化学习相结合的技术，它利用深度神经网络来表示复杂的策略或环境模型，并能够通过与环境的互动学习最优策略。这门技术在人工智能领域，尤其是在游戏、机器人控制、自动驾驶等领域...