
强化学习
文章平均质量分 87
爱科技Ai
控制工程专业研究生,人工智能领域创作者,研究强化学习相关算法,有国防、化工等领域软件研发经验。
展开
-
DeepSeek 核心技术 GRPO 详解
GRPO(Group Relative Policy Optimization)是 DeepSeink 团队提出的创新型强化学习算法,专为解决大语言模型(LLM)在推理任务中的训练效率与稳定性问题而设计。相较于传统 PPO 算法,GRPO 通过组内相对评估机制替代独立价值模型(Critic),显存占用减少 50%,训练速度提升 30%,同时在数学推理、代码生成等任务中实现性能突破(如 MATH 基准准确率 51.7)。GRPO 通过组内相对评估与动态基线机制,实现了大模型强化学习训练的效率革命。原创 2025-03-16 15:30:00 · 807 阅读 · 0 评论 -
深度解码:AlphaStar背后的原理详解
1 AlphaStar及背景简介相比于之前的深蓝和AlphaGo,对于《星际争霸Ⅱ》等策略对战型游戏,使用AI与人类对战的难度更大。比如在《星际争霸Ⅱ》中,要想在玩家对战玩家的模式中击败对方,就要学会各种战术,各种微操和掌握时机。在游戏中玩家还需要对对方阵容的更新实时地做出正确判断以及行动,甚至要欺骗对方以达到战术目的。总而言之,想要让AI上手这款游戏是非常困难的。但是DeepMind做到了。原创 2025-03-04 07:30:00 · 1819 阅读 · 0 评论 -
DeepSeek-R1的使用及图解
大型语言模型(LLM)在架构上依赖于 2017 年 Google 提出的 Transformer 模型。与传统的递归神经网络(RNN)和长短时记忆网络(LSTM)相比,Transformer 提供了更高的训练效率和更强的长距离依赖建模能力。自注意力机制(Self-Attention)自注意力机制允许模型在处理文本时自动关注句子中的重要单词,并且能够理解不同词语之间的相互联系。通过这种机制,模型能够根据上下文动态地调整对各个词语的关注程度。多头注意力(Multi-Head Attention)原创 2025-02-15 13:47:33 · 1071 阅读 · 0 评论 -
离线强化学习基础知识之offline MBRL和MFRL
1 离线强化学习介绍1 离线强化学习介绍离线强化学习(也称为批量强化学习或完全脱策略强化学习)仅依赖于先前收集的数据集,无需进一步交互。它提供了一种利用先前收集的数据集的方法以自动学习决策策略。离线强化学习可以被定义为 data-driven 形式的强化学习问题,即在智能体不和环境交互的情况下,来从获取的轨迹中学习经验知识,达到使目标最大化,其和Online的区别如图所示:图 在线和离线强化学习的区别对于训练集采用不同的离线强化学习算法进行训练,得到多样策略组。原创 2024-05-21 23:21:10 · 510 阅读 · 0 评论