一键式训练端到端Agent，Qwen3+MCP工具集高效集成！

最新推荐文章于 2025-08-15 07:15:00 发布

原创最新推荐文章于 2025-08-15 07:15:00 发布 · 1k 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#前端 #java #人工智能 #目标跟踪 #计算机视觉

RLFactory能够让你通过低代码的方式快速训练你的端到端Agent模型，以Qwen3等最新的模型为基座调用你的MCP工具集！

Deepseek-R1 的成功已经证明了纯 RL 路线的强大潜力，但现有 RL 框架对于工具配置和奖励设计要求较高的工程能力。RLFactory 的出现，正是为了解决这一痛点，让使用者专注于核心算法创新，而无需为繁琐的工程细节分心。

RLFactory 是一个完全开源的、面向Agent模型端到端训练的简单且高效的 RL 后训练框架，其将环境与 RL 后训练解耦，实现了只需工具配置和奖励函数即可训练，并支持异步工具调用，让 RL 后训练提速约 2 倍以上。

RLFactory 有何独特之处？

极致易用：只需配置 MCP 工具与奖励函数，无需复杂代码，快速启动训练。
高效训练：异步工具调用、奖励并行计算，训练效率提升2倍+。
一键式体验：原生支持一键式 DeepSearch 训练，多轮工具调用、LLM as Judge等高级特性即开即用。
社区驱动：持续优化，WebUI 正在开发，未来实现真正零代码一键训练。

代码仓库：https://github.com/Simple-Efficient/RL-Factory
教程地址：https://github.com/Simple-Efficient/RL-Factory/blob/main/docs/rl_factory/main_tutorial.md
模型地址：https://huggingface.co/Simple-Efficient/RLFactory-Qwen3-8B-GRPO和https://huggingface.co/Simple-Efficient/RLFactory-Qwen3-4B-GRPO

为什么要训练端到端Agent模型？

Agent模型的核心能力是通过调用各种形式的工具，完成给定的任务。广义上，RLFactory 支持的“工具”指“不是当前训练模型生成的内容”——它们可以是程序、其他模型，甚至是其他 Agent。

程序形式：各类搜索接口（输入 query ，输出结果）、代码解释器（输入代码，输出执行结果）、计算器（输入公式，输出计算结果）
模型形式：其他开源/闭源模型（如用 GPT-4o 做文档总结，输入 Prompt，输出 Response）
Agent 形式：程序和模型的集合（如文献综述 Agent，输入主题，输出综述结果）

端到端Agent模型有哪些不一样？

传统工作流依赖人工规则和分阶段处理，效率低下。RLFactory 支持端到端训练，模型可自主推理决策，决定何时、如何调用工具与终止任务，极大提升 LLM 应用的智能化和自动化水平。
- 输入：原始任务（如用户的自然语言指令、问题、对话等）
- 输出：最终的任务结果（如多轮工具调用后的答案、执行结果等）
- 无需人工为每一步单独设计规则
下图展示了端到端Agent模型的交互流程：

输入原始 Prompt，Agent模型推理输出 Response （自行决定使用工具或者输出结果）
对模型输出做后处理，解析工具名称及参数（若未解析到工具，视为终止循环，输出模型响应）
按解析到的工具名称及参数运行工具（可并行），并对工具结果做后处理
将工具结果拼接回 Prompt，再次调用模型，直至终止

RLFactory - 简单且高效的端到端RL后训练

RLFactory的目标是让用户专注于奖励逻辑和工具配置，以极少的代码实现快速的 Agentic Learning，而进阶开发者则可以专注于提升训练效率和模型性能。

RLFactory的核心优势：

奖励函数易设计：通过**规则、模型判分（LLM as Judge）、工具（例如SQL查表）**计算奖励，满足你对奖励函数的所有需求。
工具接入无门槛：只需提供 MCP 工具和自定义工具的配置文件，即可无缝集成到 RL 学习中。
多智能体扩展性：将你的 agent 转换为 MCP 格式，轻松实现多智能体交互。未来还会加入 LLM 聊天模拟，提升多轮对话能力。
训练效率提升：批处理和异步并行工具调用，分布式部署 LRM（如 QwQ-32B）进行高效模型判分，让训练提速 2 倍甚至更高。

面向未来发展，RLFactory希望维护一个活跃的开源社区，积极听取所有使用者的意见，持续坚持“易用”和“高效”两大核心。

更易用：通过 WebUI 进行数据处理、工具和环境定义、训练配置调整及项目管理。（WebUI 正在快速开发中）
更高效：持续迭代和优化训练框架（如 AsyncLLMEngine）及 RL 训练算法。

训练示例：5小时训练端到端的DeepSearch模型

只需配置Qwen3模型和MCP工具，便可快速复现并训练自己的DeepSearch Agent。不需要SFT，Qwen3直接通过RL后训练即可精准调用工具。
训练100步（8*A100，仅5小时），Qwen3-4B得分0.458，Qwen3-8B得分0.463，效率比传统方案提升1.5~2倍！如果涉及模型判分，则效率提升更明显。
模型地址：https://huggingface.co/Simple-Efficient/RLFactory-Qwen3-8B-GRPO和https://huggingface.co/Simple-Efficient/RLFactory-Qwen3-4B-GRPO

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述