henry 发自 凹非寺
量子位 | 公众号 QbitAI
强化学习+任意一张牌,往往就是王炸。
专注于LLM+RL的科技公司OpenPipe提出全新开源强化学习框架——MCP·RL。
只需一个MCP Server的地址,agent就能自动发现工具、生成任务,通过强化学习在闭环反馈中摸索出最优调用策略。
在实测中,MCP·RL更是在2/3的benchmark上达到或超过SOTA性能,效果直接拉满。

不套公式,在“做中学”,这就是专属RL的power!

MCP·RL的做中学
想明白MCP·RL怎么个“做中学”法,咱们有必要简单过一下传统MCP的流程:
举个例子,假如你想让agent帮自己读邮件、分类、写回复,那么你就得提前设置好整个工作流:
准备邮件数据、注册工具、写prompt规划执行顺序。
此外,你还得设置回退逻辑,以防中

最低0.47元/天 解锁文章
62

被折叠的 条评论
为什么被折叠?



