模型或许正变得更强大、快速、廉价,但任何原始能力都无法替代记忆、环境与反馈。塑造上下文的方式,最终决定了智能体的行为模式:它的执行速度、容错能力与扩展边界。
——Manus首席科学家 季逸超

项目启动之初,团队面临关键抉择:是基于开源模型训练一个端到端的智能体模型,还是在尖端模型能力之上构建智能体?
回溯我从事NLP的第一个十年(是的,那已是七年前),我们根本没有这样的选择余地。在BERT时代(2018年),模型必须经过微调和评估才能迁移到新任务。每次迭代常耗时数周——尽管当时的模型比如今的大语言模型(LLM)小巧得多。对于快速迭代的应用(尤其是未达成产品市场契合的阶段),如此缓慢的反馈循环是致命伤。这来自我上段创业经历的惨痛教训:当时我为语义搜索从头训练模型,而GPT-3和Claude的横空出世让自研模型一夜过时。颇具讽刺的是,正是这些模型开启了上下文学习的新纪元。
这份教训让选择变得清晰:Manus将押注上下文工程。这使我们能在数小时内(而非数周)实现改进,并让产品与底层模型解耦——若将模型进步比作涨潮,我们要做随潮涨落的船,而非扎根海底的桩柱。
然而上下文工程远非坦途。作为一门实验科学,我们已四次重构智能体框架,每次皆因发现更优的上下文塑造方法。我们戏称这种架构搜索、提示词调试与经验猜测的手动过程为"随机研究生下降法"(Stochastic Graduate Descent)。虽不优雅,但切实有效。本文分享了我们通过这套"SGD"获得的局部最优解。若您正在构建AI智能体,望这些原则助您更快收敛。
围绕KV缓存设计
若智能选择一个指标,KV缓存命中率堪称生产
Manus的上下文工程实践与启示

最低0.47元/天 解锁文章
1063

被折叠的 条评论
为什么被折叠?



