DeepSeek更强了，Agent的Prompt优化该咋整？谷歌、剑桥的MASS：用更好的提示和拓扑优化Agent

最新推荐文章于 2025-09-22 11:26:07 发布

原创最新推荐文章于 2025-09-22 11:26:07 发布 · 1.2k 阅读

CC 4.0 BY-SA版权

文章标签：

#prompt #人工智能 #语言模型 #agi #LLM #ai #Agent

如果您用代码开发Agent可能有过这样的经历：改一个模块的Prompt，整个系统都跟着变，而且不知道是哪个模块的Prompt影响了整个系统。如果是多智能体系统（Multi-Agent System，MAS），让你糟心的prompt就更多了。论文数据显示，单个代理提示词细微改动可能造成高达12%的准确率滑坡。更严重的是，当多个敏感代理串联时，错误会呈指数级放大。这是一个非常严重的问题，因为多智能体系统的设计需要考虑多个智能体的交互，而每个智能体的提示词都会影响整个系统的性能。本文代码运行用的模型是DeepSeek R1满血版，由腾讯云提供，目前免费。

一、当前多智能体系统设计的困境

在AI技术狂飙突进的今天，单一大模型已难以满足复杂任务需求。由多个AI代理协作完成任务的系统架构（Multi-Agent System, MAS）正成为技术前沿，但其设计面临双重困境：提示设计的脆弱性与拓扑结构的复杂性。传统方法依赖人工设计提示词和固定协作流程，导致系统性能波动剧烈——论文数据显示，单个代理提示词细微改动可能造成高达12%的准确率滑坡。更严重的是，当多个敏感代理串联时，错误会呈指数级放大。

多智能体系统（Multi-Agent System，MAS）作为一种新型的人工智能应用范式正在获得越来越多的关注。通过让多个LLM智能体协同工作，MAS展现出了远超单一智能体的问题解决能力。然而，设计一个高效的多智能体系统绝非易事。当前的MAS设计面临着两个根本性的挑战：一是如何为每个智能体设计最优的提示词（Prompt），使其能够准确理解任务并产生高质量的输出；二是如何设计最佳的智能体交互拓扑结构，使得多个智能体能够高效协同。这两个问题的复杂性呈指数级增长 - 不仅每个智能体的提示词都需要仔细调优，智能体之间的连接方式更是有着组合爆炸的可能性。传统的手动调优方法在这种复杂性面前显得力不从心，而现有的自动化方法要么仅关注提示词优化，要么仅关注拓扑优化，缺乏一个统一的框架来同时解决这两个问题。

研究表明，单个智能体的性能就已经对提示词非常敏感，简单的提示词修改就可能导致性能的显著下降。在MAS中，这种提示词敏感性会产生级联效应，使得系统性能更加不稳定。同时，拓扑结构的设计往往需要大量的手动实验和试错。这两个问题的复杂性呈指数级增长，不仅需要优化无界的提示词空间，还要决定将哪些智能体集成到拓扑结构中。

研究团队通过系统性实验揭示：现有系统中仅有3%的拓扑结构真正贡献性能提升，其余设计要么无效，甚至产生负面干扰。这种低效探索的背后，是高达10^15量级的组合可能性——相当于在宇宙沙粒中寻找特定分子。如何突破这一困境？Google与剑桥团队提出的Mass框架，通过三阶段递进优化（块级提示优化→拓扑优化→全局提示优化），实现了从"人工试错"到"智能进化"的范式转变。该框架在MATH数学推理等任务中，将系统准确率从基线71.67%提升至84.67%，展现出革命性潜力。

MASS（Multi-Agent System Search）框架的提出为这一困境带来了突破性的解决方案。MASS最大的创新在于，它首次提出了一个统一的框架，能够自动化地同时优化智能体的提示词和拓扑结构。

在这里插入图片描述

更重要的是，MASS采用了一种渐进式的优化策略，通过"局部到全局"的三阶段优化过程，有效降低了问题的复杂度。这种优化策略的核心思想是：首先在局部优化各个智能体的提示词，然后基于这些优化后的智能体搜索最优的拓扑结构，最后在全局层面对整个系统进行微调。这种策略不仅大大提高了优化效率，还能产生更好的优化结果。实验表明，MASS优化后的多智能体系统在各类任务上都取得了显著的性能提升，超越了现有的手动设计和自动化方法。原文并未提供代码，以下代码均由本人根据论文复现，有不足之处，还请指正。

MASS（Multi-Agent System Search）框架通过深入分析MAS设计空间，发现了两个关键洞见：

提示词优化是影响MAS性能的最关键因素。实验表明，在相同的计算成本下，优化提示词比简单地增加智能体数量能够带来更显著的性能提升。
在所有可能的拓扑结构中，只有很小一部分是真正有效的。这意味着我们可以通过剪枝来大幅降低搜索空间的复杂度。

基于这些发现，MASS提出了一个创新的三阶段优化框架：

1. 块级提示词优化（Block-level Prompt Optimization）

这个阶段专注于优化每个基本智能体模块的提示词。具体步骤包括：

# 第一阶段：块级提示词优化  
def block_level_optimization(initial_agent, agent_blocks):  
    # 1. 优化初始预测智能体  
    optimized_base = optimize_prompt(initial_agent)  
      
    # 2. 基于优化后的基础智能体优化其他模块  
    optimized_blocks = {}  
    for block in agent_blocks:  
        # 条件优化：基于已优化的基础智能体  
        opt_block = optimize_prompt(block, condition_on=optimized_base)  
        # 计算增量影响力  
        influence = evaluate(opt_block) / evaluate(optimized_base)  
        optimized_blocks[block] = (opt_block, influence)  
      
    return optimized_base, optimized_blocks

这里的optimize_prompt函数使用MIPRO优化器，同时优化指令和示例。优化目标是最大化验证集上的性能。每个模块都会计算其相对于基础智能体的增量影响力，这个指标将用于后续的拓扑优化。

2. 工作流拓扑优化（Workflow Topology Optimization）

第二阶段基于第一阶段计算的影响力指标，在剪枝后的搜索空间中寻找最优拓扑结构：

# 第二阶段：工作流拓扑优化  
def topology_optimization(optimized_blocks, max_budget=10):  
    # 1. 基于影响力计算选择概率  
    selection_probs = softmax([block.influence for block in optimized_blocks])  
      
    # 2. 在剪枝后的空间中搜索  
    best_topology = None  
    best_performance = 0  
      
    for _ in range(NUM_TRIALS):  
        # 采样有效的拓扑结构  
        topology = sample_valid_topology(  
            optimized_blocks,  
            selection_probs,  
            max_budget=max_budget  
        )  
          
        # 评估性能  
        performance = evaluate_topology(topology)  
        if performance > best_performance:  
            best_topology = topology  
            best_performance = performance  
              
    return best_topology

这里的关键创新是使用影响力导向的采样策略，使搜索更多地关注那些已经证明有效的拓扑结构。sample_valid_topology函数会确保生成的拓扑结构满足计算预算约束，并遵循预定义的组合规则。

3. 工作流级提示词优化（Workflow-level Prompt Optimization）

最后一个阶段对整个工作流进行全局优化：

# 第三阶段：工作流级提示词优化  
def workflow_optimization(best_topology):  
    # 将整个工作流视为一个整体进行优化  
    optimized_workflow = optimize_prompt(  
        best_topology,  
        optimization_type='workflow',  
        objective='end_to_end_performance'  
    )  
    return optimized_workflow