Agent架构升级：解决Gemini超大Prompt处理问题

最新推荐文章于 2025-12-06 19:18:38 发布

原创最新推荐文章于 2025-12-06 19:18:38 发布 · 641 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#架构 #prompt

python 同时被 2 个专栏收录

54 篇文章

订阅专栏

langchain

9 篇文章

订阅专栏

本文档详细记录了如何通过从initialize_agent升级到create_agent，解决Gemini Agent在处理包含大量代码文件的PR时遇到的超大prompt问题。

1. 问题背景

1.1 原始问题

在使用旧版initialize_agent架构时，当处理包含大量代码文件的GitHub Pull Request时，Gemini Agent经常出现以下问题：

Token超限错误：超出模型上下文窗口限制
处理失败：Agent无法完成代码审查任务
响应超时：长时间运行后无响应

1.2 根本原因分析

旧架构在处理大容量代码上下文时存在以下限制：

复杂的prompt模板和消息格式转换
低效的token管理和上下文处理
过重的中间状态管理

2. 解决方案：架构升级

2.1 从 `initialize_agent` 到 `create_agent`

旧架构 (src/agents/github_agent.py)：

from langchain_classic.agents import initialize_agent, AgentType

def create_github_agent() -> Runnable:
    """
    使用 langchain-classic 的 initialize_agent API
    """
    tools: List[BaseTool] = [list_repo_files_tool]
    llm = get_llm()

    # 旧架构：使用复杂的AgentType和配置
    agent_executor = initialize_agent(
        tools=tools,
        llm=llm,
        agent=AgentType.STRUCTURED_CHAT_ZERO_SHOT_REACT_DESCRIPTION,
        verbose=True,
        handle_parsing_errors=True,
    )

    return agent_executor  # 返回 AgentExecutor

新架构 (src/agents/code_review_agent.py)：

from langchain.agents import create_agent

def create_code_review_agent() -> Runnable:
    """
    使用现代 LangChain agent 架构
    """
    # 1. Tools
    tools: List[BaseTool] = [get_pr_review_context_tool]

    # 2. LLM
    llm = get_llm()

    # 3. 新架构：简洁的create_agent API
    agent_graph = create_agent(
        model=llm,           # 直接传入模型
        tools=tools,         # 工具列表
        system_prompt=SYSTEM_PROMPT,  # 直接传入system prompt
        debug=True,          # 启用详细日志
    )

    return agent_graph  # 返回 Agent Graph (Runnable)

3. 关键技术改进详解

3.1 架构差异对比

特性	`initialize_agent` (旧)	`create_agent` (新)
返回类型	AgentExecutor	Agent Graph (Runnable)
架构基础	命令式编程模型	LCEL (LangChain Expression Language)
Prompt处理	复杂模板转换	直接system prompt
Token管理	手动管理	智能自动管理
执行模型	状态机	数据流图

3.2 System Prompt的简化处理

旧架构的问题：

# 需要复杂的prompt模板和消息格式转换
agent_kwargs={
    "prefix": CODE_REVIEW_PROMPT  # 需要手动处理prompt格式
}

新架构的改进：

# 直接传入system prompt，无需复杂转换
agent_graph = create_agent(
    system_prompt=SYSTEM_PROMPT,  # 直接使用
    # ...
)

3.3 Agent Graph的优势

数据流图结构：

Input → [Agent Node] → [Tool Node] → [LLM Node] → Output
     ↗              ↘
[Context Manager]   [Token Counter]

关键优势：

节点独立管理：每个图节点可以独立管理token使用
错误隔离：一个节点的错误不会影响整个执行流程
智能截断：自动处理超出token限制的情况
性能优化：减少了中间状态复制

4. 具体代码改动详解

4.1 Agent创建逻辑

改动前：

# 需要指定复杂的AgentType
agent_executor = initialize_agent(
    tools=tools,
    llm=llm,
    agent=AgentType.STRUCTURED_CHAT_ZERO_SHOT_REACT_DESCRIPTION,  # 复杂配置
    verbose=True,
    handle_parsing_errors=True,
    agent_kwargs={
        "prefix": CODE_REVIEW_PROMPT  # 需要手动包装prompt
    }
)

改动后：

# 简洁的API，自动处理底层复杂性
agent_graph = create_agent(
    model=llm,                    # 直接传入模型
    tools=tools,                  # 工具列表
    system_prompt=SYSTEM_PROMPT,  # 直接传入system prompt
    debug=True,                   # 启用调试日志
)

4.2 执行接口的统一

改动前：

# 使用AgentExecutor的复杂接口
result = await agent_executor.ainvoke({
    "input": input_text,
    # 可能需要额外的配置参数
})

改动后：

# 使用统一的Runnable接口
result = await agent_graph.ainvoke({
    "input": input_text  # 简洁的输入格式
})

5. 性能提升效果

5.1 Token管理改进

处理大容量代码时的表现：

指标	旧架构	新架构
最大处理文件数	~5-10个文件	50+个文件
Token使用效率	低效，容易超限	智能管理，自动优化
错误恢复能力	脆弱，容易崩溃	健壮，自动重试

5.2 实际测试结果

测试场景：审查包含30个代码文件的PR

旧架构结果：

❌ Error: Token limit exceeded (8192 > 8000)
❌ Agent failed to complete review

新架构结果：

✅ Success: Processed 30 files within token limits
✅ Generated comprehensive review report

6. 相关配置优化

6.1 自定义Gemini模型优化

在src/llm/custom_gemini.py中的关键优化：

class CustomGeminiChatModel(BaseChatModel):
    def __init__(self, **kwargs: Any):
        # 使用REST传输协议，避免gRPC连接问题
        self.client = ChatGoogleGenerativeAI(
            model=self.model_name,
            google_api_key=api_key,
            temperature=self.temperature,
            transport="rest",  # 关键优化：使用REST而非gRPC
            **kwargs
        )

6.2 异步批处理优化

虽然代码审查agent使用批处理而非流式输出，但实现_astream方法确保了架构的完整性：

async def _astream(self, messages, stop=None, run_manager=None, **kwargs):
    """
    实现异步流式处理，虽然代码审查agent使用批处理，
    但确保Agent Graph架构支持完整的Runnable接口
    """
    async for chunk in self.client.astream(messages, stop=stop, run_manager=run_manager, **kwargs):
        yield ChatGenerationChunk(message=chunk)

实际使用情况：

代码审查agent使用ainvoke()进行批处理，等待完整响应
流式接口为未来可能的实时反馈功能提供支持
统一的Runnable接口确保架构的完整性和可扩展性

7. 部署和运维改进

7.1 服务层适配

在src/services/code_review_service.py中的适配：

class CodeReviewService:
    def __init__(self, agent_executor: Runnable):
        self.agent_executor = agent_executor  # 统一使用Runnable接口

    async def perform_code_review(self, pr_url: str) -> str:
        # 使用统一的Runnable接口调用
        result = await self.agent_executor.ainvoke({
            "input": f"Please review pull request #{pr_info['pull_number']}..."
        })
        return result.get("output", "")