The-Pocket项目教程：浏览器自动化中的消息管理器（Message Manager）深度解析-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00256/article/details/148419140

The-Pocket项目教程：浏览器自动化中的消息管理器（Message Manager）深度解析

Tutorial-Codebase-Knowledge Turns Codebase into Easy Tutorial with AI 项目地址: https://gitcode.com/gh_mirrors/tu/Tutorial-Codebase-Knowledge

引言：为什么需要消息管理器？

在现代浏览器自动化系统中，智能代理（Agent）与大型语言模型（LLM）之间的对话管理是一个核心挑战。想象一下，当你指导一个助手完成复杂任务时，如果助手无法记住之前的对话内容、操作结果和当前状态，任务将难以完成。这正是The-Pocket项目中Message Manager（消息管理器）要解决的核心问题。

消息管理器的核心职责

消息管理器在浏览器自动化系统中扮演着"对话秘书"的角色，主要承担以下关键职责：

对话历史组织：按时间顺序结构化存储对话内容，区分系统指令、用户状态和AI响应
消息格式化：将浏览器状态、操作结果等复杂信息转换为LLM可理解的格式
令牌管理：精确计算并跟踪对话历史中的令牌使用量
上下文限制管理：确保对话历史不超过LLM的上下文窗口限制

消息管理器的工作原理

1. 初始化阶段

当Agent启动时，消息管理器会建立基础对话框架：

def _init_messages(self):
    # 添加系统提示（核心规则）
    self._add_message_with_tokens(self.system_prompt)
    
    # 添加用户任务描述
    task_message = HumanMessage(content=f'您的最终任务是: """{self.task}"""...')
    self._add_message_with_tokens(task_message)
    
    # 添加其他初始化消息（上下文、敏感数据占位符等）
    placeholder_message = HumanMessage(content='[您的任务历史记忆从这里开始]')
    self._add_message_with_tokens(placeholder_message)

2. 浏览器状态添加

在每一步操作前，Agent会获取当前浏览器状态并通过消息管理器格式化：

def add_state_message(self, state, result=None, step_info=None, use_vision=True):
    # 处理之前操作的结果
    if result:
        for r in result:
            if r.include_in_memory:
                content = f"操作结果: {r.extracted_content}" if r.extracted_content else f"操作错误: {r.error}"
                self._add_message_with_tokens(HumanMessage(content=content))
    
    # 格式化浏览器状态（包含DOM结构、URL和可能的截图）
    state_prompt = AgentMessagePrompt(state, result)
    state_message = state_prompt.get_user_message(use_vision)
    self._add_message_with_tokens(state_message)

3. LLM响应处理

当LLM返回行动计划后，消息管理器会将其转换为标准格式：

def add_model_output(self, model_output):
    # 转换为工具调用格式
    tool_calls = [{
        'name': 'AgentOutput',
        'args': model_output.model_dump(),
        'id': str(self.state.tool_id),
        'type': 'tool_call'
    }]
    
    # 创建AI消息
    msg = AIMessage(content='', tool_calls=tool_calls)
    self._add_message_with_tokens(msg)
    
    # 添加对应的工具消息
    self.add_tool_message(content='')

令牌管理与优化策略

消息管理器采用多种策略确保对话历史不超过LLM的上下文限制：

精确令牌计算：基于字符数和预估比例计算令牌数
多模态内容处理：为图像内容分配固定令牌成本
智能截断策略：当接近限制时，优先移除最旧的状态消息或图像

def _count_tokens(self, message):
    tokens = 0
    if isinstance(message.content, list):  # 多模态内容
        for item in message.content:
            if 'image_url' in item:
                tokens += self.settings.image_tokens  # 图像固定成本
            elif 'text' in item:
                tokens += len(item['text']) // self.settings.chars_per_token
    elif isinstance(message.content, str):  # 纯文本
        text = message.content
        if hasattr(message, 'tool_calls'):
            text += str(getattr(message, 'tool_calls', ''))
        tokens += len(text) // self.settings.chars_per_token
    return tokens

实际工作流程示例

让我们通过一个典型的工作步骤了解消息管理器的运作：

Agent获取当前浏览器状态
消息管理器添加上一步操作结果和当前状态
获取完整对话历史并发送给LLM
接收LLM响应并添加到历史记录
执行行动计划并存储结果供下一步使用

sequenceDiagram
    participant Agent
    participant MessageManager
    participant LLM
    participant Browser
    
    Agent->>Browser: 获取当前状态
    Browser-->>Agent: 返回浏览器状态
    Agent->>MessageManager: 添加状态消息
    MessageManager->>MessageManager: 格式化消息并计算令牌
    Agent->>MessageManager: 获取完整对话历史
    MessageManager-->>Agent: 返回格式化消息列表
    Agent->>LLM: 发送消息获取行动计划
    LLM-->>Agent: 返回行动计划
    Agent->>MessageManager: 添加LLM响应
    Agent->>Browser: 执行行动计划