[BrowserOS] 专用AI代理 | AI代理协调器

链接:https://github.com/browseros-ai/BrowserOS
在这里插入图片描述

docs:BrowserOS

BrowserOS是基于Chromium构建的定制化网页浏览器,集成了AI代理以协助我们完成操作。

其核心浏览器应用包含AI代理协调器负责管理多个专用AI代理来执行网页浏览、问题解答及生产力任务。

这些代理通过浏览器交互层与网页互动,并通过LLM供应商集成连接大语言模型

浏览器状态由浏览器状态管理系统捕获和管理,使代理能理解当前页面。整个应用通过定制化构建系统开发,并包含用于版本分发的更新系统

可视化概览

在这里插入图片描述

章节目录

  1. AI代理(专用)
  2. AI代理协调器
  3. Nxtscape浏览器核心
  4. 浏览器状态管理
  5. 浏览器交互层
  6. LLM供应商集成
  7. 更新系统
  8. 构建系统(Autoninja/GN/脚本)

应用

AI Agents in Action
在这里插入图片描述

Why we’re building this

For the first time since Netscape in 1994, it feels like we can reimagine browsers from scratch. We saw how Cursor gave developers a 10x productivity boost, yet browsers feel stuck in the past.
自 1994 年的 Netscape 以来,我们第一次感觉到我们可以从头开始重新构想浏览器。我们看到了Cursor如何为开发人员提供 10 倍的生产力提升,但浏览器感觉却停留在过去。

You probably have 70+ tabs open right now. You're constantly fighting your browser instead of it helping you. Simple tasks like “order Tide Pods from my Amazon order history” should just work with AI agents.
您现在可能打开了 70+ 个选项卡。您一直在与浏览器作斗争,而不是帮助您。像“从我的亚马逊订单历史记录中订购 Tide Pods”这样的简单任务应该只适用于 AI 代理。

We believe AI agents should automate your work locally and securely, not send your data to some search or ad company.
我们认为 AI 代理应该在本地安全地自动化您的工作,而不是将您的数据发送给某些搜索或广告公司。

在这里插入图片描述


第一章:专用AI代理

欢迎来到BrowserOS的第一章!

我们将从理解BrowserOS的核心概念之一开始:专用AI代理

假设我们需要在互联网上完成一项复杂任务,例如"在三个不同网站查找最新款iPhone价格并进行比价"。对计算机程序而言,这并非单一操作,而是涉及网站导航、商品搜索、特定信息(如价格)提取以及数据整合等多个环节。

完成这类任务需要不同类型的"智能"或"技能"。BrowserOS通过专用AI组件处理这些差异化的能力,我们称之为AI代理

这类似于企业中的专家团队协作模式

  • 我们持有项目需求(如寻找最优价格)
  • 将需求提交给项目经理(即后续章节将介绍的AI代理协调器
  • 项目经理将大型项目拆解为子任务并分配至各领域专家
  • 每位专家专精于特定领域,即专业工作者

在BrowserOS中,这些专业工作者即专用AI代理。每个代理专注于处理与网页浏览相关的特定任务类型,例如:

  • 规划代理:擅长制定多步骤浏览器操作方案(导航、搜索、点击)
  • 阅读代理:精于解析网页内容并回答相关问题
  • 交互代理:专攻页面元素操作(按钮点击、表单填写)
  • 管理代理:专注浏览器标签页及设置管理

这些代理处于待命状态,等待协调器(项目经理)分配任务。当接收到符合其专业领域的任务时,代理将运用AI能力执行操作。

基础流程示意图:

在这里插入图片描述

(注:此简化流程图展示任务输入→代理处理→结果输出的完整链路)

代理系统由多模块代码构建而成,例如:

  • 网页结构解析模块
  • 决策逻辑模块
  • 数据验证模块
    技术实现涉及:
  • 处理流式数据(如AI模型返回的文本流)
  • 数据格式验证(使用Zod等校验库)
  • 浏览器交互接口(点击/输入等底层操作)

各代码模块协同工作赋予代理专业能力。例如:

  • 规划代理可能包含:任务描述处理模块(解析"在亚马逊查找价格")、大语言模型交互模块(生成分步计划)、结果格式化模块
  • 内容提取代理则包含:页面内容读取模块、大语言模型问答模块

核心设计理念在于:通过多个专注特定领域的AI代理分工协作,替代单一通用AI处理所有任务。

这种架构显著提升系统组织性、执行效率与管理便利性。

理解专用AI代理后,我们将继续探讨任务分配与协调机制的核心——协调器系统。请进入下一章了解AI代理协调器

AI代理协调器


第二章:AI代理协调器

第一章中,我们了解了专用AI代理——由各领域专家组成的团队,每个代理都擅长处理网页浏览中的特定任务(如页面解析或元素定位)。

但系统如何判断特定任务需要调用哪个代理

谁来决定"用户需要摘要文章内容,因此调用内容提取代理"?这正是AI代理协调器的核心作用。

协调器的角色定位

将协调器视为前文提及的项目经理

  • 需求接收:我们(用户)向项目经理提交复合型需求(如"查找互联网最新AI新闻并生成5点摘要")
  • 任务解析:协调器接收请求后,首要任务是判断任务类型(基础浏览?信息提取?标签页管理?)
  • 任务分配:基于分析结果,将复合任务拆解并分派至对应领域的专用代理
  • 流程管控:监督执行流程,确保任务顺序正确,并处理代理返回的结果或异常

简言之,AI代理协调器是BrowserOS智能系统的决策中枢。它不直接执行具体操作(如按钮点击或摘要生成),而是通过调度工作流至合适的AI代理来完成任务。

核心运作流程

在这里插入图片描述

(此流程图展示协调器接收用户请求→任务解析→代理调度-> 专用AI代理 →结果整合→最终输出的完整链路)

核心职责分解

  • 意图理解:精准识别用户需求本质
  • 任务路由:将请求分派至最匹配的代理(或代理序列)
  • 流程管理:跟踪多步骤任务进度并决策后续动作
  • 异常处理:响应代理执行失败或意外情况
  • 结果整合:组合多代理输出生成最终结果

技术实现透视

在代码库中,协调器逻辑通常存在于核心模块。以下为简化的processUserRequest函数示意:

async function processUserRequest(request) 
{  
    // 1. 解析请求内容  
    console.log("协调器: 接收请求:", request);  

    // 2. 判断任务类型(简化示例)  
    let taskType = "unknown";  
    if (request.includes("摘要") || request.includes("什么是")) 
    {  
        taskType = "extraction";  
    } else if (request.includes("访问") || request.includes("查找按钮")) 
    {  
        taskType = "browsing";  
    }  
    console.log("协调器: 识别任务类型:", taskType);  

    // 3. 路由至对应代理  
    let result = null;  
    if (taskType === "extraction") {  
        console.log("协调器: 路由至内容提取代理...");  
        // result = await ExtractionAgent.handle(request);  
        result = "模拟摘要结果"; // 替换为实际代理调用  
    } else if (taskType === "browsing") {  
        console.log("协调器: 路由至浏览代理...");  
        // result = await BrowsingAgent.handle(request);  
        result = "模拟浏览结果"; // 替换为实际代理调用  
    } else {  
        console.log("协调器: 无法识别任务类型,路由至默认代理");  
        result = "无法处理请求"; // 替换为实际代理调用  
    }  

    // 4. 返回最终结果  
    console.log("协调器: 最终结果:", result);  
    return result;  
}  

// 假设的调用示例  
// processUserRequest("为本文生成摘要");  
// processUserRequest("访问google.com并点击搜索按钮");  

实际生产环境中的协调器更为复杂,需处理多轮对话维护执行状态(如当前标签页、历史操作),并协调多代理顺序协作(例如先由浏览代理定位页面,再由提取代理解析内容)。

核心价值

协调器作为系统的智能调度中心,通过理解全局目标并指挥专用代理协同工作,在浏览器环境中构建起高效的任务执行链路。

理解协调器(决策中枢)与专用代理(领域专家)的协作机制后,我们将深入其运行基础——浏览器内核,请继续阅读下一章Nxtscape浏览器核心

Nxtscape浏览器核心

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值