Nanobrowser完全解析:开源多智能体浏览器自动化工具的革命性突破
🌟 为什么选择Nanobrowser?
还在为OpenAI Operator每月200美元的订阅费而犹豫?Nanobrowser作为一款免费开源的Chrome扩展,在提供顶级Web自动化能力的同时,让你完全掌控自己的数据和隐私。与传统浏览器自动化工具相比,Nanobrowser带来三大革命性突破:
- 100%免费无隐藏成本:无需订阅费,使用自己的API密钥,只为实际使用付费
- 隐私优先设计:所有操作在本地浏览器完成,凭证永不共享给任何云服务
- 灵活的LLM选择:连接你偏好的大型语言模型提供商,为不同智能体分配不同模型
🚀 核心功能解析
多智能体协作系统
Nanobrowser最引人注目的创新是其内置的多智能体系统,三种专业AI智能体协同工作完成复杂Web流程:
- Navigator(导航器):处理DOM交互和网页导航,负责实际的浏览器操作
- Planner(规划器):高级任务规划和策略制定,决定如何完成用户需求
- Validator(验证器):验证任务完成情况和结果准确性,确保操作正确执行
智能体逻辑实现位于chrome-extension/src/background/agent/目录,采用模块化设计,便于扩展和定制。
交互式侧边面板
Nanobrowser提供直观的聊天界面,实时显示任务状态更新。侧边面板代码位于pages/side-panel/目录,采用React + TypeScript + Tailwind构建,支持:
- 自然语言任务输入
- 实时操作可视化
- 任务进度追踪
- 多轮对话历史
任务自动化与后续问题
Nanobrowser不仅能无缝自动化跨网站的重复性Web任务,还支持关于已完成任务的上下文后续问题。核心实现位于chrome-extension/src/background/agent/executor.ts,通过Chrome的消息传递API实现智能体之间的协调。
💻 技术架构深度剖析
整体架构
Nanobrowser采用monorepo架构,使用Turbo进行构建编排和pnpm工作区管理,主要包含三大模块:
-
核心扩展(chrome-extension/):主Chrome扩展清单和后台脚本
- src/background/:包含多智能体系统的后台服务工作器
- src/background/agent/:AI智能体实现
- src/background/browser/:浏览器自动化和DOM操作
-
UI页面(pages/):
- side-panel/:主聊天界面
- options/:扩展设置页面
- content/:页面注入的内容脚本
-
共享包(packages/):
多智能体协作流程
智能体之间通过Chrome的消息传递API进行通信,确保协同工作的高效性和可靠性。
🔧 快速开始指南
安装方式
从Chrome网上应用店安装
- 访问Nanobrowser Chrome Web Store页面
- 点击"Add to Chrome"按钮
- 确认安装提示
手动安装最新版本
-
从官方仓库下载最新的
nanobrowser.zip文件:git clone https://gitcode.com/GitHub_Trending/na/nanobrowser -
解压
nanobrowser.zip文件 -
在Chrome中打开
chrome://extensions/ -
启用"开发者模式"(右上角)
-
点击"加载已解压的扩展程序"(左上角)
-
选择解压后的
nanobrowser文件夹
配置智能体模型
- 点击工具栏中的Nanobrowser图标打开侧边栏
- 点击右上角的
设置图标 - 添加你的LLM API密钥
- 为不同智能体选择要使用的模型(Navigator, Planner等)
🤖 推荐模型配置
Nanobrowser允许为每个智能体配置不同的LLM模型,以平衡性能和成本。以下是经过社区验证的推荐配置:
高性能配置
- Planner: Claude Sonnet 4(出色的推理和规划能力)
- Navigator: Claude Haiku 3.5(高效的网页导航任务处理)
经济高效配置
- Planner: Claude Haiku或GPT-4o(性能合理,成本较低)
- Navigator: Gemini 2.5 Flash或GPT-4o-mini(轻量级且经济高效)
本地模型设置
通过Ollama或其他自定义OpenAI兼容提供商在本地运行模型,实现零API成本和完全隐私保护。推荐本地模型:
- Qwen3-30B-A3B-Instruct-2507
- Falcon3 10B
- Qwen 2.5 Coder 14B
- Mistral Small 24B
本地模型设置指南可参考AGENTS.md中的详细说明。
📝 使用示例
Nanobrowser能够通过简单的自然语言指令完成复杂的Web自动化任务:
新闻摘要
"访问TechCrunch并提取过去24小时的前10个头条新闻"
GitHub研究
"在GitHub上查找趋势Python仓库并按星标数量排序"
购物研究
"在亚马逊上找到价格低于50美元、防水设计且电池续航至少10小时的便携式蓝牙音箱"
🔄 开发与贡献
Nanobrowser是一个开源项目,欢迎社区贡献。开发前请确保满足以下先决条件:
- Node.js (v22.12.0或更高)
- pnpm (v9.15.1或更高)
构建步骤
# 克隆仓库
git clone https://gitcode.com/GitHub_Trending/na/nanobrowser
cd nanobrowser
# 安装依赖
pnpm install
# 构建扩展
pnpm build
# 开发模式(热重载)
pnpm dev
构建后的扩展位于dist目录,可通过Chrome的"加载已解压的扩展程序"功能加载。
贡献指南
贡献者请参考CONTRIBUTING.md文件,我们欢迎各种形式的贡献:
- 分享提示和使用案例
- 提供反馈和建议
- 贡献代码(错误修复、功能添加或文档改进)
🛣️ 未来路线图
Nanobrowser团队正在积极开发令人兴奋的新功能,详细路线图和即将推出的功能请查看我们的GitHub Discussions。主要发展方向包括:
- 更多LLM提供商支持
- 增强的本地模型性能
- 自定义智能体创建工具
- 高级任务调度和自动化
- 团队协作功能
🌐 社区与支持
加入我们不断成长的开发者和用户社区:
- Discord - 与团队和社区聊天
- Twitter - 获取更新和公告
- GitHub Discussions - 分享想法和提问
📄 许可证
Nanobrowser项目采用Apache License 2.0许可,详情请参见LICENSE文件。
Nanobrowser正在重新定义浏览器自动化的未来,通过开源多智能体系统让每个人都能访问强大的Web自动化能力。无论你是开发人员、研究人员还是普通用户,Nanobrowser都能帮助你更高效地完成Web任务,释放更多创造力。立即尝试,体验浏览器自动化的革命性突破!
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考




