项目概述
名称:WebAgent
机构:阿里巴巴集团通义实验室(Tongyi Lab)
核心目标:构建面向信息检索的网页智能体(Web Agent),实现复杂任务中的自主搜索、推理与决策。
核心组件:
- WebWalker:网页遍历基准测试与多智能体框架
- WebDancer:面向自主信息检索的原生智能体模型
- WebSailor:支持超长复杂推理的网页智能体
关键技术与创新
1. WebSailor(2025年预印本)
- 功能亮点:
- 解决高不确定性、高难度的信息检索任务(如模糊查询、多源信息整合)。
- 提出 SailorFog-QA 数据集:通过图采样和信息模糊化生成的高难度QA数据集。
- 训练方法:
- 两阶段训练流程:
- RFT冷启动:基于专家轨迹重构简洁推理链。
- DUPO算法:高效的智能体强化学习算法(Duplicating Sampling Policy Optimization)。
- 两阶段训练流程:
- 性能:
- 在 BrowseComp-en(12.0%)、BrowseComp-zh(30.1%)、GAIA(55.4%)等基准上超越开源方案,逼近闭源系统。
2. WebDancer(2025年预印本)
- 功能亮点:
- 基于 ReAct框架 实现自主搜索与决策(类似Deep Research模型)。
- 支持长视界任务(多步骤网页遍历、复杂推理)。
- 训练方法:
- 四阶段训练范式:
- 网页数据构建
- 轨迹采样
- 监督微调(SFT)
- DAPO算法:轨迹级监督+强化学习优化泛化能力。
- 四阶段训练范式:
- 性能:
- GAIA(Pass@3: 64.1%)、WebWalkerQA(62.0%)领先。
3. WebWalker(ACL 2025)
- 功能亮点:
- 首个专注于 网页遍历(Web Traversal) 的基准测试框架。
- 提供多智能体协作框架支持复杂信息检索。
- 创新:
- 提出网页环境模拟与轨迹评估标准。
快速使用指南
- 环境配置:
conda create -n webdancer python=3.12 pip install -r requirements.txt
- 模型部署:
- 下载模型后运行脚本:
bash scripts/deploy_model.sh WebDancer_PATH
- 下载模型后运行脚本:
- 运行Demo:
- 需申请以下API密钥:
GOOGLE_SEARCH_KEY
(Serper提供)JINA_API_KEY
(Jina提供)
- 启动Gradio交互界面:
bash scripts/run_demo.sh
- 需申请以下API密钥:
成果展示
- WebSailor Demo:
- 解决高模糊性任务(如
BrowseComp-en/zh
、日常复杂查询)。
- 解决高模糊性任务(如
- WebDancer Demo:
- 执行多步骤任务(如
WebWalkerQA
网页遍历、GAIA
深度问答)。
- 执行多步骤任务(如
许可与引用
- 许可证:LICENSE
- 引用格式:
@misc{li2025websailor, title={WebSailor: Navigating Super-human Reasoning for Web Agent}, author={Kuan Li et al.}, year={2025}, eprint={2507.02592}, primaryClass={cs.CL} } @misc{wu2025webdancer, title={WebDancer: Towards Autonomous Information Seeking Agency}, author={Jialong Wu et al.}, year={2025}, eprint={2505.22648}, primaryClass={cs.CL} } @misc{wu2025webwalker, title={WebWalker: Benchmarking LLMs in Web Traversal}, author={Jialong Wu et al.}, year={2025}, eprint={2501.07572}, primaryClass={cs.CL} }
其他信息
- 人才招聘:
- 开放研究实习生岗位(杭州、北京、上海),研究方向包括:
- 网页智能体(Web Agent)
- 强化学习(Agent RL/MARL)
- 检索增强生成(Agentic RAG)
- 开放研究实习生岗位(杭州、北京、上海),研究方向包括:
- 更新动态:
- 2025.07.03:发布WebSailor模型与Demo,登顶HuggingFace热门论文。
- 2025.05:开源WebDancer模型与交互演示。
- 2025.01:WebWalker被ACL 2025收录。
核心价值
- 技术突破:
- 首次在复杂网页任务中实现接近人类的推理能力(WebSailor)。
- 构建端到端训练流水线(SFT+RL),推动智能体泛化性能。
- 开源贡献:
- 提供全套代码、模型、数据集及演示,推动社区发展。
此项目标志着大模型在网页信息检索领域的重大进展,尤其在高难度任务上实现了开源模型的性能飞跃。