Alibaba-NLP/WebAgent 项目总结

项目概述

名称:WebAgent
机构:阿里巴巴集团通义实验室(Tongyi Lab)
核心目标:构建面向信息检索的网页智能体(Web Agent),实现复杂任务中的自主搜索、推理与决策。
核心组件

  1. WebWalker:网页遍历基准测试与多智能体框架
  2. WebDancer:面向自主信息检索的原生智能体模型
  3. WebSailor:支持超长复杂推理的网页智能体

关键技术与创新

1. WebSailor(2025年预印本)
  • 功能亮点
    • 解决高不确定性、高难度的信息检索任务(如模糊查询、多源信息整合)。
    • 提出 SailorFog-QA 数据集:通过图采样和信息模糊化生成的高难度QA数据集。
  • 训练方法
    • 两阶段训练流程
      • RFT冷启动:基于专家轨迹重构简洁推理链。
      • DUPO算法:高效的智能体强化学习算法(Duplicating Sampling Policy Optimization)。
  • 性能
    • BrowseComp-en(12.0%)、BrowseComp-zh(30.1%)、GAIA(55.4%)等基准上超越开源方案,逼近闭源系统。
2. WebDancer(2025年预印本)
  • 功能亮点
    • 基于 ReAct框架 实现自主搜索与决策(类似Deep Research模型)。
    • 支持长视界任务(多步骤网页遍历、复杂推理)。
  • 训练方法
    • 四阶段训练范式
      1. 网页数据构建
      2. 轨迹采样
      3. 监督微调(SFT)
      4. DAPO算法:轨迹级监督+强化学习优化泛化能力。
  • 性能
    • GAIA(Pass@3: 64.1%)、WebWalkerQA(62.0%)领先。
3. WebWalker(ACL 2025)
  • 功能亮点
    • 首个专注于 网页遍历(Web Traversal) 的基准测试框架。
    • 提供多智能体协作框架支持复杂信息检索。
  • 创新
    • 提出网页环境模拟与轨迹评估标准。

快速使用指南

  1. 环境配置
    conda create -n webdancer python=3.12
    pip install -r requirements.txt
    
  2. 模型部署
    • 下载模型后运行脚本:
      bash scripts/deploy_model.sh WebDancer_PATH
      
  3. 运行Demo
    • 需申请以下API密钥:
      • GOOGLE_SEARCH_KEY(Serper提供)
      • JINA_API_KEY(Jina提供)
    • 启动Gradio交互界面:
      bash scripts/run_demo.sh
      

成果展示

  • WebSailor Demo
    • 解决高模糊性任务(如BrowseComp-en/zh、日常复杂查询)。
  • WebDancer Demo
    • 执行多步骤任务(如WebWalkerQA网页遍历、GAIA深度问答)。

许可与引用

  • 许可证:LICENSE
  • 引用格式
    @misc{li2025websailor,
      title={WebSailor: Navigating Super-human Reasoning for Web Agent},
      author={Kuan Li et al.},
      year={2025},
      eprint={2507.02592},
      primaryClass={cs.CL}
    }
    @misc{wu2025webdancer,
      title={WebDancer: Towards Autonomous Information Seeking Agency},
      author={Jialong Wu et al.},
      year={2025},
      eprint={2505.22648},
      primaryClass={cs.CL}
    }
    @misc{wu2025webwalker,
      title={WebWalker: Benchmarking LLMs in Web Traversal},
      author={Jialong Wu et al.},
      year={2025},
      eprint={2501.07572},
      primaryClass={cs.CL}
    }
    

其他信息

  • 人才招聘
    • 开放研究实习生岗位(杭州、北京、上海),研究方向包括:
      • 网页智能体(Web Agent)
      • 强化学习(Agent RL/MARL)
      • 检索增强生成(Agentic RAG)
  • 更新动态
    • 2025.07.03:发布WebSailor模型与Demo,登顶HuggingFace热门论文。
    • 2025.05:开源WebDancer模型与交互演示。
    • 2025.01:WebWalker被ACL 2025收录。

核心价值

  • 技术突破
    • 首次在复杂网页任务中实现接近人类的推理能力(WebSailor)。
    • 构建端到端训练流水线(SFT+RL),推动智能体泛化性能。
  • 开源贡献
    • 提供全套代码、模型、数据集及演示,推动社区发展。

此项目标志着大模型在网页信息检索领域的重大进展,尤其在高难度任务上实现了开源模型的性能飞跃。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值