Qwen WebAgent 系列

GitHub地址: https://github.com/Alibaba-NLP/WebAgent#

共有5篇系列文章

为Agent(React架构)在web search(Deepsearch)提供BenchMark以及模型训练方法。

WebWalker

将原始instruct-answer的single-step数据扩展到multi-step上。

构建QA对

  1. 递归的访问root url下面的子url

  2. 排列组合网页信息,并根据url跳转的难度划分难度等级

  3. 根据组合后的网页信息,调用gpt-4o(之类的api)生成QA pair。

值得注意的是,A应该是容易验证的,像是实体的明确的属性、时间、人物、数值等。

难度分类:

  1. single-source:从一个root url出发,更像是dfs

  2. multi- source:更像是bfs,要融合更广的网页信息

暂时无法在飞书文档外展示此内容

WebDancer

在构建数据的同时,增加cold-start&RL

  1. 构建QApair

    1. CRAWLQA:类似WebWalker的构建方法,根据官网的root url递归访问网页,并生成QA

    2. E2HQA:有点像定语从句的感觉,把Q中的entity(一般是名词)递归式地替换成一段描述的语句,增加Q的难度,增强逻辑性。【突然想到,定语从句可以有效的减少entity,或是说将 高信息(低熵)的entity换成低信息(高熵)的entity,在逻辑上增加q的难度。】

      • 如果是基于单一属性(路径):比如,想找一个和A在同一年出生的人。那么从A入手通过一步搜索可以得到A的出生时间,是只有一个指向路径的

      • 如果是多指向呢:比如,想找一个和A获得过同一个奖项的人且和B同一年出生。那么

        • 先从B入手,得到想找人的出生时间T(1路径)

        • 再从A入手,需要看A获得的各个奖项中,是否有一个人T年出生(M路径,因为A可能获得M个奖项,搜索的宽度更大,QA任务更难)

  2. 利用QA,采样trajectories并进行filter(ReAct采样)

    /* by 01022.hk - online tools website : 01022.hk/zh/subnetmask.html */
    def search(q:List[str]):
    '''
    根据q,查找网页信息
    '''
    
    def visit(url:str, goal:str):
    '''
    访问具体的网页链接url,并根据目标goal,返回给main agent此网页的总结
    '''
    
    1. Validity control:保证ReAct的格式正确,如工具调用、正确结束等

    2. Correctness verification:保证answer的正确性(由于是强推理的Q,answer正确也间接地保证了trajectory的正确性,其实主要目的就是为了构建正确的trajectory即multi-step的数据

    3. Quality assessment:使用llm判断是否有幻觉、等等主观指标

  3. SFT:注入formart、tool 使用等知识

注意对observation进行mask

  1. RL:增强泛化性

使用DAPO进行RL,以及llm as judge判断answer相较于ground-truth是否是对的。。

实验结果:

RL对LLM的提升是显著的,但是对LRM的提升并较少(QwQ)

暂时无法在飞书文档外展示此内容

WebSailor

在WebDancer基础上,进一步构建数据集

问题:

  1. 考虑到采样的LRM的thought很长,且有明显的风格,可能会在sft时与原始policy的pattern并不相似,导致acc sharp的现象。

  2. Context overload:reasoning chains过长的话,较多的tool调用将会导致history超过上下文的限制

数据构建:

  1. QA对构建:基于知识图谱知识图谱的构建并不太了解】,并添加混淆(扩大时间范围,mask具体的实体名称等),增加难度

  2. Trajectory采样:基于原始的(reason,action,observation)以及当前的aciton和observation构建当前的reasoning

训练:

  1. RFT:拒绝采样

  2. RL:DUPO(DUplicate Policy Optimization)。与DAPO不同的是,在删除掉acc=1/0的prompt后,直接复制原始batch中acc!=0/1的prompt,来填充batch进行训练。(batch的padding方式不同罢了) DUPO还有个off-policy的filter,其实就是在RL之前就把过于简单(8 rollout都对的)的case给filter掉了。

暂时无法在飞书文档外展示此内容

WebShaper.pdf

WebWatcher

贡献:将text-search agent扩展到visual-text search agent中。其实就是在q中添加了图片信息,以及添加了新的image-search、OCR、code interpreter三个工具。

难点:将QA转化成VQA。

  1. convert:将相关的entity 使用google image api找到相应的图片,

  2. mask:并mask掉提到此实体的文本信息,并用image替换

  3. selector:filter mask失败的VQA,并用gpt-4o评估图片和Q的相关性

  4. examiner:看gpt-4o能否在正确回答mask后的q,在仅使用image和image相关信息的条件下。如果回答错误,那么此VQA不匹配,filter掉。(不太理解_,associated captions of image是怎么获得的_。。RAG么,还是什么其他的方法。如果gpt-4o判断不出来,可能是它模型自身的问题哇。。)

(Kriging_NSGA2)克里金模型结合多目标遗传算法求最优因变量及对应的最佳自变量组合研究(Matlab代码实现)内容概要:本文介绍了克里金模型(Kriging)与多目标遗传算法NSGA-II相结合的方法,用于求解最优因变量及其对应的最佳自变量组合,并提供了完整的Matlab代码实现。该方法首先利用克里金模型构建高精度的代理模型,逼近复杂的非线性系统响应,减少计算成本;随后结合NSGA-II算法进行多目标优化,搜索帕累托前沿解集,从而获得多个最优折衷方案。文中详细阐述了代理模型构建、算法集成流程及参数设置,适用于工程设计、参数反演等复杂优化问题。此外,文档还展示了该方法在SCI一区论文中的复现应用,体现了其科学性与实用性。; 适合人群:具备一定Matlab编程基础,熟悉优化算法和数值建模的研究生、科研人员及工程技术人员,尤其适合从事仿真优化、实验设计、代理模型研究的相关领域工作者。; 使用场景及目标:①解决高计算成本的多目标优化问题,通过代理模型降低仿真次数;②在无法解析求导或函数高度非线性的情况下寻找最优变量组合;③复现SCI高水平论文中的优化方法,提升科研可信度与效率;④应用于工程设计、能源系统调度、智能制造等需参数优化的实际场景。; 阅读建议:建议读者结合提供的Matlab代码逐段理解算法实现过程,重点关注克里金模型的构建步骤与NSGA-II的集成方式,建议自行调整测试函数或实际案例验证算法性能,并配合YALMIP等工具包扩展优化求解能力。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值