自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

栖客

栖霞山下,客坐天涯!

  • 博客(610)
  • 收藏
  • 关注

原创 DeepSeek在计算机教育中的应用:实证案例研究

近年来,大型语言模型(LLMs)在计算机网络和安全领域的专业教育中展现了巨大的潜力。这些模型能够处理和表达复杂的概念,成为传统学习方法的有力补充。尽管初步研究表明LLMs在应用领域知识方面表现出色,但其在全面网络教育中的效能,尤其是涉及复杂技术概念和实际问题解决场景时,仍需通过标准化的专业基准进行系统评估。

2025-04-04 22:34:21 491

原创 大型语言模型在医疗推理中的深入分析:以DeepSeek R1为例

随着人工智能(AI)技术在医疗领域的加速应用,特别是大型语言模型(LLM)的使用,为临床决策支持和患者结果改善提供了前所未有的机会。然而,尽管这些模型在医学考试中表现优异,但其推理能力是否能够与人类专家相媲美仍是一个关键问题。据研究表明,医疗错误每年在美国导致超过250,000人死亡,成为第三大死亡原因,这突显了改进临床推理的重要性。:不同专科的问题分布图研究动机:当前,38%的美国医疗机构正在试点基于LLM的工具,而监管机构批准的AI诊断数量自2020年以来年均增长127%。

2025-04-04 22:26:58 294

原创 Distill-C:通过蒸馏定制增强的NL2SQL方法

实验步骤:在Spider开发集上,FixIt实现了Llama-3.1-8B-Instruct和CodeQwen1.5-7B-Chat分别6.4%和8%的性能提升,大幅缩小了与教师模型的差距。此外,它在客户2的财务分析用例中显著提升了从54%到78%的性能,证明了其在复杂财务数据处理中的能力。实验设计:我们评估了Distill-C框架在多个设置下的一系列情况,从仅使用自然语言(NL-only B)到完整设置(A-Full),逐步增加了监督和定制训练信号的影响,如表2所示。

2025-04-04 19:57:56 417

原创 CoRAG:协同检索增强型生成

我们在CRAB上的实验表明,CoRAG在少样本设置下具有显著的性能优势。我们分析了文档库组成对性能的影响,强调了相关和意外的相关性,同时显示了硬负样本的不利影响。研究动机:这项工作介绍了一个名为CoRAG的框架,该框架允许多个客户共同训练一个共享模型,并在推理过程中使用他们自己的本地文档库。我们引入了CoRAG,一个框架,将RAG扩展到协作环境中,客户可以共同训练共享模型,使用协作文档库。创新点:我们的实验揭示了相关文档对于模型泛化至关重要,而硬负样本可能有害,令人惊讶的是,无关文档甚至可能是有益的。

2025-04-04 08:17:40 765

原创 面向软件工程的人工智能:挑战与路径

已有几项工作使用LLMs进行代码总结,采用的技术包括提示 (Sun等人, 2024b;Su和McMillan 2024;Haldar和Hockenmaier, 2024;Ahmed等人, 2024b)。RepoAgent (Luo等人, 2024) 是一个框架,它分析源代码中的全局上下文关系以生成详细的文档。Shi等人 (2024) 显示,LMs能够生成良好的自然语言大纲——伴随代码的文字描述,将其划分为语义连贯的部分。

2025-04-03 22:40:52 724

原创 推理-SQL:用SQL定制奖励的强化学习,让Text-to-SQL学会动脑子

我们这套方法最亮眼的成绩单: - 在BIRD基准测试上,我们14B参数的模型直接碾压了更大的商业模型——比o3-mini高4%,比Gemini-1.5-Pro-002高3% - 推理成本直降93%,但效果反而更好,就像用五菱宏光的油钱开出了特斯拉的加速 - 模型自己琢磨出的推理方式,比人工设计的”解题模板”更管用。关键发现: - 7B模型加了我们这套奖励机制后,性能直接飙升6.77% - 在Spider等陌生题库上表现也很稳,说明不是死记硬背的”书呆子”我们做了个”模型奥运会”来比试: -

2025-04-03 22:30:07 403

原创 ActionStudio:轻量级动作模型数据与训练框架

动作模型对于实现自主代理执行复杂任务至关重要。然而,由于代理环境的多样性和代理数据的复杂性,训练大规模动作模型仍然具有挑战性。尽管兴趣日益增长,现有的基础设施对可扩展、特定代理的微调支持有限。我们介绍了ActionStudio,一个轻量且可扩展的数据和训练框架,专为动作模型设计。ActionStudio通过标准化格式统一了异构代理轨迹,支持多种训练范式,包括LoRA、全微调和分布式设置,并集成了强大的预处理和验证工具。我们在公共和现实行业基准上验证了其有效性,展示了强大的性能和实际的可扩展性。

2025-04-02 21:14:55 1076

原创 Unicorn: 用于视觉语言模型训练的纯文本数据合成

与传统的图像-文本数据合成框架不同,Unicorn去除了对真实图像数据的依赖,通过减少 API 成本、合成时间和存储需求,提供了一种更高效和可扩展的解决方案。视觉语言模型(VLMs)的快速发展 (H. Liu 等人, 2023, 2024;Zhu 等人, 2023) 进一步强调了大规模高质量图像-文本对训练数据的重要性 (Chen 等人, 2023;Zhao, Zhou 和 Shou, 2024;Bai 等人, 2024)。

2025-03-31 22:39:31 631

原创 基于大型模型的多任务语义通信

LAM的出现显著改变了语言处理任务的领域 (Naveed et al. 2023)。随着AI模型的规模和复杂性不断扩大,我们见证了从语言理解到内容生成等新前沿的进步 (Liang et al. 二月 2025)。特别是 ,以Transformer及其衍生物为代表的LAM展现出了无与伦比的能力,能够理解人类语言的细微之处 (Naveed et al. 2023)。这些模型 在语义解析方面表现出色,不仅能够把握单词和短语的显式含义,还能理解隐含关系、习语表达和文本中的情感基调。

2025-03-31 20:50:53 1127

原创 Dewey 长上下文嵌入模型:技术报告

本技术报告介绍了开源dewey_en_beta嵌入模型的训练方法和评估结果。随着检索增强生成(RAG)系统的日益需求以及大型语言模型(LLMs)上下文窗口能力的扩展,传统嵌入模型面临了关键挑战。当前的方法在处理超出典型序列长度限制的文档时,往往难以保持语义连贯性,这显著影响了知识密集型应用中的检索性能。

2025-03-30 15:50:40 225

原创 实时评估模型在RAG中的应用:谁最能检测到幻觉?

本文调查了用于自动检测检索增强生成(RAG)中幻觉的评估模型,并对这些模型在六个RAG应用中的表现进行了全面基准测试。我们研究中包含的方法有:LLM-as-a-Judge、Prometheus、Lynx、Hughes 幻觉评估模型(HHEM)和可信语言模型(TLM)。这些方法都不需要参考标准答案/标签即可捕捉到不正确的LLM响应。我们的研究表明,在各种RAG应用中,其中一些方法能够以高精度/召回率一致地检测到不正确的RAG响应。检索增强生成使AI能够在回答用户请求时依赖特定公司的知识[1]。

2025-03-30 15:46:43 237

原创 我们能让代码变得更绿色吗?理解LLM与人类代码优化中的权衡

快速的技术演变加速了各领域的软件开发,导致全球碳排放量不断增加。尽管大型语言模型(LLMs)声称可以帮助开发人员优化代码以提高性能和能源效率,但它们在现实世界中的实际效果仍需进一步探索,特别是在科学和工程领域,这些领域的编码实践和环境差异较大,而绿色编码意识较低。此外,对于LLMs所应用的优化策略及其与人类推理的一致性程度知之甚少。为填补这些空白,我们评估了LLMs在减少现实世界Matlab项目环境足迹方面的有效性——Matlab是一种在学术界和工业界广泛用于科学和工程应用的语言。

2025-03-30 15:43:13 346

原创 FutureGen:生成科学文章未来工作的LLM-RAG方法

科学文章的未来工作部分通过识别当前研究的空白和局限性来概述潜在的研究方向。这一部分为寻找未开发领域的早期职业研究人员以及寻找新项目或合作的经验丰富的研究人员提供了宝贵的资源。在本研究中,我们从科学文章的关键部分及相关论文中生成未来工作建议,并分析趋势如何演变。我们尝试了各种大型语言模型(LLMs),并集成了检索增强生成(RAG)以增强生成过程。我们结合了一个LLM反馈机制以提高生成内容的质量,并提出了一种将LLM作为评估者的做法。

2025-03-30 15:37:51 276

原创 NLI4DB: 数据库的自然语言接口系统综述

随着在生活各个领域中查询数据库的需求不断增长,研究人员对自然语言接口用于数据库(NLIDB)给予了极大的关注。本文对最近提出的NLIDBs进行了全面的调查。我们首先简要介绍了自然语言处理技术、可执行数据库语言和自然语言与可执行语言之间的中间表示,然后提供了从自然语言到可执行数据库语言的翻译过程概述。翻译过程分为三个阶段:(i)自然语言预处理,(ii)自然语言理解,以及(iii)自然语言翻译。预处理阶段使用了传统方法和数据驱动方法。

2025-03-30 15:27:06 255

原创 CausalRAG:将因果图整合到检索增强生成中

大型语言模型(LLMs)彻底改变了自然语言处理(NLP),特别是通过检索增强生成(RAG),它通过整合外部知识增强了LLM的能力。然而,传统的RAG系统存在关键限制,包括由于文本分块导致的上下文完整性中断,以及过度依赖语义相似性进行检索。为了解决这些问题,我们提出了CausalRAG,这是一种将因果图整合到检索过程中的新框架。通过构建和追踪因果关系,CausalRAG保留了上下文连续性并提高了检索精度,从而生成更准确且可解释的响应。我们将CausalRAG。

2025-03-30 11:19:36 303

原创 RGL:一种以图为中心、模块化的高效图检索增强生成框架

RGL 是一个模块化工具包,旨在简化图数据上 RAG 技术的开发。如图 5 所示,RGL 由四个主要组件组成——运行时、内核、API 和应用——每个组件都提供了专门的功能,以实现高效且灵活的图上 RAG 工作流。

2025-03-30 11:13:08 404

原创 多模态大语言模型时代的代理推荐系统展望

近期大语言模型(LLMs)的突破性进展催生了超越单一模型能力的代理型人工智能系统。通过赋予LLMs感知外部环境、整合多模态信息和与各种工具交互的能力,这些代理系统在复杂任务中表现出更大的自主性和适应性。这一演变带来了推荐系统(RS)的新机遇:基于LLM的代理型推荐系统(LLM-ARS)可以提供更加互动、情境感知和主动的推荐服务,可能重塑用户体验并拓宽推荐系统的应用范围。尽管早期结果令人鼓舞,但基本挑战仍然存在,包括如何有效融入外部知识、平衡自主性与可控性以及在动态多模态环境中评估性能。

2025-03-30 10:08:15 674

原创 DAgent:一种基于关系数据库驱动的数据分析报告生成代理

基于关系数据库驱动的数据分析(RDB-DA)报告生成旨在通过查询关系数据库生成数据分析报告,已在金融、医疗等领域得到广泛应用。通常,这些任务由数据科学家手动完成,这使得过程非常耗时,并显示出对自动化的迫切需求。尽管现有的方法(例如表问答或文本到SQL)被提出以减少人工依赖,但它们无法处理需要多步推理、跨表关联和将见解整合为报告的复杂分析任务。此外,目前尚无可用于开发自动RDB-DA报告生成的数据集。为填补这一空白,本文提出了一种用于RDB-DA报告生成任务的大型语言模型(LLM)代理系统,称为DAgent。

2025-03-30 10:08:03 531

原创 通过答案-公式联合生成实现通用表格问答

先进的表格问答(TableQA)方法提示大型语言模型(LLMs)生成答案文本、SQL查询、Python代码或自定义操作,这显著提升了TableQA任务中的复杂推理问题。然而,这些方法缺乏应对特定问题类型或表格结构的灵活性。相比之下,电子表格公式作为一种广泛使用且明确定义的操作语言,尚未被充分探索以解决TableQA问题。在本文中,我们首次尝试使用公式作为逻辑形式来解决不同结构表格上的复杂推理问题。具体而言,我们从现有数据集中构建了一个大规模的公式注释TableQA数据集 FromulaQA。

2025-03-30 10:07:44 748

原创 Genicious:用于洞察发现的情境化Few-shot提示

数据和洞察发现对于现代组织的决策至关重要。我们介绍了Genicious,这是一个基于LLM的接口,使用户能够与表格数据集交互并用自然语言提出复杂查询。通过对比多种提示策略和语言模型,我们开发了一个端到端工具,利用情境化Few-shot提示,在延迟、准确性和可扩展性方面表现出色。Genicious赋予利益相关者高效探索、分析和可视化其数据集的能力,同时通过基于角色的访问控制和Text-to-SQL方法确保数据安全。在当今的数字时代,数据已成为一种关键资源。

2025-03-30 07:36:21 510

原创 MapQA : 开放领域地理空间问答基于地图数据

地理空间问答(QA)是导航和兴趣点(POI)搜索中的基本任务。尽管现有的地理空间QA数据集存在,但它们在规模和多样性方面受到限制,通常仅依赖于地理实体的文本描述,而未考虑其几何形状。扩大地理空间QA数据集的主要挑战在于地理空间关系的复杂性,这需要整合空间结构、拓扑依赖以及多跳推理能力,而大多数基于文本的QA数据集缺乏这些能力。为解决这些限制,我们引入了 MapQA ,这是一个新颖的数据集,不仅提供了问题-答案对,还包含了问题中引用的地理实体的几何信息。

2025-03-30 07:35:20 1100

原创 在RAG-Text2SQL系统中平衡内容大小

大型语言模型(LLMs)作为一种有前景的解决方案,能够将自然语言查询转换为SQL命令,从而实现无缝的数据库交互。然而,这些文本到SQL(Text2SQL)系统面临着固有的局限性、幻觉生成、过时知识和不可追踪推理等问题。为了解决这些挑战,将检索增强生成(RAG)与Text2SQL模型集成的方法逐渐受到关注。RAG作为一个检索机制,提供必要的上下文信息,如表结构和元数据,以增强查询生成过程。尽管潜力巨大,RAG + Text2SQL系统对检索文档的质量和大小非常敏感。

2025-03-30 07:35:07 650

原创 V-SQL:一种基于视图的两阶段Text-to-SQL框架

Text-to-SQL任务旨在无偏地将自然语言转换为结构化查询语言(SQL)。最近,基于大语言模型(LLMs)的Text-to-SQL方法引起了广泛关注。主流Text-to-SQL框架的核心是模式链接,它将用户查询与数据库中的相关表和列对齐。以前的方法专注于模式链接,而忽略了增强LLMs对数据库模式的理解。数据库中表之间的复杂耦合关系限制了LLMs生成SQL的能力。为了解决这个问题,本文提出了一种简单而有效的策略,称为基于视图的模式。该策略通过将紧密耦合的表解耦为低耦合视图,帮助LLMs理解数据库模式。然后

2025-03-30 07:34:52 974

原创 链式思维推理是否有助于移动GUI代理?一项实证研究

推理能力显著提高了视觉语言模型(VLMs)在数学问题求解、编程和视觉问答等领域的性能。然而,它们对实际应用的影响尚不明确。本文首次对推理增强型VLMs在移动GUI代理中的有效性进行了实证研究,这是一个需要解释复杂屏幕布局、理解用户指令并执行多轮交互的领域。我们评估了两对商业模型——Gemini 2.0 Flash和Claude 3.7 Sonnet,比较了它们的基础版本和推理增强版本在两个静态基准测试(ScreenSpot和AndroidControl)以及一个交互环境(AndroidWorld)上的表现。

2025-03-29 21:23:05 881

原创 SEAlign: 面向软件工程代理的对齐训练

近年来,代码生成模型在自动化软件开发任务方面展示了令人印象深刻的性能,但在现实世界的软件工程场景中仍面临挑战。尽管当前的训练方法,特别是后训练,在解决竞争性编程问题方面表现出色,但它们未能充分准备模型以应对实际软件开发的复杂性。这种错位提出了一个关键问题:现有的对齐训练方法是否适合现实世界的软件工程任务?在本研究中,我们确定了这一问题,并提出了SEAlign,这是一种新颖的对齐框架,旨在弥合代码生成模型与现实世界软件开发任务之间的差距。

2025-03-29 20:47:49 802

原创 MedAgent-Pro:通过基于推理的代理工作流实现证据驱动的多模态医学诊断

开发可靠的AI系统以协助人类临床医生进行多模态医学诊断一直是研究人员的主要目标。近年来,多模态大语言模型(MLLMs)受到了广泛关注,并在多个领域取得了成功。凭借强大的推理能力和根据用户指令执行多种任务的能力,它们在提升医学诊断方面具有巨大潜力。然而,直接将MLLMs应用于医学领域仍面临挑战。它们缺乏对视觉输入的详细感知能力,限制了其进行定量图像分析的能力,而这是医学诊断的关键。此外,MLLMs通常表现出幻觉和推理不一致的问题,而临床诊断必须严格遵循既定标准。

2025-03-29 20:43:30 751

原创 大型语言模型在问答任务中的代理综述

本文综述了基于大型语言模型(LLM)的问答(QA)代理的发展。传统代理面临显著限制,包括大量数据需求和难以推广到新环境的问题。基于LLM的代理通过利用LLM作为核心推理引擎解决了这些挑战。这些代理通过与外部环境交互,实现了比传统QA流水线和简单的LLM QA系统更优的问答效果。我们系统地回顾了LLM代理在问答任务中的设计,按关键阶段组织讨论:规划、问题理解、信息检索和答案生成。此外,本文识别了当前的挑战并探讨了未来的研究方向,以提高LLM代理问答系统的性能。自主代理的概念在人工智能研究中早已被认可。

2025-03-29 20:40:25 606

原创 MemInsight:大型语言模型代理的自主记忆增强

我们评估了MemInsight在丰富原始对话以获取事件总结相关见解方面的有效性。我们利用生成的注释来识别对话中的关键事件,从而用于事件总结。我们将生成的摘要与LoCoMo的事件标签作为基线进行比较。图 2 展示了实验框架,其中基线是发送到LLM模型生成事件摘要的原始对话,然后将基于原始对话和增强对话生成的事件摘要与LoCoMo数据集中的地面真实摘要进行比较。5.3.0.1表 [es_prmpt] 展示了事件总结任务中用于通过生成相关属性增强对话的提示。

2025-03-29 10:53:41 661

原创 GenEdit:复合运算符和持续改进以应对企业级Text-to-SQL的挑战

最近在Text-to-SQL(Text-to-SQL)领域的进展,得益于大型语言模型(LLMs),正在使数据访问民主化。尽管取得了这些进展,但企业部署仍然具有挑战性,因为需要捕捉特定业务知识、处理复杂查询并满足对持续改进的期望。为了解决这些问题,我们设计并实现了GenEdit:我们的Text-to-SQL生成系统,可以通过用户反馈进行改进。GenEdit构建和维护一个公司特定的知识集,采用一系列分解SQL生成的运算符,并使用反馈更新其知识集以改善未来的SQL生成。

2025-03-29 10:46:32 600

原创 用于零样本泛化到定性新任务的思考型智能体

智能生物能够解决在其一生或进化过程中从未遇到过的全新问题。这一能力的重要组成部分是“思考”的能力,即在心理上操纵对象、概念和行为,以规划和评估全新问题的可能解决方案,而无需与环境交互。为了生成真正定性新颖的问题(仍然可以通过心理模拟解决),我们利用环境的组合性质:我们在训练智能体时扣留环境元素的特定组合。基于这种组合的新测试任务因此保证是全新的,但由于智能体在训练过程中接触过每个单独元素(及其两两交互),它仍然是可以心理模拟的。

2025-03-29 10:40:58 826

原创 OmniNova:一个通用的多模态代理框架

将大型语言模型(LLMs)与专用工具集成,为智能自动化系统提供了新的机会。然而,由于协调困难、资源利用效率低下和信息流不一致,组织多个由LLM驱动的代理来处理复杂任务仍然具有挑战性。我们提出了OmniNova,这是一个模块化的多代理自动化框架,将语言模型与专用工具(如网络搜索、爬虫和代码执行能力)相结合。OmniNova引入了三项关键创新:(1)具有不同协调员、规划者、监督者和专家代理的分层多代理架构;(2)根据任务复杂度优化代理部署的动态任务路由机制;

2025-03-29 10:37:28 796

原创 开放深度搜索:通过开源推理代理实现搜索民主化

我们介绍了开放深度搜索(ODS),旨在缩小专有搜索AI解决方案(如Perplexity的Sonar Reasoning Pro和OpenAI的GPT-4o Search Preview)与其开源替代品之间的差距。ODS的主要创新是增强最新开源LLM的推理能力,使用能够明智地利用网络搜索工具来回答查询的推理代理。具体来说,ODS由两个与用户选择的基础LLM协同工作的组件组成:开放搜索工具和开放推理代理。开放推理代理解释给定任务并通过协调一系列动作(包括调用工具,其中之一是开放搜索工具)来完成任务。

2025-03-29 10:33:09 853

原创 基于变化的内在动机的世界模型代理

稀疏奖励环境对强化学习提出了重大挑战,因为反馈较少。内在动机和迁移学习已被证明是解决这一问题的有希望的策略。Change Based Exploration Transfer(CBET)是一种结合了这两种方法的技术,适用于无模型算法,已在处理稀疏反馈方面显示出潜力,但其在现代算法中的有效性尚未得到充分研究。本文提供了CBET在DreamerV3等世界模型算法中的适应,并比较了DreamerV3和IMPALA代理在Crafter和Minigrid稀疏奖励环境中的表现,包括使用和不使用CBET的情况。

2025-03-29 09:33:04 564

原创 从离线多任务数据中学习可泛化的多智能体合作技能以实现多智能体合作

从离线多任务数据中学习能够泛化到具有不同数量智能体和目标的未见任务的合作多智能体策略是一个在许多场景下都极具吸引力的问题。尽管通过聚合多个任务中的通用行为模式作为技能来改进策略迁移是一种有前途的方法,但两个主要挑战阻碍了离线多任务MARL(多智能体强化学习)中技能学习的进一步发展。首先,从各种动作序列中提取通用合作行为作为通用技能缺乏将合作时间知识引入其中。其次,现有工作仅涉及通用技能,而无法在每个任务中自适应选择独立知识作为任务特定技能以实现精细的动作执行。为了解决这些问题,我们提出了eparate。

2025-03-29 09:23:18 932

原创 具有偏见意识的代理:增强人工智能驱动的知识检索的公平性

在过去的几年中,获取可访问信息的技术发展速度超过了互联网创建以来几十年的发展。像Google这样的搜索引擎一直是查找相关信息的主要方式。它们一直依赖用户的能力,在指尖触及的数十亿链接和来源中找到最佳信息。大型语言模型(LLMs)的出现彻底改变了信息检索领域。这些LLMs不仅擅长检索相关知识,还能够有效地对其进行总结,使信息更易于访问和消费。此外,AI代理的兴起为信息检索引入了另一个方面——动态信息检索,这使得实时数据(如天气预报和金融数据)与知识库的整合成为可能,从而生成上下文感知的知识。

2025-03-29 09:17:17 997

原创 CA+:增强认知的咨询代理框架,用于长期动态客户参与

本图展示了建立一致治疗存在感的生态自我框架,该框架与阿德勒原则一致。提示定义了咨询师的核心价值观、沟通特征、治疗品质和干预风格,同时强制执行明确的道德边界,以规范治疗关系。这些组件共同实施了主文中描述的客户适应方法,即根据积累的客户理解和即时接收线索不断优化治疗互动。

2025-03-29 09:08:29 796

原创 大型语言模型代理:方法论、应用与挑战综述

人工智能正在进入一个关键时代,随着大语言模型(LLM)代理的出现——这些智能实体通过大语言模型具备感知环境、推理目标和执行行动的能力。与仅响应用户输入的传统AI系统不同,现代LLM代理通过持续学习、推理和适应积极地与其环境互动。这一转变代表了技术进步以及人类与机器关系的根本重塑。商业化的LLM代理系统(例如,DeepResearch、DeepSearch 和 Manus)体现了这种范式转变——自主执行曾经需要人类专业知识的复杂任务,从深入研究到计算机操作,并根据特定用户需求进行调整。

2025-03-29 08:57:09 571

原创 UI-R1:通过强化学习增强GUI代理的动作预测能力

最近的DeepSeek-R1展示了通过基于规则的强化学习(RL)在大型语言模型(LLMs)中涌现出的推理能力。基于这一理念,我们首次探索了如何利用基于规则的RL来增强多模态大语言模型(MLLMs)在图形用户界面(GUI)动作预测任务中的推理能力。为此,我们精心整理了一个包含136个具有挑战性任务的小而高质量的数据集,涵盖了移动设备上的五种常见动作类型。我们还引入了一种统一的基于规则的动作奖励机制,使模型可以通过基于策略的算法(如组相对策略优化(GRPO))进行优化。实验结果表明,我们提出的数据高效模型。

2025-03-29 08:49:40 1239

原创 MedPlan : 一种基于两阶段RAG的个性化医疗计划生成系统

尽管在电子健康记录(EHR)中应用大型语言模型(LLMs)取得了近期成功,但大多数系统主要集中在评估而非治疗规划。我们确定了当前方法中的三个关键限制:它们以单次生成的方式生成治疗计划,而不是遵循临床医生使用的顺序推理过程;它们很少结合患者特定的历史背景;并且它们无法有效区分主观和客观的临床信息。受SOAP方法(主观、客观、评估、计划)的启发,我们引入了 MedPlan ,这是一个新颖的框架,将LLM推理结构化为与现实生活中临床医生工作流程一致的形式。

2025-03-27 21:19:59 1111

原创 NL2SQL-BUGs:用于检测NL2SQL翻译中语义错误的基准

检测NL2SQL翻译中的语义错误需要对可能出现的错误类型有一个清晰和结构化的理解。基于对NL2SQL系统的研究,我们提出了一种全面的两级分类法来对NL2SQL翻译中的语义错误进行分类。NL2SQL中的语义错误分类基于SQL查询的结构、常见的翻译错误及其对查询语义的影响。这种方法允许在查询生成的各个阶段系统地识别错误,帮助确定翻译错误发生的位置和原因。因此,如图 [fig:taxonomy] 所示,我们将语义错误分为9个主要类别,例如 属性相关错误。

2025-03-27 21:11:15 908

【软件工程领域】面向软件工程的人工智能:任务分类、挑战与前进路径了面向软件工程

内容概要:本文由MIT CSAIL、加州大学伯克利分校、康奈尔大学和斯坦福大学等机构的研究人员共同撰写,探讨了面向软件工程的人工智能(AI)所面临的挑战与路径。文章首先介绍了AI在软件工程领域取得的显著进展,并指出要实现高度自动化,使人类能够专注于关键决策,而大多数常规开发工作可以被自动化取代,仍需学术界和工业界的共同努力。文章随后提供了一个面向软件工程的AI具体任务的结构化分类法,涵盖代码生成、代码转换、软件测试与程序分析、软件维护、支架与元代码、形式化验证等多个方面。每个任务根据范围、逻辑复杂性和人类干预水平进行衡量。接着,文章概述了当前AI方法面临的九个关键瓶颈,包括评估与基准、工具的有效使用、人机协作、长期代码规划、大规模范围和长上下文、代码库的语义理解、低资源语言和专用库、库和API版本更新、高逻辑复杂性和OOD域等。最后,文章提出了应对这些挑战的一系列研究方向,如数据收集、训练、推理时间方法等,以期推动AI在软件工程中的进一步发展。 适合人群:对软件工程和人工智能感兴趣的科研人员、工程师及高校师生。 使用场景及目标:①帮助科研人员了解AI在软件工程中的现状与挑战;②为工程师提供改进自动化工具的思路;③指导高校师生开展相关领域的研究与教学。 其他说明:本文不仅总结了当前AI在软件工程中的进展,还指出了未来研究的方向,鼓励学术界和工业界共同努力,以实现AI在软件工程中的更大潜力。文章引用了大量最新的研究成果和案例,为读者提供了详实的参考资料。

2025-04-03

### 【自然语言处理】基于强化学习的部分奖励优化Text-to-SQL任务:推理-SQL系统设计与性能提升

内容概要:本文介绍了一种名为Reasoning-SQL的新方法,它使用SQL定制部分奖励的强化学习(RL)以增强Text-to-SQL任务。Text-to-SQL任务涉及自然语言理解、数据库模式理解和精确的SQL查询生成,传统方法依赖于监督微调(SFT),在复杂推理上表现不佳。Reasoning-SQL通过引入部分奖励(如模式链接、AI反馈、n-gram相似性和语法检查)和组相对策略优化(GRPO)来克服奖励稀疏性问题,显著提升了模型的推理能力和泛化能力。实验结果显示,该方法在多个基准测试中超越了现有方法,特别是在BIRD基准测试中,14B参数的模型性能优于更大规模的专有模型。 适合人群:具备一定机器学习和自然语言处理基础的研究人员和技术人员,尤其是对强化学习和Text-to-SQL任务感兴趣的读者。 使用场景及目标:①理解如何通过部分奖励和RL优化Text-to-SQL模型的推理能力;②学习如何设计和实现适合Text-to-SQL任务的奖励函数;③评估Reasoning-SQL方法在不同基准测试中的表现,特别是在泛化和推理效率方面。 其他说明:此方法不仅在性能上优于传统的SFT方法,还在成本效益方面表现出色,能够在单个GPU上部署的情况下达到最先进的性能。实验还表明,RL训练促进了模型的结构化推理能力,使其在复杂查询中表现更好。

2025-04-03

ActionStudio:轻量级动作模型数据与训练框架

内容概要:本文介绍了ActionStudio,一个专为动作模型设计的轻量且可扩展的数据与训练框架。ActionStudio通过标准化格式统一了异构代理轨迹,支持多种训练范式(如LoRA、全微调和分布式设置),并集成了强大的预处理和验证工具。它在公共和现实行业的基准测试中展示了强大的性能和实际的可扩展性。ActionStudio的贡献包括:1)轻量且可扩展的训练框架,支持模块化的训练工作流;2)实现自动化的数据管道,涵盖数据收集、格式统一、质量过滤和格式转换;3)在公共和现实行业基准测试中验证了有效性。; 适合人群:具备一定编程基础,对动作模型和代理系统感兴趣的开发者和研究人员。; 使用场景及目标:①支持多样化的代理数据源转换为标准化、训练就绪的格式;②支持多种训练范式,包括LoRA、全微调和分布式训练;③提高模型训练效率和可扩展性,特别是在现实世界代理应用中;④提供即用型数据集,加速模型训练。; 其他说明:ActionStudio旨在解决现有基础设施对可扩展、特定代理的微调支持有限的问题。它不仅提供了高效的训练管道,还开源了代码和数据以促进社区研究。在NexusRaven和Salesforce CRM代理基准上的评估证明了其有效性和实用性。用户可以在GitHub上找到开源代码和数据。

2025-04-02

Unicorn: 用于视觉语言模型训练的纯文本数据合成

视觉语言模型(VLMs)的快速发展 (H. Liu 等人, 2023, 2024; Zhu 等人, 2023) 进一步强调了大规模高质量图像-文本对训练数据的重要性 (Chen 等人, 2023; Zhao, Zhou 和 Shou, 2024; Bai 等人, 2024) 。然而,扩大这种高质量数据的规模仍然是一个持续的挑战,限制了 VLMs 的进一步突破。 获取图像-文本对的传统方法主要依赖于两种策略:(1) 手动标注 (Lin 等人, 2015; Plummer 等人, 2016) 。手动标注确保质量但受限于成本、规模和多样性。(2) 大规模网络爬取 (Sharma 等人, 2018) 可扩展但引入了数据质量问题不一致、合规风险和版权问题。最近的研究,如 ShareGPT4V (Chen 等人, 2023) ,探索了使用高级模型(如 GPT-4v)生成细粒度标题来增强真实图像的方法,从而生成高质量的数据集,在视觉-语言任务中取得了显著改进。然而,这些合成数据方法仍然面临巨大的成本约束。相比之下,文本数据 (Wu 等人, 2024; Long 等人, 2024

2025-03-31

基于大型模型的多任务语义通信

人工智能(AI)有望彻底改变下一代通信系统的 设计、优化和管理。在本文中,我们探讨了通过利用大型AI模型(LAMs)的多模态数据处理和生成能力将其集成到语义通信(SemCom)中。尽管LAMs具备前所未有的从原始数据中提取语义的能力,但这种集成带来了多方面的挑战,包括 高资源需求、模型复杂性以及跨 多样模态和任务的适应性需求。为克服这些挑战,我们提出了一种基于LAM的多任务SemCom(MTSC)架构,其中包括一种自适应模型压缩策略和一种联合分割微调 方法,以促进在 资源受限 网络中高效部署基于LAM的语义模型。此外,还实现了一种检索增强生成方案,通过综合最新的本地和全局知识库 来 提高语义提取和内容生成的准确性,从而改善推理性能。最后,仿真结果证明了所提出的基于LAM的MTSC架构的有效性,突显了在不同信道条件下各种下游任务性能 的提升。

2025-03-31

Dewey 长上下文嵌入模型:技术报告

本技术报告介绍了开源dewey_en_beta嵌入模型的训练方法和评估结果。随着检索增强生成(RAG)系统的日益需求以及大型语言模型(LLMs)上下文窗口能力的扩展,传统嵌入模型面临了关键挑战。当前的方法在处理超出典型序列长度限制的文档时,往往难以保持语义连贯性,这显著影响了知识密集型应用中的检索性能。本文介绍了dewey_en_beta,一种新型文本嵌入模型,在MTEB(Eng, v2)(Enevoldsen等,2025) 和 LongEmbed基准测试(Zhu等,2024)中表现出色,并支持128K令牌序列。我们的技术贡献集中在块对齐训练上,这是一种创新方法,通过蒸馏同时生成局部块嵌入和全局文档级表示 (Zhang等,2025)。有关模型发布的更多信息,请访问 https://huggingface.co/infgrad /dewey_en_beta.

2025-03-30

实时评估模型在RAG中的应用:谁最能检测到幻觉?

本文调查了用于自动检测检索增强生成(RAG)中幻觉的评估模型,并对这些模型在六个RAG应用中的表现进行了全面基准测试。我们研究中包含的方法有:LLM-as-a-Judge、Prometheus、Lynx、Hughes 幻觉评估模型(HHEM)和可信语言模型(TLM)。这些方法都不需要参考标准答案/标签即可捕捉到不正确的LLM响应。我们的研究表明,在各种RAG应用中,其中一些方法能够以高精度/召回率一致地检测到不正确的RAG响应。用于重现我们基准测试的代码可在此处获取:https://github.com/cleanlab/cleanlab-tools/tree/main/benchmarking_hallucination_model

2025-03-30

我们能让代码变得更绿色吗?理解LLM与人类代码优化中的权衡

快速的技术演变加速了各领域的软件开发,导致全球碳排放量不断增加。尽管大型语言模型(LLMs)声称可以帮助开发人员优化代码以提高性能和能源效率,但它们在现实世界中的实际效果仍需进一步探索,特别是在科学和工程领域,这些领域的编码实践和环境差异较大,而绿色编码意识较低。此外,对于LLMs所应用的优化策略及其与人类推理的一致性程度知之甚少。 为填补这些空白,我们评估了LLMs在减少现实世界Matlab项目环境足迹方面的有效性——Matlab是一种在学术界和工业界广泛用于科学和工程应用的语言。与之前关于玩具程序或基准测试的研究不同,我们分析了来自100个顶级GitHub仓库的400个Matlab脚本的能量优化。领先的LLMs——GPT-3、GPT-4、Llama和Mixtral——以及一位资深Matlab开发人员对这些脚本进行了优化,我们从能耗、内存使用、执行时间消耗和代码正确性等方面对其进行了评估。开发人员作为现实世界的基线,用于比较典型的人类和LLM生成的优化。 我们将2176个提出的优化方案映射到13个高级主题,发现LLMs提出了广泛的改进——超越了能源效率——包括改善代码可读性和可维护性

2025-03-30

FutureGen:生成科学文章未来工作的LLM-RAG方法

科学文章的未来工作部分通过识别当前研究的空白和局限性来概述潜在的研究方向。这一部分为寻找未开发领域的早期职业研究人员以及寻找新项目或合作的经验丰富的研究人员提供了宝贵的资源。在本研究中,我们从科学文章的关键部分及相关论文中生成未来工作建议,并分析趋势如何演变。我们尝试了各种大型语言模型(LLMs),并集成了检索增强生成(RAG)以增强生成过程。我们结合了一个LLM反馈机制以提高生成内容的质量,并提出了一种将LLM作为评估者的做法。我们的结果显示,基于RAG的方法加上LLM反馈在定性和定量指标评估中优于其他方法。此外,我们进行了一项人工评估,以评估LLM作为提取器和评估者的性能。

2025-03-30

NLI4DB: 数据库的自然语言接口系统综述

随着在生活各个领域中查询数据库的需求不断增长,研究人员对 自然 语言 接口 用于 数据 库 (NLIDB)给予了极大的关注。本文对最近提出的NLIDBs进行了全面的调查。我们首先简要介绍了自然语言处理技术、可执行数据库语言和自然语言与可执行语言之间的中间表示,然后提供了从自然语言到可执行数据库语言的翻译过程概述。翻译过程分为三个阶段:(i) 自然语言预处理 ,(ii) 自然语言理解 ,以及(iii) 自然语言翻译 。预处理阶段使用了传统方法和数据驱动方法。传统方法依赖于预定义的规则和语法,并涉及正则表达式、依存句法分析和命名实体识别等技术。数据驱动方法依赖于大规模数据和机器学习模型,使用包括词嵌入和模式链接在内的技术。自然语言理解方法分为三类:(i) 基于规则 ,(ii) 基于机器学习 ,以及(iii) 混合方法 。随后,我们描述了在关系数据库和时空数据库上构建可执行语言的一般过程。接下来,展示了将自然语言转换为可执行语言的常用基准和评估指标,并探讨了生成新基准的方法。最后,我们总结了NLIDB系统的分类、发展和增强,并讨论了与NLIDB相关的深度语言理解和数据库交互技术,包括(i)

2025-03-30

CausalRAG:将因果图整合到检索增强生成中

大型语言模型(LLMs)彻底改变了自然语言处理(NLP),特别是通过检索增强生成(RAG),它通过整合外部知识增强了LLM的能力。然而,传统的RAG系统存在关键限制,包括由于文本分块导致的上下文完整性中断,以及过度依赖语义相似性进行检索。为了解决这些问题,我们提出了 CausalRAG ,这是一种将因果图整合到检索过程中的新框架。通过构建和追踪因果关系, CausalRAG 保留了上下文连续性并提高了检索精度,从而生成更准确且可解释的响应。我们将 CausalRAG 与普通RAG和基于图的RAG方法进行了比较,展示了其在多个指标上的优越性。我们的研究结果表明,基于因果推理的检索为知识密集型任务提供了一种有前途的方法。

2025-03-30

RGL:一种以图为中心、模块化的高效图检索增强生成框架

近年来,图学习领域的进步见证了大量旨在增强图上检索增强生成(RAG)各个方面的方法的涌现 (Guo et al. 2024; Y. Hu et al. 2024; M. Li, Miao, and Li 2025) 。给定一个查询,RAG 从现有数据中检索相关样本(上下文),并根据检索到的信息生成响应。图上的检索增强生成(RoG)通过利用图结构更有效地检索上下文信息,扩展了 RAG 的功能。各种图应用,例如问答、节点分类和推荐——这些应用包含丰富的结构化数据(例如用户-项目交互 (J. Hu et al. 2024a) 、论文引用网络 (J. Hu, Hooi, 和 He 2024) 等)——可以潜在地受益于 RoG 技术 (He et al. 2025; Edge et al. 2024) 。 给定一个图,例如社交网络或电子商务图,我们在图 1 中展示了典型的图上 RAG 流程。该流程从 1) 索引 开始,其中节点被组织以便于高效访问。接下来,2) 节点检索 根据连通性或属性选择相关节点,然后 3) 图检索 构建子图以捕获局部结构。这些子图在 4) 分词 阶段被转

2025-03-30

基于LLM的数据分析中的洞察生成方法

从数据库中生成有见地且可操作的信息在数据分析中至关重要。本文介绍了一种使用大型语言模型(LLMs)自动生成文本洞察的新方法。给定一个多表数据库作为输入,我们的方法利用LLMs生成反映表格中有趣模式的简洁文本洞察。我们的框架包括一个假设生成器,用于制定与领域相关的问题;一个查询代理,通过生成SQL查询来回答这些问题;以及一个摘要模块,将洞察转化为自然语言。这些洞察通过结合人类判断和自动化指标的方式进行评估,确保其正确性和主观洞察性。在公共和企业数据库上的实验结果表明,我们的方法生成的洞察比其他方法更具洞察力,同时保持了准确性。

2025-03-29

V-SQL:一种基于视图的两阶段Text-to-SQL框架

Text-to-SQL任务旨在无偏地将自然语言转换为结构化查询语言(SQL)。最近,基于大语言模型(LLMs)的Text-to-SQL方法引起了广泛关注。主流Text-to-SQL框架的核心是模式链接,它将用户查询与数据库中的相关表和列对齐。以前的方法专注于模式链接,而忽略了增强LLMs对数据库模式的理解。数据库中表之间的复杂耦合关系限制了LLMs生成SQL的能力。为了解决这个问题,本文提出了一种简单而有效的策略,称为基于视图的模式。该策略通过将紧密耦合的表解耦为低耦合视图,帮助LLMs理解数据库模式。然后我们介绍了V-SQL,一种基于视图的两阶段Text-to-SQL框架。V-SQL利用基于视图的模式策略来增强LLMs对数据库模式的理解。在权威数据集Bird上的结果表明,V-SQL与现有的最先进的方法相比具有竞争力。 关键词:大语言模型,Text-to-SQL,情境学习,数据库,NLP。

2025-03-29

在RAG-Text2SQL系统中平衡内容大小

大型语言模型(LLMs)作为一种有前景的解决方案,能够将自然语言查询转换为SQL命令,从而实现无缝的数据库交互。然而,这些文本到SQL(Text2SQL)系统面临着固有的局限性、幻觉生成、过时知识和不可追踪推理等问题。为了解决这些挑战,将检索增强生成(RAG)与Text2SQL模型集成的方法逐渐受到关注。RAG作为一个检索机制,提供必要的上下文信息,如表结构和元数据,以增强查询生成过程。尽管潜力巨大,RAG + Text2SQL系统对检索文档的质量和大小非常敏感。虽然更丰富的文档内容可以提高结构相关性和检索准确性,但同时也引入了噪声,增加了幻觉生成的风险,并随着Text2SQL模型提示大小的增加而降低了查询保真度。本研究探讨了文档大小与质量之间的微妙权衡,旨在找到优化系统性能的平衡点。确定了性能下降的关键阈值,并提出了应对这些挑战的实际策略。此外,我们还探讨了Text2SQL模型中的幻觉现象,强调精心策划的文档呈现方式在减少错误中的关键作用。我们的研究结果为增强RAG + Text2SQL系统的鲁棒性提供了路线图,为实际应用提供了实用见解。

2025-03-29

MAPQA : 开放领域地理空间问答基于地图数据

地理空间问答(QA)是导航和兴趣点(POI)搜索中的基本任务。尽管现有的地理空间QA数据集存在,但它们在规模和多样性方面受到限制,通常仅依赖于地理实体的文本描述,而未考虑其几何形状。扩大地理空间QA数据集的主要挑战在于地理空间关系的复杂性,这需要整合空间结构、拓扑依赖以及多跳推理能力,而大多数基于文本的QA数据集缺乏这些能力。为解决这些限制,我们引入了 MAPQA ,这是一个新颖的数据集,不仅提供了问题-答案对,还包含了问题中引用的地理实体的几何信息。 MAPQA 使用SQL查询模板从OpenStreetMap(OSM)中提取问题-答案对,研究区域为南加州和伊利诺伊州。它由3,154个QA对组成,涵盖九种需要地理空间推理的问题类型,如邻里推断和地理实体类型识别。与现有数据集相比, MAPQA 扩展了地理空间问题类型的数量和多样性。我们探索了两种方法来应对这一挑战:(1)基于检索的语言模型,通过嵌入相似性对候选地理实体进行排名;(2)大型语言模型(LLM),根据自然语言问题和地理实体属性生成SQL查询,并在OSM数据库上执行。我们的研究结果表明,基于检索的方法能够有效捕捉诸如

2025-03-29

Genicious:用于洞察发现的情境化Few-shot提示

数据和洞察发现对于现代组织的决策至关重要。我们介绍了Genicious,这是一个基于LLM的接口,使用户能够与表格数据集交互并用自然语言提出复杂查询。通过对比多种提示策略和语言模型,我们开发了一个端到端工具,利用情境化Few-shot提示,在延迟、准确性和可扩展性方面表现出色。Genicious赋予利益相关者高效探索、分析和可视化其数据集的能力,同时通过基于角色的访问控制和Text-to-SQL方法确保数据安全。

2025-03-29

通过答案-公式联合生成实现通用表格问答

先进的表格问答(TableQA)方法提示大型语言模型(LLMs)生成答案文本、SQL查询、Python代码或自定义操作,这显著提升了TableQA任务中的复杂推理问题。然而,这些方法缺乏应对特定问题类型或表格结构的灵活性。相比之下,电子表格公式作为一种广泛使用且明确定义的操作语言,尚未被充分探索以解决TableQA问题。在本文中,我们首次尝试使用公式作为逻辑形式来解决不同结构表格上的复杂推理问题。具体而言,我们从现有数据集中构建了一个大规模的公式注释TableQA数据集 FromulaQA 。此外,我们提出了 TabAF ,这是一个用于同时解决多种类型表格上多种类型任务的通用表格回答框架。与现有方法不同, TabAF 通过单一的LLM主干解码答案和公式,展示了极高的灵活性和泛化能力。 TabAF 基于Llama3.1-70B在WikiTableQuestion、HiTab和TabFact上实现了新的最先进性能。

2025-03-29

DAgent:一种基于关系数据库驱动的数据分析报告生成代理

基于关系数据库驱动的数据分析(RDB-DA)报告生成旨在通过查询关系数据库生成数据分析报告,已在金融、医疗等领域得到广泛应用。通常,这些任务由数据科学家手动完成,这使得过程非常耗时,并显示出对自动化的迫切需求。尽管现有的方法(例如表问答或文本到SQL)被提出以减少人工依赖,但它们无法处理需要多步推理、跨表关联和将见解整合为报告的复杂分析任务。此外,目前尚无可用于开发自动RDB-DA报告生成的数据集。为填补这一空白,本文提出了一种用于RDB-DA报告生成任务的大型语言模型(LLM)代理系统,称为DAgent;此外,我们还构建了一个用于自动生成数据分析报告的基准测试,包括一个新的数据集DA-Dataset和评估指标。DAgent通过集成规划、工具和记忆模块,将自然语言问题分解为逻辑独立的子查询,准确地从关系数据库中检索关键信息,并通过多步推理和有效的数据整合生成满足完整性、正确性和简洁性要求的分析报告。在DA-Dataset上的实验分析表明,DAgent在检索性能和分析报告生成质量方面具有优越性,展示了其解决复杂数据库分析报告生成任务的强大潜力。

2025-03-29

多模态大语言模型时代的代理推荐系统展望

近期大语言模型(LLMs)的突破性进展催生了超越单一模型能力的代理型人工智能系统。通过赋予LLMs感知外部环境、整合多模态信息和与各种工具交互的能力,这些代理系统在复杂任务中表现出更大的自主性和适应性。这一演变带来了推荐系统(RS)的新机遇:基于LLM的代理型推荐系统(LLM-ARS)可以提供更加互动、情境感知和主动的推荐服务,可能重塑用户体验并拓宽推荐系统的应用范围。尽管早期结果令人鼓舞,但基本挑战仍然存在,包括如何有效融入外部知识、平衡自主性与可控性以及在动态多模态环境中评估性能。在本文视角论文中,我们首先对LLM-ARS进行了系统分析:(1) 澄清核心概念和架构;(2) 强调代理能力(如规划、记忆和多模态推理)如何提升推荐质量;(3) 提出关键研究问题,涉及安全性、效率和终身个性化等领域。我们还讨论了开放问题和未来方向,认为LLM-ARS将推动推荐系统的下一轮创新。最终,我们预见推荐体验将向智能化、自主化和协作化的方向转变,更贴近用户不断变化的需求和复杂的决策过程。

2025-03-29

链式思维推理是否有助于移动GUI代理?一项实证研究

推理能力显著提高了视觉语言模型(VLMs)在数学问题求解、编程和视觉问答等领域的性能。然而,它们对实际应用的影响尚不明确。本文首次对推理增强型VLMs在移动GUI代理中的有效性进行了实证研究,这是一个需要解释复杂屏幕布局、理解用户指令并执行多轮交互的领域。我们评估了两对商业模型——Gemini 2.0 Flash和Claude 3.7 Sonnet,比较了它们的基础版本和推理增强版本在两个静态基准测试(ScreenSpot和AndroidControl)以及一个交互环境(AndroidWorld)上的表现。我们惊讶地发现,Claude 3.7 Sonnet推理模型在AndroidWorld上取得了最先进的性能。然而,推理VLMs在静态基准测试中通常只提供边际改进,甚至在某些代理设置下会降低性能。值得注意的是,推理和非推理VLMs在不同的任务集上失败,这表明推理确实有影响,但其利弊相互抵消。我们将这些不一致归因于基准测试和VLMs的局限性。基于研究结果,我们为通过基准测试、VLMs及其动态调用推理VLMs的能力进一步提升移动GUI代理提供了见解。实验数据已在以下网址公开: https:/

2025-03-29

SEAlign: 面向软件工程代理的对齐训练

近年来,代码生成模型在自动化软件开发任务方面展示了令人印象深刻的性能,但在现实世界的软件工程场景中仍面临挑战。尽管当前的训练方法,特别是后训练,在解决竞争性编程问题方面表现出色,但它们未能充分准备模型以应对实际软件开发的复杂性。这种错位提出了一个关键问题:现有的对齐训练方法是否适合现实世界的软件工程任务?在本研究中,我们确定了这一问题,并提出了SEAlign,这是一种新颖的对齐框架,旨在弥合代码生成模型与现实世界软件开发任务之间的差距。SEAlign利用软件工程过程的独特特征(包括高质量的工作流步骤)来增强模型能力。我们的框架进一步采用蒙特卡洛树搜索(MCTS)进行多步决策过程的细粒度对齐,并通过偏好优化关键动作确保模型满足现实需求。我们在三个标准的现实世界软件工程基准上评估了SEAlign,包括HumanEvalFix、SWE-Bench-Lite和SWE-Bench-Verified。实验结果表明,SEAlign以最少的训练开销实现了最先进的性能。此外,我们使用SEAlign开发了一个基于代理的软件开发平台,成功自动化创建了几个小型应用程序。人类对这些应用程序的评估突显了任务性能和

2025-03-29

MedAgent-Pro:通过基于推理的代理工作流实现证据驱动的多模态医学诊断

开发可靠的AI系统以协助人类临床医生进行多模态医学诊断一直是研究人员的主要目标。近年来,多模态大语言模型(MLLMs)受到了广泛关注,并在多个领域取得了成功。凭借强大的推理能力和根据用户指令执行多种任务的能力,它们在提升医学诊断方面具有巨大潜力。然而,直接将MLLMs应用于医学领域仍面临挑战。它们缺乏对视觉输入的详细感知能力,限制了其进行定量图像分析的能力,而这是医学诊断的关键。此外,MLLMs通常表现出幻觉和推理不一致的问题,而临床诊断必须严格遵循既定标准。为解决这些问题,我们提出了MedAgent-Pro,一个基于证据推理的代理系统,旨在实现可靠、可解释且精确的医学诊断。这通过分层工作流实现:在任务级别上,基于检索到的临床标准的知识推理生成针对特定疾病的可靠诊断计划;而在案例级别上,多个工具代理处理多模态输入,根据计划分析不同指标,并结合定量和定性证据提供最终诊断。在2D和3D医学诊断任务上的综合实验展示了MedAgent-Pro的优越性和有效性,而案例研究进一步突显了其可靠性和可解释性。代码可在以下链接获取: https://github.com/jinlab-imvr/MedA

2025-03-29

大型语言模型在问答任务中的代理综述

本文综述了基于大型语言模型(LLM)的问答(QA)代理的发展。传统代理面临显著限制,包括大量数据需求和难以推广到新环境的问题。基于LLM的代理通过利用LLM作为核心推理引擎解决了这些挑战。这些代理通过与外部环境交互,实现了比传统QA流水线和简单的LLM QA系统更优的问答效果。我们系统地回顾了LLM代理在问答任务中的设计,按关键阶段组织讨论:规划、问题理解、信息检索和答案生成。此外,本文识别了当前的挑战并探讨了未来的研究方向,以提高LLM代理问答系统的性能。

2025-03-29

MemInsight:大型语言模型代理的自主记忆增强

大型语言模型(LLM)代理已经进化到能够智能地处理信息、做出决策并与用户或工具进行交互。一个关键功能是整合长期记忆能力,使这些代理能够利用历史交互和知识。然而,随着记忆规模的增长和语义结构化的需求增加,这带来了显著的挑战。在本研究中,我们提出了一种自主记忆增强方法——MemInsight,以改进语义数据表示和检索机制。通过利用对历史交互的自主增强,LLM代理被证明可以提供更准确和上下文相关的响应。我们在三个任务场景中经验性地验证了所提方法的有效性:对话推荐、问答和事件总结。在LLM-REDIAL数据集上,MemInsight将推荐的说服力提升了高达14%。此外,在LoCoMo检索中,它在召回率方面比RAG基线高出34%。我们的实证结果表明,MemInsight有潜力提升LLM代理在多个任务中的上下文表现。

2025-03-29

GenEdit:复合运算符和持续改进以应对企业级Text-to-SQL的挑战

最近在Text-to-SQL(Text-to-SQL)领域的进展,得益于大型语言模型(LLMs),正在使数据访问民主化。尽管取得了这些进展,但企业部署仍然具有挑战性,因为需要捕捉特定业务知识、处理复杂查询并满足对持续改进的期望。为了解决这些问题,我们设计并实现了GenEdit:我们的Text-to-SQL生成系统,可以通过用户反馈进行改进。GenEdit构建和维护一个公司特定的知识集,采用一系列分解SQL生成的运算符,并使用反馈更新其知识集以改善未来的SQL生成。 我们描述了GenEdit的架构,它由两个核心模块组成:(i) 分解SQL生成;以及 (ii) 基于用户反馈的知识集编辑。对于生成,GenEdit利用复合运算符来改进知识检索,并创建一个作为思维链步骤的计划来指导生成。GenEdit首先在初始检索阶段检索相关示例,其中原始SQL查询被分解成子语句、子句或子查询。然后还检索指令和模式元素。使用检索到的上下文信息,GenEdit随后生成自然语言的逐步计划,说明如何生成查询。最后,GenEdit使用该计划生成SQL,尽量减少模型推理的需求,从而增强复杂SQL的生成。如有必要,GenE

2025-03-29

用于零样本泛化到定性新任务的思考型智能体

智能生物能够解决在其一生或进化过程中从未遇到过的全新问题。这一能力的重要组成部分是“思考”的能力,即在心理上操纵对象、概念和行为,以规划和评估全新问题的可能解决方案,而无需与环境交互。为了生成真正定性新颖的问题(仍然可以通过心理模拟解决),我们利用环境的组合性质:我们在训练智能体时扣留环境元素的特定组合。基于这种组合的新测试任务因此保证是全新的,但由于智能体在训练过程中接触过每个单独元素(及其两两交互),它仍然是可以心理模拟的。我们提出了一种方法,通过选择基于智能体思考前后的性能差异的任务,来训练具有世界模型的智能体使用其心理模拟能力。当在全新的扣留问题上进行测试时,得到的智能体成功地模拟了替代场景,并利用由此产生的信息指导其在实际环境中的行为,在单一的实际环境试验中解决了新任务(零样本)。

2025-03-29

OmniNova:一个通用的多模态代理框架

将大型语言模型(LLMs)与专用工具集成,为智能自动化系统提供了新的机会。然而,由于协调困难、资源利用效率低下和信息流不一致,组织多个由LLM驱动的代理来处理复杂任务仍然具有挑战性。我们提出了OmniNova,这是一个模块化的多代理自动化框架,将语言模型与专用工具(如网络搜索、爬虫和代码执行能力)相结合。OmniNova引入了三项关键创新:(1)具有不同协调员、规划者、监督者和专家代理的分层多代理架构;(2)根据任务复杂度优化代理部署的动态任务路由机制;以及(3)分配适当模型以满足不同认知需求的多层次LLM集成系统。我们在研究、数据分析和网络交互领域的50个复杂任务上的评估表明,OmniNova在任务完成率(87% vs 基准62%)、效率(减少41%的令牌使用量)和结果质量(人类评分4.2/5 vs 基准3.1/5)方面优于现有框架。我们贡献了一个用于多代理系统设计的理论框架和一个开源实现,推动了基于LLM的自动化系统的最先进水平。

2025-03-29

开放深度搜索:通过开源推理代理实现搜索民主化

我们介绍了开放深度搜索(ODS),旨在缩小专有搜索AI解决方案(如Perplexity的Sonar Reasoning Pro和OpenAI的GPT-4o Search Preview)与其开源替代品之间的差距。ODS的主要创新是增强最新开源LLM的推理能力,使用能够明智地利用网络搜索工具来回答查询的推理代理。具体来说,ODS由两个与用户选择的基础LLM协同工作的组件组成:开放搜索工具和开放推理代理。开放推理代理解释给定任务并通过协调一系列动作(包括调用工具,其中之一是开放搜索工具)来完成任务。开放搜索工具是一种新型的网络搜索工具,其性能优于专有工具。结合强大的开源推理LLM(如DeepSeek-R1),ODS在两个基准测试中几乎达到并有时超越了现有最先进基线:SimpleQA和FRAMES。例如,在FRAMES评估基准上,ODS将最近发布的GPT-4o Search Preview的最佳现有基线提高了9.7%的准确性。ODS是一个通用框架,可以无缝增强任何LLM——例如,DeepSeek-R1在SimpleQA上达到了82.4%,在FRAMES上达到了30.1%——通过添加搜索和推理

2025-03-29

CTS-CBS:一种用于多智能体协作任务排序和路径规划的新方法

本文提出了 CTS-CBS,这是一种专为解决协作任务排序多智能体路径规划(CTS-MAPF)问题而设计的优化算法。与传统算法相比,所提出的方法显著提高了成功率和效率。从事自主机器人或仓库自动化的从业者可以从这种方法中受益,以增强系统中多个智能体协调所需的任务排序和路径规划。该算法可以与现有的多机器人系统集成,对基础设施的改动最小。未来的工作包括探索进一步提高 CTS-CBS 效率的策略,考虑智能体的动力学约束以拓宽其应用范围,以及将算法扩展到动态和终身场景。

2025-03-29

基于知识的多智能体框架用于自动化软件架构设计

架构设计是软件开发中的关键步骤。然而,由于对人力专业知识和手动工作量的需求较大,创建高质量的架构通常成本高昂。最近,基于大型语言模型(LLMs)构建的智能体在各种软件工程任务中取得了显著的成功。尽管如此,利用智能体自动化架构设计过程的研究仍然较少。为了解决这一问题,我们设想了一个基于知识的多智能体架构设计(MAAD)框架。MAAD通过使用智能体模拟传统软件架构设计过程中的人类角色,从而实现设计过程的自动化。为了增强这些智能体的能力,MAAD整合了从三个关键来源提取的知识:1)现有系统设计,2)权威文献,以及3)架构专家。通过设想MAAD框架,我们的目标是推动应用级系统开发的全面自动化。

2025-03-29

基于变化的内在动机的世界模型代理

稀疏奖励环境对强化学习提出了重大挑战,因为反馈较少。内在动机和迁移学习已被证明是解决这一问题的有希望的策略。Change Based Exploration Transfer(CBET)是一种结合了这两种方法的技术,适用于无模型算法,已在处理稀疏反馈方面显示出潜力,但其在现代算法中的有效性尚未得到充分研究。本文提供了CBET在DreamerV3等世界模型算法中的适应,并比较了DreamerV3和IMPALA代理在Crafter和Minigrid稀疏奖励环境中的表现,包括使用和不使用CBET的情况。我们的从零开始的结果表明,CBET可能提高DreamerV3在Crafter中的回报,但在Minigrid中,CBET进一步降低了回报,导致次优策略。同样地,我们的迁移学习实验表明,在Minigrid中,通过内在奖励预训练DreamerV3并不立即导致最大化外部奖励的策略。总体而言,我们的结果表明,CBET在更复杂的环境中(如Crafter)对DreamerV3有积极影响,但在像Minigrid这样的环境中可能会产生负面影响。在后一种情况下,DreamerV3中由CBET促进的行为可能与环境的

2025-03-29

从离线多任务数据中学习可泛化的多智能体合作技能以实现多智能体合作

从离线多任务数据中学习能够泛化到具有不同数量智能体和目标的未见任务的合作多智能体策略是一个在许多场景下都极具吸引力的问题。尽管通过聚合多个任务中的通用行为模式作为技能来改进策略迁移是一种有前途的方法,但两个主要挑战阻碍了离线多任务MARL(多智能体强化学习)中技能学习的进一步发展。首先,从各种动作序列中提取通用合作行为作为通用技能缺乏将合作时间知识引入其中。其次,现有工作仅涉及通用技能,而无法在每个任务中自适应选择独立知识作为任务特定技能以实现精细的动作执行。为了解决这些问题,我们提出了 Hi erarchical and S eparate S kill D iscovery (HiSSD),一种通过技能学习实现可泛化离线多任务MARL的新方法。HiSSD利用分层框架联合学习通用技能和任务特定技能。通用技能学习合作时间知识并实现离线多任务MARL中的样本内探索。任务特定技能表示每个任务的先验知识并实现任务导向的精细动作执行。为了验证我们的方法,我们在多智能体MuJoCo和SMAC基准上进行了实验。使用HiSSD在离线多任务数据上训练策略后,实证结果表明HiSSD分配了有效的合作行为并

2025-03-29

具有偏见意识的代理:增强人工智能驱动的知识检索的公平性

在过去的几年中,获取可访问信息的技术发展速度超过了互联网创建以来几十年的发展。像Google这样的搜索引擎一直是查找相关信息的主要方式。它们一直依赖用户的能力,在指尖触及的数十亿链接和来源中找到最佳信息。大型语言模型(LLMs)的出现彻底改变了信息检索领域。这些LLMs不仅擅长检索相关知识,还能够有效地对其进行总结,使信息更易于访问和消费。此外,AI代理的兴起为信息检索引入了另一个方面——动态信息检索,这使得实时数据(如天气预报和金融数据)与知识库的整合成为可能,从而生成上下文感知的知识。然而,尽管取得了这些进展,代理仍然容易受到偏见和公平性问题的影响——这些问题深深植根于LLMs的知识库和训练中。本研究介绍了一种新的偏见意识知识检索方法,通过利用代理框架和创新使用偏见检测器作为工具来识别和突出检索内容中的固有偏见。通过赋予用户透明度和意识,这种方法旨在促进更公平的信息系统,并推动负责任的人工智能的发展。

2025-03-29

CA+:增强认知的咨询代理框架,用于长期动态客户参与

当前的人工智能心理咨询系统在维持有效的长期客户参与方面面临挑战。通过与咨询师进行形成性研究和系统的文献综述,我们确定了人工智能咨询互动中的五个关键设计考虑因素。基于这些见解,我们提出了CA+,一个 C ognition A ugmented咨询框架,通过三个组件增强情境理解:(1)治疗策略模块:实施基于客户反馈的双向适应性的分层目标-会话-行动规划;(2)沟通形式模块:协调平行的指导和共情路径,以实现平衡的治疗进展和情感共鸣;(3)信息管理:利用客户档案和治疗知识数据库进行动态、情境感知的干预。为期三天的纵向研究表明,与基线系统相比,CA+在客户参与度、感知共情和整体满意度方面有显著改进。此外,两位持证咨询师确认了其高度专业性。我们的研究表明,通过认知理论增强大型语言模型在心理咨询服务中的参与潜力,这可能为未来的计算交互创新提供灵感。

2025-03-29

大型语言模型代理:方法论、应用与挑战综述

人工智能正在进入一个关键时代,随着大语言模型(LLM)代理的出现——这些智能实体通过大语言模型具备感知环境、推理目标和执行行动的能力 ( xi2025rise? ) 。与仅响应用户输入的传统AI系统不同,现代LLM代理通过持续学习、推理和适应积极地与其环境互动。这一转变代表了技术进步以及人类与机器关系的根本重塑。商业化的LLM代理系统(例如,DeepResearch、DeepSearch 和 Manus)体现了这种范式转变——自主执行曾经需要人类专业知识的复杂任务,从深入研究到计算机操作,并根据特定用户需求进行调整。 与传统代理系统相比 ( wooldridge1995intelligent? ) ,基于LLM的代理在多个维度上实现了代际飞跃,包括知识来源 ( zheng2024large? ) 、泛化能力 ( lotfi2023non? ) 和交互模式 ( fei2024multimodal? ) 。如今的代理代表了一个质的飞跃,由三个关键发展推动:LLM前所未有的推理能力 ( huang2022towards? ) 、工具操作和环境交互的进步 ( wang

2025-03-29

UI-R1:通过强化学习增强GUI代理的动作预测能力

最近的DeepSeek-R1展示了通过基于规则的强化学习(RL)在大型语言模型(LLMs)中涌现出的推理能力。基于这一理念,我们首次探索了如何利用基于规则的RL来增强多模态大语言模型(MLLMs)在图形用户界面(GUI)动作预测任务中的推理能力。为此,我们精心整理了一个包含136个具有挑战性任务的小而高质量的数据集,涵盖了移动设备上的五种常见动作类型。我们还引入了一种统一的基于规则的动作奖励机制,使模型可以通过基于策略的算法(如组相对策略优化(GRPO))进行优化。实验结果表明,我们提出的数据高效模型 UI-R1-3B 在领域内(ID)和领域外(OOD)任务上都取得了显著改进。具体来说,在ID基准测试 ANDROIDCONTROL 上,动作类型准确率提高了 15% ,而定位准确率提高了 10.3% ,相较于基础模型(即Qwen2.5-VL-3B)。在OOD GUI定位基准ScreenSpot-Pro上,我们的模型超越了基础模型,提高了 6.0% ,并实现了与更大模型(例如OS-Atlas-7B)相当的性能,这些模型是通过监督微调(SFT)在76K数据上训练的。这些结果强调了基于规则

2025-03-29

ExCoT:通过执行反馈优化Text-to-SQL的推理

Text-to-SQL任务需要精确的推理能力,将自然语言问题转换为结构化查询。尽管大型语言模型(LLMs)在许多推理任务中表现出色,但它们在Text-to-SQL任务中利用链式思维(CoT)推理的能力仍需进一步探索。我们发现了几个关键限制:零样本CoT几乎没有改进,而直接偏好优化(DPO)在不结合CoT的情况下应用时仅提供微小提升。我们提出了ExCoT,一种新颖的框架,通过结合CoT推理与离策略和在策略DPO迭代优化开源LLMs,仅依赖执行准确性作为反馈。这种方法无需奖励模型或人工标注的偏好数据。我们的实验结果表明性能显著提升:ExCoT将LLaMA-3 70B在BIRD开发集上的执行准确率从57.37%提高到68.51%,在Spider测试集上从78.81%提高到86.59%,Qwen-2.5-Coder表现出类似改进。我们最佳模型在单模型设置下在BIRD和Spider数据集上达到最先进水平,在BIRD测试集上达到68.53%。

2025-03-28

MEDPLAN : 一种基于两阶段RAG的个性化医疗计划生成系统

尽管在电子健康记录(EHR)中应用大型语言模型(LLMs)取得了近期成功,但大多数系统主要集中在评估而非治疗规划。我们确定了当前方法中的三个关键限制:它们以单次生成的方式生成治疗计划,而不是遵循临床医生使用的顺序推理过程;它们很少结合患者特定的历史背景;并且它们无法有效区分主观和客观的临床信息。受SOAP方法(主观、客观、评估、计划)的启发,我们引入了 MEDPLAN ,这是一个新颖的框架,将LLM推理结构化为与现实生活中临床医生工作流程一致的形式。我们的方法采用了一个两阶段架构,首先根据患者的症状和客观数据生成临床评估,然后通过检索增强生成结合患者特定信息制定结构化的治疗计划。全面评估表明,我们的方法在评估准确性和治疗计划质量方面显著优于基线方法。

2025-03-27

NL2SQL-BUGs:用于检测NL2SQL翻译中语义错误的基准

自然语言到SQL(即 NL2SQL)翻译对于实现数据库访问的民主化至关重要,但即使是最先进的模型也经常生成语义不正确的 SQL 查询,阻碍了这些技术被数据库供应商广泛采用。虽然现有的 NL2SQL 基准主要关注正确查询翻译,我们认为一个专门用于识别 NL2SQL 翻译中常见错误的基准同样重要,因为准确检测这些错误是任何后续校正的前提——无论是由人类还是模型完成。为了解决这一空白,我们提出了 ,这是第一个专门用于检测和分类 NL2SQL 翻译中语义错误的基准。采用了两级分类法系统地对语义错误进行分类,涵盖了9个主要类别和31个子类别。该基准包含2,018个专家注释的实例,每个实例包含一个自然语言查询、数据库模式和 SQL 查询,并对语义不正确的查询进行了详细的错误注释。通过全面的实验,我们证明当前的大语言模型在语义错误检测方面存在显著限制,平均检测准确率仅为75.16%。尽管如此,这些模型成功检测到了广泛使用的 NL2SQL 数据集 BIRD 中的 106 个错误(占 6.91% ),这些错误之前是基准中的标注错误。这突显了语义错误检测在 NL2SQL 系统中的重要性。

2025-03-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除