- 博客(610)
- 收藏
- 关注
原创 DeepSeek在计算机教育中的应用:实证案例研究
近年来,大型语言模型(LLMs)在计算机网络和安全领域的专业教育中展现了巨大的潜力。这些模型能够处理和表达复杂的概念,成为传统学习方法的有力补充。尽管初步研究表明LLMs在应用领域知识方面表现出色,但其在全面网络教育中的效能,尤其是涉及复杂技术概念和实际问题解决场景时,仍需通过标准化的专业基准进行系统评估。
2025-04-04 22:34:21
491
原创 大型语言模型在医疗推理中的深入分析:以DeepSeek R1为例
随着人工智能(AI)技术在医疗领域的加速应用,特别是大型语言模型(LLM)的使用,为临床决策支持和患者结果改善提供了前所未有的机会。然而,尽管这些模型在医学考试中表现优异,但其推理能力是否能够与人类专家相媲美仍是一个关键问题。据研究表明,医疗错误每年在美国导致超过250,000人死亡,成为第三大死亡原因,这突显了改进临床推理的重要性。:不同专科的问题分布图研究动机:当前,38%的美国医疗机构正在试点基于LLM的工具,而监管机构批准的AI诊断数量自2020年以来年均增长127%。
2025-04-04 22:26:58
294
原创 Distill-C:通过蒸馏定制增强的NL2SQL方法
实验步骤:在Spider开发集上,FixIt实现了Llama-3.1-8B-Instruct和CodeQwen1.5-7B-Chat分别6.4%和8%的性能提升,大幅缩小了与教师模型的差距。此外,它在客户2的财务分析用例中显著提升了从54%到78%的性能,证明了其在复杂财务数据处理中的能力。实验设计:我们评估了Distill-C框架在多个设置下的一系列情况,从仅使用自然语言(NL-only B)到完整设置(A-Full),逐步增加了监督和定制训练信号的影响,如表2所示。
2025-04-04 19:57:56
417
原创 CoRAG:协同检索增强型生成
我们在CRAB上的实验表明,CoRAG在少样本设置下具有显著的性能优势。我们分析了文档库组成对性能的影响,强调了相关和意外的相关性,同时显示了硬负样本的不利影响。研究动机:这项工作介绍了一个名为CoRAG的框架,该框架允许多个客户共同训练一个共享模型,并在推理过程中使用他们自己的本地文档库。我们引入了CoRAG,一个框架,将RAG扩展到协作环境中,客户可以共同训练共享模型,使用协作文档库。创新点:我们的实验揭示了相关文档对于模型泛化至关重要,而硬负样本可能有害,令人惊讶的是,无关文档甚至可能是有益的。
2025-04-04 08:17:40
765
原创 面向软件工程的人工智能:挑战与路径
已有几项工作使用LLMs进行代码总结,采用的技术包括提示 (Sun等人, 2024b;Su和McMillan 2024;Haldar和Hockenmaier, 2024;Ahmed等人, 2024b)。RepoAgent (Luo等人, 2024) 是一个框架,它分析源代码中的全局上下文关系以生成详细的文档。Shi等人 (2024) 显示,LMs能够生成良好的自然语言大纲——伴随代码的文字描述,将其划分为语义连贯的部分。
2025-04-03 22:40:52
724
原创 推理-SQL:用SQL定制奖励的强化学习,让Text-to-SQL学会动脑子
我们这套方法最亮眼的成绩单: - 在BIRD基准测试上,我们14B参数的模型直接碾压了更大的商业模型——比o3-mini高4%,比Gemini-1.5-Pro-002高3% - 推理成本直降93%,但效果反而更好,就像用五菱宏光的油钱开出了特斯拉的加速 - 模型自己琢磨出的推理方式,比人工设计的”解题模板”更管用。关键发现: - 7B模型加了我们这套奖励机制后,性能直接飙升6.77% - 在Spider等陌生题库上表现也很稳,说明不是死记硬背的”书呆子”我们做了个”模型奥运会”来比试: -
2025-04-03 22:30:07
403
原创 ActionStudio:轻量级动作模型数据与训练框架
动作模型对于实现自主代理执行复杂任务至关重要。然而,由于代理环境的多样性和代理数据的复杂性,训练大规模动作模型仍然具有挑战性。尽管兴趣日益增长,现有的基础设施对可扩展、特定代理的微调支持有限。我们介绍了ActionStudio,一个轻量且可扩展的数据和训练框架,专为动作模型设计。ActionStudio通过标准化格式统一了异构代理轨迹,支持多种训练范式,包括LoRA、全微调和分布式设置,并集成了强大的预处理和验证工具。我们在公共和现实行业基准上验证了其有效性,展示了强大的性能和实际的可扩展性。
2025-04-02 21:14:55
1076
原创 Unicorn: 用于视觉语言模型训练的纯文本数据合成
与传统的图像-文本数据合成框架不同,Unicorn去除了对真实图像数据的依赖,通过减少 API 成本、合成时间和存储需求,提供了一种更高效和可扩展的解决方案。视觉语言模型(VLMs)的快速发展 (H. Liu 等人, 2023, 2024;Zhu 等人, 2023) 进一步强调了大规模高质量图像-文本对训练数据的重要性 (Chen 等人, 2023;Zhao, Zhou 和 Shou, 2024;Bai 等人, 2024)。
2025-03-31 22:39:31
631
原创 基于大型模型的多任务语义通信
LAM的出现显著改变了语言处理任务的领域 (Naveed et al. 2023)。随着AI模型的规模和复杂性不断扩大,我们见证了从语言理解到内容生成等新前沿的进步 (Liang et al. 二月 2025)。特别是 ,以Transformer及其衍生物为代表的LAM展现出了无与伦比的能力,能够理解人类语言的细微之处 (Naveed et al. 2023)。这些模型 在语义解析方面表现出色,不仅能够把握单词和短语的显式含义,还能理解隐含关系、习语表达和文本中的情感基调。
2025-03-31 20:50:53
1127
原创 Dewey 长上下文嵌入模型:技术报告
本技术报告介绍了开源dewey_en_beta嵌入模型的训练方法和评估结果。随着检索增强生成(RAG)系统的日益需求以及大型语言模型(LLMs)上下文窗口能力的扩展,传统嵌入模型面临了关键挑战。当前的方法在处理超出典型序列长度限制的文档时,往往难以保持语义连贯性,这显著影响了知识密集型应用中的检索性能。
2025-03-30 15:50:40
225
原创 实时评估模型在RAG中的应用:谁最能检测到幻觉?
本文调查了用于自动检测检索增强生成(RAG)中幻觉的评估模型,并对这些模型在六个RAG应用中的表现进行了全面基准测试。我们研究中包含的方法有:LLM-as-a-Judge、Prometheus、Lynx、Hughes 幻觉评估模型(HHEM)和可信语言模型(TLM)。这些方法都不需要参考标准答案/标签即可捕捉到不正确的LLM响应。我们的研究表明,在各种RAG应用中,其中一些方法能够以高精度/召回率一致地检测到不正确的RAG响应。检索增强生成使AI能够在回答用户请求时依赖特定公司的知识[1]。
2025-03-30 15:46:43
237
原创 我们能让代码变得更绿色吗?理解LLM与人类代码优化中的权衡
快速的技术演变加速了各领域的软件开发,导致全球碳排放量不断增加。尽管大型语言模型(LLMs)声称可以帮助开发人员优化代码以提高性能和能源效率,但它们在现实世界中的实际效果仍需进一步探索,特别是在科学和工程领域,这些领域的编码实践和环境差异较大,而绿色编码意识较低。此外,对于LLMs所应用的优化策略及其与人类推理的一致性程度知之甚少。为填补这些空白,我们评估了LLMs在减少现实世界Matlab项目环境足迹方面的有效性——Matlab是一种在学术界和工业界广泛用于科学和工程应用的语言。
2025-03-30 15:43:13
346
原创 FutureGen:生成科学文章未来工作的LLM-RAG方法
科学文章的未来工作部分通过识别当前研究的空白和局限性来概述潜在的研究方向。这一部分为寻找未开发领域的早期职业研究人员以及寻找新项目或合作的经验丰富的研究人员提供了宝贵的资源。在本研究中,我们从科学文章的关键部分及相关论文中生成未来工作建议,并分析趋势如何演变。我们尝试了各种大型语言模型(LLMs),并集成了检索增强生成(RAG)以增强生成过程。我们结合了一个LLM反馈机制以提高生成内容的质量,并提出了一种将LLM作为评估者的做法。
2025-03-30 15:37:51
276
原创 NLI4DB: 数据库的自然语言接口系统综述
随着在生活各个领域中查询数据库的需求不断增长,研究人员对自然语言接口用于数据库(NLIDB)给予了极大的关注。本文对最近提出的NLIDBs进行了全面的调查。我们首先简要介绍了自然语言处理技术、可执行数据库语言和自然语言与可执行语言之间的中间表示,然后提供了从自然语言到可执行数据库语言的翻译过程概述。翻译过程分为三个阶段:(i)自然语言预处理,(ii)自然语言理解,以及(iii)自然语言翻译。预处理阶段使用了传统方法和数据驱动方法。
2025-03-30 15:27:06
255
原创 CausalRAG:将因果图整合到检索增强生成中
大型语言模型(LLMs)彻底改变了自然语言处理(NLP),特别是通过检索增强生成(RAG),它通过整合外部知识增强了LLM的能力。然而,传统的RAG系统存在关键限制,包括由于文本分块导致的上下文完整性中断,以及过度依赖语义相似性进行检索。为了解决这些问题,我们提出了CausalRAG,这是一种将因果图整合到检索过程中的新框架。通过构建和追踪因果关系,CausalRAG保留了上下文连续性并提高了检索精度,从而生成更准确且可解释的响应。我们将CausalRAG。
2025-03-30 11:19:36
303
原创 RGL:一种以图为中心、模块化的高效图检索增强生成框架
RGL 是一个模块化工具包,旨在简化图数据上 RAG 技术的开发。如图 5 所示,RGL 由四个主要组件组成——运行时、内核、API 和应用——每个组件都提供了专门的功能,以实现高效且灵活的图上 RAG 工作流。
2025-03-30 11:13:08
404
原创 多模态大语言模型时代的代理推荐系统展望
近期大语言模型(LLMs)的突破性进展催生了超越单一模型能力的代理型人工智能系统。通过赋予LLMs感知外部环境、整合多模态信息和与各种工具交互的能力,这些代理系统在复杂任务中表现出更大的自主性和适应性。这一演变带来了推荐系统(RS)的新机遇:基于LLM的代理型推荐系统(LLM-ARS)可以提供更加互动、情境感知和主动的推荐服务,可能重塑用户体验并拓宽推荐系统的应用范围。尽管早期结果令人鼓舞,但基本挑战仍然存在,包括如何有效融入外部知识、平衡自主性与可控性以及在动态多模态环境中评估性能。
2025-03-30 10:08:15
674
原创 DAgent:一种基于关系数据库驱动的数据分析报告生成代理
基于关系数据库驱动的数据分析(RDB-DA)报告生成旨在通过查询关系数据库生成数据分析报告,已在金融、医疗等领域得到广泛应用。通常,这些任务由数据科学家手动完成,这使得过程非常耗时,并显示出对自动化的迫切需求。尽管现有的方法(例如表问答或文本到SQL)被提出以减少人工依赖,但它们无法处理需要多步推理、跨表关联和将见解整合为报告的复杂分析任务。此外,目前尚无可用于开发自动RDB-DA报告生成的数据集。为填补这一空白,本文提出了一种用于RDB-DA报告生成任务的大型语言模型(LLM)代理系统,称为DAgent。
2025-03-30 10:08:03
531
原创 通过答案-公式联合生成实现通用表格问答
先进的表格问答(TableQA)方法提示大型语言模型(LLMs)生成答案文本、SQL查询、Python代码或自定义操作,这显著提升了TableQA任务中的复杂推理问题。然而,这些方法缺乏应对特定问题类型或表格结构的灵活性。相比之下,电子表格公式作为一种广泛使用且明确定义的操作语言,尚未被充分探索以解决TableQA问题。在本文中,我们首次尝试使用公式作为逻辑形式来解决不同结构表格上的复杂推理问题。具体而言,我们从现有数据集中构建了一个大规模的公式注释TableQA数据集 FromulaQA。
2025-03-30 10:07:44
748
原创 Genicious:用于洞察发现的情境化Few-shot提示
数据和洞察发现对于现代组织的决策至关重要。我们介绍了Genicious,这是一个基于LLM的接口,使用户能够与表格数据集交互并用自然语言提出复杂查询。通过对比多种提示策略和语言模型,我们开发了一个端到端工具,利用情境化Few-shot提示,在延迟、准确性和可扩展性方面表现出色。Genicious赋予利益相关者高效探索、分析和可视化其数据集的能力,同时通过基于角色的访问控制和Text-to-SQL方法确保数据安全。在当今的数字时代,数据已成为一种关键资源。
2025-03-30 07:36:21
510
原创 MapQA : 开放领域地理空间问答基于地图数据
地理空间问答(QA)是导航和兴趣点(POI)搜索中的基本任务。尽管现有的地理空间QA数据集存在,但它们在规模和多样性方面受到限制,通常仅依赖于地理实体的文本描述,而未考虑其几何形状。扩大地理空间QA数据集的主要挑战在于地理空间关系的复杂性,这需要整合空间结构、拓扑依赖以及多跳推理能力,而大多数基于文本的QA数据集缺乏这些能力。为解决这些限制,我们引入了 MapQA ,这是一个新颖的数据集,不仅提供了问题-答案对,还包含了问题中引用的地理实体的几何信息。
2025-03-30 07:35:20
1100
原创 在RAG-Text2SQL系统中平衡内容大小
大型语言模型(LLMs)作为一种有前景的解决方案,能够将自然语言查询转换为SQL命令,从而实现无缝的数据库交互。然而,这些文本到SQL(Text2SQL)系统面临着固有的局限性、幻觉生成、过时知识和不可追踪推理等问题。为了解决这些挑战,将检索增强生成(RAG)与Text2SQL模型集成的方法逐渐受到关注。RAG作为一个检索机制,提供必要的上下文信息,如表结构和元数据,以增强查询生成过程。尽管潜力巨大,RAG + Text2SQL系统对检索文档的质量和大小非常敏感。
2025-03-30 07:35:07
650
原创 V-SQL:一种基于视图的两阶段Text-to-SQL框架
Text-to-SQL任务旨在无偏地将自然语言转换为结构化查询语言(SQL)。最近,基于大语言模型(LLMs)的Text-to-SQL方法引起了广泛关注。主流Text-to-SQL框架的核心是模式链接,它将用户查询与数据库中的相关表和列对齐。以前的方法专注于模式链接,而忽略了增强LLMs对数据库模式的理解。数据库中表之间的复杂耦合关系限制了LLMs生成SQL的能力。为了解决这个问题,本文提出了一种简单而有效的策略,称为基于视图的模式。该策略通过将紧密耦合的表解耦为低耦合视图,帮助LLMs理解数据库模式。然后
2025-03-30 07:34:52
974
原创 链式思维推理是否有助于移动GUI代理?一项实证研究
推理能力显著提高了视觉语言模型(VLMs)在数学问题求解、编程和视觉问答等领域的性能。然而,它们对实际应用的影响尚不明确。本文首次对推理增强型VLMs在移动GUI代理中的有效性进行了实证研究,这是一个需要解释复杂屏幕布局、理解用户指令并执行多轮交互的领域。我们评估了两对商业模型——Gemini 2.0 Flash和Claude 3.7 Sonnet,比较了它们的基础版本和推理增强版本在两个静态基准测试(ScreenSpot和AndroidControl)以及一个交互环境(AndroidWorld)上的表现。
2025-03-29 21:23:05
881
原创 SEAlign: 面向软件工程代理的对齐训练
近年来,代码生成模型在自动化软件开发任务方面展示了令人印象深刻的性能,但在现实世界的软件工程场景中仍面临挑战。尽管当前的训练方法,特别是后训练,在解决竞争性编程问题方面表现出色,但它们未能充分准备模型以应对实际软件开发的复杂性。这种错位提出了一个关键问题:现有的对齐训练方法是否适合现实世界的软件工程任务?在本研究中,我们确定了这一问题,并提出了SEAlign,这是一种新颖的对齐框架,旨在弥合代码生成模型与现实世界软件开发任务之间的差距。
2025-03-29 20:47:49
802
原创 MedAgent-Pro:通过基于推理的代理工作流实现证据驱动的多模态医学诊断
开发可靠的AI系统以协助人类临床医生进行多模态医学诊断一直是研究人员的主要目标。近年来,多模态大语言模型(MLLMs)受到了广泛关注,并在多个领域取得了成功。凭借强大的推理能力和根据用户指令执行多种任务的能力,它们在提升医学诊断方面具有巨大潜力。然而,直接将MLLMs应用于医学领域仍面临挑战。它们缺乏对视觉输入的详细感知能力,限制了其进行定量图像分析的能力,而这是医学诊断的关键。此外,MLLMs通常表现出幻觉和推理不一致的问题,而临床诊断必须严格遵循既定标准。
2025-03-29 20:43:30
751
原创 大型语言模型在问答任务中的代理综述
本文综述了基于大型语言模型(LLM)的问答(QA)代理的发展。传统代理面临显著限制,包括大量数据需求和难以推广到新环境的问题。基于LLM的代理通过利用LLM作为核心推理引擎解决了这些挑战。这些代理通过与外部环境交互,实现了比传统QA流水线和简单的LLM QA系统更优的问答效果。我们系统地回顾了LLM代理在问答任务中的设计,按关键阶段组织讨论:规划、问题理解、信息检索和答案生成。此外,本文识别了当前的挑战并探讨了未来的研究方向,以提高LLM代理问答系统的性能。自主代理的概念在人工智能研究中早已被认可。
2025-03-29 20:40:25
606
原创 MemInsight:大型语言模型代理的自主记忆增强
我们评估了MemInsight在丰富原始对话以获取事件总结相关见解方面的有效性。我们利用生成的注释来识别对话中的关键事件,从而用于事件总结。我们将生成的摘要与LoCoMo的事件标签作为基线进行比较。图 2 展示了实验框架,其中基线是发送到LLM模型生成事件摘要的原始对话,然后将基于原始对话和增强对话生成的事件摘要与LoCoMo数据集中的地面真实摘要进行比较。5.3.0.1表 [es_prmpt] 展示了事件总结任务中用于通过生成相关属性增强对话的提示。
2025-03-29 10:53:41
661
原创 GenEdit:复合运算符和持续改进以应对企业级Text-to-SQL的挑战
最近在Text-to-SQL(Text-to-SQL)领域的进展,得益于大型语言模型(LLMs),正在使数据访问民主化。尽管取得了这些进展,但企业部署仍然具有挑战性,因为需要捕捉特定业务知识、处理复杂查询并满足对持续改进的期望。为了解决这些问题,我们设计并实现了GenEdit:我们的Text-to-SQL生成系统,可以通过用户反馈进行改进。GenEdit构建和维护一个公司特定的知识集,采用一系列分解SQL生成的运算符,并使用反馈更新其知识集以改善未来的SQL生成。
2025-03-29 10:46:32
600
原创 用于零样本泛化到定性新任务的思考型智能体
智能生物能够解决在其一生或进化过程中从未遇到过的全新问题。这一能力的重要组成部分是“思考”的能力,即在心理上操纵对象、概念和行为,以规划和评估全新问题的可能解决方案,而无需与环境交互。为了生成真正定性新颖的问题(仍然可以通过心理模拟解决),我们利用环境的组合性质:我们在训练智能体时扣留环境元素的特定组合。基于这种组合的新测试任务因此保证是全新的,但由于智能体在训练过程中接触过每个单独元素(及其两两交互),它仍然是可以心理模拟的。
2025-03-29 10:40:58
826
原创 OmniNova:一个通用的多模态代理框架
将大型语言模型(LLMs)与专用工具集成,为智能自动化系统提供了新的机会。然而,由于协调困难、资源利用效率低下和信息流不一致,组织多个由LLM驱动的代理来处理复杂任务仍然具有挑战性。我们提出了OmniNova,这是一个模块化的多代理自动化框架,将语言模型与专用工具(如网络搜索、爬虫和代码执行能力)相结合。OmniNova引入了三项关键创新:(1)具有不同协调员、规划者、监督者和专家代理的分层多代理架构;(2)根据任务复杂度优化代理部署的动态任务路由机制;
2025-03-29 10:37:28
796
原创 开放深度搜索:通过开源推理代理实现搜索民主化
我们介绍了开放深度搜索(ODS),旨在缩小专有搜索AI解决方案(如Perplexity的Sonar Reasoning Pro和OpenAI的GPT-4o Search Preview)与其开源替代品之间的差距。ODS的主要创新是增强最新开源LLM的推理能力,使用能够明智地利用网络搜索工具来回答查询的推理代理。具体来说,ODS由两个与用户选择的基础LLM协同工作的组件组成:开放搜索工具和开放推理代理。开放推理代理解释给定任务并通过协调一系列动作(包括调用工具,其中之一是开放搜索工具)来完成任务。
2025-03-29 10:33:09
853
原创 基于变化的内在动机的世界模型代理
稀疏奖励环境对强化学习提出了重大挑战,因为反馈较少。内在动机和迁移学习已被证明是解决这一问题的有希望的策略。Change Based Exploration Transfer(CBET)是一种结合了这两种方法的技术,适用于无模型算法,已在处理稀疏反馈方面显示出潜力,但其在现代算法中的有效性尚未得到充分研究。本文提供了CBET在DreamerV3等世界模型算法中的适应,并比较了DreamerV3和IMPALA代理在Crafter和Minigrid稀疏奖励环境中的表现,包括使用和不使用CBET的情况。
2025-03-29 09:33:04
564
原创 从离线多任务数据中学习可泛化的多智能体合作技能以实现多智能体合作
从离线多任务数据中学习能够泛化到具有不同数量智能体和目标的未见任务的合作多智能体策略是一个在许多场景下都极具吸引力的问题。尽管通过聚合多个任务中的通用行为模式作为技能来改进策略迁移是一种有前途的方法,但两个主要挑战阻碍了离线多任务MARL(多智能体强化学习)中技能学习的进一步发展。首先,从各种动作序列中提取通用合作行为作为通用技能缺乏将合作时间知识引入其中。其次,现有工作仅涉及通用技能,而无法在每个任务中自适应选择独立知识作为任务特定技能以实现精细的动作执行。为了解决这些问题,我们提出了eparate。
2025-03-29 09:23:18
932
原创 具有偏见意识的代理:增强人工智能驱动的知识检索的公平性
在过去的几年中,获取可访问信息的技术发展速度超过了互联网创建以来几十年的发展。像Google这样的搜索引擎一直是查找相关信息的主要方式。它们一直依赖用户的能力,在指尖触及的数十亿链接和来源中找到最佳信息。大型语言模型(LLMs)的出现彻底改变了信息检索领域。这些LLMs不仅擅长检索相关知识,还能够有效地对其进行总结,使信息更易于访问和消费。此外,AI代理的兴起为信息检索引入了另一个方面——动态信息检索,这使得实时数据(如天气预报和金融数据)与知识库的整合成为可能,从而生成上下文感知的知识。
2025-03-29 09:17:17
997
原创 CA+:增强认知的咨询代理框架,用于长期动态客户参与
本图展示了建立一致治疗存在感的生态自我框架,该框架与阿德勒原则一致。提示定义了咨询师的核心价值观、沟通特征、治疗品质和干预风格,同时强制执行明确的道德边界,以规范治疗关系。这些组件共同实施了主文中描述的客户适应方法,即根据积累的客户理解和即时接收线索不断优化治疗互动。
2025-03-29 09:08:29
796
原创 大型语言模型代理:方法论、应用与挑战综述
人工智能正在进入一个关键时代,随着大语言模型(LLM)代理的出现——这些智能实体通过大语言模型具备感知环境、推理目标和执行行动的能力。与仅响应用户输入的传统AI系统不同,现代LLM代理通过持续学习、推理和适应积极地与其环境互动。这一转变代表了技术进步以及人类与机器关系的根本重塑。商业化的LLM代理系统(例如,DeepResearch、DeepSearch 和 Manus)体现了这种范式转变——自主执行曾经需要人类专业知识的复杂任务,从深入研究到计算机操作,并根据特定用户需求进行调整。
2025-03-29 08:57:09
571
原创 UI-R1:通过强化学习增强GUI代理的动作预测能力
最近的DeepSeek-R1展示了通过基于规则的强化学习(RL)在大型语言模型(LLMs)中涌现出的推理能力。基于这一理念,我们首次探索了如何利用基于规则的RL来增强多模态大语言模型(MLLMs)在图形用户界面(GUI)动作预测任务中的推理能力。为此,我们精心整理了一个包含136个具有挑战性任务的小而高质量的数据集,涵盖了移动设备上的五种常见动作类型。我们还引入了一种统一的基于规则的动作奖励机制,使模型可以通过基于策略的算法(如组相对策略优化(GRPO))进行优化。实验结果表明,我们提出的数据高效模型。
2025-03-29 08:49:40
1239
原创 MedPlan : 一种基于两阶段RAG的个性化医疗计划生成系统
尽管在电子健康记录(EHR)中应用大型语言模型(LLMs)取得了近期成功,但大多数系统主要集中在评估而非治疗规划。我们确定了当前方法中的三个关键限制:它们以单次生成的方式生成治疗计划,而不是遵循临床医生使用的顺序推理过程;它们很少结合患者特定的历史背景;并且它们无法有效区分主观和客观的临床信息。受SOAP方法(主观、客观、评估、计划)的启发,我们引入了 MedPlan ,这是一个新颖的框架,将LLM推理结构化为与现实生活中临床医生工作流程一致的形式。
2025-03-27 21:19:59
1111
原创 NL2SQL-BUGs:用于检测NL2SQL翻译中语义错误的基准
检测NL2SQL翻译中的语义错误需要对可能出现的错误类型有一个清晰和结构化的理解。基于对NL2SQL系统的研究,我们提出了一种全面的两级分类法来对NL2SQL翻译中的语义错误进行分类。NL2SQL中的语义错误分类基于SQL查询的结构、常见的翻译错误及其对查询语义的影响。这种方法允许在查询生成的各个阶段系统地识别错误,帮助确定翻译错误发生的位置和原因。因此,如图 [fig:taxonomy] 所示,我们将语义错误分为9个主要类别,例如 属性相关错误。
2025-03-27 21:11:15
908
【软件工程领域】面向软件工程的人工智能:任务分类、挑战与前进路径了面向软件工程
2025-04-03
### 【自然语言处理】基于强化学习的部分奖励优化Text-to-SQL任务:推理-SQL系统设计与性能提升
2025-04-03
ActionStudio:轻量级动作模型数据与训练框架
2025-04-02
Unicorn: 用于视觉语言模型训练的纯文本数据合成
2025-03-31
基于大型模型的多任务语义通信
2025-03-31
Dewey 长上下文嵌入模型:技术报告
2025-03-30
实时评估模型在RAG中的应用:谁最能检测到幻觉?
2025-03-30
我们能让代码变得更绿色吗?理解LLM与人类代码优化中的权衡
2025-03-30
FutureGen:生成科学文章未来工作的LLM-RAG方法
2025-03-30
NLI4DB: 数据库的自然语言接口系统综述
2025-03-30
CausalRAG:将因果图整合到检索增强生成中
2025-03-30
RGL:一种以图为中心、模块化的高效图检索增强生成框架
2025-03-30
基于LLM的数据分析中的洞察生成方法
2025-03-29
V-SQL:一种基于视图的两阶段Text-to-SQL框架
2025-03-29
在RAG-Text2SQL系统中平衡内容大小
2025-03-29
MAPQA : 开放领域地理空间问答基于地图数据
2025-03-29
Genicious:用于洞察发现的情境化Few-shot提示
2025-03-29
通过答案-公式联合生成实现通用表格问答
2025-03-29
DAgent:一种基于关系数据库驱动的数据分析报告生成代理
2025-03-29
多模态大语言模型时代的代理推荐系统展望
2025-03-29
链式思维推理是否有助于移动GUI代理?一项实证研究
2025-03-29
SEAlign: 面向软件工程代理的对齐训练
2025-03-29
MedAgent-Pro:通过基于推理的代理工作流实现证据驱动的多模态医学诊断
2025-03-29
大型语言模型在问答任务中的代理综述
2025-03-29
MemInsight:大型语言模型代理的自主记忆增强
2025-03-29
GenEdit:复合运算符和持续改进以应对企业级Text-to-SQL的挑战
2025-03-29
用于零样本泛化到定性新任务的思考型智能体
2025-03-29
OmniNova:一个通用的多模态代理框架
2025-03-29
开放深度搜索:通过开源推理代理实现搜索民主化
2025-03-29
CTS-CBS:一种用于多智能体协作任务排序和路径规划的新方法
2025-03-29
基于知识的多智能体框架用于自动化软件架构设计
2025-03-29
基于变化的内在动机的世界模型代理
2025-03-29
从离线多任务数据中学习可泛化的多智能体合作技能以实现多智能体合作
2025-03-29
具有偏见意识的代理:增强人工智能驱动的知识检索的公平性
2025-03-29
CA+:增强认知的咨询代理框架,用于长期动态客户参与
2025-03-29
大型语言模型代理:方法论、应用与挑战综述
2025-03-29
UI-R1:通过强化学习增强GUI代理的动作预测能力
2025-03-29
ExCoT:通过执行反馈优化Text-to-SQL的推理
2025-03-28
MEDPLAN : 一种基于两阶段RAG的个性化医疗计划生成系统
2025-03-27
NL2SQL-BUGs:用于检测NL2SQL翻译中语义错误的基准
2025-03-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人