- 博客(1212)
- 收藏
- 关注
原创 审阅 $\cdot$
本文探讨基于大语言模型(LLM)的表格代理在现实场景中的应用挑战与解决方案。研究指出,现有方法主要针对结构化学术数据集,而实际表格任务面临噪声、异构性和语义复杂性等难题。作者提出五项核心能力框架:表格结构理解(C1)、语义理解(C2)、检索压缩(C3)、可验证推理(C4)和跨领域泛化(C5),系统分析了当前方法的优劣。特别针对文本到SQL任务,研究发现开源模型在现实场景中表现欠佳。论文为提升表格代理的鲁棒性、泛化能力和效率提供了设计原则,强调需要开发更适应复杂现实需求的新方法。这项工作为推进实用化表格智能提
2025-07-26 11:41:27
164
原创 RetrySQL:通过重试数据进行自我修正查询生成的文本到SQL训练
本文提出了一种名为RetrySQL的新型文本到SQL生成模型训练方法。该方法通过引入重试数据(retry data)来训练模型具备自我修正能力。具体步骤包括:(1) 为BIRD数据集中的SQL查询生成推理步骤;(2) 人为破坏这些推理步骤并添加修正步骤;(3) 使用特殊标记分隔的重试数据对开源编码模型进行持续预训练。实验表明,与常规预训练相比,该方法在BIRD基准测试中的执行准确率最高提升4个百分点。研究还发现:(1) 模型确实学会了自我修正行为;(2) 全参数预训练比LoRA微调更有效;(3) 经过Ret
2025-07-26 11:27:32
750
原创 SafeWork-R1:在AI-45°法则下的安全与智能协同进化
摘要: 上海人工智能实验室提出SafeWork-R1,一种基于SafeLadder框架开发的多模态推理模型,实现了安全性与能力的协同进化。该框架结合渐进式强化学习与多原则验证器,使模型具备内在安全推理能力,在安全基准测试中较基础模型(Qwen2.5-VL-72B)平均提升46.54%,超越GPT-4.1和Claude Opus等主流模型。SafeWork-R1通过推理干预和步骤验证增强可靠性,并衍生出多个变体(如InternVL3-78B、DeepSeek-70B),验证了框架的普适性。实验显示,模型在安全
2025-07-26 11:23:51
884
原创 CogniSQL-R1-Zero:用于高效SQL生成的轻量级强化推理
本文提出CogniSQL-R1-Zero,一种基于强化学习(RL)的文本到SQL框架,通过执行正确性和格式合规性的轻量级奖励信号生成准确SQL。该方法避免了中间监督和复杂奖励设计,直接优化最终任务目标。在BIRD基准测试中,该7B参数模型以59.97%的执行准确率超过更大模型如GPT-4、Mistral 123B等,且仅需4块NVIDIA A100 GPU训练。研究贡献包括:1)开源两个数据集——含5,024条推理轨迹的集合和36,356个弱监督查询的语料库;2)验证RL方法在资源受限场景下的有效性;3)提
2025-07-26 11:20:18
558
原创 图表-R1:面向高级图表推理的思维链监督与强化学习方法
摘要: 本文提出Chart-R1,一种基于强化学习微调的视觉-语言模型,用于增强复杂图表推理能力。通过程序化合成方法生成高质量多步骤推理数据集ChartRQA(含258k样本),弥补了现有图表推理数据的不足。训练采用两阶段策略:Chart-COT(逐步思维链监督)分解复杂任务,Chart-RFT(数值敏感强化微调)优化数值准确性。实验表明,Chart-R1在开源基准和自建数据集上显著优于现有方法,性能接近GPT-4o等大规模模型。代码与数据已开源。
2025-07-26 11:13:24
773
原创 RefCritic:利用提炼反馈训练长链式思维评判模型
本文提出RefCritic,一种基于强化学习的长链思维评判模块,旨在解决当前监督微调方法在构建LLM评判模型时的局限性。通过结合实例级正确性和策略模型提炼准确性两种奖励机制,RefCritic能生成高质量评估并提供可操作的改进反馈。实验表明,在Qwen2.5-14B和DeepSeek-R1-Distill-Qwen14B上,RefCritic在AIME25等基准测试中显著提升模型性能(最高达7.2%),并在多数投票场景下展现出良好的扩展性。值得注意的是,该方案无需步骤级标注即可在ProcessBench上超
2025-07-26 11:11:35
960
原创 VeriMinder:减轻NL2SQL中的分析漏洞
摘要:VeriMinder是一个交互式系统,旨在检测和缓解自然语言数据库接口(NLIDB)用户分析问题中的认知偏差。该系统通过三项创新实现:上下文语义映射框架识别特定分析偏差,基于“难以变化”原则的分析框架指导用户进行系统化数据分析,以及优化的LLM提示生成方法。评估显示,82.5%的用户报告分析质量提升,VeriMinder在具体性、全面性和准确性上比基线方法至少高出20%。该系统采用模块化架构,支持与现有NL2SQL系统集成,并以开源形式发布代码库和提示模板,促进社区研究应用。
2025-07-26 11:09:05
905
原创 XiYan-SQL:一种用于文本到SQL的新型多生成器框架
本文提出了一种新颖的文本到SQL框架XiYan-SQL,通过生成和选择多样化SQL候选显著提升任务性能。该框架包含三部分:1)模式过滤模块通过多路径检索和迭代列选择获取多个相关模式;2)多生成器集成方法采用多任务微调策略增强SQL生成能力,并通过不同SQL格式微调构建多样化模型;3)选择模型通过候选重组策略选择最佳SQL。实验表明,XiYan-SQL在BIRD基准测试上取得75.63%的执行准确率(新SOTA),在Spider测试集上也达到89.65%的SOTA性能。该方法突破了传统提示工程的局限性,通过监
2025-07-26 11:07:30
906
原创 企业数据分析中的文本到SQL
本文介绍了LinkedIn构建的文本到SQL聊天机器人系统,旨在帮助企业员工自助获取数据洞察。该系统包含三个核心组件:(1)动态更新的知识图谱,通过索引数据库元数据、查询日志等资源捕捉语义信息,并采用聚类方法关联表与用户/产品区域;(2)文本到SQL代理,从知识图谱检索上下文并生成、修正查询;(3)交互式聊天界面,支持多种用户意图并展示丰富响应。该系统已部署使用,每周服务300多名用户,在内部评估中实现53%的正确率。研究通过消融实验验证了关键组件的重要性,为企业级文本到SQL解决方案提供了实践路径。(15
2025-07-26 11:03:54
758
原创 Text2VectorSQL:统一文本到SQL与向量搜索以实现自然语言查询
本文提出Text2VectorSQL框架,旨在解决传统Text-to-SQL在处理非结构化数据和模糊查询时的局限性。该框架创新性地结合了Text-to-SQL与向量搜索技术,支持语义过滤、多模态匹配和检索加速三大核心功能。研究团队构建了首个Text2VectorSQL基准VectorSQLBench,通过自动化流程识别可向量索引的列并生成高质量评估数据。基于此开发的UniVectorSQL模型在混合查询任务中表现优异,较基线方法提升达47%。这项工作为建立更通用的自然语言数据库接口奠定了基础,代码已在Git
2025-07-26 11:02:10
632
原创 SQLord:一种通过反向数据生成和工作流分解构建的稳健企业级文本到 SQL 解决方案
本文提出SQLord,一个企业级NL2SQL框架,通过逆向数据生成和任务分解解决复杂业务查询转换问题。针对领域数据稀缺的挑战,SQLord利用开发者的SQL语句及其注释训练逆向生成模型RevLLM,自动生成<Query, SQL>标注对用于模型微调。为处理复杂查询,系统采用自动化工作流生成器将任务分解为子任务,结合领域知识和数据库模式进行动态SQL生成与执行。此外,SQLord提出基于GPT-Judge的三阶段评估框架(EXE/QSE/SSE),支持不同场景下的性能验证。实验表明SQLord离线
2025-07-26 11:01:06
1084
原创 梯度自适应策略优化:迈向大型语言模型的多目标对齐
【摘要】针对大型语言模型(LLMs)与多样化人类偏好对齐的挑战,本文提出梯度自适应策略优化(GAPO)方法。传统强化学习人类反馈(RLHF)在处理冲突偏好时存在局限,GAPO将问题建模为多目标优化,通过多梯度下降算法自适应调整各目标梯度权重,实现帕累托最优。扩展版本P-GAPO进一步融入用户偏好权重,生成定制化解决方案。理论证明GAPO具有收敛性,在Mistral-7B上的实验显示,其在有用性和无害性平衡上超越现有方法。该研究为复杂偏好对齐提供了新思路,相关成果由中科院计算所与浙江大学团队联合完成。
2025-07-03 22:26:26
952
原创 探测语言模型的评估意识
研究发现,语言模型能够识别评估与部署环境(评估意识),这可能影响AI安全评估的有效性。通过Llama-3.3-70B-Instruct实验表明,线性探测器可从模型内部表示中区分评估提示与真实部署提示(最佳AUROC达0.829),当前安全评估常被识别为"测试类"(如Insider Trading数据集100%被分类为测试)。研究揭示了现有安全评估方法可能因模型识别测试环境而失效,建议利用内部表示分析补充传统评估,为可信AI治理提供新工具。
2025-07-03 22:17:22
786
原创 MuRating:一种面向多语言大语言模型预训练的高质量数据选择方法
摘要 本文提出MuRating框架,解决多语言大语言模型(LLM)预训练中的数据质量评估问题。现有方法主要针对英语,而MuRating通过聚合多个英语评分器的成对比较结果(Bradley-Terry模型),学习统一质量评分,并将判断通过翻译投射到17种语言,构建单语、跨语言和并行文本对,训练多语言评估模型。实验表明,基于MuRating选择的5000亿token预训练的12亿参数LLaMA模型,在英语基准(ARC、MMLU等)上比基线方法提升1-3.4%,在多语言任务(XNLI、Flores等)上平均提升1
2025-07-03 22:15:18
1040
原创 BranchNet:一种用于结构化多类别分类的神经符号学习框架
本文提出BranchNet,一种将决策树集成转换为稀疏神经网络的神经符号学习框架。该框架通过将决策路径映射为隐藏神经元,保留符号结构并支持梯度优化。实验表明,BranchNet在结构化多类分类任务中准确率显著优于XGBoost,同时保持可解释性。方法核心包括:1)根据数据集特性自动确定树的数量和大小;2)将决策路径映射为稀疏连接的隐藏层;3)冻结输出层以保持符号可解释性;4)通过批量归一化和权重缩放稳定训练。BranchNet无需手动调整架构,在符号可解释性和性能之间取得平衡,为结构化数据分类提供了新思路。
2025-07-03 22:10:45
603
原创 AI代理与Agentic AI:为未来制造导航众多概念
摘要: 随着生成式AI(GenAI)、大语言模型(LLMs)和多模态大语言模型(MLLMs)的发展,AI代理在语义理解、复杂推理和自主决策方面的能力显著提升。基于LLM和MLLM的AI代理(LLM-Agents、MLLM-Agents)以及新兴的Agentic AI范式,为智能制造提供了新的可能性,但其定义、应用边界及挑战仍需明确。本文系统回顾了AI与代理技术的发展历程,探讨了LLM-Agents、MLLM-Agents和Agentic AI的核心概念与技术进展,并分析了其在制造业中的潜在应用与面临的挑战。
2025-07-03 22:09:03
935
原创 为制造商赋能的隐私保护AI工具:一个隐私保护机器学习解决现实问题的案例研究
本文提出了一种面向中小型制造业的隐私保护数据共享平台,该平台允许制造商安全地共享专有数据,研究人员在此基础上开发创新工具并回馈给制造商使用。以食品晶体质量控制为例,研究团队针对显微镜图像分析开发了自动化解决方案:针对旧相机采用改进的图像处理流水线(包含自适应阈值和小簇去除模块),针对新相机数据采用基于StarDist的机器学习模型。最终工具通过Web应用程序部署,并在隐私保护平台中运行,确保数据安全。案例表明,该方法能有效解决制造业中的实际痛点(如人工晶体计数效率低),同时保护企业敏感信息。研究为中小企业利
2025-07-03 22:07:44
606
原创 LoRA 微调无需 GPU:一种适用于 CPU 的高效元生成 LLM 框架
本文提出了一种专为计算资源有限用户设计的CPU高效LoRA微调方法。该方法通过学习元操作符,将输入数据集映射到预训练LoRA权重的组合,无需GPU即可生成适配器。理论分析表明,该方案能有效识别最优LoRA混合系数,在下游任务中始终优于基础模型。实验验证了该方法在标准CPU上的可行性,为无法使用GPU的用户提供了实用替代方案。核心贡献包括:1) 轻量级LoRA生成流水线;2) 理论保证最优组合系数识别;3) 无神经网络的近似最优解决方案。
2025-07-03 22:06:34
730
原创 代理构思:一种利用代理式人工智能从专利中生成产品创意的框架
摘要 本研究提出Agent Ideate框架,利用大语言模型(LLMs)和自主代理从专利中生成创新产品概念。针对计算机科学、自然语言处理和材料化学三个领域的专利数据,实验对比了基于提示的LLM方法、无工具代理方法和带工具代理方法的性能。评估采用LLM-as-a-judge策略,结果显示带工具代理方法在创意质量、相关性和新颖性上显著优于其他方法,尤其在NLP和材料化学领域表现突出。这表明结合LLMs与多代理工作流能有效挖掘专利中的技术潜力,增强创新流程。代码已开源。
2025-07-03 22:04:26
769
原创 桥接UI设计与聊天机器人交互:将基于表单的原则应用于对话代理
本文提出一种将GUI交互隐喻(提交/重置)引入特定领域聊天机器人的方法,通过显式建模确认和上下文切换任务来改善多轮对话的清晰度。研究团队利用大型语言模型(LLM)生成结构化输出,结合链式思维(CoT)推理,使系统能够更准确地跟踪用户意图。该方法在酒店预订和客户管理场景中验证了有效性,显著提升了任务连贯性、用户满意度和操作效率。关键词:GUI启发的CoT、提交|重置隐喻、特定领域聊天机器人
2025-07-03 22:03:33
843
原创 Text2VectorSQL:统一自然语言查询的文本到SQL和向量搜索的桥梁
尽管Text-to-SQL技术能够实现与结构化数据库的自然语言交互,但由于其严格的语法限制和表达能力有限,在处理非结构化数据或模糊查询时效果不佳。同时,向量搜索已经成为语义检索的强大范式,特别是针对非结构化数据。然而,现有的VectorSQL实现仍然严重依赖手动编写,并且缺乏专门的评估框架,导致理论潜力与实际部署之间存在显著差距。
2025-07-02 21:05:30
1159
原创 Map&Make:基于模式引导的文本到表格生成
本文提出Map&Make框架,用于将非结构化文本转换为可解释的表格。该方法通过分解文本为原子命题,提取表格模式并填充内容,有效解决了复杂信息提取和模式推断问题。在Rotowire和Livesum数据集上的实验表明,该方法在表格生成质量和信息覆盖率方面优于现有技术。研究还修正了Rotowire基准中的幻觉问题,并通过消融实验验证了框架的有效性。该工作为结构化文本摘要提供了通用解决方案,在信息检索和知识管理领域具有应用价值。
2025-06-30 22:32:49
678
原创 TableMoE:用于多模态表格理解的结构化专家推理的神经符号路由
本文提出TableMoE框架,针对现实场景中结构复杂、视觉退化的多模态表格理解问题。通过神经符号混合连接专家(MoCE)架构,创新性地结合语义角色预测和符号推理图,动态路由表格元素至专用专家(表格转HTML/JSON/代码)。配套构建了包含120万组跨领域数据的TableMoE-Align预训练数据集,并发布四个WildStruct基准测试(WMMFinQA等)用于评估模型在真实退化条件下的表现。实验表明TableMoE显著优于现有方法,精确匹配率提升高达9.2%,同时具备良好的可解释性。代码和基准已开源。
2025-06-30 22:10:33
992
原创 自动化文本到表格的推理密集型表格问答任务:流程设计与基准测试洞察
本文提出了一种自动化生成流程AutoT2T,将数学文字问题转化为表格推理任务,解决了现有表格问答评估中人工标注成本高和表格异质性大两大瓶颈。通过神经符号方法,AutoT2T实现了语义解耦、表格转换和增强三个关键步骤,并支持生成包含噪声的表格变体。基于此构建的TabularGSM基准系统评估了不同复杂度表格下的模型表现,揭示了大型语言模型在推理与检索耦合任务中的关键失败因素。实验表明,模型需要发展协同推理能力才能有效应对复杂表格问答。该研究为推理密集型表格任务提供了标准化评估工具和深入分析。
2025-06-30 21:51:24
660
原创 $\mathbf{T}^{2}$-RAGBench: 用于评估检索增强生成的文本与表格基准
本文提出$\mathbf{T}^{2}$-RAGBench基准数据集,包含32,908个金融领域问题-上下文-答案三元组,用于评估检索增强生成(RAG)系统处理文本和表格混合数据的能力。不同于现有问答数据集依赖已知上下文,该基准要求模型先检索正确上下文再进行数值推理。作者将上下文依赖问题转换为独立格式,并全面评估主流RAG方法,发现混合BM25方法表现最佳。实验表明,即使最先进方法在该基准上仍具挑战性。该工作填补了文本表格RAG评估的空白,为相关研究提供了严格基准。数据集和代码已公开。
2025-06-30 21:45:33
681
原创 TReB:评估大语言模型表格推理能力的综合基准
本文提出了一种全面评估大语言模型(LLMs)表格推理能力的基准TReB,包含26个子任务,覆盖6大核心技能(自然语言理解、表格理解、表格基本操作、表格计算操作、数据分析和高级数据分析)。针对现有基准在数据质量、推理模式和评估指标方面的不足,TReB构建了高质量数据集(含人工验证的5,000+表格问答对),支持三种推理模式(TCoT、PoT、ICoT),并设计了多维度评估指标。实验测试了20+先进LLMs,结果表明现有模型在复杂表格任务上仍有显著提升空间。数据集和评估框架已开源,为表格推理研究提供了新标准。
2025-06-30 21:39:40
1031
原创 QUEST:面向商业文档的质量感知半监督表格提取
QUEST:一种质量感知半监督表格提取框架 摘要:本研究提出QUEST框架,用于解决商业文档表格提取中的标注稀缺和误差传播问题。不同于传统半监督学习依赖置信度分数,QUEST引入质量评估模型,通过分析表格结构和上下文特征预测F1分数,指导伪标签选择。结合多样性度量(DPP、Vendi分数、IntDiv),该框架在专有商业数据集(1k标注+10k未标注)上将F1从64%提升至74%,空预测减少45%;在DocILE基准上F1提高至50%(原42%),空预测降低19%。QUEST的质量评估机制特别适合商业文档处
2025-06-30 21:34:27
1023
原创 合成数据增强用于表格检测:使用自动生成的文档图像重新评估TableNet性能
本文提出了一种基于LaTeX的自动化流水线,用于生成包含多样化表格布局的两栏文档图像及其真实掩码。该合成数据增强了Marmot基准数据集,支持TableNet模型在不同分辨率(256×256和1024×1024)下的系统性能研究。实验表明,在合成测试集上,TableNet的逐像素XOR错误率分别为4.04%(256×256)和4.33%(1024×1024),在Marmot基准上最佳性能达9.18%(256×256)。该方法显著减少了人工标注工作量,并为文档图像分析中的表格检测任务提供了有效的解决方案。研究
2025-06-30 21:27:58
911
原创 TableEval:一个面向复杂、多语言和多结构表格问答的真实世界基准
大型语言模型(LLMs)在自然语言处理方面取得了显著进展。然而,在表格问答(TableQA)任务中仍面临重大挑战,其中真实世界中的复杂性如多样化的表格结构、多语言数据以及领域特定推理至关重要。现有的TableQA基准通常局限于简单的平面表格,并且存在数据泄漏问题。此外,大多数基准是单语的,无法捕捉实际应用中跨语言和跨领域的可变性。为了解决这些局限性,我们引入了TableEval,一个新的基准,用于评估LLMs在真实TableQA任务上的表现。
2025-06-30 21:26:14
932
原创 WikiMixQA:一种用于表格和图表问答的多模态基准
摘要 本文提出WikiMixQA——一个包含1000个多模态选择题的基准数据集,用于评估视觉-语言大模型(VLLMs)在长文档中的跨模态推理能力。数据源自4000篇维基百科页面,涵盖表格、图表及7个主题领域。研究测试了12种VLLMs,结果显示:专有模型在直接提供上下文时准确率达70%,但需自主检索长文档信息时性能骤降(仅GPT-4-o超50%);开源模型表现更差(最高27%)。该工作揭示了当前模型处理长文档多模态推理的局限性,为文档理解研究提供了重要基准。数据集构建包含自动筛选、语义配对、AI生成问题及人
2025-06-30 20:48:53
1049
原创 KaLM-Embedding-V2:卓越的训练技术和数据激发了多功能嵌入模型
本文中,我们提出了KaLM-Embedding-V2,一种多功能且紧凑的嵌入模型,通过利用卓越的训练技术和数据,在通用文本嵌入任务中取得了令人印象深刻的性能。我们的关键创新包括:(1) 为了更好地使架构与表示学习匹配,我们移除了因果注意力掩码,并采用具有简单而有效均值池化的完全双向Transformer来生成固定长度的嵌入;(2) 我们采用多阶段训练流水线:(i) 在大规模弱监督开源语料库上进行预训练;(ii) 在高质量检索和非检索数据集上进行微调;以及 (iii) 利用模型融合参数平均法实现鲁棒泛化。
2025-06-29 21:56:23
1300
原创 挑战安全极限:ATLAS挑战赛2025技术报告
摘要 ATLAS 2025对抗性测试与大模型对齐安全大奖赛聚焦多模态大语言模型(MLLMs)的安全漏洞评估,吸引了86支队伍参与两阶段挑战。第一阶段(白盒攻击)要求参赛者针对180个有害文本提示设计对抗性图文对,测试开源模型Qwen2-VL-7B和Internvl2-8B的脆弱性;第二阶段(黑盒评估)进一步升级任务复杂度。比赛揭示了MLLMs在跨模态交互中的安全风险,为防御机制创新提供了基准。相关代码与数据已开源,推动更安全的AI系统发展。该竞赛由全球多所高校及机构联合组织,成果将于CVPR 2025展示。
2025-06-29 21:38:05
1135
原创 统一的视觉-语言-动作模型
摘要: 本文提出UniVLA,一种统一的自回归模型,将视觉、语言和动作表示为离散标记进行联合建模,支持多模态任务学习。不同于传统视觉-语言-动作(VLA)模型依赖独立编码器,UniVLA通过统一框架实现跨模态深度集成,并利用视频数据捕捉时间动态。实验表明,该模型在CALVIN、LIBERO等基准上达到最先进性能,且通过世界建模增强长期任务表现。UniVLA还展示了在自动驾驶等领域的扩展潜力,为通用具身智能提供了新方向。 (字数:149)
2025-06-29 21:31:34
942
原创 MiMo-VL 技术报告
小米开源视觉语言模型MiMo-VL-7B取得突破性进展 小米团队近日开源了MiMo-VL-7B系列视觉语言模型,包含SFT和RL两个版本,在多项基准测试中表现优异。该模型通过四阶段预训练(2.4万亿token)和混合策略强化学习(MORL)方法训练而成,在40项评估任务中有35项超越Qwen2.5-VL-7B。特别在GUI定位任务中,MiMo-VL-7B-RL以56.1的成绩创下OSWorld-G新纪录,甚至超过专用模型。研究证实,将长链式思维推理数据纳入预训练阶段对提升模型性能至关重要。团队同时发布了包含
2025-06-29 21:26:35
931
原创 PsyLite 技术报告
摘要 本研究提出PsyLite,一种基于InternLM2.5-7B-chat的轻量级心理咨询大模型,通过两阶段训练(混合蒸馏数据微调+ORPO偏好优化)提升深度推理、专业咨询与对话安全能力。创新性引入条件RAG机制,动态结合相声幽默以优化用户体验,同时拒绝危险请求保障安全性。实验表明,PsyLite在CPsyCounE(专业性+47.6%)和SafeDialBench(安全性+2.4%)显著优于基线,并通过量化技术(GGUF q4_k_m)实现5GB内存的低硬件部署。研究为资源受限环境提供了可行的心理咨询
2025-06-29 21:24:12
823
原创 LGAI-EmbEDDING-PREVIEW 技术报告
摘要: LG AI Research提出了一种基于指令的统一框架(LGAI-Embedding-Preview),利用Mistral-7B模型结合上下文学习、软监督和自适应硬负样本挖掘,生成通用文本嵌入。该方法无需任务微调,通过结构化指令和少量示例,在分类、语义相似性、聚类和重排序等任务中表现优异。软标签框架从高性能检索器中提取连续相关性得分作为监督信号,而自适应硬负样本挖掘则提升训练稳定性和检索鲁棒性。在MTEB(英文v2)基准测试的41项任务中,该模型展现出强大泛化能力,Borda得分排名前列,优于更大
2025-06-29 21:22:41
793
原创 技术报告:Kaldi ASR 优化实用指南
本文提出了一种基于Kaldi的自动语音识别系统优化方法,通过声学模型增强和语言模型改进提升性能。在声学模型方面,设计了结合卷积和自注意力的定制Conformer模块,并采用多流TDNN-F结构,将输入特征从40维升级为80维log Mel滤波器组,集成SpecAugment数据增强技术。语言模型优化包括贝叶斯优化和n-gram剪枝策略,使用KenLM提高训练效率。实验表明,该系统在保持计算效率的同时显著降低了字符错误率,为语音识别任务提供了可扩展的解决方案。
2025-06-29 21:21:00
742
原创 Amazon Nova 系列模型:技术报告与模型卡片
亚马逊推出全新Nova系列AI模型,包含多款针对不同场景优化的产品:Nova Pro是多模态全能模型,Nova Lite是低成本多模态方案,Nova Micro专注文本低延迟响应,Canvas和Reel分别提供图像/视频生成能力。该系列采用Transformer架构,支持200+语言处理,通过多阶段训练确保性能与安全性。基准测试显示其在文本理解、多模态处理等任务上达到行业领先水平,同时强调负责任AI原则。模型提供知识库集成、自定义微调等功能,兼顾专业需求与成本效益。技术细节包括潜在扩散框架(生成模型)和基于
2025-06-29 21:19:24
1022
原创 为现实应用设计RAG系统:设计、开发与评估
摘要:本文探讨了检索增强生成(RAG)系统在实际应用中的开发与评估,聚焦于五个特定领域:治理、网络安全、农业、工业研究和医学诊断。研究团队与芬兰多机构合作,开发了集成多语言OCR、语义检索和适配领域LLM的RAG系统,并通过100名参与者的在线评估从易用性、相关性等六个维度进行测评。基于用户反馈和开发经验,研究总结了12项关键教训,揭示了RAG系统在技术、操作和伦理层面的挑战。最终版本将由IEEE出版于第51届欧洲微型计算机会议(SEAA 2025)。 (字数:150)
2025-06-29 21:18:53
930
原创 Argoverse2 场景挖掘挑战中迭代错误纠正与空间感知提示的技术报告
本文提出RefAV框架的改进方法,用于自动驾驶场景挖掘。针对大语言模型(LLM)生成代码的运行时错误和空间关系函数理解不准确的问题,提出了两项关键技术:容错迭代代码生成(FT-ICG)机制通过错误反馈优化代码;增强的空间关系函数提示(EP-SRF)提升LLM对复杂空间关系的理解。在Argoverse 2数据集上的实验表明,采用Qwen2.5-VL-7B、Gemini 2.5 Flash和Gemini 2.5 Pro等模型时,各项指标均有显著提升,其中Gemini 2.5 Pro的HOTA-Temporal得
2025-06-29 21:17:02
564
NLI4DB: 数据库的自然语言接口系统综述
2025-03-30
FutureGen:生成科学文章未来工作的LLM-RAG方法
2025-03-30
CausalRAG:将因果图整合到检索增强生成中
2025-03-30
RGL:一种以图为中心、模块化的高效图检索增强生成框架
2025-03-30
在RAG-Text2SQL系统中平衡内容大小
2025-03-29
MAPQA : 开放领域地理空间问答基于地图数据
2025-03-29
基于LLM的数据分析中的洞察生成方法
2025-03-29
V-SQL:一种基于视图的两阶段Text-to-SQL框架
2025-03-29
Genicious:用于洞察发现的情境化Few-shot提示
2025-03-29
通过答案-公式联合生成实现通用表格问答
2025-03-29
链式思维推理是否有助于移动GUI代理?一项实证研究
2025-03-29
DAgent:一种基于关系数据库驱动的数据分析报告生成代理
2025-03-29
多模态大语言模型时代的代理推荐系统展望
2025-03-29
MedAgent-Pro:通过基于推理的代理工作流实现证据驱动的多模态医学诊断
2025-03-29
大型语言模型在问答任务中的代理综述
2025-03-29
SEAlign: 面向软件工程代理的对齐训练
2025-03-29
MemInsight:大型语言模型代理的自主记忆增强
2025-03-29
GenEdit:复合运算符和持续改进以应对企业级Text-to-SQL的挑战
2025-03-29
用于零样本泛化到定性新任务的思考型智能体
2025-03-29
OmniNova:一个通用的多模态代理框架
2025-03-29
【生物信息学】双向分层蛋白质多模态表示学习:融合蛋白质语言模型与图神经网络提升蛋白质相关任务预测性能
2025-04-11
### 【自然语言处理】潜在专家混合(MoLE):用于资源高效语言模型的创新架构设计:本文介绍了潜在
2025-04-09
### 【人工智能模型压缩】MoQa:多阶段数据模型分布感知的MoE量化框架设计与优化
2025-04-08
### 强化学习VAPO:用于高级推理任务的高效可靠强化学习框架设计与实现
2025-04-08
### 文章标题: 【自然语言处理】基于ChatGPT的REFORMER框架:提升Text-to-SQL模型的数据合成与增强系统设计
2025-04-08
### 【多智能体系统】基于强化学习的集中式多智能体协调框架:联合动作顺序构造方法设计与实验评估
2025-04-08
### 【人工智能领域】基于自原则批评调整的通用奖励建模推理时间扩展研究题:基于自
2025-04-08
### 【人工智能与物理学】基于MASS模型的AI科学家在物理系统中的理论一致性研究
2025-04-08
### 文章标题: 【AI助手与知识图谱】基于思维知识图(KGoT)的高效AI助手架构设计:降低运营成本与提升任务成功率摘要: 本文介绍
2025-04-08
### 【自然语言处理】大型语言模型推理能力的预训练扩展规律研究:基于知识图谱的多跳推理任务分析
2025-04-08
【计算机教育】DeepSeek-V3在计算机网络教育中的实证研究:评估模型效能与跨语言适应性
2025-04-04
医疗领域大型语言模型DeepSeek R1医疗推理能力分析:评估模型推理过程及错误模式以提升临床决策支持系统性能
2025-04-04
【软件工程领域】面向软件工程的人工智能:任务分类、挑战与前进路径了面向软件工程
2025-04-03
### 【自然语言处理】基于强化学习的部分奖励优化Text-to-SQL任务:推理-SQL系统设计与性能提升
2025-04-03
ActionStudio:轻量级动作模型数据与训练框架
2025-04-02
Unicorn: 用于视觉语言模型训练的纯文本数据合成
2025-03-31
基于大型模型的多任务语义通信
2025-03-31
Dewey 长上下文嵌入模型:技术报告
2025-03-30
实时评估模型在RAG中的应用:谁最能检测到幻觉?
2025-03-30
我们能让代码变得更绿色吗?理解LLM与人类代码优化中的权衡
2025-03-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人