Causal and Reasoning
文章平均质量分 76
该专栏主要整理LLM causal和reasoning相关的paper
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Role-Conditioned Refusals: Evaluating Access Control Reasoning in Large Language Models
传统计算中,基于角色的访问控制(RBAC)是安全基石,但LLMs生成式特性会模糊角色边界,可能导致未授权用户获取敏感数据(如医疗、财务信息)。现有研究多依赖合成场景,缺乏对真实可执行访问规则的支持,无法有效评估LLMs在实际访问控制中的可靠性。访问控制是安全计算的基石,但大型语言模型(LLMs)往往会因生成无限制响应而模糊角色边界。本文研究“角色条件拒绝”问题,重点关注LLM遵循访问控制策略的能力——即授权时正常响应、未授权时拒绝访问。原创 2025-11-22 09:30:00 · 127 阅读 · 0 评论 -
Search-R3: Unifying Reasoning and Embedding Generation in Large Language Models
核心问题:现有检索系统中,LLMs的推理能力与嵌入模型(如BERT类)的向量生成相互独立,导致LLMs无法通过语义分析优化嵌入质量,难以处理需要多步推理的复杂检索任务。框架设计:提出Search-R3(Reasoning-Reinforced Representation for Search),将嵌入生成视为LLMs推理过程的直接结果。通过“预填充(Prefill)-生成(Generation)”模式,先让模型输出查询意图的分析推理步骤,再生成包含语义信息的,从该token的隐藏状态中提取嵌入向量。原创 2025-11-20 09:30:00 · 129 阅读 · 0 评论 -
PROMPT REINFORCING FOR LONG-TERM PLANNING OF LARGE LANGUAGE MODELS
研究背景:LLMs在单轮任务中表现优异,但在多轮交互(如文本生成SQL、任务导向对话)中,常因早期假设错误、无法追踪用户目标导致性能下降;现有优化方法(如梯度微调、自反馈)存在计算成本高、依赖频繁API调用或仅适用于单轮任务的局限。核心方法:强化提示优化(RPO)框架结构:初始提示可由专家编写或LLM生成,通过“交互-反馈-重写”循环迭代优化。模型与环境(用户/模拟用户)交互生成轨迹,反馈器(人类/LLM)提供基于时序差分(TD)误差的回合级反馈,重写器(LLM)结合历史经验重写提示。反馈机制。原创 2025-11-13 09:30:00 · 134 阅读 · 0 评论 -
DeepAgent: A General Reasoning Agent with Scalable Toolsets
现有大语言模型驱动的代理存在局限性:依赖预定义工作流、无法动态发现工具、长程交互中记忆管理不足、推理连贯性欠缺,难以适配真实世界复杂任务和大规模工具集。大推理模型已展现出强大的问题解决能力,但现实世界任务通常需要外部工具和长程交互。现有代理框架大多遵循预定义工作流,限制了自主完成全局任务的能力。本文提出 DeepAgent,一种端到端深度推理代理,能在单一连贯的推理过程中实现自主思考、工具发现和动作执行。原创 2025-10-30 10:51:56 · 55 阅读 · 0 评论 -
Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning
本技术报告提出Ring-linear模型系列,具体包括Ring-mini-linear-2.0和Ring-flash-linear-2.0。其中,Ring-mini-linear-2.0含160亿参数和9.57亿激活参数,Ring-flash-linear-2.0含1040亿参数和61亿激活参数。两款模型均采用有效融合线性注意力与softmax注意力的混合架构,显著降低长上下文推理场景下的I/O开销与计算开销。与320亿参数稠密模型相比,该系列将推理成本降至1/10;原创 2025-11-05 09:30:00 · 110 阅读 · 0 评论 -
HumanoidGen: Data Generation for Bimanual Dexterous Manipulation via LLM Reasoning
本文提出了,一个用于双足机器人双臂灵巧操作的自动化任务创建与演示数据生成框架,旨在解决现有机器人数据集多针对单臂平台、双臂灵巧操作数据稀缺的问题。空间标注与场景生成:对资产(物体)和灵巧手进行关键点位与轴的标注,基于LLM生成包含环境配置和任务成功条件的代码;LLM任务规划:将长程任务分解为原子操作序列,生成空间约束链(如点位重合、轴平行),并通过轨迹优化器求解运动轨迹;推理增强:引入蒙特卡洛树搜索(MCTS)的STCR机制,提升LLM在长程任务和标注不足场景下的推理能力;基准构建与实验验证。原创 2025-10-07 09:30:00 · 190 阅读 · 0 评论 -
Reverse-Engineered Reasoning for Open-Ended Generation
深度推理”范式在数学、编程等可验证领域已取得显著进展,但在创意写作等开放式生成任务中面临关键瓶颈:现有主流方法(强化学习RL、指令蒸馏)均存在缺陷——RL缺乏清晰的奖励信号与高质量奖励模型,蒸馏成本极高且受限于教师模型能力,而开放式任务因无客观真值,难以直接适配这些方法。范式创新:提出逆向工程推理(REER)这一第三路径,突破RL的样本低效性与蒸馏的成本限制,无需依赖昂贵教师模型或奖励信号即可合成高质量推理数据,为开放式生成的深度推理研究开辟新方向。数据创新。原创 2025-09-23 09:30:00 · 241 阅读 · 0 评论 -
A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems
核心分类框架:从两个正交维度对LLM推理现有方法分类机制维度(Regimes):依据推理实现的阶段划分,涵盖推理时(inference time)实现推理的方法,以及通过专门训练(dedicated training)实现推理的方法。架构维度(Architectures):根据推理过程涉及的组件区分,一类是独立的大型语言模型(standalone LLMs),另一类是智能体复合系统(agentic compound systems),这类系统融入了外部工具和多智能体协作机制。关键分析视角。原创 2025-09-15 09:30:00 · 228 阅读 · 0 评论 -
Aware First, Think Less: Dynamic Boundary Self-Awareness Drives Extreme Reasoning Efficiency
当前大型语言模型(LLMs)通过长思维链(Long CoT)在复杂推理任务上性能显著提升,但存在大量冗余token,导致计算效率低、实时应用延迟高。现有优化方法多依赖人工定义的难度先验,与模型自身感知的难度不匹配——可能将模型需深度探索的“简单”问题误判为易处理,或将模型可简化推理的“复杂”问题误判为需冗长推理,最终造成推理效率低下、性能欠佳。提出动态推理边界认知范式。原创 2025-09-09 08:30:00 · 202 阅读 · 0 评论 -
TableReasoner: Advancing Table Reasoning Framework with Large Language Models
本文介绍了我们为表格问答(TQA)任务开发的系统。由于真实世界表格数据的特点(如大尺寸、列语义不完整、实体歧义等),TQA任务面临诸多挑战。为解决这些问题,我们提出了一个基于大语言模型(LLM)和编程的表格推理框架TableReasoner。该框架采用结合结构和语义表示的schema对表格进行建模,实现对大型表格的整体理解和高效处理。我们设计了多步schema链接方案,以生成仅保留查询相关信息的聚焦表格schema,从而消除歧义并缓解幻觉。这种聚焦表格schema为查询细化和编程提供了精确且充分的表格细节。原创 2025-09-08 09:30:00 · 210 阅读 · 0 评论 -
Group Sequence Policy Optimization
本文提出了一种名为的强化学习算法,用于训练大型语言模型(LLMs)。该算法针对现有强化学习算法(如GRPO)在训练大型语言模型时存在的稳定性问题(如模型崩溃),通过重新设计重要性比率的定义和优化目标,实现了更稳定、高效且性能更优的训练。实验表明,GSPO在训练效率、性能上显著优于GRPO,能稳定混合专家(MoE)模型的强化学习训练,并有望简化强化学习基础设施设计,其优势已助力最新Qwen3模型的性能提升。本文介绍了组序列策略优化(GSPO),这是一种用于训练大型语言模型的稳定、高效且性能优异的强化学习算法。原创 2025-08-30 08:30:00 · 418 阅读 · 0 评论 -
BEYOND CONTEXT LIMITS: SUBCONSCIOUS THREADS FOR LONG-HORIZON REASONING
为突破大语言模型(LLMs)的上下文限制(这些限制会成为推理准确性和效率的瓶颈),我们提出了线程推理模型(Thread Inference Model, TIM)——一类为递归和分解式问题求解训练的LLM,以及TIMRUN——一种支持超越上下文限制的长程结构化推理的推理运行时系统。TIM与TIMRUN协同工作,可在单次语言模型推理中支持近乎无限的工作记忆和多跳工具调用,克服输出限制、位置嵌入约束和GPU内存瓶颈。其性能通过将自然语言建模为推理树(同时衡量长度和深度)而非线性序列来实现。原创 2025-08-29 09:30:00 · 109 阅读 · 0 评论 -
WE-MATH 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning
多模态大语言模型(MLLMs)在各类任务中已展现出令人印象深刻的能力,但在复杂数学推理上仍存在困难。现有研究主要聚焦于数据集构建和方法优化,却常忽视两个关键方面:全面的知识驱动设计和模型中心的数据空间建模。本文提出WE-MATH 2.0,这是一个统一系统,整合了结构化数学知识体系、模型中心的数据空间建模和基于强化学习(RL)的训练范式,以全面增强MLLMs的数学推理能力。原创 2025-08-29 08:30:00 · 191 阅读 · 0 评论 -
ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability
本文提出了一种具有强推理能力的列表式段落重排序模型ReasonRank,旨在解决现有重排序模型在推理密集型场景(如复杂问答、数学问题、代码查询等)中表现不佳的问题,核心原因是这类场景缺乏高质量的推理密集型训练数据。设计了自动推理密集型训练数据合成框架,从复杂问答、代码、数学、网页搜索四个领域收集查询和段落,利用DeepSeek-R1生成高质量标签(包括推理链和黄金排序列表),并通过自一致性过滤机制保证数据质量,最终得到1.3万条高质量训练数据。提出两阶段训练框架。原创 2025-08-27 09:30:00 · 160 阅读 · 0 评论 -
R-Zero: Self-Evolving Reasoning LLM from Zero Data
本文提出了一种名为R-Zero的完全自主自进化框架,旨在解决现有自进化大语言模型(LLMs)依赖大量人类标注任务和标签的局限。挑战者通过Group Relative Policy Optimization(GRPO)算法训练,生成接近求解者能力边缘的任务,其奖励信号基于求解者对任务的不确定性(通过多次回答的自我一致性衡量);求解者同样通过GRPO算法优化,基于多数投票产生的伪标签解决挑战者生成的任务;两者通过迭代循环协同进化,形成自我改进的学习课程,无需任何人类干预。原创 2025-08-27 08:30:00 · 144 阅读 · 0 评论 -
Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens
思维链(CoT)提示法已被证明能提升大语言模型(LLMs)在多种任务上的表现。通过这种方法,LLMs在给出答案前会生成类人的推理步骤(即CoT推理),这往往让人认为它们在进行有意识的推理过程。然而,一些初步研究表明,CoT推理可能比表面看起来更肤浅,这促使我们进一步探索。本文从数据分布的视角研究CoT推理,探究其是否反映了从分布内数据中习得的结构化归纳偏差——使模型能够生成接近训练中所见的推理路径。因此,其有效性从根本上受限于训练数据与测试查询之间的分布差异程度。原创 2025-08-26 10:00:00 · 156 阅读 · 0 评论 -
From Data-Centric to Sample-Centric: Enhancing LLM Reasoning via Progressive Optimization
本文聚焦于大语言模型(LLMs)的推理能力提升,提出从“数据中心”向“样本中心”转变的优化思路,设计了名为LPPO(Learning-Progress and Prefix-guided Optimization)的渐进式优化框架。前缀引导采样(Prefix-Guided Sampling, PG-Sampling):针对模型难以解决的“挑战性样本”,利用专家演示的部分解前缀作为提示,引导模型完成剩余推理,平衡探索与学习效率;原创 2025-08-16 09:30:00 · 74 阅读 · 0 评论 -
Read Quietly, Think Aloud: Decoupling Comprehension and Reasoning in LLMs
本文聚焦大型语言模型(LLMs)与人类认知的关键差异:LLMs在生成文本前缺乏类似人类“默读”(内部理解和思考)的阶段,而是直接进行输出生成。为解决这一问题,研究提出并验证了两种技术,旨在让LLMs具备“默读”能力,从而提升其理解深度和推理质量:实验结果显示,两种技术在多个基准测试(如ARC Challenge、Hellaswag、OpenBook QA等)上均显著提升模型准确率,且在更大模型(如Llama 3.1 70B)和专业领域数据集(如科学领域)中表现出可扩展性。大型语言模型(LLMs)在文本理解和原创 2025-08-11 11:00:00 · 29 阅读 · 0 评论 -
CodeAgents: A Token-Efficient Framework for Codified Multi-Agent Reasoning in LLMs
本文提出了CodeAgents,一种基于结构化伪代码的提示框架,旨在解决现有LLM提示策略在多智能体环境中存在的token效率低、模块化不足、可扩展性有限等问题。该框架将多智能体交互的核心组件(任务、计划、反馈、角色、工具调用等)编码为带有控制结构(如循环、条件)、布尔逻辑和类型变量的模块化伪代码,将松散的智能体计划转化为连贯、可解释、可验证的多智能体推理程序。原创 2025-08-06 16:00:00 · 41 阅读 · 0 评论 -
Improving LLM Reasoning for Vulnerability Detection via Group Relative Policy Optimization
本文聚焦于利用强化学习(RL)技术改进大型语言模型(LLMs)在软件漏洞检测中的推理能力,具体研究了组相对策略优化(Group Relative Policy Optimization, GRPO)在该任务中的应用。研究背景与问题:现有LLMs在漏洞检测中存在局限性,如过度预测某些漏洞类型、泛化能力弱、推理过程难以解释,且小型LLMs因计算成本低受关注但性能受限。研究方法。原创 2025-08-05 08:30:00 · 188 阅读 · 0 评论 -
Synergizing Logical Reasoning, Knowledge Management and Collaboration in Multi-Agent LLM System
本文探索了整合先进的多智能体系统(MAS)技术,以开发具备增强逻辑推理、长期知识保留和心智理论(ToM)能力的智能体团队。通过将这些核心组件与优化的通信协议相结合,我们创建了一个名为SynergyMAS的新型框架,该框架能促进协作团队合作和卓越的问题解决能力。通过一个产品开发团队的案例研究,我们证明了该系统的有效性——我们的方法显著提升了团队的性能和适应性。这些发现凸显了SynergyMAS在应对复杂现实挑战方面的潜力。原创 2025-07-22 08:30:00 · 172 阅读 · 0 评论 -
Reasoning or Not? A Comprehensive Evaluation of Reasoning LLMs for Dialogue Summarization
本文针对对话摘要任务,首次系统评估了推理型大语言模型(LLMs,如OpenAI-o1、DeepSeek-R1、QwQ-32B)与非推理型LLMs在三种主流范式(通用型、角色导向型、查询导向型对话摘要)中的表现。研究覆盖多语言、多领域和不同摘要长度,基于SAMSum、DialogSum、CSDS、QMSum等基准数据集,结合LLM自动评估指标和类人评估标准进行分析。核心发现显示:与其他推理密集型任务不同,显式的逐步推理(如思维链)并未持续提升对话摘要质量;原创 2025-07-19 09:30:00 · 144 阅读 · 0 评论 -
MOTIVE BENCH: How Far Are We From Human-Like Motivational Reasoning in Large Language Models?
本文提出了一个名为的基准测试,旨在评估大型语言模型(LLMs)的类人动机推理能力。该基准包含200个丰富的情境场景和600个推理任务,覆盖多个动机层次(基于马斯洛需求层次理论和Reiss的16种基本欲望理论)。即使最先进的模型(如GPT-4o)在类人动机推理上仍有差距(准确率80.89%);LLMs在“爱与归属感”等情感相关动机推理上表现较差;LLMs存在过度理性、理想化等问题,与人类推理模式存在显著差异;模型规模与动机推理能力正相关,但思维链(CoT)提示对提升性能无效,甚至可能降低表现。原创 2025-07-10 16:30:00 · 40 阅读 · 0 评论 -
Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning
本文聚焦于大型语言模型(LLMs)的数学推理能力是否能迁移到其他领域,以探究模型在数学任务上的提升是否反映了通用问题解决能力,而非仅针对特定任务的过拟合。研究背景:近年来,LLMs在数学推理基准(如MATH、AIME)上的表现快速提升,甚至超越人类水平,但数学推理能力的提升是否能迁移到其他领域尚不明确。实验设计评估了20多个开源推理调优模型,覆盖数学推理、科学问答、代理规划、编码、指令遵循等任务。原创 2025-07-14 08:30:00 · 122 阅读 · 0 评论 -
Boosting LLM’s Molecular Structure Elucidation with Knowledge Enhanced Tree Search Reasoning
本文针对大型语言模型(LLMs)在分子结构解析任务中存在的化学知识不足、推理评估能力弱等问题,提出了一种知识增强的推理框架K-MSE(Knowledge-enhanced reasoning framework for Molecular Structure Elucidation)。该框架以蒙特卡洛树搜索(MCTS)为基础,可作为插件与任意LLM结合,显著提升分子结构解析性能。原创 2025-07-11 08:30:00 · 193 阅读 · 0 评论 -
Enhancing Spatial Reasoning in Multimodal Large Language Models through Reasoning-based Segmentation
本文聚焦于提升3D多模态大语言模型(3D MLLMs)在点云感知中的空间推理能力,针对现有方法在处理复杂指令时的不足,提出了相关推理分割(Relevant Reasoning Segmentation, R²S)框架和3D ReasonSeg数据集。研究背景:现有3D MLLMs虽能通过视觉-语言对齐实现3D点云感知,但在处理需精确空间推理的复杂指令时仍存在挑战,且现有数据集难以支撑复杂推理任务的训练与评估。原创 2025-07-10 08:30:00 · 171 阅读 · 0 评论 -
The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models
研究背景与问题:当前LRMs(如OpenAI o1/o3、DeepSeek-R1等)虽在推理基准测试中表现提升,但对其底层能力、缩放特性及局限性的理解不足。现有评估依赖数学和编码基准,存在数据污染且缺乏对推理轨迹的深度分析。研究方法:采用可控谜题环境(如汉诺塔、跳棋、过河、积木世界),通过调整问题复杂度(如磁盘数量、棋子数量等),系统分析LRMs的最终答案准确性与内部推理轨迹。核心发现三阶段性能模式低复杂度任务:标准LLMs比LRMs更高效准确;原创 2025-07-08 08:30:00 · 132 阅读 · 0 评论 -
Tracing LLM Reasoning Processes with Strategic Games: A Framework for Planning, Revision
研究背景与目的:现有LLM评估基准多聚焦于最终推理结果,忽视了模型在规划、修订及资源约束下的决策等内部推理过程。而理解这些过程对提升模型在真实场景中的可靠性至关重要。方法与框架提出AdvGameBench框架,将LLM嵌入资源受限的战略游戏(塔防、自动战斗、回合制战斗)中,通过封闭、规则明确的环境观察模型的多步推理行为。定义三大核心评估维度:规划能力、修订能力、资源约束决策能力,并引入一系列过程指标,如过度修正风险率(ORR)、修正成功率(CSR)、改进斜率(β)、超预算率(OBR)等。实验结果。原创 2025-07-06 09:30:00 · 103 阅读 · 0 评论 -
Causal-aware Large Language Models: Enhancing Decision-Making Through Learning, Adapting and Acting
大语言模型(LLMs)在决策领域展现出巨大潜力,但预训练模型存在推理能力不足、难以适应新环境的问题,严重制约了其在复杂现实任务中的应用。现有方法如强化学习(RL)单独使用或LLM辅助RL的方式,仍依赖token预测范式,缺乏结构化推理和快速适应性。大语言模型(LLMs)因其存储的海量知识,在决策领域展现出巨大潜力。然而,这些预训练模型往往缺乏推理能力,难以适应新环境,进一步阻碍了它们在复杂现实任务中的应用。原创 2025-06-17 08:30:00 · 479 阅读 · 0 评论 -
PhySense: Principle-Based Physics Reasoning Benchmarking for Large Language Models
大型语言模型(LLMs)发展迅速,日益能够解决包括物理学在内的复杂科学问题。尽管如此,当前LLMs往往无法模仿人类专家简洁、基于原理的推理特点,而是生成冗长且不透明的解决方案。这种差异凸显了它们在应用核心物理原理进行高效且可解释的问题解决方面的关键能力差距。为了系统地研究这一局限性,我们引入了PhySense,这是一个新颖的基于原理的物理推理基准。该基准设计为专家使用指导原理可轻松解决,但对于没有基于原理优先推理的LLMs来说却看似简单实则困难。原创 2025-06-14 08:30:00 · 161 阅读 · 0 评论 -
Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models
指令遵循对于使大型语言模型(LLMs)与用户意图保持一致至关重要。尽管最近面向推理的模型在复杂数学问题上表现出令人印象深刻的性能,但它们遵循自然语言指令的能力仍未得到充分探索。在这项工作中,我们引入了MathIF,这是一个专门用于评估数学推理任务中指令遵循能力的基准。我们的实证分析揭示了推理能力扩展与保持可控性之间的持续矛盾,因为推理更有效的模型往往难以遵守用户指令。我们发现,在蒸馏的长思维链上进行微调或使用面向推理的强化学习训练的模型,其指令遵循能力通常会下降,尤其是在生成长度增加时。原创 2025-06-05 08:30:00 · 480 阅读 · 0 评论 -
APOLLO: Automated LLM and Lean Collaboration for Advanced Formal Reasoning
本文提出了APOLLO系统,这是一种将大型语言模型(LLM)与Lean形式验证系统相结合的自动化定理证明框架,旨在解决传统方法中LLM生成证明效率低、错误率高的问题。APOLLO通过模块化流程实现了对LLM生成证明的自动化修复,具体包括语法修正(Syntax Refiner)、错误块隔离(Sorrifier)、自动求解(Auto Solver)和递归修复(Recursive repair)等步骤。原创 2025-06-04 09:30:00 · 183 阅读 · 0 评论 -
Grokking in the Wild: Data Augmentation for Real-World Multi-Hop Reasoning with Transformers
Transformer在众多自然语言处理任务中取得了巨大成功,但其在多步事实推理中仍存在显著不足,尤其是在真实世界知识稀疏的场景下。近期关于“grokking”的研究表明,神经网络一旦检测到潜在逻辑模式,就能从记忆阶段过渡到完全泛化阶段——但这些研究主要基于小规模合成任务。本文首次将grokking扩展到真实世界事实数据,并通过精心设计的合成数据增强现有知识图谱,将推理事实与原子事实的比例ϕr\phi_rϕr提升至触发grokking所需的阈值以上,从而解决数据集稀疏性问题。原创 2025-05-20 08:30:00 · 143 阅读 · 0 评论 -
Tina: Tiny Reasoning Models via LoRA
原创 2025-05-17 08:30:00 · 203 阅读 · 0 评论 -
xVerify: Efficient Answer Verifier for Reasoning Model Evaluations
原创 2025-05-14 08:30:00 · 144 阅读 · 0 评论 -
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
原创 2025-05-11 09:30:00 · 182 阅读 · 0 评论 -
WebThinker: Empowering Large Reasoning Models with Deep Research Capability
原创 2025-05-10 09:30:00 · 282 阅读 · 0 评论 -
Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math
思维链(Chain-of-Thought, CoT)通过训练大语言模型(LLMs)显式生成中间推理步骤,显著增强了其形式推理能力。虽然大语言模型很容易从这些技术中受益,但由于小语言模型(SLMs)的模型容量有限,提升其推理能力仍然具有挑战性。最近,Deepseek-R1(Luo等人,2025年)的研究表明,从大语言模型生成的合成数据中进行蒸馏,可以大幅提升小语言模型的推理能力。然而,具体的建模方法并未公开。原创 2025-05-10 08:30:00 · 164 阅读 · 0 评论 -
Enhancing Large Language Models through Neuro-Symbolic Integration and Ontological Reasoning
大语言模型(LLMs)在自然语言处理方面展现出令人印象深刻的能力,但存在被称为“幻觉”的不准确和逻辑不一致问题。这损害了它们的可靠性,尤其是在需要事实准确性的领域。我们提出一种神经符号方法,将符号本体推理和机器学习方法相结合,以增强LLM输出的一致性和可靠性。我们的工作流程利用OWL本体、用于一致性检查的符号推理器(如HermiT)以及用于将自然语言语句映射为与本体兼容的逻辑形式的轻量级机器学习模型(逻辑回归)。原创 2025-05-04 08:30:00 · 183 阅读 · 0 评论 -
Harnessing the Reasoning Economy A Survey of Efficient Reasoning for Large Language Models
本文系统探讨了大型语言模型(LLMs)在推理任务中的推理经济性问题,即在提升推理能力的同时优化计算成本。基础分析训练后方法:通过监督微调(SFT)和强化学习(RL)塑造模型行为,如过程奖励模型(PRM)和结果奖励模型(ORM)的设计。测试时策略:并行方法(如自洽性)和顺序方法(如思维链、树搜索)的对比与优化。挑战分析模型行为低效:长度偏差(冗余推理)、欺骗性思维(表面推理但无效)。测试时资源浪费:算法选择不当(如固定采样策略)、计算预算分配不合理。解决方案训练后优化数据:构建高质量推理数据集。原创 2025-04-26 09:30:00 · 178 阅读 · 0 评论
分享