自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(41)
  • 收藏
  • 关注

原创 “交错推理”降低首token耗时,并且显著提升推理准确性!!

长思维链(CoT)显著增强了大型语言模型(LLM)的推理能力。然而,广泛的推理痕迹导致了效率低下以及首次输出时间(Time-to-First-Token,TTFT)的增加。我们提出了一种新颖的训练范式,利用强化学习(RL)指导推理型LLM在多跳问题中交替进行思考和回答。我们观察到,模型本身具备交替推理的能力,这种能力可以通过强化学习进一步增强。

2025-06-13 21:52:33 636

原创 DeepCritic: SFT+RL两阶段训练突破LLM自我监督!显著提升大模型的自我批判能力!!

文章提出了一种有效的两阶段训练范式,通过监督式微调和强化学习显著提升了 LLMs 的数学批判能力。DeepCritic 模型不仅在多个基准测试中表现出色,还展示了在测试时扩展和弱监督方面的潜力。

2025-06-11 23:04:29 595

原创 CAR:推理长度自适应新框架,提升精度同时还降低推理token数!!

文章提出了 CAR 框架,这是一个基于模型置信度动态切换短答案和长形式推理的新方法。CAR 通过使用 PPL 作为置信度指标,有效地平衡了准确性和计算效率。在多种多模态和文本数据集上的实验表明,CAR 在保持推理准确性的同时,显著减少了推理标记的使用,优于现有的短答案和长形式推理方法。

2025-06-09 19:11:36 453

原创 VeriThinker:基于辅助验证任务微调,在准确率不变下,显著降低LLM过度思考推理!!

文章提出了一种有效压缩 CoT 推理链的方法VeriThinker,其通过在辅助的验证任务上进行监督验证微调,消除了对合成目标链数据的依赖,同时显著减少了推理标记的数量,保持甚至提高了推理准确性。此外,VeriThinker 还可以推广到推测解码,显著提高推理吞吐量。

2025-06-07 15:30:37 459

原创 R²ec: 构建具有推理能力的大型推荐模型,显著提示推荐系统性能!!

摘要:大型推荐模型通过编码或项目生成将大型语言模型(LLMs)扩展为强大的推荐工具,而近期在LLM推理方面的突破也同步激发了在推荐领域探索推理的动机。RecPO训练框架:为了训练 R²ec,作者提出了 RecPO,一个基于强化学习的训练框架,它通过引入融合奖励方案(结合离散排名奖励和连续相似性奖励)来优化模型,无需依赖专门的推理注释。R²ec 的核心设计是将推理(reasoning)和推荐(recommendation)任务集成到一个统一的模型架构中,通过自回归过程实现推理和推荐的交替进行。

2025-06-06 19:56:43 886

原创 如何选择有效的CoT提示提升模型推理性能!

文章通过对 CoT 提示的理论分析和实验验证,揭示了提示空间和答案空间的复杂性及其相互作用对 LLMs 推理性能的影响。研究强调了在 CoT 过程中,正确选择提示模板的重要性,并展示了人类监督在提高模型推理能力方面的关键作用。尽管文章的研究主要集中在简单的推理任务上,但其发现对于理解和设计更有效的 CoT 提示策略具有重要意义,为未来在更复杂任务上的研究提供了理论基础和实践指导。

2025-06-05 20:36:27 928

原创 MaskSearch:提升智能体搜索能力的新框架

检索增强型语言模型(Retrieval-Augmented Language Models,RALMs)是一种经典范式,模型通过专门模块检索外部知识来增强生成能力。最近在Agent技术方面的进展使得大型语言模型(LLMs)能够自主利用工具进行检索、规划和推理。尽管现有的基于训练的方法显示出潜力,但它们的Agent能力受到训练中使用任务特定数据的固有特性的限制。为了进一步增强Agent的通用搜索能力,

2025-06-04 22:30:52 932

原创 RM-R1:基于推理任务构建奖励模型

本文提出将奖励建模与推理结合的全新范式,通过RM-R1模型与两阶段训练框架,实现了奖励模型在准确性与可解释性上的突破。实验表明,推理能力是提升奖励模型性能的关键,而结构化推理轨迹与任务感知评估策略是成功的核心。

2025-06-03 20:53:26 634

原创 ThinkPrune:在RL中引入长度限制,在保持性能一致或略有提升下,显著提升推理效率

THINKPRUNE 提供了一种有效的方法来减少大型语言模型的推理长度,同时保持或提升性能。通过在强化学习中引入长度限制,并采用迭代修剪策略,THINKPRUNE 能够优化模型的推理过程,去除冗余步骤,提高推理效率。

2025-06-02 11:35:16 1167

原创 AdaCtrl:自适应可控Reasoning,可降10~90%推理长度!!

AdaCtrl 提出了一种新的自适应和可控的推理框架,通过动态调整推理预算来平衡效率和效果。它通过两阶段训练流程使模型能够根据问题难度自适应调整推理长度,并通过长度触发标签为用户提供显式的推理预算控制。实验结果表明,AdaCtrl 在多个基准数据集上均表现出色,能够显著减少响应长度,同时保持或提升性能。

2025-06-01 11:43:29 826

原创 SoftThinking:让模型学会模糊思考,同时提升准确性和推理速度!!

文章提出了Soft Thinking方法,通过在连续概念空间中进行推理,显著提升了大模型在数学和编程任务中的推理性能和效率。该方法无需额外训练,能够保持输出的可解释性,并通过实验验证了其在多种基准测试中的有效性。由于引入了概念标记,使模型具有分布外的特性,故Soft Thinking在面对长推理链或输入分布变化时可能会遇到稳定性问题。未来的研究可以探索通过训练策略使模型适应概念标记,从而提高其在软思考范式下的鲁棒性和泛化能力。

2025-05-31 19:44:43 998

原创 ConCISE:基于信心注入和早期停止,在准确率不降下,Reasoning过程砍掉一半!!

文章通过信心引导的视角对推理模型中的冗余反思进行了建模和分析,提出了 CONCISE 框架来增强推理效率。CONCISE 通过信心注入和早期停止两个机制,有效地减少了冗余反思步骤,同时保持了推理的连贯性和准确性。实验结果表明,CONCISE 在压缩推理链长度和保持任务性能之间取得了显著的平衡,并且在不同领域的任务上具有良好的泛化能力。

2025-05-24 10:00:00 467

原创 LLaVA-MoD:基于MoE结构和蒸馏训练方法,训练轻量化多模态大模型!!

LLaVA-MoD通过创新的MoE架构和渐进式知识蒸馏策略,有效地从大规模MLLM中提取知识,训练出性能卓越且计算高效的小型多模态语言模型。它在多模态理解和幻觉减少方面均取得了显著成果。

2025-05-20 14:11:22 498

原创 基于LLM合成高质量情感数据,提升情感分类能力!!

该文章提出了一种基于LLM的数据合成方法,用于生成细粒度情感分类数据集,并通过微调Bert的编码器模型,实现了在多个情感分类任务上的高性能。该方法不仅提高了情感分类的准确性,还通过上下文生成和清理步骤,增强了模型对上下文信息的利用能力。

2025-05-17 20:21:01 616

原创 LLM长短思维链联合微调,提升模型推理准确性并降低平均响应长度!!

文章通过结合长思考链和短思考链数据集进行监督微调,有效地将大型推理模型的推理能力转移到非推理型大模型中,同时避免了“过度思考”问题。这种方法不仅提高了模型的推理准确率,还显著减少了模型的响应长度,提高了推理效率。

2025-05-17 10:00:00 936

原创 SpecSearch:通过推测搜索加速模型Reasoning能力,提升模型的推理性能和效率!!

SpecSearch 提供了一种在保持与大型模型相当的推理质量的同时,显著加速 LLM 推理的新方法。通过在思考和标记级别上让小型模型与大型模型进行协作,并引入质量保持拒绝机制,SpecSearch 在多个数据集和模型上实现了显著的推理加速,同时保持了较高的推理质量。此外,SpecSearch 与不同的 LLMs、搜索算法和思考评估器具有良好的兼容性,展示了其广泛的适用性。然而,SpecSearch 的性能在一定程度上依赖于思考评估器的准确性和小型模型的质量,这可能限制了其在某些情况下的性能。

2025-05-13 10:20:36 920

原创 弹性Reasoning!通过RL训练控制推理预算,提升模型的推理能力和效率!

大型推理模型(LRMs)通过生成扩展的思维链(CoT)在复杂任务上取得显著进展,但不受控制的输出长度在实际部署中带来挑战。为此,研究提出了弹性推理框架,将推理过程分为“思考”和“解决方案”两个阶段,并为每个阶段分配独立预算。该方法在资源紧张情况下显著提高了可靠性,并引入预算受限的滚动策略训练模型,使其在思考过程被截断时仍能有效推理。实验结果显示,弹性推理在数学和编程基准测试中,在严格预算限制下表现出色,且训练成本低,即使在无约束环境中也能生成更简洁高效的推理。

2025-05-11 19:16:00 926

原创 SPC:通过对抗性博弈,让LLM左右互搏提升性能

SPC旨在通过对抗性自博弈游戏来评估大模型(LLM)的推理步骤,从而消除对人工步骤级标注的需求。该方法的核心思想是利用两个角色:一个“狡猾”生成器(Sneaky Generator)和一个步骤评价器(Step Critic),通过强化学习不断优化这两个角色的能力。

2025-05-08 19:30:41 881

原创 ReasonIR:针对通用推理任务训练的检索器

我们提出了 REASONIR-8B,这是首个专门针对通用推理任务训练的检索器。现有的检索器在推理任务上表现有限,部分原因是现有的训练数据集侧重于与文档直接相关的简短事实性查询。我们开发了一个合成数据生成流程,针对每篇文档,该流程生成一个具有挑战性且相关的查询,以及一个看似相关但最终无用的困难负样本。通过在合成数据和现有公共数据的混合数据上进行训练,R。

2025-05-07 10:00:00 1379

原创 ReasonIR:基于多样化的合成数据,针对通用推理任务训练的检索器

我们提出了 REASONIR-8B,这是首个专门针对通用推理任务训练的检索器。现有的检索器在推理任务上表现有限,部分原因是现有的训练数据集侧重于与文档直接相关的简短事实性查询。我们开发了一个合成数据生成流程,针对每篇文档,该流程生成一个具有挑战性且相关的查询,以及一个看似相关但最终无用的困难负样本。

2025-05-07 09:33:10 676

原创 MCP详解:手把手教你理解和如何使用各种开源MCP服务

MCP 作为一种开放协议,为 AI 模型与外部世界的连接提供了标准化的解决方案。它不仅降低了开发门槛,还极大地扩展了 AI 应用的边界。无论是开发者还是普通用户,都可以通过 MCP 更高效地利用 AI 技术,实现更多智能化的功能。

2025-05-06 10:00:00 3024

原创 OpenRouter:AI 模型的超级连接器,手把手教你如何使用!

OpenRouter 作为一个强大的 AI 模型聚合平台,为开发者和用户提供了便捷、高效的解决方案。它不仅简化了 AI 模型的接入和使用过程,还提供了丰富的模型选择和灵活的定价机制。无论你是希望快速开发 AI 应用程序的开发者,还是需要使用多种 AI 模型的用户,OpenRouter 都是一个值得尝试的工具。随着 AI 技术的不断发展,OpenRouter 也在持续更新和优化,未来将为用户提供更多更好的功能和服务。

2025-05-05 14:09:03 1824

原创 GenCLS++:通过联合优化SFT和RL,提升生成式大模型的分类效果

在提示中添加每个目标类别的文本定义,帮助模型更好地理解类别含义。

2025-05-04 22:26:42 1222

原创 LUFFY:结合强化学习RL和SFT各自训练优势,让模型边学边练,从而平衡Zero-RL训练中的模仿和探索!!

最近在大型推理模型(LRMs)方面的进展表明,通过简单的基于规则的奖励进行强化学习(RL),可以涌现出复杂的行为,例如多步推理和自我反思。然而,现有的零强化学习(zero-RL)方法本质上是“在策略”的,仅限于学习模型自身的输出,无法获得超出其初始能力的推理能力。

2025-05-03 11:08:56 879

原创 SplitReason:在复杂步骤借助更大尺寸模型推理,1.5B+32B,实现准确率28%提升+8倍速度提升

大型语言模型(LLM)的推理过程往往会产生比简单语言建模任务更长的标记生成序列。这种更长的生成长度反映了推理的多步骤和组合性质,并且通常与更高的解决方案准确性相关。从效率角度来看,更长的标记生成加剧了LLM解码阶段固有的顺序性和内存受限问题。然而,并非推理过程的所有部分生成难度都相同。我们利用这一观察结果,将推理过程中最具挑战性的部分卸载到一个更大、能力更强的模型中,而大部分生成工作则由一个更小、更高效的模型完成;此外,我们还训练较小的模型识别这些困难部分,并在需要时独立触发卸载。

2025-04-28 20:45:56 692

原创 SMART:大模型在关键推理步骤辅导小模型,在保持高推理效率的同时,显著提升小模型的推理能力!!

小型语言模型(SLM)的推理能力有限,这使得人们对其是否适合需要深度、多步骤逻辑推理的任务产生了怀疑。

2025-04-27 21:45:52 522

原创 DeepDistill:基于难度分级数据进行两阶段SFT,超越同尺寸蒸馏和强化学习模型!

虽然大型语言模型(LLMs)最近在各种复杂的推理基准测试中取得了显著的性能,但学术界仍然缺乏对基础模型训练过程和数据质量的深入理解。为了解决这一问题,我们构建了一个大规模、按难度分级的推理数据集,包含约334万条不同难度级别的独特问题,以及由多个模型经过多轮生成的约4000万条精炼回答。

2025-04-26 09:28:50 824

原创 TTRL:无需标注数据,基于强化学习模型进行自我学习,左脚踩右脚提升

本文研究了在没有明确标签的数据上,针对大型语言模型(LLMs)推理任务的强化学习(RL)。该问题的核心挑战是在推理过程中进行奖励估计,同时无法获取到真实标签信息。尽管这种设置看似难以捉摸,但我们发现测试时扩展(Test-Time Scaling,TTS)中的一些常见实践,例如多数投票法,能够产生出人意料的有效奖励,适合用于驱动强化学习训练。

2025-04-25 19:18:29 928

原创 CoT-RAG:结合知识图谱和RAG提升模型推理能力

虽然思维链(CoT)推理提高了大型语言模型(LLMs)在复杂任务中的表现,但它仍然面临两个主要挑战:完全依赖 LLMs 生成推理链的可靠性较低,以及自然语言推理链对 LLMs 推理逻辑的干扰。为了解决这些问题,

2025-04-24 10:00:00 813

原创 DioR :动态检索增强生成,基于自适应认知检测与上下文检索优化,显著减少幻觉和提高推理能力

动态检索增强生成(Dynamic Retrieval-augmented Generation,RAG)在缓解大型语言模型(LLMs)生成过程中的幻觉问题方面取得了巨大成功。然而,现有的动态RAG方法在两个关键方面存在显著局限性:一是缺乏有效的机制来控制检索触发条件;二是缺乏对检索内容的有效审查。

2025-04-22 13:01:53 855

原创 JudgeLRM:基于GRPO训练的面向判断评估任务推理大模型,显著提升在深度推理的判断任务中性能!!

大型语言模型(LLMs)作为评估者的出现,为人类标注提供了一种可扩展的替代方案,但现有的监督微调(SFT)方法在需要复杂推理的领域往往表现不足。本研究探讨了LLM评估者是否真正从增强的推理能力中受益。通过对评估任务的推理需求进行详细分析,我们发现SFT的性能提升与推理需求样本的比例呈负相关,这突显了SFT在这些场景中的局限性。为了解决这一问题。

2025-04-20 10:57:08 829

原创 重新探究类o1模型推理能力:越长的推理CoT输出,效果反而下降!

大型语言模型(LLMs)在测试时扩展(test-time scaling)方面取得了进展,例如OpenAI的o1系列通过在推理过程中扩展计算资源分配来提升推理能力。然而,后续模型如QwQ、DeepSeek-R1(R1)和LIMO虽然复制了这些进展,但这些模型是否真正具备测试时扩展能力仍有待深入研究。

2025-04-19 18:21:54 974

原创 NoThinking vs Thinking:推理模型无需思考也能有效

最近的大型语言模型(LLMs)显著提升了推理能力,主要是通过在生成过程中包含一个明确且冗长的“思考”过程来实现的。在本文中,我们质疑这种明确的思考过程是否真的必要。

2025-04-18 22:17:18 1210

原创 基于成对比较的RL奖励机制,显著减少推理模型在简单问题上的回复长度!!!

链式思维(Chain of Thought,CoT)推理能够提升语言模型的性能,但往往会在简单问题上导致低效的“过度思考”。我们发现,现有的直接惩罚推理长度的方法未能考虑到不同问题的复杂性差异。

2025-04-18 10:00:00 711

原创 CoRanking:基于DPO对齐大小模型排序偏好,进行协同重排序,显著提升性能和效率!!

大型语言模型(LLMs)在列表式排序任务中表现出了卓越的性能。然而,这种卓越性能通常依赖于大规模参数(例如GPT-4)以及重复的滑动窗口过程,这带来了显著的效率挑战。在本文中,

2025-04-16 10:00:00 590

原创 ReaRAG:基于迭代构建的推理CoT训练,显著提升模型事实和推理能力!

大型推理模型(LRMs)展现出了卓越的推理能力,但主要依赖于参数化知识,这限制了其事实准确性。尽管最近的研究为基于强化学习(RL)的LRMs配备了检索能力,但它们存在过度思考和推理不够稳健的问题,降低了其在问答(QA)任务中的有效性。为了解决这一问题,

2025-04-13 10:45:43 476

原创 SWiRL:基于推理数据合成和强化学习训练,显著提升大模型的多步推理和工具使用能力!

强化学习已被证明可以提升大型语言模型的性能。然而,传统的强化学习方法,例如人类反馈强化学习(RLHF)或人工智能反馈强化学习(RLAIF),都将问题视为单步决策问题。随着研究重点逐渐转向更复杂的推理和代理任务,语言模型需要在生成解决方案之前进行多步文本生成、推理和与环境的交互。我们提出了一种针对多步优化场景的合成数据生成和强化学习方法。这种方法称为逐步强化学习(Step-Wise Reinforcement Learning,SWiRL),它迭代地生成多步推理和工具使用数据,然后从这些数据中学习。

2025-04-12 18:03:25 881

原创 指定显卡不起作用os.environ[‘CUDA_VISIBLE_DEVICES‘]

在使用os指定显卡时,需要放置在import torch 之前,否则不生效。

2023-08-30 22:48:38 366 1

原创 使用mpirun运行代码报libmpi.so.12: cannot open shared object file: No such file or directory

需要安装openmpi库。

2023-08-30 22:46:34 1881 1

原创 mpi4py包安装报错

通常使用pip install mpi4py会报错。此时使用conda install mpi4py。

2023-08-29 23:14:37 411 1

情感文本数据分类数据集,包含28个情感类别

基于LLM合成的高质量情感文本数据,可以用来进行情感文本分类

2025-05-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除