UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
Unilogit: Robust Machine Unlearning for LLMs Using Uniform-Target Self-Distillation
本文聚焦于大语言模型(LLMs)的机器遗忘(Machine Unlearning)领域,提出了一种名为Unilogit的自蒸馏方法,旨在解决模型在选择性遗忘敏感信息的同时保持整体性能的挑战,以满足数据隐私法规(如GDPR)的要求。原创 2025-05-18 10:30:00 · 0 阅读 · 0 评论 -
Absolute Zero: Reinforced Self-play Reasoning with Zero Data
本文提出了一种名为的强化学习新范式,旨在解决现有强化学习方法依赖人工标注数据的问题。核心是让模型通过自我博弈(self-play)自主生成任务并解决,无需任何外部数据。核心框架:Absolute Zero推理器(AZR)模型同时担任**任务提议者(proposer)和问题解决者(solver)**双重角色。提议者生成三种类型的编程任务(演绎、归纳、溯因),对应不同推理模式,并通过代码执行器验证任务有效性和答案正确性,提供可验证的奖励信号。原创 2025-05-17 09:30:00 · 90 阅读 · 0 评论 -
Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models
推理是智能的核心,决定了决策、结论推导和跨领域泛化的能力。在人工智能领域,随着系统逐渐在开放、不确定和多模态环境中运行,推理成为实现稳健自适应行为的关键。大型多模态推理模型(LMRMs)通过整合文本、图像、音频、视频等模态,展现出支持复杂推理(如逻辑演绎、因果推断、类比映射和长程思考)的潜力,其核心目标是实现全面感知、精准理解和深度推理。随着研究进展,多模态推理已从模块化、感知驱动的流水线,迅速演进为以语言为中心的统一框架,实现更连贯的跨模态理解。原创 2025-05-16 09:30:00 · 77 阅读 · 0 评论 -
LLM Weekly(2025.05.05-05.11)
🔬 论文与代码库速览。原创 2025-05-15 09:58:57 · 260 阅读 · 0 评论 -
Towards Understanding Camera Motions in Any Video
因此,我们与一组十几名在相机运动方面具有高技能的计算机视觉研究人员和专业电影摄影师(包括本文的一些作者)合作,通过构建精确的相机运动原语分类法和开发强大且可扩展的标注框架来应对这些挑战,下文将对此进行解释。人类对相机运动的感知。此外,这些方法无法捕捉相机运动的高级语义,例如镜头背后的意图(如跟踪对象或展示场景)或运动发生的上下文(如手持、云台稳定或车载)。另一方面,最近的多模态视觉系统,如GPT-4o和Gemini,通过大规模训练展现出强大的类人感知能力,但其理解相机运动的能力在很大程度上仍未得到测试。原创 2025-05-18 09:30:00 · 2 阅读 · 0 评论 -
TTRL: Test-Time Reinforcement Learning
原创 2025-05-16 08:30:00 · 128 阅读 · 0 评论 -
Tina: Tiny Reasoning Models via LoRA
原创 2025-05-17 08:30:00 · 131 阅读 · 0 评论 -
ToolRL: Reward is All Tool Learning Needs
原创 2025-05-18 08:30:00 · 2 阅读 · 0 评论 -
Gold-medalist Performance in Solving Olympiad Geometry with AlphaGeometry2
我们还进行了几项与语言建模相关的研究。首先,我们展示了我们的模型不仅能够生成辅助构造,还能生成完整的证明,这表明现代语言模型有潜力在不依赖外部工具(如符号引擎)的情况下运行。我们发现,尽管这些模型都在相同的AlphaGeometry数据集上进行训练,但它们学习到的技能略有不同,将它们结合到我们新颖的搜索算法——搜索树共享知识集成(SKEST)中,可以提高整体解决率。AG2集成了一个在更大、更多样化的数据集上训练的更强大的语言模型、一个更快且更通用的符号引擎、扩展的领域语言以及新颖的证明搜索算法。原创 2025-05-15 08:30:00 · 107 阅读 · 0 评论 -
70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length
原创 2025-05-14 09:30:00 · 108 阅读 · 0 评论 -
xVerify: Efficient Answer Verifier for Reasoning Model Evaluations
原创 2025-05-14 08:30:00 · 93 阅读 · 0 评论 -
ReTool: Reinforcement Learning for Strategic Tool Use in LLMs
原创 2025-05-13 09:30:00 · 489 阅读 · 0 评论 -
InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models
原创 2025-05-12 09:30:00 · 129 阅读 · 0 评论 -
BitNet b1.58 2B4T Technical Report
1比特大语言模型是模型量化的一种极端但前景广阔的形式,其中权重以及可能的激活值被限制为二进制{-1, +1}或三进制{-1, 0, +1},为效率挑战提供了一个有吸引力的解决方案。虽然先前的工作已经探索了1比特模型,但现有的开源工作通常分为两类:1)应用于预训练全精度模型的训练后量化(PTQ)方法,这可能导致显著的性能下降(Xu等人,2024b;Team,2024);这项工作的核心贡献在于证明,当进行有效的大规模训练时,原生1比特大语言模型在广泛的任务中可以实现与类似规模的领先开源全精度模型相当的性能。原创 2025-05-12 08:30:00 · 101 阅读 · 0 评论 -
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
原创 2025-05-11 09:30:00 · 111 阅读 · 0 评论 -
A Survey of Interactive Generative Video
原创 2025-05-11 08:30:00 · 102 阅读 · 0 评论 -
WebThinker: Empowering Large Reasoning Models with Deep Research Capability
原创 2025-05-10 09:30:00 · 146 阅读 · 0 评论 -
DeepCritic: Deliberate Critique with Large Language Models
原创 2025-05-13 08:30:00 · 88 阅读 · 0 评论 -
Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math
思维链(Chain-of-Thought, CoT)通过训练大语言模型(LLMs)显式生成中间推理步骤,显著增强了其形式推理能力。虽然大语言模型很容易从这些技术中受益,但由于小语言模型(SLMs)的模型容量有限,提升其推理能力仍然具有挑战性。最近,Deepseek-R1(Luo等人,2025年)的研究表明,从大语言模型生成的合成数据中进行蒸馏,可以大幅提升小语言模型的推理能力。然而,具体的建模方法并未公开。原创 2025-05-10 08:30:00 · 94 阅读 · 0 评论 -
Reinforcement Learning for Reasoning in Large Language Models with One Training Example
原创 2025-05-09 09:30:00 · 150 阅读 · 0 评论 -
LLM Weekly(2025.04.28-05.04)
原创 2025-05-09 08:30:00 · 82 阅读 · 0 评论 -
LLM Weekly(2025.04.21-04.27)
Claude Code 是一个用于智能体编码的命令行工具,通过提供底层的、可定制的模型访问,增强了编码工作流程。尽管 ChatGPT 和 Meta AI 分别拥有 6 亿和 5 亿用户,超过了 Gemini,但谷歌的整合努力扩大了 Gemini 的用户范围。该模型支持多种风格、精确的编辑操作,并且能够将图像进行组合,同时利用其广泛的世界知识和一致的文本渲染能力。这个基于 while 循环构建的简单架构,突显了利用最近在为函数调用和工具使用而训练的大语言模型方面的进展,实现了智能体人工智能开发的简化。原创 2025-05-08 09:30:00 · 379 阅读 · 0 评论 -
LLM Weekly(2025.04.14-04.20)
这些模型降低了成本,提高了实际应用价值,并弃用了 GPT-4.5,强调了对开发者的效率提升。ReTool 的 320 亿参数模型在数学奥林匹克竞赛基准测试 AIME 上达到了 67% 的准确率,超过了基于文本的强化学习基线,并展示了代码自我修正等涌现行为,推动了复杂数学推理和混合神经符号系统的发展。智能体抽象简化了初始化过程,但可能会掩盖大语言模型对上下文的需求,从而影响可靠性,这强调了需要有框架来促进上下文的清晰性,同时平衡工作流程和智能体的复杂性。这一下载量的激增恰逢其图像生成功能的升级。原创 2025-05-08 08:30:00 · 196 阅读 · 0 评论 -
Inference-Time Scaling for Generalist Reward Modeling
强化学习(RL)已大规模应用于大语言模型(LLMs)的后训练。最近,通过RL激励LLMs的推理能力表明,合适的学习方法可以实现有效的推理时可扩展性。RL的一个关键挑战是为LLMs在各种领域(超出可验证问题或人工规则)中获得准确的奖励信号。在这项工作中,我们研究如何通过更多的推理计算来改进通用查询的奖励建模(RM),即通用RM的推理时可扩展性,以及如何通过合适的学习方法提高性能 - 计算缩放的有效性。对于RM方法,我们采用点向生成式奖励建模(GRM),以实现对不同输入类型的灵活性和推理时缩放的潜力。原创 2025-05-07 09:30:00 · 256 阅读 · 0 评论 -
Rope to Nope and Back Again: A New Hybrid Attention Strategy
流行的方法包括绝对位置嵌入(APE)(Vaswani等人,2017年)、相对位置嵌入(Raffel等人,2023年)、ALiBi(Press等人,2022年)和旋转位置嵌入(RoPE)(Su等人,2023年)。我们的发现与最近的工作(如YoCo(Sun等人,2024年)、Jamba-1.5(Team等人,2024b)和MiniMax01(MiniMax等人,2025年))一致,这些工作表明混合注意力机制在处理长上下文时通常优于全注意力机制。Peng等人,2023年)等技术的推动下取得了显著进展。原创 2025-05-07 08:30:00 · 97 阅读 · 0 评论 -
One-Minute Video Generation with Test-Time Training
如今的Transformer在生成一分钟视频方面仍存在困难,因为自注意力层在处理长上下文时效率较低。诸如Mamba层等替代方案,由于其隐藏状态为线性网络,在处理复杂的多场景故事时也面临挑战,因此表达能力相对较弱。在预训练的Transformer中添加测试时训练(Test-Time Training, TTT)层,能够使其根据文本故事板生成一分钟视频。为了验证这一概念,我们基于《猫和老鼠》卡通片策划了一个数据集。原创 2025-05-06 09:30:00 · 151 阅读 · 0 评论 -
SmolVLM: Redefining small and efficient multimodal models
大型视觉语言模型(VLMs)性能卓越,但需要大量计算资源,这限制了它们在移动和边缘设备上的部署。较小的VLMs通常模仿大型模型的设计选择,例如广泛的图像标记化,这导致GPU内存使用效率低下,并且在设备上应用的实用性受到限制。我们引入SmolVLM,这是一系列专为资源高效推理而设计的紧凑型多模态模型。我们系统地探索了针对低计算开销优化的架构配置、标记化策略和数据整理方法。通过这些探索,我们确定了关键的设计选择,这些选择在最小化内存占用的情况下,能在图像和视频任务上显著提升性能。原创 2025-05-06 08:30:00 · 97 阅读 · 0 评论 -
Seaweed-7B: Cost-Effective Training of Video Generation Foundation Model
本技术报告提出了一种训练视频生成基础模型的经济高效策略。我们展示了一个约有70亿参数的中型研究模型Seaweed-7B,该模型使用665,000个H100 GPU小时从头开始训练。尽管训练时使用的计算资源适中,但Seaweed-7B与当前大得多的视频生成模型相比,展现出极具竞争力的性能。在资源受限的情况下,设计选择尤为关键。本技术报告重点介绍了提升中型扩散模型性能的关键设计决策。通过实证,我们有两个发现:(1)Seaweed-7B的性能与使用大量GPU资源训练的更大模型相当,甚至超越它们;原创 2025-05-05 09:30:00 · 106 阅读 · 0 评论 -
Rethinking Reflection in Pre-Training
语言模型对自身推理进行反思的能力为解决复杂问题提供了关键优势。虽然最近的大多数研究都集中在这种能力在强化学习过程中是如何发展的,但我们发现它实际上在模型的预训练阶段就更早出现。为了研究这一点,我们在思维链中故意引入错误,并测试模型是否能够通过识别和纠正这些错误得出正确答案。通过跟踪预训练不同阶段的性能,我们观察到这种自我纠正能力很早就出现,并且随着时间的推移稳步提高。例如,在4万亿个token上预训练的OLMo - 27B模型在我们的六个自我反思任务中表现出自我纠正能力。原创 2025-05-05 08:30:00 · 178 阅读 · 0 评论 -
Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated
大语言模型(LLMs)彻底改变了人工智能,推动了机器翻译、摘要生成和对话代理等领域的进步。然而,它们越来越多地融入关键社会领域,引发了人们对其内置偏见的担忧,这些偏见可能延续刻板印象并损害公平性。这些偏见源于多种因素,包括训练数据中的历史不平等、语言不平衡以及对抗性操纵。尽管人们采取了缓解措施,但最近的研究表明,大语言模型仍然容易受到旨在引发偏见回应的对抗性攻击。这项工作提出了一个可扩展的基准测试框架,用于评估大语言模型对抗偏见诱导的鲁棒性。原创 2025-05-04 09:30:00 · 126 阅读 · 0 评论 -
Enhancing Large Language Models through Neuro-Symbolic Integration and Ontological Reasoning
大语言模型(LLMs)在自然语言处理方面展现出令人印象深刻的能力,但存在被称为“幻觉”的不准确和逻辑不一致问题。这损害了它们的可靠性,尤其是在需要事实准确性的领域。我们提出一种神经符号方法,将符号本体推理和机器学习方法相结合,以增强LLM输出的一致性和可靠性。我们的工作流程利用OWL本体、用于一致性检查的符号推理器(如HermiT)以及用于将自然语言语句映射为与本体兼容的逻辑形式的轻量级机器学习模型(逻辑回归)。原创 2025-05-04 08:30:00 · 121 阅读 · 0 评论 -
Large Language Models as Span Annotators
对于高质量文本,单分数指标很少能提供可操作的反馈。相比之下,跨度注释——通过标注文本中的片段来指出问题——可以指导改进并提供见解。直到最近,跨度注释还局限于人工标注或微调的编码器模型。在本研究中,我们使用大语言模型(LLMs)实现跨度注释自动化。我们在三个任务上比较了专家或熟练的众包工作者注释与开源和专有大语言模型:数据到文本生成评估、机器翻译评估以及人类撰写文本中的宣传检测。在实验中,我们表明,作为跨度注释器的大语言模型易于实现,并且比人工注释者成本效益高得多。原创 2025-05-03 09:30:00 · 30 阅读 · 0 评论 -
Large Language Models Could Be Rote Learners
选择题(MCQ)基准广泛用于评估大语言模型(LLMs),但其可靠性受到基准污染的影响。在本研究中,我们将污染重新定义为学习的一个固有方面,并试图在LLM评估中区分真正的能力获取和表面的记忆。首先,通过分析模型在不同记忆条件下的性能,我们发现了一个违反直觉的趋势:LLMs在记忆的MCQ上的表现比在非记忆的MCQ上更差,这表明存在两种不同的学习现象,即死记硬背和真正的能力学习。原创 2025-05-03 08:30:00 · 209 阅读 · 0 评论 -
Beyond Self-Reports: Multi-Observer Agents for Personality Assessment in Large Language Models
评估大语言模型(LLMs)的人格特质受到越来越多的关注。然而,传统基于自我报告问卷的人格评估方法,可能由于内在偏差和元知识污染,无法捕捉其真实的行为细微差别。本文引入了一种新颖的多观察者框架,用于LLMs的人格评估,该框架受到心理学中知情者报告方法的启发。我们的方法不是仅仅依赖自我评估,而是使用多个配置了特定关系情境(如家庭、朋友或工作场所)的观察者代理,来模拟与主体LLM的互动场景。这些观察者进行对话,随后在大五人格维度上给出评分。我们的实验表明,LLMs在自我报告的人格评分中存在系统性偏差。原创 2025-05-02 09:30:00 · 115 阅读 · 0 评论 -
Fast-Slow-Thinking: Complex Task Solving with Large Language Models
如今,大语言模型(LLMs)已逐渐被用于解决复杂任务。为应对这一挑战,任务分解成为一种有效方法,它将复杂任务分解为多个更简单的子任务,然后分别求解,从而降低原任务的难度。然而,当任务包含过于复杂的逻辑和约束时,现有任务分解方法的性能可能并不理想。在这种情况下,大语言模型生成的解决方案可能偏离任务的初衷,或包含冗余甚至错误的内容。原创 2025-05-02 08:30:00 · 93 阅读 · 0 评论 -
Quantum Large Language Model Fine-Tuning
我们介绍了一种用于大语言模型微调的混合量子 - 经典深度学习架构。该架构的经典部分是一个句子转换器,其功能强大,足以在情感预测等复杂任务中展现出较高的准确率。架构的量子部分由参数化量子电路组成,这些电路利用了量子比特之间的长程连接。我们分析了混合模型在各种超参数设置下的性能,包括量子比特数、量子电路深度、学习率、重上传步数等。基于主效应筛选研究,我们发现与可比的经典基线相比,预测准确率总体有所提高,且准确率有随量子比特数增加而上升的趋势。原创 2025-05-01 12:25:04 · 90 阅读 · 0 评论 -
How Good Are Large Language Models for Course Recommendation in MOOCs?
大语言模型(LLMs)在自然语言处理方面取得了重大进展,并越来越多地被整合到推荐系统中。然而,它们在教育推荐系统中的潜力尚未得到充分探索。本文研究了将大语言模型用作通用推荐模型,利用其从大规模语料库中获得的广泛知识来完成课程推荐任务。我们探索了多种方法,从基于提示的方法到更先进的微调技术,并将它们的性能与传统推荐模型进行比较。在一个真实的MOOC数据集上进行了广泛的实验,从准确性、多样性和新颖性等关键维度评估了使用大语言模型作为课程推荐系统的效果。原创 2025-05-01 12:24:31 · 158 阅读 · 0 评论 -
TP-RAG: Benchmarking Retrieval-Augmented Large Language Model Agents for Spatiotemporal-Aware
大语言模型(LLMs)在实现旅行规划自动化方面展现出了潜力,然而,它们在处理细致的时空合理性问题上往往表现欠佳。尽管现有的基准测试聚焦于基本的规划有效性,但却忽略了诸如路线效率、兴趣点(POI)吸引力以及实时适应性等关键方面。本文引入了TP - RAG,这是首个专为检索增强且具有时空感知能力的旅行规划而设计的基准测试。我们的数据集包含2348个真实世界的旅行查询、85575个经过精细标注的兴趣点以及18784条源自在线旅游文档的高质量旅行轨迹参考,支持动态且具有上下文感知的规划。原创 2025-04-30 10:55:46 · 320 阅读 · 0 评论 -
Rec-R1: Bridging Generative Large Language Models and User-Centric Recommendation Systems
我们提出了REC-R1,一个通过闭环优化将大型语言模型(LLM)与推荐系统相结合的通用强化学习框架。与提示和监督微调(SFT)不同,REC-R1直接利用固定黑盒推荐模型的反馈优化LLM生成,无需依赖GPT-4o等专有模型生成的合成SFT数据,从而避免了数据蒸馏的高成本。为验证有效性,我们在商品搜索和序列推荐两个代表性任务上进行了评估。实验表明,REC-R1不仅持续优于基于提示和SFT的方法,还在使用BM25等简单检索器时显著超越强判别式基线。原创 2025-04-30 10:54:58 · 110 阅读 · 0 评论 -
Adopting Large Language Models to Automated System Integration
现代企业计算系统集成众多子系统,通过产生涌现行为来完成共同任务。一种广泛采用的方法是使用基于REST或OpenAPI等Web技术实现的服务,它们分别提供了交互机制和服务文档标准。每个服务代表特定的业务功能,便于封装和维护。尽管单个服务的维护成本降低,但集成复杂性却增加了。因此,出现了自动服务组合方法来缓解这一问题。然而,由于这些方法依赖复杂的形式建模,在实践中并未得到高度认可。在本博士论文中,我们分析了大语言模型(LLMs)在基于自然语言输入自动集成服务方面的应用。原创 2025-04-29 09:30:00 · 156 阅读 · 0 评论