自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

zenRRan的博客

关注微信公众号:【深度学习自然语言处理】,每日推送干货~

  • 博客(4552)
  • 收藏
  • 关注

原创 无需人类插手!AI战队自主进化,人类玩家瑟瑟发抖

传统游戏AI方法在象棋、围棋等完全信息游戏中已达到超人水平,但面对卡坦岛的随机骰子、多方谈判等复杂因素时,就像只会背公式的学霸遇到开放式论述题——优势难以发挥!而大语言模型(LLM)拥有强大的语言理解和推理能力,能否教会它“深谋远虑”?(PromptEvolver):自带“教练团”分析战局,动态修改作战指令(提示词)。(StructuredAgent):加了人类写的攻略手册,类似“考前划重点”。(BaseAgent):直接看游戏状态做决策,相当于“凭直觉下棋”。:所有代码在沙盒运行,严防“失控进化”

2025-06-12 19:23:58 336

原创 伯克利斯坦福联手造出「科研预言家」:77%准确率押注研究想法前景

研究团队从 ACL、NeurIPS、CVPR 等顶会(覆盖 NLP、ML、CV、机器人等领域)中,系统性提取了7585 个想法对比案例(训练集 6000 对 + 测试集 1585 对)。每个案例包含:研究目标(如 “破解 LM 的攻击方法对比”)、两个竞争想法的详细描述、基于 3-4 个基准测试的客观结果标签(通过多数投票确定胜负)。:采用监督微调(SFT) 策略,使用 6000 个历史想法对训练 GPT-4.1,目标是学习 “想法描述→基准表现” 的映射关系。科研界的痛点:烧钱试错,急需“预言家”

2025-06-12 19:23:58 399

转载 直播预约 | 16篇精选Agent论文分享@ICML&ACL2025

本科就读于清华大学,导师为刘知远教授。曾在 ACL,EMNLP,COLM,COLING,NAACL,ICLR 等多个学术会议发表论文十余篇,一作及共一论文十余篇,谷歌学术引用超 700,现担任 ACL Area Chair,以及 AAAI,EMNLP,Neurips,COLM 等多个会议 Reviewer。[ACL 2025] Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement,尹训健 北京大学。

2025-06-12 13:44:51 28

转载 直播预约 | 九篇Efficiency LLM论文分享@ICML&ACL2025

该方法通过将输入动态分块并重用有限的位置编码,自动驱逐低置信度块和无关 token,并引入一种并行的 KV Cache 淘汰机制,从而有效降低了显存消耗,使得一个仅有 8 亿参数、且只支持 8K 长度上下文的模型,在无需重新训练的情况下,能够在单块 A100 80GB GPU 上处理最长 128K 的输入。为了降低仿射变换的推理开销,我们基于两个小矩阵的Kronecker乘积构造了轻量的分解仿射变换,能够实现与全尺寸变换相同的平坦效果,并将FlatQuant中的变换操作和量化操作融合为高效的单个算子。

2025-06-11 17:42:06 65

原创 Magistral 发布:用纯RL打造出首个多语言、透明Reasoning大模型!

关键突破:完全抛弃现成解题数据,仅用数学题和编程题作为题库,通过RL让模型自主探索解题路径,最终在AIME数学竞赛题上准确率提升50%!解决RL训练最大痛点:生成答案速度不均(有的1秒写完,有的卡壳5分钟), 进而会导致生成器频繁空闲,流水线效率低下。:抛弃PPO的“监工” critic 模型,用群体平均分作基准(省算力+稳定训练)。原理:文本推理的思维链能力迁移到图像问题(案例:光折射/化学键/植物病理分析):纯数学训练的模型,编程能力竟自动提升15.6%(反哺效应惊人)。结果:中文解题也能丝滑输出!

2025-06-11 14:12:59 536

转载 CVPR2025 | 多模态LLM评测Tutorial

多模态大语言模型(MLLMs)研究成为当前最为热门的课题之一,而如何有效的评估这些多模态基础大模型,已成为“AI的下半场”关注焦点。与前面三轮教程不同的在于,本次教程将会更强调对于MLLM的评测以及基准方面的探讨,以及本方向的最新进展,旨在面向各类相关研究群体,尤其是初学者们提供一个全面的、深入的MLLM Evaluation & Benchmark的介绍,从评测的角度来思考如何促进下一代更强大、更高效、更接近人类智能水平的MLLMs和系统。欢迎感兴趣的同学积极参与本次CVPR25线上或者线下的教程。

2025-06-11 14:12:59 26

转载 Sam Altman:温和奇点

同样,千年后的人或许也会觉得2030年代的工作"不真实"——但对当事者而言,它们必将充满意义与成就感。很快,能制造其他机器人的机器人(某种意义上,能扩建自身的数据中心)将成为现实。到2030年,个人的生产力将远超2020年的水平,这种变革将催生无数新机遇。社会具备强大韧性与创造力,只要善用集体智慧,尽管会犯错,但能快速调整,最大化技术效益,最小化风险。它将高度个性化、易用,届时限制我们的将只是想象力。此言或许疯狂,但若在2020年预言今日成就,恐怕更为天方夜谭——而我们对2030年的预测,或许同样保守。

2025-06-11 14:12:59 13

原创 实证:现在的LLM根本不会Reasoning!

(如DeepSeek-R1、Claude思考模式)可能只是在表演“思考秀”。这些模型生成解题步骤时看似逻辑严谨,实则遇到复杂问题瞬间崩溃——就像学生抄作业时把计算过程写满卷子,最后答案却是错的。当问题复杂度突破临界值(如汉诺塔圆盘>15个),LRM的“思考量”不增反降。,却能完成100步的汉诺塔——暴露其本质是“模式复读机”,而非真正推理!当模型的思考轨迹成为“皇帝的新衣”,我们该如何检测真智能?作者警告:“当前LRM可能只是通过RL学到的推理模仿术”把“生成长文本”等同于“强推理能力”

2025-06-10 17:50:34 411

转载 Agent/长上下文/CoT/多模态等实战竞赛,百万奖金,就是AFAC2025!

无论你是对大模型技术充满好奇的学生,还是在金融科技领域深耕的专业人士,或是怀抱创业梦想的年轻创客,AFAC2025都为你准备了展示才华的舞台。通过解决真实业务场景中的技术难题,参赛者能够深入了解金融科技前沿技术的实际应用,在实战中提升自身的技术实力和问题解决能力。让我们一起用技术点亮金融科技的未来,在这场创新与实践并重的比赛中,书写属于我们这一代人的技术传奇。与来自全国各地的优秀开发者、创业者同台竞技,不仅是技术的较量,更是人脉资源的构建过程。在这个技术快速迭代的时代,每一次创新都是对未来的探索。

2025-06-10 17:50:34 65

原创 Knowledge还是Reasoning?具体分析LLM答案正确,不代表思考过程靠谱的问题

案例:面对肘内翻治疗题,模型能正确推理疾病特征(知识正确),却推荐了副作用更大的药物氟米龙(决策错误)——像极了“知识全会,一用就废”的医学生。传统评估只盯着最终答案的对错,却忽略了思考路径中的“知识错误”和“废话推理”。数学界冷知识:RL训练后的模型在AMC数学竞赛准确率高达61.7%,碾压SFT训练的51.9%当我们夸AI“很聪明”时,到底在夸什么?RL训练(强化学习)能当“思维修剪师”:剪掉错误知识分支,使医疗决策更安全。结果:纯RL训练使医疗知识正确率飙升12.4%,超越人类医学生的提升幅度!

2025-06-09 16:26:13 306

原创 Theory of Agent:构造知行合一的智能体

GPT-4知道2024奥运在巴黎(已知),但不知道2032在哪(待查)。就像人类需要理解「我知道什么/该怎么做」,AI也需要明确的认知框架。:奖励「正确+省步骤」行为(如OTC-PO算法惩罚多余工具调用)目标:用最少工具调用(无论内外)完成任务,像高手「四两拨千斤」(Next-Tool)→ 把「何时调用工具」变成可学习技能。:80%的工具调用可能是无效的(如已知天气仍查天气预报)打破「想」与「做」的等级制,让AI自由选择最高效路径。:给工具使用打标签(例:教AI“这类问题该查资料”)

2025-06-09 16:26:13 420

转载 直播预约 | Evaluation论文分享@ICML&ACL2025

此外,我们的方法还能生成更高质量的 CoT 推理,有助于进一步的 Judge 蒸馏,并无缝衔接地提升监督微调(SFT)的拒绝采样(rejection sampling)任务,我们称这种方法为 crowd rejection sampling,从而实现了更加高效的监督微调。此外,获取详细的评估轨迹的代价极高,缺乏扩展性。我们的基准包含587个精心策划的问题,来源于40篇最先进的研究论文,涵盖了从基本的选择题到复杂的方程补全任务的多样化任务,包括部分和完整补全,所有问题都严格遵循物理和维度约束。

2025-06-09 16:26:13 19

原创 文本训练能提升多模态Reasoning能力?三阶段训练7B小模型吊打GPT-4o

一个仅70亿参数的开源模型,却在多项测试中吊打更大规模的对手,甚至比肩商业巨头如GPT-4o!它的秘密在于一种全新的训练方法,不仅解决了传统多模态训练的痛点,还发现了“文本训练能提升多模态能力”的反直觉现象。原因:复杂文本数据能“激活”模型的链式推理(Chain-of-Thought)能力,为后续多模态学习打下基础。最近,多模态大模型(MLLM)在文本和图像结合的任务中表现亮眼,但复杂的推理能力一直是短板。在多模态训练后,再用纯文本数据做强化学习,模型的多模态推理能力居然进一步提升!

2025-06-08 19:25:46 850

转载 记忆张量联合上海交大等提出首个面向大模型记忆管理的操作系统框架MemOS

MemTensor(记忆张量)、上海交通大学、上海算法创新研究院、中国人民大学、中国电信研究院、浙江大学、同济大学、中国科学技术大学等,我们热烈欢迎对于“大模型记忆”以及MemOS开源框架感兴趣的相关高校、研究单位、企业参与共建,一起为大模型的记忆操作系统的国产化迭代贡献自己力量,我们将提供对应的研发资源、激励、项目等共同促进社区的高速发展。目前,关于LLMs记忆机制的研究已从早期的定义与探索阶段,发展到了类人记忆的涌现阶段,试图借鉴人类对记忆的组织和检索方式,并将其引入LLMs体系中。

2025-06-08 19:25:46 71

转载 直播预约 | 别让AI困在题海里:模型评估如何摆脱应试枷锁?

在Teach2Eval中,教师模型(即被评测的LLM)需要不断指导学生模型改进解题策略,最终通过学生模型的进步程度来反映教师模型的教学能力和认知深度。,在ACL,EMNLP,NAACL等顶级会议发表多篇论文,同时担任ARR,ICLR,NeurIPS,AISTATS等国际会议审稿人。研究兴趣包括从结构化/非结构化文本以及参数化模型中蒸馏知识,高效模型训练/推理,以及探索大模型的社会智能和社交智能。在人工智能(AI)快速发展的今天,模型的能力已超越了传统的自然语言处理范畴,迈向了更广泛、更复杂的一般性任务。

2025-06-08 19:25:46 25

原创 自然语言+数值双反馈碾压传统RL!Critique-GRPO给模型“写批注”提效300%

想象教AI解数学题:答对给1分,答错给0分(数值反馈)。链接:https://www.arxiv.org/abs/2506.03106。:“思维发散才能学好”(熵值越高越好) → 真相:高质量精修比盲目探索更重要。“未来或用于多模态推理——让AI看电路图解物理题,结合视觉与文本批评”:“长篇大论=深入思考” → 真相:无效反思拖累效率,:融合初稿和精修稿训练,强化有效修改,严惩失败修正。通过对比组内表现,让AI认清“什么是真正的好答案”:模型的“灵光一闪”对解题帮助微乎其微。

2025-06-06 20:01:57 274

转载 北大联手通义实验室发布ZeroSearch:成本暴降88%,无需搜索即可激活大语言模型的检索能力!

本文提出了ZeroSearch,一种无需真实搜索引擎即可激活大语言模型搜索能力的强化学习框架,我们使用轻量级的监督微调将LLM转变为一个检索模块,在RL训练阶段,我们基于课程学习逐步降低检索模型生成文档的质量,通过不断提升检索难度,逐步激发策略模型推理能力。该工作在阿里巴巴通义实验室RAG团队实习期间完成。为了解决这些问题,我们提出了ZeroSearch框架——无需真实搜索,直接用大语言模型模拟搜索引擎,并引入课程学习策略,在显著降低 88% 成本的同时,在多项任务上性能超过依赖真实搜索引擎的方法。

2025-06-06 20:01:57 45

原创 微软发布GUI Agent新范式!告别传统方式,小参数少数据,7B吊打72B模型

面对陌生分辨率/布局,GUI-Actor波动更小(传统模型早衰明显),下图c。:只微调新增的1亿参数(7B模型仅动1.4%参数),性能媲美全调优模型;试想未来:对着电脑喊“帮我P掉照片路人”,AI直接鼠标咔咔操作!就像让人用坐标点外卖,不如直接说“第三排第二个”直观!关键技术 1:<ACTOR>令牌——AI的“虚拟手指”类似人类点按钮前扫一眼:“嗯,这个图标长得像购物车!就像教孩子点按钮:“这一片都能点,不用非戳中心!关键技术 3:验证器——AI的“二次确认”革命:GUI-Actor的“无坐标交互”

2025-06-05 20:29:48 332

转载 直播预约 | 智能体框架分享与探讨 - OWL, Alita, AG2

为此,我们提出Alita——一个秉持"至繁归于至简"理念设计的通用智能体,通过最小化预定义与最大化自进化实现可扩展的智能推理。华文越,Rutgers博士毕业,张永锋老师的学生,UCSB博后,现在为微软研究院高级研究员,主要研究方向为llm reasoning和llm-based agent,在NLP和ML的顶会ACL EMNLP ICLR Neurips TACL等等发表多篇论文,并在ACL担任Area Chair。研究方向大语言模型,智能体,AI4Science,在人工智能国际顶级会议发表多篇论文。

2025-06-05 20:29:48 22

转载 73%人类认同率!Video-Bench实现视频质量精准打分

如何准确评估这些模型的性能,确保它们生成的视频准确符合人类的审美和需求,成为了一个亟待解决的问题。Video-Bench的评估框架利用多模态大语言模型(Multimodal Large Language Model,MLLM)的强大能力,通过链式查询技术和少样本评分技术,实现了对视频生成质量的高效评估。现有基于大语言模型(Large Language Model,LLM)的基准虽能更好模拟人类评估逻辑,但在视频-条件对齐评估中存在跨模态比较困难,在视频质量评估中则面临文本评价标准模糊化的局限。

2025-06-05 20:29:48 22

转载 WebDancer:训练类DeepReaserch的Agentic Model

近期的 DeepSearch 和 Deep Research 等系统,展示了强大的底层模型如何作为智能体的核心,通过其对工具调用和迭代推理的天然支持,实现自主的网络交互。相比于一些驱动于强大的具有很强的agentic能力的闭源模型,例如gpt-o4,claude的promtpting工程框架,本研究的侧重点在从头训练一个具有强大agent能力的模型,这对于实现agent model的开源以及推进我们对agent在开放系统中如何产生和scale的基本理解至关重要。

2025-06-04 20:03:48 58

转载 直播预约 | 多模态论文分享@ICML&ACL2025

针对这一痛点,本文提出零标注、零-LLM 的细粒度幻觉评估框架 FIHA(Fine-grained Hallucination evAluation):它能在任意图像数据集上自动生成问答对,以极低成本同时评估图像和字幕中的幻觉,并显式建模不同幻觉类型的依赖关系。他的研究方向聚焦于多模态学习与自然语言处理,当前主要关注大型视觉-语言模型(LVLM)/大型语言模型(LLM)的评测与对齐,以及让 LLM/LVLM 作为智能体解决真实世界任务。研究方向包括视觉-语言多模态学习,基于世界模型的推理与规划。

2025-06-04 20:03:48 153

原创 UIUC联合伯克利提出AlphaOne:先“深度慢想”再“秒答”,效果巨好

不同推理策略的进度对比——传统单调加速(紫色)vs. AlphaOne先慢后快(蓝色)慢思考频率越高(如“wait”插入次数比基线高2倍),模型表现越好!三大模型在六类任务上的准确率(P@1)和生成长度(#Tk)对比。复杂路段(α时刻前)降速稳行,平坦路段(α时刻后)果断加速。:先快速直觉反应,遇阻再慢思考(Kahneman理论)。:比单调加速法(s1)和单调减速法(CoD)更高效。:设定“慢思考”阶段的最小长度(α×基准时长)。:仓促作答,错误率高(如漏掉关键步骤)。(概率按计划衰减),强制深度思考。

2025-06-04 20:03:48 276

原创 Meta联合Google新作:语言模型到底“记”了多少东西?

模型容量虽大,但面对数据的汪洋大海,它也只能记住极少数最独特(如包含罕见词、外语)的样本,对于普通样本,更多是靠泛化能力来“处理”,而不是“记住”它本身。比值越小(数据海量,模型容量相对不足),MIA越难。不同大小(从50万参数到15亿参数)的类GPT(Transformer)模型,用不同大小的随机数据集去“喂”它们,然后用他们的新方法测量模型到底“记”住了多少比特。: 模型在数据量超过其容量时,才会被迫从“死记硬背”转向“理解泛化”,此时会出现“双下降”现象,标志着真正的“开窍”(Grokking)。

2025-06-03 17:04:52 790

原创 阿里+清华发现80/20法则:LLM只靠20%的token就能学会Reasoning

例:连接词("however", "thus")、假设词("suppose", "given")等。传统80/20法则认为,80%的结果由20%的关键因素决定。:生成概率集中(确定性高),多为固定表达(如代码片段、数字)。泛化能力:高熵token驱动跨领域泛化(如数学→编程)。实验证明:仅用20%高熵token做强化学习,效果甚至。:RLVR训练后,90%的高/低熵token位置不变。本文策略:保护低熵token稳定性,专注高熵探索。结果:避免低熵token干扰,提升训练效率。

2025-06-03 17:04:52 420

原创 Reasoning模型可以Self-Train!

尤其在数学推理等复杂领域,人类也可能不会解题,模型必须学会“自学成才”。链接:https://arxiv.org/pdf/2505.21444v1。当前大模型依赖海量人类标注数据,但标注成本高、扩展难。:用“多数投票”选出高频答案作为“伪标准答案”公式揭示本质:SRT奖励“一致性”而非正确性。:首次证明大模型可在零人工标注下自我进化!用1%验证数据监控性能,在崩溃前保存模型。(前1/3易题),性能反超全量训练!:让模型对同一题目生成32个答案。:用投票结果作为奖励信号训练模型。

2025-06-02 20:39:42 410

转载 直播预约 | Time-R1横空出世!让AI真正读懂时间

引人注目的是,实验结果表明,在极具挑战性的未来事件预测和创造性场景生成基准测试中,Time-R1的表现优于那些比它大200多倍的模型(包括最先进的671B DeepSeek-R1)。这项工作证明,精心设计的渐进式强化学习微调能让更小、更高效的模型实现卓越的时间性能,为打造真正具备时间意识的人工智能提供了一条实用且可扩展的路径。为解决这些局限,我们推出了Time-R1,这是首个赋予中等规模(3B参数)LLM全面时间能力的框架,涵盖理解、预测和创造性生成。(右)创造性场景生成,输出与未来发生的现实新闻比较。

2025-06-02 20:39:42 57

转载 PRML作者出新书了,《深度学习:基础与概念》!必读啊!

在网络模型方面,从单层网络逐步深入多层网络、深度神经网络,详细讲解其结构、功能、优化方法及其在分类、回归等任务中的应用,同时涵盖卷积网络、Transformer等前沿架构及其在计算机视觉、自然语言处理等领域的独特作用。,帮助深度学习的新手及有经验的从业者全面理解支撑深度学习的基础理论,以及现代深度学习架构和技术的关键概念,为读者未来在专业领域的深造打下坚实的基础。如果你读过PRML,读本书时肯定会觉得似曾相识,它们的结构其实非常接近,你可以理解为作者用这十多年来领域的新进展重塑了PRML,就得到了本书。

2025-06-02 20:39:42 92

原创 英伟达发现RL Scaling!创造力暴涨,做基座模型做不了的事!

此前研究认为RL效果有限,甚至可能损害多样性(如下图中的Diminish现象)。这个还真像自己还在上小学。:模型生成全新解题路径(通过Creativity Index量化)。:面对翻倍的题目复杂度(如节点数激增的图染色),性能依然坚挺。:训练中未见的任务(如 盒子搬运),ProRL模型轻松解决。过去学界争论不休:强化学习(RL)到底让语言模型学会了。:需防范能力滥用,且训练耗能仍高(16k GPU小时):碾压同参数基座模型(+14.7%),追平7B大模型。(如逻辑谜题),ProRL模型竟能100%通关!

2025-06-02 20:39:42 300

原创 Reasoning模型在RL下的探索欲望急速下降问题:探索熵机制

链接:https://arxiv.org/pdf/2505.22617。"当算力投入转向强化学习,保持探索能力将成为解锁AGI的核心能力"训练初期策略熵(可理解为"选择多样性")断崖式下跌至接近0。:93%的性能提升发生在前1/3训练步数,后期投入收益极低。:对top 0.2%高协方差token添加KL散度惩罚。通过小模型实验即可预测大模型的最终性能(误差<2%):随机屏蔽0.02%超高协方差token的梯度。破解之道:Clip-Cov/KL-Cov。当熵耗尽(H=0)时,性能天花板为。

2025-05-30 14:01:56 335

转载 招聘 | 北京格灵深瞳-多模态实习生

对常见预训练方法有深入研究,如CLIP、DINOv2等,至少熟悉一种深度学习框架(Pytorch、TensorFlow);有大规模数据处理经验和大规模模型训练经验优先,有CVPR、NeurIPS等顶会论文者优先;熟悉常见的数据结构,有扎实的算法功底,能够独立完成模型开发;参与搭建面向海量数据的采集、清洗、均衡pipeline;对面向海量数据的清洗、语义均衡等研究方向有热情;数学能力强,良好的分析问题和解决问题的能力;北京格灵深瞳股份有限公司。昵称-学校/公司-方向/多模态表征学习实习生。

2025-05-30 14:01:56 14

原创 LLM+RL遭严重质疑,随机/错误等虚假奖励也能提升至标准效果?

这篇论文的简单结论就是教孩子数学题,不告诉TA对错,反而随机给糖或故意奖励错误答案——结果孩子成绩突飞猛进!这听起来荒谬,但论文在AI领域观察到了类似现象:虚假奖励四大奇招:随机奖励:闭眼乱给分(21.4%提升)格式奖励:只要答案带方框符号就给分(16.4%提升)错误答案奖励:专挑错误答案奖励(24.6%提升)1样本训练:仅用1个例子训练(24.4%提升)震惊对比:这些“乱来”的操作,效果竟接近用标准答案训练(28.8%提升)!Qwen家族(如Qwen2.5-Math):虚假奖励通吃,性能全线飘红其他顶流模

2025-05-29 15:40:55 292

转载 最近很火爆的《百面大模型》,值得看看

本书形式上别出心裁,采用面向大模型工程师求职者经常遇到的约百道面试题的形式组织全书,行文方面考虑了来自不同背景读者的知识基础,图文并茂,细节翔实,预先洞察了读者可能提出的各类问题,并在重难点前后提供了详细的铺垫与解释。如果你是刚上手的初学者,或者已经有一定经验的中高级选手,想更顺利地阅读本书中的代码内容,建议你具备基本的自然语言处理知识,同时也需要掌握一定的 Python 编程基础,最好还有一些 PyTorch 的使用经验。书里的这些面试题,基本都是真实的大厂现场题,不是随便拼凑的练习题。

2025-05-29 15:40:55 27

转载 大模型也开始玩儿建模?“数学智慧”正在被 ModelingAgent 重新定义

为验证 ModelingAgent 的有效性,作者设计了严谨的实验流程,涵盖多模型、三种方法设定与四类专家评分维度,力图全面衡量语言模型在现实建模任务中的表现。特别地,每个模型输出的报告由四位“专家角色模拟”的 LLM 进行独立评分(如数据专家、建模专家、领域特定专家),最大限度模拟建模比赛中的多维评审机制。:在人类评估中,有 52% 的 ModelingAgent 输出被误判为真实人类撰写,标志着其在风格、逻辑与结果解释上的“人类仿真能力”已达新高度。这些题目考察的是模型对“既定规则”的掌握能力。

2025-05-29 15:40:55 28

转载 NICE59期 | Agent进入下一篇章!Alita:不靠人工预设,自己造MCP自我进化的AI

Alita 的做法则更具通用性与实效性:通过试错让 Agent 自主探索并创造工具,持续扩充其工具库,从而将原本依赖多次尝试(pass@k)的任务,转化为一次成功(pass@1)。随着工具的积累和使用,Agent 的能力不断增强,达到“越做越熟练”的效果。裘嘉豪,普林斯顿博士生,导师王梦迪老师。,主要研究方向为llm reasoning和llm-based agent,在NLP和ML的顶会ACL EMNLP ICLR Neurips TACL等等发表多篇论文,并在ACL担任Area Chair。

2025-05-29 15:40:55 64

原创 港科联合港中文提出AdaCtrl,自适应可控Reasoning,可降10~90%

未来,这种「自适应+可控」的框架可能拓展到更多领域——比如让AI写邮件时自动判断「需不需要煽情」,或者自动驾驶中动态调整决策复杂度。从标注了难度(1-9分)的数学题库中,选简单题让LLM自己生成短答案,难题用专家模型生成长答案。给回答打上「[Easy]」或「[Hard]」标签,让LLM学会「看标签说话」。:通过「[Easy]」和「[Hard]」标签,用户可强制「简答」或「详答」。强制「[Easy]」模式:响应长度再砍90%,适合快速验证答案。:用标注了难度的题库,教会初步的「简单题短答,难题长答」规则。

2025-05-28 13:32:11 331

原创 Agent进入下一篇章!Alita:不靠人工预设,自己造工具,成绩碾压OpenAI

举个栗子🌰: 如果任务需要爬取YouTube字幕,Alita会自己搜开源代码→写爬虫脚本→封装成MCP工具→存进“工具箱”。更绝的是,Alita生成的MCP工具还能“传功”给小模型。论文提到,现有系统需要大量“手工工具包”,比如预设的代码、固定流程,甚至限定只能用Python。:每个新工具在独立环境中运行,避免“装个爬虫却搞崩系统”的惨剧。如果工具报错,Alita还能自动修复或抛弃。但论文预言:未来大模型越强,Alita的性能会指数级提升。:非Python工具难以接入,比如用Java写的功能就抓瞎。

2025-05-28 13:32:11 721

原创 复旦提出自适应Reasoning方法ARM,“能屈能伸”

,它可能从宇宙起源开始推导,这就是论文提到的“过思考(overthinking)”问题。常识题(如“花瓶底部叫什么”)用直球模式,token从500降到50,准确率不变。这种“过度认真”不仅浪费计算资源(生成的token越多,耗电越多),甚至可能。这相当于告诉模型:“前期多尝试不同方法,找到规律后重点用靠谱的”。就像学生发现写长答案得分高,就所有题都写长答案,完全放弃简单方法。对比传统模型每题都写长答案 vs ARM模型简单题直接给答案。:人类指定用哪种方法(适合批量处理同类题)

2025-05-27 15:03:16 527

原创 Qwen团队发布长上下文Reasoning模型QwenLong-L1,超越o3-mini

现有的GPT、Claude等模型在短文本(比如4千字内)的数学题、编程题上表现惊艳,但面对长达12万字的文档问答时,往往“记忆力差”“逻辑混乱”。系统会主动筛选“历史难题”,比如之前得分低的题目,让模型反复练习薄弱环节。新模型通过“分步目标”“自我验证”,从49页法律文件中精准提取数据,算出98万美元利息。传统方法靠“死记硬背”(监督学习),但长文本需要模型具备“主动思考”能力。:用另一个小模型判断答案语义是否合理(比如“10%”和“0.1”算对):长文本导致模型探索答案时“畏手畏脚”(输出多样性下降)。

2025-05-27 15:03:16 570

转载 Adaptive Reasoning Model:Qwen3混合思考->字节AdaCoT->清华AdaThinking

但很显然,并不是所有的问题都需要模型进行很长的思考,就像人类处理问题一样,简单的东西可以快速回答,但是复杂的问题才需要打草稿进行更久的思考之后再给出回复。首先如果让聪明的读者来做这个事情,可能也能想到要【构造混合思考的训练数据,然后通过 Prompt 指示模型进行思考或者不思考】,因为 OpenChat 在 23年九月份的 OpenChat: Advancing Open-source Language Models with Mixed-Quality Data 就有类似的思想。后的第一个 token。

2025-05-27 15:03:16 23

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除