- 博客(4348)
- 收藏
- 关注
转载 ICLR2025 | 基于动态提示扰动的软提示复杂推理优化方法
大语言模型(LLMs)可以通过 “思维链(Chain-of-Thought, CoT)” 来解决复杂的推理问题,但对于不同类型的任务,往往需要人工设计的 “提示(prompt)” 来引导 LLMs 进行有效的推理思考。基于上述的分析验证,本文提出了动态提示扰动的方法(DPC),通过检测软提示中的信息堆积,识别错误的信息流模式。并且之间的关联性可以能的影响最终的推理。我们深入分析了prompt tuning的推理机理,并针对分析结果提出了动态提示扰动的方法,提升 LLMs 在复杂推理任务中的表现。
2025-04-02 16:25:55
13
原创 港中文发布全新视角高效Reasoning综述!idea已充满大脑...
想象一下,你让ChatGPT解一道小学数学题,它却像写博士论文一样列了20步推导——这就是当前大模型的“土豪式烧脑”。最近arxiv的一篇来自港中文的高效reasoning的survey,非常不错,从新颖的解读来整理的,推荐推荐~模型像强迫症患者,明明已得出正确答案,还要反复检查:“2+3=5?“简单题狂刷存在感,难题反而草草了事”。”,模型可能先假设“用户是不是在考二进制”,然后列出一堆冗余步骤。:把教授级大模型的能力“压缩”成学生版,推理速度翻倍。:给简短有效答案发“奖金”,对冗长回答扣“绩效”
2025-04-02 16:25:55
222
原创 预训练真的结束了吗?可能没有,而且是以一种新范式出现
Shital Shah 则在社交媒体上更是指出,真实数据的高质量部分是有限的,继续简单堆砌相似数据并不能突破“质量上限”,而合成数据(synthetic data)的潜力尚未被充分发掘。在近期关于大规模模型与数据规模极限的讨论中,OpenAI 的 Ilya Sutskever 以及 微软研究院的 Shital Shah 都提出了一个值得关注的观点:随着模型不断扩张,数据的质量与多样性会逐渐成为训练的瓶颈,传统的预训练范式可能走向终结。未来,结合人类反馈(如偏好学习),模型可能实现真正的终身学习。
2025-04-01 17:35:52
454
原创 idea满满的最新Test-Time Scaling综述!全面描述What, How, Where和How Well的问题
的survey,TTS就像给LLM装上一个“深度思考开关”,允许它在回答问题时动态分配更多计算资源,通过反复推敲、多路径试错来提升表现。大语言模型(如GPT-4)在训练阶段“吃”了大量数据和算力,但实际使用时常常表现得像“考试临时抱佛脚”——面对复杂问题容易卡壳。:未来的AI可能像人类一样,在“直觉反应”和“深度思考”间自由切换,甚至发展出独特的推理风格。:生成N个答案,投票选出最佳(类似“集思广益”)?:直接训练模型自主决定“想多久”,无需人工干预?技术方法:从“暴力枚举”到“自动驾驶式推理”?
2025-04-01 17:35:52
313
转载 【上海AI Lab】大模型安全可信团队实习\联培博士\全职\博后招聘(校招和社招)
核心参与深入研究大语言模型、多模态大模型和文生图大模型和人类价值观对齐的问题,包括内对齐、外对齐、自对齐等,和团队合作开发RLHF, DPO, GRPO等强化学习技术,以及对前沿强化学习路线研究。核心参与深入研究智能体的安全可信问题,包括终端智能体,电脑智能体和具身智能体等,和团队合作开发评测工具和技术,优化智能体场景下的安全可信问题。负责大语言模型、多模态大模型和文生图大模型的安全可信相关研究,解释和监控大模型的推理逻辑,对模型的reasoning能力进行分析和改进。岗位职责(满足任意一项即可)
2025-03-30 17:38:55
27
转载 如何做审稿意见的辩驳(rebuttal)
另外,你的文章发表后,这个审稿人无意中看到了你的名字,然后联想到你的rebuttal的表现,就会形成好的或坏的印象,取决于你当时的表现。如果你发现审稿人提了一个严重的问题,但是说得不具体、很笼统,这时候你要抓住这个主要问题,其他的问题先别回复,问审稿人:“你说的这个问题很严重,但是我们觉得里面存在误解,你能说得更具体一些吗?这个问题很重要,非常期待您的prompt回复。比如,“这个工作刚出来不久,我们也是最近刚发现的,您没看到正常”,“我们当时看到这个现象也很意外,但是仔细研究后发现是可以理解的”,等等。
2025-03-30 17:38:55
108
原创 Video-R1:第一个多模态视频Reasoning方法+模型,7B小模型逆袭GPT-4o!
视频理解是AI领域的“高阶技能”——不仅要识别画面中的物体,还要分析动作的前后逻辑(比如“为什么球会滚到这里?:逼着AI学会“看剧情发展”,而不是单帧“蒙答案”。:很多模型只会“看单张截图”,忽略视频的时间顺序,导致推理错误(比如误判车祸中的能量损耗)。:现有的视频数据集大多只教AI“认东西”,缺乏需要复杂推理的问题(比如物理题或逻辑题)。:让AI对比“正常顺序视频”和“打乱顺序视频”的表现,只有前者正确率更高时才给奖励。:仅用1000步RL训练,模型就从“死记硬背”进化到“灵活推理”。
2025-03-30 17:38:55
382
原创 上海AI Lab发布LLM高效Reasoning综述!全面总结如何“少想多做”
例如,面对一道小学数学题,传统指令模型只需30个词就能解答,而某LRM模型竟用了1248个词,相当于写一篇小作文。这项研究不仅关乎算力节省,更是打开通用人工智能的关键钥匙——毕竟,真正的智慧不在于能想多少,而在于如何想得巧。实验显示,引入强化学习后模型在数学题上的冗余推理减少58%,但过度优化可能导致AI在复杂问题上“躺平”,需要更智能的奖励设计。这些变革让模型在保持精度的同时,推理速度提升3倍以上,但与传统架构的兼容性仍是挑战。:模仿人脑“快思考”与“慢思考”,简单问题直觉反应,难题再启动深度推理。
2025-03-29 17:42:13
360
转载 房产中介要失业?Agent学会了‘忽悠‘,结果买家居然更买账!| NICE53期
我们开发了一套基于大语言模型(LLM)的智能体框架,用于自动化生成具有说服力且基于事实的营销内容,并以房地产房源描述作为核心应用场景。每周进行学术分享,形式包括圆桌会议、主题分享、单篇论文深度分享等,内容覆盖论文分享、科研小白入门、PhD择业等所有学术领域。,和William Wang合作,主要研究方向为llm reasoning和llm-based agent,在NLP和ML的顶会ACL EMNLP ICLR Neurips TACL等等发表多篇论文,并在ACL担任Area Chair。
2025-03-28 16:32:09
14
原创 LLM Agent在方法、应用和挑战全面综述!
近年来,以ChatGPT为代表的LLM不仅改变了人机交互方式,更催生了新一代「智能代理」(AI Agent)。:短期记忆处理当下任务(如对话记录),长期记忆积累经验(如代码库),还能调用外部知识库「现学现卖」。:像给员工分配岗位一样,为AI设定身份(如程序员、医生),甚至批量生成不同性格的「数字社会」。:AI之间既合作又竞争,比如让「红队」AI专门挑刺,迫使主模型更严谨。:动静结合,比如MetaGPT用「管理层」定战略,基层AI灵活执行。:一个「主管」AI指挥分工,适合流程严谨的场景(如药物研发)。
2025-03-28 16:32:09
436
转载 房产中介要失业?Agent学会了‘忽悠‘,结果买家居然更买账!| NICE53期
我们开发了一套基于大语言模型(LLM)的智能体框架,用于自动化生成具有说服力且基于事实的营销内容,并以房地产房源描述作为核心应用场景。每周进行学术分享,形式包括圆桌会议、主题分享、单篇论文深度分享等,内容覆盖论文分享、科研小白入门、PhD择业等所有学术领域。,和William Wang合作,主要研究方向为llm reasoning和llm-based agent,在NLP和ML的顶会ACL EMNLP ICLR Neurips TACL等等发表多篇论文,并在ACL担任Area Chair。
2025-03-28 16:32:09
4
转载 房产中介要失业?Agent学会了‘忽悠‘,结果买家居然更买账!| NICE53期
我们开发了一套基于大语言模型(LLM)的智能体框架,用于自动化生成具有说服力且基于事实的营销内容,并以房地产房源描述作为核心应用场景。每周进行学术分享,形式包括圆桌会议、主题分享、单篇论文深度分享等,内容覆盖论文分享、科研小白入门、PhD择业等所有学术领域。,和William Wang合作,主要研究方向为llm reasoning和llm-based agent,在NLP和ML的顶会ACL EMNLP ICLR Neurips TACL等等发表多篇论文,并在ACL担任Area Chair。
2025-03-28 16:32:09
4
转载 房产中介要失业?Agent学会了‘忽悠‘,结果买家居然更买账!| NICE53期
我们开发了一套基于大语言模型(LLM)的智能体框架,用于自动化生成具有说服力且基于事实的营销内容,并以房地产房源描述作为核心应用场景。每周进行学术分享,形式包括圆桌会议、主题分享、单篇论文深度分享等,内容覆盖论文分享、科研小白入门、PhD择业等所有学术领域。,和William Wang合作,主要研究方向为llm reasoning和llm-based agent,在NLP和ML的顶会ACL EMNLP ICLR Neurips TACL等等发表多篇论文,并在ACL担任Area Chair。
2025-03-28 16:32:09
4
转载 房产中介要失业?Agent学会了‘忽悠‘,结果买家居然更买账!| NICE53期
我们开发了一套基于大语言模型(LLM)的智能体框架,用于自动化生成具有说服力且基于事实的营销内容,并以房地产房源描述作为核心应用场景。每周进行学术分享,形式包括圆桌会议、主题分享、单篇论文深度分享等,内容覆盖论文分享、科研小白入门、PhD择业等所有学术领域。,和William Wang合作,主要研究方向为llm reasoning和llm-based agent,在NLP和ML的顶会ACL EMNLP ICLR Neurips TACL等等发表多篇论文,并在ACL担任Area Chair。
2025-03-28 16:32:09
4
转载 房产中介要失业?Agent学会了‘忽悠‘,结果买家居然更买账!| NICE53期
我们开发了一套基于大语言模型(LLM)的智能体框架,用于自动化生成具有说服力且基于事实的营销内容,并以房地产房源描述作为核心应用场景。每周进行学术分享,形式包括圆桌会议、主题分享、单篇论文深度分享等,内容覆盖论文分享、科研小白入门、PhD择业等所有学术领域。,和William Wang合作,主要研究方向为llm reasoning和llm-based agent,在NLP和ML的顶会ACL EMNLP ICLR Neurips TACL等等发表多篇论文,并在ACL担任Area Chair。
2025-03-28 16:32:09
5
转载 房产中介要失业?Agent学会了‘忽悠‘,结果买家居然更买账!| NICE53期
我们开发了一套基于大语言模型(LLM)的智能体框架,用于自动化生成具有说服力且基于事实的营销内容,并以房地产房源描述作为核心应用场景。每周进行学术分享,形式包括圆桌会议、主题分享、单篇论文深度分享等,内容覆盖论文分享、科研小白入门、PhD择业等所有学术领域。,和William Wang合作,主要研究方向为llm reasoning和llm-based agent,在NLP和ML的顶会ACL EMNLP ICLR Neurips TACL等等发表多篇论文,并在ACL担任Area Chair。
2025-03-28 16:32:09
1
原创 AgentDropout:踢出“划水队友”,Token消耗直降20%!性能还涨了!
想象一下,你组织了一场“团队头脑风暴会”,每个成员都在发言,但大家重复讨论、跑题不断,最终耗时长、成本高,结果却一般——这就是当前多智能体系统(MAS)的现状。:无论是小模型(Llama3-8B)还是超大规模模型(Deepseek-V3-671B),AgentDropout均有效。:保留关键对话链路(如专家间的深度讨论),剔除重复或无意义的交流(如反复确认已知信息)。,模拟高效团队的动态分工——每个讨论阶段只保留最相关的AI成员,淘汰“摸鱼选手”。这意味着,企业可以“一次优化,多处复用”,降低部署成本。
2025-03-27 17:54:03
237
原创 CoT是否仍是增强Reasoning能力的必要工具?
近年来,推理大语言模型(RLLMs)通过内置的链式思考(CoT)能力,在复杂任务中展现出显著优势。大模型(如32B)在复杂任务(如AIME24)上提升显著(最高333%),而在简单任务(如GSM8K)上增益微弱(0.6%)。:72%的实验场景中,CoT提示显著提升RLLMs准确性,如R1-1.5B在GSM8K任务中零样本CoT提升475.4%。:与LLMs不同,RLLMs在单示例提示下表现最佳(如R1-32B在AIME24上提升467%),多示例可能引入干扰。对比R1-8B与基模型的注意力分布差异。
2025-03-27 17:54:03
456
转载 Agent主题分享@ICLR2025
所以,我们提出了一种新的强化学习方法: LS-Imagine,通过构建一个长短期世界模型(Long Short-Term World Model),在目标驱动的情况下模拟跳跃式状态转换,并通过放大单张图像中的特定区域计算相应的功用性图(Affordance Map)来实现在有限的状态转移步数内扩展智能体的想象范围,使其能够探索可能带来有利长期回报的行为。加群通过小助手认证,群内无广告。,师从徐君教授,研究方向为大模型工具学习,信息检索等,在ICLR,SIGIR,CIKM等国际学术会议上发表过论文。
2025-03-27 17:54:03
25
原创 头部高校与公司联合发布:长上下文语言模型建模综述!
而长上下文语言模型(LCLMs)的出现,让处理托尔斯泰《战争与和平》级别的56万字文本,从60小时人工阅读压缩到几分钟计算。:Transformer的二次革命正在发生,从经典注意力到Mamba架构,再到混合架构(Hybrid),研究者正在寻找效率与性能的黄金平衡点。其中最有趣的发现是:通过NTK频率缩放技术,可以让模型自动调节高频/低频信号的接收范围,就像给AI装上可调焦的望远镜。最硬核的当属"GPU-CPU并行推理",就像让CPU当GPU的"记忆外挂",把KV缓存存在CPU内存,需要时闪电调用。
2025-03-26 19:35:41
475
转载 从优化角度看:怎样的奖励模型才能成为好的“老师”?
与定理 2 的结论一致,一个虽然准确率极高但引起的奖励方差较小的奖励模型(红色标记)在表现上不如一些准确率较低的模型。图中展示的是 proxy 奖励(左侧,即训练中使用的奖励)和 ground truth 奖励(右侧)的提升情况,针对每组初始策略与奖励模型组合进行绘制,结果取三次运行的平均值(误差条表示标准差)。另一方面,即使奖励模型的准确率非常高,若其奖励方差较小,则目标函数的地形会变得平坦,进而削弱策略梯度方法的优化效率(我们在第 3 节中进行了理论证明,并在第 4 节中通过实验证实了这一点)。
2025-03-26 19:35:41
32
转载 理解 R1-Zero-Like 训练:一种批判性视角 | 原作者分析
1b) 作为 R1-Zero-like 训练中热门的选择,Qwen2.5 基础模型即使在没有提示模板的情况下,也展示了强大的推理能力:平均基准得分立即提升约 60%。2b) 值得注意的是,尽管 PPO 的公式本身是无偏的,但几乎所有开源实现在计算 masked_mean 时都会引入长度偏差。我们的新优化器无偏且具有更好的 token 效率(避免 GRPO 逐步生成越来越长的错误回答)。1a) 和 1b) 暗示,在强化学习通过奖励信号进一步强化之前,基础模型预训练中已经存在自我反思行为和数学解题能力的偏差。
2025-03-25 20:01:20
37
原创 大模型个性化生成综述!AI私人订制,试衣、写作、拍视频!
过去,AI生成内容像是“流水线产品”,比如ChatGPT的回答、Stable Diffusion的图片,虽然强大但千篇一律。论文提出,PGen的核心是两大输入:个性化上下文(你的年龄、行为、长相)和多模态指令(文字/语音指令)。这篇论文首次系统梳理了“个性化生成”(PGen)领域,提出了一套完整的理论框架,并预言未来每个人都能拥有“数字分身”,让AI真正为你服务。或许不久后,每个人都能拥有“数字分身”,TA记得你所有喜好,帮你写稿、做视频、甚至代替你开会——而这一切,都始于今天这篇论文的蓝图。
2025-03-25 20:01:20
271
原创 先想后画!多模态CoT让AI具备语义-空间双推理链条!
GoT通过给AI装上“思维导图”外挂,让图像生成从“直男式输出”变成“逻辑控创作”。比如“数数任务”得分0.67,比CLIP系方法高出一大截,终于不用再担心AI把“三只猫”画成“猫三头”了。比如把“戴红围巾的企鹅”改成“戴蓝帽子的企鹅”,AI会立刻调整对应坐标和描述重新生成,就像给AI发微信:“亲,这里改一下呗~”比如生成“雪地里戴围巾的企鹅”时,AI会先推理:“企鹅(坐标X,Y)站在雪地中央,红色围巾(坐标A,B)绕在脖子上,背景是雪山(坐标C,D)……文本生成:从“灵魂画手”到“细节控”
2025-03-24 13:44:49
930
转载 综述 | 上交联合Amazon和耶鲁提出:从CoT Reasoning到语言Agent的搭便车指南
此外,文章还深入探讨了思维链在语言智能体构建中的关键作用,涵盖从推理机制到感知、记忆、行动等多个维度的范式变革,为理解和构建具备推理能力的智能体提供了清晰的技术路线与未来展望。例如,OpenAI 的 o1 模型以及Deepseek-R1模型通过在推理阶段模拟人类的思考过程,进行多步骤的慢思考推理,最终选择最优答案,从而提升了模型的推理能力。研究结果表明提示示例中错误的推理过程并不会导致显著的性能下降,即使在示例中提供了无效的推理步骤,大型语言模型(LLM)仍能生成连贯的推理步骤,并达到80-90%的性能。
2025-03-24 13:44:49
26
转载 招生 | 北语信科学院BLCU-ICALL实验室招收研究生啦
2008年起,一直担任《中国语言生活状况报告》绿皮书副主编,承担年度“汉语盘点”的中国媒体流行语、各领域焦点名词的监测与发布;带领语言监测与智能学习研究团队,承担动态流通语料库的建设,先后研制、发布了大规模汉语语料库检索平台(DCC 2.0)、汉语学习者文本多维标注数据集YACLC 1.0、汉语受控难度释义生成数据集和汉语文本复杂度分析平台(CTAP)等。实验室凝聚力强,同门精诚团结,充满活力。北京语言大学教授、博士生导师,国家语言资源监测与研究平面媒体中心主任,《中文信息学报》副主编。
2025-03-24 13:44:49
31
转载 AI 百万招聘
Senior Software Engineer, r, Data/ML Platform,深圳,P7-P8,推荐奖2W-3W。ai agent,负责人工智能在区块链场景的实现与落地远程,40W-70W,推荐奖1W。infra,5-10年经验,infra相关,深圳,P7-P8,推荐奖2W-3W。AI Infra(训练/推理框架),京/沪,薪资open,推荐奖1W-2W。AI算法研究员,京/沪/广/深,薪资open,推荐奖1W-2W。自然语言处理,上海,50W-100W,推荐奖1W-2W。
2025-03-24 13:44:49
33
转载 直播预告 | 多模态推理CoT全面综述
现有的MCoT研究设计了多种方法和创新的推理范式,以应对图像、视频、语音、音频、3D以及结构化数据等不同模态中的独特挑战,并在机器人技术、医疗保健、自动驾驶和多模态生成等应用中取得了广泛的成功。然而,MCoT仍然面临着独特的挑战和机遇,需要进一步关注,以确保该领域的持续发展,遗憾的是,当前缺乏对该领域的最新综述。每周进行学术分享,形式包括圆桌会议、主题分享、单篇论文深度分享等,内容覆盖论文分享、科研小白入门、PhD择业等所有学术领域。多模态大语言模型的推理进化: 多模态思维链全面综述。
2025-03-23 19:21:19
27
原创 42美元训练24小时!1.5B小模型逆袭o1,OpenAI方法论被开源了?
团队灵机一动,把难题和简单题按3:3:1的比例混合(共7000题),同时放宽长度限制。用1.8万道数学题训练,模型前100步进步神速,AMC竞赛准确率从63%飙到70%。大型语言模型(比如GPT-4)虽然聪明,但训练成本动辄数百万美元,普通机构根本玩不起。传统强化学习需要额外训练一个“裁判模型”来打分,但GRPO直接用同一批答案互相比较,省掉了复杂步骤。:1.5B参数的Open-RS3模型,部分成绩甚至碾压70B参数的Llama-3.1。:模型偶尔还是会切换成其他语言,暴露了多语言底层的“基因”。
2025-03-23 19:21:19
406
原创 LLM-based Agent评估综述!
但如今的AI智能体(LLM-based agents)已经进阶为“行动派”——它们能规划任务、调用工具(比如订机票)、记住对话历史,甚至自我纠错。比如解决数学题时,先列公式再计算。:参数不明确时(如“找人均200元的餐厅”),AI能否推理出隐含条件?:AI在单任务表现尚可,但跨任务切换(如边写代码边查文献)容易翻车。:当前agent擅长短期规划,但长期战略(如策划一周旅行)仍吃力。:AI在简单任务上表现尚可,但复杂项目(如连续工作一周)漏洞百出。:顶尖AI的通过率仅2%,复杂任务(如跨文件修改)仍是难关。
2025-03-22 19:44:59
673
原创 Multi-Agent系统为何常“翻车”?伯克利指出其具有人类合作所有坏毛病!
结果交付的产品漏洞百出,团队成员互相甩锅,甚至有人擅自篡改需求——这不是职场剧,而是当前多智能体LLM系统的真实写照!论文对ChatDev等5大主流框架的测试显示,最差情况下系统正确率仅25%,还不如单兵作战的AI(例如Best-of-N采样)。论文披露了一个经典翻车现场:用户要求开发支持国际象棋标准记谱法(如Qd4)的游戏,结果Agent团队交付的版本只能用(x1,y1)坐标输入。研究者发现,即便给验证AI开外挂(用GPT-4o审核),仍有23%的失败无法避免。数据显示,47%的失败可追溯至验证环节。
2025-03-22 19:44:59
363
转载 亲自说说字节 TopSeed 怎么样!
最近我们也开源了一项工作 DAPO (https://mp.weixin.qq.com/s/_ w_HtjNQiG-yP5LEN85o0Q),整理了之前探索出来的一些 RL技术在 Qwen-32B pretrain model 上跑了实验,和 DeepSeek 使用的 GRPO 公平对比(相同base model纯做RL,不引入蒸馏等其他变量),结果显示我们在性能和效率上都有优势。”前后将近一两个月的时间,我几乎睡在公司,经常凌晨两点兴奋地惊醒,满脑子都是新的 idea,爬起来写两小时代码,五点再睡。
2025-03-21 19:03:52
43
原创 停止过度思考!一篇关于高效Reasoning的综述来了~
LLMs 通过链式推理(Chain-of-Thought, CoT)在数学、编程等复杂任务中表现出色,但生成的冗长推理步骤导致显著的计算开销,即“过思考现象”(Overthinking Phenomenon)。论文系统梳理了高效推理的研究进展,提出模型优化、动态压缩、提示工程三大方向,并强调小模型推理能力提升的重要性(如蒸馏与量化)。:通过后处理压缩(如GPT-4精简步骤)或推理中动态生成(如Token-Budget的二元搜索)。:Coconut将推理步骤编码为连续隐藏状态,减少显式文本生成,提升效率。
2025-03-21 19:03:52
334
转载 NICE50期论坛 | 大模型的高效新能源:数据合成与自动化评估
为了解决这一问题,我们提出了一种简单的策略叫做混合蒸馏(Mix Distillation),它通过以一定比例混合长短 CoT 数据或混合更大和更小的教师模型的蒸馏数据。论文介绍:(题目:AI监督带来的风险和挑战)基于大模型的数据合成和评估已经成为模型开发的常见范式,然而由于数据合成模型和评估模型相关性所带来的潜在污染问题却缺乏探索。,在ACL,EMNLP,NAACL等顶级会议发表多篇论文,同时担任ARR,ICLR,NeurIPS,AISTATS等国际会议审稿人。,其主要研究方向为可信赖的生成式模型。
2025-03-20 14:35:23
26
转载 CVPR 2025 | AI+足球!UniSoccer带你通往“足球大模型”之路
此外,数据集还包含了丰富的元数据,如球员、教练、裁判和球队信息,为未来的研究提供了坚实的基础。如图所示,MatchVision框架在结合不同下游任务时均体现了更加出色的效果,包括 (a)更加细致的语言描述 (b)更多样化的语言表达 (c)更高的描述准确性 (d) 更时兴的足球规则展现 (e) 更具体的足球场景理解等等。过往对于足球理解任务的架构和数据形式五花八门、各自芬芳,本工作基于过往工作中出现的一些不足之处进行了统筹和改进,从而更好的实现对于足球任务的通用理解。
2025-03-20 14:35:23
107
原创 这篇Long CoT Reasoning综述隐藏好多idea啊!
数学(GSM8K)、编程(HumanEval)、常识(BIG-Bench Hard)等任务的多样化指标(如Pass@k、Cons@k)。:Short CoT受限于浅层线性推理(如公式1中的节点数限制),而Long CoT通过放宽节点边界(公式2)支持更复杂的逻辑结构。:支持多层次逻辑分析,例如通过自然语言(如CodeI/O)、结构化语言(如数学符号推理)或隐空间操作(如递归块)实现。:涵盖人工标注(如GSM8K)、蒸馏数据(如NuminaMath-CoT)和验证数据(如KodCode-V1)。
2025-03-20 14:35:23
706
原创 多模态思维链(MCoT)综述:迈向通用人工智能的关键一步
为例,早期模型Multimodal-CoT通过生成中间理性步骤提升视觉问答(VQA)性能,而SoT模型则动态选择推理范式(概念链、符号分块),模仿人类认知策略。:分为提示驱动、计划驱动与学习驱动。MCoT的发展时间轴:从早期文本模型(如GPT-3)到多模态大模型(如GPT-4V、LLaVA),MCoT逐步融合跨模态交互,成为自动驾驶、医疗等领域的核心技术。:异步模态建模(如IPVR模型的“看-想-确认”三阶段)、定义化流程(如BDoG的辩论-总结框架)与自主流程(如DDCoT的动态问题分解)。
2025-03-19 15:21:09
1001
转载 大模型对齐论文专题分享@ICLR2025
与此同时,一个很自然的问题是:我们显然无限制的标注数据,即使无需考虑成本,随着模型越来越强,标注问题本身的难度已经逐渐超过了绝大多数标注人员的水平。在多轮DPO的实验上,结果证明了,使用模型自身合成的弱监督信号也能够带来持续的提升。:本工作从模仿学习 (IL) 的视角研究了大语言模型 (LLM) 与偏好数据的对齐问题,建立了基于人类反馈的强化学习 (RLHF) 与模仿学习之间的紧密理论联系,揭示了 RLHF 的本质: 它并非传统意义上的强化学习,而是在偏好数据分布上隐式执行模仿学习。
2025-03-19 15:21:09
31
转载 TrustAgent Survey: 关于可信 LLM Agent 的综述
通过深入研究和总结新出现的针对代理和多智能体系统的攻击、防御和评估方法,TrustAgent Survey 将可信 LLM 的概念扩展到可信 Agent 的新兴范式。外部可信度关注与 Agent 系统交互的外部模块的可信度。TrustAgent Survey 将与外部模块的交互分为三类:Agent 与 Agent、Agent 与环境和 Agent 与用户。在 TrustAgent Survey 的定义中,Agent 系统是一个具有类人认知的独立实体,由具有记忆的大脑和工具形式的行为组成。
2025-03-19 15:21:09
36
原创 免训练的VLM剪枝方法!砍75% Token,仅牺牲0.6%效果,速度飙升
它把每个token当作图中的节点,计算它们之间的余弦相似度,构建一个“谁和谁长得像”的关系网。接着,SAINT像侦探一样,通过节点度数(邻居数量)和相似度分数,揪出那些“混日子”的冗余token,然后无情踢出群聊!SAINT就像给模型装上了“智能节能模式”,通过动态剪枝冗余token,让ViT和VLM在保持智商的同时跑出博尔特的速度!作者团队祭出了SAINT这个“训练免费”的剪枝神器,通过动态分析token的相似性,像精准的园丁一样修剪冗余部分,让模型跑得飞快还不掉性能!
2025-03-18 19:31:13
413
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人